このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200229となっている論文です。

PDF登録状況(公開日: 20200229)

TitleAuthorsAbstract論文公表日・翻訳日
# 階層強化学習による弱教師付きビデオ要約

Weakly Supervised Video Summarization by Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2001.05864v2 )

ライセンス: Link先を確認
Yiyan Chen, Li Tao, Xueting Wang and Toshihiko Yamasaki(参考訳) 強化学習に基づく従来の映像要約手法は,要約生成後にのみ報酬を受け取ることができるという問題がある。 このような報酬は希少であり、強化学習の収束を難しくしている。 もうひとつの問題は、各フレームのラベル付けが面倒でコストがかかることだ。 これらの問題を解決するために,タスク全体を複数のサブタスクに分解して要約品質を向上させる,階層的強化学習フレームワークを提案する。 このフレームワークは、マネージャネットワークとワーカーネットワークで構成される。 各サブタスクに対して、マネージャはタスクレベルのバイナリラベルによってのみサブゴールを設定するようにトレーニングされる。 サブゴールのガイドでは、グローバル報酬と革新的サブワードの両方に応じて政策勾配によってサブタスクにおけるビデオフレームの重要性スコアを予測し、スパース問題を克服する。 2つのベンチマークデータセットの実験は、我々の提案が教師付きアプローチよりも優れたパフォーマンスを達成したことを示している。

Conventional video summarization approaches based on reinforcement learning have the problem that the reward can only be received after the whole summary is generated. Such kind of reward is sparse and it makes reinforcement learning hard to converge. Another problem is that labelling each frame is tedious and costly, which usually prohibits the construction of large-scale datasets. To solve these problems, we propose a weakly supervised hierarchical reinforcement learning framework, which decomposes the whole task into several subtasks to enhance the summarization quality. This framework consists of a manager network and a worker network. For each subtask, the manager is trained to set a subgoal only by a task-level binary label, which requires much fewer labels than conventional approaches. With the guide of the subgoal, the worker predicts the importance scores for video frames in the subtask by policy gradient according to both global reward and innovative defined sub-rewards to overcome the sparse problem. Experiments on two benchmark datasets show that our proposal has achieved the best performance, even better than supervised approaches.
翻訳日:2023-01-12 04:41:21 公開日:2020-02-29
# 北大西洋右クジラの鳴き声検出におけるディープニューラルネットワークの性能

Performance of a Deep Neural Network at Detecting North Atlantic Right Whale Upcalls ( http://arxiv.org/abs/2001.09127v2 )

ライセンス: Link先を確認
Oliver S. Kirsebom, Fabio Frazao, Yvan Simard, Nathalie Roy, Stan Matwin, Samuel Giard(参考訳) パッシブアコースティックスは絶滅危惧の北大西洋右ホエール(eubalaena$$$glacialis$)を監視する強力なツールを提供するが、多様で可変な音響条件と記録技術や装置の違いを扱うには、ロバストな検出アルゴリズムが必要である。 本稿では,このニーズに対処するためのディープニューラルネットワークの可能性を検討する。 画像認識に一般的に使用されるアーキテクチャであるresnetは、特徴的な北大西洋右クジラの鳴き声の時間周波数表現を認識するように訓練されている。 このネットワークは、セント湾の様々な場所で記録された数千の例に基づいて訓練されている。 さまざまな機器とデプロイメント技術を使用して、2018年と2019年にLawrenceを名乗った。 2015年から2017年にかけて、1000以上のアップコールを含む50件の30分間の記録を検出アルゴリズムとして使用すると、ネットワークは最大80%のリコールを達成し、90%の精度を維持している。 ネットワークの性能はトレーニングデータセットにより多くの分散を導入するにつれて向上するが、従来の線形判別分析手法では逆の傾向が観察される。 我々の研究は、ディープニューラルネットワークを訓練することで、北大西洋の右クジラの鳴き声を多様で可変な条件下で識別し、既存のアルゴリズムと好適に比較できることを示した。

Passive acoustics provides a powerful tool for monitoring the endangered North Atlantic right whale ($Eubalaena$ $glacialis$), but robust detection algorithms are needed to handle diverse and variable acoustic conditions and differences in recording techniques and equipment. Here, we investigate the potential of deep neural networks for addressing this need. ResNet, an architecture commonly used for image recognition, is trained to recognize the time-frequency representation of the characteristic North Atlantic right whale upcall. The network is trained on several thousand examples recorded at various locations in the Gulf of St.\ Lawrence in 2018 and 2019, using different equipment and deployment techniques. Used as a detection algorithm on fifty 30-minute recordings from the years 2015-2017 containing over one thousand upcalls, the network achieves recalls up to 80%, while maintaining a precision of 90%. Importantly, the performance of the network improves as more variance is introduced into the training dataset, whereas the opposite trend is observed using a conventional linear discriminant analysis approach. Our work demonstrates that deep neural networks can be trained to identify North Atlantic right whale upcalls under diverse and variable conditions with a performance that compares favorably to that of existing algorithms.
翻訳日:2023-01-07 05:33:07 公開日:2020-02-29
# 機械学習における制限の階層

A Hierarchy of Limitations in Machine Learning ( http://arxiv.org/abs/2002.05193v2 )

ライセンス: Link先を確認
Momin M. Malik(参考訳) ジョージ・E・P・ボックス(1979年)は「全てのモデルは間違っているが役に立つものもある。 機械学習は、社会システムにおける予測のための確率モデルの有用性に焦点を合わせてきたが、現在ではこれらのモデルが間違っている方法に不満を抱いている。 本稿では,機械学習におけるモデルの具体的概念,手続き的,統計的制約の包括的,構造化された概観を社会に適用することを試みる。 機械学習モデラー自身は、記述された階層を使って、可能な障害点を特定し、それらに対処する方法を考えることができる。 制限は、定量化自体に固有のコミットメントから、モデルパフォーマンスを評価する方法としてのクロスバリデーションが過度に楽観的になる可能性を示すことまで及んでいる。

"All models are wrong, but some are useful", wrote George E. P. Box (1979). Machine learning has focused on the usefulness of probability models for prediction in social systems, but is only now coming to grips with the ways in which these models are wrong---and the consequences of those shortcomings. This paper attempts a comprehensive, structured overview of the specific conceptual, procedural, and statistical limitations of models in machine learning when applied to society. Machine learning modelers themselves can use the described hierarchy to identify possible failure points and think through how to address them, and consumers of machine learning models can know what to question when confronted with the decision about if, where, and how to apply machine learning. The limitations go from commitments inherent in quantification itself, through to showing how unmodeled dependencies can lead to cross-validation being overly optimistic as a way of assessing model performance.
翻訳日:2023-01-01 20:04:21 公開日:2020-02-29
# Query2box:Box Embeddingsを使用したベクトル空間の知識グラフの推論

Query2box: Reasoning over Knowledge Graphs in Vector Space using Box Embeddings ( http://arxiv.org/abs/2002.05969v2 )

ライセンス: Link先を確認
Hongyu Ren, Weihua Hu, Jure Leskovec(参考訳) 大規模不完全知識グラフ(KGs)上の複雑な論理的クエリーの解答は、基本的だが難しい課題である。 近年、この問題に対する有望なアプローチは、クエリに応答するエンティティがクエリの近くに埋め込まれるように、クエリだけでなくKGエンティティをベクトル空間に埋め込むことである。 しかし、事前の作業モデルはベクトル空間の単一点としてクエリをクエリするが、これは複雑なクエリがその答えエンティティの潜在的に大きな集合を表すため問題であるが、そのような集合が単一点として表現できるかどうかは不明である。 さらに、以前の作業では、コンビネーション($\wedge$)と存在量化子($\exists$)を使用するクエリのみを扱うことができる。 論理的解離($\vee$)でクエリを処理することは、未解決の問題である。 ここでは、$\wedge$, $\vee$, $\exists$演算子を大量かつ不完全なKGで任意のクエリを推論するための埋め込みベースのフレームワークであるQuery2boxを提案する。 私たちの主な洞察は、クエリをボックス(すなわちハイパー矩形)として埋め込むことができ、ボックス内のポイントのセットがクエリの応答エンティティのセットに対応することです。 接続は自然に箱の交叉として表現でき、また、解離の扱いには KG 実体の数に比例する次元の埋め込みが必要であるという負の結果も証明できる。 しかし、クエリを断続的な正規形式に変換することによって、query2boxは、スケーラブルな方法で$\wedge$、$\vee$、$\exists$で任意の論理クエリを処理できることを示します。 我々は,3つの大きな kg に対して query2box の有効性を実証し,query2box が最高25% の相対的改善を達成していることを示す。

Answering complex logical queries on large-scale incomplete knowledge graphs (KGs) is a fundamental yet challenging task. Recently, a promising approach to this problem has been to embed KG entities as well as the query into a vector space such that entities that answer the query are embedded close to the query. However, prior work models queries as single points in the vector space, which is problematic because a complex query represents a potentially large set of its answer entities, but it is unclear how such a set can be represented as a single point. Furthermore, prior work can only handle queries that use conjunctions ($\wedge$) and existential quantifiers ($\exists$). Handling queries with logical disjunctions ($\vee$) remains an open problem. Here we propose query2box, an embedding-based framework for reasoning over arbitrary queries with $\wedge$, $\vee$, and $\exists$ operators in massive and incomplete KGs. Our main insight is that queries can be embedded as boxes (i.e., hyper-rectangles), where a set of points inside the box corresponds to a set of answer entities of the query. We show that conjunctions can be naturally represented as intersections of boxes and also prove a negative result that handling disjunctions would require embedding with dimension proportional to the number of KG entities. However, we show that by transforming queries into a Disjunctive Normal Form, query2box is capable of handling arbitrary logical queries with $\wedge$, $\vee$, $\exists$ in a scalable manner. We demonstrate the effectiveness of query2box on three large KGs and show that query2box achieves up to 25% relative improvement over the state of the art.
翻訳日:2023-01-01 03:37:52 公開日:2020-02-29
# ride: プロセス生成環境におけるインパクト駆動探索の報酬

RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated Environments ( http://arxiv.org/abs/2002.12292v2 )

ライセンス: Link先を確認
Roberta Raileanu and Tim Rockt\"aschel(参考訳) スパース報酬環境における探索は、モデルフリー強化学習の重要な課題の1つだ。 環境によって提供される極端な報酬のみに頼る代わりに、多くの最先端の手法は探索を促進するために内在的な報酬を使用する。 しかし,エージェントが1回以上訪問しないような手続き的に生成された環境では,既存の手法が不足していることを示す。 我々は,エージェントが学習状態表現に大きな変化をもたらす行動を取ることを奨励する,新しいタイプの内在的報酬を提案する。 提案手法は, minigrid における複数の手続き的生成タスクと,事前作業で使用される高次元観測タスクについて評価する。 実験により,本手法は既存の探査方法,特に手続き的に生成されたMiniGrid環境において,より有効であることが示された。 さらに,学習した行動や,エージェントが受ける内在的な報酬についても分析した。 従来のアプローチとは対照的に、我々の本質的な報酬はトレーニングの過程で減少せず、エージェントが制御できるオブジェクトとの相互作用に大きく貢献する。

Exploration in sparse reward environments remains one of the key challenges of model-free reinforcement learning. Instead of solely relying on extrinsic rewards provided by the environment, many state-of-the-art methods use intrinsic rewards to encourage exploration. However, we show that existing methods fall short in procedurally-generated environments where an agent is unlikely to visit a state more than once. We propose a novel type of intrinsic reward which encourages the agent to take actions that lead to significant changes in its learned state representation. We evaluate our method on multiple challenging procedurally-generated tasks in MiniGrid, as well as on tasks with high-dimensional observations used in prior work. Our experiments demonstrate that this approach is more sample efficient than existing exploration methods, particularly for procedurally-generated MiniGrid environments. Furthermore, we analyze the learned behavior as well as the intrinsic reward received by our agent. In contrast to previous approaches, our intrinsic reward does not diminish during the course of training and it rewards the agent substantially more for interacting with objects that it can control.
翻訳日:2022-12-28 07:28:40 公開日:2020-02-29
# Human-in-the-Loopデザインサイクル - デザインスプリント、アジャイルプロセス、機械学習を人間と統合するプロセスフレームワーク

Human-in-the-Loop Design Cycles -- A Process Framework that Integrates Design Sprints, Agile Processes, and Machine Learning with Humans ( http://arxiv.org/abs/2003.05268v1 )

ライセンス: Link先を確認
Chaehan So(参考訳) 機械学習モデルのバックボックスの性質の透明性向上に対する需要は、機械学習におけるヒューマン・イン・ザ・ループの近年の台頭、すなわち機械学習モデルのトレーニングと応用に人間を統合するプロセスにつながっている。 本研究は、このプロセス要件が障害ではなく、設計プロセスを最適化する機会であると主張する。 そこで本研究では,新しいプロセスフレームワークであるhuman-in-the-learning-loop (hill) design cycles - アジャイルとデザイン思考プロセスの構造要素を統合し,ループ内の人間による機械学習モデルのトレーニングを制御するデザインプロセスを提案する。 hill design cyclesプロセスは、デザイン知覚のための定量的心理測定器によって質的ユーザテストを置き換える。 生成されたユーザフィードバックは、マシンラーニングモデルをトレーニングし、次の設計サイクルを4つの設計次元(ノベルティ、エネルギ、シンプルさ、ツール)に沿って指示するのに役立つ。 4次元のユーザーフィードバックをユーザストーリーと優先順位にマッピングすることで、デザインスプリントはユーザフィードバックを実装プロセスに直接変換します。 ループ内の人間は品質エンジニアであり、収集したユーザフィードバックを調査し、不正なデータが機械学習モデルトレーニングに入るのを防ぐ。

Demands on more transparency of the backbox nature of machine learning models have led to the recent rise of human-in-the-loop in machine learning, i.e. processes that integrate humans in the training and application of machine learning models. The present work argues that this process requirement does not represent an obstacle but an opportunity to optimize the design process. Hence, this work proposes a new process framework, Human-in-the-learning-loop (HILL) Design Cycles - a design process that integrates the structural elements of agile and design thinking process, and controls the training of a machine learning model by the human in the loop. The HILL Design Cycles process replaces the qualitative user testing by a quantitative psychometric measurement instrument for design perception. The generated user feedback serves to train a machine learning model and to instruct the subsequent design cycle along four design dimensions (novelty, energy, simplicity, tool). Mapping the four-dimensional user feedback into user stories and priorities, the design sprint thus transforms the user feedback directly into the implementation process. The human in the loop is a quality engineer who scrutinizes the collected user feedback to prevents invalid data to enter machine learning model training.
翻訳日:2022-12-27 21:03:57 公開日:2020-02-29
# リジッド・ボディ機構の逆運動学解法における遠位教師学習と数値解析法の比較

Comparison of Distal Teacher Learning with Numerical and Analytical Methods to Solve Inverse Kinematics for Rigid-Body Mechanisms ( http://arxiv.org/abs/2003.00225v1 )

ライセンス: Link先を確認
Tim von Oehsen, Alexander Fabisch, Shivesh Kumar and Frank Kirchner(参考訳) いくつかの出版物は逆キネマティクスの学習に関心があるが、その評価は限定的であり、提案手法のどれも既知のフォワードモデルによる剛体キネマティクスの実践的関連性はない。 我々は、剛体キネマティックスにとって、逆キネマティックスに対する最初の提案された機械学習(ml)ソリューションの1つである遠位キネマティックス(dt)は、微分可能なプログラミングライブラリと組み合わせれば、実際には十分であると主張している。 特に,解決率,精度,サンプル効率,スケーラビリティを分析した。 さらに, DTが関節限界, 特異点, 到達不能ポーズ, 軌道をどう扱うかについて検討し, 実行時間の比較を行った。 3つのアプローチは複雑度が異なる3つの異なる剛体機構で評価される。 十分なトレーニングデータと緩和精度の要求により、DTはより優れた解法率を持ち、15-DoF機構のための最先端の数値解法よりも高速である。 DTは特異性に影響されないが、数値解はそれらに対して脆弱である。 他のすべての場合、数値解は通常より優れている。 分析ソリューションは、利用可能であれば他のアプローチをはるかに上回る。

Several publications are concerned with learning inverse kinematics, however, their evaluation is often limited and none of the proposed methods is of practical relevance for rigid-body kinematics with a known forward model. We argue that for rigid-body kinematics one of the first proposed machine learning (ML) solutions to inverse kinematics -- distal teaching (DT) -- is actually good enough when combined with differentiable programming libraries and we provide an extensive evaluation and comparison to analytical and numerical solutions. In particular, we analyze solve rate, accuracy, sample efficiency and scalability. Further, we study how DT handles joint limits, singularities, unreachable poses, trajectories and provide a comparison of execution times. The three approaches are evaluated on three different rigid body mechanisms with varying complexity. With enough training data and relaxed precision requirements, DT has a better solve rate and is faster than state-of-the-art numerical solvers for a 15-DoF mechanism. DT is not affected by singularities while numerical solutions are vulnerable to them. In all other cases numerical solutions are usually better. Analytical solutions outperform the other approaches by far if they are available.
翻訳日:2022-12-27 21:02:25 公開日:2020-02-29
# Omni-Adaptive Grasp Learningのための再構成可能設計

Reconfigurable Design for Omni-adaptive Grasp Learning ( http://arxiv.org/abs/2003.01582v1 )

ライセンス: Link先を確認
Fang Wan, Haokun Wang, Jiyuan Wu, Yujia Liu, Sheng Ge, Chaoyang Song(参考訳) ロボットグリッパーのエンジニアリングデザインは、ロバストな把持のための最適化のための十分な設計空間を提供する。 本稿では,このロボットグリッパーを,全方向適応した新しいソフトフィンガー構造を用いて再構成可能設計し,これらの指を並べ替えることで多数のグリッパー構成を発生させる。 このような全適応指を用いた再構成可能な設計により,ロバストな把持に向けた指の最適配置を体系的に検討できる。 さらに,各設計構成の有効性をベンチマークするベースラインとして,学習に基づく手法を採用する。 その結果、ycbデータセットから選択した新規および新規のオブジェクトに対して、平均96\%の把持成功率を達成するためには、3フィンガーおよび4フィンガーラジアル構成が最も効果的であることが判明した。 また,手指に対する摩擦面の影響についても検討した。

The engineering design of robotic grippers presents an ample design space for optimization towards robust grasping. In this paper, we adopt the reconfigurable design of the robotic gripper using a novel soft finger structure with omni-directional adaptation, which generates a large number of possible gripper configurations by rearranging these fingers. Such reconfigurable design with these omni-adaptive fingers enables us to systematically investigate the optimal arrangement of the fingers towards robust grasping. Furthermore, we adopt a learning-based method as the baseline to benchmark the effectiveness of each design configuration. As a result, we found that a 3-finger and 4-finger radial configuration is the most effective one achieving an average 96\% grasp success rate on seen and novel objects selected from the YCB dataset. We also discussed the influence of the frictional surface on the finger to improve the grasp robustness.
翻訳日:2022-12-27 21:01:59 公開日:2020-02-29
# Omni-Adaptive Soft Robot Fingerのためのスケーラブルな触覚センシング

Scalable Tactile Sensing for an Omni-adaptive Soft Robot Finger ( http://arxiv.org/abs/2003.01583v1 )

ライセンス: Link先を確認
Zeyi Yang, Sheng Ge, Fang Wan, Yujia Liu, Chaoyang Song(参考訳) 柔らかい材料と適合した構造で作られたロボットの指は、通常、非構造的な物理的環境と相互作用する際に優れた適応をもたらす。 本稿では,全方向を順応した全適応型ソフトロボット指に対して光ファイバを用いた組込みセンシングソリューションを提案する。 特に, 適応性能に干渉することなく, 一対の光ファイバーを指の構造空洞内に挿入することができた。 この統合は、物理的に安全な人間とロボットの相互作用のための、多用途で低コストで耐湿性のあるソリューションとしてスケーラブルである。 さらに,対象ソートタスクの指設計を実験し,$\pm$6mmの誤差で94\%の物体の断面径を同定し,$\pm$0.1mm/mmの誤差で構造ひずみの80\%を測定した。 センサの設計は、非構造環境におけるスケーラブルで適応的な物理的相互作用のためのソフトロボティクスの将来の応用に多くの扉を開く。

Robotic fingers made of soft material and compliant structures usually lead to superior adaptation when interacting with the unstructured physical environment. In this paper, we present an embedded sensing solution using optical fibers for an omni-adaptive soft robotic finger with exceptional adaptation in all directions. In particular, we managed to insert a pair of optical fibers inside the finger's structural cavity without interfering with its adaptive performance. The resultant integration is scalable as a versatile, low-cost, and moisture-proof solution for physically safe human-robot interaction. In addition, we experimented with our finger design for an object sorting task and identified sectional diameters of 94\% objects within the $\pm$6mm error and measured 80\% of the structural strains within $\pm$0.1mm/mm error. The proposed sensor design opens many doors in future applications of soft robotics for scalable and adaptive physical interactions in the unstructured environment.
翻訳日:2022-12-27 21:01:46 公開日:2020-02-29
# ロバスト把持のための剛体ソフト対話型学習

Rigid-Soft Interactive Learning for Robust Grasping ( http://arxiv.org/abs/2003.01584v1 )

ライセンス: Link先を確認
Linhan Yang, Fang Wan, Haokun Wang, Xiaobo Liu, Yujia Liu, Jia Pan, Chaoyang Song(参考訳) そこで本研究では,データ収集時間を削減することを目的とした,ソフトなソフトな対話型学習法を提案する。 本稿では, グリッパーと対象物との相互作用面に応じて, 剛剛剛性, 剛軟, 軟剛性に分類した。 学習手法において,グリップパーと対象物との相互作用型が重要な役割を担っていることを示す。 また,Yale-CMU-Berkeley(YCB)オブジェクトのような固い日常的なアイテムを扱う際に,握り指をソフトなものに変更することにより,統合の複雑さと計算負担を低減し,そのような硬いソフトなインタラクションを活用する。 また,5Kピッキングによるデータ収集では,Rigid-SoftとSoft-Rigidの相互作用が転送可能であることが示唆された。 また, 異なる把持型の組み合わせにより, 把持テストの性能が向上した。 簡単なycbオブジェクトでは97.5\%,難しいycbオブジェクトでは81.3\%,2本のソフトフィンガーグリッパーでは81.3\%で,トレーニングデータとパワーグリップを4本のソフトフィンガーグリッパーで収集してテストする。

Inspired by widely used soft fingers on grasping, we propose a method of rigid-soft interactive learning, aiming at reducing the time of data collection. In this paper, we classify the interaction categories into Rigid-Rigid, Rigid-Soft, Soft-Rigid according to the interaction surface between grippers and target objects. We find experimental evidence that the interaction types between grippers and target objects play an essential role in the learning methods. We use soft, stuffed toys for training, instead of everyday objects, to reduce the integration complexity and computational burden and exploit such rigid-soft interaction by changing the gripper fingers to the soft ones when dealing with rigid, daily-life items such as the Yale-CMU-Berkeley (YCB) objects. With a small data collection of 5K picking attempts in total, our results suggest that such Rigid-Soft and Soft-Rigid interactions are transferable. Moreover, the combination of different grasp types shows better performance on the grasping test. We achieve the best grasping performance at 97.5\% for easy YCB objects and 81.3\% for difficult YCB objects while using a precise grasp with a two-soft-finger gripper to collect training data and power grasp with a four-soft-finger gripper to test.
翻訳日:2022-12-27 21:01:31 公開日:2020-02-29
# 深層学習の株式市場予測への応用--最近の進歩

Applications of deep learning in stock market prediction: recent progress ( http://arxiv.org/abs/2003.01859v1 )

ライセンス: Link先を確認
Weiwei Jiang(参考訳) 株式市場の予測は古典的だが難しい問題であり、経済学者もコンピューター科学者も注目している。 効果的な予測モデルを構築するために、線形ツールと機械学習ツールの両方が過去数十年にわたって研究されてきた。 近年、このトピックの新しいフロンティアとしてディープラーニングモデルが導入されており、迅速な開発が追いつくには早すぎる。 したがって、この調査の動機は、株式市場予測のためのディープラーニングモデルに関する最近の研究の最新レビューを提供することです。 私たちは、異なるデータソース、さまざまなニューラルネットワーク構造、一般的な評価指標だけでなく、実装と再現性も分類します。 私たちの目標は、関心のある研究者が最新の進歩と同期し、また、過去の研究をベースラインとして簡単に再現できるようにすることです。 要約に基づいて、このトピックにおける今後の研究の方向性も強調する。

Stock market prediction has been a classical yet challenging problem, with the attention from both economists and computer scientists. With the purpose of building an effective prediction model, both linear and machine learning tools have been explored for the past couple of decades. Lately, deep learning models have been introduced as new frontiers for this topic and the rapid development is too fast to catch up. Hence, our motivation for this survey is to give a latest review of recent works on deep learning models for stock market prediction. We not only category the different data sources, various neural network structures, and common used evaluation metrics, but also the implementation and reproducibility. Our goal is to help the interested researchers to synchronize with the latest progress and also help them to easily reproduce the previous studies as baselines. Base on the summary, we also highlight some future research directions in this topic.
翻訳日:2022-12-27 21:01:00 公開日:2020-02-29
# 高齢者用ソフトスーパーリムとしてのロボット犬

Robotic Cane as a Soft SuperLimb for Elderly Sit-to-Stand Assistance ( http://arxiv.org/abs/2003.02080v1 )

ライセンス: Link先を確認
Xia Wu, Haiyuan Liu, Ziqi Liu, Mingdong Chen, Fang Wan, Chenglong Fu, Harry Asada, Zheng Wang, Chaoyang Song(参考訳) 多くの研究者は、ロボット工学を多くの先進国や発展途上国が直面している高齢化に対する潜在的な解決策とみなしている。 もしそうなら、デザインを通して高齢者支援ロボットの認知的受容と環境制御をどう扱うべきか? 本稿では,室内運動支援のための先入観駆動型ロボット杖,人間とロボットのインタラクションに対応するインフレータブルベスト,環境意図検出のための奥行きセンサを組み込んだアンビエントスーパーリムブ(スーパー数値ロボット肢)システムの探索設計を提案する。 提案方式は, 寝台, 椅子, トイレ等における高齢者の在宅使用における着席・立ち上がり移行時の積極的な支援を提供することを目的としている。 閉ループ制御実装のためのリニア杖ロボットを用いた生体力学モデルを提案する。 バイオメカニカルモデルを含む環境型スーパーリムシステムの設計可能性を検証した結果,下肢運動の低減と高齢者転倒リスクの低減にメリットが示されたが,深度センサを用いた検出精度とモデル調整は今後もさらなる研究が必要である。 それにもかかわらず,高齢者補助スーパーリムブシステムの下肢機能増強のための環境設計を支援するための経験的ガイドラインをまとめた。

Many researchers have identified robotics as a potential solution to the aging population faced by many developed and developing countries. If so, how should we address the cognitive acceptance and ambient control of elderly assistive robots through design? In this paper, we proposed an explorative design of an ambient SuperLimb (Supernumerary Robotic Limb) system that involves a pneumatically-driven robotic cane for at-home motion assistance, an inflatable vest for compliant human-robot interaction, and a depth sensor for ambient intention detection. The proposed system aims at providing active assistance during the sit-to-stand transition for at-home usage by the elderly at the bedside, in the chair, and on the toilet. We proposed a modified biomechanical model with a linear cane robot for closed-loop control implementation. We validated the design feasibility of the proposed ambient SuperLimb system including the biomechanical model, our result showed the advantages in reducing lower limb efforts and elderly fall risks, yet the detection accuracy using depth sensing and adjustments on the model still require further research in the future. Nevertheless, we summarized empirical guidelines to support the ambient design of elderly-assistive SuperLimb systems for lower limb functional augmentation.
翻訳日:2022-12-27 21:00:49 公開日:2020-02-29
# 線形回帰に対する最適特徴操作攻撃

Optimal Feature Manipulation Attacks Against Linear Regression ( http://arxiv.org/abs/2003.00177v1 )

ライセンス: Link先を確認
Fuwei Li, Lifeng Lai, and Shuguang Cui(参考訳) 本稿では,線形回帰によって得られた係数を,データセットに注意深く設計した中毒データポイントを付加したり,元のデータポイントを修正したりする方法について検討する。 エネルギー予算を考慮し, 目標が指定された回帰係数を1つ変更する場合に, 最適毒素データ点の閉形式解をまず提示する。 そして分析を、攻撃者が特定の回帰係数をできるだけ小さく変更しながら変更しようとする、より困難なシナリオにまで拡張します。 このシナリオでは,最善のアタックスキームを設計するための半定値緩和法を提案する。 最後に,特徴行列のランクワン修正を行うことができる,より強力な敵について検討する。 最適なランクワン修正行列を求めるための交互最適化法を提案する。 本論文で得られた解析結果の数値的な例を示す。

In this paper, we investigate how to manipulate the coefficients obtained via linear regression by adding carefully designed poisoning data points to the dataset or modify the original data points. Given the energy budget, we first provide the closed-form solution of the optimal poisoning data point when our target is modifying one designated regression coefficient. We then extend the analysis to the more challenging scenario where the attacker aims to change one particular regression coefficient while making others to be changed as small as possible. For this scenario, we introduce a semidefinite relaxation method to design the best attack scheme. Finally, we study a more powerful adversary who can perform a rank-one modification on the feature matrix. We propose an alternating optimization method to find the optimal rank-one modification matrix. Numerical examples are provided to illustrate the analytical results obtained in this paper.
翻訳日:2022-12-27 21:00:10 公開日:2020-02-29
# RGB赤外線人物再同定のためのクロススペクトルデュアルサブスペースペアリング

Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification ( http://arxiv.org/abs/2003.00213v1 )

ライセンス: Link先を確認
Xing Fan, Hao Luo, Chi Zhang, Wei Jiang(参考訳) ビデオ監視やトラッキングなどのコンピュータビジョンタスクにおける潜在的な応用により、人物再識別(ReID)が普及し、広く研究されている。 しかし、従来の人物識別は、暗黒条件で失敗するRGBカラー画像のみを扱うことができる。 したがって、RGB赤外線ReID(Infrared-Visible ReID、Visible-Thermal ReIDとも呼ばれる)が提案される。 照明、ポーズのバリエーション、視点の変化による従来のReIDの外観の相違は別として、異なるスペクトルのカメラによって生成されたモダリティの相違も存在し、RGB赤外線ReIDをより困難にしている。 この問題に対処するため,我々は,異なるモダリティの共通クロススペクトル特徴の抽出に焦点をあてる。 本稿では,新しいマルチスペクトル画像生成法を提案し,生成されたサンプルを用いて同一人物を同一人物と再同定するための識別情報を求める。 rgb-infrared reidのもうひとつの課題は、対人(同一人物の画像)の不一致が対人(異人画像)の不一致よりも大きいことが多いため、この問題を緩和するために二重サブスペースペアリング戦略が提案されている。 これら2つの部分を組み合わせることで、上記2つの手法を組み合わせて、cdpモデルと呼ばれる人物画像のコンパクト表現を抽出する1ストリームニューラルネットワークを設計する。 さらに、トレーニングプロセス中に、現在のモデル状態に基づいてハードスペクトルからより多くのハードサンプルを自動的にマイニングし、パフォーマンスをさらに向上する動的ハードスペクトルマイニング法を提案する。 rgb + 近赤外画像のsysu-mm01とrgb + 遠赤外画像のregdbの2つの公開データセットの広範な実験結果から,提案手法の有効性と汎用性が実証された。

Due to its potential wide applications in video surveillance and other computer vision tasks like tracking, person re-identification (ReID) has become popular and been widely investigated. However, conventional person re-identification can only handle RGB color images, which will fail at dark conditions. Thus RGB-infrared ReID (also known as Infrared-Visible ReID or Visible-Thermal ReID) is proposed. Apart from appearance discrepancy in traditional ReID caused by illumination, pose variations and viewpoint changes, modality discrepancy produced by cameras of the different spectrum also exists, which makes RGB-infrared ReID more difficult. To address this problem, we focus on extracting the shared cross-spectrum features of different modalities. In this paper, a novel multi-spectrum image generation method is proposed and the generated samples are utilized to help the network to find discriminative information for re-identifying the same person across modalities. Another challenge of RGB-infrared ReID is that the intra-person (images from the same person) discrepancy is often larger than the inter-person (images from different persons) discrepancy, so a dual-subspace pairing strategy is proposed to alleviate this problem. Combining those two parts together, we also design a one-stream neural network combining the aforementioned methods to extract compact representations of person images, called Cross-spectrum Dual-subspace Pairing (CDP) model. Furthermore, during the training process, we also propose a Dynamic Hard Spectrum Mining method to automatically mine more hard samples from hard spectrum based on the current model state to further boost the performance. Extensive experimental results on two public datasets, SYSU-MM01 with RGB + near-infrared images and RegDB with RGB + far-infrared images, have demonstrated the efficiency and generality of our proposed method.
翻訳日:2022-12-27 20:54:03 公開日:2020-02-29
# 語彙セマンティックスを組み込んだ接地・制御可能な画像補完

Grounded and Controllable Image Completion by Incorporating Lexical Semantics ( http://arxiv.org/abs/2003.00303v1 )

ライセンス: Link先を確認
Shengyu Zhang, Tan Jiang, Qinghao Huang, Ziqi Tan, Zhou Zhao, Siliang Tang, Jin Yu, Hongxia Yang, Yi Yang, and Fei Wu(参考訳) 本稿では,美術,意匠,遺産保存に応用可能な手法として,lsic(lexical semantic image completion)を提案する。 既存の画像補完手順は非常に主観的であり、視覚的文脈のみを考えると、予測不可能な結果を引き起こす可能性がある。 接地と制御可能な完了プロセスの両方を可能にするために、視覚的および語彙的意味的文脈、すなわち画像内の抜け穴や空白領域(例えば穴の記述)の両方に忠実な結果を生成することを推奨する。 LSICの大きな課題の1つは、視覚的意味論的文脈の構造をモデル化し整列し、異なるモダリティに変換することである。 この過程を構造完全化と呼び、モデル内の多粒度推論ブロックによって実現します。 もう一つの課題は、モデルがテキスト記述を使わずに妥当な結果を生成するときに発生する一助バイアスである。 これは、画像の注釈付きキャプションが既存のデータセットで意味的に等価であることが多いため、トレーニング中にマスクされた画像に対して1対のテキストしか存在しないため、事実である。 我々は、過剰に探索されたペア・リコンストラクションパスに加えて、ラベル付きデータの不足を軽減するための多段階学習戦略を考案する。 提案するLSICの有効性を明らかにするため, 定量的および定性的実験およびアブレーション実験を行った。

In this paper, we present an approach, namely Lexical Semantic Image Completion (LSIC), that may have potential applications in art, design, and heritage conservation, among several others. Existing image completion procedure is highly subjective by considering only visual context, which may trigger unpredictable results which are plausible but not faithful to a grounded knowledge. To permit both grounded and controllable completion process, we advocate generating results faithful to both visual and lexical semantic context, i.e., the description of leaving holes or blank regions in the image (e.g., hole description). One major challenge for LSIC comes from modeling and aligning the structure of visual-semantic context and translating across different modalities. We term this process as structure completion, which is realized by multi-grained reasoning blocks in our model. Another challenge relates to the unimodal biases, which occurs when the model generates plausible results without using the textual description. This can be true since the annotated captions for an image are often semantically equivalent in existing datasets, and thus there is only one paired text for a masked image in training. We devise an unsupervised unpaired-creation learning path besides the over-explored paired-reconstruction path, as well as a multi-stage training strategy to mitigate the insufficiency of labeled data. We conduct extensive quantitative and qualitative experiments as well as ablation studies, which reveal the efficacy of our proposed LSIC.
翻訳日:2022-12-27 20:52:23 公開日:2020-02-29
# 表現の絡み合いによるクロスドメイン一般化特徴の学習

Learning Cross-domain Generalizable Features by Representation Disentanglement ( http://arxiv.org/abs/2003.00321v1 )

ライセンス: Link先を確認
Qingjie Meng and Daniel Rueckert and Bernhard Kainz(参考訳) ディープラーニングモデルは、異なるドメイン間で限定的な一般化性を示す。 具体的には、利用可能な絡み合ったドメイン特徴(ソース/ターゲット領域)とカテゴリ的特徴から対象領域の新しい見えないカテゴリ的特徴へ知識を移すことは、現在の文献ではほとんど議論されない興味深い、難しい問題である。 この問題は、診断分類の改善や医用画像の予測など、多くの現実世界の応用に不可欠である。 この問題に対処するために,目的領域における認識不能なカテゴリ特徴への知識の伝達を可能にする一般化された特徴を抽出するために,相互情報に基づく異種間ニューラルネットワーク (midnet) を提案する。 MIDNetはラベル付きデータへの依存を軽減するための半教師付き学習パラダイムとして開発された。 これは、データアノテーションが稀な専門知識と激しい時間と労力を必要とする実用的なアプリケーションにとって重要である。 本手法は手書き桁データセットと胎児超音波データセットを用いて画像分類を行う。 実験の結果,本手法は最先端技術よりも優れており,少ないラベル付きデータで性能が期待できることがわかった。

Deep learning models exhibit limited generalizability across different domains. Specifically, transferring knowledge from available entangled domain features(source/target domain) and categorical features to new unseen categorical features in a target domain is an interesting and difficult problem that is rarely discussed in the current literature. This problem is essential for many real-world applications such as improving diagnostic classification or prediction in medical imaging. To address this problem, we propose Mutual-Information-based Disentangled Neural Networks (MIDNet) to extract generalizable features that enable transferring knowledge to unseen categorical features in target domains. The proposed MIDNet is developed as a semi-supervised learning paradigm to alleviate the dependency on labeled data. This is important for practical applications where data annotation requires rare expertise as well as intense time and labor. We demonstrate our method on handwritten digits datasets and a fetal ultrasound dataset for image classification tasks. Experiments show that our method outperforms the state-of-the-art and achieve expected performance with sparsely labeled data.
翻訳日:2022-12-27 20:51:57 公開日:2020-02-29
# ゲーム・オブ・スローンズに勝つのは誰か? 感性が候補選択の予測をいかに改善するか

Who Wins the Game of Thrones? How Sentiments Improve the Prediction of Candidate Choice ( http://arxiv.org/abs/2003.07683v1 )

ライセンス: Link先を確認
Chaehan So(参考訳) 本稿では,様々な心理学的予測器による候補選択予測の改善について分析する。 この問題を調査するため、人気テレビシリーズ「ゲーム・オブ・スローンズ」を特集した調査データセットを収集した。 回答者は、シリーズの最終回で勝つと期待していたキャラクターに答え、感情を抽出した自由テキストで最終候補を選ぶことを説明した。 これらの感情は、候補の好適性と候補の性格評価から得られた特徴集合と比較された。 10倍のクロスバリデーションを100回繰り返してベンチマークしたところ、類似性評価を除くすべての特徴集合はベースモデル上のホールドアウトセットの精度が10-11%向上した。 クラス不均衡をsmote(synthetic minor oversampling)で処理することで、ホールドアウトセットのパフォーマンスは20~34%向上したが、セットのパフォーマンスは驚くほどテストされなかった。 そこで本研究では,心理予測器の付加的な予測値の定量評価を行う。 嗜好性評価は、性格、感情的価値、基本的な感情に基づく特徴セットによって明らかに優れていた。

This paper analyzes how candidate choice prediction improves by different psychological predictors. To investigate this question, it collected an original survey dataset featuring the popular TV series "Game of Thrones". The respondents answered which character they anticipated to win in the final episode of the series, and explained their choice of the final candidate in free text from which sentiments were extracted. These sentiments were compared to feature sets derived from candidate likeability and candidate personality ratings. In our benchmarking of 10-fold cross-validation in 100 repetitions, all feature sets except the likeability ratings yielded a 10-11% improvement in accuracy on the holdout set over the base model. Treating the class imbalance with synthetic minority oversampling (SMOTE) increased holdout set performance by 20-34% but surprisingly not testing set performance. Taken together, our study provides a quantified estimation of the additional predictive value of psychological predictors. Likeability ratings were clearly outperformed by the feature sets based on personality, emotional valence, and basic emotions.
翻訳日:2022-12-27 20:51:39 公開日:2020-02-29
# 深層学習入門

Introduction to deep learning ( http://arxiv.org/abs/2003.03253v1 )

ライセンス: Link先を確認
Lihi Shiloh-Perl and Raja Giryes(参考訳) ディープラーニング(DL)は、過去10年間、データサイエンスに大きな影響を与えてきた。 本章では、この分野の基本概念を紹介する。 ディープニューラルネットワークの設計に使用される基本的な構造と、その一般的なユースケースに関する簡単な調査の両方を含んでいる。

Deep Learning (DL) has made a major impact on data science in the last decade. This chapter introduces the basic concepts of this field. It includes both the basic structures used to design deep neural networks and a brief survey of some of its popular use cases.
翻訳日:2022-12-27 20:51:08 公開日:2020-02-29
# セマンティック・エポゾディック記憶を持つロボットによるAesopのFable実験における因果学習

Causal Learning by a Robot with Semantic-Episodic Memory in an Aesop's Fable Experiment ( http://arxiv.org/abs/2003.00274v1 )

ライセンス: Link先を確認
Ajaz A. Bhat and Vishwanathan Mohan(参考訳) 証拠、類人猿、子供は、そのタスクの因果的理解を示すThe Crow and The Pitcherタスク(AesopのFablesから)を解く。 異なる物体と累積的に相互作用することによって、認知エージェントは、新しい物体の価格を予測するために、基礎となる因果関係をどのように抽象化できるのか? AesopのFableタスクをロボットで再現し,提示することで,この問題に対処する。 a) セマンティック・エポシック記憶の脳誘導神経モデル b) 過去のエピソードの期待値と現在のシナリオを比較して,隠れた因果関係を段階的に抽出するタスクに依存しない4つの学習規則 その後のロボット行動は因果学習を示し、新しい物体の予測はアルキメデスの原理に収束し、学習中に探索された物体と累積探索の順序から独立する。

Corvids, apes, and children solve The Crow and The Pitcher task (from Aesop's Fables) indicating a causal understanding of the task. By cumulatively interacting with different objects, how can cognitive agents abstract the underlying cause-effect relations to predict affordances of novel objects? We address this question by re-enacting the Aesop's Fable task on a robot and present a) a brain-guided neural model of semantic-episodic memory; with b) four task-agnostic learning rules that compare expectations from recalled past episodes with the current scenario to progressively extract the hidden causal relations. The ensuing robot behaviours illustrate causal learning; and predictions for novel objects converge to Archimedes' principle, independent of both the objects explored during learning and the order of their cumulative exploration.
翻訳日:2022-12-27 20:51:01 公開日:2020-02-29
# 国際貿易フローにおける潜在次元の決定

Determination of Latent Dimensionality in International Trade Flow ( http://arxiv.org/abs/2003.00129v1 )

ライセンス: Link先を確認
Duc P. Truong, Erik Skau, Vladimir I. Valtchinov, Boian S. Alexandrov(参考訳) 現在、高次元データはデータサイエンスにおいてユビキタスであり、そのような多次元(別名テンソル)データセットを分解し解釈する技術の開発を必要としている。 データの低次元表現、すなわちその固有の構造を見つけることは、データの中に隠された低次元の潜在特徴のダイナミクスを理解するのに役立つアプローチの1つである。 非負のRESCALは、特に国際貿易フローで見られる動的ネットワークのような自己関係データを解析するのに適している。 非負のRESCALは、複数のモードを含む潜在空間を見つけることにより、低次元テンソル表現を計算する。 この潜在空間の次元性を推定することは有意義な潜在特徴の抽出に不可欠である。 本稿では,非負の逆数を持つ潜在空間の次元性を決定するために,非負の逆数分解の多重実現の解のクラスタリングに基づく潜在次元決定法を提案する。 本手法は, 合成データを用いたモデル選択手法の性能を実証し, 国際通貨基金からの国際貿易フローデータのネットワークを分解し, 得られた特徴を経済文献から実証的事実に対して検証する。

Currently, high-dimensional data is ubiquitous in data science, which necessitates the development of techniques to decompose and interpret such multidimensional (aka tensor) datasets. Finding a low dimensional representation of the data, that is, its inherent structure, is one of the approaches that can serve to understand the dynamics of low dimensional latent features hidden in the data. Nonnegative RESCAL is one such technique, particularly well suited to analyze self-relational data, such as dynamic networks found in international trade flows. Nonnegative RESCAL computes a low dimensional tensor representation by finding the latent space containing multiple modalities. Estimating the dimensionality of this latent space is crucial for extracting meaningful latent features. Here, to determine the dimensionality of the latent space with nonnegative RESCAL, we propose a latent dimension determination method which is based on clustering of the solutions of multiple realizations of nonnegative RESCAL decompositions. We demonstrate the performance of our model selection method on synthetic data and then we apply our method to decompose a network of international trade flows data from International Monetary Fund and validate the resulting features against empirical facts from economic literature.
翻訳日:2022-12-27 20:44:11 公開日:2020-02-29
# テキスト分類のための深さ適応グラフリカレントネットワーク

Depth-Adaptive Graph Recurrent Network for Text Classification ( http://arxiv.org/abs/2003.00166v1 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) S-LSTM(Sentence-State LSTM)は、単語をノードとみなし、それらの間のレイヤーワイドな繰り返しステップを同時に実行する、強力で高効率なグラフリカレントネットワークである。 テキスト表現の成功にもかかわらず、S-LSTMは2つの欠点に悩まされている。 第一に、ある文に対して、ある単語は、通常他の単語よりも曖昧であり、これらの難しい単語に対してより多くの計算手順を取る必要がある。 しかしながら、S-LSTMは、その硬さに関わらず、すべての単語に対して固定的な計算ステップを取る。 第二のものは、本質的に自然言語にとって重要な逐次情報(例えば、単語順)の欠如に由来する。 本稿では,これらの問題に対処し,S-LSTMの深度適応機構を提案する。 さらに、逐次情報を注入するために追加のRNN層を統合し、適応深さの決定のための入力機能としても機能する。 従来のS-LSTMや他の高性能モデル(例えばTransformer)に対して,従来のテキスト分類タスク(さまざまなサイズや領域の24のデータセット)では,精度と速度のトレードオフが良好に達成されている。

The Sentence-State LSTM (S-LSTM) is a powerful and high efficient graph recurrent network, which views words as nodes and performs layer-wise recurrent steps between them simultaneously. Despite its successes on text representations, the S-LSTM still suffers from two drawbacks. Firstly, given a sentence, certain words are usually more ambiguous than others, and thus more computation steps need to be taken for these difficult words and vice versa. However, the S-LSTM takes fixed computation steps for all words, irrespective of their hardness. The secondary one comes from the lack of sequential information (e.g., word order) that is inherently important for natural language. In this paper, we try to address these issues and propose a depth-adaptive mechanism for the S-LSTM, which allows the model to learn how many computational steps to conduct for different words as required. In addition, we integrate an extra RNN layer to inject sequential information, which also serves as an input feature for the decision of adaptive depths. Results on the classic text classification task (24 datasets in various sizes and domains) show that our model brings significant improvements against the conventional S-LSTM and other high-performance models (e.g., the Transformer), meanwhile achieving a good accuracy-speed trade off.
翻訳日:2022-12-27 20:43:31 公開日:2020-02-29
# 構文に基づく否定と意味概念識別を用いた臨床テキスト要約

Clinical Text Summarization with Syntax-Based Negation and Semantic Concept Identification ( http://arxiv.org/abs/2003.00353v1 )

ライセンス: Link先を確認
Wei-Hung Weng, Yu-An Chung, Schrasing Tong(参考訳) 臨床情報爆発の時代には、臨床テキスト要約のための優れた戦略が臨床ワークフローを改善するのに役立ちます。 理想的な要約戦略は、情報的だが組織的でない臨床物語のテキストにおいて重要な情報を保存することができる。 解釈と説明が難しい純粋統計学習アプローチの代わりに、人間の専門家による生物医学知識ベースによる計算言語学の知識を利用して、解釈可能で有意義な臨床テキスト要約を実現した。 本研究の目的は, バイオメディカルオントロジーを意味情報付きで利用し, 言語階層構造, 選挙区木を活かして, 正確な臨床概念とそれに対応する否定情報を識別することであり, 物語テキストから臨床概念を要約するのに重要である。 否定検出と概念同定の両面で臨床的に許容できる性能を達成し,提案手法により共通の否定パターンを持つ臨床概念を同定および否定することができる。

In the era of clinical information explosion, a good strategy for clinical text summarization is helpful to improve the clinical workflow. The ideal summarization strategy can preserve important information in the informative but less organized, ill-structured clinical narrative texts. Instead of using pure statistical learning approaches, which are difficult to interpret and explain, we utilized knowledge of computational linguistics with human experts-curated biomedical knowledge base to achieve the interpretable and meaningful clinical text summarization. Our research objective is to use the biomedical ontology with semantic information, and take the advantage from the language hierarchical structure, the constituency tree, in order to identify the correct clinical concepts and the corresponding negation information, which is critical for summarizing clinical concepts from narrative text. We achieved the clinically acceptable performance for both negation detection and concept identification, and the clinical concepts with common negated patterns can be identified and negated by the proposed method.
翻訳日:2022-12-27 20:43:08 公開日:2020-02-29
# 知識グラフにおけるエンティティプロファイリング

Entity Profiling in Knowledge Graphs ( http://arxiv.org/abs/2003.00172v1 )

ライセンス: Link先を確認
Xiang Zhang, Qingqing Yang, Jinru Ding and Ziyue Wang(参考訳) 知識グラフ(英: Knowledge Graphs, KGs)は、現実世界の実体に関する事実情報を格納するグラフ構造化知識ベースである。 それぞれのエンティティの独自性を理解することは、kgの分析、共有、再利用に不可欠である。 従来のプロファイリング技術は、様々なアプリケーションで特徴的な特徴を見つけるための多くの方法を含んでおり、KGの人間の理解過程においてエンティティを区別するのに役立ちます。 本研究では,特徴的実体特徴を識別する新しいプロファイリング手法を提案する。 特徴の特異性は、多パターンエンティティの埋め込みを生成するスケーラブルな表現学習モデルであるHASモデルによって慎重に測定される。 実kgから生成したエンティティプロファイルの品質を完全に評価する。 その結果,本手法はKGにおける実体の人間の理解を促進することが示唆された。

Knowledge Graphs (KGs) are graph-structured knowledge bases storing factual information about real-world entities. Understanding the uniqueness of each entity is crucial to the analyzing, sharing, and reusing of KGs. Traditional profiling technologies encompass a vast array of methods to find distinctive features in various applications, which can help to differentiate entities in the process of human understanding of KGs. In this work, we present a novel profiling approach to identify distinctive entity features. The distinctiveness of features is carefully measured by a HAS model, which is a scalable representation learning model to produce a multi-pattern entity embedding. We fully evaluate the quality of entity profiles generated from real KGs. The results show that our approach facilitates human understanding of entities in KGs.
翻訳日:2022-12-27 20:42:52 公開日:2020-02-29
# 有限状態変換器を用いたmaithili言語の形態素解析

A Finite State Transducer Based Morphological Analyzer of Maithili Language ( http://arxiv.org/abs/2003.00234v1 )

ライセンス: Link先を確認
Raza Rahi, Sumant Pushp, Arif Khan, Smriti Kumar Sinha(参考訳) 形態解析は、機械翻訳、単語感覚の曖昧さ、スペルチェッカー、検索エンジンなど、多くの言語アプリケーションにとって重要なマイルストーンである。 したがって, 有効な形態素解析器の開発は, 言語の認識により大きな影響を及ぼす。 本稿では,インドの資源不足言語であるmaithiliに対して,有限状態トランスデューサに基づくインフレクション形態素解析器を提案する。 マイティリ語(maithili)はインドビハールの東部と北部、ネパールのタライ(tarai)として知られる南東平原で話されているインド・アーリア語族の言語である。 この研究は、Maithiliの計算開発に向けた最初の成果として認識され、世界中の研究者を惹きつけ、この言語をコンピュータの世界に定着させるかもしれない。

Morphological analyzers are the essential milestones for many linguistic applications like; machine translation, word sense disambiguation, spells checkers, and search engines etc. Therefore, development of an effective morphological analyzer has a greater impact on the computational recognition of a language. In this paper, we present a finite state transducer based inflectional morphological analyzer for a resource poor language of India, known as Maithili. Maithili is an eastern Indo-Aryan language spoken in the eastern and northern regions of Bihar in India and the southeastern plains, known as tarai of Nepal. This work can be recognized as the first work towards the computational development of Maithili which may attract researchers around the country to up-rise the language to establish in computational world.
翻訳日:2022-12-27 20:42:41 公開日:2020-02-29
# VideoSSL: ビデオ分類のための半教師付き学習

VideoSSL: Semi-Supervised Learning for Video Classification ( http://arxiv.org/abs/2003.00197v1 )

ライセンス: Link先を確認
Longlong Jing, Toufiq Parag, Zhe Wu, Yingli Tian, Hongcheng Wang(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)を用いたビデオ分類のための半教師付き学習手法を提案する。 他のコンピュータビジョンタスクと同様に、既存の教師付きビデオ分類手法は、優れたパフォーマンスを得るために大量のラベル付きデータを要求する。 しかし、大きなデータセットのアノテーションは高価で時間がかかります。 大量の注釈付きデータセットへの依存を最小限に抑えるため,提案手法は少数のラベル付きサンプルから訓練し,ラベルなしデータから2つの規制信号を利用する。 最初の信号は、訓練中のCNNの信頼性から計算されたラベルなし例の擬似ラベルである。 もうひとつは、画像分類器CNNが予測した正規化確率で、ビデオ内の興味深いオブジェクトの外観に関する情報をキャプチャする。 ビデオ分類CNNは, 未ラベル例からの案内信号の監督の下で, UCF101, HMDB51, Kineticsの3つの公開データセットに対して, 注釈付きサンプルのごく一部を用いて, 印象的な性能を達成できることが示されている。

We propose a semi-supervised learning approach for video classification, VideoSSL, using convolutional neural networks (CNN). Like other computer vision tasks, existing supervised video classification methods demand a large amount of labeled data to attain good performance. However, annotation of a large dataset is expensive and time consuming. To minimize the dependence on a large annotated dataset, our proposed semi-supervised method trains from a small number of labeled examples and exploits two regulatory signals from unlabeled data. The first signal is the pseudo-labels of unlabeled examples computed from the confidences of the CNN being trained. The other is the normalized probabilities, as predicted by an image classifier CNN, that captures the information about appearances of the interesting objects in the video. We show that, under the supervision of these guiding signals from unlabeled examples, a video classification CNN can achieve impressive performances utilizing a small fraction of annotated examples on three publicly available datasets: UCF101, HMDB51 and Kinetics.
翻訳日:2022-12-27 20:42:15 公開日:2020-02-29
# オンライン二元的空間分割林

Online Binary Space Partitioning Forests ( http://arxiv.org/abs/2003.00269v1 )

ライセンス: Link先を確認
Xuhui Fan, Bin Li, Scott A. Sisson(参考訳) BSP-Tree プロセスは空間分割タスクの効率的な戦略として提案されている。 複数の次元を使って空間を分割するため、BSP-Tree Processは従来の軸方向の切断戦略よりも効率的で柔軟である。 しかし、バッチ学習設定のため、大規模な分類や回帰問題には適していない。 本稿では,この制限に対処するオンラインBSP-Forestフレームワークを開発する。 新しいデータが登場すると、オンラインアルゴリズムは空間範囲を拡大し、分割構造を洗練し、分類問題と回帰問題の両方に対して普遍的な一貫性を保証できる。 オンラインBSP-Forestの有効性と競争性能は、実世界のデータセット上でシミュレーションによって検証される。

The Binary Space Partitioning-Tree~(BSP-Tree) process was recently proposed as an efficient strategy for space partitioning tasks. Because it uses more than one dimension to partition the space, the BSP-Tree Process is more efficient and flexible than conventional axis-aligned cutting strategies. However, due to its batch learning setting, it is not well suited to large-scale classification and regression problems. In this paper, we develop an online BSP-Forest framework to address this limitation. With the arrival of new data, the resulting online algorithm can simultaneously expand the space coverage and refine the partition structure, with guaranteed universal consistency for both classification and regression problems. The effectiveness and competitive performance of the online BSP-Forest is verified via simulations on real-world datasets.
翻訳日:2022-12-27 20:35:50 公開日:2020-02-29
# FlexServe: 柔軟なRESTエンドポイントとしてのPyTorchモデルのデプロイ

FlexServe: Deployment of PyTorch Models as Flexible REST Endpoints ( http://arxiv.org/abs/2003.01538v1 )

ライセンス: Link先を確認
Edward Verenich, Alvaro Velasquez, M.G. Sarwar Murshed, Faraz Hussain(参考訳) 現代のソフトウェアシステムへの人工知能機能の統合は、クラウドベースの機械学習サービスと表現型ステート転送アーキテクチャ設計によってますます単純化されている。 しかしながら、モデル証明とモデル進化に対する制御の欠如に関する不十分な情報は、厳格なセキュリティ要件を持つ多くの運用環境において、これらのサービスを広く採用する上で障害となる。 さらに、tensorflow servingのようなツールは、モデルをrestfulなエンドポイントとしてデプロイできるが、これらの動的計算グラフのようにpytorchモデルにはエラーが発生しやすい変換を必要とする。 これはTensorFlowの静的計算グラフとは対照的である。 中間変換なしでpytorchモデルの迅速なデプロイを可能にするために、私たちはflexserveを開発した。

The integration of artificial intelligence capabilities into modern software systems is increasingly being simplified through the use of cloud-based machine learning services and representational state transfer architecture design. However, insufficient information regarding underlying model provenance and the lack of control over model evolution serve as an impediment to the more widespread adoption of these services in many operational environments which have strict security requirements. Furthermore, tools such as TensorFlow Serving allow models to be deployed as RESTful endpoints, but require error-prone transformations for PyTorch models as these dynamic computational graphs. This is in contrast to the static computational graphs of TensorFlow. To enable rapid deployments of PyTorch models without intermediate transformations we have developed FlexServe, a simple library to deploy multi-model ensembles with flexible batching.
翻訳日:2022-12-27 20:34:19 公開日:2020-02-29
# 脳データの予測時空間表現に向けて

Towards a predictive spatio-temporal representation of brain data ( http://arxiv.org/abs/2003.03290v1 )

ライセンス: Link先を確認
Tiago Azevedo, Luca Passamonti, Pietro Li\`o, Nicola Toschi(参考訳) 脳を「コネクトーム」と表現し、コネクトームは時系列間の相関値として表現され、グラフ理論の解析から得られた要約指標として、ここ数年で非常に人気がある。 しかし、この表現は脳機能の理解を進歩させたが、単純化されたモデルを表しているかもしれない。 これは、典型的なfMRIデータセットが、空間(すなわち脳領域の位置)によって異なる複雑で非常に異質なタイムリーで構成されているためである。 深層学習と幾何学的深層学習の様々なモデリング手法を比較し、一般的なfMRIデータセットの豊かな空間的・時間的領域と、他の類似したデータセットを効果的に活用する将来の研究の道を開く。 概念実証として,スーパー教師付きバイナリ分類タスクにおいて,同質かつ一般公開されたヒトコネクトームプロジェクト(hcp)データセットにおける我々のアプローチを比較した。 これまでの「コネクトロミック」対策に対する方法論の進歩が、最終的に、健康と病気の脳のダイナミクスをより微妙に理解することで、臨床的および計算学的に関連があることを期待します。 このような脳の理解は、脳の多様性を正確に理解するために、常に専門的な臨床専門知識を減らすことができる。

The characterisation of the brain as a "connectome", in which the connections are represented by correlational values across timeseries and as summary measures derived from graph theory analyses, has been very popular in the last years. However, although this representation has advanced our understanding of the brain function, it may represent an oversimplified model. This is because the typical fMRI datasets are constituted by complex and highly heterogeneous timeseries that vary across space (i.e., location of brain regions). We compare various modelling techniques from deep learning and geometric deep learning to pave the way for future research in effectively leveraging the rich spatial and temporal domains of typical fMRI datasets, as well as of other similar datasets. As a proof-of-concept, we compare our approaches in the homogeneous and publicly available Human Connectome Project (HCP) dataset on a supervised binary classification task. We hope that our methodological advances relative to previous "connectomic" measures can ultimately be clinically and computationally relevant by leading to a more nuanced understanding of the brain dynamics in health and disease. Such understanding of the brain can fundamentally reduce the constant specialised clinical expertise in order to accurately understand brain variability.
翻訳日:2022-12-27 20:34:07 公開日:2020-02-29
# 畳み込みニューラルネットワークを用いた音声・視覚情報からの感情認識システム

Emotion Recognition System from Speech and Visual Information based on Convolutional Neural Networks ( http://arxiv.org/abs/2003.00351v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea and Liviu Cristian Dutu and Anamaria Radoi(参考訳) 感情認識は人間とコンピュータの相互作用領域において重要な研究分野となっている。 現場における最新の進歩は、視覚情報とオーディオ情報を組み合わせることで、単一の情報ソースを別々に使用する場合と比較して、より良い結果が得られることを示している。 視覚的な観点からは、人の表情を分析して人間の感情を認識することができる。 より正確には、人間の感情は複数の顔行動ユニットの組み合わせによって記述できる。 本稿では,深い畳み込みニューラルネットワークに基づいて,感情を高精度かつリアルタイムに認識できるシステムを提案する。 音声認識システムの精度を向上させるため,音声データも分析し,映像と音声の両ソースからの情報を融合する。 実験の結果,提案手法の有効性と視覚と音声データを組み合わせることの重要性が示された。

Emotion recognition has become an important field of research in the human-computer interactions domain. The latest advancements in the field show that combining visual with audio information lead to better results if compared to the case of using a single source of information separately. From a visual point of view, a human emotion can be recognized by analyzing the facial expression of the person. More precisely, the human emotion can be described through a combination of several Facial Action Units. In this paper, we propose a system that is able to recognize emotions with a high accuracy rate and in real time, based on deep Convolutional Neural Networks. In order to increase the accuracy of the recognition system, we analyze also the speech data and fuse the information coming from both sources, i.e., visual and audio. Experimental results show the effectiveness of the proposed scheme for emotion recognition and the importance of combining visual with audio data.
翻訳日:2022-12-27 20:33:18 公開日:2020-02-29
# モバイル推論のためのディープニューラルネットワークのレイテンシ変動に関する一考察

A Note on Latency Variability of Deep Neural Networks for Mobile Inference ( http://arxiv.org/abs/2003.00138v1 )

ライセンス: Link先を確認
Luting Yang, Bingqian Lu and Shaolei Ren(参考訳) モバイルデバイス上でディープニューラルネットワーク(DNN)推論を実行すること、すなわちモバイル推論は、ネットワーク接続への依存を減らし、プライベートデータをローカルに保持する傾向にある。 モバイル推論のためのDNNの最適化に関する以前の研究は、一般的に平均的な推論レイテンシの測定に焦点を合わせており、モバイル推論がレイテンシのばらつきが少ないことを暗黙的に仮定している。 本稿では,モバイル推論におけるDNNの遅延変動に関する予備的な測定を行った。 cpuリソース競合の存在下では,推論レイテンシの変動が極めて重要になる可能性がある。 より興味深いのは、あるデバイス上でのDNNの相対的な性能優位性は他のデバイスや/または他のレベルのリソース競合に受け継がれるという一般的な信念とは異なり、リソース競合がより深刻あるいは他のデバイス上で実行される場合、他のモデルよりも優れたレイテンシ性能を持つDNNモデルは、他のモデルよりも性能が良くなることである。 したがって、モバイル推論のためにDNNモデルを最適化する場合、平均遅延を測定するだけでは不十分である可能性がある。

Running deep neural network (DNN) inference on mobile devices, i.e., mobile inference, has become a growing trend, making inference less dependent on network connections and keeping private data locally. The prior studies on optimizing DNNs for mobile inference typically focus on the metric of average inference latency, thus implicitly assuming that mobile inference exhibits little latency variability. In this note, we conduct a preliminary measurement study on the latency variability of DNNs for mobile inference. We show that the inference latency variability can become quite significant in the presence of CPU resource contention. More interestingly, unlike the common belief that the relative performance superiority of DNNs on one device can carry over to another device and/or another level of resource contention, we highlight that a DNN model with a better latency performance than another model can become outperformed by the other model when resource contention be more severe or running on another device. Thus, when optimizing DNN models for mobile inference, only measuring the average latency may not be adequate; instead, latency variability under various conditions should be accounted for, including but not limited to different devices and different levels of CPU resource contention considered in this note.
翻訳日:2022-12-27 20:25:59 公開日:2020-02-29
# 衝突情報のない分散マルチプレイヤーマルチアームバンディット

Decentralized Multi-player Multi-armed Bandits with No Collision Information ( http://arxiv.org/abs/2003.00162v1 )

ライセンス: Link先を確認
Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang(参考訳) 本稿では,各プレイヤーが衝突情報を入手できない分散確率的マルチアームバンディット(MP-MAB)問題について検討する。 boursier and perchet (2019) の独創的研究に基づいて, 集中確率的mp-mabと衝突情報との接触を後悔する誤り訂正同期(ec-sic)を提案する。 衝突情報のない通信フェーズが情報理論のZチャネルモデルに対応することを認識することにより、提案したEC-SICアルゴリズムは報酬統計の通信に最適な誤り訂正符号を適用する。 Boursier and Perchet (2019)で対数的に増加するのとは対照的に、固定メッセージ長は通信損失を制御する上でも重要な役割を果たす。 繰り返し符号、フリップ符号、ハミング符号などの実用的なZチャネル符号を用いた実験は、合成および実世界のデータセットにおいてEC-SICの優位性を示す。

The decentralized stochastic multi-player multi-armed bandit (MP-MAB) problem, where the collision information is not available to the players, is studied in this paper. Building on the seminal work of Boursier and Perchet (2019), we propose error correction synchronization involving communication (EC-SIC), whose regret is shown to approach that of the centralized stochastic MP-MAB with collision information. By recognizing that the communication phase without collision information corresponds to the Z-channel model in information theory, the proposed EC-SIC algorithm applies optimal error correction coding for the communication of reward statistics. A fixed message length, as opposed to the logarithmically growing one in Boursier and Perchet (2019), also plays a crucial role in controlling the communication loss. Experiments with practical Z-channel codes, such as repetition code, flip code and modified Hamming code, demonstrate the superiority of EC-SIC in both synthetic and real-world datasets.
翻訳日:2022-12-27 20:25:01 公開日:2020-02-29
# 経験的領域縮小による強固な最適化

Tightly Robust Optimization via Empirical Domain Reduction ( http://arxiv.org/abs/2003.00248v1 )

ライセンス: Link先を確認
Akihiro Yabe and Takanori Maehara(参考訳) データ駆動による意思決定はパラメータ化最適化問題を解くことで行われ、最適決定は未知の真のパラメータに対する最適解によって与えられる。 これらは未知であっても、真の制約を満たすソリューションがしばしば必要です。 ロバスト最適化は、パラメータの不確かさを楕円体で表現し、ロバスト性尺度を係数で制御するような解を得るために用いられる。 本研究では,解が良好な目的値を持ち,与えられた信頼確率で真の制約を満たすようなスケールを決定するアルゴリズムを提案する。 いくつかの規則性条件下では、我々のアルゴリズムで得られるスケールは漸近的に$O(1/\sqrt{n})$であるが、標準アプローチで得られるスケールは$O(\sqrt{d/n})$である。 これは、我々のアルゴリズムはパラメータの次元性の影響が小さいことを意味する。

Data-driven decision-making is performed by solving a parameterized optimization problem, and the optimal decision is given by an optimal solution for unknown true parameters. We often need a solution that satisfies true constraints even though these are unknown. Robust optimization is employed to obtain such a solution, where the uncertainty of the parameter is represented by an ellipsoid, and the scale of robustness is controlled by a coefficient. In this study, we propose an algorithm to determine the scale such that the solution has a good objective value and satisfies the true constraints with a given confidence probability. Under some regularity conditions, the scale obtained by our algorithm is asymptotically $O(1/\sqrt{n})$, whereas the scale obtained by a standard approach is $O(\sqrt{d/n})$. This means that our algorithm is less affected by the dimensionality of the parameters.
翻訳日:2022-12-27 20:24:29 公開日:2020-02-29
# 乗法ガウス粒子フィルタ

Multiplicative Gaussian Particle Filter ( http://arxiv.org/abs/2003.00218v1 )

ライセンス: Link先を確認
Xuan Su, Wee Sun Lee, Zhen Zhang(参考訳) フィルタリング問題における近似推論のための新しいサンプリングベース手法を提案する。 有限個の状態からなる条件分布を粒子フィルタで近似するのではなく、連続関数の集合から重み付けされた関数の和で分布を近似する。 このアプローチの中心は、ベイズフィルタの近似乗法にサンプリングを使用することである。 我々は, 適切な近似を与えるためのサンプリング条件を与える理論解析を行う。 次に、ガウスの重み付き和の場合に特化し、ガウスの性質が閉形式遷移と効率的な乗法を可能にすることを示す。 最後に,ロボットの局所化問題に関する予備実験を行い,粒子フィルタの性能を比較し,提案手法の可能性を示す。

We propose a new sampling-based approach for approximate inference in filtering problems. Instead of approximating conditional distributions with a finite set of states, as done in particle filters, our approach approximates the distribution with a weighted sum of functions from a set of continuous functions. Central to the approach is the use of sampling to approximate multiplications in the Bayes filter. We provide theoretical analysis, giving conditions for sampling to give good approximation. We next specialize to the case of weighted sums of Gaussians, and show how properties of Gaussians enable closed-form transition and efficient multiplication. Lastly, we conduct preliminary experiments on a robot localization problem and compare performance with the particle filter, to demonstrate the potential of the proposed method.
翻訳日:2022-12-27 20:18:11 公開日:2020-02-29
# 表層データに注意を払っている深い分化可能な森林

Deep differentiable forest with sparse attention for the tabular data ( http://arxiv.org/abs/2003.00223v1 )

ライセンス: Link先を確認
Yingshi Chen(参考訳) 本報告では, 森林の広義の森林構造とその疎開機構について述べる。 分化可能な森林は、木とニューラルネットワークの両方の利点がある。 その構造は単純なバイナリツリーであり、使いやすく、理解しやすい。 完全な微分可能性を持ち、すべての変数は学習可能なパラメータである。 我々は,CNNの深層学習において優れたパワーを示す勾配に基づく最適化手法を用いて学習する。 異なる森林における注意機構の解明と解析を行った。 つまり、それぞれの決定はいくつかの重要な機能にのみ依存します。 常に注意をそらしている。 この観察に基づいて,データ認識初期化によってそのスパース性が向上する。 属性重要度を用いて注意重みを初期化する。 すると、学習した重量はランダムな初期化の重量よりもはるかに小さい。 大規模な表付きデータセットを用いた実験では,表付きデータセットの芸術的アルゴリズムであるGBDTよりも微分可能な森林の方が精度が高いことが示された。 ソースコードはhttps://github.com/closest-git/QuantumForestで入手できる。

We present a general architecture of deep differentiable forest and its sparse attention mechanism. The differentiable forest has the advantages of both trees and neural networks. Its structure is a simple binary tree, easy to use and understand. It has full differentiability and all variables are learnable parameters. We would train it by the gradient-based optimization method, which shows great power in the training of deep CNN. We find and analyze the attention mechanism in the differentiable forest. That is, each decision depends on only a few important features, and others are irrelevant. The attention is always sparse. Based on this observation, we improve its sparsity by data-aware initialization. We use the attribute importance to initialize the attention weight. Then the learned weight is much sparse than that from random initialization. Our experiment on some large tabular dataset shows differentiable forest has higher accuracy than GBDT, which is the state of art algorithm for tabular datasets. The source codes are available at https://github.com/closest-git/QuantumForest
翻訳日:2022-12-27 20:18:00 公開日:2020-02-29
# サバイバルクラスタ解析

Survival Cluster Analysis ( http://arxiv.org/abs/2003.00355v1 )

ライセンス: Link先を確認
Paidamoyo Chapfuwa, Chunyuan Li, Nikhil Mehta, Lawrence Carin, Ricardo Henao(参考訳) 従来の生存分析は、共変量で条件付けられたリスクスコアや個人化された時間-時間分布を推定する。 実際には、様々なリスクプロファイルや生存分布を持つ(未知の)サブ集団から生じる、大きな集団レベルの表現型不均一性が存在することが多い。 結果として、異なるリスクプロファイルを持つ亜集団を識別するための生存率分析の必要性は無様であり、同時に正確な個別化時間対事象予測を共同計算している。 このニーズに対処するアプローチは、亜集団の正規性を利用して個々の結果のキャラクタリゼーションを改善する可能性が高いため、人口レベルの不均一性が考慮される。 本稿では,クラスタ化された潜在空間における観測(サブジェクト)を表現するベイズ非パラメトリックスアプローチを提案し,リスクプロファイルの異なる正確な時間-事象予測とクラスター(サブポピュレーション)を推奨する。 実世界のデータセットの実験では、既存の最先端サバイバル分析モデルと比較して予測性能と解釈可能性が一貫した改善を示した。

Conventional survival analysis approaches estimate risk scores or individualized time-to-event distributions conditioned on covariates. In practice, there is often great population-level phenotypic heterogeneity, resulting from (unknown) subpopulations with diverse risk profiles or survival distributions. As a result, there is an unmet need in survival analysis for identifying subpopulations with distinct risk profiles, while jointly accounting for accurate individualized time-to-event predictions. An approach that addresses this need is likely to improve characterization of individual outcomes by leveraging regularities in subpopulations, thus accounting for population-level heterogeneity. In this paper, we propose a Bayesian nonparametrics approach that represents observations (subjects) in a clustered latent space, and encourages accurate time-to-event predictions and clusters (subpopulations) with distinct risk profiles. Experiments on real-world datasets show consistent improvements in predictive performance and interpretability relative to existing state-of-the-art survival analysis models.
翻訳日:2022-12-27 20:16:52 公開日:2020-02-29
# 一般費用及びリワード分布に対する予算制約帯域

Budget-Constrained Bandits over General Cost and Reward Distributions ( http://arxiv.org/abs/2003.00365v1 )

ライセンス: Link先を確認
Semih Cayci, Atilla Eryilmaz, R. Srikant(参考訳) 我々は,各アームプルがランダムなコストを伴い,見返りにランダムな報酬を与える予算制約付きバンディット問題を考える。 目標は、総コストに対する予算制約の下で、期待される総報酬を最大化することである。 このモデルは、多くのアプリケーションで要求される負の値を取ることができる相関的かつ潜在的に重み付きコスト-リワード対を許容するという意味で一般的なものである。 ある$\gamma > 0$ に対して位数 $(2+\gamma)$ のモーメントが存在するならば、$O(\log B)$ regret は予算 $B>0$ に対して達成可能であることを示す。 そこで本研究では,線形最小平均二乗誤差推定による共通情報を抽出し,各アームのコストと報酬の相関を生かすアルゴリズムを提案する。 我々は,この問題に対する後悔の少ない境界を証明し,提案したアルゴリズムが,ガウスコストと報酬対の場合の普遍的定数係数に最適である厳密な問題依存の後悔境界を達成することを示す。

We consider a budget-constrained bandit problem where each arm pull incurs a random cost, and yields a random reward in return. The objective is to maximize the total expected reward under a budget constraint on the total cost. The model is general in the sense that it allows correlated and potentially heavy-tailed cost-reward pairs that can take on negative values as required by many applications. We show that if moments of order $(2+\gamma)$ for some $\gamma > 0$ exist for all cost-reward pairs, $O(\log B)$ regret is achievable for a budget $B>0$. In order to achieve tight regret bounds, we propose algorithms that exploit the correlation between the cost and reward of each arm by extracting the common information via linear minimum mean-square error estimation. We prove a regret lower bound for this problem, and show that the proposed algorithms achieve tight problem-dependent regret bounds, which are optimal up to a universal constant factor in the case of jointly Gaussian cost and reward pairs.
翻訳日:2022-12-27 20:16:36 公開日:2020-02-29
# あなたは内向的か外向的か? 10個の予測器による正確な分類

Are You an Introvert or Extrovert? Accurate Classification With Only Ten Predictors ( http://arxiv.org/abs/2003.01580v1 )

ライセンス: Link先を確認
Chaehan So(参考訳) 本稿では,10人未満の予測者で内向型対外向型の予測がいかに正確かを検討する。 この調査は、91人のパーソナリティと3つの人口統計項目に関する調査の7161人の過去のデータを基にしている。 その結果、この測定器のサイズを94から10に効果的に減らすことができ、性能損失はわずか1%であり、未確認データでは73.81%の精度が得られることがわかった。 SMOTEやADASYNのようなクラス不均衡補正手法では、検証セットは大幅に改善されたが、テストセットはわずかに改善されただけだった。

This paper investigates how accurately the prediction of being an introvert vs. extrovert can be made with less than ten predictors. The study is based on a previous data collection of 7161 respondents of a survey on 91 personality and 3 demographic items. The results show that it is possible to effectively reduce the size of this measurement instrument from 94 to 10 features with a performance loss of only 1%, achieving an accuracy of 73.81% on unseen data. Class imbalance correction methods like SMOTE or ADASYN showed considerable improvement on the validation set but only minor performance improvement on the testing set.
翻訳日:2022-12-27 20:16:16 公開日:2020-02-29
# 深層表現学習のためのチャネル平衡ネットワーク

Channel Equilibrium Networks for Learning Deep Representation ( http://arxiv.org/abs/2003.00214v1 )

ライセンス: Link先を確認
Wenqi Shao, Shitao Tang, Xingang Pan, Ping Tan, Xiaogang Wang, Ping Luo(参考訳) 畳み込みニューラルネットワーク(cnns)は通常、複数のビルディングブロックを積み重ねて構築され、それぞれがバッチ正規化(bn)のような正規化層と、reluのような整流線形関数を含んでいる。 しかし本研究は,正規化と整流線形関数の組み合わせが,cnnの一般化能力を阻害する学習特徴表現にほとんど寄与しない抑制されたチャネルへとつながることを示した。 阻害されたチャネルを単に取り除いた先行技術とは異なり、我々は、学習された表現に等しく貢献できる新しいニューラルネットワークビルディングブロックであるChannel Equilibrium(CE)ブロックを設計することで、トレーニング中に「覚醒」することを提案する。 CEは, 実験的, 理論的に阻害チャネルを予防できることを示す。 CEにはいくつかの魅力ある利点がある。 1) ResNet や MobileNet などの先進的な CNN アーキテクチャに組み込むことができ,元のネットワークよりも優れていた。 2) CE は非協調ゲームのよく知られた解である Nash Equilibrium と興味深い関係を持つ。 (3) 総合実験の結果,CEはImageNetやCOCOなど,様々な挑戦的なベンチマークで最先端のパフォーマンスを達成した。

Convolutional Neural Networks (CNNs) are typically constructed by stacking multiple building blocks, each of which contains a normalization layer such as batch normalization (BN) and a rectified linear function such as ReLU. However, this work shows that the combination of normalization and rectified linear function leads to inhibited channels, which have small magnitude and contribute little to the learned feature representation, impeding the generalization ability of CNNs. Unlike prior arts that simply removed the inhibited channels, we propose to "wake them up" during training by designing a novel neural building block, termed Channel Equilibrium (CE) block, which enables channels at the same layer to contribute equally to the learned representation. We show that CE is able to prevent inhibited channels both empirically and theoretically. CE has several appealing benefits. (1) It can be integrated into many advanced CNN architectures such as ResNet and MobileNet, outperforming their original networks. (2) CE has an interesting connection with the Nash Equilibrium, a well-known solution of a non-cooperative game. (3) Extensive experiments show that CE achieves state-of-the-art performance on various challenging benchmarks such as ImageNet and COCO.
翻訳日:2022-12-27 20:15:35 公開日:2020-02-29
# カウントレベル弱スーパービジョンのクラウドカウンティングへの応用

Towards Using Count-level Weak Supervision for Crowd Counting ( http://arxiv.org/abs/2003.00164v1 )

ライセンス: Link先を確認
Yinjie Lei, Yan Liu, Pingping Zhang, Lingqiao Liu(参考訳) 既存のクラウドカウントメソッドの多くは、オブジェクトの位置レベルのアノテーション、すなわちオブジェクトの中央にドットを置く必要がある。 このアノテーションはバウンディングボックスやピクセルレベルのアノテーションよりも単純だが、特に混雑したシーンのイメージでは、依然として労働集約的で時間を要する。 一方、オブジェクトの総数しか知らない弱いアノテーションは、多くの実践的なシナリオでは、ほとんど労力がかからない。 したがって、カウントレベルのアノテーションからモデルを効果的に訓練できる学習手法を開発することが望ましい。 そこで本研究では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。 このシナリオにおいて効果的なトレーニングを行うために,対象数への密度マップの積分を回帰させる直接解は不十分であり,弱注釈画像の予測密度マップにより強固な正則化を導入することが有用である。 本稿では,複数の補助タスクトレーニング(matt)という,簡便かつ効果的なトレーニング戦略を考案し,生成する密度マップの自由度を制限するための正規化を構築する。 既存のデータセットと新たに提案したデータセットに関する広範な実験を通じて、提案手法の有効性を検証し、既存のソリューションよりも優れた性能を示す。

Most existing crowd counting methods require object location-level annotation, i.e., placing a dot at the center of an object. While being simpler than the bounding-box or pixel-level annotation, obtaining this annotation is still labor-intensive and time-consuming especially for images with highly crowded scenes. On the other hand, weaker annotations that only know the total count of objects can be almost effortless in many practical scenarios. Thus, it is desirable to develop a learning method that can effectively train models from count-level annotations. To this end, this paper studies the problem of weakly-supervised crowd counting which learns a model from only a small amount of location-level annotations (fully-supervised) but a large amount of count-level annotations (weakly-supervised). To perform effective training in this scenario, we observe that the direct solution of regressing the integral of density map to the object count is not sufficient and it is beneficial to introduce stronger regularizations on the predicted density map of weakly-annotated images. We devise a simple-yet-effective training strategy, namely Multiple Auxiliary Tasks Training (MATT), to construct regularizes for restricting the freedom of the generated density maps. Through extensive experiments on existing datasets and a newly proposed dataset, we validate the effectiveness of the proposed weakly-supervised method and demonstrate its superior performance over existing solutions.
翻訳日:2022-12-27 20:10:06 公開日:2020-02-29
# 1つや5つ星を作る感情って何? 感性分析とXAIによるオンライン製品レビューのレーティング理解

What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI ( http://arxiv.org/abs/2003.00201v1 )

ライセンス: Link先を確認
Chaehan So(参考訳) オンラインで商品を購入するとき、主にオンラインレビューで提示された他人の推薦に基づいて決定する。 現在の研究は、これらのオンラインレビューを感情分析によって分析し、抽出された感情をいくつかの機械学習アルゴリズムによって製品評価を予測する機能として用いた。 これらの予測は、予測中にモデルにバイアスが現れるかどうかを理解するために、説明可能なAI(XAI)の様々なメソドによって歪められた。 研究1では、これらのアルゴリズム(knn、サポートベクターマシン、ランダムフォレスト、勾配向上マシン、XGBoost)をベンチマークし、製品評価を予測するための最良のアルゴリズムとしてランダムフォレストとXGBoostを特定した。 研究2では、世界的特徴重要度の分析により、感情的喜びと感情的原子価が最も予測的特徴であることがわかった。 局所特徴帰属と部分依存プロットという2つのxai可視化手法が,インスタンスレベルで不正確な予測機構を明らかにした。 調査3は、ベンチマークを分類として実行し、64.4%という高い非情報率を特定し、高いクラス不均衡が問題の根本原因であることを示した。 結論として、機械学習アルゴリズムによる優れたパフォーマンスは、この研究で遭遇したデータセットが、特定の予測に偏っている可能性があるため、注意を払う必要がある。 本稿では,xai手法が予測バイアスを明らかにする方法を示す。

When people buy products online, they primarily base their decisions on the recommendations of others given in online reviews. The current work analyzed these online reviews by sentiment analysis and used the extracted sentiments as features to predict the product ratings by several machine learning algorithms. These predictions were disentangled by various meth-ods of explainable AI (XAI) to understand whether the model showed any bias during prediction. Study 1 benchmarked these algorithms (knn, support vector machines, random forests, gradient boosting machines, XGBoost) and identified random forests and XGBoost as best algorithms for predicting the product ratings. In Study 2, the analysis of global feature importance identified the sentiment joy and the emotional valence negative as most predictive features. Two XAI visualization methods, local feature attributions and partial dependency plots, revealed several incorrect prediction mechanisms on the instance-level. Performing the benchmarking as classification, Study 3 identified a high no-information rate of 64.4% that indicated high class imbalance as underlying reason for the identified problems. In conclusion, good performance by machine learning algorithms must be taken with caution because the dataset, as encountered in this work, could be biased towards certain predictions. This work demonstrates how XAI methods reveal such prediction bias.
翻訳日:2022-12-27 20:08:44 公開日:2020-02-29
# 双方向格子リカレントニューラルネットワークを用いたLVCSR仮説格子からの発声検出

Voice trigger detection from LVCSR hypothesis lattices using bidirectional lattice recurrent neural networks ( http://arxiv.org/abs/2003.00304v1 )

ライセンス: Link先を確認
Woojay Jeon, Leo Liu, Henry Mason(参考訳) ニューラルネットワークを介してサーバ側大語彙連続音声認識器(LVCSR)の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。 まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。 本稿では, 双方向格子リカレントニューラルネットワーク (LatticeRNN) をタスクに用いて, 検出精度を1-bestの結果や後方よりも大幅に向上できることを示す。

We propose a method to reduce false voice triggers of a speech-enabled personal assistant by post-processing the hypothesis lattice of a server-side large-vocabulary continuous speech recognizer (LVCSR) via a neural network. We first discuss how an estimate of the posterior probability of the trigger phrase can be obtained from the hypothesis lattice using known techniques to perform detection, then investigate a statistical model that processes the lattice in a more explicitly data-driven, discriminative manner. We propose using a Bidirectional Lattice Recurrent Neural Network (LatticeRNN) for the task, and show that it can significantly improve detection accuracy over using the 1-best result or the posterior.
翻訳日:2022-12-27 20:08:20 公開日:2020-02-29
# AMAGOLD: 効率的な確率勾配MCMCの補正

AMAGOLD: Amortized Metropolis Adjustment for Efficient Stochastic Gradient MCMC ( http://arxiv.org/abs/2003.00193v1 )

ライセンス: Link先を確認
Ruqi Zhang, A. Feder Cooper, Christopher De Sa(参考訳) 確率勾配ハミルトニアン・モンテカルロ(SGHMC)は連続分布からの効率的なサンプリング法である。 各イテレーションでデータセット全体を使用する代わりに、SGHMCはサブサンプルのみを使用する。 これにより性能が向上するが、SGHMCを間違った分布に収束させるバイアスが発生する。 これをゼロに崩壊するステップサイズで防ぐことができるが、そのようなステップサイズスケジュールは収束を劇的に遅らせる可能性がある。 そこで本稿では, しばしばメトロポリス・ハスティング(M-H)補正を用いてバイアスを除去する2次SG-MCMCアルゴリズム--AMAGOLDを提案する。 補正の頻度はコストを償却する。 我々は, AMAGOLD が減少するステップサイズではなく, 目標分布に収束し, 収束速度が全バッチベースラインよりも遅くなることを証明した。 我々は,合成分布,ベイズロジスティック回帰,ベイズニューラルネットワークに対するアマゴールドの有効性を実証的に示す。

Stochastic gradient Hamiltonian Monte Carlo (SGHMC) is an efficient method for sampling from continuous distributions. It is a faster alternative to HMC: instead of using the whole dataset at each iteration, SGHMC uses only a subsample. This improves performance, but introduces bias that can cause SGHMC to converge to the wrong distribution. One can prevent this using a step size that decays to zero, but such a step size schedule can drastically slow down convergence. To address this tension, we propose a novel second-order SG-MCMC algorithm---AMAGOLD---that infrequently uses Metropolis-Hastings (M-H) corrections to remove bias. The infrequency of corrections amortizes their cost. We prove AMAGOLD converges to the target distribution with a fixed, rather than a diminishing, step size, and that its convergence rate is at most a constant factor slower than a full-batch baseline. We empirically demonstrate AMAGOLD's effectiveness on synthetic distributions, Bayesian logistic regression, and Bayesian neural networks.
翻訳日:2022-12-27 20:06:39 公開日:2020-02-29
# 単語埋め込みの下流不安定性を理解する

Understanding the Downstream Instability of Word Embeddings ( http://arxiv.org/abs/2003.04983v1 )

ライセンス: Link先を確認
Megan Leszczynski, Avner May, Jian Zhang, Sen Wu, Christopher R. Aberger, Christopher R\'e(参考訳) 多くの産業用機械学習(ml)システムは、常に変化するデータを最新に保つために、頻繁なリトレーニングを必要とする。 モデルトレーニングは不安定であり、トレーニングデータの小さな変更はモデルの予測に大きな変化を引き起こす可能性がある。 In this paper, we work on developing a deeper understanding of this instability, with a focus on how a core building block of modern natural language processing (NLP) pipelines---pre-trained word embeddings---affects the instability of downstream NLP models. We first empirically reveal a tradeoff between stability and memory: increasing the embedding memory 2x can reduce the disagreement in predictions due to small changes in training data by 5% to 37% (relative). To theoretically explain this tradeoff, we introduce a new measure of embedding instability---the eigenspace instability measure---which we prove bounds the disagreement in downstream predictions introduced by the change in word embeddings. 実際に,固有空間不安定度尺度は,下流モデルのトレーニングを行なわずに,他の埋め込み距離尺度を上回り,近隣の測度と競い合うことなく,埋め込みパラメータを選択し,不安定度を最小化するための費用対効果を示す。 最後に、観測された安定性とメモリのトレードオフが、知識グラフや文脈単語の埋め込みなど、他の種類の埋め込みにも及んでいることを示す。

Many industrial machine learning (ML) systems require frequent retraining to keep up-to-date with constantly changing data. This retraining exacerbates a large challenge facing ML systems today: model training is unstable, i.e., small changes in training data can cause significant changes in the model's predictions. In this paper, we work on developing a deeper understanding of this instability, with a focus on how a core building block of modern natural language processing (NLP) pipelines---pre-trained word embeddings---affects the instability of downstream NLP models. We first empirically reveal a tradeoff between stability and memory: increasing the embedding memory 2x can reduce the disagreement in predictions due to small changes in training data by 5% to 37% (relative). To theoretically explain this tradeoff, we introduce a new measure of embedding instability---the eigenspace instability measure---which we prove bounds the disagreement in downstream predictions introduced by the change in word embeddings. Practically, we show that the eigenspace instability measure can be a cost-effective way to choose embedding parameters to minimize instability without training downstream models, outperforming other embedding distance measures and performing competitively with a nearest neighbor-based measure. Finally, we demonstrate that the observed stability-memory tradeoffs extend to other types of embeddings as well, including knowledge graph and contextual word embeddings.
翻訳日:2022-12-27 19:59:37 公開日:2020-02-29
# 時間変化を考慮したコンテキスト境界に基づくパーソナライズドレコメンデーション

Contextual-Bandit Based Personalized Recommendation with Time-Varying User Interests ( http://arxiv.org/abs/2003.00359v1 )

ライセンス: Link先を確認
Xiao Xu, Fang Dong, Yanghua Li, Shaojian He, Xin Li(参考訳) コンテキストバンディット問題は,ユーザの時間的利害関係から,様々なレコメンデーションシステムにおいてユビキタスである非定常環境において研究されている。 切り離しとハイブリッドペイオフの2つのモデルでは,異なる項目に対するユーザの嗜好が時間とともに異なる現象を特徴付けると考えられる。 相反するペイオフモデルでは、腕を弾く報酬は腕固有の選好ベクトルによって決定される。 突発的な報酬変化に適応する効率的な学習アルゴリズムを提案し、理論的後悔分析を行い、時間長$T$における後悔のサブ線形スケーリングが達成されることを示す。 このアルゴリズムはさらに、腕固有の選好ベクトルと全腕で共有される関節係数ベクトルによって腕の演奏報酬が決定されるハイブリッドペイオフによるより一般的な設定に拡張される。 実世界のデータセット上で実証実験を行い、両方の設定におけるベースラインに対する学習アルゴリズムの利点を検証する。

A contextual bandit problem is studied in a highly non-stationary environment, which is ubiquitous in various recommender systems due to the time-varying interests of users. Two models with disjoint and hybrid payoffs are considered to characterize the phenomenon that users' preferences towards different items vary differently over time. In the disjoint payoff model, the reward of playing an arm is determined by an arm-specific preference vector, which is piecewise-stationary with asynchronous and distinct changes across different arms. An efficient learning algorithm that is adaptive to abrupt reward changes is proposed and theoretical regret analysis is provided to show that a sublinear scaling of regret in the time length $T$ is achieved. The algorithm is further extended to a more general setting with hybrid payoffs where the reward of playing an arm is determined by both an arm-specific preference vector and a joint coefficient vector shared by all arms. Empirical experiments are conducted on real-world datasets to verify the advantages of the proposed learning algorithms against baseline ones in both settings.
翻訳日:2022-12-27 19:59:13 公開日:2020-02-29
# エッジ上でのディープラーニングによるスーパーマーケットのハザード検出

Hazard Detection in Supermarkets using Deep Learning on the Edge ( http://arxiv.org/abs/2003.04116v1 )

ライセンス: Link先を確認
M. G. Sarwar Murshed, Edward Verenich, James J. Carroll, Nazar Khan, Faraz Hussain(参考訳) スーパーマーケットは買い物客と従業員の両方にとってクリーンで安全な環境を確保する必要がある。 スリップ、トリップ、転倒は、身体的および金銭的コストを伴う怪我を引き起こす可能性がある。 スーパーマーケットの床に流出した液体や落下物などの有害な状況のタイムリーな検出は、重傷を負う可能性を減らすことができる。 本稿では,資源制約のあるデバイスへの展開と推論を容易にする,新しい軽量ディープラーニングモデルEdgeLiteを提案する。 スーパーマーケットのフロアハザードを検出する2つのエッジデバイスにおけるEdgeLiteの使用について述べる。 私たちが開発したハザード検出データセットでは、エッジデバイスにデプロイされたEdgeLiteは、メモリ使用量と推論時間に匹敵する精度で、6つの最先端オブジェクト検出モデルを上回った。

Supermarkets need to ensure clean and safe environments for both shoppers and employees. Slips, trips, and falls can result in injuries that have a physical as well as financial cost. Timely detection of hazardous conditions such as spilled liquids or fallen items on supermarket floors can reduce the chances of serious injuries. This paper presents EdgeLite, a novel, lightweight deep learning model for easy deployment and inference on resource-constrained devices. We describe the use of EdgeLite on two edge devices for detecting supermarket floor hazards. On a hazard detection dataset that we developed, EdgeLite, when deployed on edge devices, outperformed six state-of-the-art object detection models in terms of accuracy while having comparable memory usage and inference time.
翻訳日:2022-12-27 19:58:38 公開日:2020-02-29
# 特徴再利用の実用性:データ入力レジームにおける伝達学習

The Utility of Feature Reuse: Transfer Learning in Data-Starved Regimes ( http://arxiv.org/abs/2003.04117v1 )

ライセンス: Link先を確認
Edward Verenich, Alvaro Velasquez, M.G. Sarwar Murshed, Faraz Hussain(参考訳) ディープニューラルネットワークによるトランスファーラーニングの利用は、よくテストされたコンピュータビジョンシステムを新しいドメイン、特に限られたデータセットにデプロイする上で、ますます普及している。 本稿では,100以上のラベル付きターゲットサンプルを持つデータ格納型ドメインのトランスファー学習ユースケースについて述べる。 本研究では,対象訓練データのサイズに対する過パラメータモデルの畳み込み特徴抽出と微調整の有効性と,共変量シフトデータ,あるいはout-of-distribution(ood)データに対する一般化性能を評価する。 実験の結果, 過度パラメータ化と特徴再利用は, 画像分類器の訓練における伝達学習の有効活用に寄与することがわかった。

The use of transfer learning with deep neural networks has increasingly become widespread for deploying well-tested computer vision systems to newer domains, especially those with limited datasets. We describe a transfer learning use case for a domain with a data-starved regime, having fewer than 100 labeled target samples. We evaluate the effectiveness of convolutional feature extraction and fine-tuning of overparameterized models with respect to the size of target training data, as well as their generalization performance on data with covariate shift, or out-of-distribution (OOD) data. Our experiments show that both overparameterization and feature reuse contribute to successful application of transfer learning in training image classifiers in data-starved regimes.
翻訳日:2022-12-27 19:58:30 公開日:2020-02-29
# 「誰の運転ですか。」 ディープニューラル特徴を用いた車両インスタンス分類

"Who is Driving around Me?" Unique Vehicle Instance Classification using Deep Neural Features ( http://arxiv.org/abs/2003.08771v1 )

ライセンス: Link先を確認
Tim Oosterhuis and Lambert Schomaker(参考訳) 他の交通渋滞に気付くことは、自動運転車が現実世界で動くための前提条件だ。 本稿では,物体検出CNNの固有特徴マップを用いて,ダッシュカムフィードから車両を識別する方法について述べる。 事前訓練された‘YOLO’ネットワークの特徴マップを使用して、高解像度データセットから35台の車両の20の異なる画像から700の深い統合機能シグネチャ(DIFS)、低解像度トラッキングベンチマークデータセットから17台の車両の20の異なる画像から340のシグネチャを生成する。 YOLOネットワークは、検出されたオブジェクトを 'car' または 'truck' に分類するなど、一般的なオブジェクトカテゴリを分類するために訓練された。 ネットワークの中間層の特徴マップから作成したDIFSでは、高解像度データでは96.7\%、低解像度データでは86.8\%の比率でユニークな車両を正しく識別するために、5-Fold Near neighbor (1NN)分類が使用された。 我々は、異なるクラスを区別するために訓練されたディープニューラルネットワークが、ディープ統合特徴シグネチャ(DIFS)の作成を通じて、同一クラスに属する異なるインスタンスを識別するためにうまく使用できると結論付けた。

Being aware of other traffic is a prerequisite for self-driving cars to operate in the real world. In this paper, we show how the intrinsic feature maps of an object detection CNN can be used to uniquely identify vehicles from a dash-cam feed. Feature maps of a pretrained `YOLO' network are used to create 700 deep integrated feature signatures (DIFS) from 20 different images of 35 vehicles from a high resolution dataset and 340 signatures from 20 different images of 17 vehicles of a lower resolution tracking benchmark dataset. The YOLO network was trained to classify general object categories, e.g. classify a detected object as a `car' or `truck'. 5-Fold nearest neighbor (1NN) classification was used on DIFS created from feature maps in the middle layers of the network to correctly identify unique vehicles at a rate of 96.7\% for the high resolution data and with a rate of 86.8\% for the lower resolution data. We conclude that a deep neural detection network trained to distinguish between different classes can be successfully used to identify different instances belonging to the same class, through the creation of deep integrated feature signatures (DIFS).
翻訳日:2022-12-27 19:58:18 公開日:2020-02-29
# 自動運転データのための知識グラフ埋め込みの評価:経験と実践

An Evaluation of Knowledge Graph Embeddings for Autonomous Driving Data: Experience and Practice ( http://arxiv.org/abs/2003.00344v1 )

ライセンス: Link先を確認
Ruwan Wickramarachchi, Cory Henson, Amit Sheth(参考訳) 自動運転(ad)産業は、車載センサから生成される膨大な異種データを管理するための知識グラフ(kgs)の利用を検討している。 各種装備センサーには、ビデオ、LIDAR、RADARなどがある。 シーン理解は、検出されたオブジェクト、イベント、時間、場所など、シーンのさまざまな側面を考慮する必要があるadの重要なトピックである。 知識グラフ埋め込み(KGE)に関する最近の研究は、ニューロシンボリック融合を促進するアプローチであり、機械学習モデルの予測性能を改善することを示している。 本研究は,KGEによるニューロシンボリック融合がシーン理解を改善することを期待して,自律運転データに対するKGEの生成と評価について検討する。 また,KGにおける情報詳細度レベルと,その微分埋め込みの品質との関係について検討する。 4次元のKGE(品質指標、KG情報詳細、アルゴリズム、データセット)を体系的に評価することにより、(1)KGの高レベルな情報詳細がより高い品質の埋め込みをもたらすこと、(2)タイプおよび関連セマンティクスがセマンティックな遷移距離ベースTransEアルゴリズムによりより捕えられること、(3)コヒーレンス測度のようないくつかのメトリクスは、この領域でKGEを本質的に評価するのに適していないこと、が示される。 さらに、ADドメインにおける2つのユースケースに対するKGEの有用性について(最近)検討する。

The autonomous driving (AD) industry is exploring the use of knowledge graphs (KGs) to manage the vast amount of heterogeneous data generated from vehicular sensors. The various types of equipped sensors include video, LIDAR and RADAR. Scene understanding is an important topic in AD which requires consideration of various aspects of a scene, such as detected objects, events, time and location. Recent work on knowledge graph embeddings (KGEs) - an approach that facilitates neuro-symbolic fusion - has shown to improve the predictive performance of machine learning models. With the expectation that neuro-symbolic fusion through KGEs will improve scene understanding, this research explores the generation and evaluation of KGEs for autonomous driving data. We also present an investigation of the relationship between the level of informational detail in a KG and the quality of its derivative embeddings. By systematically evaluating KGEs along four dimensions -- i.e. quality metrics, KG informational detail, algorithms, and datasets -- we show that (1) higher levels of informational detail in KGs lead to higher quality embeddings, (2) type and relation semantics are better captured by the semantic transitional distance-based TransE algorithm, and (3) some metrics, such as coherence measure, may not be suitable for intrinsically evaluating KGEs in this domain. Additionally, we also present an (early) investigation of the usefulness of KGEs for two use-cases in the AD domain.
翻訳日:2022-12-27 19:57:53 公開日:2020-02-29
# 人工知能の安全性評価について

On Safety Assessment of Artificial Intelligence ( http://arxiv.org/abs/2003.00260v1 )

ライセンス: Link先を確認
Jens Braband and Hendrik Sch\"abe(参考訳) 本稿では,人工知能を用いたシステム(AI)の安全性評価について論じる。 安全関連のアプリケーションでAIが使用されている場合、これは関連性がある。 aiモデルをより深く見てみると、人工知能の多くのモデル、特に機械学習は統計モデルであることが分かる。 安全性評価は、通常の評価手順に加えて、aiで使用されるモデルにt oを集中させる。 関連する安全整合性レベルのための危険なランダムな障害の予算の一部は、aiシステムの確率的障害行動に使用される必要があります。 簡単な例で私たちの考えを実証し、安全関連のシステムでAIを使用する上で決定的な研究課題を提案する。

In this paper we discuss how systems with Artificial Intelligence (AI) can undergo safety assessment. This is relevant, if AI is used in safety related applications. Taking a deeper look into AI models, we show, that many models of artificial intelligence, in particular machine learning, are statistical models. Safety assessment would then have t o concentrate on the model that is used in AI, besides the normal assessment procedure. Part of the budget of dangerous random failures for the relevant safety integrity level needs to be used for the probabilistic faulty behavior of the AI system. We demonstrate our thoughts with a simple example and propose a research challenge that may be decisive for the use of AI in safety related systems.
翻訳日:2022-12-27 19:57:24 公開日:2020-02-29