論文の概要: MAEA: Multimodal Attribution for Embodied AI
- arxiv url: http://arxiv.org/abs/2307.13850v1
- Date: Tue, 25 Jul 2023 22:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:16:49.016993
- Title: MAEA: Multimodal Attribution for Embodied AI
- Title(参考訳): MAEA: Embodied AIのマルチモーダル属性
- Authors: Vidhi Jain, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Yonatan Bisk
- Abstract要約: 差別化可能な政策のモダリティごとのグローバル属性を計算するためのフレームワークであるMAEAを提示する。
言語および視覚的属性に対するEAIポリシーにおいて、属性が低レベルな行動分析を可能にするかを示す。
- 参考スコア(独自算出の注目度): 18.515215371833186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding multimodal perception for embodied AI is an open question
because such inputs may contain highly complementary as well as redundant
information for the task. A relevant direction for multimodal policies is
understanding the global trends of each modality at the fusion layer. To this
end, we disentangle the attributions for visual, language, and previous action
inputs across different policies trained on the ALFRED dataset. Attribution
analysis can be utilized to rank and group the failure scenarios, investigate
modeling and dataset biases, and critically analyze multimodal EAI policies for
robustness and user trust before deployment. We present MAEA, a framework to
compute global attributions per modality of any differentiable policy. In
addition, we show how attributions enable lower-level behavior analysis in EAI
policies for language and visual attributions.
- Abstract(参考訳): 具体化されたaiに対するマルチモーダルな知覚を理解することは、そのような入力はタスクの冗長な情報だけでなく、非常に補完的な情報を含む可能性があるため、オープンな疑問である。
マルチモーダル政策の関連する方向は、融合層における各モダリティのグローバルな傾向を理解することである。
この目的のために、ALFREDデータセットでトレーニングされたさまざまなポリシーにまたがって、視覚、言語、過去のアクションインプットに対する属性を分離する。
属性分析は、障害シナリオのランク付けとグループ化、モデリングとデータセットバイアスの調査、デプロイメント前の堅牢性とユーザ信頼のためのマルチモーダルEAIポリシの批判的分析に利用することができる。
差別化可能な政策のモダリティごとのグローバル属性を計算するためのフレームワークであるMAEAを提案する。
また,言語および視覚的属性に対するEAIポリシにおいて,属性が低レベルな行動分析を可能にすることを示す。
関連論文リスト
- On the Out-Of-Distribution Generalization of Multimodal Large Language
Models [24.431960338495184]
MLLM(Multimodal Large Language Models)の一般化境界について検討する。
我々は、合成画像、実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにまたがるゼロショットの一般化を評価した。
テキスト内学習はMLLMの一般化を著しく向上させ,一般化障壁を克服するための新たな道を開くことができることを示す。
論文 参考訳(メタデータ) (2024-02-09T18:21:51Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z) - Adaptive Informative Path Planning with Multimodal Sensing [36.16721115973077]
AIPPMS(マルチモーダルセンシング用MS)
AIPPMSを部分的に観測可能なマルコフ決定プロセス(POMDP)として、オンラインプランニングで解決する。
シミュレーションされた検索・救助シナリオと,従来のRockSample問題への挑戦的拡張の2つの領域について,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-21T20:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。