Fugu-MT 論文翻訳(概要): MAEA: Multimodal Attribution for Embodied AI

論文の概要: MAEA: Multimodal Attribution for Embodied AI

arxiv url: http://arxiv.org/abs/2307.13850v1
Date: Tue, 25 Jul 2023 22:51:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 14:16:49.016993
Title: MAEA: Multimodal Attribution for Embodied AI
Title（参考訳）: MAEA: Embodied AIのマルチモーダル属性
Authors: Vidhi Jain, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Yonatan Bisk
Abstract要約: 差別化可能な政策のモダリティごとのグローバル属性を計算するためのフレームワークであるMAEAを提示する。言語および視覚的属性に対するEAIポリシーにおいて、属性が低レベルな行動分析を可能にするかを示す。
参考スコア（独自算出の注目度）: 18.515215371833186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding multimodal perception for embodied AI is an open question because such inputs may contain highly complementary as well as redundant information for the task. A relevant direction for multimodal policies is understanding the global trends of each modality at the fusion layer. To this end, we disentangle the attributions for visual, language, and previous action inputs across different policies trained on the ALFRED dataset. Attribution analysis can be utilized to rank and group the failure scenarios, investigate modeling and dataset biases, and critically analyze multimodal EAI policies for robustness and user trust before deployment. We present MAEA, a framework to compute global attributions per modality of any differentiable policy. In addition, we show how attributions enable lower-level behavior analysis in EAI policies for language and visual attributions.
Abstract（参考訳）: 具体化されたaiに対するマルチモーダルな知覚を理解することは、そのような入力はタスクの冗長な情報だけでなく、非常に補完的な情報を含む可能性があるため、オープンな疑問である。マルチモーダル政策の関連する方向は、融合層における各モダリティのグローバルな傾向を理解することである。この目的のために、ALFREDデータセットでトレーニングされたさまざまなポリシーにまたがって、視覚、言語、過去のアクションインプットに対する属性を分離する。属性分析は、障害シナリオのランク付けとグループ化、モデリングとデータセットバイアスの調査、デプロイメント前の堅牢性とユーザ信頼のためのマルチモーダルEAIポリシの批判的分析に利用することができる。差別化可能な政策のモダリティごとのグローバル属性を計算するためのフレームワークであるMAEAを提案する。また,言語および視覚的属性に対するEAIポリシにおいて,属性が低レベルな行動分析を可能にすることを示す。

関連論文リスト

DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文参考訳（メタデータ） (2024-12-16T10:03:44Z)
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文参考訳（メタデータ） (2024-11-19T07:16:48Z)
Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文参考訳（メタデータ） (2024-11-07T15:26:38Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Knowledge-Guided Dynamic Modality Attention Fusion Framework for Multimodal Sentiment Analysis [4.344546814121446]
マルチモーダル感情分析のための知識誘導動的モダリティ注意融合フレームワーク(KuDA)を提案する。 Kudaは感情知識を使用して、支配的なモダリティを動的に選択し、各モダリティの貢献を調整するモデルを導く。 4つのMSAベンチマークデータセットの実験は、KuDAが最先端のパフォーマンスを達成し、支配的なモダリティの異なるシナリオに適応できることを示している。
論文参考訳（メタデータ） (2024-10-06T14:10:28Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文参考訳（メタデータ） (2020-11-01T11:06:31Z)
Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文参考訳（メタデータ） (2020-04-29T13:42:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。