論文の概要: Active Acquisition for Multimodal Temporal Data: A Challenging
Decision-Making Task
- arxiv url: http://arxiv.org/abs/2211.05039v2
- Date: Mon, 3 Jul 2023 14:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:21:04.759377
- Title: Active Acquisition for Multimodal Temporal Data: A Challenging
Decision-Making Task
- Title(参考訳): マルチモーダル時間データに対するアクティブな獲得: 整合的意思決定タスク
- Authors: Jannik Kossen, C\u{a}t\u{a}lina Cangea, Eszter V\'ertes, Andrew
Jaegle, Viorica Patraucean, Ira Ktena, Nenad Tomasev, Danielle Belgrave
- Abstract要約: 我々は、マルチモーダル時間データ(A2MT)のアクティブな獲得と呼ばれる挑戦的な意思決定タスクを導入する。
我々は,取得する入力のモダリティを積極的に選択し,取得コストと予測性能をトレードオフするエージェントを学習することを目的とする。
A2MTの応用は、医療、ロボティクス、金融といった分野に影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 13.291343999247898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a challenging decision-making task that we call active
acquisition for multimodal temporal data (A2MT). In many real-world scenarios,
input features are not readily available at test time and must instead be
acquired at significant cost. With A2MT, we aim to learn agents that actively
select which modalities of an input to acquire, trading off acquisition cost
and predictive performance. A2MT extends a previous task called active feature
acquisition to temporal decision making about high-dimensional inputs. We
propose a method based on the Perceiver IO architecture to address A2MT in
practice. Our agents are able to solve a novel synthetic scenario requiring
practically relevant cross-modal reasoning skills. On two large-scale,
real-world datasets, Kinetics-700 and AudioSet, our agents successfully learn
cost-reactive acquisition behavior. However, an ablation reveals they are
unable to learn adaptive acquisition strategies, emphasizing the difficulty of
the task even for state-of-the-art models. Applications of A2MT may be
impactful in domains like medicine, robotics, or finance, where modalities
differ in acquisition cost and informativeness.
- Abstract(参考訳): 我々は,マルチモーダル時間データ(A2MT)の能動的取得という,困難な意思決定タスクを導入する。
多くの現実世界のシナリオでは、入力機能はテスト時に簡単に利用できず、大きなコストで取得する必要がある。
A2MTでは,取得する入力のモダリティ,取得コスト,予測性能を積極的に選択するエージェントを学習することを目的としている。
A2MTは、アクティブ特徴獲得と呼ばれる以前のタスクを拡張して、高次元入力に関する時間的決定を行う。
本稿では,Perceiver IOアーキテクチャに基づくA2MTの実現手法を提案する。
我々のエージェントは、実用的なクロスモーダル推論スキルを必要とする新しい合成シナリオを解くことができる。
実世界の2つの大規模データセット、kinetics-700とaudiosetにおいて、エージェントはコスト-反応性獲得行動の学習に成功しました。
しかし、アブレーションは適応的な獲得戦略を学べず、最先端のモデルであってもタスクの難しさを強調している。
a2mtの応用は、医療、ロボティクス、金融などの分野において、買収コストと情報性においてモダリティが異なる可能性がある。
関連論文リスト
- ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Learning Computational Efficient Bots with Costly Features [9.39143793228343]
本稿では,入力特徴の計算コストを考慮した汎用的なオフライン学習手法を提案する。
本稿では,D4RLベンチマークや複雑な3D環境など,様々なタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-18T15:43:31Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Active Feature Acquisition with Generative Surrogate Models [11.655069211977464]
本研究では,アクティブ機能獲得(AFA)を行うモデルについて検討し,未観測機能に対する環境問合せを行う。
我々の研究は、AFA問題を生成的モデリングタスクとして根底にあるマルコフ決定プロセス(MDP)を再構築する。
本稿では,入力特徴間の依存関係を捕捉し,取得から得られる潜在的な情報を評価する生成代理モデル(GSM)の学習を提案する。
論文 参考訳(メタデータ) (2020-10-06T02:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。