Fugu-MT 論文翻訳(概要): Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task

論文の概要: Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task

arxiv url: http://arxiv.org/abs/2211.05039v2
Date: Mon, 3 Jul 2023 14:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-04 15:21:04.759377
Title: Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task
Title（参考訳）: マルチモーダル時間データに対するアクティブな獲得: 整合的意思決定タスク
Authors: Jannik Kossen, C\u{a}t\u{a}lina Cangea, Eszter V\'ertes, Andrew Jaegle, Viorica Patraucean, Ira Ktena, Nenad Tomasev, Danielle Belgrave
Abstract要約: 我々は、マルチモーダル時間データ(A2MT)のアクティブな獲得と呼ばれる挑戦的な意思決定タスクを導入する。我々は,取得する入力のモダリティを積極的に選択し,取得コストと予測性能をトレードオフするエージェントを学習することを目的とする。 A2MTの応用は、医療、ロボティクス、金融といった分野に影響を及ぼす可能性がある。
参考スコア（独自算出の注目度）: 13.291343999247898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a challenging decision-making task that we call active acquisition for multimodal temporal data (A2MT). In many real-world scenarios, input features are not readily available at test time and must instead be acquired at significant cost. With A2MT, we aim to learn agents that actively select which modalities of an input to acquire, trading off acquisition cost and predictive performance. A2MT extends a previous task called active feature acquisition to temporal decision making about high-dimensional inputs. We propose a method based on the Perceiver IO architecture to address A2MT in practice. Our agents are able to solve a novel synthetic scenario requiring practically relevant cross-modal reasoning skills. On two large-scale, real-world datasets, Kinetics-700 and AudioSet, our agents successfully learn cost-reactive acquisition behavior. However, an ablation reveals they are unable to learn adaptive acquisition strategies, emphasizing the difficulty of the task even for state-of-the-art models. Applications of A2MT may be impactful in domains like medicine, robotics, or finance, where modalities differ in acquisition cost and informativeness.
Abstract（参考訳）: 我々は,マルチモーダル時間データ(A2MT)の能動的取得という,困難な意思決定タスクを導入する。多くの現実世界のシナリオでは、入力機能はテスト時に簡単に利用できず、大きなコストで取得する必要がある。 A2MTでは,取得する入力のモダリティ,取得コスト,予測性能を積極的に選択するエージェントを学習することを目的としている。 A2MTは、アクティブ特徴獲得と呼ばれる以前のタスクを拡張して、高次元入力に関する時間的決定を行う。本稿では,Perceiver IOアーキテクチャに基づくA2MTの実現手法を提案する。我々のエージェントは、実用的なクロスモーダル推論スキルを必要とする新しい合成シナリオを解くことができる。実世界の2つの大規模データセット、kinetics-700とaudiosetにおいて、エージェントはコスト-反応性獲得行動の学習に成功しました。しかし、アブレーションは適応的な獲得戦略を学べず、最先端のモデルであってもタスクの難しさを強調している。 a2mtの応用は、医療、ロボティクス、金融などの分野において、買収コストと情報性においてモダリティが異なる可能性がある。

関連論文リスト

Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
NOCTA: Non-Greedy Objective Cost-Tradeoff Acquisition for Longitudinal Data [23.75715594365611]
提案手法は,Non-Greedy Objective Cost-Tradeoff Acquisition法であるNOCTAである。まず、NOCTA設定のための凝集性推定ターゲットを導入し、2つの相補的推定器を開発する。合成および実世界の医療データセットの実験により、NOCTAの変種はどちらも既存のベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-07-16T17:00:41Z)
CAML: Collaborative Auxiliary Modality Learning for Multi-Agent Systems [38.20651868834145]
Collaborative Auxiliary Modality Learning (textbfCAML$)は、新しいマルチエージェントマルチモダリティフレームワークである。エージェントは、トレーニング中に複数のモーダルデータを共同で共有し、テスト中にエージェント毎のモダリティを低減した推論を可能にする。
論文参考訳（メタデータ） (2025-02-25T03:59:40Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文参考訳（メタデータ） (2024-10-08T09:35:37Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Learning Computational Efficient Bots with Costly Features [9.39143793228343]
本稿では,入力特徴の計算コストを考慮した汎用的なオフライン学習手法を提案する。本稿では,D4RLベンチマークや複雑な3D環境など,様々なタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-18T15:43:31Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)
Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処するマルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文参考訳（メタデータ） (2021-10-21T05:38:45Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)
Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文参考訳（メタデータ） (2020-11-02T08:46:27Z)
Active Feature Acquisition with Generative Surrogate Models [11.655069211977464]
本研究では,アクティブ機能獲得(AFA)を行うモデルについて検討し,未観測機能に対する環境問合せを行う。我々の研究は、AFA問題を生成的モデリングタスクとして根底にあるマルコフ決定プロセス(MDP)を再構築する。本稿では,入力特徴間の依存関係を捕捉し,取得から得られる潜在的な情報を評価する生成代理モデル(GSM)の学習を提案する。
論文参考訳（メタデータ） (2020-10-06T02:10:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。