論文の概要: ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19466v1
- Date: Thu, 19 Mar 2026 20:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.885441
- Title: ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models
- Title(参考訳): ProactiveBench: マルチモーダル大規模言語モデルにおけるベンチマークの有効性
- Authors: Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini,
- Abstract要約: ProactiveBenchは、さまざまなタスクにまたがってプロアクティブ性をテストするベンチマークです。
本研究は, (i) MLLMs on ProactiveBench, (ii) MLLMs on (i) MLLMs they are generally lack proactiveness; (ii) proactiveness not correlation with model capacity; (iii) "hinting" at proactiveness is yields only marginal gains。
- 参考スコア(独自算出の注目度): 51.06179253173491
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.
- Abstract(参考訳): 効果的なコラボレーションは、いつ助けを求めるべきかを知ることから始まる。
例えば、隠された物体を識別しようとすると、人間は誰かに障害物を除去するよう要求する。
MLLMは、簡単なユーザ介入をリクエストすることで、同様の"積極的な"行動を示すことができるか?
これを調べるために、ProactiveBenchは、7つの再使用データセットから構築されたベンチマークで、隠蔽対象の認識、画像品質の向上、粗いスケッチの解釈など、さまざまなタスク間でのプロアクティブ性をテストする。
ProactiveBench上で22個のMLLMを評価した。
一 概して積極性に欠ける
二 積極性は、モデル能力と相関しない。
(三)積極性で「隠れる」とすれば、利得は限界となる。
驚くべきことに、会話履歴と文脈内学習はネガティブなバイアスをもたらし、パフォーマンスを阻害することがわかった。
最後に、強化学習に基づく単純な微調整戦略について検討し、その結果から、予測不可能なシナリオに一般化して、積極性を学ぶことが可能であることが示唆された。
プロアクティブなマルチモーダルモデル構築に向けた第一歩として、ProactiveBenchを公開しています。
関連論文リスト
- VisualActBench: Can VLMs See and Act like a Human? [47.16421650715271]
VLM(Vision-Language Models)は、視覚環境の知覚と記述において顕著な進歩を遂げた。
しかし、明示的なテキストのプロンプトなしで、視覚的な入力のみに基づいて、積極的に推論し、行動する能力は、いまだに未解明のままである。
新しいタスクであるVisual Action Reasoningを導入し、1,074の動画と3,733の人手によるアクションからなる大規模ベンチマークであるVisualActBenchを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:36:18Z) - When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs [29.198301196459834]
MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。
20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
論文 参考訳(メタデータ) (2025-10-17T08:17:27Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。