論文の概要: ICA: Information-Aware Credit Assignment for Visually Grounded Long-Horizon Information-Seeking Agents
- arxiv url: http://arxiv.org/abs/2602.10863v1
- Date: Wed, 11 Feb 2026 13:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.946587
- Title: ICA: Information-Aware Credit Assignment for Visually Grounded Long-Horizon Information-Seeking Agents
- Title(参考訳): ICA:視覚的位置情報検索エージェントのための情報認識型クレジットアサインメント
- Authors: Cong Pang, Xuyu Feng, Yujie Yi, Zixuan Chen, Jiawei Hong, Tiankuo Yao, Nang Yuan, Jiapeng Luo, Lewei Lu, Xin Lou,
- Abstract要約: 本稿では,Webページを視覚的スナップショットとして表現するビジュアルネイティブ検索フレームワークを提案する。
本稿では、検索した各スナップショットの最終的な結果への貢献を推定するポストホック法である情報認識クレジット割り当て(ICA)を紹介する。
我々のアプローチは、多様な情報検索ベンチマークでテキストベースのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 26.361688266083988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong performance achieved by reinforcement learning-trained information-seeking agents, learning in open-ended web environments remains severely constrained by low signal-to-noise feedback. Text-based parsers often discard layout semantics and introduce unstructured noise, while long-horizon training typically relies on sparse outcome rewards that obscure which retrieval actions actually matter. We propose a visual-native search framework that represents webpages as visual snapshots, allowing agents to leverage layout cues to quickly localize salient evidence and suppress distractors. To learn effectively from these high-dimensional observations, we introduce Information-Aware Credit Assignment (ICA), a post-hoc method that estimates each retrieved snapshot's contribution to the final outcome via posterior analysis and propagates dense learning signals back to key search turns. Integrated with a GRPO-based training pipeline, our approach consistently outperforms text-based baselines on diverse information-seeking benchmarks, providing evidence that visual snapshot grounding with information-level credit assignment alleviates the credit-assignment bottleneck in open-ended web environments. The code and datasets will be released in https://github.com/pc-inno/ICA_MM_deepsearch.git.
- Abstract(参考訳): 強化学習訓練された情報探索エージェントによって達成された強い性能にもかかわらず、オープンエンドのWeb環境における学習は、低信号対雑音フィードバックによって厳しい制約を受け続けている。
テキストベースのパーサーはしばしばレイアウトのセマンティクスを捨て、構造化されていないノイズを導入する。
本稿では,Webページを視覚的スナップショットとして表現するビジュアルネイティブ検索フレームワークを提案する。
これらの高次元観測から効果的に学習するために、後続解析により、検索した各スナップショットの最終的な結果への寄与を推定し、キー検索ターンに戻す密集学習信号を伝播するポストホック法である情報認識信用割当て(ICA)を導入する。
GRPOベースのトレーニングパイプラインと統合して,多様な情報探索ベンチマークに基づくテキストベースのベースラインを一貫して上回り,情報レベルのクレジット割り当てによる視覚的スナップショットが,オープンなWeb環境におけるクレジット割り当てボトルネックを緩和する証拠を提供する。
コードとデータセットはhttps://github.com/pc-inno/ICA_MM_deepsearch.gitで公開される。
関連論文リスト
- Online Segment Any 3D Thing as Instance Tracking [60.20416622842975]
オンライン3Dセグメンテーションをインスタンス追跡問題として再認識する(AutoSeg3D)。
視覚基礎モデルに固有の断片化問題を緩和するために,空間整合性学習を導入する。
ScanNet200上でESAMを2.8 AP上回る新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-12-08T14:48:51Z) - Self-supervised structured object representation learning [2.747398258852965]
自己教師付き学習は視覚表現を学習するための強力な技術として登場した。
本稿では, セマンティックグルーピング, インスタンスレベルの分離, 階層的構造化を組み合わせることで, 構造化された視覚表現を構築する自己教師型アプローチを提案する。
提案手法は,新しいProtoScaleモジュールをベースとして,複数の空間スケールにわたる視覚的要素をキャプチャする。
論文 参考訳(メタデータ) (2025-08-27T13:28:05Z) - DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning [73.68685269970844]
WebPuzzleはトレーニングと275サンプルテストベンチマークで、ライブインターネット上での情報検索を評価する。
我々は、検索強度スケーリング(SIS)を育成する強化学習フレームワークであるDeepDiverを開発した。
我々は,DeepDiverのカリキュラムをコールドスタートSFTからよく設計されたRLプロシージャに詳述し,その探索方針がクローズドドクエリからロングフォームライティングなどのオープンエンドジェネレーションへと一般化したことを示す。
論文 参考訳(メタデータ) (2025-05-30T08:15:39Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [11.377241012645994]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。