論文の概要: Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA
- arxiv url: http://arxiv.org/abs/2603.09541v1
- Date: Tue, 10 Mar 2026 11:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.261119
- Title: Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA
- Title(参考訳): ダイナミック・ヒューマン・イン・ザ・ループEQAのためのメモリガイド型ビューリファインメント
- Authors: Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang,
- Abstract要約: 本稿では、関連性のあるビューリファインメントと選択的メモリアクセプションを結合した学習自由フレームワークを提案する。
DynHiL-EQAは、人間の活動と時間的変化を特徴とする動的サブセットと、時間的に安定な観測を伴う静的サブセットの2つのサブセットを持つ、人間のループ内EQAデータセットである。
- 参考スコア(独自算出の注目度): 45.82614927888644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Embodied Question Answering (EQA) has traditionally been evaluated in temporally stable environments where visual evidence can be accumulated reliably. However, in dynamic, human-populated scenes, human activities and occlusions introduce significant perceptual non-stationarity: task-relevant cues are transient and view-dependent, while a store-then-retrieve strategy over-accumulates redundant evidence and increases inference cost. This setting exposes two practical challenges for EQA agents: resolving ambiguity caused by viewpoint-dependent occlusions, and maintaining compact yet up-to-date evidence for efficient inference. To enable systematic study of this setting, we introduce DynHiL-EQA, a human-in-the-loop EQA dataset with two subsets: a Dynamic subset featuring human activities and temporal changes, and a Static subset with temporally stable observations. To address the above challenges, we present DIVRR (Dynamic-Informed View Refinement and Relevance-guided Adaptive Memory Selection), a training-free framework that couples relevance-guided view refinement with selective memory admission. By verifying ambiguous observations before committing them and retaining only informative evidence, DIVRR improves robustness under occlusions while preserving fast inference with compact memory. Extensive experiments on DynHiL-EQA and the established HM-EQA dataset demonstrate that DIVRR consistently improves over existing baselines in both dynamic and static settings while maintaining high inference efficiency.
- Abstract(参考訳): EQA(Embodied Question Answering)は、視覚的証拠を確実に蓄積できる時間的安定な環境において、伝統的に評価されてきた。
しかし、動的で人口の多いシーンでは、人間の活動やオクルージョンは重要な知覚的非定常性をもたらし、タスク関連キューは過渡的でビューに依存し、ストア検索戦略は冗長なエビデンスを過度に蓄積し、推論コストを増大させる。
この設定は、視点依存オクルージョンによるあいまいさの解消と、効率的な推論のためのコンパクトかつ最新の証拠の維持という2つの実践的な課題をEQAエージェントに提示する。
この設定を体系的に研究するために、DynHiL-EQAという、人間の活動と時間的変化を特徴とする動的サブセットと、時間的に安定な観測を伴う静的サブセットの2つのサブセットを持つ人間内EQAデータセットを紹介した。
このような課題に対処するため,リレーショナル・インフォームド・ビュー・リファインメントとアダプティブ・メモリ・セレクションを併用したトレーニングフリー・フレームワークであるDIVRR(Dynamic-Informed View Refinement and Relevance-Guided Adaptive Memory Selection)を提案する。
コミットする前に曖昧な観察を検証し、情報的証拠のみを保持することで、DIVRRは、コンパクトメモリで高速な推論を保ちながら、閉塞下での堅牢性を向上させる。
DynHiL-EQAと確立されたHM-EQAデータセットに関する大規模な実験により、DIVRRは動的および静的な設定において、高い推論効率を維持しながら、既存のベースラインを一貫して改善することを示した。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - Multi-Task Equation Discovery [0.0]
複数のデータセットにまたがる同時パラメータ識別にはマルチタスク学習フレームワークを用いる。
MTL-RVMはタスク間での情報を組み合わせて、弱い、中程度の興奮したデータセットのパラメータリカバリを改善した。
これらの結果は,マルチタスクベイズ推論が過剰適合を緩和し,方程式発見の一般化を促進することを示唆している。
論文 参考訳(メタデータ) (2025-09-29T18:56:40Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。