論文の概要: Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed
- arxiv url: http://arxiv.org/abs/2604.27445v1
- Date: Thu, 30 Apr 2026 05:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.938077
- Title: Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed
- Title(参考訳): 家庭内猫テストベッドを用いた非話者エージェントに対するベイズ的インスピレーションによるインテント推論
- Authors: Wenqian Zhang, Zehao Wang,
- Abstract要約: マルチモーダルな意図推論のための確率的フレームワークであるCatSignalを提案する。
我々は、この定式化を、非言語エージェントにおける意図推論のための概念実証の焦点として、家庭内猫設定でインスタンス化する。
- 参考スコア(独自算出の注目度): 19.660694706739353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many agents in real-world environments cannot reliably communicate their goals through language, including household pets, pre-verbal infants, and other non-speaking embodied agents. In such settings, intent must be inferred from incomplete behavioral observations in context-rich environments. This creates a core ambiguity: observable behavior is often noisy or underspecified, while context provides strong prior information but can also induce brittle shortcut predictions if used naively. We present CatSignal, a Bayesian-inspired probabilistic framework for multimodal intent inference that models spatial context as a prior-like constraint and behavioral observations as evidence. Rather than treating context as an ordinary input feature, our method uses a context-gated Product-of-Experts formulation to compute posterior-like intent distributions from context, pose dynamics, and acoustic cues. We instantiate this formulation in a household cat setting as a focused proof-of-concept for intent inference in non-speaking agents. Under Leave-One-Video-Out evaluation on a multimodal domestic cat dataset, the proposed prior-guided fusion achieves the best overall accuracy of 77.72%, outperforming feature concatenation (71.83%) and stronger late-fusion baselines. More importantly, it substantially reduces context-driven shortcut failures in ambiguous cases. While simpler fusion strategies remain competitive in Macro-F1 and selective prediction, the proposed model provides the strongest overall accuracy and the best suppression of context-based shortcut collapse.
- Abstract(参考訳): 現実世界の環境における多くのエージェントは、言語を介して目標を確実に伝達することはできない。
このような環境では、意図は文脈に富む環境における不完全な行動観察から推測されなければならない。
観測可能な振る舞いはしばしばノイズや不特定であり、コンテキストは強い事前情報を提供するが、鼻で使うと脆いショートカット予測を誘発する。
ベイズにインスパイアされた多モーダルな意図推論のための確率的フレームワークであるCatSignalについて,空間的文脈を事前的制約として,行動観察を証拠としてモデル化する。
コンテクストを通常の入力機能として扱うのではなく、コンテキスト付きProduct-of-Expertsの定式化を用いて、コンテキストから後続的な意図分布を計算し、動的にポーズし、音響的手がかりを与える。
我々は、この定式化を、非言語エージェントにおける意図推論のための概念実証の焦点として、家庭内猫設定でインスタンス化する。
マルチモーダル・ホーム・キャット・データセットにおけるLeave-One-Video-Outの評価では、提案された事前誘導核融合は77.72%の精度で、機能結合(71.83%)に優れ、より強力な遅延核融合ベースラインを達成している。
さらに重要なのは、あいまいなケースにおけるコンテキスト駆動のショートカット障害を大幅に削減することです。
より単純な融合戦略はマクロF1と選択的予測において競争力を維持するが、提案モデルは最も高い総合的精度と文脈に基づくショートカット崩壊の抑制を提供する。
関連論文リスト
- Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition [36.36218470387896]
私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内のオブジェクトと背景の期待値を推定し、反ファクトの埋め込みを合成する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善する。
論文 参考訳(メタデータ) (2025-10-30T13:11:23Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。