Fugu-MT 論文翻訳(概要): Belief-Aware VLM Model for Human-like Reasoning

論文の概要: Belief-Aware VLM Model for Human-like Reasoning

arxiv url: http://arxiv.org/abs/2604.09686v1
Date: Sun, 05 Apr 2026 17:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.589484
Title: Belief-Aware VLM Model for Human-like Reasoning
Title（参考訳）: ヒューマンライクな推論のための信念を考慮したVLMモデル
Authors: Anshul Nayak, Shahil Shaik, Yue Wang,
Abstract要約: 視覚言語モデル(VLM)と視覚言語アクション(VLA)モデルは、大規模マルチモーダル事前学習を通じて常識推論を導入する。本稿では,検索ベースメモリと強化学習を統合した信条対応VLMフレームワークを提案する。我々は,HD-EPICなどの公開VQAデータセットに対するアプローチを評価し,ゼロショットベースラインよりも一貫した改善を示す。
参考スコア（独自算出の注目度）: 2.987910950972965
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Traditional neural network models for intent inference rely heavily on observable states and struggle to generalize across diverse tasks and dynamic environments. Recent advances in Vision Language Models (VLMs) and Vision Language Action (VLA) models introduce common-sense reasoning through large-scale multimodal pretraining, enabling zero-shot performance across tasks. However, these models still lack explicit mechanisms to represent and update belief, limiting their ability to reason like humans or capture the evolving human intent over long-horizon. To address this, we propose a belief-aware VLM framework that integrates retrieval-based memory and reinforcement learning. Instead of learning an explicit belief model, we approximate belief using a vector-based memory that retrieves relevant multimodal context, which is incorporated into the VLM for reasoning. We further refine decision-making using a reinforcement learning policy over the VLM latent space. We evaluate our approach on publicly available VQA datasets such as HD-EPIC and demonstrate consistent improvements over zero-shot baselines, highlighting the importance of belief-aware reasoning.
Abstract（参考訳）: 意図推論のための従来のニューラルネットワークモデルは、観測可能な状態に大きく依存し、さまざまなタスクや動的環境をまたいだ一般化に苦慮している。近年のビジョン言語モデル(VLM)やビジョン言語アクション(VLA)モデルでは、大規模なマルチモーダル事前学習による常識推論が導入され、タスク間のゼロショットのパフォーマンスが向上している。しかし、これらのモデルには信念を表現し、更新するための明確なメカニズムがなく、人間のように推論したり、長期にわたって進化する人間の意図を捉えたりする能力に制限がある。そこで本研究では,検索ベースメモリと強化学習を統合した信条対応VLMフレームワークを提案する。明示的な信念モデルを学ぶ代わりに、ベクトルベースのメモリを用いて、関連するマルチモーダルコンテキストを検索し、推論のためにVLMに組み込まれた信念を近似する。 VLMラテント空間上の強化学習ポリシーを用いて意思決定をさらに洗練する。我々はHD-EPICなどの公開VQAデータセットに対するアプローチを評価し、ゼロショットベースラインよりも一貫した改善を示し、信念を考慮した推論の重要性を強調した。

関連論文リスト

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。 Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文参考訳（メタデータ） (2025-10-13T05:51:22Z)
Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。 DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-10-01T13:07:05Z)
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文参考訳（メタデータ） (2025-08-04T06:06:06Z)
From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文参考訳（メタデータ） (2025-05-20T13:47:40Z)
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文参考訳（メタデータ） (2024-03-15T08:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。