論文の概要: Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.19663v1
- Date: Tue, 19 May 2026 10:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.288138
- Title: Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models
- Title(参考訳): Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models
- Authors: Weicong Ni, Tianbao Jiang, Linlin Wang,
- Abstract要約: Pseudocode-guided Structured Reasoning framework (PStar)を提案する。
ロボットが柔軟でステップバイステップの推論を行うのを助けるために、構造化された擬似コード推論パスを適応的に選択する。
PStarは幻覚率を大幅に下げ、POPEで87.1%、MMStarで68.0%、GPT-4Vでさえも上回っている。
- 参考スコア(独自算出の注目度): 11.379463436078682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are becoming the cornerstone of high-level reasoning for robotic automation, enabling robots to parse natural language commands and perceive their environments. However, their susceptibility to hallucinations introduces critical failures in decision-making, posing significant safety and reliability risks in physical deployments. This challenge is exacerbated by the open-ended nature of real-world tasks, where questions vary vastly in difficulty and modality, demanding robust and adaptable reasoning strategies. To tackle this, we propose the Pseudocode-guided Structured Reasoning framework (PStar), which adaptively selects structured pseudocode reasoning paths to help VLMs perform flexible and step-by-step reasoning. We first design a set of abstract reasoning functions and formulate a structured pseudocode library to represent modular reasoning strategies. Crucially, we design a Difficulty Feature Vector (DFV) that allows the model to assess question complexity and adaptively choose appropriate reasoning strategies-enhancing robustness and interpretability. Extensive experiments demonstrate that PStar significantly reduces hallucination rates, achieving state-of-the-art scores of 87.1% on POPE and 68.0% on MMStar, outperforming even GPT-4V. By providing a validated mechanism to reduce visual-language errors, PStar offers a critical step toward deploying more trustworthy and deterministic VLMs for real-world automated systems, where such errors can lead to catastrophic outcomes.
- Abstract(参考訳): VLM(Vision-Language Models)は、ロボット自動化のための高度な推論の基礎となり、ロボットが自然言語のコマンドを解析し、環境を認識できるようにする。
しかし、幻覚への感受性は意思決定において重大な失敗をもたらし、物理的な展開において重大な安全性と信頼性のリスクを生じさせる。
この課題は、現実のタスクのオープンエンドな性質によって悪化し、質問は困難とモダリティで大きく異なり、堅牢で適応可能な推論戦略を必要としている。
そこで我々はPseudocode-guided Structured Reasoning framework (PStar)を提案する。
まず抽象的推論関数の集合を設計し、モジュラー推論戦略を表現するために構造化された擬似コードライブラリを定式化する。
重要な点として,難解な特徴ベクトル (DFV) を設計し,質問の複雑さを評価し,適切な推論戦略を適応的に選択し,堅牢性と解釈可能性を高める。
大規模な実験では、PStarは幻覚率を著しく低下させ、POPEでは87.1%、MMStarでは68.0%に達し、GPT-4Vよりも優れていた。
視覚言語エラーを減らすための検証済みのメカニズムを提供することで、PStarはより信頼性が高く決定論的なVLMを現実の自動化システムに展開するための重要なステップを提供する。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - The Path Ahead for Agentic AI: Challenges and Opportunities [4.52683540940001]
この章では、複雑な環境で自律的に動作するエージェントAIシステムの出現について考察する。
我々は、統計モデルからトランスフォーマーベースのシステムへのアーキテクチャの進歩を辿り、エージェントの振る舞いを可能にする能力を識別する。
既存の調査とは異なり、私たちは、言語理解から自律的な行動へのアーキテクチャの移行に注目し、デプロイ前に解決しなければならない技術的ギャップを強調します。
論文 参考訳(メタデータ) (2026-01-06T06:31:42Z) - An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。