論文の概要: Evaluating Self-Correcting Vision Agents Through Quantitative and Qualitative Metrics
- arxiv url: http://arxiv.org/abs/2601.11637v1
- Date: Wed, 14 Jan 2026 15:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.236344
- Title: Evaluating Self-Correcting Vision Agents Through Quantitative and Qualitative Metrics
- Title(参考訳): 定量化と定性化による自己補正型視覚エージェントの評価
- Authors: Aradhya Dixit,
- Abstract要約: Vision-Language Agents (VLA) は複雑な視覚タスクを実行可能なツールベースの計画に分解することができる。
最近のベンチマークでは反復的自己補正の評価が始まっているが、その量的制限と支配的な推論ボトルネックはいまだに不十分である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in multimodal foundation models has enabled Vision-Language Agents (VLAs) to decompose complex visual tasks into executable tool-based plans. While recent benchmarks have begun to evaluate iterative self-correction, its quantitative limits and dominant reasoning bottlenecks remain poorly characterized. This work introduces a Diagnostic Micro-Benchmark. Our analysis decouples Task Success Rate (TSR = 62 percent) from Correction Success Rate (CSR = 25 to 33 percent), revealing that initial competence does not predict repair ability. We explicitly quantify the diminishing returns of correction, which saturates after three retries. Our Failure Taxonomy reveals a frequent factor is Semantic Drift (about 28 percent of failures), a loss of contextual state. By isolating this reasoning bottleneck, this benchmark defines a reproducible framework toward stateful, trustworthy multimodal agents.
- Abstract(参考訳): マルチモーダル基盤モデルの最近の進歩により、ビジョンランゲージエージェント(VLA)は複雑な視覚タスクを実行可能なツールベースプランに分解できるようになった。
最近のベンチマークでは反復的自己補正の評価が始まっているが、その量的制限と支配的な推論ボトルネックはいまだに不十分である。
この研究は診断マイクロベンチマークを導入している。
我々の分析では、修正成功率(CSR=25~33%)からタスク成功率(TSR=62%)を分離し、初期能力が修復能力を予測していないことを示した。
3つの再試行後に飽和する補正の戻り値の減少を明示的に定量化する。
我々の失敗分類では、しばしば、文脈的状態の喪失であるセマンティック・ドリフト(失敗の約28%)が原因であることが判明している。
この推論ボトルネックを分離することにより、このベンチマークはステートフルで信頼性の高いマルチモーダルエージェントに向けた再現可能なフレームワークを定義する。
関連論文リスト
- DatBench: Discriminative, Faithful, and Efficient VLM Evaluations [17.234602646114997]
経験的評価は、基礎モデルにおける研究の進展を導く主要なコンパスとして機能する。
評価が満足すべき3つのデシラタを提案する。モダリティと応用への忠実さ、品質の異なるモデル間の識別可能性、計算効率である。
私たちはDatBench-Fullをリリースした。DatBench-Fullは9つのVLM機能にまたがる33のデータセットからなるクリーンな評価スイートであり、DatBenchは平均13倍のスピードアップを達成する識別サブセットである。
論文 参考訳(メタデータ) (2026-01-05T18:07:51Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark [27.134554623769898]
推論に基づくポーズ推定(RPE)ベンチマークは、ポーズ対応大規模言語モデル(MLLM)の広く採用されている評価標準として登場した。
公平で一貫した定量的評価を妨げる批判的かつベンチマーク品質の問題を特定しました。
論文 参考訳(メタデータ) (2025-07-17T17:33:11Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。