Fugu-MT 論文翻訳(概要): TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

論文の概要: TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

arxiv url: http://arxiv.org/abs/2603.00206v1
Date: Fri, 27 Feb 2026 11:45:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.109034
Title: TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models
Title（参考訳）: TACITベンチマーク: 生成モデルと識別モデルのためのプログラム型ビジュアル推論ベンチマーク
Authors: Daniel Nobrega Medeiros,
Abstract要約: TACIT Benchmarkは、6つの推論領域にわたる10のタスクからなるプログラム的なビジュアル推論ベンチマークである。このベンチマークでは、モデルが決定論的コンピュータビジョンパイプラインを通じて検証されたソリューションイメージを生成する必要がある生成トラックと、構造的に妥当なニアミストラクタを備えた5方向の多重選択を提供する識別トラックの2トラック評価が提供されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing visual reasoning benchmarks predominantly rely on natural language prompts, evaluate narrow reasoning modalities, or depend on subjective scoring procedures such as LLM-as-judge. We introduce the TACIT Benchmark, a programmatic visual reasoning benchmark comprising 10 tasks across 6 reasoning domains: spatial navigation, abstract pattern completion, causal simulation, logical constraint satisfaction, graph theory, and topology. The benchmark provides dual-track evaluation: a generative track in which models must produce solution images verified through deterministic computer-vision pipelines, and a discriminative track offering five-way multiple choice with structurally plausible near-miss distractors. Each distractor violates exactly one structural constraint, requiring models to reason about fine-grained visual differences rather than exploit superficial cues. Version 0.1.0 distributes 6,000 puzzles (108,000 PNG images across three resolutions) with fully deterministic seeded generation and reproducible verification. The dataset, generation code, and evaluation harness are released under the Apache 2.0 license on HuggingFace (DOI: 10.57967/hf/7904).
Abstract（参考訳）: 既存のビジュアル推論ベンチマークは、主に自然言語のプロンプトに依存し、狭い推論のモダリティを評価したり、LLM-as-judgeのような主観的なスコアリング手順に依存している。 TACITベンチマークは,空間ナビゲーション,抽象パターン補完,因果シミュレーション,論理的制約満足度,グラフ理論,トポロジという,6つの推論領域にまたがる10のタスクからなるプログラム的視覚推論ベンチマークである。このベンチマークでは、モデルが決定論的コンピュータビジョンパイプラインを通じて検証されたソリューションイメージを生成する必要がある生成トラックと、構造的に妥当なニアミストラクタを備えた5方向の多重選択を提供する識別トラックの2トラック評価が提供されている。各イントラクタは、正確に1つの構造的制約に反し、表面的な手がかりを利用するよりも、きめ細かな視覚的差異をモデルに説明する必要がある。バージョン0.1.0は6,000のパズル(108,000のPNG画像)を3つの解像度で配布し、完全な決定論的シード生成と再現可能な検証を行う。データセット、生成コード、評価ハーネスは、HuggingFace (DOI: 10.57967/hf/7904)のApache 2.0ライセンスでリリースされている。

関連論文リスト

LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification [24.91906506651266]
本稿では,マルチパス論理推論を体系的に評価する最初のベンチマークであるLogicGraphを紹介する。このパイプラインは、高深度マルチパス推論によって定式化されたソルバ検証推論問題を導出する。収束状態と発散状態の両方においてモデル性能を厳格に評価する参照フリー評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-24T16:04:26Z)
Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies [40.03295633717008]
視覚錯覚と異常のモデル性能を探索するベンチマークであるVIA-Benchを紹介する。我々は1K以上の高品質な問合せ対を構築し、微妙な視覚的推論を必要とする。以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-02-02T08:48:03Z)
Learning More from Less: Unlocking Internal Representations for Benchmark Compression [37.69575776639016]
異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。 5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
論文参考訳（メタデータ） (2026-01-31T13:11:39Z)
OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand [7.223768474709172]
本稿では,法的推論の診断のためのフレームワークとベンチマークであるOpenExemptを紹介する。 OpenExempt Frameworkは、米国の破産法規の専門家によるシンボル表現を使用している。このシステムを用いて,9,765個のサンプルを用いた法的推論のための診断ベンチマークであるOpenExempt Benchmarkを構築した。
論文参考訳（メタデータ） (2026-01-19T16:07:47Z)
SliceLens: Fine-Grained and Grounded Error Slice Discovery for Multi-Instance Vision Tasks [16.05135819343667]
SliceLensは,多種多様な失敗仮説の生成と検証を行う仮説駆動型フレームワークである。 FeSDは、きめ細かいエラースライス発見を評価するために設計された最初のベンチマークである。
論文参考訳（メタデータ） (2025-12-31T03:28:41Z)
Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark [112.46338388724116]
このタスクでは、ターゲットオブジェクトをローカライズするだけでなく、推論パスを形成する中間オブジェクトを明示的に予測する必要がある。この分野での研究を進めるために,(1)視覚的推論を評価するための人為的注釈付きベンチマークであるVRT-Bench,(2)推論トレースの質を評価するための新しい指標であるVRT-80k,(3)推論モデルトレーニングのための大規模データセットであるVRT-80kが提案されている。
論文参考訳（メタデータ） (2025-12-04T18:55:34Z)
VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文参考訳（メタデータ） (2025-10-07T11:50:26Z)
MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。 TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文参考訳（メタデータ） (2025-07-10T17:59:58Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。 LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。