論文の概要: The Gordian Knot for VLMs: Diagrammatic Knot Reasoning as a Hard Benchmark
- arxiv url: http://arxiv.org/abs/2605.09900v1
- Date: Mon, 11 May 2026 02:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.478862
- Title: The Gordian Knot for VLMs: Diagrammatic Knot Reasoning as a Hard Benchmark
- Title(参考訳): VLMのためのゴーディアン結び目:ハードベンチマークとしてのダイアグラム的結び目
- Authors: Hao Liu, Jicheng Liu,
- Abstract要約: ノットベンチは1,951個の素結びのプロトタイプから858,318イメージのコーパスを合成する。
14のタスクは、等価判断、移動予測、識別、およびクロスモーダルグラウンドの4つのファミリーにまたがる。
両ベンダで64Kのアウトプット・トケンが一致した予算の下で、クロード・オプス4.7とGPT-5をそれぞれ検討し、評価した。
- 参考スコア(独自算出の注目度): 5.223799635449313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A vision-language model can look at a knot diagram and report what it sees, yet fail to act on that structure. KnotBench pairs an 858,318-image corpus from 1,951 prime-knot prototypes (crossing numbers 3 to 19) with a protocol whose answers are checked against Regina's canonical knot signature. Its 14 tasks span four families, equivalence judgment, move prediction, identification, and cross-modal grounding; an image-versus-symbol split locates failures along the perception-operation gap. We score Claude Opus 4.7 and GPT-5, each with and without thinking, under a 64K output-token budget matched on both vendors. Across 56 (task, model) cases, 15 sit at or below a random baseline and 8 of 14 tasks have a best score under 1.5x random. On diagram-to-symbol transcription, no model produces a strictly correct string, and permissive Regina decoding recovers the knot in 0 to 4 of 100 items. Thinking-mode reasoning lifts overall accuracy by 1.65 points for Claude and 9.25 points for GPT-5, narrowing the gap only modestly. Read together, the four families suggest current vision-language models hold features of a diagram but lack apparatus to simulate moves on those features.
- Abstract(参考訳): 視覚言語モデルは結び目図を見て、それが見ていることを報告できるが、その構造に作用しない。
KnotBench は 1,951 個の素結び目プロトタイプ (3 から 19 にまたがる) から 858,318 個の画像コーパスを、Regina の標準結び目シグネチャに対して答えをチェックするプロトコルと組み合わせている。
その14のタスクは、同値判定、移動予測、識別、およびクロスモーダルグラウンドリングの4つのファミリーにまたがる。
我々は2つのベンダーで64Kのアウトプット・トーケンの予算が一致した状態で、Claude Opus 4.7 と GPT-5 をそれぞれ得点した。
56件(タスク、モデル)のケースでは、15件がランダムベースライン以下で、14タスクのうち8件が1.5倍以下でベストスコアを獲得している。
図から記号への転写では、厳密な正しい文字列を生成するモデルはなく、許容レジーナ復号によって100項目中0から4項目の結び目が復元される。
思考モード推論はクロードが1.65点、GPT-5が9.25点、ギャップがわずかに狭くなる。
4つのファミリーは、現在の視覚言語モデルは図の特徴を持っているが、それらの特徴をシミュレートする装置がないことを示唆している。
関連論文リスト
- Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference [1.2299000423193074]
TokenArenaは、5つのコア軸に沿って粒度エンドポイントでの推論を測定する連続ベンチマークである。
フレームワーク、スキーマ、プローブ、evalハーネス、v1.0のリーダボードスナップショットをCC BY 4.0でリリースしています。
論文 参考訳(メタデータ) (2026-05-01T00:05:54Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Knot-10:A Tightness-Stratified Benchmark for Real-World Knot Classification with Topological Difficulty Analysis [0.0]
我々はKnots-10ベンチマークを導入し、配置指向の分割で1,440枚の画像で構成され、ゆるく結びついた結び目でトレーニングし、タイトな服装でテストする。
Swin-T と TransFG はどちらも平均97.2%の精度であり、PMG は94.5%であり、ジグソーシャッフルが連続性を阻害するという仮説と一致している。
分類精度を向上することなく埋め込みトポロジーアライメントを改善するTACA正則化を提案する。
論文 参考訳(メタデータ) (2026-03-24T14:50:34Z) - BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models [4.264192013842096]
大きな言語モデル(LLM)は、標準ベンチマークで印象的なスコアを得るが、人間が数秒で正しく答えられるような質問を日常的に失敗する。
BrainBenchは、慎重に設計された20のカテゴリにまたがる100のブレインティーザー質問のベンチマークです。
論文 参考訳(メタデータ) (2026-03-16T02:50:43Z) - SyncThink: A Training-Free Strategy to Align Inference Termination with Reasoning Saturation [11.021989271617835]
我々は、モデルの重みを変更することなく、Chain-of-Thoughtオーバーヘッドを低減する、トレーニングフリーでプラグイン・アンド・プレイのデコーディング手法SyncThinkを提案する。
答えトークンは、初期の推論に弱い従属し、代わりに情報ボトルネックを示す特別なトークン"/think"に注目します。
GSM8K、MMLU、GPQA、BBHを3つのDeepSeek-R1蒸留モデルで実験した結果、SyncThinkの平均Top-1精度は62.00%であることがわかった。
論文 参考訳(メタデータ) (2026-01-07T07:00:15Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [63.23796622553615]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - Rho-1: Not All Tokens Are What You Need [132.31428897792114]
以前の言語モデル事前学習手法は、すべてのトレーニングトークンに次トーケン予測損失を均一に適用した。
Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。
15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文 参考訳(メタデータ) (2024-04-11T17:52:01Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - SimMatchV2: Semi-Supervised Learning with Graph Consistency [53.31681712576555]
半教師付き学習アルゴリズムSimMatchV2を導入する。
グラフの観点からラベル付きデータとラベルなしデータの間の様々な一貫性の規則化を定式化する。
SimMatchV2は、複数の半教師付き学習ベンチマークで検証されている。
論文 参考訳(メタデータ) (2023-08-13T05:56:36Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。