論文の概要: LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception
- arxiv url: http://arxiv.org/abs/2504.15362v1
- Date: Mon, 21 Apr 2025 18:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:59:03.54639
- Title: LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception
- Title(参考訳): Long PerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception
- Authors: Yuan-Hong Liao, Sven Elflein, Liu He, Laura Leal-Taixé, Yejin Choi, Sanja Fidler, David Acuna,
- Abstract要約: 我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
- 参考スコア(独自算出の注目度): 105.78609483419115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reasoning models through test-time scaling have demonstrated that long chain-of-thoughts can unlock substantial performance boosts in hard reasoning tasks such as math and code. However, the benefit of such long thoughts for system-2 reasoning is relatively less explored in other domains such as perceptual tasks where shallower, system-1 reasoning seems sufficient. In this paper, we introduce LongPerceptualThoughts, a new synthetic dataset with 30K long-thought traces for perceptual tasks. The key challenges in synthesizing elaborate reasoning thoughts for perceptual tasks are that off-the-shelf models are not yet equipped with such thinking behavior and that it is not straightforward to build a reliable process verifier for perceptual tasks. Thus, we propose a novel three-stage data synthesis framework that first synthesizes verifiable multiple-choice questions from dense image descriptions, then extracts simple CoTs from VLMs for those verifiable problems, and finally expands those simple thoughts to elaborate long thoughts via frontier reasoning models. In controlled experiments with a strong instruction-tuned 7B model, we demonstrate notable improvements over existing visual reasoning data-generation methods. Our model, trained on the generated dataset, achieves an average +3.4 points improvement over 5 vision-centric benchmarks, including +11.8 points on V$^*$ Bench. Notably, despite being tuned for vision tasks, it also improves performance on the text reasoning benchmark, MMLU-Pro, by +2 points.
- Abstract(参考訳): テストタイムスケーリングによる最近の推論モデルは、長いチェーンオブ思想が数学やコードといった難しい推論タスクにおいて、大幅なパフォーマンス向上を解き放つことを実証している。
しかし、システム1推論が浅く、システム1推論が十分であるような知覚的タスクのような他の領域では、システム2推論に対するそのような長い思考の利点は比較的研究されていない。
本稿では,LongPerceptualThoughtsについて紹介する。LongPerceptualThoughtsは,知覚タスクのための30Kの長所トレースを持つ新しい合成データセットである。
知覚的タスクに対する精巧な推論思考を合成する上での重要な課題は、既成モデルがそのような思考行動を備えていないことと、知覚的タスクのための信頼性の高いプロセス検証器を構築することが容易でないことである。
そこで本研究では,まず高密度画像記述から検証可能な複数選択質問を合成し,検証可能な問題に対してVLMから単純なCoTを抽出し,フロンティア推論モデルを用いてそれらの単純な思考を精巧な長い思考へと拡張する,新しい3段階データ合成フレームワークを提案する。
命令調整の強い7Bモデルを用いた制御実験では、既存の視覚的推論データ生成法よりも顕著な改善が示された。
このモデルでは,V$^*$ Bench上の+11.8点を含む5つの視覚中心のベンチマークに対して,平均+3.4点の改善を実現している。
特に、視覚タスク用に調整されているにもかかわらず、テキスト推論ベンチマークであるMMLU-Proのパフォーマンスも+2ポイント向上している。
関連論文リスト
- Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [42.407188124841234]
思考のランドスケープ(英: Landscape of thoughts)は、複数の選択データセットにおいて、思考の連鎖の推論パスを検査するツールである。
強いモデルと弱いモデル、正解と誤解、そして異なる推論タスクを区別する。
また、低い一貫性や高い不確実性など、望ましくない推論パターンを明らかにする。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - MastermindEval: A Simple But Scalable Reasoning Benchmark [3.5519847710183674]
MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-03-07T19:24:59Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。