Fugu-MT 論文翻訳(概要): Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

論文の概要: Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

arxiv url: http://arxiv.org/abs/2503.22165v1
Date: Fri, 28 Mar 2025 06:09:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.579961
Title: Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models
Title（参考訳）: 思考のランドスケープ:大規模言語モデルの推論過程を可視化する
Authors: Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han,
Abstract要約: 思考のランドスケープ(英: Landscape of thoughts)は、複数の選択データセットにおいて、思考の連鎖の推論パスを検査するツールである。強いモデルと弱いモデル、正解と誤解、そして異なる推論タスクを区別する。また、低い一貫性や高い不確実性など、望ましくない推論パターンを明らかにする。
参考スコア（独自算出の注目度）: 42.407188124841234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Numerous applications of large language models (LLMs) rely on their ability to perform step-by-step reasoning. However, the reasoning behavior of LLMs remains poorly understood, posing challenges to research, development, and safety. To address this gap, we introduce landscape of thoughts-the first visualization tool for users to inspect the reasoning paths of chain-of-thought and its derivatives on any multi-choice dataset. Specifically, we represent the states in a reasoning path as feature vectors that quantify their distances to all answer choices. These features are then visualized in two-dimensional plots using t-SNE. Qualitative and quantitative analysis with the landscape of thoughts effectively distinguishes between strong and weak models, correct and incorrect answers, as well as different reasoning tasks. It also uncovers undesirable reasoning patterns, such as low consistency and high uncertainty. Additionally, users can adapt our tool to a model that predicts the property they observe. We showcase this advantage by adapting our tool to a lightweight verifier that evaluates the correctness of reasoning paths. The code is publicly available at: https://github.com/tmlr-group/landscape-of-thoughts.
Abstract（参考訳）: 大規模言語モデル(LLM)の多くの応用は、ステップバイステップ推論を行う能力に依存している。しかし、LLMの推論行動はいまだに理解されておらず、研究、開発、安全性に課題を提起している。このギャップに対処するために、我々は思考のランドスケープを導入し、ユーザーが複数の選択データセット上でチェーン・オブ・ソートとその導関数の推論経路を検査する最初の可視化ツールを紹介した。具体的には、全ての解選択に対する距離を定量化する特徴ベクトルとして、推論経路における状態を表す。これらの特徴は t-SNE を用いて二次元プロットで可視化される。思考の風景による質的かつ定量的な分析は、強いモデルと弱いモデル、正解と誤答、および異なる推論タスクを効果的に区別する。また、低い一貫性や高い不確実性など、望ましくない推論パターンを明らかにする。さらに、ユーザはツールを観察するプロパティを予測するモデルに適応することができる。推論経路の正しさを評価する軽量な検証器にツールを適用することで、この利点を実証する。コードは、https://github.com/tmlr-group/landscape-of- Thoughtsで公開されている。

関連論文リスト

Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文参考訳（メタデータ） (2025-05-30T03:48:59Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文参考訳（メタデータ） (2025-04-04T17:57:22Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文参考訳（メタデータ） (2025-03-14T16:26:11Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Take A Step Back: Rethinking the Two Stages in Visual Reasoning [57.16394309170051]
本稿では2段階の視点で視覚的推論を再考する。共有アナライザを使用しながら、異なるデータドメイン用の分離エンコーダによるシンボル化を実装する方が効率的である。提案する2段階のフレームワークは,様々な視覚的推論タスクにおいて,印象的な一般化を実現する。
論文参考訳（メタデータ） (2024-07-29T02:56:19Z)
Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。 LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。 GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文参考訳（メタデータ） (2023-11-16T06:22:17Z)
Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。 CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文参考訳（メタデータ） (2023-11-09T11:14:51Z)
Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。 ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文参考訳（メタデータ） (2023-06-01T17:24:35Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。