論文の概要: Beyond the Black Box: Demystifying Multi-Turn LLM Reasoning with VISTA
- arxiv url: http://arxiv.org/abs/2511.10182v1
- Date: Fri, 14 Nov 2025 01:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.733207
- Title: Beyond the Black Box: Demystifying Multi-Turn LLM Reasoning with VISTA
- Title(参考訳): ブラックボックスの向こうに:VISTAを使ったマルチTurn LLM推論の謎
- Authors: Yiran Zhang, Mingyang Lin, Mark Dras, Usman Naseem,
- Abstract要約: VISTAは、マルチターン推論タスクにおけるテキスト分析のためのWebベースのVisual Interactive Systemである。
ユーザーは、コンテキストがモデル決定に与える影響を可視化し、対話的に会話履歴を変更することができる。
プラットフォームはオープンソースで、カスタムベンチマークとローカルモデルを簡単に統合できる。
- 参考スコア(独自算出の注目度): 20.43574322731524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has increasingly focused on the reasoning capabilities of Large Language Models (LLMs) in multi-turn interactions, as these scenarios more closely mirror real-world problem-solving. However, analyzing the intricate reasoning processes within these interactions presents a significant challenge due to complex contextual dependencies and a lack of specialized visualization tools, leading to a high cognitive load for researchers. To address this gap, we present VISTA, an web-based Visual Interactive System for Textual Analytics in multi-turn reasoning tasks. VISTA allows users to visualize the influence of context on model decisions and interactively modify conversation histories to conduct "what-if" analyses across different models. Furthermore, the platform can automatically parse a session and generate a reasoning dependency tree, offering a transparent view of the model's step-by-step logical path. By providing a unified and interactive framework, VISTA significantly reduces the complexity of analyzing reasoning chains, thereby facilitating a deeper understanding of the capabilities and limitations of current LLMs. The platform is open-source and supports easy integration of custom benchmarks and local models.
- Abstract(参考訳): 近年の研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の推論能力に注目が集まっている。
しかし、これらの相互作用の中で複雑な推論プロセスを分析することは、複雑なコンテキスト依存と専門的な可視化ツールの欠如により、研究者にとって高い認知的負荷をもたらす。
このギャップに対処するために、マルチターン推論タスクにおいて、Webベースのテキスト分析のためのVisual Interactive SystemであるVISTAを提案する。
VISTAは、ユーザがモデル決定に対するコンテキストの影響を可視化し、対話的に会話履歴を変更して、異なるモデル間で"What-if"分析を行うことを可能にする。
さらに、プラットフォームはセッションを自動的に解析し、推論依存ツリーを生成することができ、モデルのステップバイステップ論理パスの透過的なビューを提供する。
統一的で対話的なフレームワークを提供することで、VISTAは推論チェーンの分析の複雑さを著しく減らし、現在のLLMの機能と限界のより深い理解を容易にする。
プラットフォームはオープンソースで、カスタムベンチマークとローカルモデルを簡単に統合できる。
関連論文リスト
- From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions [22.007942964950217]
視覚要素の直接操作と自然言語入力を組み合わせた生成的視覚分析システムであるInterChatを開発した。
この統合により、正確なインテント通信が可能になり、プログレッシブで視覚的に駆動された探索データ分析をサポートする。
論文 参考訳(メタデータ) (2025-03-06T05:35:19Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。