論文の概要: Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction
- arxiv url: http://arxiv.org/abs/2508.19035v1
- Date: Tue, 26 Aug 2025 13:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.868629
- Title: Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction
- Title(参考訳): ブラックボックスインタラクションによる大規模言語モデルの高度な推論の検討
- Authors: Congchi Yin, Tianyi Wu, Yankai Shu, Alex Gu, Yunhan Wang, Jun Shao, Xun Jiang, Piji Li,
- Abstract要約: 既存のタスクは、対話的で未知の環境でのLarge Language Models(LLM)の推論能力の評価において不足する。
この欠損は、誘導性、誘導性、誘導性推論の分離された評価につながる。
本稿では,この課題に対処するために,新しい評価パラダイムであるtextitblack-box インタラクションを導入する。
- 参考スコア(独自算出の注目度): 30.76377830825308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing tasks fall short in evaluating reasoning ability of Large Language Models (LLMs) in an interactive, unknown environment. This deficiency leads to the isolated assessment of deductive, inductive, and abductive reasoning, neglecting the integrated reasoning process that is indispensable for humans discovery of real world. We introduce a novel evaluation paradigm, \textit{black-box interaction}, to tackle this challenge. A black-box is defined by a hidden function that maps a specific set of inputs to outputs. LLMs are required to unravel the hidden function behind the black-box by interacting with it in given exploration turns, and reasoning over observed input-output pairs. Leveraging this idea, we build the \textsc{Oracle} benchmark which comprises 6 types of black-box task and 96 black-boxes. 19 modern LLMs are benchmarked. o3 ranks first in 5 of the 6 tasks, achieving over 70\% accuracy on most easy black-boxes. But it still struggles with some hard black-box tasks, where its average performance drops below 40\%. Further analysis indicates a universal difficulty among LLMs: They lack the high-level planning capability to develop efficient and adaptive exploration strategies for hypothesis refinement.
- Abstract(参考訳): 既存のタスクは、対話的で未知の環境でのLarge Language Models(LLM)の推論能力の評価において不足する。
この欠損は、人間による現実世界の発見に欠かせない統合的推論プロセスを無視して、誘因的、帰納的、帰納的推論の孤立的な評価につながる。
本稿では,この課題に対処するために,新しい評価パラダイムである「textit{black-box interaction}」を導入する。
ブラックボックスは、特定の入力のセットを出力にマッピングする隠れ関数によって定義される。
LLMは、所定の探索ターンでブラックボックスの背後にある隠れた関数を解き放ち、観測された入出力ペアを解析することで、その関数を解き放つ必要がある。
このアイデアを活用して,6種類のブラックボックスタスクと96個のブラックボックスからなる,textsc{Oracle}ベンチマークを構築した。
19の現代的なLCMがベンチマークされている。
o3は6つのタスクのうち5つにランクインし、最も簡単なブラックボックスで70%以上の精度を達成している。
しかし、ハードブラックボックスのタスクでは依然として苦戦しており、平均的なパフォーマンスは40%以下だ。
仮説修正のための効率的かつ適応的な探索戦略を開発するための高レベルの計画能力は欠如している。
関連論文リスト
- Context Is Not Comprehension [0.6445605125467572]
私たちは、物語のカモフラージュの中に決定論的リストOps計算を埋め込んだベンチマークであるVerbose ListOpsを紹介します。
実験の結果、生のListOpsを約100%精度で解決するモデルは、わずか1万トークンの後にVLOで崩壊することがわかった。
論文 参考訳(メタデータ) (2025-06-05T11:41:05Z) - CALM: Curiosity-Driven Auditing for Large Language Models [27.302357350862085]
本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
論文 参考訳(メタデータ) (2025-01-06T13:14:34Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles [22.119796373133298]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。
本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。
例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文 参考訳(メタデータ) (2023-08-21T16:49:40Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。