論文の概要: Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction
- arxiv url: http://arxiv.org/abs/2508.19035v1
- Date: Tue, 26 Aug 2025 13:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.868629
- Title: Investigating Advanced Reasoning of Large Language Models via Black-Box Interaction
- Title(参考訳): ブラックボックスインタラクションによる大規模言語モデルの高度な推論の検討
- Authors: Congchi Yin, Tianyi Wu, Yankai Shu, Alex Gu, Yunhan Wang, Jun Shao, Xun Jiang, Piji Li,
- Abstract要約: 既存のタスクは、対話的で未知の環境でのLarge Language Models(LLM)の推論能力の評価において不足する。
この欠損は、誘導性、誘導性、誘導性推論の分離された評価につながる。
本稿では,この課題に対処するために,新しい評価パラダイムであるtextitblack-box インタラクションを導入する。
- 参考スコア(独自算出の注目度): 30.76377830825308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing tasks fall short in evaluating reasoning ability of Large Language Models (LLMs) in an interactive, unknown environment. This deficiency leads to the isolated assessment of deductive, inductive, and abductive reasoning, neglecting the integrated reasoning process that is indispensable for humans discovery of real world. We introduce a novel evaluation paradigm, \textit{black-box interaction}, to tackle this challenge. A black-box is defined by a hidden function that maps a specific set of inputs to outputs. LLMs are required to unravel the hidden function behind the black-box by interacting with it in given exploration turns, and reasoning over observed input-output pairs. Leveraging this idea, we build the \textsc{Oracle} benchmark which comprises 6 types of black-box task and 96 black-boxes. 19 modern LLMs are benchmarked. o3 ranks first in 5 of the 6 tasks, achieving over 70\% accuracy on most easy black-boxes. But it still struggles with some hard black-box tasks, where its average performance drops below 40\%. Further analysis indicates a universal difficulty among LLMs: They lack the high-level planning capability to develop efficient and adaptive exploration strategies for hypothesis refinement.
- Abstract(参考訳): 既存のタスクは、対話的で未知の環境でのLarge Language Models(LLM)の推論能力の評価において不足する。
この欠損は、人間による現実世界の発見に欠かせない統合的推論プロセスを無視して、誘因的、帰納的、帰納的推論の孤立的な評価につながる。
本稿では,この課題に対処するために,新しい評価パラダイムである「textit{black-box interaction}」を導入する。
ブラックボックスは、特定の入力のセットを出力にマッピングする隠れ関数によって定義される。
LLMは、所定の探索ターンでブラックボックスの背後にある隠れた関数を解き放ち、観測された入出力ペアを解析することで、その関数を解き放つ必要がある。
このアイデアを活用して,6種類のブラックボックスタスクと96個のブラックボックスからなる,textsc{Oracle}ベンチマークを構築した。
19の現代的なLCMがベンチマークされている。
o3は6つのタスクのうち5つにランクインし、最も簡単なブラックボックスで70%以上の精度を達成している。
しかし、ハードブラックボックスのタスクでは依然として苦戦しており、平均的なパフォーマンスは40%以下だ。
仮説修正のための効率的かつ適応的な探索戦略を開発するための高レベルの計画能力は欠如している。
関連論文リスト
- Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective [43.267605279424686]
事前訓練された言語モデル(PLM)は、大量のラベルのないデータに基づいて訓練されるが、顕著な推論スキルを示す。
本稿では,KnowProbと呼ばれる知識誘導型探索手法をポストホックな説明法で提案する。
論文 参考訳(メタデータ) (2025-08-23T09:41:59Z) - Context Is Not Comprehension [0.6445605125467572]
私たちは、物語のカモフラージュの中に決定論的リストOps計算を埋め込んだベンチマークであるVerbose ListOpsを紹介します。
実験の結果、生のListOpsを約100%精度で解決するモデルは、わずか1万トークンの後にVLOで崩壊することがわかった。
論文 参考訳(メタデータ) (2025-06-05T11:41:05Z) - Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems [16.995977750934887]
大規模言語モデル(LLM)は、受動的に観測されたデータとアクティブに収集されたデータからブラックボックス関数を特定することを学ぶ。
LLMは観測結果から情報を抽出できず、ベイズ推定の理想に劣る性能台地に到達する。
一方のLSMから他方のLSMへの介入データを提供することで、この改善が効果的な介入のプロセスへの関与の結果であることを示す。
論文 参考訳(メタデータ) (2025-05-23T14:37:36Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - CALM: Curiosity-Driven Auditing for Large Language Models [27.302357350862085]
本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
論文 参考訳(メタデータ) (2025-01-06T13:14:34Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。
しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。
フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles [22.119796373133298]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。
本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。
例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文 参考訳(メタデータ) (2023-08-21T16:49:40Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。