Fugu-MT 論文翻訳(概要): TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

論文の概要: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

arxiv url: http://arxiv.org/abs/2510.13878v1
Date: Mon, 13 Oct 2025 19:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.505388
Title: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
Title（参考訳）: TextBandit:言語のみの決定タスクによるLLMの確率的推論の評価
Authors: Jimin Lim, Arjun Damerla, Arthur Jiang, Nam Le,
Abstract要約: 大規模言語モデル(LLM)は、推論タスクを実行する能力がますます高まっていることが示されている。しかし、不確実性の下でシーケンシャルな決定を行う能力は、自然言語のみを用いて探索されていない。我々は,LLMが純粋にテキストフィードバックを用いて,マルチアームのバンディット環境と相互作用する新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 0.3546535332022512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
Abstract（参考訳）: 大規模言語モデル(LLM)は、推論タスクを実行する能力はますます高まっているが、自然言語のみを使用して不確実性の下でシーケンシャルな決定を行う能力は、まだ未熟である。我々は,LLMが純粋にテキストによるフィードバックを用いてマルチアームのバンディット環境と相互作用し,数値的な手がかりや明示的な確率にアクセスせずに「トークンを得た」という新しいベンチマークを提案し,その結果,潜在報酬構造を純粋に言語的手がかりから推測し,それに応じて適応するモデルを提案した。我々は、4つのオープンソースLCMの性能を評価し、その性能をトンプソンサンプリング、エプシロングリーディ、アッパー信頼境界(UCB)、ランダム選択などの標準決定アルゴリズムと比較した。 LLMのほとんどはベースラインに比べて性能が劣ったが、Qwen3-4Bは89.2%のベストアーム選択率を達成し、より大きなLLMと従来の方法の両方よりも大幅に向上した。本研究は,確率論的推論が言語単独で実現可能であることを示唆し,このベンチマークを,自然言語的,非数値的文脈における意思決定能力を評価するためのステップとして提示する。

関連論文リスト

Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文参考訳（メタデータ） (2025-09-29T02:34:30Z)
UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。 1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文参考訳（メタデータ） (2024-06-05T11:35:44Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。 LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文参考訳（メタデータ） (2024-03-21T22:08:44Z)
Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-15T15:43:05Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文参考訳（メタデータ） (2023-05-30T16:31:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。