Fugu-MT 論文翻訳(概要): SELF-[IN]CORRECT: LLMs Struggle with Refining Self-Generated Responses

論文の概要: SELF-[IN]CORRECT: LLMs Struggle with Refining Self-Generated Responses

arxiv url: http://arxiv.org/abs/2404.04298v1
Date: Thu, 4 Apr 2024 20:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 23:37:10.678723
Title: SELF-[IN]CORRECT: LLMs Struggle with Refining Self-Generated Responses
Title（参考訳）: SELF-[IN]CORRECT:自己生成応答を精製するLLM構造
Authors: Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, Daniel Khashabi,
Abstract要約: 生成AIシステムは、より良い結果を得るために、以前の出力を継続的に改善することができる。任意のタスクにおける任意のモデルの生成的および識別的能力を比較する。我々は、これらのモデルが世代よりも確実に優れているという差別に関する性能を観察していない。
参考スコア（独自算出の注目度）: 49.148206387394936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can LLMs continually improve their previous outputs for better results? An affirmative answer would require LLMs to be better at discriminating among previously-generated alternatives, than generating initial responses. We explore the validity of this hypothesis in practice. We first introduce a unified framework that allows us to compare the generative and discriminative capability of any model on any task. Then, in our resulting experimental analysis of several LLMs, we do not observe the performance of those models on discrimination to be reliably better than generation. We hope these findings inform the growing literature on self-improvement AI systems.
Abstract（参考訳）: LLMは、より良い結果を得るために、以前の出力を継続的に改善できますか? 肯定的な答えは、LLMが初期応答を生成するよりも、以前生成された代替品の識別が優れていることを要求する。我々は実際にこの仮説の有効性を探求する。まず、任意のタスクにおける任意のモデルの生成的および識別的能力を比較するための統合されたフレームワークを紹介します。そして,本研究で得られた複数のLCMの実験的解析では,これらのモデルの性能が世代よりも確実に向上するかどうかを観察することができない。これらの発見が、自己改善型AIシステムに関する文献の増大を知らせてくれることを願っている。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Generating Diverse Training Samples for Relation Extraction with Large Language Models [30.196619805354622]
関係抽出(RE)のための大規模言語モデル(LLM)で生成されたトレーニングサンプルの多様性を効果的に改善する方法について検討する。一般的に使用されるREデータセットの実験では、両方の試みが生成されたトレーニングデータの品質を向上させることが示されている。
論文参考訳（メタデータ） (2025-05-29T05:21:54Z)
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文参考訳（メタデータ） (2025-04-22T17:57:14Z)
LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-02-14T17:12:20Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。 GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Direct-Inverse Prompting: Analyzing LLMs' Discriminative Capacity in Self-Improving Generation [15.184067502284007]
もっとも先進的なLCMでさえ出力の不確実性を経験しており、異なるランニングや入力の微妙な変化に直面した時に、しばしば様々な結果を生み出す。我々は,直接,逆,ハイブリッドの3つの識別的プロンプトを提案し,分析する。私たちの洞察は、どの差別的プロンプトが最も有望か、いつ使うかを明らかにします。
論文参考訳（メタデータ） (2024-06-27T02:26:47Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-02T16:11:23Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文参考訳（メタデータ） (2023-03-30T18:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。