Fugu-MT 論文翻訳(概要): The Consensus Game: Language Model Generation via Equilibrium Search

論文の概要: The Consensus Game: Language Model Generation via Equilibrium Search

arxiv url: http://arxiv.org/abs/2310.09139v1
Date: Fri, 13 Oct 2023 14:27:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 12:39:43.054847
Title: The Consensus Game: Language Model Generation via Equilibrium Search
Title（参考訳）: コンセンサスゲーム:均衡探索による言語モデル生成
Authors: Athul Paul Jacob, Yikang Shen, Gabriele Farina and Jacob Andreas
Abstract要約: 言語モデル復号のための学習不要なゲーム理論を新たに導入する。本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。 EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
参考スコア（独自算出の注目度）: 73.51411916625032
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When applied to question answering and other text generation tasks, language models (LMs) may be queried generatively (by sampling answers from their output distribution) or discriminatively (by using them to score or rank a set of candidate outputs). These procedures sometimes yield very different predictions. How do we reconcile mutually incompatible scoring procedures to obtain coherent LM predictions? We introduce a new, a training-free, game-theoretic procedure for language model decoding. Our approach casts language model decoding as a regularized imperfect-information sequential signaling game - which we term the CONSENSUS GAME - in which a GENERATOR seeks to communicate an abstract correctness parameter using natural language sentences to a DISCRIMINATOR. We develop computational procedures for finding approximate equilibria of this game, resulting in a decoding algorithm we call EQUILIBRIUM-RANKING. Applied to a large number of tasks (including reading comprehension, commonsense reasoning, mathematical problem-solving, and dialog), EQUILIBRIUM-RANKING consistently, and sometimes substantially, improves performance over existing LM decoding procedures - on multiple benchmarks, we observe that applying EQUILIBRIUM-RANKING to LLaMA-7B outperforms the much larger LLaMA-65B and PaLM-540B models. These results highlight the promise of game-theoretic tools for addressing fundamental challenges of truthfulness and consistency in LMs.
Abstract（参考訳）: 質問応答やその他のテキスト生成タスクに適用される場合、言語モデル(lms)は、生成的に(出力分布から回答をサンプリングすることで)クエリされるか、(それらを使用して候補出力のスコア付けやランク付けを行う)判別される。これらの手順は、しばしば全く異なる予測をもたらす。コヒーレントlm予測を得るために、相互に非互換なスコアリング手順をどのように調整するか? 言語モデル復号のための学習不要なゲーム理論を新たに導入する。提案手法は,自然言語文を用いた抽象的正当性パラメータをdisCRIMINATORに伝達しようとする,正規化不完全情報シーケンシャルシグナリングゲームであるConSENSUS GAMEとして,言語モデルをデコードする。我々は,このゲームの近似平衡を求めるための計算手順を開発し,均衡階数と呼ばれる復号アルゴリズムを導出する。多数のタスク(理解の理解、常識の推論、数学的問題解決、対話など)に適用され、平衡レベルが一貫して、時には既存のlm復号法よりもパフォーマンスが向上する。これらの結果は、LMにおける真理性と一貫性の基本的な課題に対処するためのゲーム理論ツールの約束を強調している。

関連論文リスト

Operational Robustness of LLMs on Code Generation [2.9232837969697965]
現在、大規模言語モデル(LLM)のためのソフトウェア開発において、プログラムコードを生成するために使われるのが一般的である。本稿では,LLMがコーディングタスクの記述の変化にどれほど敏感であるかを考察する。このロバスト性を評価するための既存の技術は、自然言語記述の入力データ空間が離散的であるため、コード生成には適さない。
論文参考訳（メタデータ） (2026-02-21T11:21:13Z)
Entropy-Aligned Decoding of LMs for Better Writing and Reasoning [21.971790771470324]
言語モデル(LM)は、真の言語分布を回復するために、数十億のトークンで訓練されている。現在、LMからのバニラランダムサンプリングは、品質の低い世代を生み出している。本稿では,将来の軌道のエントロピーをLMデコーディングに組み込んだ超パラメータフリーデコーディング手法EPICを紹介する。
論文参考訳（メタデータ） (2026-01-05T01:37:10Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.1906498126334485]
本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文参考訳（メタデータ） (2025-03-24T23:46:14Z)
Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文参考訳（メタデータ） (2024-06-04T16:09:13Z)
Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-19T20:39:12Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。