論文の概要: ExPairT-LLM: Exact Learning for LLM Code Selection by Pairwise Queries
- arxiv url: http://arxiv.org/abs/2511.10855v1
- Date: Thu, 13 Nov 2025 23:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.366054
- Title: ExPairT-LLM: Exact Learning for LLM Code Selection by Pairwise Queries
- Title(参考訳): ExPairT-LLM: ペアワイズクエリによるLLMコード選択のためのエクササイズ学習
- Authors: Tom Yuviler, Dana Drachsler-Cohen,
- Abstract要約: 本稿では,コード選択のための正確な学習アルゴリズムであるExPairT-LLMを提案する。
LLMオラクルの2つの新しいタイプのクエリ、ペアのメンバシップとペアの等価性に反応してプログラムを選択する。
これらのクエリは LLM にとって単純であり、ExPairT-LLM がトーナメントを通じて正しいプログラムを識別できるようにする。
- 参考スコア(独自算出の注目度): 0.22774471443318753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in LLMs, the task of code generation is still challenging. To cope, code selection algorithms select the best program from multiple programs generated by an LLM. However, existing algorithms can fail to identify the correct program, either because they can misidentify nonequivalent programs or because they rely on an LLM and assume it always correctly determines the output for every input. We present ExPairT-LLM, an exact learning algorithm for code selection that selects a program by posing to an LLM oracle two new types of queries: pairwise membership and pairwise equivalence. These queries are simpler for LLMs and enable ExPairT-LLM to identify the correct program through a tournament, which is robust to some LLM mistakes. We evaluate ExPairT-LLM on four popular code datasets. Its pass@1 (success rate) outperforms the state-of-the-art code selection algorithm on average by +13.0% and up to +27.1%. It also improves the pass@1 of LLMs performing complex reasoning by +24.0%.
- Abstract(参考訳): LLMの最近の進歩にもかかわらず、コード生成のタスクはまだ難しい。
コード選択アルゴリズムは、LLMによって生成された複数のプログラムから最適なプログラムを選択する。
しかし、既存のアルゴリズムは、不適切なプログラムを誤識別できるか、LLMに依存しているため、入力毎に常に正しく出力を決定すると仮定できるため、正しいプログラムを識別できない可能性がある。
本稿では,LLMオラクルに代えてプログラムを選択するコード選択の正確な学習アルゴリズムであるExPairT-LLMを提案する。
これらのクエリはLLMにとって単純であり、ExPairT-LLMがトーナメントを通じて正しいプログラムを識別できるようにする。
一般的な4つのコードデータセット上でExPairT-LLMを評価する。
そのパス@1(success rate)は、最先端のコード選択アルゴリズムを平均+13.0%、最大+27.1%で上回る。
LLMのpass@1は、+24.0%の複雑な推論を行う。
関連論文リスト
- Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks [11.389019661082415]
本稿では,各サブタスク上でLLMの成功をオンラインにモデル化するニューラルネットワークをトレーニングするニューラルネットワークのコンテキスト帯域ベースアルゴリズムを提案する。
通信質問応答と診断予測データセットの実験から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2025-08-13T17:19:41Z) - On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。