Fugu-MT 論文翻訳(概要): Self-Questioning Language Models

論文の概要: Self-Questioning Language Models

arxiv url: http://arxiv.org/abs/2508.03682v1
Date: Tue, 05 Aug 2025 17:51:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-06 18:18:56.110156
Title: Self-Questioning Language Models
Title（参考訳）: セルフクエスト言語モデル
Authors: Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak,
Abstract要約: 本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
参考スコア（独自算出の注目度）: 51.75087358141567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can large language models improve without external data -- by generating their own questions and answers? We hypothesize that a pre-trained language model can improve its reasoning skills given only a single prompt specifying the topic (e.g., algebra word problems) and asking the model to generate its own questions. To do this, we propose Self-Questioning Language Models (SQLM): an asymmetric self-play framework where a proposer is given the topic and generates a question for a solver, who tries to answer it. Both the proposer and solver are trained via reinforcement learning. The proposer receives a reward if the problem is not too easy or too difficult, and the solver receives a reward based on majority voting, a proxy for correctness in the absence of ground-truth answers. For coding, the proposer can instead generate unit tests which are used for verification. We study this asymmetric self-play framework on three benchmarks: three-digit multiplication, algebra problems from the OMEGA benchmark, and programming problems from Codeforces. By continually generating more interesting problems and attempting to solve them, language models can improve on downstream benchmarks without access to any curated training datasets.
Abstract（参考訳）: 大きな言語モデルは外部データなしで改善できますか -- 独自の質問や回答を生成することで? 事前学習された言語モデルでは、トピック(例えば代用語問題)を1つのプロンプトで指定しただけで推論スキルが向上し、モデルに独自の質問を生成することができると仮定する。これを実現するために,提案者がトピックを与えられた非対称なセルフプレイフレームワークであるSelf-Questioning Language Models (SQLM)を提案する。提案者と解答者はともに強化学習を通じて訓練される。提案者は、問題が難しすぎる場合、あるいは難しすぎる場合、報奨を受け、解答者は、多数決に基づいて報奨を受ける。コーディングでは、代わりに、検証に使用されるユニットテストを生成することができる。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。より興味深い問題を継続的に生成し、それを解決しようとすることで、言語モデルは、キュレートされたトレーニングデータセットにアクセスせずに、下流のベンチマークを改善することができる。

関連論文リスト

SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。 CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。 Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2025-02-13T15:07:20Z)
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文参考訳（メタデータ） (2024-01-13T03:18:16Z)
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文参考訳（メタデータ） (2023-11-08T19:07:10Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Language Models Can Teach Themselves to Program Better [4.627023679353507]
近年の言語モデル (LM) は、人間の許可を受けた問題で訓練された場合、コード生成において画期的な性能を達成する。そこで本研究では,Pythonインタプリタの正しさをフィルタするプログラミング問題と解を,LMが合成可能であることを示す。 LMの性能は、独自の合成問題と検証された解を微調整することで改善される。
論文参考訳（メタデータ） (2022-07-29T06:43:28Z)
Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文参考訳（メタデータ） (2022-05-30T16:26:02Z)
Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-01T07:12:49Z)
A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文参考訳（メタデータ） (2021-05-31T08:21:52Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。