Fugu-MT 論文翻訳(概要): UltraIF: Advancing Instruction Following from the Wild

論文の概要: UltraIF: Advancing Instruction Following from the Wild

arxiv url: http://arxiv.org/abs/2502.04153v1
Date: Thu, 06 Feb 2025 15:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.816636
Title: UltraIF: Advancing Instruction Following from the Wild
Title（参考訳）: UltraIF: 野生からの指示の促進
Authors: Kaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang,
Abstract要約: 本稿では,オープンソースのデータで複雑な命令に従うことができる大規模言語モデル(LLM)を構築するための,シンプルでスケーラブルなアプローチを提案する。 UltraIFは、実世界のユーザプロンプトを、制約に対する単純なクエリ、制約、および対応する評価質問に分解する。我々の実験では、LLaMA-3.1-8B-Baseを、ベンチマーク情報なしで5つのインストラクションフォローベンチマークのインストラクションバージョンに追いつくために、初めて、LLaMA-3.1-8B-Baseを調整しました。
参考スコア（独自算出の注目度）: 42.56475117559488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction-following made modern large language models (LLMs) helpful assistants. However, the key to taming LLMs on complex instructions remains mysterious, for that there are huge gaps between models trained by open-source community and those trained by leading companies. To bridge the gap, we propose a simple and scalable approach UltraIF for building LLMs that can follow complex instructions with open-source data. UltraIF first decomposes real-world user prompts into simpler queries, constraints, and corresponding evaluation questions for the constraints. Then, we train an UltraComposer to compose constraint-associated prompts with evaluation questions. This prompt composer allows us to synthesize complicated instructions as well as filter responses with evaluation questions. In our experiment, for the first time, we successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5 instruction-following benchmarks without any benchmark information, using only 8B model as response generator and evaluator. The aligned model also achieved competitive scores on other benchmarks. Moreover, we also show that UltraIF could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating broader use cases for the method. Our code will be available at https://github.com/kkk-an/UltraIF.
Abstract（参考訳）: インストラクションフォローは、現代の大規模言語モデル(LLM)をアシスタントに役立てた。しかし、LLMを複雑な命令で使うための鍵は、オープンソースコミュニティによって訓練されたモデルと、主要な企業によって訓練されたモデルの間に大きなギャップがあるため、謎のままである。このギャップを埋めるために、オープンソースのデータで複雑な命令に従うことができるLCMを構築するためのシンプルでスケーラブルなアプローチであるUltraIFを提案する。 UltraIFは、実世界のユーザプロンプトを、制約に対する単純なクエリ、制約、および対応する評価質問に分解する。次に,UltraComposerをトレーニングして,制約関連プロンプトを評価質問で作成する。このプロンプト作曲家は、複雑な命令を合成し、評価質問による応答をフィルタすることができる。実験では,LLaMA-3.1-8B-Baseのインストラクションをベンチマーク情報なしで,8Bモデルのみを応答生成器および評価器として使用し,インストラクション追従ベンチマークのインストラクションバージョンに追いつくために,初めてLLaMA-3.1-8B-Baseを調整した。また、アライメントされたモデルは、他のベンチマークでの競合スコアも達成した。また,UltraIFは自己アライメントによりLLaMA-3.1-8B-インストラクションをさらに改善し,より広範に活用できることを示す。私たちのコードはhttps://github.com/kkk-an/UltraIF.comで公開されます。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。 LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。 LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文参考訳（メタデータ） (2024-05-30T17:05:45Z)
CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences [5.165576022684194]
LLM-as-a-Judge法を用いて、LLMと符号化優先のアライメントを評価する。 CodeUltraFeedbackは1万のコード命令で構成され、それぞれに14 LLMの多様なプールから生成される4つの応答が注釈付けされている。次に、教師付き微調整(SFT)とAIフィードバックからの強化学習(RLAIF)を用いたCodeLlama-7B-Instructの微調整のためのフィードバックデータとしてのCodeUltraFeedbackの利用について検討する。
論文参考訳（メタデータ） (2024-03-14T01:51:35Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。