Fugu-MT 論文翻訳(概要): Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions?

論文の概要: Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions?

arxiv url: http://arxiv.org/abs/2410.12207v2
Date: Thu, 27 Feb 2025 22:16:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.061736
Title: Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions?
Title（参考訳）: Divide-Verify-Refine: LLMは複雑な命令で自己調整できるか?
Authors: Xianren Zhang, Xianfeng Tang, Hui Liu, Zongyu Wu, Qi He, Dongwon Lee, Suhang Wang,
Abstract要約: 複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
参考スコア（独自算出の注目度）: 33.18076221854853
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent studies show LLMs struggle with complex instructions involving multiple constraints (e.g., length, format, sentiment). Existing works address this issue by fine-tuning, which heavily relies on fine-tuning data quality and is computational expensive. An alternative is leveraging LLMs' self-correction to refine responses for better constraint adherence. However, this is limited by the feedback quality, as LLMs cannot generate reliable feedback or detect errors. Moreover, its effectiveness relies on few-shot examples illustrating response modifications. As constraints in complex instructions are diverse, manually crafting such examples for each constraint type can be labor-intensive and sub-optimal. To address these two challenges, we propose the Divide-Verify-Refine (DVR) framework with three steps: (1) Divide complex instructions into single constraints and prepare appropriate tools; (2) Verify responses using tools that provide rigorous check and textual guidance (e.g., Python toolkit for format checks or pre-trained classifiers for content analysis); (3) Refine: To maximize refinement effectiveness, we propose dynamic few-shot prompting, where a refinement repository collects successful refinements, and these examples are selectively retrieved for future refinements. Recognizing the lack of complexity in existing datasets, we create a new dataset of complex instructions. DVR doubles Llama3.1-8B's constraint adherence and triples Mistral-7B's performance.
Abstract（参考訳）: 最近の研究は、LLMが複数の制約(例えば、長さ、フォーマット、感情)を含む複雑な命令に苦しむことを示している。既存の作業は微調整によってこの問題に対処し、微調整のデータ品質に大きく依存し、計算コストも高い。もう一つの方法は、LLMの自己補正を利用して、より良い制約順守のために応答を洗練することである。しかし、LLMは信頼性の高いフィードバックを生成したり、エラーを検出することができないため、フィードバックの品質によって制限される。さらに、その効果は反応の修正を例示する少数の例に依存している。複雑な命令の制約は多様であるため、各制約タイプに対してこのような例を手作業で作成することは、労働集約的で準最適である。これらの課題に対処するため,(1) 複雑な命令を単一制約に分割し,適切なツールを作成する,(2) 厳密なチェックとテキストガイダンスを提供するツール(例えば,フォーマットチェックやコンテンツ分析のためのPythonツールキット)を用いた応答の検証,(3) 精細化: 精細化効率を最大化するために,レコメンデーションリポジトリが改善を成功させるために,ダイナミックなショットプロンプトを提案し,これらの例は今後の改良のために選択的に検索される。既存のデータセットの複雑さの欠如を認識し、複雑な命令の新しいデータセットを作成します。 DVRはLlama3.1-8Bの制約を2倍にし、Mistral-7Bの性能を3倍にする。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation [6.920352059545929]
我々は、XLLM@ACL2025 Shared Task-IIIにおける第3位の勝利のアプローチであるLess is Moreを提示する。我々のアプローチは、わずか24のラベル付き例からの構造化推論に焦点を当てている。全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
論文参考訳（メタデータ） (2025-04-23T04:19:52Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。 PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。 The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文参考訳（メタデータ） (2024-08-02T17:59:42Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文参考訳（メタデータ） (2024-06-25T16:32:33Z)
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文参考訳（メタデータ） (2024-06-04T17:42:21Z)
LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-12T14:40:45Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。