Fugu-MT 論文翻訳(概要): Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions

論文の概要: Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions

arxiv url: http://arxiv.org/abs/2410.12207v1
Date: Wed, 16 Oct 2024 04:01:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.123728
Title: Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions
Title（参考訳）: Divide-Verify-Refine:複雑な命令によるLCM応答の調整
Authors: Xianren Zhang, Xianfeng Tang, Hui Liu, Zongyu Wu, Qi He, Dongwon Lee, Suhang Wang,
Abstract要約: LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
参考スコア（独自算出の注目度）: 33.18076221854853
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent studies show that LLMs, particularly open-source models, struggle to follow complex instructions with multiple constraints. Despite the importance, methods to improve LLMs' adherence to such constraints remain unexplored, and current research focuses on evaluating this ability rather than developing solutions. While a few studies enhance constraint adherence through model tuning, this approach is computationally expensive and heavily reliant on training data quality. An alternative is to leverage LLMs' self-correction capabilities, allowing them to adjust responses to better meet specified constraints. However, this self-correction ability of LLMs is limited by the feedback quality, as LLMs cannot autonomously generate reliable feedback or detect errors. Moreover, the self-refinement process heavily depends on few-shot examples that illustrate how to modify responses to meet constraints. As constraints in complex instructions are diverse and vary widely, manually crafting few-shot examples for each constraint type can be labor-intensive and sub-optimal. To deal with these two challenges, we propose the Divide-Verify-Refine (DVR) framework with three steps: (1) Divide complex instructions into single constraints and prepare appropriate tools; (2) Verify: To address the feedback quality problem, these tools will rigorously verify responses and provide reliable feedback; (3) Refine: To address the constraint diversity challenge, we design a refinement repository that collects successful refinement processes and uses them as few-shot demonstrations for future cases, allowing LLMs to learn from the past experience during inference. Additionally, we develop a new dataset of complex instructions, each containing 1-6 constraints. Experiments show that the framework significantly improves performance, doubling LLama3.1-8B's constraint adherence on instructions with 6 constraints.
Abstract（参考訳）: 最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。このような制約に対するLCMsの適合性を改善する手法はいまだ解明されていないが、現在の研究はソリューションを開発するよりも、この能力を評価することに焦点を当てている。モデルチューニングによる制約の厳密性を高める研究はいくつかあるが、このアプローチは計算コストが高く、データ品質のトレーニングに大きく依存している。 LLMの自己補正機能を活用して、特定の制約を満たすように応答を調整する方法もある。しかし、LLMの自己補正能力は、信頼性の高いフィードバックを自律的に生成したり、エラーを検出することができないため、フィードバック品質によって制限される。さらに、自己抑制プロセスは、制約を満たすためにレスポンスを変更する方法を示す、わずかな例に大きく依存しています。複雑な命令の制約は多種多様であり、多様であるため、各制約タイプに対して手動で少数ショットの例を作成することは、労働集約的で準最適である。 1) 複雑な命令を単一制約に分割して適切なツールを作成する,(2) 検証: フィードバック品質の問題に対処するために,これらのツールを厳格に検証し,信頼性の高いフィードバックを提供する,(3) 修正: 制約の多様性問題に対処するために,我々は,改善プロセスの収集と,将来の事例に対する数発のデモとして使用する改良リポジトリを設計し,LLMが推論中の過去の経験から学ぶことを可能にする,3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。さらに,1-6の制約を含む複雑な命令のデータセットも新たに開発した。実験の結果、このフレームワークは性能を大幅に改善し、LLama3.1-8Bの6つの制約を持つ命令に対する制約の順守を2倍にした。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation [6.920352059545929]
我々は、XLLM@ACL2025 Shared Task-IIIにおける第3位の勝利のアプローチであるLess is Moreを提示する。我々のアプローチは、わずか24のラベル付き例からの構造化推論に焦点を当てている。全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
論文参考訳（メタデータ） (2025-04-23T04:19:52Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。 PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。 The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文参考訳（メタデータ） (2024-08-02T17:59:42Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文参考訳（メタデータ） (2024-06-25T16:32:33Z)
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文参考訳（メタデータ） (2024-06-04T17:42:21Z)
LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-12T14:40:45Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。