Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models on Controllable Generation under Diversified Instructions

論文の概要: Benchmarking Large Language Models on Controllable Generation under Diversified Instructions

arxiv url: http://arxiv.org/abs/2401.00690v1
Date: Mon, 1 Jan 2024 07:35:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 16:21:55.213248
Title: Benchmarking Large Language Models on Controllable Generation under Diversified Instructions
Title（参考訳）: 多様な命令下での制御可能生成に関する大規模言語モデルのベンチマーク
Authors: Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao
Abstract要約: 大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
参考スコア（独自算出の注目度）: 34.89012022437519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have exhibited impressive instruction-following capabilities, it is still unclear whether and to what extent they can respond to explicit constraints that might be entailed in various instructions. As a significant aspect of LLM alignment, it is thus important to formulate such a specialized set of instructions as well as investigate the resulting behavior of LLMs. To address this vacancy, we propose a new benchmark CoDI-Eval to systematically and comprehensively evaluate LLMs' responses to instructions with various constraints. We construct a large collection of constraints-attributed instructions as a test suite focused on both generalization and coverage. Specifically, we advocate an instruction diversification process to synthesize diverse forms of constraint expression and also deliberate the candidate task taxonomy with even finer-grained sub-categories. Finally, we automate the entire evaluation process to facilitate further developments. Different from existing studies on controllable text generation, CoDI-Eval extends the scope to the prevalent instruction-following paradigm for the first time. We provide extensive evaluations of representative LLMs (e.g., ChatGPT, Vicuna) on CoDI-Eval, revealing their limitations in following instructions with specific constraints and there is still a significant gap between open-source and commercial closed-source LLMs. We believe this benchmark will facilitate research into improving the controllability of LLMs' responses to instructions. Our data and code are available at https://github.com/Xt-cyh/CoDI-Eval.
Abstract（参考訳）: 大規模言語モデル(LLM)は命令追従能力に優れていますが、それらが様々な命令に関係のある明示的な制約にどの程度反応できるかはいまだ不明です。 LLMアライメントの重要な側面として、そのような特殊な命令セットを定式化し、LLMの振る舞いを調査することが重要である。そこで本研究では,様々な制約のある命令に対するLLMの応答を体系的かつ包括的に評価する,新しいベンチマークCoDI-Evalを提案する。一般化とカバレッジを重視したテストスイートとして,制約帰属命令の大規模なコレクションを構築した。具体的には,多種多様な制約表現を合成し,さらに細粒度のサブカテゴリをも含むタスク分類を意図する。最後に,評価プロセス全体を自動化し,さらなる発展を促進する。制御可能なテキスト生成に関する既存の研究とは異なり、codi-evalは初めて一般的な命令追従パラダイムにスコープを広げた。我々は,CoDI-Eval 上での代表的 LLM (ChatGPT, Vicuna など) を広範囲に評価し,特定の制約で命令に従う際の制限を明らかにした。このベンチマークは、llmsの命令に対する応答の制御性を改善する研究に役立つと信じています。私たちのデータとコードはhttps://github.com/xt-cyh/codi-evalで利用可能です。

関連論文リスト

DecIF: Improving Instruction-Following through Meta-Decomposition [9.939860059820917]
DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
論文参考訳（メタデータ） (2025-05-20T06:38:28Z)
Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following [39.114513139453756]
複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。我々は,CDDI(Difficulty Distribution Index)による制約の難易度分布を定量的に測定する。難解な順序で制約を提示した場合, LLM はより高性能であることが判明した。
論文参考訳（メタデータ） (2025-02-24T14:39:28Z)
Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。本稿では,コンテキスト構造化という新しい概念を提案する。具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文参考訳（メタデータ） (2024-07-23T12:33:58Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Chain-of-Specificity: An Iteratively Refining Method for Eliciting Knowledge from Large Language Models [27.615355663475984]
大きな言語モデル(LLM)は優れた生成能力を示し、貴重な情報を生成する。既存のアプローチでは、入力命令を分解したり書き直したりすることでこの問題に対処しようとした。本稿では,CoS(Chain-of-Specificity)という,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-02-20T08:03:05Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。