論文の概要: Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions
- arxiv url: http://arxiv.org/abs/2401.00690v1
- Date: Mon, 1 Jan 2024 07:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:21:55.213248
- Title: Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions
- Title(参考訳): 多様な命令下での制御可能生成に関する大規模言語モデルのベンチマーク
- Authors: Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao
- Abstract要約: 大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
- 参考スコア(独自算出の注目度): 34.89012022437519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have exhibited impressive
instruction-following capabilities, it is still unclear whether and to what
extent they can respond to explicit constraints that might be entailed in
various instructions. As a significant aspect of LLM alignment, it is thus
important to formulate such a specialized set of instructions as well as
investigate the resulting behavior of LLMs. To address this vacancy, we propose
a new benchmark CoDI-Eval to systematically and comprehensively evaluate LLMs'
responses to instructions with various constraints. We construct a large
collection of constraints-attributed instructions as a test suite focused on
both generalization and coverage. Specifically, we advocate an instruction
diversification process to synthesize diverse forms of constraint expression
and also deliberate the candidate task taxonomy with even finer-grained
sub-categories. Finally, we automate the entire evaluation process to
facilitate further developments. Different from existing studies on
controllable text generation, CoDI-Eval extends the scope to the prevalent
instruction-following paradigm for the first time. We provide extensive
evaluations of representative LLMs (e.g., ChatGPT, Vicuna) on CoDI-Eval,
revealing their limitations in following instructions with specific constraints
and there is still a significant gap between open-source and commercial
closed-source LLMs. We believe this benchmark will facilitate research into
improving the controllability of LLMs' responses to instructions. Our data and
code are available at https://github.com/Xt-cyh/CoDI-Eval.
- Abstract(参考訳): 大規模言語モデル(LLM)は命令追従能力に優れていますが、それらが様々な命令に関係のある明示的な制約にどの程度反応できるかはいまだ不明です。
LLMアライメントの重要な側面として、そのような特殊な命令セットを定式化し、LLMの振る舞いを調査することが重要である。
そこで本研究では,様々な制約のある命令に対するLLMの応答を体系的かつ包括的に評価する,新しいベンチマークCoDI-Evalを提案する。
一般化とカバレッジを重視したテストスイートとして,制約帰属命令の大規模なコレクションを構築した。
具体的には,多種多様な制約表現を合成し,さらに細粒度のサブカテゴリをも含むタスク分類を意図する。
最後に,評価プロセス全体を自動化し,さらなる発展を促進する。
制御可能なテキスト生成に関する既存の研究とは異なり、codi-evalは初めて一般的な命令追従パラダイムにスコープを広げた。
我々は,CoDI-Eval 上での代表的 LLM (ChatGPT, Vicuna など) を広範囲に評価し,特定の制約で命令に従う際の制限を明らかにした。
このベンチマークは、llmsの命令に対する応答の制御性を改善する研究に役立つと信じています。
私たちのデータとコードはhttps://github.com/xt-cyh/codi-evalで利用可能です。
関連論文リスト
- Chain-of-Specificity: An Iteratively Refining Method for Eliciting
Knowledge from Large Language Models [27.615355663475984]
大きな言語モデル(LLM)は優れた生成能力を示し、貴重な情報を生成する。
既存のアプローチでは、入力命令を分解したり書き直したりすることでこの問題に対処しようとした。
本稿では,CoS(Chain-of-Specificity)という,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:03:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - A Comprehensive Evaluation of Constrained Text Generation for Large
Language Models [58.761655924438585]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本稿では,ChatGPT や GPT-4 など複数の LLM について検討し,制約を語彙型,構造型,関係型に分類する。
この研究は、LLMが制約に準拠する範囲など、いくつかの重要な研究課題に対処する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Ada-Instruct: Adapting Instruction Generators for Complex Reasoning [17.07852413707166]
Ada-Instruct は,オープンソース LLM の微調整によって開発された適応型命令生成器である。
我々はAda-Instructの有効性を、コード補完、数学的推論、常識推論を含む様々なアプリケーションで実証的に検証した。
論文 参考訳(メタデータ) (2023-10-06T13:28:04Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Large Language Models are Few-Shot Summarizers: Multi-Intent Comment
Generation via In-Context Learning [34.006227676170504]
本研究では,大規模言語モデル(LLM)を用いて,開発者の多様な意図を満たすコメントを生成することの実現可能性について検討する。
2つの大規模なデータセットの実験は、私たちの洞察の理論的根拠を示しています。
論文 参考訳(メタデータ) (2023-04-22T12:26:24Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。