論文の概要: FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability
- arxiv url: http://arxiv.org/abs/2402.18667v1
- Date: Wed, 28 Feb 2024 19:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:05:16.831554
- Title: FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability
- Title(参考訳): FOFO: LLMのフォーマットフォロー能力を評価するベンチマーク
- Authors: Congying Xia, Chen Xing, Jiangshu Du, Xinyi Yang, Yihao Feng, Ran Xu,
Wenpeng Yin, Caiming Xiong
- Abstract要約: FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
- 参考スコア(独自算出の注目度): 70.84333325049123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents FoFo, a pioneering benchmark for evaluating large
language models' (LLMs) ability to follow complex, domain-specific formats, a
crucial yet underexamined capability for their application as AI agents.
Despite LLMs' advancements, existing benchmarks fail to assess their
format-following proficiency adequately. FoFo fills this gap with a diverse
range of real-world formats and instructions, developed through an AI-Human
collaborative method. Our evaluation across both open-source (e.g., Llama 2,
WizardLM) and closed-source (e.g., GPT-4, PALM2, Gemini) LLMs highlights three
key findings: open-source models significantly lag behind closed-source ones in
format adherence; LLMs' format-following performance is independent of their
content generation quality; and LLMs' format proficiency varies across
different domains. These insights suggest the need for specialized tuning for
format-following skills and highlight FoFo's role in guiding the selection of
domain-specific AI agents. FoFo is released here at
https://github.com/SalesforceAIResearch/FoFo.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoについて述べる。
LLMの進歩にもかかわらず、既存のベンチマークはフォーマット追従の習熟度を適切に評価することができなかった。
FoFoはこのギャップを、AIとHumanのコラボレーティブな方法で開発された、さまざまな現実世界のフォーマットと命令で埋める。
オープンソース(例えば、Llama 2 WizardLM)とクローズドソース(例えば、GPT-4, PALM2, Gemini)の両方にわたる評価では、3つの重要な発見が強調されている。
これらの洞察は、フォーマットフォロースキルの特別なチューニングの必要性を示唆し、ドメイン固有のAIエージェントの選択を導くFoFoの役割を強調している。
FoFoはhttps://github.com/SalesforceAIResearch/FoFoで公開されている。
関連論文リスト
- Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in
Open-environment [19.954915320147148]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。