論文の概要: ReFF: Reinforcing Format Faithfulness in Language Models across Varied Tasks
- arxiv url: http://arxiv.org/abs/2412.09173v1
- Date: Thu, 12 Dec 2024 11:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:34.630857
- Title: ReFF: Reinforcing Format Faithfulness in Language Models across Varied Tasks
- Title(参考訳): ReFF: 言語モデルにおける言語モデルにおける不信感の強化
- Authors: Jiashu Yao, Heyan Huang, Zeming Liu, Haoyu Wen, Wei Su, Boao Qian, Yuhang Guo,
- Abstract要約: FormatBenchは,大規模言語モデル(LLM)のフォーマット関連ベンチマークである。
ベンチマーク実験によると、最先端のオープンソースおよびクローズドソースのLLMは、フォーマット忠実性の深刻な欠如に悩まされている。
本稿では,LLMが汎用品質を損なうことなく,形式化された出力を生成するのを支援するために,ReFF(Reinforce Format Faithfulness)を提案する。
- 参考スコア(独自算出の注目度): 32.021938679807555
- License:
- Abstract: Following formatting instructions to generate well-structured content is a fundamental yet often unmet capability for large language models (LLMs). To study this capability, which we refer to as format faithfulness, we present FormatBench, a comprehensive format-related benchmark. Compared to previous format-related benchmarks, FormatBench involves a greater variety of tasks in terms of application scenes (traditional NLP tasks, creative works, autonomous agency tasks), human-LLM interaction styles (single-turn instruction, multi-turn chat), and format types (inclusion, wrapping, length, coding). Moreover, each task in FormatBench is attached with a format checker program. Extensive experiments on the benchmark reveal that state-of-the-art open- and closed-source LLMs still suffer from severe deficiency in format faithfulness. By virtue of the decidable nature of formats, we propose to Reinforce Format Faithfulness (ReFF) to help LLMs generate formatted output as instructed without compromising general quality. Without any annotated data, ReFF can substantially improve the format faithfulness rate (e.g., from 21.6% in original LLaMA3 to 95.0% on caption segmentation task), while keep the general quality comparable (e.g., from 47.3 to 46.4 in F1 scores). Combined with labeled training data, ReFF can simultaneously improve both format faithfulness (e.g., from 21.6% in original LLaMA3 to 75.5%) and general quality (e.g., from 47.3 to 61.6 in F1 scores). We further offer an interpretability analysis to explain how ReFF improves both format faithfulness and general quality.
- Abstract(参考訳): 構造化されたコンテンツを生成するためのフォーマット命令に従うことは、大きな言語モデル(LLM)の基本的な機能であるが、多くの場合、未標準の機能である。
フォーマット忠実度(form faithfulness)と呼ぶこの能力を研究するために,包括的フォーマット関連ベンチマークであるFormatBenchを提案する。
以前のフォーマット関連のベンチマークと比較すると、FormatBenchはアプリケーションシーン(従来のNLPタスク、クリエイティブワーク、自律的なエージェンシータスク)、ヒューマン-LLMインタラクションスタイル(シングルターン命令、マルチターンチャット)、フォーマットタイプ(インクルージョン、ラップ、長さ、コーディング)において、より多様なタスクを含んでいる。
さらに、FormatBenchの各タスクには、フォーマットチェッカープログラムが付属している。
ベンチマークの大規模な実験によると、最先端のオープンソースおよびクローズドソースのLLMは、フォーマット忠実性の深刻な欠如に悩まされている。
書式が決定可能な性質を生かして,LLMが一般的な品質を損なうことなく,書式化された出力を生成するのを支援するために,ReFF(Reinforce Format Faithfulness)を提案する。
注釈付きデータなしでは、ReFFはフォーマット忠実度(例えば、オリジナルのLLaMA3の21.6%からキャプションセグメンテーションタスクの95.0%まで)を大幅に改善し、一般的な品質(例えば、F1スコアの47.3から46.4まで)を維持することができる。
ラベル付きトレーニングデータと組み合わせることで、ReFFはフォーマット忠実度(LLaMA3の21.6%から75.5%)と一般的な品質(F1スコアの47.3から61.6まで)を同時に改善することができる。
さらに、ReFFがフォーマットの忠実さと一般的な品質の両方をどのように改善するかを説明するために、解釈可能性分析を提供する。
関連論文リスト
- Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction [2.2999148299770047]
本稿では,ASQPタスクにおけるゼロおよび少数ショット学習のための大規模言語モデルの能力について検討する。
F1スコアは最先端の微調整モデルよりわずかに低いが,従来報告されていたゼロショットと少数ショットのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2025-02-18T16:56:15Z) - Stress Testing Generalization: How Minor Modifications Undermine Large Language Model Performance [5.8538128016098225]
本稿では,Large Language Models (LLMs) の新規入力に対する脆弱性について検討する。
ベンチマークスコアが高いにもかかわらず、LCMは、マイナーではあるがコンテンツ保存の修正に直面したとき、かなりの精度低下と予期せぬバイアスを示す。
論文 参考訳(メタデータ) (2025-02-18T02:42:53Z) - LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。
本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文 参考訳(メタデータ) (2024-08-16T10:45:45Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Transforming Sequence Tagging Into A Seq2Seq Task [10.130389627403433]
入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
論文 参考訳(メタデータ) (2022-03-16T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。