Fugu-MT 論文翻訳(概要): CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

論文の概要: CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

arxiv url: http://arxiv.org/abs/2408.01122v1
Date: Fri, 2 Aug 2024 09:03:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 13:57:23.531545
Title: CFBench: A Comprehensive Constraints-Following Benchmark for LLMs
Title（参考訳）: CFBench: LLMの総合的制約フォローベンチマーク
Authors: Tao Zhang, Yanjun Shen, Wenjing Luo, Yan Zhang, Hao Liang, Tao Zhang, Fan Yang, Mingan Lin, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou,
Abstract要約: CFBenchは大規模言語モデルのベンチマークに従う大規模な包括的制約である。 200以上の実生活シナリオと50以上のNLPタスクをカバーする1,000のキュレートされたサンプルがある。 CFBenchは実世界の命令から厳密に制約をコンパイルし、制約型のための革新的な体系的なフレームワークを構築する。
参考スコア（独自算出の注目度）: 33.19756888719116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The adeptness of Large Language Models (LLMs) in comprehending and following natural language instructions is critical for their deployment in sophisticated real-world applications. Existing evaluations mainly focus on fragmented constraints or narrow scenarios, but they overlook the comprehensiveness and authenticity of constraints from the user's perspective. To bridge this gap, we propose CFBench, a large-scale Comprehensive Constraints Following Benchmark for LLMs, featuring 1,000 curated samples that cover more than 200 real-life scenarios and over 50 NLP tasks. CFBench meticulously compiles constraints from real-world instructions and constructs an innovative systematic framework for constraint types, which includes 10 primary categories and over 25 subcategories, and ensures each constraint is seamlessly integrated within the instructions. To make certain that the evaluation of LLM outputs aligns with user perceptions, we propose an advanced methodology that integrates multi-dimensional assessment criteria with requirement prioritization, covering various perspectives of constraints, instructions, and requirement fulfillment. Evaluating current leading LLMs on CFBench reveals substantial room for improvement in constraints following, and we further investigate influencing factors and enhancement strategies. The data and code are publicly available at https://github.com/PKU-Baichuan-MLSystemLab/CFBench
Abstract（参考訳）: 自然言語命令の解釈と追従におけるLLM(Large Language Models)の有効性は、高度な現実世界のアプリケーションへの展開において重要である。既存の評価は主に断片化された制約や狭いシナリオに重点を置いているが、ユーザの視点から制約の包括性と信頼性を見落としている。このギャップを埋めるために、我々はCFBenchを提案する。CFBenchはLLMのベンチマークに従って、200以上の実環境シナリオと50以上のNLPタスクをカバーする1,000以上のキュレートされたサンプルを特徴とする大規模な包括的制約である。 CFBenchは実世界の命令から厳密に制約をコンパイルし、10のプライマリカテゴリと25以上のサブカテゴリを含む制約型のための革新的な体系的フレームワークを構築し、各制約が命令内にシームレスに統合されることを保証する。 LLM出力の評価がユーザ認識と一致していることを確認するために,多次元評価基準と要求優先化を統合し,制約,指示,要求充足の様々な観点を網羅する高度な方法論を提案する。 CFBench上での現在のLLMの評価は、制約の改善のためのかなりの余地を明らかにし、さらに影響要因と強化戦略について検討する。データとコードはhttps://github.com/PKU-Baichuan-MLSystemLab/CFBenchで公開されている。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。高品質な出力を持つデータセットを自動構築するパイプラインを設計する。データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-01-09T03:34:07Z)
Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文参考訳（メタデータ） (2024-10-19T17:27:38Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。 AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文参考訳（メタデータ） (2024-08-20T15:33:16Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文参考訳（メタデータ） (2023-11-05T16:01:40Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。