論文の概要: Consistency Matters: Explore LLMs Consistency From a Black-Box
Perspective
- arxiv url: http://arxiv.org/abs/2402.17411v2
- Date: Sat, 2 Mar 2024 14:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:34:52.522781
- Title: Consistency Matters: Explore LLMs Consistency From a Black-Box
Perspective
- Title(参考訳): 一貫性の問題 - ブラックボックスの観点からのLCMの一貫性を探る
- Authors: Fufangchen Zhao, Guoqiang Jin, Jiaheng Huang, Rui Zhao and Fei Tan
- Abstract要約: LLMの一貫性についてはまだ研究されていない。
LLM一貫性タスクデータセットを構築し、いくつかのベースラインを設計する。
従来のNLGメトリクス(ROUGE、BLEU、METEOR)をモデルトレーニングに必要な機能として使用しています。
最終的に、評価ツールを構築するために、最高のパフォーマンスのLightGBMモデルをベースモデルとして使用します。
- 参考スコア(独自算出の注目度): 11.110150003583392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays both commercial and open-source academic LLM have become the
mainstream models of NLP. However, there is still a lack of research on LLM
consistency, meaning that throughout the various stages of LLM research and
deployment, its internal parameters and capabilities should remain unchanged.
This issue exists in both the industrial and academic sectors. The solution to
this problem is often time-consuming and labor-intensive, and there is also an
additional cost of secondary deployment, resulting in economic and time losses.
To fill this gap, we build an LLM consistency task dataset and design several
baselines. Additionally, we choose models of diverse scales for the main
experiments. Specifically, in the LightGBM experiment, we used traditional NLG
metrics (i.e., ROUGE, BLEU, METEOR) as the features needed for model training.
The final result exceeds the manual evaluation and GPT3.5 as well as other
models in the main experiment, achieving the best performance. In the end, we
use the best performing LightGBM model as the base model to build the
evaluation tool, which can effectively assist in the deployment of business
models. Our code and tool demo are available at
https://github.com/heavenhellchen/Consistency.git
- Abstract(参考訳): 現在、商用とオープンソースの両方の学術的 LLM が NLP の主流となっている。
しかし、LLMの一貫性に関する研究がまだ不足しているため、LLMの研究と展開の様々な段階において、内部のパラメータと能力は変わらないはずである。
この問題は産業と学術の両方に存在している。
この問題に対する解決策は、しばしば時間消費と労働集約であり、また二次配備の追加コストがあり、結果として経済的および時間的損失が生じる。
このギャップを埋めるために、LLM一貫性タスクデータセットを構築し、いくつかのベースラインを設計する。
さらに,本実験では,様々なスケールのモデルを選択する。
具体的には、LightGBM実験において、従来のNLGメトリクス(ROUGE、BLEU、METEOR)をモデルトレーニングに必要な機能として使用しました。
最終結果は、手動評価とGPT3.5、およびメイン実験における他のモデルを超え、最高の性能を達成する。
最終的には、最高のパフォーマンスのLightGBMモデルをベースモデルとして使用して評価ツールを構築し、ビジネスモデルの展開を効果的に支援します。
私たちのコードとツールのデモはhttps://github.com/heavenhellchen/consistency.gitで利用可能です。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。
多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。
LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文 参考訳(メタデータ) (2024-07-15T15:45:07Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - ORLM: Training Large Language Models for Optimization Modeling [16.348267803499404]
大規模言語モデル(LLM)は複雑なオペレーションリサーチ(OR)問題に対処するための強力なツールとして登場した。
この問題に対処するために、最適化モデリングのためのオープンソースのLLMのトレーニングを提案する。
我々は,NL4OPT,MAMO,IndustrialORベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。