論文の概要: ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2503.13923v1
- Date: Tue, 18 Mar 2025 05:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:01.834403
- Title: ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models
- Title(参考訳): ConSCompF: 生成型大規模言語モデルのための一貫性に着目した類似性比較フレームワーク
- Authors: Alexey Karev, Dong Xu,
- Abstract要約: 生成型大規模言語モデルのための一貫性に着目した類似性比較フレームワーク(ConSCompF)を提案する。
2つのLCMによって生成されたテキストを比較し、類似度スコアを生成し、それらのレスポンス間の全体的な類似度を示す。
- 参考スコア(独自算出の注目度): 19.479612569318412
- License:
- Abstract: Large language models (LLMs) have been one of the most important discoveries in machine learning in recent years. LLM-based artificial intelligence (AI) assistants, such as ChatGPT, have consistently attracted the attention from researchers, investors, and the general public, driving the rapid growth of this industry. With the frequent introduction of new LLMs to the market, it becomes increasingly difficult to differentiate between them, creating a demand for new LLM comparison methods. In this research, the Consistency-focused Similarity Comparison Framework (ConSCompF) for generative large language models is proposed. It compares texts generated by two LLMs and produces a similarity score, indicating the overall degree of similarity between their responses. The main advantage of this framework is that it can operate on a small number of unlabeled data, such as chatbot instruction prompts, and does not require LLM developers to disclose any information about their product. To evaluate the efficacy of ConSCompF, two experiments aimed at identifying similarities between multiple LLMs are conducted. Additionally, these experiments examine the correlation between the similarity scores generated by ConSCompF and the differences in the outputs produced by other benchmarking techniques, such as ROUGE-L. Finally, a series of few-shot LLM comparison experiments is conducted to evaluate the performance of ConSCompF in a few-shot LLM comparison scenario. The proposed framework can be used for calculating similarity matrices of multiple LLMs, which can be effectively visualized using principal component analysis (PCA). The ConSCompF output may provide useful insights into data that might have been used during LLM training and help detect possible investment fraud attempts.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年、機械学習において最も重要な発見の1つとなっている。
LLMベースの人工知能(AI)アシスタントであるChatGPTは、研究者、投資家、一般大衆から常に注目を集めており、この業界は急速に成長している。
市場への新たなLSMの導入が頻発する中で,両者の差別化がますます難しくなり,新たなLSM比較手法の需要が高まっている。
本研究では,生成型大規模言語モデルのための一貫性に着目した類似性比較フレームワーク(ConSCompF)を提案する。
2つのLCMによって生成されたテキストを比較し、類似度スコアを生成し、それらのレスポンス間の全体的な類似度を示す。
このフレームワークの主な利点は、チャットボット命令プロンプトのような少数の未ラベルデータで操作でき、LLM開発者が製品に関する情報を開示する必要がなくなることである。
ConSCompFの有効性を評価するために,複数のLLMの類似性を同定するための2つの実験を行った。
さらに,ConSCompFが生成した類似度スコアと,ROUGE-Lなどの他のベンチマーク手法による出力の差について検討した。
最後に,数発のLLM比較実験を行い,数発のLLM比較シナリオにおけるConSCompFの性能評価を行った。
提案するフレームワークは,主成分分析(PCA)を用いて効果的に可視化できる複数のLCMの類似度行列の計算に利用できる。
ConSCompFの出力は、LLMトレーニング中に使われたかもしれないデータに関する有用な洞察を提供し、投資詐欺の可能性を検知するのに役立つかもしれない。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and
Generative Fusion [33.73671362609599]
私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。
PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。
GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
論文 参考訳(メタデータ) (2023-06-05T03:32:26Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。