Fugu-MT 論文翻訳(概要): Towards Measuring Representational Similarity of Large Language Models

論文の概要: Towards Measuring Representational Similarity of Large Language Models

arxiv url: http://arxiv.org/abs/2312.02730v1
Date: Tue, 5 Dec 2023 12:48:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:43:17.654849
Title: Towards Measuring Representational Similarity of Large Language Models
Title（参考訳）: 大規模言語モデルの表現的類似性の測定に向けて
Authors: Max Klabunde, Mehdi Ben Amor, Michael Granitzer, Florian Lemmerich
Abstract要約: 7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
参考スコア（独自算出の注目度）: 1.7228514699394508
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the similarity of the numerous released large language models (LLMs) has many uses, e.g., simplifying model selection, detecting illegal model reuse, and advancing our understanding of what makes LLMs perform well. In this work, we measure the similarity of representations of a set of LLMs with 7B parameters. Our results suggest that some LLMs are substantially different from others. We identify challenges of using representational similarity measures that suggest the need of careful study of similarity scores to avoid false conclusions.
Abstract（参考訳）: 多数のリリースされた大規模言語モデル(LLM)の類似性を理解するには、モデル選択の簡略化、違法なモデルの再利用の検出、LLMがうまく機能する理由の理解を深めるなど、多くの用途がある。本研究では 7B パラメータを持つ LLM の集合の表現の類似性を測る。その結果,いくつかのllmは他と大きく異なることが示唆された。虚偽の結論を避けるために類似度スコアを慎重に検討する必要があることを示唆する表象的類似度尺度を用いた課題を明らかにする。

関連論文リスト

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching [16.725632407644884]
大規模言語モデルでは,より小さな言語モデルから学習する。具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
論文参考訳（メタデータ） (2025-07-08T02:54:15Z)
A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification [0.0]
本研究では,大規模言語モデル(LLM)を用いた感情分析に簡単なアンサンブル戦略を導入する。その結果,中規模のLLMを用いた多重推論のアンサンブルは,RMSEを18.6%削減する単一試みによる大規模モデルよりも,より堅牢で正確な結果が得られることを示した。
論文参考訳（メタデータ） (2025-04-26T10:10:26Z)
Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
本稿では,多言語多言語モデル (LLM) が競合的なラベリングタスクに対する多様な視点を表現していることを示す。以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
論文参考訳（メタデータ） (2025-03-29T22:53:15Z)
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models [19.479612569318412]
生成型大規模言語モデルのための一貫性に着目した類似性比較フレームワーク(ConSCompF)を提案する。 2つのLCMによって生成されたテキストを比較し、類似度スコアを生成し、それらのレスポンス間の全体的な類似度を示す。
論文参考訳（メタデータ） (2025-03-18T05:38:04Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文参考訳（メタデータ） (2024-10-12T15:10:56Z)
Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文参考訳（メタデータ） (2024-10-06T08:33:39Z)
In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。 ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-23T12:32:12Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。 AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文参考訳（メタデータ） (2024-05-02T17:32:59Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文参考訳（メタデータ） (2023-07-31T13:26:03Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。