Fugu-MT 論文翻訳(概要): LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification

論文の概要: LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification

arxiv url: http://arxiv.org/abs/2408.03359v1
Date: Tue, 6 Aug 2024 15:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 14:36:13.114173
Title: LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification
Title（参考訳）: LAMPO:Few-shot Ordinal Classificationのための推論マシンとしての大規模言語モデル
Authors: Zhen Qin, Junru Wu, Jiaming Shen, Tianqi Liu, Xuanhui Wang,
Abstract要約: LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。 7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
参考スコア（独自算出の注目度）: 34.9210323553677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce LAMPO, a novel paradigm that leverages Large Language Models (LLMs) for solving few-shot multi-class ordinal classification tasks. Unlike conventional methods, which concatenate all demonstration examples with the test instance and prompt LLMs to produce the pointwise prediction, our framework uses the LLM as a preference machine that makes a relative comparative decision between the test instance and each demonstration. A self-supervised method is then introduced to aggregate these binary comparisons into the final ordinal decision. LAMPO addresses several limitations inherent in previous methods, including context length constraints, ordering biases, and challenges associated with absolute point-wise estimation. Extensive experiments on seven public datasets demonstrate LAMPO's remarkably competitive performance across a diverse spectrum of applications (e.g., movie review analysis and hate speech detection). Notably, in certain applications, the improvement can be substantial, exceeding 20% in an absolute term. Moreover, we believe LAMPO represents an interesting addition to the non-parametric application layered on top of LLMs, as it supports black-box LLMs without necessitating the outputting of LLM's internal states (e.g., embeddings), as seen in previous approaches.
Abstract（参考訳）: LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。従来の手法では,全ての実演例をテストインスタンスに結合し,LLMにポイントワイズ予測を生成させる手法とは異なり,我々のフレームワークでは,テストインスタンスと各実演の相対的な比較決定を行う選好マシンとしてLLMを使用している。次に、これらの二項比較を最終順序決定に集約するために自己教師付き手法が導入された。 LAMPOは、コンテキスト長制約、順序バイアス、絶対点推定に関連する問題など、従来の手法に固有のいくつかの制限に対処する。 7つの公開データセットに関する大規模な実験は、LAMPOが様々なアプリケーション(映画レビュー分析やヘイトスピーチ検出など)にまたがる極めて競争力のあるパフォーマンスを示している。特に、ある応用において、改善は実質的であり、絶対的な期間で20%を超える。さらに, LAMPOは, LLMの内部状態(例えば埋め込み)の出力を必要とせず, ブラックボックスのLCMをサポートするため, LLM上に重ねられた非パラメトリックアプリケーションに対する興味深い追加であると考えている。

関連論文リスト

Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。 LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文参考訳（メタデータ） (2025-04-05T07:46:30Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
Harnessing Multiple Large Language Models: A Survey on LLM Ensemble [42.84156709748681]
本稿では,LLM アンサンブルにおける最近の展開の体系的レビューを行う。本稿では, LLM アンサンブルの分類について紹介し, 関連するいくつかの研究課題について論じる。また、「アンサンブル前推論、アンサンブル後推論、アンサンブル後推論」という幅広いカテゴリの手法のより詳細な分類も提供する。
論文参考訳（メタデータ） (2025-02-25T09:48:53Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文参考訳（メタデータ） (2024-10-14T07:13:47Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。 GOとSALの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-12T23:27:46Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。