論文の概要: LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification
- arxiv url: http://arxiv.org/abs/2408.03359v1
- Date: Tue, 6 Aug 2024 15:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:36:13.114173
- Title: LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification
- Title(参考訳): LAMPO:Few-shot Ordinal Classificationのための推論マシンとしての大規模言語モデル
- Authors: Zhen Qin, Junru Wu, Jiaming Shen, Tianqi Liu, Xuanhui Wang,
- Abstract要約: LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 34.9210323553677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAMPO, a novel paradigm that leverages Large Language Models (LLMs) for solving few-shot multi-class ordinal classification tasks. Unlike conventional methods, which concatenate all demonstration examples with the test instance and prompt LLMs to produce the pointwise prediction, our framework uses the LLM as a preference machine that makes a relative comparative decision between the test instance and each demonstration. A self-supervised method is then introduced to aggregate these binary comparisons into the final ordinal decision. LAMPO addresses several limitations inherent in previous methods, including context length constraints, ordering biases, and challenges associated with absolute point-wise estimation. Extensive experiments on seven public datasets demonstrate LAMPO's remarkably competitive performance across a diverse spectrum of applications (e.g., movie review analysis and hate speech detection). Notably, in certain applications, the improvement can be substantial, exceeding 20% in an absolute term. Moreover, we believe LAMPO represents an interesting addition to the non-parametric application layered on top of LLMs, as it supports black-box LLMs without necessitating the outputting of LLM's internal states (e.g., embeddings), as seen in previous approaches.
- Abstract(参考訳): LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
従来の手法では,全ての実演例をテストインスタンスに結合し,LLMにポイントワイズ予測を生成させる手法とは異なり,我々のフレームワークでは,テストインスタンスと各実演の相対的な比較決定を行う選好マシンとしてLLMを使用している。
次に、これらの二項比較を最終順序決定に集約するために自己教師付き手法が導入された。
LAMPOは、コンテキスト長制約、順序バイアス、絶対点推定に関連する問題など、従来の手法に固有のいくつかの制限に対処する。
7つの公開データセットに関する大規模な実験は、LAMPOが様々なアプリケーション(映画レビュー分析やヘイトスピーチ検出など)にまたがる極めて競争力のあるパフォーマンスを示している。
特に、ある応用において、改善は実質的であり、絶対的な期間で20%を超える。
さらに, LAMPOは, LLMの内部状態(例えば埋め込み)の出力を必要とせず, ブラックボックスのLCMをサポートするため, LLM上に重ねられた非パラメトリックアプリケーションに対する興味深い追加であると考えている。
関連論文リスト
- SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。
最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。
この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-14T07:13:47Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。
テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。
GOとSALの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T23:27:46Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。