論文の概要: Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment
- arxiv url: http://arxiv.org/abs/2501.14296v1
- Date: Fri, 24 Jan 2025 07:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:39.044685
- Title: Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment
- Title(参考訳): 多段階大規模言語モデルパイプラインは、関連性評価においてGPT-4oより優れている
- Authors: Julian A. Schnabel, Johanne R. Trippas, Falk Scholer, Danula Hettiachchi,
- Abstract要約: 関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。
我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
- 参考スコア(独自算出の注目度): 6.947361774195549
- License:
- Abstract: The effectiveness of search systems is evaluated using relevance labels that indicate the usefulness of documents for specific queries and users. While obtaining these relevance labels from real users is ideal, scaling such data collection is challenging. Consequently, third-party annotators are employed, but their inconsistent accuracy demands costly auditing, training, and monitoring. We propose an LLM-based modular classification pipeline that divides the relevance assessment task into multiple stages, each utilising different prompts and models of varying sizes and capabilities. Applied to TREC Deep Learning (TREC-DL), one of our approaches showed an 18.4% Krippendorff's $\alpha$ accuracy increase over OpenAI's GPT-4o mini while maintaining a cost of about 0.2 USD per million input tokens, offering a more efficient and scalable solution for relevance assessment. This approach beats the baseline performance of GPT-4o (5 USD). With a pipeline approach, even the accuracy of the GPT-4o flagship model, measured in $\alpha$, could be improved by 9.7%.
- Abstract(参考訳): 検索システムの有効性を,特定のクエリやユーザに対するドキュメントの有用性を示す関連ラベルを用いて評価する。
これらの関連ラベルを実際のユーザから取得することは理想的であるが、そのようなデータ収集をスケールすることは難しい。
その結果、サードパーティのアノテータが採用されるが、一貫性のない精度では、監査、トレーニング、監視に費用がかかる。
関連性評価タスクを複数のステージに分割し,異なるサイズと機能を持つ異なるプロンプトとモデルを利用するLLMに基づくモジュール分類パイプラインを提案する。
TRECディープラーニング(TREC-DL)に適用すると、我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%の精度が向上し、入力トークン当たり約0.2USDのコストが維持され、信頼性評価のためのより効率的でスケーラブルなソリューションを提供する。
このアプローチは GPT-4o (5 USD) のベースライン性能を上回っている。
パイプラインアプローチでは、$\alpha$で測定されたGPT-4oフラグシップモデルの精度も9.7%向上することができた。
関連論文リスト
- SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost [8.406910685074134]
SIEVEは、GPT-4oの精度を少しのコストで一致させる軽量フィルタである。
我々は,5つの高度にカスタマイズされたフィルタタスクを用いて,OpenWebTextデータセット上でSIEVEを実験的に検証した。
本研究は,言語モデル学習のための大規模かつ高品質なデータセットのキュレーションにおいて,本手法の有効性と効率性を示すものである。
論文 参考訳(メタデータ) (2024-10-03T17:58:29Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。
本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文 参考訳(メタデータ) (2024-08-02T16:15:25Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs
Miss [4.8384738694883955]
BABILongは、分散事実の抽出と処理におけるモデル機能を評価するために設計された新しいベンチマークである。
メモリ拡張を繰り返すGPT-2を微調整することで、最大で116ドルの要素を含むタスクを処理できる。
この成果は、これまでのニューラルネットワークモデルで処理された最も長い入力であるため、かなり飛躍的なものだ。
論文 参考訳(メタデータ) (2024-02-16T16:15:01Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。