論文の概要: Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora
- arxiv url: http://arxiv.org/abs/2502.13691v1
- Date: Wed, 19 Feb 2025 13:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:11.919369
- Title: Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora
- Title(参考訳): このコレクションは私のLLMの時間に価値があるか? テキストコーパスにおける情報ポテンシャルの自動計測
- Authors: Tristan Karch, Luca Engel, Philippe Schwaller, Frédéric Kaplan,
- Abstract要約: モデルトレーニングや微調整を必要とせずに,テキストコレクションから得られる潜在的な情報を評価する自動パイプラインを提案する。
提案手法はテキストから複数の選択質問(MCQ)を生成し,LLMの性能を原材料へのアクセスの有無に関わらず測定する。
本手法は,有用な新規情報を含むコレクションを効果的に識別し,データ取得と統合作業の優先順位付けを行うための実用的なツールを提供する。
- 参考スコア(独自算出の注目度): 2.3251886193174114
- License:
- Abstract: As large language models (LLMs) converge towards similar capabilities, the key to advancing their performance lies in identifying and incorporating valuable new information sources. However, evaluating which text collections are worth the substantial investment required for digitization, preprocessing, and integration into LLM systems remains a significant challenge. We present a novel approach to this challenge: an automated pipeline that evaluates the potential information gain from text collections without requiring model training or fine-tuning. Our method generates multiple choice questions (MCQs) from texts and measures an LLM's performance both with and without access to the source material. The performance gap between these conditions serves as a proxy for the collection's information potential. We validate our approach using three strategically selected datasets: EPFL PhD manuscripts (likely containing novel specialized knowledge), Wikipedia articles (presumably part of training data), and a synthetic baseline dataset. Our results demonstrate that this method effectively identifies collections containing valuable novel information, providing a practical tool for prioritizing data acquisition and integration efforts.
- Abstract(参考訳): 大きな言語モデル(LLM)が同様の機能に収束するにつれて、そのパフォーマンス向上の鍵は、価値ある新しい情報ソースを特定し、導入することにある。
しかし、どのテキストコレクションがデジタル化、事前処理、LLMシステムへの統合に必要な相当な投資に値するかを評価することは、依然として大きな課題である。
この課題に対して,モデルトレーニングや微調整を必要とせずに,テキストコレクションから得られる潜在的な情報を評価する自動パイプラインという,新たなアプローチを提案する。
提案手法はテキストから複数の選択質問(MCQ)を生成し,LLMの性能を原材料へのアクセスの有無に関わらず測定する。
これらの条件間のパフォーマンスギャップは、コレクションの情報ポテンシャルのプロキシとして役立ちます。
戦略的に選択された3つのデータセット:EPFL PhDの原稿(おそらく新しい専門知識を含む)、ウィキペディアの記事(おそらくトレーニングデータの一部である)、および合成ベースラインデータセットを用いて、我々のアプローチを検証する。
本手法は,有用な新規情報を含むコレクションを効果的に識別し,データ取得と統合作業の優先順位付けを行うための実用的なツールを提供する。
関連論文リスト
- Hidden Entity Detection from GitHub Leveraging Large Language Models [5.774655701780098]
大言語モデル(LLM)はゼロショット学習(ZSL)や少数ショット学習(FSL)に依存するアプローチへの道を開いた。
本稿では,LLMを利用してGitHubリポジトリからテキストコンテンツ内のデータセットやソフトウェアを自動的に検出する可能性について検討する。
論文 参考訳(メタデータ) (2025-01-08T12:18:11Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。