Fugu-MT 論文翻訳(概要): Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

論文の概要: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

arxiv url: http://arxiv.org/abs/2406.13121v1
Date: Wed, 19 Jun 2024 00:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 23:48:36.353947
Title: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
Title（参考訳）: Long-Context Language Models Subsume Retrieval, RAG, SQLなどなどは可能か?
Authors: Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, Michael Boratko, Yi Luan, Sébastien M. R. Arnold, Vincent Perot, Siddharth Dalmia, Hexiang Hu, Xudong Lin, Panupong Pasupat, Aida Amini, Jeremy R. Cole, Sebastian Riedel, Iftekhar Naim, Ming-Wei Chang, Kelvin Guu,
Abstract要約: 長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
参考スコア（独自算出の注目度）: 54.667202878390526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.
Abstract（参考訳）: 長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。情報コーパス全体をネイティブに取り込み、処理するLCLMの能力を活用することは、多くの利点をもたらす。ツールの専門知識を不要にすることでユーザフレンドリさを高め、複雑なパイプラインのカスケードエラーを最小限に抑える堅牢なエンドツーエンドモデリングを提供し、システム全体にわたって高度なプロンプト技術の適用を可能にします。このパラダイムシフトを評価するために,実世界のタスクのベンチマークであるLOFTを紹介した。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。しかしLCLMは、SQLのようなタスクで必要とされる構成的推論のような領域で依然として課題に直面している。特に、戦略の推進はパフォーマンスに大きな影響を与え、文脈の長さが大きくなるにつれて継続的な研究の必要性を強調している。全体として、LOFTはLCLMの厳格なテスト基盤を提供し、既存のパラダイムを代替し、モデル能力のスケールとして新しいタスクに取り組む可能性を示している。

関連論文リスト

A Comprehensive Review on Harnessing Large Language Models to Overcome Recommender System Challenges [5.436611859202691]
大規模言語モデル(LLM)は、レコメンデータシステムにおいて重要な課題に取り組むために利用することができる。 LLMはパーソナライズ、セマンティックアライメント、解釈可能性を高める。 LLMはゼロショットと少数ショットの推論を可能にし、コールドスタートとロングテールのシナリオでシステムが効果的に動作できるようにする。
論文参考訳（メタデータ） (2025-07-17T06:03:57Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling [1.219841051166348]
本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
論文参考訳（メタデータ） (2025-05-28T12:28:18Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
A Comprehensive Survey on Long Context Language Modeling [118.5540791080351]
Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
論文参考訳（メタデータ） (2025-03-20T17:06:28Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Systematic Evaluation of Long-Context LLMs on Financial Concepts [4.299993837670688]
LC LLMの最先端GPT-4スイートの性能評価を行い,課題を段階的に解決する方法について検討した。 LC LLMは, 簡単な作業であっても, より長いコンテキスト長で脆性を示すことが示唆された。
論文参考訳（メタデータ） (2024-12-19T20:26:55Z)
Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。 ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文参考訳（メタデータ） (2024-11-11T17:00:59Z)
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文参考訳（メタデータ） (2024-10-15T19:04:13Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文参考訳（メタデータ） (2024-06-09T02:36:00Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。本稿では,本論文の総合的研究について述べる。自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。