論文の概要: Generative Representational Instruction Tuning
- arxiv url: http://arxiv.org/abs/2402.09906v2
- Date: Wed, 17 Apr 2024 17:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:51:21.426684
- Title: Generative Representational Instruction Tuning
- Title(参考訳): 生成的表現的インストラクションチューニング
- Authors: Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela,
- Abstract要約: GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
- 参考スコア(独自算出の注目度): 89.76840377003178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.
- Abstract(参考訳): すべてのテキストベースの言語問題は、生成または埋め込みに還元できる。
現在のモデルはどちらか一方でしかうまく機能しない。
生成的表現的命令チューニング(GRIT)を導入し、大きな言語モデルを用いて、生成的タスクと埋め込み的タスクの両方を扱うように訓練する。
他のオープンモデルと比較して、GritLM 7Bは、Massive Text Embedding Benchmark(MTEB)に新しい最先端技術を設定し、様々な生成タスクにおいて、すべてのモデルのサイズよりも優れています。
さらにスケールアップすることで、GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
特に、GRITは、生成データや埋め込みデータのみのトレーニングと一致しているため、パフォーマンス損失なしに両方の統合が可能である。
GRITによる統一は、検索と生成を分離する必要がなくなることで、長いドキュメントの検索・拡張生成(RAG)を60%以上高速化する。
モデル、コード等はhttps://github.com/ContextualAI/gritlm.comで自由に入手できる。
関連論文リスト
- RAGViz: Diagnose and Visualize Retrieval-Augmented Generation [16.91653397201039]
Retrieval-augmented Generation (RAG)は、ドメイン固有のソースからの知識を大きな言語モデルに結合する。
本稿では,得られた文書中の生成したトークンの注意力を可視化するRAG診断ツールであるRAGVizを提案する。
RAGVizは、(1)トークンと文書レベルの注意の可視化、(2)コンテキスト文書の追加と削除に関する生成比較の2つの主要な機能を提供している。
論文 参考訳(メタデータ) (2024-11-04T02:30:05Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Evaluating Generative Models for Graph-to-Text Generation [0.0]
ゼロショット設定でグラフデータから記述テキストを生成するための生成モデルの能力について検討する。
この結果から, 生成モデルにより, 流動的で一貫性のあるテキストを生成できることが示唆された。
しかし, 誤り解析の結果, 生成モデルは実体間の意味的関係の理解に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-07-27T09:03:05Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。