論文の概要: ReALM: Reference Resolution As Language Modeling
- arxiv url: http://arxiv.org/abs/2403.20329v1
- Date: Fri, 29 Mar 2024 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.068343
- Title: ReALM: Reference Resolution As Language Modeling
- Title(参考訳): ReALM: 言語モデリングとしての参照解決
- Authors: Joel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, Nidhi Rajshree,
- Abstract要約: 本稿では, LLMが様々なタイプの参照を解くために, 極めて効率的なシステムを構築する方法を示す。
異なるタイプの参照にまたがって同様の機能を持つ既存システムに対する大幅な改善を実証する。
また,GPT-3.5 と GPT-4 をベンチマークし,GPT-4 に匹敵する性能を達成した最小モデルについて検討した。
- 参考スコア(独自算出の注目度): 8.171528951760667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference resolution is an important problem, one that is essential to understand and successfully handle context of different kinds. This context includes both previous turns and context that pertains to non-conversational entities, such as entities on the user's screen or those running in the background. While LLMs have been shown to be extremely powerful for a variety of tasks, their use in reference resolution, particularly for non-conversational entities, remains underutilized. This paper demonstrates how LLMs can be used to create an extremely effective system to resolve references of various types, by showing how reference resolution can be converted into a language modeling problem, despite involving forms of entities like those on screen that are not traditionally conducive to being reduced to a text-only modality. We demonstrate large improvements over an existing system with similar functionality across different types of references, with our smallest model obtaining absolute gains of over 5% for on-screen references. We also benchmark against GPT-3.5 and GPT-4, with our smallest model achieving performance comparable to that of GPT-4, and our larger models substantially outperforming it.
- Abstract(参考訳): 参照解決は重要な問題であり、異なる種類のコンテキストを理解し、うまく扱うことが不可欠である。
このコンテキストには、ユーザの画面上のエンティティやバックグラウンドで実行されるエンティティなど、非会話エンティティに関連する以前のターンとコンテキストの両方が含まれている。
LLMは様々なタスクで非常に強力であることが示されているが、参照分解能、特に非会話的なエンティティでの使用は未利用のままである。
本稿では,従来のテキストのみのモダリティに還元できない画面上のオブジェクトのようなエンティティの形式を伴っても,参照解決が言語モデリング問題にどのように変換されるかを示すことによって,様々なタイプの参照を解決するための極めて効率的なシステムを構築する方法を示す。
画面上の参照に対して5%以上の絶対的なゲインが得られる最小のモデルで、異なるタイプの参照にまたがって同様の機能を持つ既存システムに対する大幅な改善を実証します。
また,GPT-3.5 と GPT-4 をベンチマークし,GPT-4 に匹敵する性能を達成した最小モデルと,それを上回る性能を示した。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards [4.334100270812517]
大型言語モデル(LLM)は電気通信の技術的標準と競合する。
Phi-2小言語モデル(SLM)に基づく細調整検索拡張生成(RAG)システムを提案する。
本実験は,通信分野における既存の質問応答手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-08-21T17:00:05Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CLoVe: Encoding Compositional Language in Contrastive Vision-Language
Models [33.80107512462935]
VLM(Foundational Vision-Language Models)は、オブジェクト中心認識において優れているが、単語順に不変と思われるテキスト表現を学習する。
GPT-4Vのような大規模単一ストリームモデルを含む任意のVLMが、組成を正常に識別する証拠は存在しない。
本稿では,既存のモデルが構成言語をエンコードする能力を大幅に向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:42:25Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging [8.043625583479598]
MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。
近年,MLLMを医療用マルチモーダル問題に対する普遍的解決法として応用する研究が進められている。
本稿では,Med-VQA (Med-VQA) タスクとMRG (Med-VQA) タスクに基づいて,MLLMを微調整するためのパラメータ効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T13:22:12Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。