論文の概要: LongProLIP: A Probabilistic Vision-Language Model with Long Context Text
- arxiv url: http://arxiv.org/abs/2503.08048v1
- Date: Tue, 11 Mar 2025 05:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:09.403339
- Title: LongProLIP: A Probabilistic Vision-Language Model with Long Context Text
- Title(参考訳): LongProLIP:Long Context Textを用いた確率的視覚言語モデル
- Authors: Sanghyuk Chun, Sangdoo Yun,
- Abstract要約: 本稿では,より長いテキスト,例えば256個のテキストトークンを受理するProLIPの微調整戦略を提案する。
Urban-1kとDataComp評価スイートの実験結果から,提案したLongProLIPレシピは長いコンテキストの理解を向上できることが示された。
- 参考スコア(独自算出の注目度): 40.37750468789849
- License:
- Abstract: Recently, Probabilistic Language-Image Pre-Training (ProLIP) has been proposed to tackle the multiplicity issue of vision-language (VL) tasks. Despite their success in probabilistic representation learning at a scale, the ProLIP models cannot handle long context texts longer than 64 context length, which limits their ability to capture rich contextual information from longer text sequences. To address this issue, this paper proposes a fine-tuning strategy for ProLIP to accept longer texts, e.g., 256 text tokens. Experimental results on Urban-1k and the DataComp evaluation suite show that the proposed LongProLIP recipe can improve understanding of long contexts while minimizing the negative effect of fine-tuning. We also observe a trade-off between the long context understanding (measured by Urban-1k) and general zero-shot capability (measured by ImageNet or the average of 38 zero-shot evaluation datasets by DataComp).
- Abstract(参考訳): 近年,視覚言語(VL)タスクの多重性問題に対処するために,確率言語画像事前学習(ProLIP)が提案されている。
確率的表現学習の成功にもかかわらず、ProLIPモデルは64コンテキスト長よりも長いコンテキストテキストを扱えないため、より長いテキストシーケンスからリッチなコンテキスト情報をキャプチャする能力は制限される。
この問題に対処するために, ProLIP が長いテキスト,例えば256 個のテキストトークンを受け入れるための微調整方式を提案する。
Urban-1kとDataComp評価スイートの実験結果から,提案したLongProLIPレシピは,微調整による負の効果を最小限に抑えながら,長いコンテキストの理解を向上させることができることがわかった。
また、長い文脈理解(Urban-1kで測定)と一般的なゼロショット能力(ImageNetで測定)とのトレードオフ(DataCompで計測された38のゼロショット評価データセットの平均)も観察する。
関連論文リスト
- What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Probabilistic Language-Image Pre-Training [40.52631899695682]
ProLIP(Probabilistic Language- Image Pre-Training)は,10億規模の画像テキストデータセット上に事前トレーニングされた最初の確率的VLMである。
ProLIPは、余分なパラメータなしで「不確実性トークン」によって不確実性を効率的に推定する。
また,画像とテキストのペア間の分布的包摂関係と,原文とマスクの入力の関係を強制する新たな包摂損失も導入する。
論文 参考訳(メタデータ) (2024-10-24T15:42:25Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。