論文の概要: LLaFS: When Large Language Models Meet Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2311.16926v5
- Date: Wed, 3 Apr 2024 12:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:47:12.485204
- Title: LLaFS: When Large Language Models Meet Few-Shot Segmentation
- Title(参考訳): LLaFS: 大きな言語モデルがFew-Shotセグメンテーションに出会ったとき
- Authors: Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu,
- Abstract要約: LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、アノテーション付きサポート画像からの制限された情報とバイアスのある情報のみに依存する従来の数ショットセグメンテーション法とは対照的に、LLMを直接使用して数ショットで画像のセグメンテーションを行う。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
- 参考スコア(独自算出の注目度): 32.86287519276783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks.
- Abstract(参考訳): 本稿では,LLaFSを提案する。LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、注釈付きサポート画像からの限られた偏り情報のみに依存する従来のいくつかのショットセグメンテーション法とは対照的に、LLMが獲得した膨大な事前知識を効果的なサプリメントとして活用し、数ショットで画像のセグメンテーションにLLMを直接利用する。
テキストベースのLLMが画像関連タスクを処理できるようにするため,LLMがポリゴンとして表現されたセグメンテーション結果を生成するための入力命令を慎重に設計し,人間の視覚機構をシミュレートし,マルチモーダルガイダンスを提供する領域属性テーブルを提案する。
また、擬似サンプルを合成し、データ拡張のための事前学習にカリキュラム学習を使用し、より良い最適化を実現する。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
関連論文リスト
- Sketch: A Toolkit for Streamlining LLM Operations [51.33202045501429]
大規模言語モデル(LLM)は大きな成功を収めた。
アウトプットフォーマットの柔軟性は、モデルのアウトプットを制御および活用する上での課題を引き起こします。
スケッチ(Sketch)は、多種多様な分野にわたるLCM操作を合理化するための革新的なツールキットである。
論文 参考訳(メタデータ) (2024-09-05T08:45:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。
具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。
我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文 参考訳(メタデータ) (2024-06-01T07:18:56Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Few-Shot Classification & Segmentation Using Large Language Models Agent [0.7550566004119158]
本研究では,大規模言語モデル(LLM)をエージェントとして利用し,FS-CS問題にトレーニング不要で対処する手法を提案する。
提案手法はPascal-5iデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-19T00:33:41Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。