論文の概要: Yo'LLaVA: Your Personalized Language and Vision Assistant
- arxiv url: http://arxiv.org/abs/2406.09400v2
- Date: Wed, 04 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:36.387454
- Title: Yo'LLaVA: Your Personalized Language and Vision Assistant
- Title(参考訳): Yo'LLaVA: パーソナライズされた言語とビジョンアシスタント
- Authors: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee,
- Abstract要約: 大規模マルチモーダルモデル(LMM)をパーソナライズする新しいタスクについて紹介する。
提案するYo'LLaVAは,パーソナライズされた被写体を潜在トークンの集合に埋め込むことを学習する。
定性的かつ定量的な分析により,Yo'LLaVAはより少ないトークンでより効率的に概念を学習できることが判明した。
- 参考スコア(独自算出の注目度): 41.51436329973022
- License:
- Abstract: Large Multimodal Models (LMMs) have shown remarkable capabilities across a variety of tasks (e.g., image captioning, visual question answering). While broad, their knowledge remains generic (e.g., recognizing a dog), and they are unable to handle personalized subjects (e.g., recognizing a user's pet dog). Human reasoning, in contrast, typically operates within the context of specific subjects in our surroundings. For example, one might ask, "What should I buy for my dog's birthday?"; as opposed to a generic inquiry about "What should I buy for a dog's birthday?". Similarly, when looking at a friend's image, the interest lies in seeing their activities (e.g., "my friend is holding a cat"), rather than merely observing generic human actions (e.g., "a man is holding a cat"). In this paper, we introduce the novel task of personalizing LMMs, so that they can have conversations about a specific subject. We propose Yo'LLaVA, which learns to embed a personalized subject into a set of latent tokens given a handful of example images of the subject. Our qualitative and quantitative analyses reveal that Yo'LLaVA can learn the concept more efficiently using fewer tokens and more effectively encode the visual attributes compared to strong prompting baselines (e.g., LLaVA).
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、様々なタスク(例えば、画像キャプション、視覚的質問応答)で顕著な機能を示している。
広義の知識は依然として一般的であり(例:犬を認識する)、パーソナライズされた対象(例:ユーザのペットを認識する)を扱えない。
対照的に人間の推論は、通常、周囲の特定の主題の文脈内で機能します。
例えば、「自分の犬の誕生日に何を買うべきか?」と尋ねると、「犬の誕生日に何を買うべきか?」という一般的な質問とは対照的である。
同様に、友人のイメージを見るとき、興味は彼らの活動を見ること(例えば、私の友人は猫を抱いている)であり、単に一般的な人間の行動を観察すること(例えば、男が猫を抱いている)ではない。
本稿では,LMMをパーソナライズする新たな課題を紹介する。
提案するYo'LLaVAは,一握りのサンプル画像から,パーソナライズされた被写体を潜在トークンの集合に埋め込むことを学習する。
定性的かつ定量的な分析により,Yo'LLaVAはより少ないトークンを用いてより効率的に概念を学習し,強力なプロンプトベースライン(例えばLLaVA)に比べて視覚特性を効果的に符号化できることがわかった。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? [20.42118033193383]
LVLM(Large Visual-Language Models)は、多段階の視覚知覚を行う能力について未検討のままである。
MVP-Benchは、LVLMの低レベルと高レベルの両方の視覚的知覚を体系的に評価する最初のビジュアル言語ベンチマークである。
MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:47:57Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - Portrait Interpretation and a Benchmark [49.484161789329804]
提案した肖像画解釈は,人間の知覚を新たな体系的視点から認識する。
我々は,身元,性別,年齢,体格,身長,表情,姿勢をラベル付けした25万枚の画像を含む新しいデータセットを構築した。
筆者らの実験結果から, 肖像画解釈に関わるタスクを組み合わせることで, メリットが得られることが示された。
論文 参考訳(メタデータ) (2022-07-27T06:25:09Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants [4.322454918650574]
MMIU(MultiModal Intent Understanding)と呼ばれる新しいデータセットは、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む。
そして、このデータセットをマルチモーダルデジタルアシスタントの意図分類タスクに使用します。
論文 参考訳(メタデータ) (2021-10-13T00:57:05Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。