論文の概要: GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
- arxiv url: http://arxiv.org/abs/2307.03601v1
- Date: Fri, 7 Jul 2023 13:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:22:52.493280
- Title: GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
- Title(参考訳): GPT4RoI: 関心領域に基づく大規模言語モデルの学習
- Authors: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei
Zhang, Kai Chen, Ping Luo
- Abstract要約: 本稿では,関心領域の指導チューニングを提案する。
鍵となる設計は、空間的命令の形式として境界ボックスを再構成することである。
我々の地域レベルの視覚言語モデルは、GPT4RoIと呼ばれ、画像レベルの理解を超えた、対話的でインタラクティブな体験をもたらす。
- 参考スコア(独自算出の注目度): 30.452986912469363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.
- Abstract(参考訳): 画像テキストペアによる大言語モデル(llm)のインストラクションチューニングは、前例のない視覚言語マルチモーダル能力を達成している。
しかし、視覚言語アライメントは画像レベルでのみ構築されており、領域レベルのアライメントの欠如は、その進歩を微細なマルチモーダル理解に制限する。
本稿では,関心領域の指導チューニングを提案する。
鍵となる設計は、空間的指示の形式として境界ボックスを再構成することである。
空間的命令と言語埋め込みによって抽出された視覚特徴のインターリーブシーケンスをLSMに入力し、命令チューニング形式で変換された領域テキストデータに基づいて訓練する。
我々の地域レベルの視覚言語モデルは、GPT4RoIと呼ばれ、画像レベルの理解を超えた、対話的でインタラクティブな体験をもたらす。
1) 可制御性: ユーザーは言語と空間的指示の両方でモデルと対話し、質問の細部レベルを柔軟に調整することができる。
2)キャパシティ: 単一領域空間命令だけでなく, 複数領域もサポートする。
これにより、詳細な領域キャプションや複雑な領域推論といった、より領域レベルのマルチモーダルキャパシティが解放される。
3) 構成: 市販の物体検出器は、色、形状、材料、動作、その他の物体との関係など、我々のモデルから情報的な物体属性をマイニングするために、空間的指示プロバイダとなることができる。
コード、データ、デモはhttps://github.com/jshilong/GPT4RoIで見ることができる。
関連論文リスト
- Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.0]
本稿では,エンド・ツー・エンドのニューラル・コアス・リゾリューションシステムについて述べる。
まず、モノリンガルとクロスリンガルのバリエーションを含む強力なベースラインモデルを構築します。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - Fine-tuning multilingual language models in Twitter/X sentiment analysis: a study on Eastern-European V4 languages [0.0]
未表現言語におけるTwitter/Xデータに基づくABSAサブタスクに着目した。
我々はロシアとウクライナに対する感情の分類のためにいくつかのLSMを微調整した。
いくつかのモデルは、Twitterのマルチ言語タスクにおいて、他のモデルよりもはるかにきめ細やかに調整可能であることを示す興味深い現象をいくつか報告している。
論文 参考訳(メタデータ) (2024-08-04T14:35:30Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense
Spatiotemporal Grounding [75.03682706791389]
新しいビジョン・アンド・ランゲージ・ナビゲーション(VLN)データセットであるRoom-Across-Room(RxR)を紹介する。
RxRは多言語(英語、ヒンディー語、テルグ語)で、他のVLNデータセットよりも大きい(パスと命令がより多い)。
これはVLNにおける言語の役割を強調し、パスにおける既知のバイアスに対処し、可視化されたエンティティへのより多くの参照を引き出す。
論文 参考訳(メタデータ) (2020-10-15T18:01:15Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。