論文の概要: VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning
- arxiv url: http://arxiv.org/abs/2406.14056v2
- Date: Fri, 21 Jun 2024 06:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 12:14:34.654130
- Title: VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning
- Title(参考訳): VGA: Vision GUI Assistant -- Image-Centric Fine-Tuningによる幻覚の最小化
- Authors: Ziyang Meng, Yu Dai, Zezheng Gong, Shaoxiong Guo, Minglong Tang, Tongquan Wei,
- Abstract要約: VGAはグラフィカルユーザインタフェース(GUI)の総合的な理解のために設計された微調整モデルである。
本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。
データセットと微調整スクリプトが近くリリースされる予定です。
- 参考スコア(独自算出の注目度): 6.035805925050573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Vision-Language Models (LVLMs) have significantly improve performance in image comprehension tasks, such as formatted charts and rich-content images. Yet, Graphical User Interface (GUI) pose a greater challenge due to their structured format and detailed textual information. Existing LVLMs often overly depend on internal knowledge and neglect image content, resulting in hallucinations and incorrect responses in GUI comprehension. To address these issues, we introduce VGA, a fine-tuned model designed for comprehensive GUI understanding. Our model aims to enhance the interpretation of visual data of GUI and reduce hallucinations. We first construct a Vision Question Answering (VQA) dataset of 63.8k high-quality examples with our propose Referent Method, which ensures the model's responses are highly depend on visual content within the image. We then design a two-stage fine-tuning method called Foundation and Advanced Comprehension (FAC) to enhance both the model's ability to extract information from image content and alignment with human intent. Experiments show that our approach enhances the model's ability to extract information from images and achieves state-of-the-art results in GUI understanding tasks. Our dataset and fine-tuning script will be released soon.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の最近の進歩は、フォーマットチャートやリッチコンテンツ画像などの画像理解タスクの性能を大幅に向上させた。
しかし、グラフィカルユーザインタフェース(GUI)は、構造化フォーマットと詳細なテキスト情報のために、より大きな課題を生んでいる。
既存のLVLMは、しばしば内部知識に依存し、画像の内容を無視し、GUI理解における幻覚や誤った応答をもたらす。
これらの問題に対処するため,我々はGUIの総合的な理解を目的とした細調整モデルであるVGAを紹介した。
本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。
まず,視覚質問回答(VQA)データセットを63.8kの高品質なサンプルを用いて構築し,画像内の視覚的内容にモデル応答が強く依存することを保証する。
次に、画像コンテンツから情報を取り出す能力と人間の意図との整合性を高めるために、ファウンデーションとアドバンスト・コングリジョン(FAC)と呼ばれる2段階の微調整手法を設計する。
実験により,本手法は画像から情報を取り出す能力を向上し,GUI理解タスクにおける最新の結果が得られることが示された。
データセットと微調整スクリプトが近くリリースされる予定です。
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。