論文の概要: Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data
- arxiv url: http://arxiv.org/abs/2501.09521v1
- Date: Thu, 16 Jan 2025 13:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:51.644550
- Title: Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data
- Title(参考訳): 地球地理空間データの対話的可視化のためのテキストとビジュアルデータを組み合わせた大規模言語モデルの構築
- Authors: Omar Mena, Alexandre Kouyoumdjian, Lonni Besançon, Michael Gleicher, Ivan Viola, Anders Ynnerman,
- Abstract要約: 本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
- 参考スコア(独自算出の注目度): 51.57559025799189
- License:
- Abstract: We present a method for augmenting a Large Language Model (LLM) with a combination of text and visual data to enable accurate question answering in visualization of scientific data, making conversational visualization possible. LLMs struggle with tasks like visual data interaction, as they lack contextual visual information. We address this problem by merging a text description of a visualization and dataset with snapshots of the visualization. We extract their essential features into a structured text file, highly compact, yet descriptive enough to appropriately augment the LLM with contextual information, without any fine-tuning. This approach can be applied to any visualization that is already finally rendered, as long as it is associated with some textual description.
- Abstract(参考訳): 本稿では,学術データの可視化における正確な質問応答を可能にするために,テキストと視覚データを組み合わせたLarge Language Model (LLM) の拡張手法を提案する。
LLMは、文脈的な視覚情報がないため、視覚データインタラクションのようなタスクに苦労する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
構造化されたテキストファイルにそれらの重要な特徴を抽出し、高度にコンパクトでありながら、文脈情報でLLMを適切に拡張するのに十分な記述性を持つ。
このアプローチは、テキスト記述に関連付けられている限り、すでに最終的にレンダリングされた任意の視覚化に適用できる。
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。
LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。
提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:23:08Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation [20.00366398989886]
視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。
TextManiAは、理解しやすい視覚的模倣語を活用することで、クラス内のセマンティック摂動で視覚データを増強する。
実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。
論文 参考訳(メタデータ) (2023-07-27T03:56:39Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。