論文の概要: Map2Text: New Content Generation from Low-Dimensional Visualizations
- arxiv url: http://arxiv.org/abs/2412.18673v1
- Date: Tue, 24 Dec 2024 20:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:04.885042
- Title: Map2Text: New Content Generation from Low-Dimensional Visualizations
- Title(参考訳): Map2Text: 低次元可視化による新しいコンテンツ生成
- Authors: Xingjian Zhang, Ziyang Xiong, Shixuan Liu, Yutong Xie, Tolga Ergen, Dongsub Shim, Hua Xu, Honglak Lee, Qiaozhu Me,
- Abstract要約: 低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。
これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
- 参考スコア(独自算出の注目度): 60.02149343347818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-dimensional visualizations, or "projection maps" of datasets, are widely used across scientific research and creative industries as effective tools for interpreting large-scale and complex information. These visualizations not only support understanding existing knowledge spaces but are often used implicitly to guide exploration into unknown areas. While powerful methods like TSNE or UMAP can create such visual maps, there is currently no systematic way to leverage them for generating new content. To bridge this gap, we introduce Map2Text, a novel task that translates spatial coordinates within low-dimensional visualizations into new, coherent, and accurately aligned textual content. This allows users to explore and navigate undiscovered information embedded in these spatial layouts interactively and intuitively. To evaluate the performance of Map2Text methods, we propose Atometric, an evaluation metric that provides a granular assessment of logical coherence and alignment of the atomic statements in the generated texts. Experiments conducted across various datasets demonstrate the versatility of Map2Text in generating scientific research hypotheses, crafting synthetic personas, and devising strategies for testing large language models. Our findings highlight the potential of Map2Text to unlock new pathways for interacting with and navigating large-scale textual datasets, offering a novel framework for spatially guided content generation and discovery.
- Abstract(参考訳): データセットの低次元可視化(または「投影マップ」)は、大規模で複雑な情報を解釈するための効果的なツールとして、科学研究や創造産業で広く利用されている。
これらの視覚化は、既存の知識空間の理解を支援するだけでなく、未知の領域への探索をガイドするために暗黙的に使われることが多い。
TSNEやUMAPのような強力な手法はこのようなビジュアルマップを作成できるが、現在、新しいコンテンツを生成するためにそれらを活用するための体系的な方法はない。
このギャップを埋めるために、低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。
これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
本研究では,Map2Text法の性能を評価するために,生成したテキスト中の原子文の論理的コヒーレンスとアライメントを詳細に評価する評価指標であるAtometricを提案する。
さまざまなデータセットで行われた実験は、科学研究仮説の生成、合成ペルソナの作成、大規模言語モデルをテストするための戦略開発において、Map2Textの汎用性を実証している。
われわれはMap2Textが大規模テキストデータセットと対話し、ナビゲートするための新しい経路を開放する可能性を強調し、空間的にガイドされたコンテンツ生成と発見のための新しいフレームワークを提供する。
関連論文リスト
- TrajSceneLLM: A Multimodal Perspective on Semantic GPS Trajectory Analysis [0.0]
我々は,GPSトラジェクトリのセマンティック理解を強化するためのマルチモーダル視点であるTrajSceneLLMを提案する。
本稿では,旅行選択を分析し,移動行動を理解する上で重要な課題である旅行モード識別(TMI)の枠組みを検証した。
このセマンティックエンハンスメントは、さまざまな下流のアプリケーションや、人工知能の将来の研究に有意義な可能性を約束する。
論文 参考訳(メタデータ) (2025-06-19T15:31:40Z) - FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment [16.987872206495897]
FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。
当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
論文 参考訳(メタデータ) (2025-04-11T15:12:05Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - A roadmap for generative mapping: unlocking the power of generative AI for map-making [1.128529637069462]
本稿では,地図作成における生成AIのキーとなる応用について述べる。
それは、必要な特定の技術と、現在のメソッドを使用する際の課題を特定する。
地図作成をより使いやすくするための生成マッピングシステム(GMS)を開発するためのロードマップを提供する。
論文 参考訳(メタデータ) (2024-10-21T08:29:43Z) - HPix: Generating Vector Maps from Satellite Images [0.0]
衛星画像からベクトルタイルマップを生成するためにGAN(Generative Adversarial Networks)を改良したHPixと呼ばれる新しい手法を提案する。
経験的評価を通じて,提案手法は高精度かつ視覚的に表現可能なベクトルタイルマップを作成する上での有効性を示す。
さらに、道路交差点のマッピングや、その面積に基づいたフットプリントクラスタの構築など、我々の研究の応用を拡大する。
論文 参考訳(メタデータ) (2024-07-18T16:54:02Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - AceMap: Knowledge Discovery through Academic Graph [90.12694363549483]
AceMapは学術グラフによる知識発見のために設計された学術システムである。
本稿では,AceMapデータベースを構築するための高度なデータベース構築手法を提案する。
AceMapは、学術的アイデアの進化をトレースするなど、高度な分析機能を提供する。
論文 参考訳(メタデータ) (2024-03-05T01:17:56Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Core Building Blocks: Next Gen Geo Spatial GPT Application [0.0]
本稿では,自然言語理解と空間データ分析のギャップを埋めることを目的としたMapGPTを紹介する。
MapGPTは、ロケーションベースのクエリに対するより正確でコンテキスト対応の応答を可能にする。
論文 参考訳(メタデータ) (2023-10-17T06:59:31Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Let the Chart Spark: Embedding Semantic Context into Chart with
Text-to-Image Generative Model [7.587729429265939]
画像視覚化は、データとセマンティックコンテキストを視覚表現にシームレスに統合する。
本稿では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに組み込む新しいシステムであるChartSparkを提案する。
本研究では,テキストアナライザ,編集モジュール,評価モジュールを統合したインタラクティブなビジュアルインタフェースを開発し,画像視覚化の生成,修正,評価を行う。
論文 参考訳(メタデータ) (2023-04-28T05:18:30Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。