論文の概要: Athanor: Authoring Action Modification-based Interactions on Static Visualizations via Natural Language
- arxiv url: http://arxiv.org/abs/2601.17736v1
- Date: Sun, 25 Jan 2026 08:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.303582
- Title: Athanor: Authoring Action Modification-based Interactions on Static Visualizations via Natural Language
- Title(参考訳): Athanor: 自然言語による静的可視化におけるアクション修正に基づくインタラクションのオーサリング
- Authors: Can Liu, Jaeuk Lee, Tianhe Chen, Zhibang Jiang, Xiaolin Wen, Yong Wang,
- Abstract要約: Athanorは、マルチモーダルな大規模言語モデルと自然言語命令を使用して、既存の静的視覚化をインタラクティブなものに変換する、新しいアプローチである。
Athanorを使えば、自然言語の命令で対話を書けるようになり、プログラミングの必要がなくなる。
- 参考スコア(独自算出の注目度): 9.92682960014568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactivity is crucial for effective data visualizations. However, it is often challenging to implement interactions for existing static visualizations, since the underlying code and data for existing static visualizations are often not available, and it also takes significant time and effort to enable interactions for them even if the original code and data are available. To fill this gap, we propose Athanor, a novel approach to transform existing static visualizations into interactive ones using multimodal large language models (MLLMs) and natural language instructions. Our approach introduces three key innovations: (1) an action-modification interaction design space that maps visualization interactions into user actions and corresponding adjustments, (2) a multi-agent requirement analyzer that translates natural language instructions into an actionable operational space, and (3) a visualization abstraction transformer that converts static visualizations into flexible and interactive representations regardless of their underlying implementation. Athanor allows users to effortlessly author interactions through natural language instructions, eliminating the need for programming. We conducted two case studies and in-depth interviews with target users to evaluate our approach. The results demonstrate the effectiveness and usability of our approach in allowing users to conveniently enable flexible interactions for static visualizations.
- Abstract(参考訳): 効果的なデータ視覚化には、インタラクションが不可欠だ。
しかし、既存の静的ビジュアライゼーションのためのインタラクションを実装することは、しばしば困難である。なぜなら、既存の静的ビジュアライゼーションのための基盤となるコードとデータが入手できないことが少なく、また、元のコードとデータが利用可能であったとしても、それらのためのインタラクションを実現するのにかなりの時間と労力を要するからだ。
このギャップを埋めるために、我々はAthanorを提案する。Athanorは、既存の静的な視覚化をMLLM(Multimodal Large Language Model)と自然言語命令を使ってインタラクティブなものに変換する新しいアプローチである。
提案手法では,(1)ユーザアクションと対応する調整に可視化インタラクションをマッピングするアクション修飾インタラクション設計空間,(2)自然言語命令を動作可能な操作空間に変換するマルチエージェント要求解析器,(3)静的な視覚化を基盤となる実装に関係なく柔軟でインタラクティブな表現に変換する可視化抽象化変換器の3つの重要なイノベーションを紹介する。
Athanorを使えば、自然言語の命令で対話を書けるようになり、プログラミングの必要がなくなる。
対象ユーザを対象に,2つのケーススタディと詳細なインタビューを行い,アプローチを評価した。
その結果,静的な可視化のためのフレキシブルなインタラクションをユーザが便利に行えるようにするためのアプローチの有効性とユーザビリティが示された。
関連論文リスト
- Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions [22.007942964950217]
視覚要素の直接操作と自然言語入力を組み合わせた生成的視覚分析システムであるInterChatを開発した。
この統合により、正確なインテント通信が可能になり、プログレッシブで視覚的に駆動された探索データ分析をサポートする。
論文 参考訳(メタデータ) (2025-03-06T05:35:19Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。