Fugu-MT 論文翻訳(概要): Foundation Models Meet Visualizations: Challenges and Opportunities

論文の概要: Foundation Models Meet Visualizations: Challenges and Opportunities

arxiv url: http://arxiv.org/abs/2310.05771v1
Date: Mon, 9 Oct 2023 14:57:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 06:45:36.674851
Title: Foundation Models Meet Visualizations: Challenges and Opportunities
Title（参考訳）: 可視化とファウンデーションモデル - 課題と機会
Authors: Weikai Yang, Mengchen Liu, Zheng Wang, and Shixia Liu
Abstract要約: 本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。 VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。 FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
参考スコア（独自算出の注目度）: 23.01218856618978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have indicated that foundation models, such as BERT and GPT, excel in adapting to a variety of downstream tasks. This adaptability has established them as the dominant force in building artificial intelligence (AI) systems. As visualization techniques intersect with these models, a new research paradigm emerges. This paper divides these intersections into two main areas: visualizations for foundation models (VIS4FM) and foundation models for visualizations (FM4VIS). In VIS4FM, we explore the primary role of visualizations in understanding, refining, and evaluating these intricate models. This addresses the pressing need for transparency, explainability, fairness, and robustness. Conversely, within FM4VIS, we highlight how foundation models can be utilized to advance the visualization field itself. The confluence of foundation models and visualizations holds great promise, but it also comes with its own set of challenges. By highlighting these challenges and the growing opportunities, this paper seeks to provide a starting point for continued exploration in this promising avenue.
Abstract（参考訳）: 近年の研究では,BERT や GPT などの基礎モデルが,下流タスクに適応する上で優れていることが示されている。この適応性は、人工知能(ai)システム構築における主要な力となっている。可視化技術がこれらのモデルと交わるにつれて、新しい研究パラダイムが出現する。本稿では,これらの交差点を,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) の2つの主要な領域に分割する。 vis4fmでは,これらの複雑なモデルの理解,精細化,評価において可視化が果たす役割について検討する。これにより、透明性、説明可能性、公平性、堅牢性の必要性が高まる。逆にfm4visでは、基盤モデルを使って可視化分野自体を前進させる方法を強調する。基礎モデルと視覚化の融合は大きな約束だが、独自の課題も伴っている。本論文は,これらの課題と成長する機会を強調することによって,この将来性のある道の探索を継続するための出発点を提供する。

関連論文リスト

Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。 DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-10-01T13:07:05Z)
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities [22.476740954286836]
今後の研究を導くための総合的な調査を行う。既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
論文参考訳（メタデータ） (2025-05-05T11:18:03Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Explainability for Vision Foundation Models: A Survey [3.570403495760109]
基礎モデルは説明可能性領域において曖昧な位置を占める。基礎モデルは、その広範な一般化能力と創発的使用によって特徴づけられる。基礎モデルにXAIを統合する上での現在の研究で直面する課題について論じる。
論文参考訳（メタデータ） (2025-01-21T15:18:55Z)
Towards Robust and Fair Vision Learning in Open-World Environments [5.520041242906903]
この論文は、視覚学習における公平性と堅牢性に対する4つの重要な貢献を示している。まず、大規模データ要求の問題に対処するために、この論文は、新しいフェアネス・ドメイン適応アプローチを提示している。第二に、視覚学習のオープンワールドモデリングを可能にするために、この論文は、新しいオープンワールドフェアネス連続学習フレームワークを提示する。
論文参考訳（メタデータ） (2024-12-12T16:50:52Z)
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective [31.527120945663725]
本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
論文参考訳（メタデータ） (2024-10-29T16:48:22Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文参考訳（メタデータ） (2024-01-16T01:57:24Z)
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文参考訳（メタデータ） (2023-12-31T12:03:21Z)
Towards the Unification of Generative and Discriminative Visual Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文参考訳（メタデータ） (2023-12-15T19:17:15Z)
Foundational Models in Medical Imaging: A Comprehensive Survey and Future Vision [6.2847894163744105]
ファンデーションモデルは、広範囲の下流タスクに適応した大規模で事前訓練されたディープラーニングモデルである。これらのモデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルへの関心も高まっている。
論文参考訳（メタデータ） (2023-10-28T12:08:12Z)
Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文参考訳（メタデータ） (2023-10-18T09:31:21Z)
Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。