論文の概要: AnimatedLLM: Explaining LLMs with Interactive Visualizations
- arxiv url: http://arxiv.org/abs/2601.04213v1
- Date: Sun, 14 Dec 2025 12:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.619223
- Title: AnimatedLLM: Explaining LLMs with Interactive Visualizations
- Title(参考訳): AnimatedLLM: インタラクティブな可視化によるLLMの説明
- Authors: Zdeněk Kasner, Ondřej Dušek,
- Abstract要約: AnimatedLLMはTransformer言語モデルのステップバイステップの可視化を提供する。
このアプリケーションは、教育支援および自己教育目的のために利用可能である。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are becoming central to natural language processing education, yet materials showing their mechanics are sparse. We present AnimatedLLM, an interactive web application that provides step-by-step visualizations of a Transformer language model. AnimatedLLM runs entirely in the browser, using pre-computed traces of open LLMs applied on manually curated inputs. The application is available at https://animatedllm.github.io, both as a teaching aid and for self-educational purposes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理教育の中心となっているが、その力学を示す資料は乏しい。
我々は、Transformer言語モデルのステップバイステップの可視化を提供する対話型WebアプリケーションAnimatedLLMを提案する。
AnimatedLLMは、手動でキュレートされた入力に適用されたオープンLLMの事前計算されたトレースを使用して、完全にブラウザ内で実行される。
このアプリケーションは https://animatedllm.github.io で提供されている。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - LangBridge: Interpreting Image as a Combination of Language Embeddings [64.36674412359778]
LangBridgeは、ビジュアルトークンをテキスト埋め込みの線形結合に明示的にマッピングする新しいアダプタである。
以上の結果から,LLaMA3-8BやQwen2.5-14Bといった大型モデルに対して,Qwen2-0.5Bで事前訓練したLangBridgeを直接適用できることが示唆された。
論文 参考訳(メタデータ) (2025-03-25T07:24:27Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Animate, or Inanimate, That is the Question for Large Language Models [1.4474137122906168]
人間の認知の本質は、アニマシーの概念と深く絡み合っている。
本稿では,デジタルモデルが人間と同じような方法でアニメーションを処理できるか,という問いに答える。
我々は、アニメーション、不一致、通常、見知らぬコンテキストを用いて、異なるLSMを探索する。
その結果, LLMはテキストデータに基づいて主に訓練されているものの, 典型的なアニメートや不アニメートな実体に直面すると, 人間のように振る舞うことが判明した。
論文 参考訳(メタデータ) (2024-08-12T17:48:55Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - ManimML: Communicating Machine Learning Architectures with Animation [25.248584243340602]
我々は,機械学習アルゴリズムのアニメーションをコードから直接生成する,オープンソースのPythonライブラリManimMLを開発した。
ManimMLには、Pytorchのような人気のあるディープラーニングフレームワークを模倣するニューラルネットワークを指定するための、おなじみの構文がある。
既存のニューラルネットワークアーキテクチャを使用すれば,ManimMLでアニメーションの仕様を簡単に記述することができる。
論文 参考訳(メタデータ) (2023-06-29T17:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。