論文の概要: Tokenization of Gaze Data
- arxiv url: http://arxiv.org/abs/2503.22145v1
- Date: Fri, 28 Mar 2025 04:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.569789
- Title: Tokenization of Gaze Data
- Title(参考訳): 注視データのトークン化
- Authors: Tim Rolff, Jurik Karimian, Niklas Hypki, Susanne Schmidt, Markus Lappe, Frank Steinicke,
- Abstract要約: その性質から、視線データのトークン化戦略に関する研究は行われていない。
我々は,3つの異なるデータセットの視線データに対する5つの異なるトークン化器を解析した。
我々は、量子化トークンーザが、視線位置の予測において他よりも優れており、視線速度の予測では、k平均が最適であることを示した。
- 参考スコア(独自算出の注目度): 13.171458648810455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A considerable part of the performance of today's large language models (LLM's) and multimodal large language models (MLLM's) depends on their tokenization strategies. While tokenizers are extensively researched for textual and visual input, there is no research on tokenization strategies for gaze data due to its nature. However, a corresponding tokenization strategy would allow using the vision capabilities of pre-trained MLLM's for gaze data, for example, through fine-tuning. In this paper, we aim to close this research gap by analyzing five different tokenizers for gaze data on three different datasets for the forecasting and generation of gaze data through LLMs (cf.~\cref{fig:teaser}). We evaluate the tokenizers regarding their reconstruction and compression abilities. Further, we train an LLM for each tokenization strategy, measuring its generative and predictive performance. Overall, we found that a quantile tokenizer outperforms all others in predicting the gaze positions and k-means is best when predicting gaze velocities.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)のパフォーマンスのかなりの部分は、それらのトークン化戦略に依存している。
トークン化剤はテキスト入力や視覚入力のために広範囲に研究されているが、その性質から視線データのトークン化戦略に関する研究は行われていない。
しかし、対応するトークン化戦略は、例えば微調整によって、視線データのために事前訓練されたMLLMの視覚能力を使用することができる。
本稿では,LLM(cf)による視線データの予測と生成のための3つの異なるデータセットの視線データに対する5つの異なる測位器を解析することにより,この研究ギャップを解消することを目的とする。
~\cref{fig:teaser})。
コントラクタの復元能力と圧縮能力について評価する。
さらに,各トークン化戦略に対してLLMをトレーニングし,その生成および予測性能を測定した。
総じて、量子トークン化器は視線位置を予測するのに優れており、k平均は視線速度を予測するのに最適であることがわかった。
関連論文リスト
- Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Exploring the Potential of Large Language Models as Predictors in Dynamic Text-Attributed Graphs [23.655368505970443]
我々は,動的グラフの予測タスクに大規模言語モデル (LLM) を考案した。
協調LLMを利用したマルチエージェントシステムであるGraphAgent-Dynamic (GAD) フレームワークを提案する。
GADはグローバルおよびローカルの要約エージェントを組み込んでドメイン固有の知識を生成し、ドメイン間の転送可能性を高める。
論文 参考訳(メタデータ) (2025-03-05T08:28:11Z) - Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。
グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。
近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文 参考訳(メタデータ) (2025-02-26T03:03:46Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Beyond Text: A Deep Dive into Large Language Models' Ability on
Understanding Graph Data [13.524529952170672]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な性能を達成している。
LLMがグラフデータを効果的に処理し、トポロジ構造を利用して性能を向上させることができるかどうかを評価することを目的とする。
LLMの性能を特殊グラフモデルと比較することにより、グラフ解析にLLMを使用する際の長所と短所について考察する。
論文 参考訳(メタデータ) (2023-10-07T23:25:22Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。