論文の概要: The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06236v1
- Date: Tue, 12 Sep 2023 13:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:52:35.775743
- Title: The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models
- Title(参考訳): 最初のステップは最も難しい: 大規模言語モデルのための時間データの表現とトークン化の落とし穴
- Authors: Dimitris Spathis, Fahim Kawsar
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
- 参考スコア(独自算出の注目度): 10.414206635385632
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable generalization
across diverse tasks, leading individuals to increasingly use them as personal
assistants and universal computing engines. Nevertheless, a notable obstacle
emerges when feeding numerical/temporal data into these models, such as data
sourced from wearables or electronic health records. LLMs employ tokenizers in
their input that break down text into smaller units. However, tokenizers are
not designed to represent numerical values and might struggle to understand
repetitive patterns and context, treating consecutive values as separate tokens
and disregarding their temporal relationships. Here, we discuss recent works
that employ LLMs for human-centric tasks such as in mobile health sensing and
present a case study showing that popular LLMs tokenize temporal data
incorrectly. To address that, we highlight potential solutions such as prompt
tuning with lightweight embedding layers as well as multimodal adapters, that
can help bridge this "modality gap". While the capability of language models to
generalize to other modalities with minimal or no finetuning is exciting, this
paper underscores the fact that their outputs cannot be meaningful if they
stumble over input nuances.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクにまたがって著しく一般化し、個人がパーソナルアシスタントやユニバーサルコンピューティングエンジンとして使うようになった。
それでも、ウェアラブルや電子健康記録から得られたデータなど、数値的/時間的データをこれらのモデルに流すと、注目すべき障害が発生する。
LLMは入力にトークン化器を使用し、テキストを小さな単位に分割する。
しかし、トークン化器は数値を表すように設計されていず、繰り返しパターンや文脈を理解するのに苦労し、連続した値を別々のトークンとして扱い、時間的関係を無視する。
本稿では、モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じ、一般的なLLMが時間データを誤ってトークン化することを示すケーススタディを示す。
そこで我々は,この「モダリティギャップ」を埋める上で有効な,軽量な埋め込み層とマルチモーダルアダプタとの迅速なチューニングのような潜在的なソリューションを強調した。
最小あるいは最小の微調整なしで他のモダリティに一般化できる言語モデルの能力はエキサイティングであるが、入力ニュアンスを突破した場合、その出力が意味を成さないという事実を強調する。
関連論文リスト
- Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - How Can Large Language Models Understand Spatial-Temporal Data? [13.91368776140489]
本稿では,時空間予測に大規模言語モデルを活用する革新的なアプローチSTG-LLMを紹介する。
1 STG-Tokenizer: この空間時間グラフトークンは、複雑なグラフデータを、空間的および時間的関係の両方を捉える簡潔なトークンに変換する; 2) STG-Adapter: 線形符号化層と復号層からなるこの最小限のアダプタは、トークン化されたデータとLCMの理解のギャップを埋める。
論文 参考訳(メタデータ) (2024-01-25T14:03:15Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。