論文の概要: ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
- arxiv url: http://arxiv.org/abs/2504.19395v1
- Date: Mon, 28 Apr 2025 00:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.271309
- Title: ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
- Title(参考訳): ICL CIPHERS:置換暗号を用いたインテクスト学習における「学習」の定量化
- Authors: Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi,
- Abstract要約: ICL CIPHERSは,古典暗号から借用された置換暗号に基づくタスク修正のクラスである。
このアプローチでは、文脈内入力におけるトークンのサブセットが他の(無関係な)トークンに置換され、英語の文は人間の目では理解できない。
我々は,ILC CIPHERSをNON-BIJECTIVE (unreversible)ベースラインよりもBIJECTIVEマッピングで解くのが優れていることを示す。
- 参考スコア(独自算出の注目度): 20.65223270978325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have suggested that In-Context Learning (ICL) operates in dual modes, i.e. task retrieval (remember learned patterns from pre-training) and task learning (inference-time ``learning'' from demonstrations). However, disentangling these the two modes remains a challenging goal. We introduce ICL CIPHERS, a class of task reformulations based on substitution ciphers borrowed from classic cryptography. In this approach, a subset of tokens in the in-context inputs are substituted with other (irrelevant) tokens, rendering English sentences less comprehensible to human eye. However, by design, there is a latent, fixed pattern to this substitution, making it reversible. This bijective (reversible) cipher ensures that the task remains a well-defined task in some abstract sense, despite the transformations. It is a curious question if LLMs can solve ICL CIPHERS with a BIJECTIVE mapping, which requires deciphering the latent cipher. We show that LLMs are better at solving ICL CIPHERS with BIJECTIVE mappings than the NON-BIJECTIVE (irreversible) baseline, providing a novel approach to quantify ``learning'' in ICL. While this gap is small, it is consistent across the board on four datasets and six models. Finally, we examine LLMs' internal representations and identify evidence in their ability to decode the ciphered inputs.
- Abstract(参考訳): 近年の研究では、In-Context Learning(ICL)は、タスク検索(事前学習からの学習パターンを記憶)とタスク学習(実演からの「学習」)の2つのモードで動作することが示唆されている。
しかし、これら2つのモードを切り離すことは難しい目標である。
ICL CIPHERSは,古典暗号から借用された置換暗号に基づくタスク修正のクラスである。
このアプローチでは、文脈内入力におけるトークンのサブセットが他の(無関係な)トークンに置換され、英語の文は人間の目では理解できない。
しかし、設計上は、この置換に潜伏し固定されたパターンがあり、可逆である。
この単射(可逆)暗号は、変換にもかかわらず、タスクが抽象的な意味で明確に定義されたタスクのままであることを保証する。
LLM が ICL CIPHERS を BIJECTIVE マッピングで解けるかどうかは興味深い問題である。
ICLにおける'ラーニング'を定量化するための新しいアプローチを提供するため,LLM は NON-BIJECTIVE (unreversible) ベースラインよりもBIJECTIVE マッピングを用いたICL CIPHERS の解法が優れていることを示す。
このギャップは小さいが、ボード全体で4つのデータセットと6つのモデルで一貫性がある。
最後に,LLMの内部表現について検討し,暗号入力を復号化するための証拠を同定する。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Reasoning Over the Glyphs: Evaluation of LLM's Decipherment of Rare Scripts [0.6144680854063939]
稀なスクリプトを含む言語パズルのマルチモーダルデータセットを構築するための新しいアプローチを提案する。
我々は,GPT-4o,Gemini,Claude 3.5 Sonnetといった著名なモデルを用いて,言語パズルに関する実験を行った。
言語解読における現在のAI手法の長所と短所を明らかにした。
論文 参考訳(メタデータ) (2025-01-29T17:24:19Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。
まず,算術学習において LLM が部分積を利用するかどうかを検討する。
LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文 参考訳(メタデータ) (2024-10-21T01:57:16Z) - Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。