Fugu-MT 論文翻訳(概要): Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities

論文の概要: Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities

arxiv url: http://arxiv.org/abs/2604.10135v2
Date: Wed, 15 Apr 2026 14:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 13:09:57.367993
Title: Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities
Title（参考訳）: 文における思考:言語モデルの能力を高める明示的な文境界
Authors: Zhichen Liu, Yongyuan Li, Yang Xu,
Abstract要約: 大規模言語モデル(LLM)は、人間の生成したテキストに曝露することで言語能力を得る。そこで本研究では,LLM入力の文境界に挿入する手法を提案する。その結果, GSM8kでは7.7%, DROPでは12.5%, 様々なタスクで一貫した改善が見られた。
参考スコア（独自算出の注目度）: 3.0508522904185438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Researchers have explored different ways to improve large language models (LLMs)' capabilities via dummy token insertion in contexts. However, existing works focus solely on the dummy tokens themselves, but fail to leverage the inherent sentence-level structure of natural language. This is a critical oversight, as LLMs acquire linguistic capabilities through exposure to human-generated texts, which are inherently structured at the sentence level. Motivated by this gap, we propose an approach that inserts delimiters at sentence boundaries in LLM inputs, which not only integrates dummy tokens into the context, but also facilitates LLMs with sentence-by-sentence processing behavior during reasoning. Two concrete methods: (1). In-context learning and (2). Supervised fine-tuning are experimented using 7B models to 600B Deepseek-V3. Our results demonstrate consistent improvements across various tasks, with notable gains of up to 7.7\% on GSM8k and 12.5\% on DROP. Furthermore, the fine-tuned LLMs can incorporate sentence awareness evidenced by their internal representations. Our work establishes a simple yet effective technique for enhancing LLM's capabilities, offering promising directions for cognitive-inspired LLM enhancement paradigm.
Abstract（参考訳）: 研究者は、コンテキスト内でダミートークンを挿入することで、大規模言語モデル(LLM)の機能を改善するさまざまな方法を模索している。しかし、既存の研究はダミートークンそのものにのみ焦点を当てているが、自然言語固有の文レベルの構造を活用できない。 LLMは、文レベルで本質的に構造化されている人為的なテキストを露出することで言語能力を得るため、これは重要な監視である。そこで本稿では,LLM入力の文境界にデミッタを挿入する手法を提案する。具体的な方法が2つある。 in-context learning と (2) 改良された微調整は7Bモデルから600B Deepseek-V3まで実験されている。その結果, GSM8kでは7.7\%, DROPでは12.5\%の顕著な改善が得られた。さらに、微調整されたLLMは、その内部表現によって証明された文認識を組み込むことができる。我々の研究はLLMの能力を高めるためのシンプルで効果的な手法を確立し、認知にインスパイアされたLLM拡張パラダイムのための有望な方向性を提供する。

関連論文リスト

ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Prompt and circumstance: A word-by-word LLM prompting approach to interlinear glossing for low-resource languages [6.4977738682502295]
SIGMORPHON 2023共有タスクから7つの言語に適用した,検索に基づくLLM探索手法の有効性について検討した。我々のシステムは、形態素レベルスコアカテゴリーの全ての言語に対するBERTベースの共有タスクベースラインを破る。 Tsez のケーススタディでは,LLM に言語命令の自動生成と追従を依頼し,難解な文法的特徴の誤りを低減させる。
論文参考訳（メタデータ） (2025-02-13T21:23:16Z)
Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context [12.781022584125925]
我々は、LLMが文脈を効果的に利用して慣用的意味を曖昧にすることができるかどうかをテストするために設計された、新しい対照データセットを構築した。以上の結果から, LLMは周囲の状況に適応する必要がある場合, 慣用性の解決に失敗することが多いことが判明した。コードとデータセットを公開しています。
論文参考訳（メタデータ） (2024-10-21T14:47:37Z)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳（メタデータ） (2024-09-22T14:35:09Z)
Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-15T15:43:05Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。