論文の概要: Format-Adapter: Improving Reasoning Capability of LLMs by Adapting Suitable Format
- arxiv url: http://arxiv.org/abs/2506.23133v1
- Date: Sun, 29 Jun 2025 08:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.732456
- Title: Format-Adapter: Improving Reasoning Capability of LLMs by Adapting Suitable Format
- Title(参考訳): Format-Adapter: 適合フォーマット適応によるLCMの推論能力の向上
- Authors: Dingzirui Wang, Xuanliang Zhang, Rongyu Cao, Longxu Dou, Xianzhen Luo, Yingwei Ma, Qingfu Zhu, Wanxiang Che, Binhua Li, Fei Huang, Yongbin Li,
- Abstract要約: 以前の研究では、複数の推論フォーマットが複数の回答を生成する場合、単一のフォーマットより優れていることが示されている。
与えられたタスクに適切なフォーマットを適応させ、フォーマットを生成して選択する。
Format-Adapterは,従来の作業よりも平均4.3%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 93.99600697438079
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating and voting multiple answers is an effective method to mitigate reasoning inconsistencies of large language models (LLMs). Prior works have shown that multiple reasoning formats outperform a single format when generating multiple answers. However, previous works using multiple formats rely on formats labeled by humans, which could be unsuitable for all tasks and have high labeling costs. To address this issue, we adapt suitable formats to the given tasks by generating and selecting formats. We first propose how to measure the reasoning error when generating multiple answers. Then, we introduce Format-Adapter, which utilizes LLMs to generate and select suitable reasoning formats by minimizing the error measurement we present. We conduct experiments on math and commonsense reasoning tasks, where Format-Adapter achieves a 4.3% performance improvement on average over previous works, demonstrating the effectiveness.
- Abstract(参考訳): 複数の回答の生成と投票は、大規模言語モデル(LLM)の推論の不整合を軽減する効果的な方法である。
以前の研究では、複数の推論フォーマットが複数の回答を生成する場合、単一のフォーマットより優れていることが示されている。
しかし、従来の複数のフォーマットを使用した作業は、人間によってラベル付けされたフォーマットに依存しており、これは全てのタスクに適せず、高いラベル付けコストがかかる可能性がある。
この問題に対処するために、フォーマットの生成と選択によって与えられたタスクに適切なフォーマットを適用する。
まず,複数の回答を生成する際の推論誤差を計測する方法を提案する。
次に,LLMを用いて提案する誤り測定を最小化して適切な推論形式を生成し,選択するFormat-Adapterを提案する。
Format-Adapterは従来の作業よりも平均4.3%の性能向上を実現し,その効果を実証する。
関連論文リスト
- ReFF: Reinforcing Format Faithfulness in Language Models across Varied Tasks [32.021938679807555]
FormatBenchは,大規模言語モデル(LLM)のフォーマット関連ベンチマークである。
ベンチマーク実験によると、最先端のオープンソースおよびクローズドソースのLLMは、フォーマット忠実性の深刻な欠如に悩まされている。
本稿では,LLMが汎用品質を損なうことなく,形式化された出力を生成するのを支援するために,ReFF(Reinforce Format Faithfulness)を提案する。
論文 参考訳(メタデータ) (2024-12-12T11:03:25Z) - LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。
本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文 参考訳(メタデータ) (2024-08-16T10:45:45Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - Transforming Sequence Tagging Into A Seq2Seq Task [10.130389627403433]
入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
論文 参考訳(メタデータ) (2022-03-16T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。