論文の概要: A Technical Report on the Second Place Solution for the CIKM 2025 AnalytiCup Competition
- arxiv url: http://arxiv.org/abs/2601.05259v1
- Date: Sat, 25 Oct 2025 16:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.523972
- Title: A Technical Report on the Second Place Solution for the CIKM 2025 AnalytiCup Competition
- Title(参考訳): 第2回CIKM 2025AnalytiCupコンペティション開催報告
- Authors: Haotao Xie, Ruilin Chen, Yicheng Wu, Zhan Zhao, Yuanyuan Liu,
- Abstract要約: 本研究は,eコマース検索における多言語カテゴリー関連判断の課題に対処する。
本稿では,Chain-of-Thoughtタスク分解による迅速なエンジニアリングを活用するフレームワークを提案する。
実験結果から,本フレームワークは競争精度と高い推論効率を実現することが示された。
- 参考スコア(独自算出の注目度): 11.41948435879935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenge of multilingual category relevance judgment in e-commerce search, where traditional ensemble-based systems improve accuracy but at the cost of heavy training, inference, and maintenance complexity. To overcome this limitation, we propose a simplified yet effective framework that leverages prompt engineering with Chain-of-Thought task decomposition to guide reasoning within a single large language model. Specifically, our approach decomposes the relevance judgment process into four interpretable subtasks: translation, intent understanding, category matching, and relevance judgment -- and fine-tunes a base model (Qwen2.5-14B) using Low-Rank Adaptation (LoRA) for efficient adaptation. This design not only reduces computational and storage overhead but also enhances interpretability by explicitly structuring the model's reasoning path. Experimental results show that our single-model framework achieves competitive accuracy and high inference efficiency, processing 20 samples per second on a single A100 GPU. In the CIKM 2025 AnalytiCup Competition Proposals, our method achieved 0.8902 on the public leaderboard and 0.8889 on the private leaderboard, validating the effectiveness and robustness of the proposed approach. These results highlight that structured prompting combined with lightweight fine-tuning can outperform complex ensemble systems, offering a new paradigm for scalable industrial AI applications.
- Abstract(参考訳): 本研究では,電子商取引検索における多言語カテゴリー関連判断の課題に対処する。従来のアンサンブルベースのシステムは精度を向上するが,重度トレーニングや推論,メンテナンスの複雑さを犠牲にしている。
この制限を克服するために、Chain-of-Thoughtタスク分解による迅速なエンジニアリングを活用して、単一大言語モデル内の推論をガイドする、シンプルで効果的なフレームワークを提案する。
具体的には,関係判断過程を,翻訳,意図理解,カテゴリマッチング,関連判断という4つの解釈可能なサブタスクに分解し,低ランク適応(LoRA)を用いてベースモデル(Qwen2.5-14B)を微調整する。
この設計は計算と記憶のオーバーヘッドを減らすだけでなく、モデルの推論経路を明示的に構造化することで解釈可能性を高める。
実験の結果,1つのA100 GPUで毎秒20個のサンプルを処理し,競争精度と高い推論効率が得られることがわかった。
CIKM 2025 AnalytiCup Competition Proposalsにおいて、提案手法は公共のリーダーボードで0.8902、民間のリーダーボードで0.8889を達成し、提案手法の有効性とロバスト性を検証した。
これらの結果は、構造化プロンプトと軽量な微調整の組み合わせが複雑なアンサンブルシステムより優れており、スケーラブルな産業用AIアプリケーションのための新しいパラダイムを提供することを示している。
関連論文リスト
- Motif-2-12.7B-Reasoning: A Practitioner's Guide to RL Training Recipes [7.998815625852598]
複雑な推論と長文理解において,オープンウェイトシステムとプロプライエタリフロンティアモデルのギャップを埋めるために設計された12.7Bパラメータ言語モデルを導入する。
提案手法は,ハイブリッド並列処理とカーネルレベルの最適化を用いて,64Kのコンテキストに対するメモリ効率のよいインフラストラクチャを組み合わせる。
本稿では,難易度を考慮したデータフィルタリングと混成政治軌道再利用によるトレーニングを安定化する,堅牢な強化学習ファインタニングパイプラインについて述べる。
論文 参考訳(メタデータ) (2025-12-11T00:51:18Z) - MatryoshkaThinking: Recursive Test-Time Scaling Enables Efficient Reasoning [33.47806621047652]
MatryoshkaThinkingは、最先端性能を維持しながら計算コストを大幅に削減する新しい手法である。
MatryoshkaThinkingは、DeepConfが必要とする計算の4%しか必要とせず、AIME2025で99.79のスコアを得た。
論文 参考訳(メタデータ) (2025-10-11T17:18:12Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Theoretical Guarantees for LT-TTD: A Unified Transformer-based Architecture for Two-Level Ranking Systems [0.0]
LT-TTD (Listwise Transformer with Two-Tower Distillation) は、検索とランキングフェーズをブリッジする新しい統合アーキテクチャである。
LT-TTDは, 知識蒸留強度に依存する因子によって, 検索不可能な関連項目の上限を下げることを示す。
また、統一されたランキングアーキテクチャに特化して設計された新しい評価指標UPQEを紹介する。
論文 参考訳(メタデータ) (2025-05-07T14:01:22Z) - Two-Stage Surrogate Modeling for Data-Driven Design Optimization with
Application to Composite Microstructure Generation [1.912429179274357]
本稿では,科学・工学分野における逆問題に対処する2段階の機械学習に基づく代理モデリングフレームワークを提案する。
最初の段階では、"Learner"と呼ばれる機械学習モデルは、予測出力が望ましい結果と密接に一致している入力デザイン空間内の候補の限られたセットを特定する。
第2段では、第1段で生成された縮小候補空間を評価するために、「評価器」として機能する別の代理モデルを用いる。
論文 参考訳(メタデータ) (2024-01-04T00:25:12Z) - Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。
それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。
我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。
評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:11:46Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。