論文の概要: Benchmarking and Advancing Large Language Models for Local Life Services
- arxiv url: http://arxiv.org/abs/2506.02720v1
- Date: Tue, 03 Jun 2025 10:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.592059
- Title: Benchmarking and Advancing Large Language Models for Local Life Services
- Title(参考訳): 地域生活サービスのための大規模言語モデルのベンチマークと改善
- Authors: Xiaochong Lan, Jie Feng, Jiahuan Lei, Xinlei Shi, Yong Li,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示し、様々な領域で大きなブレークスルーを遂げている。
本研究は,地域生活サービスに関わる幅広い課題にまたがる多様なLCMの性能を体系的に評価する。
その結果,比較的コンパクトな7Bモデルであっても,72Bモデルに匹敵する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.008794160467488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities and achieved significant breakthroughs across various domains, leading to their widespread adoption in recent years. Building on this progress, we investigate their potential in the realm of local life services. In this study, we establish a comprehensive benchmark and systematically evaluate the performance of diverse LLMs across a wide range of tasks relevant to local life services. To further enhance their effectiveness, we explore two key approaches: model fine-tuning and agent-based workflows. Our findings reveal that even a relatively compact 7B model can attain performance levels comparable to a much larger 72B model, effectively balancing inference cost and model capability. This optimization greatly enhances the feasibility and efficiency of deploying LLMs in real-world online services, making them more practical and accessible for local life applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著なブレークスルーを達成し、近年広く採用されている。
本研究は, 地域生活サービスの領域におけるその可能性について考察する。
本研究では,ローカルライフサービスに関連する幅広いタスクを対象とした総合的なベンチマークを構築し,多様なLCMの性能を体系的に評価する。
それらの効果をさらに高めるために、モデルファインチューニングとエージェントベースのワークフローの2つの主要なアプローチを探索する。
その結果,比較的コンパクトな 7B モデルであっても,より大規模な 72B モデルに匹敵する性能を達成でき,推論コストとモデル能力のバランスをとることができることがわかった。
この最適化により、現実のオンラインサービスにLLMをデプロイする実現可能性と効率が大幅に向上し、ローカルなライフアプリケーションにとってより実用的でアクセスしやすいものとなる。
関連論文リスト
- More diverse more adaptive: Comprehensive Multi-task Learning for Improved LLM Domain Adaptation in E-commerce [13.777910206222725]
本稿では,多種多様なデータやタスクが大規模言語モデルに与える影響を検討するために,総合的なeコマースマルチタスクフレームワークを提案し,実証実験を設計する。
具体的には,新たな主要機能領域に関連するタスクを段階的に導入することにより,LLM性能の大幅な向上を観察する。
最後に,KDDカップ2024における経験的実験から得られたベストパフォーマンスモデルを検証し,タスク1のランク5を達成した。
論文 参考訳(メタデータ) (2025-04-09T08:30:57Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation [19.566466895173924]
本稿では,Large Language Models (LLMs) をエージェントフレームワークに統合した,個人用モビリティ生成のための新しいアプローチを提案する。
本研究は,LLMと実際の都市モビリティデータとの整合性,信頼性の高い活動生成戦略の開発,都市モビリティにおけるLLM応用の探索という3つの研究課題に対処する。
論文 参考訳(メタデータ) (2024-02-22T18:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。