論文の概要: HKGAI-V1: Towards Regional Sovereign Large Language Model for Hong Kong
- arxiv url: http://arxiv.org/abs/2507.11502v1
- Date: Mon, 14 Jul 2025 15:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.20429
- Title: HKGAI-V1: Towards Regional Sovereign Large Language Model for Hong Kong
- Title(参考訳): HKGAI-V1:香港の地域言語モデルに向けて
- Authors: Sirui Han, Junqi Zhu, Ruiyuan Zhang, Yike Guo,
- Abstract要約: 本稿では,香港に特化された価値対応型AIインフラの構築に向けた取り組みの一環として,HKGAI-V1の開発について述べる。
このモデルはDeepSeekアーキテクチャに基づいて構築され、マルチフェイスフルパラメータ微調整プロセスを通じて、地域規範に体系的に適合する。
HKGAI-V1の成功により、香港は公共サービス、法体系、教育機関を含む重要な分野におけるAIアプリケーションの制御を行うことができる。
- 参考スコア(独自算出の注目度): 8.67097489372345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the development of HKGAI-V1, a foundational sovereign large language model (LLM), developed as part of an initiative to establish value-aligned AI infrastructure specifically tailored for Hong Kong. Addressing the region's unique multilingual environment (Cantonese, Mandarin, and English), its distinct socio-legal context under the "one country, two systems" framework, and specific local cultural and value considerations, the model is built upon the DeepSeek architecture and systematically aligned with regional norms through a multifaceted full parameter fine-tuning process. It is further integrated with a retrieval-augmented generation (RAG) system to ensure timely and factually grounded information access. The core contribution lies in the design and implementation of a comprehensive, region-specific AI alignment and safety framework, demonstrated through two key achievements: 1) The successful development of HKGAI-V1 itself - which outper-forms general-purpose models in handling Hong Kong-specific culturally sensitive queries, and embodies a "governance-embedded" approach to digital sovereignty - empowers Hong Kong to exercise control over AI applications in critical sectors including public services, legal systems, and edu-cation. 2) The development of the proprietary Adversarial HK Value Benchmark, a rigorous tool for evaluating model alignment with local ethical and legal stand-ards under challenging conditions. By documenting these achievements, the paper provides not only a technological artifact but also a replicable blueprint for developing advanced, regionally focused AI systems deeply rooted in their local identities.
- Abstract(参考訳): 本稿では,香港に特化された価値整合型AI基盤を構築する取り組みの一環として,基礎的な主権大言語モデル(LLM)であるHKGAI-V1の開発について述べる。
地域の独特な多言語環境(カントーニー語、マンダリン語、英語)、一国、二制度」の枠組みの下での独自の社会法的文脈、および特定の地域文化的・価値的考察に対処し、このモデルはDeepSeekアーキテクチャに基づいて構築され、多面的な完全なパラメータの微調整プロセスを通じて地域規範と体系的に整合している。
さらに、検索強化世代(RAG)システムと統合され、タイムリーかつ現実的な情報アクセスが保証される。
その中核となる貢献は、総合的で地域固有のAIアライメントと安全性のフレームワークの設計と実装にある。
1)HKGAI-V1自体の開発が成功し、香港固有の文化に敏感なクエリを扱う汎用モデルよりも優れており、デジタル主権に対する「政府に埋め込まれた」アプローチを具現化している。
2) 地域倫理的・法的立場との整合性を評価するための厳格なツールである独自のHK値ベンチマークの開発。
これらの成果を文書化することにより、この論文は、技術的成果物だけでなく、その局所的なアイデンティティに深く根ざした、先進的で地域にフォーカスしたAIシステムを開発するための、レプリカブルな青写真も提供する。
関連論文リスト
- Trustworthiness of Legal Considerations for the Use of LLMs in Education [0.0]
本稿では、主要なグローバルリージョンにおけるAI関連規制および倫理的枠組みの比較分析を行う。
透明性、公正性、説明責任、データプライバシ、人間の監視といった中核的な信頼性原則が、地域法やAIガバナンス構造にどのように埋め込まれているのかをマップします。
この論文は、教育における法的に健全で倫理的基盤があり、文化的に敏感なAIシステムを構築するための実践的なガイダンスに貢献する。
論文 参考訳(メタデータ) (2025-08-05T07:44:33Z) - PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。
25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文 参考訳(メタデータ) (2025-07-16T06:14:33Z) - Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation [16.217818305338945]
Referring Expression Generation (REG)は、視覚言語システムの実用的能力を評価するための中核的なタスクである。
視覚言語モデル(VLM)の現在の評価は、しばしば実用的次元を見落としている。
本稿では,1.5k画像の新しいデータセット(RefOI)について述べる。
論文 参考訳(メタデータ) (2025-04-22T17:37:16Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act [40.233017376716305]
EUの人工知能法(AI Act)は、AI開発の責任を負うための重要なステップである。
明確な技術的解釈がなく、モデルのコンプライアンスを評価するのが難しい。
この研究は、この法律の最初の技術的解釈からなる包括的枠組みであるComple-AIを提示する。
論文 参考訳(メタデータ) (2024-10-10T14:23:51Z) - KRAG Framework for Enhancing LLMs in the Legal Domain [0.48451657575793666]
本稿ではKRAG(Knowledge Representation Augmented Generation)を紹介する。
KRAGは、ドメイン固有のアプリケーションにおけるLarge Language Models(LLM)の機能を強化するために設計されたフレームワークである。
KRAGに基づく実装モデルであるSoft PROLEGを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:48:06Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。