論文の概要: HyperCLOVA X 32B Think
- arxiv url: http://arxiv.org/abs/2601.03286v1
- Date: Sat, 03 Jan 2026 06:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.02857
- Title: HyperCLOVA X 32B Think
- Title(参考訳): HyperCLOVA X 32B 思考
- Authors: NAVER Cloud HyperCLOVA X Team,
- Abstract要約: HyperCLOVA X 32B Thinkは、韓国の言語と文化の文脈における推論に特に重点を置いて設計されたヴィジュアル言語モデルである。
HyperCLOVA X 32Bをオープンソースにすることで、幅広い採用を支援し、学術と工業の両方のコミュニティにおけるさらなる研究とイノベーションを促進することを目指しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present HyperCLOVA X 32B Think, a vision-language model designed with particular emphasis on reasoning within the Korean linguistic and cultural context, as well as agentic ability. HyperCLOVA X 32B Think is pre-trained with a strong focus on reasoning capabilities and subsequently post-trained to support multimodal understanding, enhanced reasoning, agentic behaviors, and alignment with human preferences. Experimental evaluations against comparably sized models demonstrate that our model achieves strong performance on Korean text-to-text and vision-to-text benchmarks, as well as on agent-oriented evaluation tasks. By open-sourcing HyperCLOVA X 32B Think, we aim to support broader adoption and facilitate further research and innovation across both academic and industrial communities.
- Abstract(参考訳): 本稿では,韓国の言語・文化の文脈における推論とエージェント能力に着目した視覚言語モデルであるHyperCLOVA X 32B Thinkを紹介する。
HyperCLOVA X 32B 思考は、推論能力に強く焦点を絞って事前訓練され、その後、マルチモーダル理解、強化された推論、エージェント的行動、人間の嗜好との整合をサポートするために後訓練される。
比較可能なサイズモデルに対する実験的評価は,韓国語テキスト・テキスト・テキスト・ベンチマークやエージェント指向評価タスクにおいて,本モデルが強い性能を発揮することを示す。
HyperCLOVA X 32Bをオープンソースにすることで、幅広い採用を支援し、学術と工業の両方のコミュニティにおけるさらなる研究とイノベーションを促進することを目指しています。
関連論文リスト
- K-EXAONE Technical Report [76.23621600385238]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。
256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。
我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文 参考訳(メタデータ) (2026-01-05T02:30:59Z) - A Survey on Large Language Model Benchmarks [45.042853171973086]
一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。
ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。
ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
論文 参考訳(メタデータ) (2025-08-21T08:43:35Z) - HyperCLOVA X THINK Technical Report [0.0]
HyperCLOVA X THINKはHyperCLOVA Xファミリの最初の推論中心の大規模言語モデルである。
韓国の約6兆ドル(約660兆円)の高品質な韓国のトークンと、ターゲットとする韓国の合成データで強化された英語のトークンを事前訓練した。
韓国のベンチマークでも同様の大きさのモデルに対して、競争力のあるパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-27T17:23:12Z) - AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale [16.441081996257576]
AM-Thinking-v1は32Bの高密度言語モデルであり、推論のフロンティアを前進させる。
DeepSeek-R1と、Qwen3-235B-A22BやSeed1.5-Thinkingのような主要なMixture-of-Experts (MoE)モデルに対抗して、AM-Thinking-v1は、AIME 2024で85.3、AIME 2025で74.4、LiveCodeBenchで70.3を達成している。
論文 参考訳(メタデータ) (2025-05-13T07:41:15Z) - Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information [41.360433189390804]
本稿では,これらの制限下で考案された韓国の化学毒性情報エージェントであるTox-chatについて述べる。
本稿では,階層的な部分探索によるトークン消費を低減する文脈効率アーキテクチャと,シナリオベースの対話生成手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:34:15Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - DiaASQ : A Benchmark of Conversational Aspect-based Sentiment Quadruple
Analysis [84.80347062834517]
本稿では,対話における目標視差感の4倍を検出することを目的としたDiaASQを紹介する。
中国語と英語の両方で大規模なDiaASQデータセットを手作業で構築する。
我々は、タスクをベンチマークするニューラルネットワークを開発し、エンドツーエンドの4倍の予測を効果的に実行する。
論文 参考訳(メタデータ) (2022-11-10T17:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。