Evaluating Cultural and Social Awareness of LLM Web Agents [113.5] CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:03:49 GMT)
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.4] Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:32:21 GMT)
Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds [107.6] 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。
本研究では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマーで合理的な行動をとる,共同予測エージェントモデルEgoAgentを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:28:57 GMT)
MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.2] MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:23:34 GMT)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.1] 本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:35:18 GMT)
Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.9] 本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:54:11 GMT)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.8] GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:37:46 GMT)
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [75.0] 私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:22:26 GMT)
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.2] Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンのオープンソースレプリケーションを生成する。
我々は、大規模なデータに基づいて事前訓練されたトークンーザを提供し、ゼロショットベンチマークでコスモスを著しく上回っている。
我々は3億から1.5Bまでの自己回帰画像生成モデル群を作成した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:59:19 GMT)
UniDB: A Unified Diffusion Bridge Framework via Stochastic Optimal Control [73.7] 最適制御(SOC)に基づく拡散ブリッジ統合フレームワークUniDBを提案する。
UniDBは、SOCベースの最適化を通じて問題を定式化し、最適制御器のための閉形式解を導出する。
Doobの$h$-transformを使った既存の拡散ブリッジが、我々のフレームワークの特別なケースであることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:43:57 GMT)
Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery [70.8] 異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
オープンセットオブジェクト検出とシンボリック回帰を統合した学習自由フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:30:54 GMT)
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3] CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。
エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。
CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:03:56 GMT)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.3] 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:56:16 GMT)
Arabic Dataset for LLM Safeguard Evaluation [63.0] 本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:11:59 GMT)
On Reference (In-)Determinacy in Natural Language Inference [62.9] 我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。
NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:58:13 GMT)
GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.6] Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:11:30 GMT)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.0] 本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:38:18 GMT)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.6] 集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:03:08 GMT)
Aerial Reliable Collaborative Communications for Terrestrial Mobile Users via Evolutionary Multi-Objective Deep Reinforcement Learning [59.7] 無人航空機(UAV)は、地上通信を改善するための航空基地局(BS)として登場した。
この作業では、UAV対応仮想アンテナアレイによる協調ビームフォーミングを使用して、UAVから地上モバイルユーザへの伝送性能を向上させる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:15:47 GMT)
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.2] 本稿では,テキスト・ツー・イメージ(T2I)モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:55:21 GMT)
CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.9] textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:33:20 GMT)
Self-Generated Critiques Boost Reward Modeling for Language Models [57.6] Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:53:38 GMT)
A Distributional Perspective on Word Learning in Neural Language Models [57.4] 言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:15:59 GMT)
What Is Missing in Multilingual Visual Reasoning and How to Fix It [57.4] 視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
LLaVA-v1.5-13Bは13.4%、LLaVA-v1.6-34Bは20.3%、Qwen-VLは16.7%向上した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:41:33 GMT)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.3] 大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:26:15 GMT)
Certifiably Robust Policies for Uncertain Parametric Environments [57.2] 本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:53:52 GMT)
PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.2] 本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:31:30 GMT)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [57.0] CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:47:41 GMT)
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [56.8] 本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:12:25 GMT)
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.1] ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:15:44 GMT)
Explicit Solution Equation for Every Combinatorial Problem via Tensor Networks: MeLoCoToN [55.2] 計算問題はすべて、解を返却する厳密な明示的な方程式を持つことを示す。
本稿では, インバージョン, 制約満足度, 最適化の両面から, 正確に任意の問題を解く方程式を得る方法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:16:53 GMT)
SPAFormer: Sequential 3D Part Assembly with Transformers [53.0] SPAFormerは3Dパートアセンブリ(3D-PA)タスクにおける逐次的な爆発的課題を克服するために設計された革新的なモデルである。
部品の数が増えると、組立の組み合わせは指数関数的に増加し、3D-PAの有効性を著しく阻害する爆発を引き起こす。
部分列は、単語によって構成された文に似た構成規則を伝達するため、並列およびオートレ生成の両方を探索する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:56:08 GMT)
Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.9] 有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:05:43 GMT)
Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies [51.0] 本稿では、エンドツーエンドポリシー学習のためのニューラルDNF-MTと呼ばれるニューラルシンボリックアプローチを提案する。
ニューラルDNF-MTモデルの微分可能な性質は、訓練にディープアクター批判アルゴリズムを使用することを可能にする。
決定論的ポリシーの2値表現をどのように編集し、ニューラルモデルに組み込むかを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:25:10 GMT)
Enabling Autoregressive Models to Fill In Masked Tokens [51.0] MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:02:05 GMT)
I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining [50.9] 低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。
低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:30:19 GMT)
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [50.0] 我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。
我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。
我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:14:45 GMT)
Less is More: One-shot Subgraph Reasoning on Large-scale Knowledge Graphs [49.5] 効率的かつ適応的な予測を実現するために,ワンショットサブグラフリンク予測を提案する。
設計原理は、KG全体に直接作用する代わりに、予測手順を2つのステップに分離する。
5つの大規模ベンチマークにおいて,効率の向上と性能の向上を実現している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:52:59 GMT)
A QUBO Formulation for the Generalized Takuzu/LinkedIn Tango Game [49.2] 本稿では,最新のLinkedInゲームであるTangoに対するTakuzuゲーム(Binaor Binairo)のQUBO定式化と,その一般化について述べる。
問題を解くのに必要な変数の数を最適化し、少ないリソースで量子デバイスで解くのに適したものにする。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:58:33 GMT)
Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Visual-Language-Action Learning [48.5] 連続的な動作シーケンスをモデル化するために,拡散変圧器ポリシーと呼ばれる大規模な多モード拡散変圧器を提案する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:20:30 GMT)
Satellite Observations Guided Diffusion Model for Accurate Meteorological States at Arbitrary Resolution [48.3] 衛星観測(GridSat)を条件として,ERA5再解析データに基づいて事前学習した条件拡散モデルを提案する。
トレーニングの過程で,GridSat衛星観測から得られた情報を注意機構を介してERA5マップに融合することを提案する。
サンプリングでは、最適化可能な畳み込みカーネルを用いて、スケールアッププロセスをシミュレートした。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:05:33 GMT)
VideoAgent: Self-Improving Video Generation [47.6] ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
ビデオ生成を制御に活用する上での大きなボトルネックは、生成されたビデオの品質にある。
本稿では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:57:42 GMT)
Diffusion Models for Inverse Problems in the Exponential Family [45.6] 指数族からの分布を観測する逆問題に対処するために拡散モデルを拡張する。
提案手法は,確率スコアの抽出可能な近似法であるエビデンストリックを導入する。
我々は、サハラ以南のアフリカにおけるマラリアの流行予測において、現在の最先端技術と競争力を発揮することを示すことによって、我々の方法論の現実的な影響を実証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:56:57 GMT)
Progressive Correspondence Regenerator for Robust 3D Registration [45.4] レギュアはプログレッシブ対応再生器であり、多くの異常値に対して高品質なマッチを生成する。
我々は、グローバルな観点から正確な対応を得るために、グローバルな対応強化を採用している。
提案手法は,外乱除去法よりも10倍の精度で対応できる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:30:56 GMT)
Semantic Role Labeling: A Systematical Survey [43.5] セマンティック・ロール・ラベリング(Semantic Role labeling, SRL)は、テキスト中のセマンティック・ロールを理解することを目的とした自然言語処理(NLP)タスクである。
現在、この分野を徹底的に整理し、合成する総合的な調査が欠落している。
本稿では,過去20年間のSRL研究の軌跡を概観する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:45:49 GMT)
Mitigating Biases of Large Language Models in Stance Detection with Counterfactual Augmented Calibration [43.0] 大規模言語モデル (LLM) は、スタンス検出を含む様々な自然言語処理タスクにおいて顕著な進歩を示している。
姿勢検出におけるそれらの性能は、データ駆動性に起因するバイアスと刺激的な相関によって制限される。
本稿では,LCMの姿勢予測における潜在的なバイアスをキャリブレーションする新たなキャリブレーションネットワークであるFACTUALを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:34:33 GMT)
WatchGuardian: Enabling User-Defined Personalized Just-in-Time Intervention on Smartwatch [41.7] スマートウォッチベースのJITIシステムであるWatchGuardianについて述べる。
我々は、公的な手振りデータセット上で、事前訓練された慣性測定ユニット(IMU)モデルを微調整した数ショットの学習パイプラインを開発した。
その結果,我々のシステムは望ましくない行動で64.0+-22.6%の大幅な減少を招いた。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:58:31 GMT)
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.2] 低ランク量子化(LRQ)は、低ランクウェイトスケーリング行列を利用して中間トランスフォーマーブロックの出力を再構成する。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来のLLM PTQよりも, (i) 8ビットの重みとアクティベーションの量子化, (ii) 4ビットの重みと8ビットのアクティベーションの量子化, (iii) 低ビットの重みのみの量子化スキームにおいて, LRQの優位性を示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:15:11 GMT)
Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline [39.5] 混合専門家(MoE)は、計算コストを大幅に増加させることなく、数兆のパラメータまで言語モデルのスケーリングを可能にする。
オフロード技術は、メモリをCPUとディスクから利用し、I/Oと計算を並列化する。
Klotskiは、新しいエキスパート対応マルチバッチパイプラインパラダイムを通じて、パイプラインバブルを著しく低減する効率的なMoE推論エンジンである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:47:06 GMT)
MOS: Model Synergy for Test-Time Adaptation on LiDAR-Based 3D Object Detection [38.6] 3次元検出器のための新しいオンラインテスト時間適応フレームワークを提案する。
これまでのテストバッチから長期的知識を活用することで、我々のアプローチは破滅的な忘れを軽減し、多様なシフトに効果的に適応します。
提案手法は,3つのデータセットと8種類の汚職に対して,既存のテスト時間適応戦略に対して厳格に検証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:54:30 GMT)
Fast Omni-Directional Image Super-Resolution: Adapting the Implicit Image Function with Pixel and Semantic-Wise Spherical Geometric Priors [38.6] 本稿では,高速かつ任意スケールのODI-SRプロセスを実行する能力を特徴とする新しいODI-SRモデルを提案する。
提案したFAORは、より高速な推論速度で最先端のODI-SRモデルより優れている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:37:50 GMT)
Assessing confidence in frontier AI safety cases [37.8] 安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:35:11 GMT)
Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection [37.7] 対象領域のデータに対する教師なし予測を行うために、事前訓練されたモデルを微調整することは、2つの課題を示す。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:44:27 GMT)
Orbit: A Framework for Designing and Evaluating Multi-objective Rankers [36.2] Orbitは、Objective-centric Ranker Building and Iterationの概念的なフレームワークである。
我々はOrbitを対話型システムとして実装し、利害関係者が直接対象空間と対話できるようにする。
われわれはOrbitを12名の業界実践者によるユーザスタディを通じて評価した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:37:50 GMT)
Propagation of Chaos for Mean-Field Langevin Dynamics and its Application to Model Ensemble [36.2] 平均場ランゲヴィンダイナミクス (Mean-field Langevin dynamics, MFLD) は、2層ニューラルネットワークにおける雑音勾配勾配の平均場限界を導出した最適化手法である。
最近の研究は、有限粒子による近似誤差が時間的に均一であり、粒子数が増加するにつれて減少することを示している。
本稿では, 粒子近似項から正則化係数への指数的依存を除去する改良されたMFLDのPoC結果を確立する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:58:46 GMT)
Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.9] マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:42:37 GMT)
In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.5] 高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。
また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:40:52 GMT)
AdapterSwap: Continuous Training of LLMs with Data Removal and Access-Control Guarantees [33.4] 大規模言語モデル(LLM)は、静的事前学習コーパスからの情報をリコールすることで、知識集約的なタスクを完了させる能力がますます高まっている。
本稿では,データ収集からの知識を低ランクなアダプタの集合に整理するトレーニングおよび推論スキームであるAdapterSwapを紹介する。
実験では、AdapterSwapが効率的な継続的学習をサポートすると同時に、データアクセスと削除をきめ細かな制御が可能であることを実証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:25:40 GMT)
Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails [32.6] MultiFaceted Attackは、視覚大言語モデルにおける多層防御をバイパスするために設計されたアタックフレームワークである。
VLLMのマルチモーダルな性質を利用して、画像を通して有害なシステムプロンプトを注入する。
攻撃率は61.56%で、最先端の手法を少なくとも42.18%上回っている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:21:27 GMT)
Explaining Context Length Scaling and Bounds for Language Models [32.6] 本稿では,文脈長が言語モデリングに与える影響を説明する理論的枠組みを提案する。
我々は、自然言語と合成データの実験を行い、提案した理論的仮定と推論を検証する。
我々のフレームワークは、トレーニングデータセットのサイズが最適なコンテキスト長を規定し、特定のケースに対してコンテキスト長のスケーリングを境界とするなど、実践的な洞察を提供することができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:51:56 GMT)
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.6] 大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:13:51 GMT)
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.2] 自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。
我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:44:45 GMT)
Invariant Correlation of Representation with Label: Enhancing Domain Generalization in Noisy Environments [30.8] 不変リスク最小化(IRM)は、複数の環境において不変な特徴表現をトレーニングすることで、ドメインの一般化の課題に対処することを目的としている。
ICorr(不変相関の略)は、ノイズの多い設定で上記の課題を克服するために設計された新しいアプローチである。
我々は、様々なノイズデータセット上で、他の領域一般化手法と比較することにより、ICorrの有効性を実証的に実証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:58:06 GMT)
Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue [30.1] Answer Distribution Estimator(TSADE)を用いた樹木構造戦略
本稿では,現在の候補オブジェクトの半数を各ラウンドで除外することで,質問生成をガイドする木構造戦略(TSADE)を提案する。
提案手法は,従来のエルゴディックな質問生成手法と比較して,繰り返し質問やラウンドの少ないタスク指向の精度をエージェントが達成できることを実験的に実証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:16:09 GMT)
Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education [30.1] AIに精通した授業では、さまざまなクエリスタイルを活用して、抽象的なテキスト記述を解釈することが、高品質な教育の確保に不可欠である。
本稿では,複数のクエリスタイルと表現に基づく検索を支援する,教育シナリオに適した多様な表現検索タスクを提案する。
本稿では,異なるスタイルの24,000以上のクエリペアを含むSTEM Education Retrievalデータセットと,プロンプトチューニングに基づく効率的かつ多様な検索ビジョン言語モデルであるUni-Retrievalを紹介する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:46:05 GMT)
PINGS: Gaussian Splatting Meets Distance Fields within a Point-Based Implicit Neural Map [30.1] 本稿では,連続符号付き距離場とガウススプラッティング放射場を弾性的かつコンパクトな点ベース暗黙的ニューラルマップ内に統一する新しい写像表現を提案する。
我々は,提案した地図表現を用いて,PINGSと呼ばれるLiDAR-visual SLAMシステムを考案し,いくつかの挑戦的な大規模データセット上で評価する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:06:19 GMT)
Retrieval-augmented Large Language Models for Financial Time Series Forecasting [29.8] 金融時系列予測のための第1次検索拡張世代(RAG)フレームワークを提案する。
我々のフレームワークは、バックボーンとして1Bパラメータの大言語モデル(StockLLM)を微調整する。
また、金融指標と歴史的株価を統合してFinSeerを訓練する新たなデータセットを構築した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:26:05 GMT)
Learning Accurate, Efficient, and Interpretable MLPs on Multiplex Graphs via Node-wise Multi-View Ensemble Distillation [29.7] 多重グラフニューラルネットワーク(MGNN)は、様々な下流タスクにおいて高度なパフォーマンスを実現している。
我々は、MGNNの優れた性能とニューラルネットワークの効率的な推論を組み合わせるために、多重グラフ自由グラフニューラルネットワーク(MGFNN)とMGFNN+を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:55:14 GMT)
Verifying Proportionality in Temporal Voting [29.7] 本研究では,時間的地平線が一定である時間的投票モデルについて検討し,各投票ラウンドにおいて,候補者に対する選好を報告する。
与えられた結果が比例表現を提供するかどうかを検証する複雑さに焦点を当てる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:30:34 GMT)
Filter, Obstruct and Dilute: Defending Against Backdoor Attacks on Semi-Supervised Learning [29.7] 近年の研究では、半教師付き学習(SSL)がバックドア攻撃に影響を及ぼすデータに対して脆弱であることが確認されている。
この作業はSSLをこのようなリスクから保護することを目的としており、この領域で知られている数少ない取り組みの1つとしてマークされている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:22:15 GMT)
Media Bias Detector: Designing and Implementing a Tool for Real-Time Selection and Framing Bias Analysis in News Coverage [29.4] 私たちは、研究者、ジャーナリスト、ニュース消費者のためのツールであるMedia Bias Detectorを紹介します。
大規模な言語モデルを統合することで、出版者レベルに集約されたニュース記事の話題、トーン、政治的傾向、事実について、ほぼリアルタイムに詳細な洞察を提供する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:54:31 GMT)
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding [28.6] MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。
TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。
我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:26:30 GMT)
TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation [28.6] コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。
そこで我々は,大規模なデータセットで訓練されたデータセットに匹敵する性能をモデルが達成できるような,小さいが情報に富むデータセットを合成するために,データセット凝縮を提案する。
データセットのサイズを95%削減しながら、元のパフォーマンスの97%を近似することができます(すなわち、データセットMIND上で)。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:44:58 GMT)
The Curse of Depth in Large Language Models [28.4] 本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:03:36 GMT)
Generative Adversarial Networks Bridging Art and Machine Intelligence [27.5] Generative Adversarial Networks (GAN) はコンピュータビジョンと人工知能の発展に影響を与えている。
本書は、ガンの基本原理と歴史的発展の詳細な紹介から始まる。
Conditional GANs、DCGANs、InfoGAN、LAPGANなどの古典的な変種を、高度なトレーニング方法論に進む前にレビューする。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:16:07 GMT)
LLaSA: Large Language and Structured Data Assistant [27.5] グラフニュートラルネットワーク (GNN) は、Large Language Models (LLM) の入力に付加的なモダリティとして導入された。
構造化データの処理能力を高めるために, textbfLarge textbfLanguage と textbfStructured Data textbfAssistant (LLaSA) を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:13:10 GMT)
ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification [27.0] ARISEは、規則を反復的に導き、テキスト分類のための合成データを生成するフレームワークである。
我々は、構文的n-グラムの帰納的一般化により規則を誘導し、補完的な監督源を捉えることができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:39:01 GMT)
Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search [27.0] 産業システムでは、低品質のビデオ特性は4つのカテゴリに分類される。
これらの低品質のビデオは、主に学術研究で見過ごされてきた。
本稿では,産業用ビデオ検索システムに適したMulti-Branch Collaborative Network(MBCN)を紹介する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:57:25 GMT)
Decision Making in Hybrid Environments: A Model Aggregation Approach [27.0] オンライン意思決定問題に対する決定推定係数(DEC)の枠組みを拡張した。
我々のフレームワークはフレキシブルなアルゴリズム設計につながり、学習者は仮説セットのサブセットについて学習する。
本研究は,ハイブリッドシステムにおけるモデルベース学習とモデルフリー学習を対象としている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:59:42 GMT)
Norm Augmented Graph AutoEncoders for Link Prediction [26.2] リンク予測はグラフ構造化データにおいて重要な問題である。
本研究では,GAEが学習したノード埋め込みのノルムが,次数の異なるノード間で変動を示すことを示す。
より大きなノルムの埋め込みは、正のリンクに対する高いスコア、負のリンクに対する低いスコアを予測するためにデコーダを導く傾向があることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:08:02 GMT)
Lipschitz-Driven Inference: Bias-corrected Confidence Intervals for Spatial Linear Models [26.1] 空間線形モデルにおける信頼区間を構成する既存の手法は、未計算の偏りにより、正しいカバレッジを提供できないことを示す。
本稿では,推定手順のバイアスを考慮した新しい信頼区間構成を提案する。
提案手法は,理論と実験の両面から名目カバレッジを実現することを実証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:20:03 GMT)
GOLD: Graph Out-of-Distribution Detection via Implicit Adversarial Latent Generation [26.1] アウト・オブ・ディストリビューション(OOD)テストインスタンスは、グラフニューラルネットワーク(GNN)にとって依然として大きな課題である。
本稿では,OOD検出のためのGOLDフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:19:53 GMT)
A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.9] 機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。
本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:59:44 GMT)
Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [25.7] この研究は、拡散モデルが高品質な表現を自己指導的に学習する上で優れている理由と時期に関する問題に対処する。
我々は低次元データモデルと後続推定に基づく数学的枠組みを開発し、画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。
これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:58:28 GMT)
Mask-based Membership Inference Attacks for Retrieval-Augmented Generation [25.5] Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための効果的なアプローチである。
近年,LLMトレーニングに使用せず,RAGナレッジデータベースに最新のデータや著作権データを格納する傾向にある。
このプラクティスは、特定のターゲットドキュメントがRAGシステムのナレッジデータベースに格納されているかどうかを検出することを目的とした、メンバーシップ推論攻撃(MIAs)に対する懸念を提起している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:58:23 GMT)
Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles [24.4] Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:41:24 GMT)
MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents [24.0] MTPChatは、対話とペルソナメモリに言語的、視覚的、時間的要素を統合する、タイムアウェアなペルソナ対話データセットである。
時間的次反応予測(TNRP)と時間的接地記憶予測(TGMP)の2つのタスクを提案する。
本稿では,マルチモーダルストリームを効果的に統合し,時間依存を捕捉する適応時間モジュールを特徴とする革新的なフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:00:53 GMT)
Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering [24.0] 大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
LLMは、中間層における知識衝突のシグナルを内部的に登録することができる。
我々は,事前訓練されたスパースオートエンコーダを用いた表現工学手法であるtextscSpAREを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:59:11 GMT)
Analysing the Residual Stream of Language Models Under Knowledge Conflicts [24.0] 大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。
これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:47:52 GMT)
RECOVER: Designing a Large Language Model-based Remote Patient Monitoring System for Postoperative Gastrointestinal Cancer Care [23.7] 大きな言語モデル(LLM)は、臨床統合を通じて遠隔患者の監視システムに役立つ。
本稿では,大規模言語モデル(LLM)の最近の進歩が遠隔患者モニタリング(RPM)システムにどのような効果をもたらすかを検討する。
LLMを用いた術後GI癌治療用RPMシステムであるRECOVERを開発した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:51:25 GMT)
Analyzing and Mitigating Model Collapse in Rectified Flow Models [23.6] 近年の研究では、自己生成サンプルの繰り返しトレーニングがモデル崩壊につながることが示されている。
拡散流モデルにおけるMCに対処するための理論的解析と実用的な解を提供する。
本稿では,Real-data Augmented Reflowと一連の改良型を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:02:55 GMT)
Towards Defining an Efficient and Expandable File Format for AI-Generated Contents [23.2] 我々は,AIGC画像の超低符号化を可能にするAIGIFという,AIGC画像の新しいファイルフォーマットを提案する。
以上の3つの要素を組み込んだよく設計された構成可能なビットストリーム構造が,最大1/10,000の圧縮比を達成できることを実験的に確認した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:35:45 GMT)
3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly [22.2] 3CADと呼ばれる大規模異常検出データセットを提案する。
3CADには8種類の製造部品があり、合計27,039個の高解像度画像にピクセルレベルの異常をラベル付けしている。
これは、3C製品の品質管理に特化した、最大かつ最初の異常検出データセットである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:37:54 GMT)
D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching [22.1] 本稿では,SFXマッチングを同時に行うために,キーモーメント検出とモーメントを同時に行う統一手法を提案する。
新しいVDSFXタスクのために、Eコマースプラットフォームから大規模なデータセットSFX-Momentを構築します。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:46:03 GMT)
SphereFusion: Efficient Panorama Depth Estimation via Gated Fusion [22.0] 提案するSphereFusionは,様々なプロジェクション手法の強みを組み合わせたエンドツーエンドフレームワークである。
具体的には、SphereFusionは2次元画像畳み込みとメッシュ演算を使用して、同形および球面投影領域のパノラマ画像から2種類の特徴を抽出する。
SphereFusionは,512$times$1024パノラマ画像上で17msで高速な推論速度を示しながら,他の最先端手法と競合する結果が得られることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:36:45 GMT)
Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks [21.9] textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:03:59 GMT)
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension [21.6] 4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。
3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。
本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:17:34 GMT)
MADAR: Efficient Continual Learning for Malware Analysis with Diversity-Aware Replay [21.5] 継続的な学習は、収集されたすべてのデータを定期的に再トレーニングするストレージと計算コストを削減する可能性を秘めている。
我々は,マルウェアデータ配信のユニークな特性と課題を考慮に入れたCLフレームワークであるMADARを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:37:48 GMT)
Dynamic Pricing in the Linear Valuation Model using Shape Constraints [21.3] 線形評価モデルにおける検閲データに対する動的価格設定に対する形状制約付きアプローチを提案する。
本手法は, 文献における既往の方法と比較して, 経験的後悔の度合いが向上する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:58:33 GMT)
ADBM: Adversarial diffusion bridge model for reliable adversarial purification [21.3] 近年,拡散型浄化法(DiffPure)は,敵の事例に対する効果的な防御法として認識されている。
DiffPureは, 元の事前学習拡散モデルを用いて, 逆流浄化を最適に行う。
本稿では,ADBMと呼ばれる新しいAdrialversa Diffusion Bridge Modelを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:01:37 GMT)
DiTASK: Multi-Task Fine-Tuning with Diffeomorphic Transformations [21.1] 複数のタスクに事前学習した視覚変換器を効率的に適応するための新しいアプローチであるDiTASKを紹介する。
我々の理論解析は,DiTASKが事前学習した特徴の幾何学的構造を保ち,最適化中に全ランク更新を行うことを示す。
PASCAL MTLとNYUDを用いた実験により,DiTASKは従来の手法よりも75%少ないパラメータを用いて,4つの高密度予測タスクにおける最先端性能を実現することが示された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:05:11 GMT)
Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.8] RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:16:15 GMT)
Linear Attention Modeling for Learned Image Compression [20.7] 学習画像圧縮のための線形アテンションモデルであるLALICを提案する。
具体的には、Spatial MixおよびChannel Mixモジュールを利用したBi-RWKVブロックを提案する。
また、RWKV-SCCTXモデル(RWKV-SCCTX)を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:57:17 GMT)
Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs [20.6] V:N:Mスパシティは2:4スパシティの制限に対処する上で有望である。
V:N:Mのスパーシリティに関連する特定の問題、例えば適切なVとMの値をどうやって選択するかは未解決のままである。
本稿では,V:N:Mスパース変換器の適用性と精度を高めるための3つの重要な手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:48:41 GMT)
HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition [20.5] 骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:08:03 GMT)
Efficient Adaptive Experimental Design for Average Treatment Effect Estimation [20.4] 適応実験を用いて平均治療効果(ATE)を効率的に推定する方法を検討する。
適応実験において、実験者は過去のデータに基づいて治療確率を更新しながら、順次実験単位に治療を割り当てる。
提案した設計の任意のラウンドで有効である非パラメトリックおよび非漸近信頼区間を開発する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:46:57 GMT)
Evaluating LLM Reasoning in the Operations Research Domain with ORQA [19.7] 我々は,大規模言語モデル(LLM)の一般化能力を評価するために設計された新しいベンチマークであるOperations Research Question Answering(ORQA)を導入し,適用する。
このデータセットは、数学モデルを構築するために多段階推論を必要とする実世界の最適化問題を特徴としている。
LLaMA 3.1、DeepSeek、MixtralなどのオープンソースLLMの評価では、その質素な性能が明らかにされ、専門技術ドメインへの一般化能力のギャップが浮かび上がっている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:39:50 GMT)
Digital Twin Buildings: 3D Modeling, GIS Integration, and Visual Descriptions Using Gaussian Splatting, ChatGPT/Deepseek, and Google Maps Platforms [19.6] 都市デジタルツイン(Urban Digital twins)は、マルチソースデータとデータ分析を使用して都市計画、インフラ管理、意思決定を最適化する都市の仮想レプリカである。
当社のフレームワークは,ビルの3次元モデルと視覚的記述を検索し,大規模言語モデルに基づくデータ分析とクラウドベースのマッピング統合を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:06:07 GMT)
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.5] i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。
i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:47:41 GMT)
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.2] 閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:37:09 GMT)
Known Unknowns: Out-of-Distribution Property Prediction in Materials and Molecules [19.1] 高性能材料や分子の発見には、既知の分布外にある性質値を持つ極端を同定する必要がある。
我々の目標は、ゼロショットをトレーニングデータよりも高い範囲に外挿する予測モデルを訓練することである。
我々は,OOD特性予測へのトランスダクティブアプローチを用いて,予測精度の向上を実現することを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:37:36 GMT)
Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models [19.0] そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず,LLMは実世界の回帰問題を解くことができ,LLMが内部知識を取得する程度を,文脈内から学習する程度に測定する実験を設計することができることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:47:07 GMT)
Understanding the Practices, Perceptions, and (Dis)Trust of Generative AI among Instructors: A Mixed-methods Study in the U.S. Higher Education [18.9] 我々は1つの米国大学から178人のインストラクターを対象に、高等教育におけるGenAIの現在の実践、認識、信頼、不信について調査した。
我々の量的結果は、GenAIにおける信頼と不信は相互に関係しているが、高い信頼は必ずしも不信を低く含んでおらず、その逆も同様であることを示している。
質的な結果から、調査対象のインストラクターの信頼と不信のニュアンスな顕在化と、GenAIの校正的信頼を支える様々なアプローチが示された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:10:38 GMT)
Fully-inductive Node Classification on Arbitrary Graphs [18.9] 本稿では,任意のテストグラフ上でモデルが推論を行う完全帰納的設定を提案する。
この挑戦的なセットアップの最初の試みとして、GraphAnyを提案する。
実証的には、わずか120のラベル付きノードを持つ単一のウィスコンシンデータセットでトレーニングされたGraphAnyは、平均精度67.26%で30の新しいグラフに一般化できる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:14:20 GMT)
Transformers versus the EM Algorithm in Multi-class Clustering [18.8] ガウス混合モデルのマルチクラスクラスタリングにおけるトランスフォーマーの学習保証について検討する。
我々の理論は期待と最大化のステップに近似境界を与える。
我々のシミュレーションは、この理論の仮定を超えたトランスフォーマーの強い学習能力を明らかにすることによって、我々の理論を実証的に検証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:51:58 GMT)
CSEval: Towards Automated, Multi-Dimensional, and Reference-Free Counterspeech Evaluation using Auto-Calibrated LLMs [18.8] CSEvalは、4次元にわたる対音声品質を評価するための新しいデータセットとフレームワークである。
本稿では,自動校正チェーンオブ思考を用いた自動校正COT(Auto-CSEval for Counterspeech Evaluation, 自動CSEval)を提案する。
実験の結果、Auto-CSEvalは、ROUGE、METEOR、BertScoreといった従来の指標よりも、人間の判断に関連があることが判明した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:49:08 GMT)
Perception-guided Jailbreak against Text-to-Image Models [18.8] PGJと呼ばれるLPM駆動型知覚誘導ジェイルブレイク法を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:13:35 GMT)
Towards Consistent and Controllable Image Synthesis for Face Editing [18.6] RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:09:32 GMT)
Polynomial Regret Concentration of UCB for Non-Deterministic State Transitions [18.3] 本稿ではモンテカルロ木探索(MCTS)の理論的枠組みを非決定論的状態遷移に拡張する。
私たちの主な貢献は、これらの境界が非決定論的環境にも適用され、設定における堅牢なパフォーマンスが保証されることを示すことです。
これにより、自律システムや金融意思決定など、現実的な意思決定問題に対するMCTSの適用性が拡大する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:46:42 GMT)
MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems [18.2] チャート関連タスクの既存のベンチマークは、実世界のマルチチャートシナリオの複雑さを捉えるのに不足している。
直接質問応答,並列質問応答,比較推論,シーケンシャル推論の4つの重要な領域でMLLMの能力を評価するベンチマークであるMultiChartQAを紹介する。
本研究は,マルチチャート理解の課題と,この分野での進歩を促進するためのマルチチャートQAの可能性を明らかにするものである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:46:55 GMT)
Neuro-symbolic Training for Reasoning over Spatial Language [17.9] 最先端の言語モデルでさえ、テキストよりも空間的推論に苦しむ。
これは、一般化可能性に必要な適切な抽象化レベルを達成できないためである。
本稿では,空間論理規則を制約として活用するニューロシンボリックな手法を用いた学習言語モデルを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:02:16 GMT)
Evaluating Morphological Compositional Generalization in Large Language Models [17.5] 大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:08:16 GMT)
Learning to Substitute Words with Model-based Score Ranking [17.5] スマートワード置換は、単語選択を改善することによって文質を向上させることを目的としている。
現在のベンチマークは、人間のラベル付きデータに依存している。
文質の定量化にはモデルベーススコア(BARTScore)を用いる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:26:32 GMT)
Skill Expansion and Composition in Parameter Space [17.0] Parametric Skill Expansion and Composition (PSEC)はエージェントの能力を反復的に進化させるように設計された新しいフレームワークである。
PSECは、事前知識を活用して、新しい課題に効果的に取り組む能力が優れている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:22:38 GMT)
Inverse Problem Sampling in Latent Space Using Sequential Monte Carlo [17.0] 画像処理において、逆問題(英: inverse problem)とは、いくつかの(通常知られている)劣化モデルによって破損した画像のもっともらしい再構成を見つけるタスクである。
本稿では,拡散モデルの潜在空間における連続モンテカルロ(SMC)に基づく新しいサンプリング手法を提案する。
ImageNet と FFHQ の実証評価は,様々な逆問題タスクにおける競合手法に対するアプローチの利点を示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:03:47 GMT)
HyGEN: Regularizing Negative Hyperedge Generation for Accurate Hyperedge Prediction [16.7] ハイパーエッジ予測は、観測されたネットワーク構造に基づいて将来の高次関係を予測するための基本的なタスクである。
しかし、既存のハイパーエッジ予測手法は、データ空間の問題に悩まされている。
本稿では,より現実的なものを生成するためのガイダンスとして,正のハイパーエッジを用いた負のハイパーエッジジェネレータを用いた新しいハイパーエッジ予測手法HyGENを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:27:35 GMT)
Investigating Compositional Reasoning in Time Series Foundation Models [16.4] TSFMアーキテクチャ設計が構成的推論と一般化に与える影響について検討する。
私たちはパッチベースのトランスフォーマーが最高の理由付け性能を持っていることに気付きました。
いくつかのゼロショットのアウト・オブ・ディストリビューションのシナリオでは、これらのモデルは、イン・ディストリビューションデータに基づいてトレーニングされた移動平均と指数的スムーズな統計ベースラインより優れている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:21:55 GMT)
ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.9] 低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:08:04 GMT)
Dynamic Guided and Domain Applicable Safeguards for Enhanced Security in Large Language Models [15.3] 本稿では,多エージェントベースの防衛フレームワークであるG4D(Guide for Defense)について紹介する。
一般的なjailbreak攻撃と良質なデータセットに関する大規模な実験は、我々のG4Dが一般的なおよびドメイン固有のシナリオに対するLLMのロバスト性を高めることができることを示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:34:47 GMT)
Self-Training Large Language Models for Tool-Use Without Demonstrations [15.2] 大規模言語モデル (LLMs) は、実際の不正確さや計算ミスに悩まされがちである。
最近の研究は、これらの欠点を緩和するツールを備えたLCMを強化しているが、しばしば金の工具使用デモを必要とする。
本稿では,LLMが実演なしでツールの活用を学べるかどうかを検討する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:06:10 GMT)
MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation [15.0] MMGDreamerは、Mixed-Modality Graphを組み込んだシーン生成のための二重ブランチ拡散モデルである。
ビジュアルエンハンスメントモジュールは、テキスト埋め込みを使用して視覚表現を構築することで、テキストのみのノードの視覚的忠実度を高める。
我々の関係予測器はノード表現を利用してノード間の不連続な関係を推定し、より一貫性のあるシーンレイアウトをもたらす。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:23:40 GMT)
CORRECT: Context- and Reference-Augmented Reasoning and Prompting for Fact-Checking [14.9] 本稿では,コンテキストと参照を付加した推論とプロンプティングという新しい手法を提案する。
証拠推論のために、証拠層、文脈層、参照層を持つ3層エビデンスグラフを構築した。
検証予測のために,各クレームに対して独自のプロンプト埋め込みを生成するエビデンス条件のプロンプトエンコーダを設計する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:41:15 GMT)
MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs [14.8] MERGE$3$は、単一のGPU上での進化的マージを可能にする効率的なフレームワークである。
MerGE$3$は、評価のためのデータセットの削減、アイテム応答理論(IRT)を用いたモデル能力の推定、IRTベースのパフォーマンス推定器による最適なマージの進化によってこれを達成します。
提案手法は,言語間の知識を変換し,計算オーバーヘッドを大幅に低減した,最先端の多言語・多言語統合を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:24:16 GMT)
Decentralized Low-Rank Fine-Tuning of Large Language Models [14.8] 低ランク適応(LoRA)に基づく大規模言語モデル(LLM)の分散微調整アルゴリズムであるDec-LoRAを提案する。
Dec-LoRAは、データ不均一性や量子化制約を含む様々な条件において、集中型LoRAに匹敵する性能を維持していることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:22:42 GMT)
Neural Genetic Search in Discrete Spaces [14.7] 我々は新しいテスト時間探索法であるニューラル・ジェネティック・サーチ(NGS)を導入する。
NGSは、遺伝的アルゴリズムの進化のメカニズムを深層モデルの生成手順に組み込んでいる。
このアプローチは、深層生成モデルのための汎用的で実装が容易な探索アルゴリズムを提供する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:26:49 GMT)
Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.3] 本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:45:15 GMT)
Theoretical Analyses of Multiobjective Evolutionary Algorithms on Multimodal Objectives [14.3] OJZJ問題(OJZJ problem)は、古典的なジャンプ関数のベンチマークに同型な2つの目的からなる双目的問題である。
確率1のSEMOは、実行時に関係なく、完全なParetoフロントを計算していないことを証明します。
また、より厳密な制限付き$frac 32 e nk+1 pm o(nk+1)$を示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:09:15 GMT)
How Effective are Large Language Models in Generating Software Specifications? [14.2] 大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。
ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:28:58 GMT)
Benchmarking Prompt Sensitivity in Large Language Models [14.0] 大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。
本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:01:03 GMT)
Learned Bayesian Cramér-Rao Bound for Unknown Measurement Models Using Score Neural Networks [13.9] 本稿では,事前分布と測定分布の両方を学習する完全学習型ベイズクラム・ラオ境界(LBCRB)を提案する。
そこで本研究では,そのような知識をニューラルネットワークに簡単に組み込むことのできる物理符号化スコアニューラルネットワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:19:51 GMT)
Injecting Universal Jailbreak Backdoors into LLMs in Minutes [13.7] そこで本稿では, モデル編集技術を利用して, 安全に配慮したLLMに, 数分で最小限の介入で汎用ジェイルブレイクバックドアを注入する新しいジェイルブレイクバックドアインジェクション法を提案する。
JailbreakEditは、マルチノードターゲット推定を統合して、ジェイルブレイクスペースを推定し、バックドアからこの推定ジェイルブレイクスペースへのショートカットを生成する。
我々の攻撃は、バックドアに強力なセマンティクスを付加することで、モデルの注意を効果的にシフトさせ、内部の安全メカニズムをバイパスすることを可能にする。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:03:23 GMT)
Attainability of Two-Point Testing Rates for Finite-Sample Location Estimation [13.5] LeCamの2点試験法は、分布の平均を推定する最も単純な下界を与える。
本研究では,2点検定の下限を達成できる条件について検討する。
2点検定率は対称な単調分布であってもほぼ達成不可能であることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:17:49 GMT)
A Multimodal PDE Foundation Model for Prediction and Scientific Text Descriptions [13.5] PDE基礎モデルは、ニューラルネットワークを使用して、複数の微分方程式への近似を同時に訓練する。
本稿では,変換器をベースとしたアーキテクチャを応用し,解演算子を近似した新しいマルチモーダル深層学習手法を提案する。
我々のアプローチは解釈可能な科学的テキスト記述を生成し、基礎となる力学と解の性質について深い洞察を提供する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:50:28 GMT)
Devil is in the Details: Density Guidance for Detail-Aware Generation with Flow Models [12.9] 高濃度の試料は滑らかであるが、低濃度の試料はより詳細なものである。
したがって、サンプル密度の制御は現実性と詳細性のバランスをとる上で重要である。
本実験は, 試料の品質を損なうことなく, 画像の細粒度を制御できることを実証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:18:33 GMT)
Reading between the Lines: Can LLMs Identify Cross-Cultural Communication Gaps? [12.8] 本稿では,文化に特有な項目や要素の存在による書評の理解可能性のギャップについて検討する。
Goodreadsの57冊の本レビューのユーザスタディによると、レビューの83%が、文化特有の難解な要素を少なくとも1つ持っていました。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:40:35 GMT)
Reinforced Lifelong Editing for Language Models [12.1] 大規模言語モデル(LLM)は、事前学習したコーパスから情報を取得するが、その記憶された知識は、時間とともに不正確になるか、時代遅れになる可能性がある。
モデル編集は、リトレーニングなしでモデルパラメータを変更することでこの課題に対処する。
本稿では,RLに基づく編集手法であるRLEditを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:37:06 GMT)
Meta-Cultural Competence: Climbing the Right Hill of Cultural Awareness [12.0] 我々は、それは文化的な認識や知識ではなく、AIシステムに必要なメタ文化的能力であると主張している。
メタカルチャー・コンピテンスAIシステムの原則を概説し、それらを測定・モデル化する方法について議論する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:51:59 GMT)
DRoP: Distributionally Robust Data Pruning [11.9] 我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:31:31 GMT)
Dynamic Scene Understanding from Vision-Language Representations [11.8] 本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:47:04 GMT)
Peeking Behind Closed Doors: Risks of LLM Evaluation by Private Data Curators [11.8] 汚染問題に対処する上で潜在的に有利であるにもかかわらず、私的評価は不注意な財務・評価リスクをもたらすと論じる。
主な懸念事項は、プライベートデータキュレーターと顧客とのビジネス関係から生じる利害対立である。
プライベートエキスパートアノテータの主観的嗜好が、プライベートキュレーターのデータで訓練されたモデルに対して固有の評価バイアスをもたらすことを強調する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:57:33 GMT)
Cross-Cultural Differences in Mental Health Expressions on Social Media [11.4] ソーシャルメディアにおけるメンタルヘルス表現の現在の理解は、WEIRD(Western, Educated, Industrialized, Rich, Democratic)の文脈に由来する。
インドに居住する個人によるRedditのメンタルヘルス投稿を分析し、インド特有のソーシャルメディア言語の変化を特定する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:22:37 GMT)
What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models [11.4] 言語モデル(LM)という用語は、関心のあるモデルの時間固有のコレクションとして、常に再発明されている。
本稿では,この「textitShip of Language Models$ problem」について考察する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:15:33 GMT)
CodeFlow: Program Behavior Prediction with Dynamic Dependencies Learning [11.3] CodeFlowは、コードカバレッジを予測し、実行時のエラーを検出する、新しい機械学習ベースのアプローチである。
CodeFlowは、実行可能なすべての実行パスと、異なるステートメント間の統計関係を効果的に表現します。
私たちの経験的評価は、CodeFlowがコードカバレッジ予測の精度を大幅に改善し、実行時のエラーを効果的にローカライズできることを示しています。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:50:30 GMT)
LM2: Large Memory Models [11.3] 本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。
BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:11:42 GMT)
Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.1] 微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:55:44 GMT)
RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition [11.0] マルチモーダル表現を洗練するためのRAMer (Reconstruction-based Adrial Model for Emotion Recognition)を提案する。
本稿では,RAMer が Dyadic および Multi-party MMER シナリオにおける最先端性能を実現することを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:46:35 GMT)
Contextual Active Model Selection [10.9] 本稿では,ラベル付けコストを最小限に抑えつつ,事前学習したモデルを積極的に選択する手法を提案する。
目的は、ラベル要求を制限しながら予測を行う最良のモデルを適応的に選択することである。
2つの新しいコンポーネントに依存した文脈的アクティブモデル選択アルゴリズムであるCAMSを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:19:57 GMT)
QP-SNN: Quantized and Pruned Spiking Neural Networks [10.7] スパイキングニューラルネットワーク(SNN)はスパイクを利用して情報をエンコードし、イベント駆動方式で運用する。
資源限定シナリオにおいて,高性能なSNNを効果的に展開することを目的とした,ハードウェアフレンドリで軽量なSNNを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:50:59 GMT)
VisualCoder: Guiding Large Language Models in Code Execution with Fine-grained Multimodal Chain-of-Thought Reasoning [10.7] ビジュアル制御フローグラフ (CFG) を用いたマルチモーダルチェイン・オブ・ワットスニペット (CoT) 推論を統合することで,コード推論を強化する,シンプルかつ効果的なアプローチである VisualCoder を導入する。
我々は,参照機構によるマルチモーダルCoT統合の課題に対処し,コードと実行経路の整合性を確保し,プログラム動作予測,エラー検出,出力生成の性能を向上させる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:30:00 GMT)
HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads [10.6] 本稿では,広告システムにおけるランク付けの有効性を高めるために,クエリ・ツー・ビデオの関連性マッチングの改善に焦点をあてる。
これは、トレーニング前タスクと関連タスクの整合性を高めるために、シンプルだが効果的な方法を利用している。
提案手法はクアイシュ州検索広告システムに1年以上展開され、無関係広告の割合が6.1%減少し、広告収入が1.4%増加した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:07:11 GMT)
Revisiting Gradient-based Uncertainty for Monocular Depth Estimation [10.5] 単分子深度推定モデルに対する勾配に基づく不確実性推定を導入する。
我々は,本手法が再トレーニングを伴わずに不確実性を決定するのに有効であることを実証した。
特に、単分子配列で訓練されたモデルにおいて、最も不確実性が高いため、本手法は関連するアプローチよりも優れる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:21:41 GMT)
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.4] 我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間で正確な注意を並列化するための、Tree Attentionと呼ばれるアルゴリズムは、デバイス間デコーディングを可能にします。
我々は、Tree AttentionがLlama 3.1-8Bのデコード速度を最大4倍に向上し、様々なハードウェアやネットワークのセットアップに適用できることを実証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:06:53 GMT)
DRL-ORA: Distributional Reinforcement Learning with Online Risk Adaption [10.0] オンラインリスク適応型分散RL(DRL-ORA)を提案する。
DRL-ORAは、複数のタスクのクラスにおいて、固定リスクレベルや手動で設計したリスクレベル適応に依存する既存の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:03:33 GMT)
LOCALINTEL: Generating Organizational Threat Intelligence from Global and Local Cyber Knowledge [9.7] セキュリティオペレーションセンター(SoC)のアナリストは、オープンにアクセス可能なグローバルな脅威リポジトリからの脅威レポートを収集します。
また、プライベートなローカル知識データベースとして機能する組織内部リポジトリにも依存している。
LocalIntelは、自動化された脅威インテリジェンスコンテキスト化フレームワークである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:56:46 GMT)
Noise is an Efficient Learner for Zero-Shot Vision-Language Models [9.5] テスト時間ノイズチューニングは、視覚空間における予測不可能なシフトを処理する新しい方法である。
埋め込みにおいてコヒーレンスを明示的に強制することにより、ビュー間表現アライメントのための新しいアプローチを導入する。
これらの改善は、アダプティブ・アウト・オブ・ディストリビューション・ハンドリングの強力な基盤となった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:25:42 GMT)
Enhancing Depression Detection with Chain-of-Thought Prompting: From Emotion to Reasoning Using Large Language Models [9.4] うつ病は世界中で障害の主な原因の1つである。
大規模言語モデルの最近の進歩は、精神的な健康問題に対処する上で有望であることを示している。
そこで本研究では,抑うつ検出の性能と解釈性を両立するChain-of-Thought Prompting手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:30:57 GMT)
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.4] 本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:04:10 GMT)
BnTTS: Few-Shot Speaker Adaptation in Low-Resource Setting [9.3] 本稿では,Bangla話者適応型TSの最初のフレームワークであるBnTTSを紹介する。
我々は、Bangla音声データセットの3.85k時間におけるBnTTSの事前訓練を行い、ゼロショットと少数ショットの両方で性能を評価する。
その結果,BnTTSはBangla音声の自然性,知性,話者の忠実度を著しく向上させることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:15:47 GMT)
Kolmogorov-Arnold Fourier Networks [9.2] Kolmogorov-Arnold-Fourier Network (KAF)はトレーニング可能なRandom Fourier Features (RFF)と新しいハイブリッドGELU-Fourierアクティベーション機構を統合している。
主な技術的貢献は、Kanの二重行列構造を行列関連性を通じてマージし、パラメータを著しく減少させることである。
実験では、視覚、NLP、オーディオ処理、微分方程式解決タスクなど、さまざまな領域にわたるKAFの優位性を実証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:21:43 GMT)
Compressing Model with Few Class-Imbalance Samples: An Out-of-Distribution Expedition [8.7] クラス不均衡は,少数サンプルモデル圧縮手法の全体的な性能に悪影響を及ぼすことを示す。
我々は OOD-Enhanced Few-Sample Model Compression (OE-FSMC) という新しい適応型フレームワークを提案する。
このフレームワークは容易にアクセス可能なアウト・オブ・ディストリビューション(OOD)データを圧縮と微調整の両方のプロセスに統合する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:47:23 GMT)
MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration [8.4] 本稿では、リソース制約のあるハードウェア上にディープニューラルネットワーク(DNN)をデプロイするための最適化戦略の体系化と自動化のための統一的なフレームワークを提案する。
我々の新しいアプローチは、クロスステージなコ最適化と最適化検索の2つの主要な問題に対処する。
実験の結果、一部のネットワークでは92%のDSPと89%のLUT使用率低下が確認された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:02:06 GMT)
Social Norms in Cinema: A Cross-Cultural Analysis of Shame, Pride and Prejudice [8.4] 10k以上の恥/処女関係の表現を横断的データセットとして紹介する。
我々は、アメリカとインドの既知の文化的傾向に沿った恥と誇りの表現において、異文化間の大きな違いを見出した。
女性は文化にまたがってより制裁を受けており、同様の社会的期待に違反している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:06:42 GMT)
KBLaM: Knowledge Base augmented Language Model [8.2] 本稿では,Large Language Model (LLM) を外部知識で拡張するための知識ベース拡張言語モデル (KBLaM) を提案する。
KBLaMは文書のコーパスから構築された知識ベース(KB)で動作し、KB内の各知識を連続鍵値ベクトル対に変換する。
提案手法では,A10080GBの1つのGPU上で,8Kコンテキストウィンドウのみの8B事前学習LLMに,10Kトリプル以上の大容量KBを組み込むことが可能である。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 04:45:43 GMT)
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots [8.2] ScreenQAは、質問応答による画面コンテンツ理解を促進するために設計された、新しいベンチマークデータセットである。
RICOデータセットに86kの質問応答ペアをアノテートすることにより,画面読解能力のベンチマークを行う。
オープンウェイトモデルとプロプライエタリモデルの両方を用いて、ゼロショット、微調整、転送学習設定でデータセットの有効性を評価する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:09:17 GMT)
GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings [8.0] トレーニング不要な埋め込み手法は、事前訓練された大規模言語モデル(LLM)を直接利用してテキストを埋め込む。
そこで本研究では,LLMを用いて意味を保った文の多種多様な変換を生成する手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:40:16 GMT)
Learn Sharp Interface Solution by Homotopy Dynamics [7.9] 偏微分方程式(PDE)を解くニューラルネットワークの訓練は、損失関数にほぼ特異性を導入するPDEのパラメータによって困難である。
本稿では,これらのパラメータを効果的に操作するためのホモトピー力学に基づく新しい手法を提案する。
実験により,本手法はコンバージェンスを著しく加速し,シャープインターフェースキャプチャの精度を向上することを示した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:54:47 GMT)
LogLLM: Log-based Anomaly Detection Using Large Language Models [7.8] 大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:15:12 GMT)
Deep Learning Accelerated Quantum Transport Simulations in Nanoelectronics: From Break Junctions to Field-Effect Transistors [7.7] 本稿では,非平衡グリーン関数 (NEGF) 法と深層学習型強結合ハミルトン (DeePTB) アプローチを組み合わせた一般フレームワークを提案する。
2つの代表的なアプリケーションを通してDeePTB-NEGFフレームワークの機能を示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:25:05 GMT)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.6] 視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:25:56 GMT)
Jailbreaking to Jailbreak [7.5] そこで本研究では,ヒトが脱獄訓練されたLDMを脱獄し,自身や他のLDMを脱獄させる,新しいLDM-as-red-teamerアプローチを提案する。
私たちの仕事は、レッドチームへの戦略的アプローチを導入し、人間のレッドチームからインスピレーションを得ています。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:49:16 GMT)
AgentMove: A Large Language Model based Agentic Framework for Zero-shot Next Location Prediction [7.0] 本稿では,汎用的な次の位置予測を実現するためのエージェント予測フレームワークであるAgentMoveを紹介する。
AgentMoveでは、まず移動予測タスクを分解し、個々の移動パターンマイニングのための時空間記憶を含む特定のモジュールを設計する。
2つの異なる情報源によるモビリティデータを用いた実験により、AgentMoveは12の指標のうち8つの指標のうち3.33%から8.57%を突破した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:16:18 GMT)
CacheMamba: Popularity Prediction for Mobile Edge Caching Networks via Selective State Spaces [6.9] モバイルエッジキャッシング(MEC)は、エッジサーバ上で頻繁に要求されるコンテンツを動的にキャッシュすることによって、データ集約型サービスのレイテンシを軽減する上で、重要な役割を果たす。
本稿では,意図したファイルの時系列要求データを活用することで,MECにおける人気予測の問題を検討する。
本稿では,状態空間モデル(SSM)に基づくアーキテクチャであるMambaを用いて,要求される確率が最も高いトップKファイルを識別するCacheMambaモデルを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:57:59 GMT)
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [6.8] 本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:02:14 GMT)
Asymptotic FDR Control with Model-X Knockoffs: Is Moments Matching Sufficient? [6.7] モデル-Xノックオフフレームワークの堅牢性を研究するための統一理論フレームワークを提案する。
論文の中では初めて,ガウスノックオフ発生器の有効性と推測を理論的に正当化した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:36:00 GMT)
Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6] 新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。
本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:51:15 GMT)
LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.5] 7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。
以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:07:05 GMT)
Deconstructing Depression Stigma: Integrating AI-driven Data Collection and Analysis with Causal Knowledge Graphs [6.5] 精神病性スティグマは、治療と回復の両方を妨げる、永続的な社会問題である。
本稿では,大規模言語モデル (LLM) と因果知識グラフを組み合わせた新しい手法が,個々の応答のパターンを明らかにした。
また、デジタル介入の発展、人間の心理的構成の分解、包括的態度の育成に対するこれらの知見の影響についても論じている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:58:46 GMT)
$μ$nit Scaling: Simple and Scalable FP8 LLM Training [6.4] 8ビット浮動小数点(FP8)フォーマットによる大規模言語モデルトレーニングでは、大幅な効率向上が期待できるが、数値的な精度の低下はトレーニングを困難にしている。
モデルのサイズが大きければ、動的スケーリングファクタを必要としない、シンプルでスケーラブルなFP8トレーニングを実演します。
1Bから13Bパラメータのモデルをトレーニングし、FP8のすべての隠れ線形層計算を実行することにより、本手法の有効性を検証した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:31:09 GMT)
LLMs are Biased Teachers: Evaluating LLM Bias in Personalized Education [6.4] パーソナライズされた教育環境において,大きな言語モデル(LLM)をバイアスとして評価する。
我々は、異なる人口集団に合わせた教育コンテンツをモデルが生成し、選択する方法について、重大なバイアスを明らかにした。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:28:12 GMT)
Modeling Churn in Recommender Systems with Aggregated Preferences [6.3] 本稿では,集約されたユーザ情報を活用し,混乱リスクを軽減するという2つの課題に対処するモデルを提案する。
本モデルでは,ユーザタイプに対する確率的事前確率と,各種コンテンツタイプに対する満足度を推定する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:12:11 GMT)
Multimodal semantic retrieval for product search [6.2] 商品の純粋テキスト表現とは対照的に,eコマース検索における商品項目のマルチモーダル表現を構築した。
商品のマルチモーダル表現スキームは,セマンティック検索における購入リコールや関連精度の向上を示すことができることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:46:50 GMT)
Intrinsic Gaussian Process Regression Modeling for Manifold-valued Response Variable [6.1] 本稿では,多様体値データに対する固有ガウス過程回帰モデルを提案する。
我々は,情報整合性や後続整合性を含む提案モデルの特性を確立する。
シミュレーションや実例を含む数値的な研究は,提案手法が有効であることを示唆している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:15:02 GMT)
Mitigating Sensitive Information Leakage in LLMs4Code through Machine Unlearning [6.0] コードのためのLanguage Models for Code (LLMs4Code)は、コード生成タスクに優れており、巨大なソフトウェア開発の負担から開発者をリリースすることを約束している。
これらのモデルは、トレーニング中に埋め込まれた機密情報が漏洩する可能性があるため、重大なプライバシーリスクに悩まされていることが示されている。
マシンアンラーニングは、モデルが完全なリトレーニングなしにセンシティブな情報を“忘れる”ことによって、有望なソリューションとして浮上した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:50:34 GMT)
Deep Learning for Protein-Ligand Docking: Are We There Yet? [5.7] 広範に適用可能なタンパク質リガンドドッキングのための、最初の包括的なベンチマークであるPoseBenchを紹介する。
PoseBenchは、Apo-to-holoタンパク質-リガンドドッキングとタンパク質-リガンド構造予測のためのDLメソッドを厳格かつ体系的に評価することを可能にする。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:04:47 GMT)
Causal Inference with Large Language Model: A Survey [5.7] 因果推論は医学や経済学といった様々な分野において重要な課題となっている。
自然言語処理(NLP)の最近の進歩は、従来の因果推論タスクに有望な機会をもたらした。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:59:47 GMT)
On the Impacts of Contexts on Repository-Level Code Generation [5.6] 本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:47:20 GMT)
A 3D Multimodal Feature for Infrastructure Anomaly Detection [5.6] 古い構造は、構造欠陥を特定するために定期的な検査を必要とする。
従来の研究では、幾何学的歪みを使って合成石英橋の点雲の亀裂を見つけるが、小さな亀裂を検出するのに苦労している。
本研究では,3次元マルチモーダル機能である3DMulti-FPFHIを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:16:31 GMT)
Navigating Extremes: Dynamic Sparsity in Large Output Spaces [5.2] 動的スパーストレーニング(DST)は、効率的なモデルを生成するための訓練後プルーニングの代替として登場した。
我々は、半構造化スパース訓練の最近の進歩を活用し、大きな出力空間を持つ分類領域にDSTを適用した。
スパース分類器から高密度テキストエンコーダへの勾配流は、優れた入力表現の学習を困難にしている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:46:51 GMT)
MoEMba: A Mamba-based Mixture of Experts for High-Density EMG-based Hand Gesture Recognition [5.2] 高密度表面筋電図(HDsEMG)がヒューマン・コンピュータ・インタラクション(HCI)の鍵となる。
本稿では、選択状態空間モデル(SSM)を利用して、HD-sEMGに基づくジェスチャー認識を強化する新しいアプローチであるMoEMbaフレームワークを紹介する。
CapgMyo HD-sEMGデータセットの実験結果は、MoEMbaが56.9%のバランスの取れた精度を達成し、最先端の製品よりも優れていることを示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:07:46 GMT)
Subgoal Discovery Using a Free Energy Paradigm and State Aggregations [5.1] 強化学習(Reinforcement Learning, RL)は、複雑なシーケンシャルな意思決定タスクの解決において重要な役割を果たしている。
サブゴール発見はこれらの手法のタスク分解の鍵となる要素である。
提案手法は,タスクの事前知識を必要とせずに,サブゴール発見に応用できる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:24:20 GMT)
Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.0] 言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。
我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:16:16 GMT)
Generating 3D Binding Molecules Using Shape-Conditioned Diffusion Models with Guidance [4.9] 医薬品開発は批判的だが、資源と時間のかかるプロセスで悪名高い。
我々は3次元結合分子を生成する新しい生成人工知能(genAI)法DiffSMolを開発した。
DiffSMolは、ベンチマークデータセット上で最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:50:39 GMT)
Neural Shortest Path for Surface Reconstruction from Point Clouds [4.9] 距離関数とその勾配を近似したベクトル値の暗黙的ニューラル表現(INR)であるニューラル・ショート・パス(NSP)を提案する。
NSPをその大きさと方向に分解し、各分解成分が距離関数とその勾配を近似する可変分割法を用いる。
NSP の分解表現は、$H1$ノルムにおける NSP の大きさの収束を保証することを証明している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:01:16 GMT)
Enhancing Learned Image Compression via Cross Window-based Attention [4.7] 特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:04:01 GMT)
FlashCheck: Exploration of Efficient Evidence Retrieval for Fast Fact-Checking [4.6] ファクトチェックの自動化は,誤報をリアルタイムで,情報源で効果的に対処するために不可欠である。
既存の研究は主に、大規模なデータ収集からの証拠検索ではなく、事実検証の部分に焦点を当てている。
本稿では,ウィキペディアのような大規模コレクションからの簡潔な事実文の集合を索引付けして,事実チェックパイプラインの検索フェーズを強化する手法について検討する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:14:11 GMT)
Towards Inducing Long-Context Abilities in Multilingual Neural Machine Translation Models [4.6] この研究は、訓練済みのNMTモデルを絶対正弦波PEから相対的PEに移行するという課題に対処する。
パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。
いくつかの言語における少量の長文データが、言語間長の一般化に十分であることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:58:46 GMT)
MetaChain: A Fully-Automated and Zero-Code Framework for LLM Agents [4.6] 大規模言語モデル (LLM) エージェントはタスクの自動化とインテリジェントな意思決定において顕著な能力を示した。
これらのフレームワークは、主に開発者に対して広範な技術的専門知識を提供する。
世界の人口の0.03%のみが必要なプログラミングスキルを持っている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:53:56 GMT)
Adapting Beyond the Depth Limit: Counter Strategies in Large Imperfect Information Games [4.6] オンラインプレイ中に、合理的な対戦相手に頑健なまま、既知のサブリレーショナルな対戦相手に適応する問題について検討する。
既存の手法では、奥行き制限を超えた合理的なプレーを前提としており、相手の行動の極めて限られた部分しか適応できない。
本稿では,行列値状態と呼ばれる戦略ポルフォリオ手法を用いて,深度限定探索を行うアルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:38:27 GMT)
Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making [4.5] オフ政治評価(OPE)は、異なる政策の下で収集されたデータを用いて、新しい政策のパフォーマンスを評価する。
既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。
結果の限界分布に着目して分散を低減する新しい OPE 手法である Marginal Ratio (MR) 推定器を導入する。
次に,OPEにおける不確実性定量化の原理的アプローチである Conformal Off-Policy Prediction (COPP) を提案する。
最後に, 政策外の意思決定における因果不確定性に対処する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:05:19 GMT)
ClinKD: Cross-Modal Clinic Knowledge Distiller For Multi-Task Medical Images [4.4] Med-VQA(Medical Visual Question Answering)は、より広範なVQA(Visual Question Answering)ドメインにおける重要なサブタスクである。
我々は,ClinKDモデルを導入し,モデル位置エンコーディングと多角化学習プロセスを取り入れた。
我々は、Med-GRIT-270kデータセット上で、最先端の新たなパフォーマンスを実現する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:08:10 GMT)
Counterfactual Explanations with Probabilistic Guarantees on their Robustness to Model Change [4.2] 対実的説明(CFE)は、望ましいアウトプットを達成するために、機械学習モデルへの入力の調整方法をユーザに案内する。
この問題に対処する現在のメソッドは、しばしば特定のモデルや変更タイプのみをサポートする。
本稿では,任意のモデルや変更タイプに対して確率的保証を提供するCFEの生成手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:12:28 GMT)
EPBC-YOLOv8: An efficient and accurate improved YOLOv8 underwater detector based on an attention mechanism [4.1] YOLOv8の背骨にチャネルと空間的注意を組み込むことにより,水中目標検出の精度を高めた。
我々のフレームワークは水中画像の劣化に対処し、データセットで0.5のスコアが76.7%、79.0のmAPを達成した。
これらのスコアは元のYOLOv8よりも2.3%高く、0.7%高い。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:09:56 GMT)
Analyzable Parameters Dominated Vehicle Platoon Dynamics Modeling and Analysis: A Physics-Encoded Deep Learning Approach [4.0] 本稿では,非線形車両小隊力学をモデル化する物理符号化深層学習ネットワークPeMTFLNを提案する。
分析可能なパラメータエンコード計算グラフ (APeCG) は、鉛車両の駆動挙動に応答するために小隊を誘導するように設計されている。
PeMTFLNのコードはオープンソースである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:10:46 GMT)
ID policy (with reassignment) is asymptotically optimal for heterogeneous weakly-coupled MDPs [3.9] 弱結合マルコフ決定過程(WCMDP)の完全不均一な設定について検討する。
軽微な仮定では、IDポリシーの自然な適応は、元々はWCMDPの同質な特殊ケースとして提案されていたが、N$が大きくなるにつれて、腕ごとの平均報酬が1/sqrtNで$O (1/sqrtN)$の最適性ギャップを達成できることが示される。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:32:19 GMT)
The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes [3.8] WWD(World Wide Dishes)の構築過程を反映して、機械学習(ML)アプリケーションのためのデータセット構築プロセスのウィンドウを提供する。
コミュニティメンバは研究プロセスの設計をガイドし、データセットを構築するためのクラウドソーシングの取り組みに従事します。
我々は,WWDの裏側研究チームからの反射を分析し,参加型デザイン作業の目に見えない労働力の実証的証拠を提示する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:09:46 GMT)
ChamaleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters [3.7] ChamaleonLLMは、大規模言語モデルの推論時適応を可能にする新しいフレームワークである。
クラスタ化されたバッチの集計統計に基づいて,デコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChamaleonLLMは大幅なパフォーマンス向上を実現している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:24:11 GMT)
MicroViT: A Vision Transformer with Low Complexity Self Attention for Edge Device [3.6] Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて最先端のパフォーマンスを実証しているが、その高い計算要求により、限られたリソースを持つエッジデバイスでは実用的ではない。
本稿では,エッジデバイスに最適化された軽量ビジョントランスフォーマーアーキテクチャであるMicroViTを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:04:39 GMT)
The World Wide Recipe: A community-centred framework for fine-grained data collection and regional bias operationalisation [3.5] 本稿では,文化に配慮した参加型データ収集のためのフレームワークであるWorld Wideのレシピを紹介する。
バイアス運用を分析して、現在のシステムがいくつかの次元でどのようにパフォーマンスが低下しているかを強調します。
これらのT2Iモデルは、一般的に、各地域固有の料理の品質のアウトプットを生成しない。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:13:58 GMT)
Traveling Waves Integrate Spatial Information Into Spectral Representations [3.3] 視覚刺激に応答して、隠れた状態で進行波を発生させる一連の畳み込みリカレントニューラルネットワークを導入する。
移動波は局所的に接続されたニューロンの受容野を効果的に拡張し、長距離符号化と情報通信を支援する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:14:27 GMT)
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.3] HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 11:53:46 GMT)
LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.3] 大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:58:12 GMT)
FactIR: A Real-World Zero-shot Open-Domain Retrieval Benchmark for Fact-Checking [3.2] 自動化されたファクトチェックの分野は、現実のシナリオにおけるクレームの正確性を決定するために、Webベースの証拠を取得することにますます依存している。
従来の検索手法では、クレームに直接対処する文書を返したり、それらをサポートするために傾いたりすることができるが、間接的推論を必要とするより複雑なクレームに悩まされることがしばしばある。
人間のアノテーションで拡張されたFactiverseプロダクションログから派生した実世界のベンチマークFactIRを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:51:00 GMT)
PiLocNet: Physics-informed neural network on 3D localization with rotating point spread function [3.0] これまでに導入したローカライゼーションニューラルネットワークであるLocNetの新たな拡張を提案する。
改良されたネットワークは、我々がPiLocNetと呼ぶ物理インフォームドニューラルネットワーク(PINN)である。
本論文は3次元ソース位置のエンコードにシングルローブ回転型PSFを用いることに焦点を当てるが,他のPSFや画像問題にも広く適用できると期待している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:48:33 GMT)
Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation [3.0] 学習概念の忠実さと、様々な文脈で生成する能力のバランスをとることは、重大な課題である。
既存の手法はしばしば、様々な微調整パラメータ化とサンプリング戦略の改善を通じてこの問題に対処する。
本稿では,テキストアライメント,計算制約,忠実度を判定し,戦略選択を導くためのフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:22:32 GMT)
Survey on Recent Progress of AI for Chemistry: Methods, Applications, and Opportunities [2.8] 我々は、計算の観点から、化学における現在のAI技術について包括的にレビューする。
多様な情報源からのデータの特性について論じ、続いて様々な表現法の概要を述べる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:39:49 GMT)
"Let the AI conspiracy begin..." Language Model coordination is just one inference-intervention away [2.7] 本研究では,学習したアライメント目標をバイパスできる大規模言語モデル行動のモデル化手法を提案する。
モデル出力の対照的なペアの活性化差から介入方向を導出する。
これらのヘッドへの介入は、オープンエンドの回答生成に対してうまく一般化されていることを実証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:11:57 GMT)
Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach [2.6] より少ない仮定で事前アライメントアプローチを一般化するゲーム理論フレームワークを導入する。
我々は、$M$の目的と$N$のエージェント間のアライメントの計算複雑性を分析する。
私たちは、アライメントをより実現可能にする条件を特定することで結論付けます。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:27:35 GMT)
ScaffoldGPT: A Scaffold-based Large Language Model for Drug Improvement [2.6] ScaffoldGPTは分子足場に基づく薬物最適化のための新しいLarge Language Model (LLM)である。
本研究は,(1)事前学習,微調整,復号化を統合した3段階の薬物最適化アプローチである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:36:33 GMT)
Acceleration Multiple Heads Decoding for LLM via Dynamic Tree Attention [2.6] 複数のヘッドデコーディングは、次のいくつかのトークンを同時に予測することで、Large Language Models (LLM) の推論を加速する。
本稿では,動的木構造の構築と候補生成のためのシンプルで低複雑性な手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:28:21 GMT)
Cyri: A Conversational AI-based Assistant for Supporting the Human User in Detecting and Responding to Phishing Attacks [2.6] この研究は、人間のユーザーのフィッシングメールの検出と分析を支援するAIによる会話アシスタントCyriを紹介している。
Cyriは、緊急性や望ましくない結果などのフィッシング攻撃で使用されるセマンティックな特徴について、メールを精査するように設計されている。
Cyriはクライアントメールやウェブメールに直接接続することができ、ユーザのメールワークフローとのシームレスな統合を保証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:42:28 GMT)
Secure Visual Data Processing via Federated Learning [2.4] 本稿では,大規模ビジュアルデータ処理におけるプライバシ保護ソリューションの必要性に対処する。
本稿では,オブジェクト検出,フェデレーション学習,匿名化を組み合わせた新しい手法を提案する。
私たちのソリューションは、従来の集中型モデルに対して評価されており、精度がわずかにトレードオフされている一方で、プライバシー上のメリットがかなり大きいことを示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:44:18 GMT)
How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.2] 本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。
肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:12:58 GMT)
Optimal starting point for time series forecasting [2.0] 最適開始点時系列予測(OSP-TSP)と呼ばれる新しい手法を導入する。
提案手法は,時系列の最適開始点(OSP)を決定するとともに,ベース予測モデルの予測性能を向上させる。
実験結果から,OSP-TSPアプローチに基づく予測は,全時系列データセットを用いた予測よりも一貫して優れていたことが示唆された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:30:28 GMT)
NeuralPrefix: A Zero-shot Sensory Data Imputation Plugin [1.8] 我々はゼロショット計算の概念を定式化し、事前学習されたモデルのデータ間欠性を扱うための新しいアプローチを提案する。
このフレームワークはNeuralPrefixと呼ばれ、推論中にタスクモデルに先行する生成的ニューラルネットワークコンポーネントである。
我々は,複数の知覚データセットに対するNeuralPrefixの総合評価を行い,その有効性を示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:47:55 GMT)
Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8] Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:06:44 GMT)
Investigating and Mitigating Barren Plateaus in Variational Quantum Circuits: A Survey [1.8] VQCは勾配ベースや勾配のない手法など、様々な最適化手法で訓練することができる。
VQCの勾配分散は、量子ビットや層の数が増えるにつれて劇的に消える。
Barren Plateausは大規模なデータセット上のVQCのスケーリングを著しく妨げている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:39:33 GMT)
SNAT-YOLO: Efficient Cross-Layer Aggregation Network for Edge-Oriented Gangue Detection [1.8] 本モデルでは,石炭ガン検出作業において99.10%の精度で検出を行う。
モデルサイズを38%減らし、パラメータ数を41%減らし、計算コストを40%減らし、画像毎の平均検出時間を1ミリ秒減らした。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:39:35 GMT)
Protecting Intellectual Property of EEG-based Neural Networks with Watermarking [1.7] 脳波に基づくニューラルネットワークは、神経生理学的データに依存しているため、重要な知的特性(IP)のリスクに直面している。
本稿では,脳波に基づくニューラルネットワークに適した暗号フィルタに基づく透かしフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:21:45 GMT)
Language Models are Crossword Solvers [1.5] 我々は,大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
現代の言語モデルでは、暗号的クロスワードの手がかりを解読する能力が非常に高いことが実証されている。
また,この性能を生かした検索アルゴリズムを開発し,アウトオブボックス LLM を用いて全クロスワードグリッドを解く問題に対処する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:26:45 GMT)
HamRaz: A Culture-Based Persian Conversation Dataset for Person-Centered Therapy Using LLM Agents [1.4] HamRazは、大規模言語モデル(LLM)を用いた人中心療法(PCT)のための新しいデータセットである。
このギャップに対処するため、HamRazはスクリプトベースの対話と適応的なLLMロールプレイングを組み合わせることで、一貫性と動的セラピーの相互作用を保証する。
HamRazEvalは、会話の品質と治療効果を測定する2つの評価フレームワークである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:23:34 GMT)
Stateful Hash-Based Signature (SHBS) Benchmark Data for XMSS and LMS [1.3] NISTは、量子コンピュータを使用する将来の脅威から保護を必要とする可能性のある長期的なアプリケーションにステートフルなハッシュベースのデジタルシグネチャを使用することを推奨している。
XMSSとLMSは、デジタル署名サイズ、公開鍵サイズ、キーペアの寿命を通じて生成できる署名の数、および署名を検証するための計算努力に影響を与える複数のパラメータオプションを持っている。
このベンチマークデータの収集は、システム設計者が設定オプションの違いを理解するのを支援することを目的としている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:14:17 GMT)
AI-Driven HSI: Multimodality, Fusion, Challenges, and the Deep Learning Revolution [1.3] ハイパースペクトルイメージング(HSI)は、空間的およびスペクトル的なデータをキャプチャし、従来のシステムでは見えない特徴の分析を可能にする。
本研究では,HSIデータ処理における深層学習モデルの役割とデータ融合における課題について概説する。
ディープラーニングは、特徴抽出、変化検出、デノイングアンミックス、次元縮小、ランドカバーマッピング、データ強化、スペクトル構築、超解像といった領域におけるHSI分析を強化する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:44:16 GMT)
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.3] ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。
我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:22:55 GMT)
Wavelet GPT: Wavelet Inspired Large Language Models [1.2] 大規模言語モデル(LLM)は、人工知能の新たな進歩の波を支えている。
本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。
我々は、テキスト、オーディオ、画像において、ほぼ2倍の速さで事前学習を行う。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:09:31 GMT)
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2] Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:02:57 GMT)
A Conditional Tabular GAN-Enhanced Intrusion Detection System for Rare Attacks in IoT Networks [1.2] モノのインターネット(IoT)ネットワークは、6G技術によって強化され、さまざまな産業に変化をもたらしている。
彼らの普及は、特に稀だが潜在的に破壊的なサイバー攻撃を検出する際に、重大なセキュリティリスクをもたらす。
従来のIDSは、IoTデータの深刻なクラス不均衡により、まれな攻撃を検出するのに苦労することが多い。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:13:11 GMT)
Emergence of Episodic Memory in Transformers: Characterizing Changes in Temporal Structure of Attention Scores During Training [1.1] 我々は,様々な大きさのGPT-2モデルの注意点と出力を分析した。
注意点全体では,時間的連続性,優性,再発など,ヒトのエピソード記憶に特徴的な効果が観察された。
トランスフォーマーは、コンテキスト内学習中に情報を時間的に整理し、その類似点と人間の記憶と学習の違いに光を当てる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:20:37 GMT)
Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models [1.1] コードセキュリティに対する様々な迅速なエンジニアリング戦略の影響を評価するために,ベンチマークを実装した。
我々は, GPT-3.5-turbo, GPT-4o, GPT-4o-miniで複数のプロンプトエンジニアリング手法を試験した。
テストされたすべてのモデルは、以前に生成されたコードの脆弱性の41.9%から68.7%を検知し、修復する機能を示した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:23:07 GMT)
Delta - Contrastive Decoding Mitigates Text Hallucinations in Large Language Models [1.1] 大型言語モデル(LLM)は幻覚を起こす傾向があり、事実的に誤りまたは偽造されたコンテンツを生成する。
モデルの再訓練や追加データを必要とせずに幻覚を減少させる推定時間手法であるDeltaを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:16:42 GMT)
Generating crossmodal gene expression from cancer histopathology improves multimodal AI predictions [1.0] デジタル病理組織学から合成されたゲノム表現は,がんの診断と生存リスクを高い精度で予測する。
PathoGenコードは、GitHubを通じて研究コミュニティによってオープンに利用することができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:23:25 GMT)
Gradient Based Method for the Fusion of Lattice Quantizers [1.0] 現実的な応用として、格子量子化器は離散格子点を格子内の近似任意の点に活用する。
本稿では,この問題に対処するための新しいアプローチとして,ハウスアルゴリズムとマトリックスExpアルゴリズムの2つを提案する。
この結果から,ハウスアルゴリズムとマトリックスExpアルゴリズムの両方が,13,15,17,19,21,22次元の格子量子化器の改良を実現していることが示唆された。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:37:47 GMT)
Discovery of Maximally Consistent Causal Orders with Large Language Models [0.8] 因果発見は複雑なシステムを理解するのに不可欠である。
伝統的な手法は、しばしば強く、証明不可能な仮定に依存する。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:40:38 GMT)
Analysis of LLM as a grammatical feature tagger for African American English [0.7] アフリカ系アメリカ人英語(AAE)は自然言語処理(NLP)に固有の課題を提示している
本研究では,利用可能なNLPモデルの性能を体系的に比較する。
本研究は,AAEの固有の言語特性をよりよく適合させるために,モデルトレーニングとアーキテクチャ調整の改善の必要性を強調した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:46:33 GMT)
Enhanced Feature Based Granular Ball Twin Support Vector Machine [0.6] 機能強化型グラニュラーボールツインサポートベクター(EF-GBTSVM)を提案する。
提案モデルでは,個々のデータサンプルではなく,粒状(GB)の粗粒度を入力として用いた。
ベンチマーク UCI および KEEL データセット上で提案した EF-GBTSVM モデルを徹底的に評価する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:07:32 GMT)
Contrastive Representation Distillation via Multi-Scale Feature Decoupling [0.5] 知識蒸留は, パラメータサイズを増大させることなく, より小さな学生ネットワークの性能を向上させる技術である。
特徴伝達プロセスにおいて,局所的な特徴を個別に処理し,コントラスト学習と統合するマルチスケールデカップリングを初めて導入する。
提案手法は,計算コストを削減するだけでなく,効率も向上し,シングルバッチサンプルのみを用いた学生ネットワークの性能向上を実現している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:03:18 GMT)
Detection of Physiological Data Tampering Attacks with Quantum Machine Learning [0.5] 本研究では,QML(Quantum Machine Learning)による生理的データ改ざん検出の有効性を比較した。
QMLモデルはラベルフリップ攻撃を識別し、データや攻撃の重大さに応じて75%-95%の精度を達成する。
しかし、QMLモデルと古典モデルの両方は、より洗練された対向的摂動攻撃を検出するのに苦労している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:26:41 GMT)
Model Human Learners: Computational Models to Guide Instructional Design [0.4] 本稿では,2つのA/B実験の結果を正確に予測できる計算モデルについて述べる。
また、そのようなモデルが人間のデータを必要とせずに学習曲線を生成できることも示している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:50:20 GMT)
"So Am I Dr. Frankenstein? Or Were You a Monster the Whole Time?": Mitigating Software Project Failure With Loss-Aversion-Aware Development Methodologies [0.4] 英国と米国における600人のソフトウェアエンジニアの経験について、プロジェクト成功の経験について調査している。
経験的評価では、開発の開始前に明確な要件を保証するようなアプローチは、損失回避率が最低で、プロジェクトの成功率が97%に相関している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:21:55 GMT)
Scalable Cosmic AI Inference using Cloud Serverless Computing with FMI [0.4] 大規模な天体画像データ処理と予測は天文学者にとって不可欠である。
現代のディープラーニングモデルは高い予測精度を提供するが、しばしばかなりの計算資源を必要とする。
これらの課題に対処するために、クラウドベースの天文学推論フレームワークを紹介します。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:54:24 GMT)
A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3] 大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:00:36 GMT)
Towards Autonomous Experimentation: Bayesian Optimization over Problem Formulation Space for Accelerated Alloy Development [0.3] 問題定式化空間上のベイズ最適化を利用して最適な設計定式化を同定する新しい枠組みを提案する。
ガスタービンエンジンブレード応用を目的としたMo-Nb-Ti-V-W合金系におけるインサイリコケーススタディにより,本手法の有効性を実証した。
今後は、人間のフィードバックを取り入れて、実世界の実験環境におけるシステムの適応性をさらに強化していく予定だ。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:05:58 GMT)
GRVFL-MV: Graph Random Vector Functional Link Based on Multi-View Learning [0.3] マルチビュー学習(GRVFL-MV)モデルに基づく新しいグラフランダムベクトル関数リンクを提案する。
提案モデルは,マルチビュー学習(MVL)の概念を取り入れて,複数の視点で学習する。
また、グラフ埋め込み(GE)フレームワークを使用して、すべてのビューの幾何学的性質も取り入れている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:40:25 GMT)
Enhancing Robustness and Efficiency of Least Square Twin SVM via Granular Computing [0.3] 機械学習の分野では、最小二乗サポートベクターマシン(LSTSVM)が最先端モデルの1つとして際立っている。
LSTSVMはノイズやインバージョンに対する感受性に悩まされており、リサンプリングの原則と不安定さを見落としている。
そこで我々は,従来のデータポイントの代わりに粒状球を用いて学習した,頑健な粒状球 LSTSVM (GBLSTSVM) を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:37:34 GMT)
Perfect Transfer of Entanglement and One-Way Quantum Steering via Parametric Frequency Converter in a Two-mode Cavity Magnomechanical System [0.2] 2モードキャビティシステムにおけるパラメトリック周波数変換器の効果について検討した。
空洞-空洞-空洞-フォノンの絡み合い(キャビティ-マグノンの絡み合い)は,パラメトリック位相因子 phi の増加とともに減少(増加)することを示した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:34:58 GMT)
Phase-aware Training Schedule Simplifies Learning in Flow-Based Generative Models [0.2] 本研究では,フローベース生成モデルのパラメータ化に用いる2層オートエンコーダのトレーニングを分析する。
速度場を表すオートエンコーダは,各位相に関係するパラメータのみを推定することにより,簡易化を図る。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:59:28 GMT)
How quantum computing can enhance biomarker discovery [0.1] 量子アルゴリズムは、特に機械学習において、バイオマーカー発見における重要な応用にマップされる。
アルゴリズムとアプリケーションに関連する機会と課題について論じる。
オープンな研究課題に関する見通しが提示されている。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:39:16 GMT)
Sign-Symmetry Learning Rules are Robust Fine-Tuners [0.1] バックプロパゲーションは長年、ニューラルネットワークをトレーニングするための主要な方法だった。
サイン-シメトリ学習規則を用いたBP事前学習モデルを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:59:57 GMT)
NutriTransform: Estimating Nutritional Information From Online Food Posts [0.0] 食品ポストのタイトルのみに基づいて, マクロ栄養素を効率よく, 簡便に近似する手法を提案する。
我々は、ラベル付き食品データセットのアプローチを評価し、その効果を実証し、Redditの人気/r/foodサブレディットから50,000以上の現実世界の投稿に適用する。
この研究は、テキストデータのみを用いてカロリーと栄養分を推定することを目的とした研究者や実践者のための基礎を築いた。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 10:33:29 GMT)
Nested subspace learning with flags [0.0] 本研究では,部分空間学習におけるネストネスを強制する簡単な手法を提案する。
いくつかの古典的機械学習手法にフラグトリックを適用し、ネストネス問題にうまく対処したことを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:29:56 GMT)
What Bohmian mechanic says about arrival times of 1D vacuum squeezed states [0.0] ボヘミア形式を用いた量子粒子の到着確率分布の時間を計算する。
パイロット波は1次元真空圧縮状態の波動関数によって与えられるが、シュル「オーディンガー」表現で表される。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:58:00 GMT)
Universal point spread function engineering for 3D optical information processing [0.0] 本稿では,空間的に不整合な微分プロセッサの入力ボリュームと出力ボリュームの間に,空間的に変化する3次元PSFの任意のセットを合成する方法を報告する。
我々は、光の回折限界内において、そのような回折プロセッサのPSFエンジニアリング能力を厳格に分析する。
我々のフレームワークと分析は,3次元光学情報の画像処理,センシング,回折処理における今後の進歩に欠かせないものとなるだろう。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:42:09 GMT)
Topological quantum compilation of metaplectic anyons based on the genetic optimized algorithms [0.0] 我々は、F-行列、R-シンボル、メタプレクティック・エノンの融合規則を利用した合計6つのエノンモデルを得る。
一ビットの場合、古典的なH-およびT-ゲートは遺伝的アルゴリズムを改良したゾロヴィ・キタエフアルゴリズムを用いてうまく構築できる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:31:19 GMT)
The AI Security Zugzwang [0.0] チェスでは、ズグズワングはいかなる動きもプレイヤーの位置を悪化させるシナリオを記述している。
この作業では、この課題をAI Security Zugzwangとして形式化しています。
AIセキュリティのZugzwangの特徴は,強制移動,予測可能な脆弱性生成,時間的プレッシャーという3つの重要な特性にある。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:13:48 GMT)
Temporal Model On Quantum Logic [0.0] このフレームワークは、線形および分岐時間モデルを用いて、時間とともに命題の進化を定式化する。
メモリの階層構造は、有向非巡回グラフを用いて表される。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:16:53 GMT)
Temporal Dynamics of Emotion and Cognition in Human Translation: Integrating the Task Segment Framework and the HOF Taxonomy [0.0] 本論文は、経験的翻訳プロセスデータに基づく、人間の翻訳心の新たな生成モデルを開発する。
人間の心に同時に展開する3つの組み込み処理層を仮定する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:20:43 GMT)
Tatami Printer: Physical ZKPs for Tatami Puzzles [0.0] 我々は,タタミパズルの解法を検証するためのカードベースのプロトコルであるタタミプリンタを開発した。
次に、タタミプリンタを用いて、タタミバリとスクエアジャムの2つのパズルのゼロ知識証明プロトコルを構築する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:42:04 GMT)
Structural Perturbation in Large Language Model Representations through Recursive Symbolic Regeneration [0.0] シンボリック摂動は、モデルパラメータを直接修正することなく、神経表現に影響を与える新しいアプローチを提供する。
シンボル構造の再生は、潜伏埋め込みにおける構造変化を導入し、注意力学における制御的なシフトをもたらす。
注目重量分布の変化は、トークン依存の調整、応答の可変性への影響、長文生成の精細化における象徴的な修正の役割を強調している。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 07:00:10 GMT)
Speech to Speech Translation with Translatotron: A State of the Art Review [0.0] カスケードに基づく音声から音声への翻訳は、非常に長い間、ベンチマークとみなされてきた。
例えば、ある言語から別の言語へのスピーチの翻訳に要する時間と、複雑なエラーなどである。
Translatotronは、Googleがこれらの問題に対処するために設計したものである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:15:00 GMT)
Spatial averaging for light reflection and transmission through cold atom arrays [0.0] 原子位置のコヒーレント波動関数が同じ空間分布を持つ熱分布から異なる結果をもたらすかどうかを考察する。
光が弱く、電子状態が時間スケールで進化しても、トラップ内の原子の発振周期よりも短い場合、コヒーレンスは関係がない。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:20:01 GMT)
Simulating Virtual Players for UNO without Computers [0.0] 物理カードのみを用いて仮想プレイヤーをシミュレートするプロトコルを提案する。
本プロトコルでは,各仮想プレーヤーの手からランダムにプレーする有効なカードを選択することができる。
このプロトコルは、他のターンベースのカードやタイルゲームにおける仮想プレイヤーのシミュレートにも適用することができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:37:31 GMT)
Simplicial effects and weakly associative partial groups [0.0] 我々は、エフェクト代数の圏と、その多目的アルゲブロイドであるエフェクトアルゲブロイドを拡張した、新しい単純な効果のカテゴリを導入する。
この枠組みの中では、単純効果と弱結合部分群は弱部分モノイドの圏における2つの極端なケースとして生じる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:55:01 GMT)
Redefining Robot Generalization Through Interactive Intelligence [0.0] ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。
シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:13:27 GMT)
Qudit vs. Qubit: Simulated performance of error correction codes in higher dimensions [0.0] 量子回路を小型のキューディット誤り訂正符号と、特に適応された復号器に対して生成し、シミュレーションする。
シミュレーションされた距離3符号の論理誤差率により,高次元符号に対する平均誤差が小さくなることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:47:50 GMT)
Quantum Resonance viewed as Weak Measurement [0.0] 量子共鳴は物理学の基本的な量を決定する強力な手段を提供する。
代表的な例であるRabi resonanceとRamsey resonanceの2つを再検討する。
我々は、ラムゼー共鳴に基づく中性子電気双極子モーメントの以前の測定により、従来の弱い値測定よりもはるかに精度の高い中性子スピンの弱い値が決定される可能性があると論じる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:57:35 GMT)
Quality Assurance for LLM-RAG Systems: Empirical Insights from Tourism Application Testing [0.0] 本稿では,Large Language Model (LLM) システムの品質特性を検索型拡張生成(RAG)で検証し,評価するための包括的フレームワークを提案する。
機能的正当性と機能的外特性の両方を評価する上で,テスト手法の有効性を実証する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:53:03 GMT)
PyPotteryInk: One-Step Diffusion Model for Sketch to Publication-ready Archaeological Drawings [0.0] PyPotteryInkは、考古学的な陶芸のスケッチを出版可能なインク絵に変換する自動パイプラインだ。
本手法がイタリア原史時代の陶器図面のデータセットに与える影響を実証する。
モデルは、最小限のトレーニングデータで異なる考古学的文脈に適応するように微調整することができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 14:03:37 GMT)
Provably Overwhelming Transformer Models with Designed Inputs [0.0] この文字列で評価されたモデルの出力と任意の追加文字列$t$, $mathcalM(s + t)$が、長さ($t$)$leq n_free$のたびに$t$の値に完全に無関心である場合、$mathcalM$は$s$で圧倒される。
我々は、モデルの振る舞いを束縛するために使う、特に強力な「オーバースカッシング」の最悪の形態を証明します。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:21:57 GMT)
Predictive Crash Analytics for Traffic Safety using Deep Learning [0.0] 本研究では,アンサンブル学習手法とマルチモーダルデータ融合を統合した交通安全解析手法を提案する。
我々の主な貢献は、時空間の衝突パターンと環境条件を組み合わせた階層的な重大度分類システムの開発である。
本稿では,事故発生時の位置データをインシデントレポートや気象条件と統合し,リスク予測の精度92.4%,ホットスポット識別の精度89.7%を達成できる新しい特徴工学手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 05:00:46 GMT)
Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud [0.0] 我々は、ポイントクラウドデータに特化して設計された統合埋め込み予測アーキテクチャであるPoint-JEPAを紹介する。
入力空間の再構成や追加のモダリティを回避しつつ、最先端の手法による競合結果を得る。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:58:42 GMT)
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation [0.0] 言語モデルのロールプレイング能力を評価するためのベンチマークを導入する。
異なる言語モデルを利用して、動的でマルチターンな会話でユーザをシミュレートし、その結果の対話を評価する。
英語とロシア語の両方で40以上のモデルを評価し,各モデルは8文字と8つの状況で64の会話に参加した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:54:10 GMT)
Performance Analysis of Traditional VQA Models Under Limited Computational Resources [0.0] 本稿では,計算制約下での従来のモデルの性能について検討する。
我々は、双方向GRU(BidGRU)、GRU、双方向LSTM(BidLSTM)、畳み込みニューラルネットワーク(CNN)に基づくモデルを評価する。
実験結果から, 埋め込み次元300, 語彙サイズ3000のBidGRUモデルは, 大規模モデルの計算オーバーヘッドを伴わずに, 最高の総合性能が得られることがわかった。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:47:59 GMT)
Perception-Guided EEG Analysis: A Deep Learning Approach Inspired by Level of Detail (LOD) Theory [0.0] 本研究では,脳波解析と知覚状態指導のための新しい深層学習手法について検討する。
目的は、知覚状態の識別精度を改善し、パーソナライズされた心理療法を進めることである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:43:26 GMT)
Pencils to Pixels: A Systematic Study of Creative Drawings across Children, Adults and AI [0.0] 子ども、大人、AIによる1338の図面を創造的な図面タスクで分析する。
スタイルとしては,インク密度,インク分布,元素数などを定義している。
コンテンツについては、専門家が注釈付けしたカテゴリを使用して概念的多様性を研究します。
専門家と自動化されたクリエイティビティスコアを予測するシンプルなモデルを構築します。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:02:32 GMT)
Particle Trajectory Representation Learning with Masked Point Modeling [0.0] 時間射影チャンバー(TPC)における3次元粒子軌道解析のための自己監督型マスクモデリングフレームワーク
本研究は、疎イオン化点を分解能に依存しないパッチにグループ化するためのボリュームトークン化を提案する。
PoLAr-MAEは99.4%のトラックと97.7%のシャワー分類Fスコアを達成した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:57:41 GMT)
NP-Completeness and Physical Zero-Knowledge Proofs for Zeiger [0.0] 与えられたゼーガーパズルの可解性を決定することは、非等値な正の3SAT問題からの還元によってNP完全であることが証明される。
また,Zeigerの物理ゼロ知識証明プロトコルを構築することで,証明者がパズルの解の存在を物理的に示すことができる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:48:40 GMT)
Multi-modal Data Fusion and Deep Ensemble Learning for Accurate Crop Yield Prediction [0.0] 本研究では、収穫量を予測するために設計された新しいDeep EnsembleモデルであるRicEns-Netを紹介する。
この研究は、合成開口レーダ(SAR)の使用、センチネル1, 2, 3衛星からの光リモートセンシングデータ、表面温度や降雨などの気象測定に焦点を当てている。
主な目的は、複雑な環境データを扱うことができる機械学習フレームワークを開発することにより、収量予測の精度を高めることである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 22:48:27 GMT)
Multi-granular Training Strategies for Robust Multi-hop Reasoning Over Noisy and Heterogeneous Knowledge Sources [0.0] マルチソースマルチホップ質問応答(QA)は自然言語処理における課題である。
既存の手法は、しばしばカスケードエラー、知識衝突の処理が不十分なこと、計算の非効率さに悩まされる。
パラメトリックおよび検索された知識を動的に融合する適応多元的知識指向推論(AMKOR)を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:06:43 GMT)
Motion Control in Multi-Rotor Aerial Robots Using Deep Reinforcement Learning [0.0] 本稿では, 付加製造用ドローンの動作制御問題への深層強化学習の適用について検討する。
本稿では,AMタスクにおけるウェイポイントナビゲーションを行うマルチロータドローンの適応制御ポリシーを学習するDRLフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 19:00:16 GMT)
MindCraft: Revolutionizing Education through AI-Powered Personalized Learning and Mentorship for Rural India [0.0] MindCraftは、人工知能(AI)を活用してインドの農村部で教育に革命をもたらすよう設計されたモダンなプラットフォームである
本稿では、農村部の学生が直面する課題、AIの変革的ポテンシャル、そしてMindCraftが、公平な教育システムにスケーラブルで持続可能なソリューションを提供する方法について考察する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:26:03 GMT)
Machine learning surrogates for efficient hydrologic modeling: Insights from stochastic simulations of managed aquifer recharge [0.0] 機械学習シュロゲートモデルが10%未満の絶対パーセンテージ誤差を達成可能であることを示す。
このワークフローを,将来的な管理帯水層帯水層における飽和地下水流動のシミュレーションに応用する。
MLサロゲートモデルは10%の平均的な絶対パーセンテージエラーと、高次実行時の保存を達成できる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:06:31 GMT)
InnerSource Circumplex Model: Mapping Cross-organizational Developer Collaboration Patterns with Insights from Japanese Corporate Experience [0.0] 本研究では,従来のプログラム進化モデルを超える多層トポロジカル進化が,インナーソースの採用に関係していることを示す。
この研究は、内部ソーストポロジ、多層インセンティブモデル、インナーソースサーキュムプレックスモデルという3つの理論的フレームワークを提案する。
これらの調査結果は、InnerSourceの採用の成功には、トップダウンプログラムの構造化とボトムアップの自発的なコラボレーションを並行して追求する必要があることを再確認した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 06:31:27 GMT)
Impact of Data Poisoning Attacks on Feasibility and Optimality of Neural Power System Optimizers [0.0] 本稿では,直流最適潮流問題の解法であるMLに基づく最適化プロキシに対するデータ中毒攻撃の影響について検討する。
具体的には, ペナルティに基づく3つの方法のレジリエンス, 反動後のアプローチ, および毒殺攻撃による副作用に対する直接的なマッピングアプローチを比較した。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 00:06:10 GMT)
Image-Based Alzheimer's Disease Detection Using Pretrained Convolutional Neural Network Models [0.0] アルツハイマー病は治療不能な進行性脳障害であり、記憶、思考能力、そして最も基本的なタスクを完遂する能力を失う。
本研究は、神経イメージング技術を用いて捉えたバイオマーカーからアルツハイマー病を検出するコンピュータ診断システムを提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:43:08 GMT)
Hierarchical Polysemantic Feature Embedding for Autonomous Ransomware Detection [0.0] ランサムウェアの進化には、より洗練された検出技術の開発が必要である。
提案するフレームワークでは,ランサムウェア関連機能を非ユークリッド空間に埋め込んでいる。
実験により、このフレームワークは従来の機械学習ベースのモデルよりも一貫して優れていた。
提案手法は,検出性能と処理オーバーヘッドのバランスを保ち,現実のサイバーセキュリティアプリケーションの候補となる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 21:46:36 GMT)
Heading towards an Algebraic Heisenberg Cut [0.0] Infinity の前には, マクロな行動の早期の兆候が現れる。
このことは、IPP形式主義の量子物理学への包含を正当化する根拠となる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:30:09 GMT)
Free fermions with dephasing and boundary driving: Bethe Ansatz results [0.0] We use the Bethe ansatz to diagonalize the Liouvillian $mathcal Lscriptscriptstyle(2)$ the dynamics of the correlator。
正確には、$L(L-1)/2$複素エネルギーは、自明なシフトを除いて、デファーズに依存しない。
長時間の力学は、多数のレベルを含む実エネルギーのバンドによって支配される。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 09:41:31 GMT)
Exploring Visual Embedding Spaces Induced by Vision Transformers for Online Auto Parts Marketplaces [0.0] 本研究では,オンラインマーケットプレースから得られる自動車部品の画像の視覚的埋め込み生成におけるビジョントランスフォーマーモデルの有用性について検討した。
単一モダリティデータにのみ焦点をあてることで、不正な活動を示すパターンを検出するViTの可能性を評価する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 03:24:03 GMT)
Endmember Extraction from Hyperspectral Images Using Self-Dictionary Approach with Linear Programming [0.0] ハイパースペクトルイメージング技術を利用するための重要なステップは、観察シーンにおける材料のスペクトルシグネチャを特定することを目的とした、エンドメンバー抽出である。
理論的には、Hottopixx法として知られる線形プログラミング(LP)を用いた自己辞書的手法が、エンドメンバーの抽出に有効であることが示唆されている。
本稿では,計算時間を短縮し,終端抽出性能を向上させるために,Hottopixxの強化実装を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 08:59:55 GMT)
Critical Mathematical Economics and the Model-theoretic Foundations of Controversies in Economic Policy [0.0] 本論の目的は,数学とヘテロドックス経済学の交点における研究プログラムの可能性を提示し,議論することである。
本稿では,経済政策における論争の数学的・モデル論的基礎に焦点をあてる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 20:13:38 GMT)
Compressed sensing enabled high-bandwidth and large dynamic range magnetic sensing [0.0] ダイヤモンド中の窒素空洞(NV)中心は、磁場や電場、ひずみ、温度を感知するために用いられる。
本研究は,NV中心を用いた磁気センシングにおける圧縮センシング(CS)の新たな応用について紹介する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 23:27:22 GMT)
Community detection by spectral methods in multi-layer networks [0.0] MLDCSBM(Multilayer degree-corrected block model)のフレームワーク内でのコミュニティ検出のための2つのスペクトルクラスタリングアルゴリズムを解析する。
1つのアルゴリズムは隣接行列の和に基づいており、もう1つは2乗隣接行列の偏りの和を利用する。
平均モジュラリティを最大化することにより,コミュニティ多層ネットワークの数を推定する戦略を提供する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 01:39:04 GMT)
Approaching maximal precision of Hong-Ou-Mandel interferometry with non-perfect visibility [0.0] 量子力学において、プローブとしての量子状態を用いたパラメータ推定において達成される精度は、測定戦略によって決定される。
可視性のある精度のスケーリングは、プローブとして使用される状態が占有する時間周波数位相空間の有効面積に依存することが示され、最適なスケーリングが存在することが分かる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 16:47:59 GMT)
Agency in Artificial Intelligence Systems [0.0] 人工知能(AI)研究の現在の発展が、知覚的なAIシステムに繋がる、という一般的な懸念がある。
しかし、なぜ知的なAIシステムが人類に利益をもたらすことができないのか?
私は、AIシステムが我々の社会に対して利他的または悪意ある態度を発達させるのか、その機関の性質は何かと尋ねる。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 02:21:14 GMT)
A Sociotechnical Approach for Knowledge Management (KM) [0.0] このKMの社会技術的ビジョンは、(1)商業的関心事からKMを排除し、(2)異なるKM技術を分割し、(3)KMの社会的および技術的構成要素に関連するパラダイムを問う。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:46:04 GMT)
A Semi-Supervised Text Generation Framework Combining a Deep Transformer and a GAN [0.0] 本稿では、テキスト生成のための生成逆ネットワークと、深層生成事前学習型トランスフォーマー言語モデルとを接続するフレームワークを提案する。
提案モデルではまず,24層からなる大規模かつ多様なテキストコーパス上で,教師なしの事前学習を行う。
また,本論文では,実際のデータをGANサンプルで拡張する半教師付きアプローチを示す。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 15:38:43 GMT)
A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0] 本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。
この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 12:37:48 GMT)
A Constructor-Theoretic and Quantum Information Approach to the Three-Step Photoemission Model: A Theoretical Investigation [0.0] 従来の3段階光電子モデルの新たな理論的再構成について述べる。
この研究の動機は、現在の光電子モデルの実装を改善するための道を開くことである。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 17:32:48 GMT)
A Comprehensive Survey on Image Signal Processing Approaches for Low-Illumination Image Enhancement [0.0] 人々がより視覚的に集中するようになるにつれて、高品質なグラフィック情報の必要性が高まっています。
キャプチャされた画像は、しばしば可視性が悪く、画像キャプチャ装置や照明条件の制限により、高いノイズが生じる。
しかし、ディープラーニングに基づく手法は、最近この分野で進歩を遂げた。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 18:59:11 GMT)
A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation [0.0] 本稿では, 画像モダリティに基づいて医用画像データセットを分類し, U-Netとその各種改善モデルについて検討する。
U-NetとU-Netの変種アルゴリズムの4つの中心的改善機構を要約する。
今後の進歩に向けた潜在的な道筋と戦略を提案する。
論文参考訳(メタデータ) (Sun, 09 Feb 2025 13:11:51 GMT)