Competing Bandits: The Perils of Exploration Under Competition [99.7] オンラインプラットフォーム上での探索と競争の相互作用について検討する。
私たちは、スタークコンペティションが企業に対して、低福祉につながる「欲張り」バンディットアルゴリズムにコミットするよう促すことに気付きました。
競争を弱めるための2つのチャンネルについて検討する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:24:30 GMT)
Information Discovery in e-Commerce [97.7] 情報検索は、特に商品やサービスとの接続において、eコマースにおいて自然な役割を担っている。
電子商取引サイトの人気が高まり、電子商取引における情報発見の研究が活発な研究分野となっている。
電子商取引における情報発見手法は主に、電子商取引検索とレコメンデーションシステムの有効性の向上に重点を置いている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:14:41 GMT)
Information Discovery in e-Commerce [97.7] 情報検索は、特に商品やサービスとの接続において、eコマースにおいて自然な役割を担っている。
電子商取引サイトの人気が高まり、電子商取引における情報発見の研究が活発な研究分野となっている。
電子商取引における情報発見手法は主に、電子商取引検索とレコメンデーションシステムの有効性の向上に重点を置いている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:14:41 GMT)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.5] 本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:50:58 GMT)
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5] 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:00:25 GMT)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.7] 本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:56:12 GMT)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.7] 我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:56:12 GMT)
Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.1] 因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:31:23 GMT)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.2] 反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:56:19 GMT)
The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.7] アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:02:04 GMT)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.1] 本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:13:44 GMT)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.0] 制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
以上の結果から, 自律運転シミュレーションなどにおけるトランスフォーメーションの可能性を示すとともに, フレームワークの優れた性能を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:39:47 GMT)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.6] HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:22:23 GMT)
CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.4] 本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:04:32 GMT)
Tree Search for Language Model Agents [69.4] 対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:58:57 GMT)
Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.4] イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:54:01 GMT)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.6] テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:02:33 GMT)
Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People [68.6] 我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:09:33 GMT)
AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.8] AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。
時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。
AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:57:18 GMT)
MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding [67.3] MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。
Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。
得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:08:54 GMT)
MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.1] 本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:16:09 GMT)
Unlearn and Burn: Adversarial Machine Unlearning Requests Destroy Model Accuracy [65.8] 未学習システムのデプロイにおいて、重要で未調査の脆弱性を公開しています。
本稿では,訓練セットに存在しないデータに対して,逆学習要求を送信することにより,攻撃者がモデル精度を劣化させることができる脅威モデルを提案する。
我々は、未学習要求の正当性を検出するための様々な検証メカニズムを評価し、検証の課題を明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:47:04 GMT)
Towards Scalable Semantic Representation for Recommendation [65.1] 大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:10:56 GMT)
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.6] Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:30:51 GMT)
Skipping Computations in Multimodal LLMs [63.3] 本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:21:45 GMT)
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.1] 大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:42:16 GMT)
FlatQuant: Flatness Matters for LLM Quantization [58.3] 重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:10:28 GMT)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.9] 市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:13:27 GMT)
Towards Understanding Generalization and Stability Gaps between Centralized and Decentralized Federated Learning [57.4] 集中学習は常に分散学習(DFL)よりも一般化されていることを示す。
また、FLにおけるいくつかの一般的な設定について実験を行い、我々の理論解析が実験的な現象と一致し、いくつかの一般的なシナリオおよび実践シナリオにおいて文脈的に有効であることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:33:59 GMT)
Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective [57.4] フェデレートラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムである。
ディファレンシャルプライバシ(DP)は、私的保護の信頼性を捕捉し、保証するための古典的なアプローチである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:27:49 GMT)
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking [56.9] 本研究は、応答における2つの重要なスタイル的要素、すなわち言語形式と意味的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:05:16 GMT)
Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.1] 本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:51:15 GMT)
Transcendence: Generative Models Can Outperform The Experts That Train Them [55.9] 生成モデルがデータを生成する専門家の能力を超える能力を達成するとき、超越現象を研究する。
我々は,自動回帰変換器をトレーニングして,ゲームスクリプティングからチェスを学習し,トレーニングされたモデルが,データセットのすべてのプレイヤーよりも優れたパフォーマンスが得られることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:46:20 GMT)
Generalized Measures of Anticipation and Responsivity in Online Language Processing [55.6] 本稿では,オンライン言語処理における予測不確実性に関する古典情報理論の一般化を紹介する。
私たちのフレームワークは、予測と応答性に関する公式な定義を提供します。
モンテカルロシミュレーションを用いて、代替の応答性や予測の指標を推定することは実証的に有効であることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:28:12 GMT)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.1] IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:46:39 GMT)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.1] IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:46:39 GMT)
Out-of-Distribution Detection with a Single Unconditional Diffusion Model [54.2] アウト・オブ・ディストリビューション(OOD)検出は、異常サンプルを特定しようとする機械学習において重要なタスクである。
従来、教師なし手法はOOD検出に深い生成モデルを用いていた。
本稿では,単一モデルが多様なタスクに対してOOD検出を行うことができるかどうかを考察する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:11:36 GMT)
Improved Compositional Generalization by Generating Demonstrations for Meta-Learning [53.8] 従来未解決であった構成動作分割に対して,他の分割に対する性能の損失を伴わずに,大幅な性能向上を示す。
この場合、オラクル関数でさえも関連する実演を探すことは、メタラーニングを使用する際には十分な性能を得るには不十分である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:10:16 GMT)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.4] ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:21:58 GMT)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.5] LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:17:23 GMT)
CodaMal: Contrastive Domain Adaptation for Malaria Detection in Low-Cost Microscopes [51.6] マラリアは世界中で大きな問題であり、診断には低コストの顕微鏡(LCM)で効果的に動作するスケーラブルなソリューションが必要である。
ディープラーニングに基づく手法は、顕微鏡画像からコンピュータ支援による診断に成功している。
これらの方法には、マラリア原虫の感染した細胞とその生活段階を示す注釈画像が必要である。
LCMからの注記画像は、高精細顕微鏡(HCM)からの注記画像と比較して医療専門家の負担を著しく増大させる
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:46:14 GMT)
CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.0] 大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:43:42 GMT)
How Does Quantization Affect Multilingual LLMs? [50.9] 量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:26:41 GMT)
TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting [49.6] TimeBridgeは、非定常性と依存性モデリングの間のギャップを埋めるために設計された新しいフレームワークである。
TimeBridgeは、短期予測と長期予測の両方において、最先端のパフォーマンスを一貫して達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:47:38 GMT)
TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting [49.6] TimeBridgeは、非定常性と依存性モデリングの間のギャップを埋めるために設計された新しいフレームワークである。
TimeBridgeは、短期予測と長期予測の両方において、最先端のパフォーマンスを一貫して達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:47:38 GMT)
Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions [48.6] 結合自由エネルギーの変化を予測する(Delta Delta G$)ことはタンパク質-タンパク質相互作用の理解と調節に不可欠である。
本稿では,事前学習した逆折り畳みモデルから$Delta Delta G$予測への知識伝達のためのボルツマンアライメント手法を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:13:42 GMT)
Towards Multi-Modal Animal Pose Estimation: An In-Depth Analysis [48.6] 動物ポーズ推定(英: Animal pose Estimation、APE)は、様々なセンサーとモダリティ入力を用いて、動物の身体の部位を特定することを目的としている。
2013年以降、178の論文を評価することで、APEの手法は、センサーとモダリティのタイプ、学習パラダイム、実験的な設定、アプリケーションドメインによって分類される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:37:07 GMT)
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.5] 本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:46:02 GMT)
Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation [48.3] VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新規で影響力のある科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:16:22 GMT)
Towards the Effect of Examples on In-Context Learning: A Theoretical Case Study [47.4] In-context Learning (ICL)は、大規模言語モデル(LLM)がダウンストリームタスクに適応するための強力な機能として、いくつかの例(デモ)を活用することで登場した。
本稿では,2進分類タスクの理論的研究を行い,ICLが事前学習中にLLMが学習した知識と実例をどのように統合するかをよりよく理解する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:38:01 GMT)
Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller [47.0] SelfControlは、明示的な人間のアノテーションを持たない推論時モデル制御方法である。
勾配は、望まれる振る舞いに対する自己回帰生成プロセスを制御するために使用される。
実験では,複数の領域にまたがるSelfControlの有効性を実証した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:30:33 GMT)
TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities [46.9] タスク指向対話(TOD)システムは、情報収集を含むタスク指向の会話を効率的に処理することを目的としている。
情報収集にTODを正確に、効率的に効果的に活用する方法は、常に重要かつ困難な課題であった。
近年,Large Language Models (LLM) は対話,命令生成,推論において優れていることが実証されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:53:03 GMT)
Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision [45.7] 本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。
本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:53:00 GMT)
How to Compute the Probability of a Word [45.2] 本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:04:53 GMT)
Regret Minimization in Stackelberg Games with Side Information [44.7] 両プレイヤーがプレイ前に外部コンテキストを観察するStackelbergゲームの設定を形式化する。
非コンテキストバージョンとは対照的に、リーダーが完全な対向的な設定でノンレグレットを達成することは不可能であることを示す。
この結果から,2つの自然緩和において,非回帰学習が可能であることが示唆された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:29:23 GMT)
Adaptive Convolutional Neural Network for Image Super-resolution [43.1] 画像超解像のための適応畳み込みニューラルネットワーク(ADSRNet)を提案する。
上層ネットワークは、コンテキスト情報、カーネルマッピングの健全な情報関係、浅い層と深い層の関連性を高めることができる。
下位のネットワークは対称アーキテクチャを使用して、異なるレイヤの関係を強化し、より構造的な情報をマイニングする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:22:38 GMT)
Efficient Quantum Pseudorandomness from Hamiltonian Phase States [41.9] 我々は、ハミルトニアン相状態(HPS)問題と呼ばれる量子硬度仮定を導入する。
我々は、我々の仮定が少なくとも完全に量子的であることを示し、すなわち片方向関数を構成するのに使用できない。
仮定とその変形により、多くの擬似ランダム量子プリミティブを効率的に構築できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:16:16 GMT)
Efficient Quantum Pseudorandomness from Hamiltonian Phase States [41.9] 我々は、ハミルトニアン相状態(HPS)問題と呼ばれる量子硬度仮定を導入する。
我々は、我々の仮定が少なくとも完全に量子的であることを示し、すなわち片方向関数を構成するのに使用できない。
仮定とその変形により、多くの擬似ランダム量子プリミティブを効率的に構築できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:16:16 GMT)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.6] MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:56:40 GMT)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.3] 大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:47:11 GMT)
Untying the Reversal Curse via Bidirectional Language Model Editing [41.0] 大規模言語モデル(LLM)は、膨大な事実知識をパラメータに格納する。
LLMは、誤ったまたは時代遅れの知識のために意図しないテキストを幻覚させる傾向がある。
本研究では、双方向言語モデル編集について検討し、LLMが双方向で編集知識をリコールできるかどうかを評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:31:13 GMT)
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.9] 低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:44:01 GMT)
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.9] 低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:44:01 GMT)
Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.3] Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:02:31 GMT)
BANGS: Game-Theoretic Node Selection for Graph Self-Training [39.7] グラフ自己学習は、基礎となるグラフニューラルネットワーク(GNN)モデルをトレーニングするために、ラベルなしデータのセットを反復的に選択する半教師付き学習手法である。
本稿では,ノード選択の目的として,条件付き相互情報とラベル戦略を統一する新しいフレームワークであるBANGSを提案する。
我々のアプローチは、ゲーム理論に基づくもので、ある方法でノードを選択し、ノイズのある目的の下でロバスト性に関する理論的保証を提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:31:28 GMT)
DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models [39.4] DAREx-qは,高い刈取速度で性能を著しく向上させる再スケーリング係数の修正である。
我々は、DAREx-qが、LoRAのようなバニラパラメータ効率の良い微調整技術とシームレスに結合できることを実証した。
我々はDPPにおける重要度に基づくプルーニング手法の適用を再検討し、デルタパラメータが大きい場合のランダムな手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:21:58 GMT)
Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.1] 教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:48:34 GMT)
Mamba4Cast: Efficient Zero-Shot Time Series Forecasting with State Space Models [38.2] Mamba4Castは時系列予測のためのゼロショット基礎モデルである。
データセット固有の微調整を必要とせずに、多様な時系列タスクを堅牢に一般化する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:35:18 GMT)
EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.1] 身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:49:26 GMT)
A New Perspective to Boost Performance Fairness for Medical Federated Learning [37.5] 機能シフトの観点から性能の公平性を改善するためにFed-LWRを提案する。
具体的には, 特徴表現の階層的差異を推定することにより, 全病院におけるグローバルモデルのバイアスを動的に知覚する。
本稿では,2種類の医用画像セグメンテーションベンチマークを用いて提案手法の評価を行った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:19:46 GMT)
Likelihood-based Mitigation of Evaluation Bias in Large Language Models [37.1] 大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:57:43 GMT)
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages [36.5] LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。
しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。
我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:20:44 GMT)
ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model [36.3] 高速かつ制御可能な3D生成のためのエンドツーエンドフィードフォワードモデルであるControLRMを紹介する。
ControLRMは、2Dコンディションジェネレータ、コンディションエンコーディングトランス、トリプレーンデコーダトランスを備える。
条件訓練部では, トリプレーンデコーダをロックし, LRM内の数百万の3Dデータで事前訓練されたディープ・ロバストな符号化層を再利用する。
画像訓練部では, 3次元デコーダをアンロックして2次元表現と3次元表現の間に暗黙のアライメントを確立する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:47:20 GMT)
DuoDiff: Accelerating Diffusion Models with a Dual-Backbone Approach [36.2] 近年,各サンプリングステップの難易度に基づいてデノナイジングネットワークの深さを適応させる手法が提案されている。
本稿では,初期サンプリングステップでより浅いデノナイジングネットワーク,後半ステップでより深いネットワークを用いることにより,より高速な生成を提案する。
両バックボーンアプローチであるDuoDiffは、推定速度と生成品質の両方で既存の早期拡散法より優れていることを実証的に実証する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:00:29 GMT)
Doob's Lagrangian: A Sample-Efficient Variational Approach to Transition Path Sampling [34.9] 与えられた始点と所望の終点の間の軌跡に対する最適化問題として,Doobのh-変換の変分定式化を提案する。
提案手法は,軌道上の探索空間を大幅に削減し,高価な軌道シミュレーションを回避する。
実世界の分子シミュレーションとタンパク質折り畳みタスクにおいて,本手法が実現可能な遷移経路を見つける能力を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:37:49 GMT)
Perceptual Fairness in Image Restoration [34.5] グループ知覚指数(グループ知覚指数、GPI)は、グループの基底真理像の分布とそれらの再構成の分布の間の統計的距離である。
異なるグループのGPIを比較してアルゴリズムの公平性を評価し、全てのグループのGPIが同一であれば、パーセプティカルフェアネス(PF)が完璧であることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:43:47 GMT)
A Logical Fallacy-Informed Framework for Argument Generation [34.4] FIPOは、大規模言語モデルを論理的に健全な議論に導いてくれる、誤用インフォームドフレームワークである。
議論データセットの結果から,提案手法は誤り率を最大17.5%削減することを示した。
私たちのコードは alucamouchel.com/lucamouchel/Logical-Fallacies で利用可能です。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:49:49 GMT)
Doob's Lagrangian: A Sample-Efficient Variational Approach to Transition Path Sampling [34.0] 与えられた始点と所望の終点の間の軌跡に対する最適化問題として,Doobの$h$-transformの変分定式化を提案する。
提案手法は,軌道上の探索空間を大幅に削減し,高価な軌道シミュレーションを回避する。
実世界の分子シミュレーションとタンパク質折り畳みタスクにおいて,本手法が実現可能な遷移経路を見つける能力を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:37:49 GMT)
ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [33.8] イベントベースのビジュアルオドメトリーは、トラッキングとサブプロブレムを並列にマッピングすることを目的としている。
イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:35:27 GMT)
AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.6] オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:05:38 GMT)
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.5] FB-Benchは、大規模言語モデルの実際の使用シナリオにおける人間のフィードバックに対する応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:40:01 GMT)
A Novel RFID Authentication Protocol Based on A Block-Order-Modulus Variable Matrix Encryption Algorithm [33.4] 低コストRFIDセンサタグを用いた移動無線周波数識別(RFID)システムの認証について検討した。
AM-SUEO-DBLTKMアルゴリズムは従来のアルゴリズムよりも99.59%のタグストレージを節約できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:14:41 GMT)
Autoregressive Action Sequence Learning for Robotic Manipulation [33.0] ロボット操作タスクのためのシンプルなが効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:51:33 GMT)
Autoregressive Action Sequence Learning for Robotic Manipulation [33.0] ロボット操作タスクのためのシンプルなが効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:51:33 GMT)
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7] LLMを利用したマルチエージェントゲームのための新しいスキル獲得手法STRATEGISTを提案する。
本手法はモンテカルロ木探索による自己再生シミュレーションにより品質フィードバックを収集する。
ゲームにおけるアクションプランニングと対話生成の両面において,我々の手法をどのように利用できるかを紹介する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:16:30 GMT)
EG-SpikeFormer: Eye-Gaze Guided Transformer on Spiking Neural Networks for Medical Image Analysis [32.6] 眼球運動データを統合する臨床タスク用に設計されたSNNアーキテクチャであるEG-SpikeFormerを紹介する。
このアプローチは、従来のモデルでよく見られるショートカット学習の問題に効果的に対処する。
我々のEG-SpikeFormerは,医用画像分類作業におけるエネルギー効率と性能を向上するだけでなく,臨床関連性も向上する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:54:44 GMT)
Understanding and Guiding Weakly Supervised Entity Alignment with Potential Isomorphism Propagation [31.6] 本稿では,弱教師付きEA分析のための伝搬視点を提案する。
集約に基づくEAモデルは、ペアのエンティティ類似性に対する伝搬演算子を求めることを示す。
我々は、この演算子を組み込んだ一般的なEAフレームワークであるPipEAを開発し、集約ベースのモデルの種類ごとに精度を向上させる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:28:32 GMT)
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.4] 言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:31:25 GMT)
SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.8] SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:17:28 GMT)
ECHOPulse: ECG controlled echocardio-grams video generation [30.8] 心エコー検査(ECHO)は心臓評価に必須である。
ECHOビデオ生成は、自動監視を改善するソリューションを提供する。
ECHOPULSEはECG条件のECHOビデオ生成モデルである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:22:27 GMT)
Robust Graph Matching Using An Unbalanced Hierarchical Optimal Transport Framework [30.1] 本稿では,不均衡な階層的最適輸送フレームワークに基づく,新しい頑健なグラフマッチング手法を提案する。
グラフマッチングにおいて、クロスモーダルアライメントを利用するための最初の試みを行う。
様々なグラフマッチングタスクの実験は、最先端の手法と比較して、我々の手法の優越性と堅牢性を示している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:22:43 GMT)
ECHOPulse: ECG controlled echocardio-grams video generation [29.9] 心エコー検査(ECHO)は心臓評価に必須である。
ECHOビデオ生成は、自動監視を改善するソリューションを提供する。
ECHOPULSEはECG条件のECHOビデオ生成モデルである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:22:27 GMT)
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.5] ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:13:58 GMT)
A Speaker Turn-Aware Multi-Task Adversarial Network for Joint User Satisfaction Estimation and Sentiment Analysis [28.9] 対話レベルのユーザ満足度推定(USE)と感性分析(SA)のための話者ターン対応マルチタスク対応ネットワーク(STMAN)を提案する。
まず,タスク識別器を訓練して発話表現をよりタスク特化させるマルチタスク対向戦略を導入し,その上で,各タスクに相補的な共通特徴を抽出するために話者ターン認識型マルチタスクインタラクション戦略を利用する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:03:53 GMT)
When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games [28.9] 我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
様々なゲーム設定において、不確実性ギャップは、リーダーの戦略の相互作用数とセマンティレベルの関数によって上限づけられていることが示される。
リーダーの準最適戦略が大きな不確実性ギャップに悩まされるような一連のゲームを特定する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:46:51 GMT)
$\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases [28.8] 刑法上の$textbfP$reference $textbfL$earning framework A$textbfu$gmented with test case for code L$textbfM$ s。
PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。
PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:09:18 GMT)
Semantic-aware Representation Learning for Homography Estimation [28.7] 本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。
マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:17:41 GMT)
What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.6] 思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:42:19 GMT)
What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.6] 思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:42:19 GMT)
On the Optimization and Generalization of Multi-head Attention [28.3] マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:12:31 GMT)
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.4] 入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:48:12 GMT)
Relational Diffusion Distillation for Efficient Image Generation [27.1] 拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。
本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。
提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:46:23 GMT)
Relational Diffusion Distillation for Efficient Image Generation [27.1] 拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。
本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。
提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:46:23 GMT)
Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning [26.1] 本研究では,非平衡層固有の初期化分散と学習速度が特徴学習の度合いを決定するかを検討する。
分析の結果,保存量によって学習体制に影響を及ぼすことが示唆された。
我々は、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNにおける初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:38:28 GMT)
Debate-to-Write: A Persona-Driven Multi-Agent Framework for Diverse Argument Generation [25.4] 議論記述のためのペルソナベースのマルチエージェントフレームワークを提案する。
人間の議論に触発されて、我々はまず各エージェントに、その高いレベルの信念を表すペルソナを、ユニークな視点から割り当てる。
次にエージェントインタラクションプロセスを設計し、エージェントが協調して議論し、議論書の全体計画を形成するアイデアを議論できるようにします。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:40:03 GMT)
Nonstationary Sparse Spectral Permanental Process [24.1] 非定常カーネルのスパーススペクトル表現を利用した新しい手法を提案する。
この手法はカーネルタイプと定常性の制約を緩和し、より柔軟なモデリングを可能にする。
合成と実世界の両方のデータセットに対する実験結果から,本手法の有効性が示された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:34:04 GMT)
Nonstationary Sparse Spectral Permanental Process [24.1] 非定常カーネルのスパーススペクトル表現を利用した新しい手法を提案する。
この手法はカーネルタイプと定常性の制約を緩和し、より柔軟なモデリングを可能にする。
合成と実世界の両方のデータセットに対する実験結果から,本手法の有効性が示された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:34:04 GMT)
Fine-grained Attention I/O Complexity: Comprehensive Analysis for Backward Passes [24.1] LLM(Large Language Models)は、長いコンテキスト情報を処理する際、顕著な能力を示す。
列長に関する注意の二次的な複雑さは、重大な計算上の問題を引き起こす。
本稿では,後進パスに着目した注意機構のI/O複雑性の包括的解析を行う。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:01:30 GMT)
FedLog: Personalized Federated Classification with Less Communication and More Flexibility [24.0] フェデレーション表現学習(FRL)は、ローカルデータから効果的な特徴抽出によるパーソナライズされたフェデレーションモデルを学習することを目的としている。
オーバヘッドを低減するため、生モデルパラメータの代わりに十分なデータサマリーを共有することを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:30:00 GMT)
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.8] 本稿では,既存の埋め込みの最適線形結合を学習するために訓練されたアダプタモジュールを用いた語彙適応手法を提案する。
VocADTは、外部リソースや言語制約を必要とせずに、柔軟でスケーラブルなソリューションを提供する。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:45:24 GMT)
DiffuTraj: A Stochastic Vessel Trajectory Prediction Approach via Guided Diffusion Process [23.4] 船の操縦は、その固有の複雑さと不確定性によって特徴づけられ、船舶の軌道予測システムを必要とする。
従来の軌道予測法では, 容器運動の多モード性を表現するために潜伏変数を用いる。
我々は,不確実性から確実性への血管運動の遷移を明示的にシミュレートする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:50:18 GMT)
RATT: A Thought Structure for Coherent and Correct LLM Reasoning [23.3] 本稿では,思考過程の各段階における論理的健全性と事実的正当性の両方を考慮した新しい思考構造であるRetrieval Augmented Thought Tree(RATT)を紹介する。
様々な種類のタスクに関する実験では、RATT構造が既存の手法を事実的正当性と論理的整合性で著しく上回っていることが示されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:49:38 GMT)
CollabEdit: Towards Non-destructive Collaborative Knowledge Editing [23.0] この写本は、共同知識編集の第1回研究に掘り下げられている。
知識の重複、知識の衝突、知識の忘れという3つの課題を特定します。
グローバルなKE動作を模倣する新しいモデルマージ機構を用いた非破壊的協調型KEフレームワークであるCOLLABEDITを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:10:14 GMT)
Bridging Text and Image for Artist Style Transfer via Contrastive Learning [22.0] 本稿では,任意のスタイル転送を制御するためのCLAST(Contrastive Learning for Artistic Style Transfer)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための教師付きコントラスト訓練戦略を導入する。
また,AdaLNをベースとした新規かつ効率的な状態空間モデルを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:27:57 GMT)
MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping [21.6] 本稿では,このマッピングをトラッキングタスクとして定式化し,メモリラテント履歴を用いて時間とともに一貫した再構成を行うベクトルHDマッピングアルゴリズムを提案する。
MapTrackerは、nuScenesとAgroverse2の両方のデータセットの既存のメソッドを、従来のメトリクスと新しい一貫性を意識したメトリクスでそれぞれ8%と19%以上上回っている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:02:26 GMT)
Solving the Challenge Set without Solving the Task: On Winograd Schemas as a Test of Pronominal Coreference Resolution [21.2] 我々は,Winograd Challenge セットにおける言語モデル (LM) の強い性能にもかかわらず,OntoNotes で実証されたある種の固有曖昧性を解決する上で,これらのモデリング手法は比較的貧弱であることを示す。
提案手法は,各データセット間での固有コアの解法において,総合的に高精度な教師付きタスク固有システムを用いて,誘導型LMをアンサンブルする方法である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:04:53 GMT)
LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning [21.1] 大規模言語モデル(LLM)は、知識集約的なタスクにおけるパフォーマンスの低下を示すことがある。
大規模言語モデル(LINKED)における知識の抽出,フィルタリング,統合という新しい手法を提案する。
2つの複雑なコモンセンス推論ベンチマークに関する総合的な実験により、我々の手法はSOTAベースライン(最大9.0%の精度向上)を上回った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:12:22 GMT)
Diagnosing Strong-to-Weak Symmetry Breaking via Wightman Correlators [20.6] 近年の進歩は対称性の議論を拡大し、混合状態に分解した。
代替診断ツールとしてワイトマン相関器を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:04:40 GMT)
Keys to Robust Edits: from Theoretical Insights to Practical Advances [20.1] 大規模言語モデル(LLM)は知識の記憶と検索に革命をもたらしたが、矛盾や時代遅れな情報に対する課題に直面している。
本研究は、位置・エディット法における故障の原因を調査し、それらのキー・バリュー・モデリングに関する理論的知見を提供する。
経験的分析により、現在のメソッドで使われるキーは堅牢性と特異性要件を満たすことができないことが明らかになった。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:54:12 GMT)
Quantum Neural Network for Accelerated Magnetic Resonance Imaging [20.0] 本稿では、高速磁気共鳴イメージングのための量子および古典的ネットワークを含むハイブリッドニューラルネットワークを提案する。
実験結果から, ハイブリット・ネットワークは優れた再構成結果を得たことが示唆され, 高速磁気共鳴イメージングの画像再構成におけるハイブリッド量子古典ニューラルネットワークの適用可能性が確認された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:26:35 GMT)
On-Device Soft Sensors: Real-Time Fluid Flow Estimation from Level Sensor Data [19.8] この研究は、クラウド上にソフトセンサーを配置する代わりに、デバイス上でのソフトセンサーの採用にシフトし、効率の向上とデータセキュリティの強化を約束する。
本手法は,無線センサネットワーク内のデバイスに直接人工知能(AI)を配置することにより,エネルギー効率を大幅に向上させる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:44:50 GMT)
MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.8] 帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:12:36 GMT)
Neurally Integrated Finite Elements for Differentiable Elasticity on Evolving Domains [19.8] 進化的暗黙の関数として定義された領域の弾性シミュレータ。これは効率的で堅牢で、形状や材料に関して微分可能である。
重要な技術的革新は、暗黙の格子セル上で堅牢な数値積分のために、二次点に適合するように小さなニューラルネットワークを訓練することである。
提案手法は, 暗黙の前方シミュレーション, 編集中の3次元形状の直接シミュレーション, 物理に基づく新しい形状とトポロジーの最適化と, 微分可能レンダリングの併用における有効性を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:49:23 GMT)
A Complete Characterization of Learnability for Stochastic Noisy Bandits [19.4] 未知の報酬関数 $f*$ を既知の関数クラス $mathcalF$ で検討する。
任意の雑音を持つモデルクラスに対して、学習可能性の完全な評価を与える。
また、最適なクエリ複雑性を達成するためには適応性が必要であることも証明します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:23:34 GMT)
C-Adapter: Adapting Deep Classifiers for Efficient Conformal Prediction Sets [19.3] 精度を犠牲にすることなく共形予測器の効率を向上させるためにtextbfConformal Adapter (C-Adapter) を導入する。
特に、命令保存関数のクラスとしてアダプタを実装し、提案した損失に合わせて調整する。
C-Adapterを使用すると、このモデルは間違ったラベルに対して非常に高い非整合性スコアを生成する傾向にある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:28:54 GMT)
Preserving Old Memories in Vivid Detail: Human-Interactive Photo Restoration Framework [19.2] 写真修復は結果の質を向上させることができるが、コストと修復に要する時間の観点からすると、しばしば高い価格で提供される。
本稿では,複数のステージから構成されるAIベースの写真復元フレームワークについて述べる。
評価用データセットが公開されていないため,新しい写真復元データセットを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:23:08 GMT)
Offline to Online Learning for Real-Time Bandwidth Estimation [18.3] リアルタイムビデオアプリケーションは、様々なネットワーク条件でユーザエクスペリエンスを維持するために正確な推定を必要とする。
本稿では,データ駆動更新による帯域幅ベースのメソッドのパラメータチューニングを手動で置き換える,模倣学習ベースのソリューションであるMerlinを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:57:56 GMT)
Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.3] 大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚のような課題に直面している。
本研究では,モデルの知識境界を認識する能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。
実験結果から,提案手法が不確実性領域の同定能力を高めることが示唆された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:52:00 GMT)
PrivacyRestore: Privacy-Preserving Inference in Large Language Models via Privacy Removal and Restoration [18.1] PrivacyRestoreは、推論中のユーザの入力のプライバシを保護するためのプラグイン・アンド・プレイ方式である。
プライバシストアの有効性を評価するために、医療ドメインと法律ドメインをカバーする3つのデータセットを作成します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:21:23 GMT)
Mastering AI: Big Data, Deep Learning, and the Evolution of Large Language Models -- AutoML from Basics to State-of-the-Art Techniques [17.6] 論文は、初心者と経験豊富な実践者の両方を支援するために構築されており、人気のあるAutoMLツールに関する詳細な議論がある。
また、ニューラルネットワーク検索(NAS)やディープラーニングにおけるAutoMLのアプリケーションといった、新たなトピックにも対処している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:11:39 GMT)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.5] 単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:14:11 GMT)
Second-Order Min-Max Optimization with Lazy Hessians [17.2] 本稿では,凸凹型最小値最適化のための2次法について検討する。
計算コストは反復的にヘッセンによって削減できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:30:17 GMT)
Looped ReLU MLPs May Be All You Need as Practical Programmable Computers [17.1] 2層ニューラルネットワークは、指数的に多くの隠れたニューロンが与えられる普遍的な近似器である。
仮に$mathsfReLU$-$mathsfMLP$が、現実的な数の重みを使って普遍的にプログラム可能なコンピュータにできるかどうかは不明である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:54:17 GMT)
Poverty mapping in Mongolia with AI-based Ger detection reveals urban slums persist after the COVID-19 pandemic [16.5] モンゴルは都市化が急速に進んでいる国の一つである。
都市におけるゲルの居住地は、社会経済的損失によってスラムとして認識されがちである。
我々は,2015年から2023年にかけて収集された衛星画像を利用して,モンゴルの首都ウランバタールのガーを検出するコンピュータビジョンアルゴリズムを開発した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:47:02 GMT)
Bridging Gaps: Federated Multi-View Clustering in Heterogeneous Hybrid Views [16.4] フェデレートされたマルチビュークラスタリング(FedMVC)は、複数のクライアントに分散されたマルチビューデータのクラスタ構造を調べるために登場した。
異種ハイブリッドビューに関連する2つの課題を同時に解決する新しいFedMVCフレームワークを提案する。
提案手法はFedMVCにおける異種ハイブリッドビューを処理し,最先端の手法より優れる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:43:47 GMT)
Breaking the Memory Wall for Heterogeneous Federated Learning via Model Splitting [16.4] フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のデバイスが共同で共有モデルをトレーニングすることを可能にする。
参加するデバイス上の限られたメモリリソースと組み合わさったモデル複雑性の増大は、現実のシナリオにおけるFLの展開を著しくボトルネックにする。
本稿では,デバイス側のメモリフットプリントを効果的に削減するフレームワークであるSmartSplitを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:23:21 GMT)
Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.4] より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:11:51 GMT)
Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.3] 推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:01:16 GMT)
Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.3] 推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:01:16 GMT)
EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.2] 大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。
実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。
EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:02:22 GMT)
ELICIT: LLM Augmentation via External In-Context Capability [16.2] algは2つのモジュールからなるフレームワークで、タスクベクトルを効果的に保存し再利用する。
algは、モデル機能の適応的な適用を可能にするプラグイン・アンド・プレイパフォーマンス・ブースターとして機能する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:19:06 GMT)
RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.2] 類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:42:28 GMT)
Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models [15.1] Misinfo-Generalは、偽情報モデルのアウト・オブ・ディストリビューションの一般化を行う能力を評価するためのベンチマークデータセットである。
一般化時間,イベント,トピック,パブリッシャ,政治バイアス,誤情報型および設計評価手順の6つの軸を識別する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:46:36 GMT)
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.1] Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:36:28 GMT)
Debiasing Vison-Language Models with Text-Only Training [15.1] 視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:34:46 GMT)
Zero-shot Commonsense Reasoning over Machine Imagination [14.4] 機械生成画像から得られる視覚信号とテキスト入力を補完する新しいゼロショットコモンセンス推論フレームワークであるImagineを提案する。
報告バイアスを緩和し、一般化能力を増強する際の機械的想像力の強さを強調し、既存の手法を大きなマージンで上回ることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:15:11 GMT)
Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.7] 本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。
Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。
この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:57:09 GMT)
DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning [13.6] DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:21:00 GMT)
EquiJump: Protein Dynamics Simulation via SO(3)-Equivariant Stochastic Interpolants [13.5] EquiJumpは移動可能なSO(3)-同変モデルで、全原子タンパク質の動力学シミュレーションの時間ステップを直接ブリッジする。
提案手法は様々なサンプリング手法を達成し,高速な折りたたみタンパク質の軌道データに基づく既存のモデルと比較した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:22:49 GMT)
Motion Manifold Flow Primitives for Language-Guided Trajectory Generation [13.4] テキストベーストラジェクトリ生成モデルは、データセットのサイズが小さく、トラジェクトリ空間の高次元性、およびテキスト条件運動分布の固有の複雑さのため、開発が困難である。
本稿では,3つの課題すべてに対処する上で,少数の実演データのみに依存したテキストベーストラジェクトリ生成モデルを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:35:28 GMT)
Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster [13.3] 映画ジャンルの分類は、映画マーケティング、オーディエンスエンゲージメント、レコメンデーションシステムにおいて重要な役割を果たしている。
映画ジャンルの分類に関する以前の調査は、主にプロット・サマリー、サブタイトル、トレーラー、映画のシーンで検討されてきた。
本稿では,多言語映画ジャンル分類問題に対処するために,視覚的・テキスト的視点から映画ポスターを利用する枠組みを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:14:18 GMT)
AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [13.0] AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。
ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:57:53 GMT)
Contrastive Learning for Implicit Social Factors in Social Media Popularity Prediction [12.8] 我々は、ポスト人気に影響を与えるソーシャルプラットフォームによってもたらされる要因について研究する。
これらの要因には、コンテンツ関連性、ユーザ影響の類似性、ユーザアイデンティティが含まれる。
本稿では、コンテンツ関連性、ユーザ影響の類似性、ユーザアイデンティティなど、人気に関する3つの暗黙的な社会的要因を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:25:11 GMT)
Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence [12.6] 本稿では,基礎視覚モデルの特徴から意味的手がかりを抽出し,局所的特徴マッチングを強化する手法を提案する。
カメラのローカライゼーションにおける性能は平均29%向上し,既存の6つのディスクリプタの適応版を提示する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:45:26 GMT)
HG2P: Hippocampus-inspired High-reward Graph and Model-Free Q-Gradient Penalty for Path Planning and Motion Control [12.5] ゴール条件付き階層強化学習(HRL)は、複雑な到達タスクを単純なサブゴール条件付きタスクのシーケンスに分解する。
本稿では,脳機構をグラフベースで計画するHRLを橋渡しし,海馬-線条体様の二重制御系仮説を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:46:31 GMT)
Improving 3D Finger Traits Recognition via Generalizable Neural Rendering [12.3] 指の特徴に対する3次元生体計測技術は、認識と反偽造の強力な能力を示す。
既存の方法は、まずモデルを再構築し、3Dモデルから特徴を抽出する明示的な3Dパイプラインに従う。
3Dフィンガーバイオメトリックスのための新しい一般化可能なNeRFであるFingerNeRFを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:27:21 GMT)
What model does MuZero learn? [12.2] 我々は、最先端の深層モデルに基づく強化学習アルゴリズムであるMuZeroについて研究する。
この結果から, ムゼロのモデルは, 目に見えない政策を評価する際に, 一般化に苦慮していることが明らかとなった。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:15:49 GMT)
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence [12.1] 本稿では,KL(Kulback-Leibler)の発散を最小限に抑えたONMFの新しいモデルとアルゴリズムを提案する。
我々は,KL-ONMFの交互最適化に基づくアルゴリズムを開発し,文書分類とハイパースペクトル画像アンミックスのためのFrobenius-normベースのONMFで良好に動作することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:40:20 GMT)
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence [12.1] 本稿では,KL(Kulback-Leibler)の発散を最小限に抑えたONMFの新しいモデルとアルゴリズムを提案する。
我々は,KL-ONMFの交互最適化に基づくアルゴリズムを開発し,文書分類とハイパースペクトル画像のアンミックスのためのFrobenius-normベースのONMFで良好に動作することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:40:20 GMT)
Scito2M: A 2 Million, 30-Year Cross-disciplinary Dataset for Temporal Scientometric Analysis [11.7] 我々は,200万以上の学術論文を収録した縦型サイエントメトリックデータセットであるScyto2Mを紹介した。
我々はScyto2Mを用いて,30年以上にわたる時間的調査を行い,サイエントメトリーの重要な課題を探求した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:16:57 GMT)
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.2] 本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:01:17 GMT)
Exploring space efficiency in a tree-based linear model for extreme multi-label classification [11.2] Extreme Multi-label Classification (XMC) は、複数のラベルから関連するサブセットを特定することを目的としている。
XMCの様々なアプローチの中で、ツリーベースの線形モデルは効率と単純さの点で有効である。
本研究では,その空間における理論的および実証的な解析を行い,疎データの仮定の下で木モデルを記憶する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:02:40 GMT)
Text Classification using Graph Convolutional Networks: A Comprehensive Survey [11.1] グラフ畳み込みネットワーク(GCN)ベースのアプローチは、この10年間、この分野で大きな注目を集めてきた。
本研究の目的は,GCNをベースとしたテキスト分類手法をアーキテクチャや監視方法に関して要約し,分類することである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:03:42 GMT)
Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach [10.5] 本稿では,CNNに基づく分類システムに適用可能な,ポストホックな自然言語説明法を提案する。
影響力のあるニューロンと対応する活性化マップを分析して、分類器の決定過程の忠実な記述を生成する。
実験の結果,提案手法により構築されたNLEは,より信頼性が高く,忠実であることがわかった。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:25:02 GMT)
Rapid aerodynamic prediction of swept wings via physics-embedded transfer learning [10.2] 機械学習モデルは、超音速旋回翼流場を迅速に取得する有望な方法を提供する。
モデルを効率的に学習するための物理組込み移動学習フレームワークを提案する。
データセットのサイズを減らすには、ウィングトレーニングサンプルの半分未満は、非トランスファーフレームワークと同じエラーレベルに達する必要がある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:49:36 GMT)
Rapid aerodynamic prediction of swept wings via physics-embedded transfer learning [10.2] 機械学習モデルは、超音速旋回翼流場を迅速に取得する有望な方法を提供する。
モデルを効率的に学習するための物理組込み移動学習フレームワークを提案する。
データセットのサイズを減らすには、ウィングトレーニングサンプルの半分未満は、非トランスファーフレームワークと同じエラーレベルに達する必要がある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:49:36 GMT)
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.1] 我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:21:44 GMT)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [10.0] person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:24:33 GMT)
Modeling groundwater levels in California's Central Valley by hierarchical Gaussian process and neural network regression [9.8] 中央バレー帯水層の3次元岩相テクスチャモデルから学習し,地下水位をモデル化するための新しい機械学習手法を考案した。
本研究では,不規則な井戸データを持つ流域における帯水層応答に対する水文学的理解を補うためにモデル予測がどのように用いられるかを示す。
以上の結果から,2017年と2019年のカリフォルニアの湿潤年は,前回の干ばつによる地下水損失の補充にはほとんど効果がなかったことが示唆された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:55:59 GMT)
Data Deletion for Linear Regression with Noisy SGD [9.8] 古典線形回帰タスクにおける1ステップ雑音SGDの完全削除点問題を提案する。
本研究は,データ削除の重要性を浮き彫りにして,この分野におけるさらなる研究の必要性を緊急に求めるものである。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:20:26 GMT)
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.7] VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:17:03 GMT)
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective [9.6] 学習後モデルの一般化能力は生成モデルから得られる情報ゲインによって決定されることを示す。
本稿では,GGMIによる一般化ゲインの概念を導入し,一般化ゲインと情報ゲインの関係を明らかにする。
この分析は、合成データ生成の理論基盤として機能し、後学習モデルの一般化能力との関係をさらに強調する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:44:06 GMT)
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective [9.6] 学習後モデルの一般化能力は生成モデルから得られる情報ゲインによって決定されることを示す。
また,GGMIによる一般化ゲインの概念を導入し,一般化ゲインと情報ゲインの関係を明らかにする。
この分析は、合成データ生成の理論基盤として機能し、後学習モデルの一般化能力との関係をさらに強調する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:44:06 GMT)
Advanced Gesture Recognition in Autism: Integrating YOLOv7, Video Augmentation and VideoMAE for Video Analysis [9.2] 本研究は, 子どもが日常活動を行う際に, 自然環境下で撮影した映像を分析し, 自閉症を示唆する反復行動を特定することを目的とする。
焦点は、回転、ヘッドバンピング、腕の羽ばたきといったリアルタイムの反復的なジェスチャーを正確に分類することである。
提案手法の重要な構成要素は、ビデオデータの空間的・時間的分析を改善するモデルである textbfVideoMAE の利用である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:55:37 GMT)
Advancing Bug Detection in Fastjson2 with Large Language Models Driven Unit Test Generation [9.0] ユニットテスト生成技術は、様々なライブラリのバグを特定するために広く採用されている。
産業実践において、図書館内のオラクルのバグを露呈するための体系的なテストは限られている。
テストGenでは、34の実際のバグがfast2で見つかり、そのうち30がすでに修正されており、うち12の非クラッシングバグが修正されています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:46:05 GMT)
Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning Tasks [8.9] Q-Formerにおけるパラメータ効率の良い微細チューニング(PEFT)の有効性について検討する。
Q-FormerにPEFTを適用すると、トレーニング可能なパラメータの2%未満で完全に微調整できる。
本研究は,視覚言語推論作業において,自己注意層が顕著に重要であることを明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:51:05 GMT)
GETS: Ensemble Temperature Scaling for Calibration in Graph Neural Networks [8.5] グラフニューラルネットワークは強力な分類結果を提供するが、しばしばキャリブレーション性能の低下に悩まされ、自信過剰や自信不足につながる。
温度スケーリングのような既存のポストホック法はグラフ構造を効果的に利用できないが、現在のGNNキャリブレーション法は様々な入力情報とモデルアンサンブルを併用する可能性をしばしば見落としている。
本稿では,10GNNベンチマークデータセットに対して予測キャリブレーション誤差を25%低減し,入力とモデルのアンサンブル戦略を組み合わせた新しいキャリブレーションフレームワークであるGraph Ensemble TemperatureScalingを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:34:41 GMT)
ALNSynergy: a graph convolutional network with multi-representation alignment for drug synergy prediction [8.3] 薬物の組み合わせは、特定の疾患を同時に治療するための2つ以上の薬物の使用を指す。
本研究では,薬物相乗効果を予測するための多表現アライメントを備えたグラフ畳み込みネットワークであるALNSynergyを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:21:41 GMT)
StarLKNet: Star Mixup with Large Kernel Networks for Palm Vein Identification [7.9] 静脈識別技術は 高いセキュリティと利便性を提供する
畳み込みニューラルネットワーク(CNN)は静脈の同定に広く利用されている。
CNNは静脈画像からグローバルな特徴表現を効果的に抽出できない。
大規模なカーネル畳み込みに基づくパームベイン識別ネットワークである textbfStarLKNet を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:01:10 GMT)
Inference and Verbalization Functions During In-Context Learning [7.5] 大規模言語モデル(LM)は、推論中の新しいタスクを解決するために、いくつかのデモからコンテキスト内で学習することができる。
以前の研究では、いくつかの設定では、ICLのパフォーマンスは無関係なラベルによって最小限に影響を受けることが観察された。
我々は、LMが2つのシーケンシャルなプロセスを通して無関係なラベルでICLを実行すると仮定する:タスクを解く推論関数と、ラベル空間に推論された回答をマッピングする動詞化関数である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:31:37 GMT)
Society of Medical Simplifiers [7.5] 本稿では,SOM(Society of Mind)哲学に触発された新しい枠組みであるSociety of Medical Simplifiersを紹介する。
提案手法では,LLMの長所を,レイパーソン,Simplifier,メディカルエキスパート,Language Clarifier,Redundancy Checkerの5つの異なる役割に割り当てることで活用する。
我々のフレームワークは最先端の手法に匹敵し、優れた可読性とコンテンツ保存を実現する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:52:56 GMT)
SciGisPy: a Novel Metric for Biomedical Text Simplification via Gist Inference Score [7.5] 我々は、Fizzy-Trace Theory(FTT)のGist Inference Score(GIS)にインスパイアされた新しい評価指標であるSciGisPyを紹介する。
SciGisPyは、単純化されたテキストが理解に必要な抽象的推論(gist)の形成をいかに促進するかを測定する。
The Cochrane Biomedical text simplification dataset on our experimental evaluation showed that SciGisPy developed outperforms the original GIS formulation。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:53:56 GMT)
Reliable, Routable, and Reproducible: Collection of Pedestrian Pathways at Statewide Scale [7.3] 本稿では,国家規模で歩行者経路データを収集,管理,提供,維持する手法を提案する。
約2年以内にワシントン州全体に向けて、荒削りな歩行者道を作ることを目標としている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:31:57 GMT)
Short-Form Videos and Mental Health: A Knowledge-Guided Neural Topic Model [7.3] 我々は、短いビデオの自殺思考が視聴者に与える影響を予測するための知識ガイド型NTMを開発した。
また,自殺思考に関係のある動画から,医学的な話題も発見する。
提案手法は,ビデオの自殺的思考の影響をプラットフォームが理解し,コミュニティガイドラインに違反したビデオのモデレーションを支援する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:47:33 GMT)
An Expeditious Spatial Mean Radiant Temperature Mapping Framework using Visual SLAM and Semantic Segmentation [7.2] 平均放射温度(MRT)の測定は非常に困難である。
ほとんどの一般的な測定手法は時間を要するが、ユーザフレンドリーではない。
本稿では,視覚的同時ローカライゼーションとマッピング(SLAM)とセマンティックセグメンテーション技術を用いた新しいMRT計測フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:50:35 GMT)
Manipulating OpenFlow Link Discovery Packet Forwarding for Topology Poisoning [7.2] トポロジ情報を変更するために OpenFlow リンクフォワードを操作する新しいトポロジ中毒技術である Marionette を紹介する。
我々のアプローチは見過ごされているが、広範囲にわたる攻撃ベクトルを露呈する。
Marionetteは5つのオープンソースコントローラと9つのOpenFlowベースのディスカバリプロトコルをうまく攻撃する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:04:21 GMT)
Multimodal Physical Activity Forecasting in Free-Living Clinical Settings: Hunting Opportunities for Just-in-Time Interventions [7.0] 本研究は,患者の活動行動を予測するライフスタイル介入システムであるMoveSenseを開発することを目的とする。
閉塞性睡眠時無呼吸症患者は, 58名, 60名であった。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:44:00 GMT)
GPTON: Generative Pre-trained Transformers enhanced with Ontology Narration for accurate annotation of biological data [6.7] GPTONは、構造化された知識を言語化されたオントロジーの用語を通じてLLMに注入し、上位5つの予測における遺伝子セットの68%の正確なテキストとアノテーションを達成している。
手動による評価により、GPTONの堅牢性は確認され、遺伝子セットアノテーションを超えるバイオメディカル研究を著しく前進させるLLMと構造化知識を活用する可能性を強調している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:27:05 GMT)
On Goodhart's law, with an application to value alignment [6.4] 我々は、真の目標と最適化された測度との相違点の尾の分布に批判的に依存していることを証明する。
この結果が、メトリクスに基づいて(かつそうでなければならない)大規模な意思決定とポリシーに与える影響を強調します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:26:08 GMT)
Exploring Demonstration Retrievers in RAG for Coding Tasks: Yeas and Nays! [6.3] 本稿では,3つの符号化タスクにおけるレトリバーの効率効率性トレードオフを系統的に評価する。
BM25は有効性は優れているが,知識ベースが1000を超えると効率が低下する。
大規模な検索では、効率の差がより顕著になり、ほぼ密集した検索者が最大利得を提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:31:01 GMT)
\llinstruct: An Instruction-tuned model for English Language Proficiency Assessments [6.3] 英語アセスメント(ELPA)のためのコンテンツを生成する8B命令調整モデルを提案する。
私たちの研究は、ELPAドメインで70K命令と説明のデータセットを作成することにあります。
これらのSFTモデルとSOTAモデルを比較するために、見知らぬ命令に対して人的評価を行う。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:47:45 GMT)
Robust Stochastic Optimization via Gradient Quantile Clipping [6.3] グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:42:27 GMT)
Investigating Annotator Bias in Large Language Models for Hate Speech Detection [6.3] 本稿では,ヘイトスピーチデータに注釈をつける際に,Large Language Models (LLMs) に存在するバイアスについて考察する。
具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。
我々は、この研究を行うために、私たちのカスタムヘイトスピーチ検出データセットであるHateSpeechCorpusを紹介します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:46:04 GMT)
Distilling Invariant Representations with Dual Augmentation [6.2] 教師モデルと学生モデルの両方において、不変な特徴学習を促進するために、二重強化戦略を導入する。
我々の手法は、蒸留中に両方のモデルに適用された異なる拡張を活用し、学生に堅牢で伝達可能な特徴をつかむよう促す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:27:23 GMT)
FiRework: Field Refinement Framework for Efficient Enhancement of Deformable Registration [6.1] 現在のディープラーニングに基づく登録法では、大きな変形をモデル化するために連続的な変形を用いる。
本稿では、教師なしの変形可能な登録に適したフィールドリファインメントフレームワーク(FiRework)を提案する。
我々は2つの脳MRIデータセットの実験を行い、2つの既存の変形可能な登録ネットワークをFiReworkで拡張した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:01:09 GMT)
Use of What-if Scenarios to Help Explain Artificial Intelligence Models for Neonatal Health [6.1] 部分的リスクの早期検出は、介入によって脳性麻痺などの有害な労働結果の予防または軽減を可能にする。
新生児健康のモデリングと説明のためのAI(Artificial Intelligence)を提案する(AIMEN)。
母性、胎児、産科、産科のリスクファクターから有害な労働結果を予測するだけでなく、その予測の背後にあるモデルの推論も提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:21:00 GMT)
Relevance for Human Robot Collaboration [6.0] 本稿では,新しい概念とシーン理解的アプローチ「関連性」を紹介する。
そこで我々は,関連性判定を選択的にトリガするイベントベースフレームワークを開発した。
実世界のデモでは、人間を日々のタスクでインテリジェントに支援する関連フレームワークの能力が紹介されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:19:12 GMT)
Information Design with Unknown Prior [5.9] 本稿では,情報デザイナーが事前に把握していない繰り返しの説得問題について検討する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
情報デザイナが後悔する$O(sqrtmathrmrReg(T) T)$, $mathrmrReg(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:51:29 GMT)
Information Design with Unknown Prior [5.9] 本稿では,情報デザイナーが事前に把握していない繰り返しの説得問題について検討する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
情報デザイナが後悔する$O(sqrtmathrmrReg(T) T)$, $mathrmrReg(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:51:29 GMT)
A Simple yet Effective Subway Self-positioning Method based on Aerial-view Sleeper Detection [5.9] 現在の地下鉄の位置決め方式は、線路に沿って密にプレインストールされた位置決めビーコンに依存している。
地下鉄のロバストで便利な位置決め問題に対処するために,低コストでリアルタイムな視覚支援型自己位置決めフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:15:39 GMT)
Eco-Aware Graph Neural Networks for Sustainable Recommendations [5.8] グラフニューラルネットワーク(GNN)は、レコメンダシステムにとって有望なアプローチとして登場した。
本研究では,GNNベースのレコメンデーションシステムの環境影響について検討する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:26:04 GMT)
Inshrinkerator: Compressing Deep Learning Training Checkpoints via Dynamic Quantization [5.6] 最先端のアプローチには、結果のモデル品質(精度)と圧縮比とのトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。
本稿では,この変動を利用した非一様量子化手法,最適な量子化構成を動的に見つける効率的な探索機構,重みを再構成してチェックポイント差を最小限に抑える量子化対応デルタ圧縮機構を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:51:25 GMT)
CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation [5.5] 本稿では, クラックセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
提案手法では,Vm-unetを用いて,元のデータの長距離情報を効率的に取得する。
CrackSegDiffは、特に浅い亀裂の検出において、最先端の手法よりも優れている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:08:59 GMT)
CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation [5.5] 本稿では, クラックセグメンテーションのための新しいDPM手法であるCrackSegDiffを提案する。
グローバルな特徴のためにTransformerを使用する従来の方法とは異なり,本手法ではVm-unet citeruan2024vmを用いて,元のデータの長距離情報を効率的に取得する。
FINDデータセット内の3種類のき裂画像セグメンテーションタスクに関する実験的評価は、CrackSegDiffが最先端の手法より優れていることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:08:59 GMT)
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.5] 多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:54:19 GMT)
Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.5] 高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:04:10 GMT)
An Ensemble Scheme for Proactive Dominant Data Migration of Pervasive Tasks at the Edge [5.4] 本稿では,インフラ内の特定の場所に移動すべき適切なデータの識別について,自律エッジノードで実装する手法を提案する。
我々の目標は、オフロードされたデータ駆動タスクに関連するアクセスパターンを理解できるようにノードに装備することである。
これらのタスクは、元のホスティングノードにないデータの処理に依存することは明らかである。
これらのデータ間隔を推定するために,統計的指向モデルと機械学習フレームワークを統合したアンサンブルアプローチを用いる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:09:16 GMT)
Graph Neural Network Training Systems: A Performance Comparison of Full-Graph and Mini-Batch [5.4] グラフニューラルネットワーク(GNN)は,近年,グラフ構造化データの表現を学習する能力から注目されている。
GNNのトレーニングには、ミニバッチトレーニングとフルグラフトレーニングの2つの一般的な方法がある。
我々は,代表的フルグラフとミニバッチGNNトレーニングシステムの総合的な比較実験を行った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:50:29 GMT)
Reducing Data Bottlenecks in Distributed, Heterogeneous Neural Networks [5.3] 本稿では,組込みマルチコアおよびマルチコアシステムにおいて,ボトルネックサイズがディープラーニングモデルの性能に与える影響について検討する。
ハードウェア・ソフトウェア共同設計手法を適用し,データトラフィックを減らすため,データボトルネックを極めて狭い層に置き換える。
ハードウェア側の評価では、より高いボトルネック比が、ニューラルネットワークの層間でのデータ転送量を大幅に削減することを示している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:07:55 GMT)
Distribution-Aware Mean Estimation under User-level Local Differential Privacy [5.3] ユーザレベルのローカル差分プライバシに基づく平均推定の問題について考察する。
分布認識平均推定アルゴリズムに基づいて、平均推定タスクに対して、最悪の場合のリスクに対して、$M$依存上界を確立する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:57:52 GMT)
Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models [5.2] Low-Rank Adaptation (LoRA) は基礎モデルの効率的な微調整技術として人気がある。
凍結重量行列に残留誤差項を追加するFederated Exact LoRA(FedEx-LoRA)を提案する。
提案手法は,LoRAの効率を保ちながら,計算と通信のオーバーヘッドを最小限に抑えた正確な更新を実現する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:22:44 GMT)
SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search [5.1] 既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習エージェントを訓練する。
我々は,モンテカルロ木探索 (MCTS) ベースの CRS フレームワーク SAPIENT を提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:21:33 GMT)
Are Self-Attentions Effective for Time Series Forecasting? [5.0] 時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。
我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。
提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:35:29 GMT)
Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [5.0] コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。
iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:17:36 GMT)
Federated Learning with Quantum Computing and Fully Homomorphic Encryption: A Novel Computing Paradigm Shift in Privacy-Preserving ML [4.9] フェデレートラーニング(Federated Learning)は、複数の学習クライアントがプライベートデータを公開せずにモデル知識を共有できるようにする、従来の方法に代わるプライバシ保護手法である。
この研究は、古典層と量子層の両方を統合するフェデレート学習ニューラルネットワークアーキテクチャに完全同型暗号化スキームを適用した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:51:52 GMT)
Deep Transfer Learning: Model Framework and Error Analysis [4.9] 本稿では,単ドメインダウンストリームタスクに対して,サンプル$n$を多用したディープトランスファー学習のためのフレームワークを提案する。
本稿では,下流教師ありタスクにおけるリプシッツ関数の学習における収束率を大幅に向上させることができることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:24:35 GMT)
Fine-grained subjective visual quality assessment for high-fidelity compressed images [4.8] JPEG標準化プロジェクトであるAICは、高忠実度画像に対する主観的な画質評価手法を開発している。
本稿では,提案手法,高品質な圧縮画像のデータセット,およびそれに対応するクラウドソースによる視覚的品質評価について述べる。
また、単に目立った差分(JND)単位で品質スケールの値を再構築するデータ分析のアプローチも概説している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:37:19 GMT)
Interpretable Video based Stress Detection with Self-Refine Chain-of-thought Reasoning [4.5] 本稿では,ビデオベースストレス検出のための新しい解釈可能なアプローチを提案する。
本手法は,ストレスレベルを示すビデオシーケンスから微妙な行動・生理的手がかりを抽出することに焦点を当てる。
我々は、従来のビデオベースストレス検出法と比較して、その優れた性能を示すために、いくつかのパブリックおよびプライベートなデータセットに対するアプローチを評価した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:06:09 GMT)
Multidimensional Electrical Networks and their Application to Exponential Speedups for Graph Problems [4.5] 我々は、オルタナティブ・キルヒホフの法則とオルタナティブ・オームの法則を定義することで、新しい多次元電気ネットワークを開発する。
正規グラフの一種におけるパスフィンディング問題に対する指数的量子スピードアップを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:40:04 GMT)
Diabetic retinopathy image classification method based on GreenBen data augmentation [4.4] 糖尿病網膜症(DR)画像の診断のために,人工知能を用いた分類法を提案する。
このコアは、網膜画像からグリーンチャネルのグレースケール画像を抽出し、次にベンエンハンスメントを実行する、新しいデータ拡張手法であるGreenBenに組み込まれている。
糖尿病黄斑浮腫(DME)はDRに近縁な合併症であると考え,多タスク学習と注意モジュールに基づくDRとDMEの複合分類フレームワークを構築した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:52:28 GMT)
GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning [4.3] Video paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
結果はベンチマークデータセット間で優れたパフォーマンスを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 06:01:00 GMT)
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition? [4.1] 本稿では、従来SERモデルトレーニングで定義されていなかった感情を推定するゼロショット音声感情認識(SER)手法を提案する。
本稿では,バイポーラ感情としての購入意図に着目し,モデルの性能をゼロショットで推定する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:25:16 GMT)
Transformer Encoder Satisfiability: Complexity and Impact on Formal Reasoning [4.1] 変換器エンコーダ(TE)を考えるとSATは決定不可能であることがわかった。
SATが決定可能であるような現実的なシナリオを特定し、それに対応する複雑性境界を確立する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:20:02 GMT)
Search and Society: Reimagining Information Access for Radical Futures [3.9] 情報検索技術と研究は変貌を遂げている。
コミュニティは、この機会を受け入れて、社会的なニーズに関する研究課題を再編成すべきである、という私たちの見解である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:41:12 GMT)
Motor Focus: Fast Ego-Motion Prediction for Assistive Visual Navigation [3.8] Motor Focusは、視覚的なフィードに基づいて観察者の動き方向を予測する画像ベースのフレームワークである。
我々のフレームワークは、速度(>40FPS)、精度(MAE = 60ピクセル)、堅牢性(SNR = 23dB)においてその優位性を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:08:05 GMT)
Minimax rates of convergence for nonparametric regression under adversarial attacks [3.2] 非パラメトリック回帰設定における敵攻撃に対する堅牢性の限界を理論的に解析する。
我々の研究は、入力中の敵攻撃時の最小値レートが2項の和と同じであることを明らかにした。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:11:38 GMT)
Targeted Attack Improves Protection against Unauthorized Diffusion Customization [3.2] 拡散モデルは画像生成の新たなマイルストーンを築き、公共の関心を喚起する。
カスタマイズのために、未許可の画像に微調整できる。
標的外攻撃を利用した現在の保護は、十分に効果がないように見える。
ターゲット攻撃の導入により、不正拡散のカスタマイズに対する保護をシンプルかつ効果的に行うことを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:32:58 GMT)
Unique MS Lesion Identification from MRI [3.1] MS白質病変(WML)の特異な同定は,MS進行を特徴付ける上で重要である。
この研究により、脳MRIのWMLからより意味のある統計を計算できるようになる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:26:26 GMT)
Stochastic Subgradient Methods with Guaranteed Global Stability in Nonsmooth Nonconvex Optimization [3.1] まず、対応する微分包含物が強制的リャプノフ関数を許容する下次手法の一般的な枠組みについて検討する。
我々は,Lyapunov関数が非強制的であるような,幅広い下位段階の手法のグローバルな安定性を確立するためのフレームワークを提案するために,改良された分析法を開発した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:04:20 GMT)
Image Deraining with Frequency-Enhanced State Space Model [2.9] 本研究では,画像デライニングによる画像デライニングにSSMを導入し,DFSSM(Deraining Frequency-Enhanced State Space Model)を提案する。
我々は,複数のカーネルサイズを持つ畳み込みを用いて,様々なスケールの劣化を効果的に捕捉する,新しい混合スケールゲート畳み込みブロックを開発した。
合成および実世界の雨天画像データセットの実験により,我々の手法が最先端の手法を超越していることが判明した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:08:41 GMT)
Dynamics of specialization in neural modules under resource constraints [2.9] 構造的モジュラリティは機能的特殊化を保証するのに十分であるという仮説を,人工ニューラルネットワークを用いて検証する。
構造的モジュラリティに基づく静的な特殊化の概念は、現実世界の複雑さの状況における知性を理解するためのフレームワークとしては、あまりにも単純すぎると結論付けている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:17:32 GMT)
Soft Tester UE: A Novel Approach for Open RAN Security Testing [2.9] 本稿では,5GおよびO-RANデプロイメントのセキュリティを評価するソフトウェア定義テスト機器であるSoft Tester UE(Soft Tester UE)を紹介する。
ソフトなT-UEは新たなセキュリティ対策の開発を促進し、潜在的なセキュリティ侵害を予測し軽減する能力を強化する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:35:49 GMT)
LSTM-Based Proactive Congestion Management for Internet of Vehicle Networks [2.9] V2Xネットワークは様々な安全、エンターテイメント、商用アプリケーションをサポートしている。
本稿では,IoVネットワークのプロアクティブな混雑管理のためのフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:21:42 GMT)
SR-Stereo & DAPE: Stepwise Regression and Pre-trained Edges for Practical Stereo Matching [2.9] ドメインの相違を克服する新しい段階的回帰アーキテクチャを提案する。
疎基底真理で新しいドメインを適応するモデルのエッジ認識を高めるために,事前学習エッジ(DAPE)に基づくドメイン適応を提案する。
提案したSR-StereoとDAPEは,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:12:53 GMT)
Conformal Prediction: A Data Perspective [2.9] コンフォーマル予測(CP)はブラックボックスモデルに対して有効な予測推測を提供する。
現代のデータサイエンスは、データとモデルの複雑さの増加とともに、従来のCPメソッドに挑戦する。
本調査では,データ中心の観点からCPの基礎概念と最近の進歩を概観する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:47:49 GMT)
Conformal Prediction: A Data Perspective [2.9] コンフォーマル予測(CP)はブラックボックスモデルに対して有効な予測推測を提供する。
現代のデータサイエンスは、データとモデルの複雑さの増加とともに、従来のCPメソッドに挑戦する。
本調査では,データ中心の観点からCPの基礎概念と最近の進歩を概観する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:47:49 GMT)
Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.9] 画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:05:56 GMT)
Cross-Lingual and Cross-Cultural Variation in Image Descriptions [2.9] 画像記述における言語間差異に関する大規模な実証的研究を行った。
私たちは、31の言語とさまざまな場所の画像を持つマルチモーダルデータセットを使用します。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向がある。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:05:56 GMT)
Transformer-based Language Models for Reasoning in the Description Logic ALCQ [2.8] 自然言語のデータセット DELTA$_D$ を表現型記述論理言語 $mathcalALCQ$ を使って構築する。
教師付き細調整DeBERTaモデルと2つの大言語モデルの論理的推論能力について検討する。
データセットに微調整されたDeBERTaベースのモデルが、詳細チェックタスクをマスターできることを示します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:25:34 GMT)
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [2.8] 人書きコードとLLM生成コードのセキュリティと品質を比較した。
LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。
Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:35:42 GMT)
SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.8] 大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:36:07 GMT)
Extended Japanese Commonsense Morality Dataset with Masked Token and Label Enhancement [2.7] JCommonsenseMoralityデータセットを拡張した。
拡張JCMは13,975文から31,184文に成長した。
日本文化特有の複雑な道徳的推論課題において,eJCMで訓練したモデルの性能は有意に向上した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:21:40 GMT)
Are You Human? An Adversarial Benchmark to Expose LLMs [2.7] LLM(Large Language Models)は、会話中に人間を偽装する警告機能を実証している。
LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:33:50 GMT)
Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models [2.6] 行動の神経基盤を理解することは神経科学の基本的な目標である。
私たちのアプローチは、BeNeDiff'と呼ばれるもので、まずきめ細やかな神経部分空間を識別します。
次に、最先端の生成拡散モデルを使用して、各潜伏因子の神経力学を解釈する行動ビデオを合成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:28:56 GMT)
Power-Softmax: Towards Secure LLM Inference over Encrypted Data [2.5] ホモモルフィック暗号化(HE)は暗号化形式を持つために暗号手法を必要とする。
以前のアプローチでは、10倍を超える大きな度合いを持つ事前訓練されたモデルを直接近似していた。
トレーニングのための安定なフォームを提供し、トレーニングと近似し易い、新しいタイプの自己意図(self-attention)を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:32:42 GMT)
CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device [2.4] 本稿では、複数のユーザ入力を処理し、個人的コンテキストを局所的に理性的に扱うように設計された、オンデバイス・スモールランゲージ・モデル(SLM)フレームワークを提案する。
CAMPHORは階層的アーキテクチャを採用しており、高階推論エージェントは複雑なタスクを分解し、個人のコンテキスト検索、ツールインタラクション、動的プラン生成に責任を持つ専門家エージェントを調整する。
エージェント間でパラメータ共有を実装し、即時圧縮を活用することにより、モデルサイズ、レイテンシ、メモリ使用量を大幅に削減する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:28:10 GMT)
A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion [2.3] 本研究では,マルウェアのバイナリファイルをグレースケールのイメージに変換するためにminhashアルゴリズムを用いる。
この研究は、IDA Proを用いてオペコードシーケンスをデコンパイルし、抽出し、特徴ベクトル化にN-gramとtf-idfアルゴリズムを適用した。
CNN-BiLSTM融合モデルは、画像の特徴とオプコードシーケンスを同時に処理し、分類性能を向上させるように設計されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:10:44 GMT)
Automatic Speech Recognition with BERT and CTC Transformers: A Review [2.2] 本稿ではまず,自動音声認識(ASR)の基本概念を紹介し,それに関連する課題について論じる。
その後、BERTとCTC変換器のアーキテクチャと、ASRにおけるそれらの潜在的な応用について説明する。
本稿では,これらのモデルを音声認識タスクに用いたいくつかの研究をレビューし,得られた結果について考察する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:27:48 GMT)
A mathematical framework of intelligence and consciousness based on Riemannian Geometry [2.0] 知性を理解することは神経科学、認知科学、人工知能の中心的な研究である。
幾何解析の最近の進歩は、高次元情報表現と組織に対する新たな洞察を明らかにしている。
この写本は、知性と意識の構造とダイナミクスを記述する数学的枠組みを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 05:44:20 GMT)
Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution [1.9] SoS(Survival of the Safest)は、革新的な多目的プロンプト最適化フレームワークである。
これは、大きな言語モデルにおけるパフォーマンスとセキュリティの両方を同時に強化する。
SoSは、複雑な高次元の離散探索空間における最適化を高速化するスケーラブルなソリューションを提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:16:29 GMT)
Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models [1.8] 大規模言語モデル(LLM)は、様々な領域における事実知識の収集に長けている。
本研究では,Skiと呼ばれる新しい合成知識摂取法を提案する。
次に、Skiとそのバリエーションを3つの知識注入技術と統合し、言語モデルにおける知識を注入し、洗練する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:38:09 GMT)
Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and Statistical Approach [1.7] 本研究では,(1)NMTとヒト翻訳(HT)からのChatGPT生成翻訳の識別可能性,(2)翻訳タイプの言語的特徴,(3)ChatGPT生成翻訳とHT,あるいはNMTとの類似度について検討する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:58:29 GMT)
Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation [1.7] 本研究では,自動計測と人的評価の収束と相違について検討する。
自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。
その結果、高度な翻訳ツールの性能を評価する上で、人間の判断が不可欠であることが示された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:02:24 GMT)
Two-scale Neural Networks for Partial Differential Equations with Small Parameters [1.7] 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式(PDE)を小さなパラメータで解くための2スケールニューラルネットワーク手法を提案する。
提案手法は, トラルニケートパラメータの探索にフーリエ特徴やその他の計算的課税を加えることなく, 簡単な方法で小さなパラメータでPDEを解くことができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:54:28 GMT)
Tackling Coherent Noise in Quantum Computing via Cross-Layer Compiler Optimization [1.6] 量子コンピューティングハードウェアは、実行された量子プログラムの結果の品質を損なう量子ノイズに影響を受ける。
パラメータのドリフトや誤校正によるコヒーレントエラーは依然として重要な問題である。
本研究は、コヒーレントエラー軽減のための層間アプローチを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:39:06 GMT)
Cybersecurity in Industry 5.0: Open Challenges and Future Directions [1.6] 業界5.0の可能性を解き放つには、堅牢なサイバーセキュリティ対策が必要だ。
本稿では,潜在的な脅威とその対策について分析する。
これは、企業が業界5.0原則を安全に採用するためのサイバーセキュリティを中心とした新しいフレームワークを開発する必要性を強調している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:56:17 GMT)
Towards Supporting Legal Argumentation with NLP: Is More Data Really All You Need? [1.6] 訴訟における決定を正当化する法的推論と議論は、常にAIと法の中心であった。
法律NLPの最近の発展は、テキストから法的結論を統計的に分類することに集中している。
本稿では,AIと法学における伝統的な象徴的著作と,近年の法的NLPの進歩を概観する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:22:50 GMT)
Simplifying Random Forests' Probabilistic Forecasts [1.5] ランダムフォレスト(RF)は分類と回帰の両方に有用であることが証明されている。
本稿では,RFを用いた予測分布の簡易化について検討する。
既存のRFモデルを再訓練することなく、任意の予測タスクに適用することができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:25:56 GMT)
Simplifying Random Forests' Probabilistic Forecasts [1.5] ランダムフォレスト(RF)は分類と回帰の両方に有用であることが証明されている。
本稿では,RFを用いた予測分布の簡易化について検討する。
既存のRFモデルを再訓練することなく、任意の予測タスクに適用することができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:25:56 GMT)
Towards the Synthesis of Non-speech Vocalizations [1.5] DiffWave フレームワークを用いて,幼児の泣き声を無条件に生成することに焦点を当てた。
Baby ChillantoとDeBarbaro cryデータセットの2つの異なるデータセットを使用します。
これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:00:56 GMT)
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.5] 学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:58:02 GMT)
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.5] 学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:58:02 GMT)
Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [1.4] 人書きコードとLLM生成コードのセキュリティと品質を比較した。
LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。
Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:35:42 GMT)
Learning the Bitter Lesson: Empirical Evidence from 20 Years of CVPR Proceedings [1.4] 本研究では,コンピュータビジョンとパターン認識に関するemphConference on Computer Vision and Pattern Recognition(CVPR)研究と,Rich Sutton氏の提唱する"ビット・レッスン"の原則の整合性を検討する。
大規模言語モデル(LLM)を用いて,20年にわたるCVPRの抽象概念とタイトルを分析し,これらの原則の受容性を評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:06:13 GMT)
LexSumm and LexT5: Benchmarking and Modeling Legal Summarization Tasks in English [1.4] この研究は、英語の法的な要約タスクを評価するために設計されたベンチマークであるLexSummをキュレートする。
これは、米国、英国、EU、インドなどの様々な司法管轄区域から8つのイングランドの法的な要約データセットで構成されている。
我々は、法ドメイン内の既存のBERTスタイルエンコーダのみのモデルの制限に対処する、法的指向シーケンス・ツー・シーケンスモデルであるLexT5をリリースする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:16:51 GMT)
Multilingual Evaluation of Long Context Retrieval and Reasoning [1.3] 大きな言語モデル(LLM)は、長いコンテキストを扱うのに素晴らしい能力を示している。
5言語にわたる検索と推論のタスクに対して,長いコンテキストのLLMを評価した。
最高のパフォーマンスモデルは英語で約96%の精度を達成し、ソマリでは約36%の精度を目標文で達成している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:11:52 GMT)
Evaluating Multilingual Long-Context Models for Retrieval and Reasoning [1.3] 5言語にわたる検索および推論タスクにおいて,いくつかの大規模言語モデル (LLM) を評価する。
最高のパフォーマンスモデルは英語で約96%の精度を達成し、ソマリでは約36%の精度を目標文で達成している。
以上の結果から,長いコンテキストを処理する場合のLLMが直面する課題が浮き彫りになった。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:11:52 GMT)
qMRI Diffuser: Quantitative T1 Mapping of the Brain using a Denoising Diffusion Probabilistic Model [1.1] 定量的MRI(qMRI)は、組織特性に関連する客観的パラメータを提供することにより、重み付け画像よりも大きな利点を提供する。
深層学習に基づく手法は、一連の重み付き画像から定量的マップを推定する効果を実証している。
深部生成モデルを用いたqMRIの新しい手法であるqMRIディフューザを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:39:08 GMT)
Structured Regularization for Constrained Optimization on the SPD Manifold [1.1] 対称ゲージ関数に基づく構造化正規化器のクラスを導入し、より高速な非制約手法でSPD多様体上の制約付き最適化を解けるようにする。
構造正規化器は望ましい構造(特に凸性や凸の差)を保存または誘導するために選択できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:11:22 GMT)
Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.1] 本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:32:26 GMT)
Hey AI Can You Grade My Essay?: Automatic Essay Grading [1.0] 自動エッセイグレーディング(AEG)分野における最先端モデルよりも優れた新しいモデルを提案する。
我々は,エッセイの文の文法的特徴と構造的特徴のチェックにひとつのネットワークが責任を持ち,エッセイに含まれる全体概念のスコアリングに他のネットワークが責任を持つという,協調的・伝達的学習という概念を用いてきた。
提案手法の精度は85.50%である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:17:55 GMT)
Directed Testing of ORAN using a Partially Specified Declarative Digital Twin [1.0] リアルタイムパフォーマンステストは、システムテストとアルゴリズムテストの2つの異なる部分に分けられる。
アルゴリズムテスタは、システム実装に気づいていないため、リアルタイムおよびハードウェア・ソフトウェア(HW-SW)の能力についての洞察をほとんど提供しない。
私たちはDDT(Declaative Digital Twin)と呼ぶ革新的なDigital Twin技術を紹介します。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:19:55 GMT)
AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.7] 本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:03:15 GMT)
Token Pruning using a Lightweight Background Aware Vision Transformer [0.7] トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
バックグラウンドトークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いて,mAPを3%減少させることなく,スループットを30% - 40%向上させることができることを示した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:44:54 GMT)
AI Model Registries: A Foundational Tool for AI Governance [0.6] 我々は,AIガバナンスの基礎ツールとして,フロンティアAIモデルのための国家登録制度の実装を提案する。
我々は、類似産業における登録との比較に基づいて、そのような登録の合理性、設計、実施について考察する。
我々の提案は、イノベーションを育み、開発者の規制負担を最小限に抑えながら、政府の洞察を提供し、AIの安全性を高めるために設計されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:47:15 GMT)
Exploring Channel Distinguishability in Local Neighborhoods of the Model Space in Quantum Neural Networks [0.5] 量子ニューラルネットワーク(QNN)が登場し、注目されている。
QNNはトレーニングが難しいことで知られていますが、これは部分的にはAnsatzesと呼ばれるアーキテクチャによるものだと仮定しています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:20:26 GMT)
Domain Decomposition-based coupling of Operator Inference reduced order models via the Schwarz alternating method [0.4] 本稿では,サブドメイン局所縮小順序モデル (ROM) とサブドメイン局所完全順序モデル (FOM) を結合する手法を提案する。
提案手法は,OpInf ROMとFOMの任意の組み合わせを結合でき,モノリシックなFOM上での高速化が可能であることを実証する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:04:23 GMT)
Demystifying Visual Features of Movie Posters for Multi-Label Genre Identification [0.4] 本稿では,ポスターからのみ映画ジャンルを特定するための確率的モジュールを備えたディープトランスフォーマーネットワークを提案する。
実験では,インターネット映画データベース (IMDb) から13のジャンルの13882のポスターを入手した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:49:09 GMT)
Preparing a commercial quantum key distribution system for certification against implementation loopholes [0.2] 量子鍵分布(QKD)システムは、その広範な展開を可能にするために正式に認証される必要がある。
ここでは、この手順のための光ファイバQKDシステムを作成します。
我々は、既知の実装の抜け穴をハードウェアで解析し、新たな抜け穴を探索し、対策について議論する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:24:20 GMT)
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.2] テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:15:09 GMT)
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.2] テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:15:09 GMT)
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.2] テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:15:09 GMT)
Towards a Domain-Specific Modelling Environment for Reinforcement Learning [0.1] ドメイン固有のモデリング環境を開発するために、モデル駆動工学(MDE)手法とツールを使用します。
我々は、機械学習領域からの強化学習を目標とし、提案言語である強化学習モデリング言語(RLML)の評価を行った。
このツールは構文指向の編集、制約チェック、RLMLモデルからのコードの自動生成をサポートする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:56:01 GMT)
Green Recommender Systems: Optimizing Dataset Size for Energy-Efficient Algorithm Performance [0.1] 本稿では,データセットサイズを最適化することで,エネルギー効率の高いアルゴリズムの性能向上の可能性について検討する。
MovieLens 100K, 1M, 10M, Amazon Toys and Gamesデータセットで実験を行った。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:00:55 GMT)
VERITAS-NLI : Validation and Extraction of Reliable Information Through Automated Scraping and Natural Language Inference [0.0] フェイクニュースの台頭は、大衆の言論の整合性、社会的信頼、そして報道されたニュースソースに脅威をもたらす。
我々は,Webスクラッピング技術と自然言語推論(NLI)モデルを活用する新しいソリューションを提案する。
本システムは,複数のニュースチャンネルと広域ドメインにまたがる多種多様な自己計算評価データセットを用いて評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:25:12 GMT)
Universal Early-Time Growth in Quantum Circuit Complexity [0.0] 時間非依存ハミルトニアンのユニタリ時間進化作用素に対する量子回路の複雑性は、初期の線形成長によって制限されることを示す。
この限界における場の理論の複雑さの格子間隔に対する早期の挙動と依存を抽出することができ、これまで量子回路の複雑さについて既存の手法を用いて研究が困難であったシステムに対して、このアプローチがどのように適用されているかを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:31:06 GMT)
Tunable photon scattering by an atom dimer coupled to a band edge of a photonic crystal waveguide [0.0] フォトニック結晶の導波路の近くに閉じ込められた量子エミッタは、新しい量子物質-光インターフェースを実現するためのエキサイティングなプラットフォームとして登場した。
任意の空間分離を伴う原子二量体に結合したフォトニック結晶導波路における波長可変光子散乱について検討した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:19:02 GMT)
Traversing Emotional Landscapes and Linguistic Patterns in Bernard-Marie Koltès' Plays: An NLP Perspective [0.0] 本研究では,ベルナール=マリー・コルテスの戯曲における複雑な言語的・感情的な次元を自然言語処理(NLP)を用いて分析する。
高度な計算技術を統合することで、コルテスの物語スタイルを識別し、彼の劇的な振舞いにまたがる言語と感情の微妙な相互作用を明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:13:47 GMT)
Transfer of quantum game strategies [0.0] ゲーム間の戦略伝達に必要なQNS相関の新たなクラスを示す。
連関相関を定義し,各ゲームパーティに関連する標準$rm C*$-代数のテンソル積に作用するトレースに対応することを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:25:58 GMT)
Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0] 2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:25:27 GMT)
Towards an Incident Management Framework in Proprietary Software Ecosystems [0.0] この作業では、PSECOコンテキストで組織の管理チームをサポートするために、インシデント管理のためのフレームワークを導入します。
IM Frameworkは、組織目標、プラクティス、成功要因、関連するメリット、一般的な障壁の5つの中核的なカテゴリで構成されています。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 01:25:25 GMT)
Towards Automated Patent Workflows: AI-Orchestrated Multi-Agent Framework for Intellectual Property Management and Analysis [0.0] PatExpertは、特許関連のタスクを合理化し最適化するために設計された、自律的なマルチエージェント会話フレームワークである。
このフレームワークは、さまざまな特許関連のタスクに対してタスク固有の専門家エージェントをコーディネートするメタエージェントと、エラーハンドリングとフィードバックプロビジョニングのための批判エージェントで構成されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:46:32 GMT)
Towards Automated Patent Workflows: AI-Orchestrated Multi-Agent Framework for Intellectual Property Management and Analysis [0.0] PatExpertは、特許関連のタスクを合理化し最適化するために設計された、自律的なマルチエージェント会話フレームワークである。
このフレームワークは、さまざまな特許関連のタスクに対してタスク固有の専門家エージェントをコーディネートするメタエージェントと、エラーハンドリングとフィードバックプロビジョニングのための批判エージェントで構成されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:46:32 GMT)
The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0] 大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。
本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:54:53 GMT)
Tensorial Quantum Mechanics: Back to Heisenberg and Beyond [0.0] ハイゼンベルクのアプローチは一貫して発展してきたが、ディラックの公理的再形式は代わりに発展したと論じる。
我々は、ハイゼンベルクの元々のアプローチを立案した、新しいテンソル的提案を提示する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 13:52:26 GMT)
Symmetry aspects in an ideal Bose gas at thermal equilibrium [0.0] 理想的で非常に弱い相互作用を持つボース気体のある種の新しい基本対称性の側面を説明することは可能である。
一方向時間の伝播は、独立量子場の事前定義された等価収束から生じる。
グラウバーのコヒーレント状態は量子化場の定義と関係があることが示されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 08:55:34 GMT)
Structure of Artificial Neural Networks -- Empirical Investigations [0.0] 10年以内にDeep Learningは、人工知能の数え切れないほどの問題を、支配的な解法で克服した。
ニューラルネットワークの構造を形式的に定義することで、ニューラルネットワークの探索問題と解法を共通の枠組みで定式化することができる。
構造は違いをもたらすのか、それとも任意に選択できるのか?
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:13:28 GMT)
Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0] そこで本研究では,原型変圧器のアテンション機構を向上し,性能を向上させるための2つの新しい機構を提案する。
第1のメカニズムは、トレーニング中のトークン類似度行列におけるトークン内関係の優先順位付けを低減し、トークン間焦点を増大させる。
第2のメカニズムは、トークン類似性行列の学習可能な温度チューニングを導入し、固定温度値に関連する過度なスムーシング問題を緩和する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:58:45 GMT)
Robust Optical Flow Computation: A Higher-Order Differential Approach [0.0] 本研究は,2次テイラー級数近似の高精度化を利用して,光フロー計算のための革新的なアルゴリズムを提案する。
KITTIやMiddleburyのような光学フローベンチマークのパフォーマンスによって、アルゴリズムの機能を示す印象的な例が現れる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 15:20:11 GMT)
Reinforcement Learning in Hyperbolic Spaces: Models and Experiments [0.0] エージェントが事前情報なしで未知の環境を探索しようとする5つの設定を考察する。
一見非常に異なるように見えるが、これらは全て双曲空間における強化学習(Reinforcement Learning, RL)問題として定式化することができる。
この種の問題に対処するために必要な統計モデルと力学モデルを導入し,この枠組みに基づくアルゴリズムを実装した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:01:18 GMT)
RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation [0.0] エッジ演算子から抽出したエッジ情報を元のYolactの損失関数に組み込んで,レールエッジに対するモデルの焦点を強調する。
実験結果から, 予測精度の向上が得られた。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:23:52 GMT)
Quebec Automobile Insurance Question-Answering With Retrieval-Augmented Generation [0.0] 本報告では,ケベック自動車保険専門家基準コーパスと,レイパーパーソン自動車保険問題に対する82名の専門家回答の2つのコーパスを紹介する。
本研究は、両コーパスを用いて、ケベック州自動車保険問題に答えるために、最先端のLCMであるGPT4-oを自動かつ手動で評価する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:24:18 GMT)
Quantum networks theory [0.0] 離散系上の量子論の定式化は、2つの重要な方法で拡張される。
テンソルとトレースアウトは一般化され、ほぼ任意の論理述語に従ってシステムを分割できる。
量子論において標準的なユニタリ性、完全肯定性、トレース保存、非シグナリング因果性、局所性、ローカライズビリティの概念の間の相互関係は、近傍として危うくなり、系間の分割は量子的、動的、論理的になる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 04:03:29 GMT)
Quantum many-body simulations with PauliStrings.jl [0.0] 量子多体シミュレーションのためのジュリアモジュール PauliStrings.jl を提案する。
パウリ群上の高速な演算は、パウリ弦をバイナリで符号化することで行う。
この表現は任意の幾何を容易に符号化できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:18:47 GMT)
Pic@Point: Cross-Modal Learning by Local and Global Point-Picture Correspondence [0.0] 構造的2D-3D対応に基づく効果的なコントラスト学習手法であるPic@Pointを提案する。
我々は,意味的および文脈的知識に富んだイメージキューを活用して,ポイントクラウド表現のガイド信号を提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:43:41 GMT)
Phase error rate estimation in QKD with imperfect detectors [0.0] 我々は,コヒーレント攻撃に対するデコイ状態BB84QKDプロトコルの有限サイズセキュリティ証明を提案する。
本結果は,不完全特徴の基底効率ミスマッチ検出装置に適用する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:01:19 GMT)
On estimates of trace-norm distance between quantum Gaussian states [0.0] 平均ベクトルと共分散行列の観点から、2つの量子ガウス状態間のトレースノーム距離の推定を行った。
本論文では, 状態重なり量と呼ばれる忠実度に類似した量に基づいて, 異なる推定値を得る。
それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:13:07 GMT)
On estimates of trace-norm distance between quantum Gaussian states [0.0] 平均ベクトルと共分散行列の観点から、2つの量子ガウス状態間のトレースノーム距離の推定を行った。
本論文では, 状態重なり量と呼ばれる忠実度に類似した量に基づいて, 異なる推定値を得る。
これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:13:07 GMT)
Mutual information chain rules for security proofs robust against device imperfections [0.0] 我々は、敵に追加情報を漏らす不完全なデバイスを用いて量子暗号を解析する。
これらの結果は、デバイスに依存しない様々なプロトコルやデバイスに依存しないプロトコルにおいて、デバイス不完全性を扱うために使用できることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 22:05:45 GMT)
Multi-Step Embed to Control: A Novel Deep Learning-based Approach for Surrogate Modelling in Reservoir Simulation [0.0] 縮小次数モデル(英: Reduced-order model)またはプロキシモデル(英: proxy model)またはサロゲートモデル(英: surrogate model)は、完全な記述モデルとは対照的に計算コストの低い近似モデルである。
本稿では,長期予測性能を向上したプロキシモデル構築のための,多段階組込み制御モデルと呼ばれる深層学習に基づく代理モデルを提案する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:27:40 GMT)
Minutes-scale Schr{ö}dinger-cat state of spin-5/2 atoms [0.0] 我々は、光学的に捕捉された173$Yb(textitI = 5/2)原子の長寿命シュリンガーキャット状態を示す。
2つの反対方向とファテスト部分のスピン状態の重畳である猫状態は、非線形のスピン回転によって生成される。
光学格子の不均一光シフトに対してデコヒーレンスのない部分空間で保護され、猫状態は1.4(1)時間103$sのコヒーレンス時間を達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 02:29:26 GMT)
Many-body Expansion Based Machine Learning Models for Octahedral Transition Metal Complexes [0.0] 我々はオクタ遷移金属錯体(TMCs)のスピン状態依存性特性の機械学習における自己相関の修正を提案する。
新しい戦略は多体展開(MBE)に基づいており、MBEの切り離し順序を変化させることで、捕捉された立体異性体情報を調整することができる。
この新しいアプローチには電子構造理論からの洞察が組み込まれているため、これらのモデルは同素体から異性体への体系的な一般化を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 21:54:22 GMT)
Loss Functions and Metrics in Deep Learning [0.0] 我々は、多くの異なるタイプのディープラーニングタスクで使用される最も一般的な損失関数とメトリクスの包括的概要を提供する。
本稿では,各損失とメトリクスの式を導入し,その強度と限界について考察し,これらの手法がディープラーニングの様々な問題に適用できる方法について述べる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:06:55 GMT)
Large-scale quantum annealing simulation with tensor networks and belief propagation [0.0] 3つの正則グラフに対する量子アニールは1000量子ビットと5000000量子ビットゲートのスケールでも古典的にシミュレートできることを示す。
非退化インスタンスの場合、一意解は最後の縮小された単一量子状態から読み出すことができる。
MaxCutのような退化問題に対して、グラフテンソル-ネットワーク状態に対する近似的な測定シミュレーションアルゴリズムを導入する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:47:18 GMT)
Large-scale quantum annealing simulation with tensor networks and belief propagation [0.0] 3つの正則グラフに対する量子アニールは1000量子ビットと5000000量子ビットゲートのスケールでも古典的にシミュレートできることを示す。
非退化インスタンスの場合、一意解は最後の縮小された単一量子状態から読み出すことができる。
MaxCutのような退化問題に対して、グラフテンソル-ネットワーク状態に対する近似的な測定シミュレーションアルゴリズムを導入する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:47:18 GMT)
Introduction to Bell's inequality in Quantum Mechanics [0.0] ベルの量子力学における不等式について紹介する。
スピン1/2$からコヒーレントで圧縮された状態まで、いくつかの例が研究されている。
メルミンの不等式とGHZ状態への一般化についても概説する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:50:21 GMT)
Interaction-induced dissipative quantum phase transition in a head-to-tail atomic Josephson junction [0.0] ヘッド・ツー・テールのボース・ジョセフソン接合における散逸相転移を提案する。
原子間相互作用強度が減衰パラメータの役割を担っていることを示す。
我々は、準1次元の原子ガスの密閉により絶縁相に到達することができると主張している。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:53:16 GMT)
Impurities and polarons in bosonic quantum gases: a review on recent progress [0.0] このレビューでは、ボゾン量子ガスに不純物が浸漬されたときに生じるボースポラロンの場について記述する。
後者は超低温原子のボース=アインシュタイン凝縮(BEC)や半導体中のエキシトン偏光子によって実現される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:44:01 GMT)
Improving the accuracy of food security predictions by integrating conflict data [0.0] 暴力と武力衝突は、食糧危機を引き起こす重要な要因として現れてきた。
本稿ではアフリカにおける食料安全保障における暴力的紛争の影響を詳細に分析する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:26:25 GMT)
Identification of Non-causal Graphical Models [0.0] 本稿では,変数間のスムーズな関係を符号化したエッジを持つ非因果的グラフィカルモデルの推定問題について考察する。
ホワイトノイズ処理における移動距離を最小化する手法は, 両面の自己回帰的非因果的グラフィカルモデルであることを示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 10:40:46 GMT)
I or Not I: Unraveling the Linguistic Echoes of Identity in Samuel Beckett's "Not I" Through Natural Language Processing [0.0] 本研究は,本文の基盤となる複雑な言語構造を明らかにする。
単語頻度の分析、BERTモデルによる感情的感情の検出、反復的モチーフの検証により、ベケットの最小主義的かつ複雑な言語が主人公の断片化された精神をいかに反映しているかを明らかにする。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:11:57 GMT)
Graph Neural Alchemist: An innovative fully modular architecture for time series-to-graph classification [0.0] 本稿では時系列分類のための新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
時系列を可視グラフとして表現することにより、時系列データ固有の時間的依存関係の両方を符号化することができる。
私たちのアーキテクチャは完全にモジュール化されており、異なるモデルで柔軟な実験を可能にします。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:03:40 GMT)
Gaussian approximation and its corrections for driven dissipative Kerr model [0.0] 我々は散逸を伴う外部古典場のKerrモデルに適用する。
これらの解は非常に非ガウス的であるが、生成と演算子のモーメントは高い精度で我々のアプローチによって説明されている。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:38:12 GMT)
Exact WKB in all sectors I: Potentials with degenerate saddles [0.0] 本稿では,エネルギーパラメータ$u$に対して,ボレル和可能性に使用される(半古典的)拡張パラメータの共通複素化とは異なる,新たな複素化手法を導入する。
潜在的な障壁のトップの上の$A$サイクルを再定義することにより、量子化条件が真であることを保証する。
我々は、Weber-type exact-WKB法を拡張し、あらゆる種類のサドル点に関する量子行動の正確な推定値を提供する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 12:20:47 GMT)
Enhancing Affinity Propagation for Improved Public Sentiment Insights [0.0] 本稿では,教師なし学習技術を用いて感情分析を行う手法を提案する。
APクラスタリングは、事前に定義されたクラスタ番号を必要とせずに、自然なパターンに基づいてテキストデータをグループ化する。
パフォーマンスを向上させるため、APはAgglomerative Hierarchical Clusteringと組み合わせられる。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:20:33 GMT)
Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0] このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 19:36:41 GMT)
EPi-cKANs: Elasto-Plasticity Informed Kolmogorov-Arnold Networks Using Chebyshev Polynomials [0.0] チェビシェフ型ネットワーク(EPi-cKAN)のエラスト可塑性について述べる。
EPi-cKANは、応力成分の予測に優れた精度を提供し、ブラインド三軸軸対称のひずみ制御荷重経路下での砂弾塑性挙動の予測に使用する場合、より良い精度を示す。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 16:01:38 GMT)
Digital requirements engineering with an INCOSE-derived SysML meta-model [0.0] 我々は、モデルベース構造化要求SysMLプロファイルを拡張して、要求書作成のためのINCOSEガイドに準拠します。
結果のSysMLプロファイルはNASAジェット推進研究所の2つのシステムアーキテクチャモデルに適用された。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 03:06:13 GMT)
Combinatorial optimization of the coefficient of determination [0.0] 決定係数が最も高い平面上の$n$点の$k$-部分集合を選択するための効率的なアルゴリズムを開発する。
誤差のない$n=30$までの試行で,提案手法の最適性を実験的に実証した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 00:53:25 GMT)
Coherent Control of Photon Correlations in Trapped Ion Crystals [0.0] 我々は、コヒーレント散乱の干渉と自然放出が組み合わさり、光統計学の制御機構をいかに提供するかを示す。
この結果から,コヒーレント散乱の干渉と自然放出が組み合わさり,光統計学の制御機構について考察した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:58:09 GMT)
Can Vision-Language Models Replace Human Annotators: A Case Study with CelebA Dataset [0.0] 本研究では、画像データアノテーションにおける視覚言語モデル(VLM)の能力を評価する。
1000CelebA画像上の最先端のLLa-NeXTモデルからのVAは、オリジナルの人間のアノテーションと79.5%の一致である。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 07:49:08 GMT)
Brief Synopsis of the Scientific Career of T. R. Hurd [0.0] トーマス・ロバート・ハードの名誉を称える国際理論・応用財務ジャーナル」特集号によせて
トム・ハードの科学的経歴の短い要約と、彼の科学的出版物の一覧。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 11:32:18 GMT)
Bounding the Wigner Deformation Parameter in Harmonically Trapped Bose Gases [0.0] We show that the Wigner parameters determines the slopes of these thermodynamic function in the critical region but not not affect the order of the transition or the critical exponents。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 20:50:03 GMT)
Beyond the Holographic Entropy Cone via Cycle Flows [0.0] ホログラフィックエントロピー円錐の外側のエントロピーベクトルを計算するための新しい処方則を導入する。
最大サイクルフローは、部分加法と強い部分加法の両方に従うことを証明している。
このモデルも同様にハイパーグラフから生じるエントロピーベクトルを一般化する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 23:25:45 GMT)
Bell-CHSH inequality and unitary operators [0.0] 単位演算子はベル-CHSH不平等の違反を調べるために使用される。
期待値が実数である特定の種類のユニタリ作用素の関連性が指摘される。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 18:05:50 GMT)
An interdisciplinary exploration of trade-offs between energy, privacy and accuracy aspects of data [0.0] デジタル時代は、ICTのエネルギー消費の増加や個人データ処理のプライバシー保護など、多くの社会的課題を提起してきた。
本稿では,学際探索における機械学習の精度に関する両側面について考察する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:38:49 GMT)
An interdisciplinary exploration of trade-offs between energy, privacy and accuracy aspects of data [0.0] デジタル時代は、ICTのエネルギー消費の増加や個人データ処理のプライバシー保護など、多くの社会的課題を提起してきた。
本稿では,学際探索における機械学習の精度に関する両側面について考察する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 14:38:49 GMT)
Aharonov-Bohm effects on the GUP framework [0.0] 一般化不確実性原理(英: Generalized Uncertainty Principle, GUP)は、場の量子論と一般相対性理論の矛盾を和らげるための重要なアプローチである。
本稿では, GUP による Aharonov-Bohm (AB) 効果の位相補正を初めて検討した。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:09:06 GMT)
A Quantum ISA for High-Level Programming, Enabling Sequential Execution and Conditional Branching [0.0] 本稿では,高レベルプログラミングパラダイムをサポートするために量子回路を抽象化する新しい量子命令セットアーキテクチャを提案する。
ハードウェアとソフトウェアの間の関心を分離することで、提案アーキテクチャは量子アルゴリズムの開発を単純化する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:48:47 GMT)
A Quantum ISA for High-Level Programming, Enabling Sequential Execution and Conditional Branching [0.0] 本稿では,高レベルプログラミングパラダイムをサポートするために量子回路を抽象化する新しい量子命令セットアーキテクチャを提案する。
ハードウェアとソフトウェアの間の関心を分離することで、提案アーキテクチャは量子アルゴリズムの開発を単純化する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 17:48:47 GMT)
A Novel Self-Attention-Enabled Weighted Ensemble-Based Convolutional Neural Network Framework for Distributed Denial of Service Attack Classification [0.0] 本研究は、DDoS攻撃検出のための新しいアプローチを提案する。
提案手法は精度98.71%、F1スコア98.66%、リコール98.63%、精度98.69%を達成する。
論文参考訳(メタデータ) (Sat, 12 Oct 2024 09:51:53 GMT)