The BrowserGym Ecosystem for Web Agent Research [151.9] BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:49:22 GMT)
Can Large Language Models Understand Symbolic Graphics Programs? [136.6] シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:42:14 GMT)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.9] マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:57:32 GMT)
ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.3] 既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:28:00 GMT)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1] o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:32:08 GMT)
Correct-N-Contrast: A Contrastive Approach for Improving Robustness to Spurious Correlations [89.9] 豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:06:21 GMT)
RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation [87.9] Web ベースのルームツアービデオから派生したビデオインストラクションデータセットである RoomTour3D を紹介する。
RoomTour3Dは、オープンエンドの人間の歩行軌跡とオープンワールドのナビゲート可能な指示を生成する。
実験により、RoomTour3Dは複数の視覚・言語ナビゲーションタスクにまたがる大幅な改善が可能であることを実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:10:21 GMT)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [86.0] 一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:06:25 GMT)
StreamChat: Chatting with Streaming Video [85.0] StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:54 GMT)
Training Large Language Models to Reason in a Continuous Latent Space [84.6] 我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:52:56 GMT)
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel [83.7] 本稿では,高品質かつ大規模な航法軌道対を生成する自己精製型データフライホイール(SRDF)を提案する。
実験により, 数回のフライホイールラウンドの後, ナビゲータは従来のR2Rテストセットにおいて, 70%から78%のSPLの性能境界を上昇させることを示した。
このプロセスは、以前のVLN命令生成方法よりも23.5から26.2へのSPICE増加によって証明された優れたジェネレータをもたらす。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:32:24 GMT)
Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.3] 本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:27:18 GMT)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.2] 本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:38:11 GMT)
DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.6] 高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。
本フレームワークは30度のドア開口で70.0%,ペンとブロックの半面配向で40.0%,ハンマーの半面駆動で46.7%を達成している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:48:44 GMT)
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [78.1] ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。
非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:41:18 GMT)
Woodpecker: Hallucination Correction for Multimodal Large Language Models [77.5] Woodpeckerは生成されたテキストから幻覚を抽出して修正する。
キーコンセプト抽出、質問定式化、視覚的知識検証、視覚的クレーム生成、幻覚補正の5段階からなる。
我々はWoodpeckerを定量的かつ質的に評価し、この新しいパラダイムの潜在可能性を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:46:29 GMT)
Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.3] 本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:37:42 GMT)
GDSG: Graph Diffusion-based Solution Generation for Optimization Problems in MEC Networks [77.1] グラフ拡散型ソリューション生成(GDSG)法を提案する。
このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。
グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:13:43 GMT)
GPD-1: Generative Pre-training for Driving [77.1] 本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。
それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。
GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:51 GMT)
Bilevel Joint Unsupervised and Supervised Training for Automatic Speech Recognition [75.9] BL-JUSTは、自動音声認識のための二段階共同教師なしおよび教師付き訓練フレームワークである。
BL-JUSTは、教師なしと教師なしの両方の損失関数を同時に最小化する音響モデルの最適化を試みる。
BL-JUSTは、広く使われている事前学習と微調整の戦略と、他の人気のある半教師あり技術よりも優れていることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:06:12 GMT)
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.1] UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:51:08 GMT)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.9] 自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:33 GMT)
Learning to Decouple the Lights for 3D Face Texture Modeling [71.7] このような不自然な照明下での3次元顔のテクスチャをモデル化するための新しいアプローチを提案する。
この枠組みは、複数の異なる光条件の合成として、不自然な照明を模倣することを学ぶ。
単一画像とビデオシーケンスの両方の実験により,本手法の有効性を実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:36:45 GMT)
VisionArena: 230K Real World User-VLM Conversations with Preference Labels [68.1] VisionArenaは、ユーザと視覚言語モデル(VLM)間の230万の現実世界会話のデータセット
私たちのデータセットは73Kのユニークなユーザ、45のVLM、138の言語で構成されています。
キャプションやユーモアのようなオープンなタスクは非常にスタイルに依存しており、現在のVLMは空間的推論や計画タスクに苦労している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:46 GMT)
FaceTracer: Unveiling Source Identities from Swapped Face Images and Videos for Fraud Prevention [68.1] FaceTracerは、元人物の身元を、交換された顔画像やビデオから追跡するように設計されたフレームワークである。
実験では、FaceTracerは元の人物をスワップされたコンテンツで特定し、不正行為に関わる悪意あるアクターの追跡を可能にした。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:00:17 GMT)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.5] 本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:32:17 GMT)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.5] Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:56:03 GMT)
MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.2] MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。
本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:59:31 GMT)
Robust Multi-Agent Control via Maximum Entropy Heterogeneous-Agent Reinforcement Learning [65.6] 本稿では,マルチエージェント強化学習における課題を解決するために,アンフィストチャスティックな政策を学習するための統一的な枠組みを提案する。
The MaxEnt framework, we propose emphHeterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは, Bi-DexHands, Multi-Agent MuJoCo, Pursuit-Evade, StarCraft Multi-Agent Challenge, Google Research Football, Multi-Agent Particle Environment, Light Aircraft Gameの7つのベンチマークで評価した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:59:50 GMT)
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.7] オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:32:48 GMT)
Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.3] 我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:35:18 GMT)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.7] 本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:36:20 GMT)
Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.6] 本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:19:54 GMT)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.1] CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。
我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:03:35 GMT)
Of Dice and Games: A Theory of Generalized Boosting [61.8] 我々は、コスト感受性と多目的損失の両方を組み込むために、ブースティングの有名な理論を拡張した。
我々は、コスト感受性と多目的強化の包括的理論を開発し、弱い学習保証の分類を提供する。
我々の特徴付けは、昇降の幾何学的解釈に依存しており、コスト感受性と多目的損失の間の驚くべき等価性を明らかにしている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:38:32 GMT)
Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.5] カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:53:10 GMT)
MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues [60.0] Momentum Multi-modal target extract (MoMuSE)について紹介する。
MoMuSEはメモリ内に話者アイデンティティの運動量を保持しており、モデルがターゲット話者を継続的に追跡することができる。
実験により、特に視覚的手がかりの重篤な障害のあるシナリオにおいて、MoMuSEは顕著な改善を示すことが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:55:09 GMT)
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.2] 近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。
事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:29:04 GMT)
Learning Flow Fields in Attention for Controllable Person Image Generation [59.1] 制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成することを目的としている。
そこで本研究では,対象クエリに対して,適切な参照キーへの参照を明示的にガイドする学習フロー場(Leffa)を提案する。
Leffaは外観(仮想試行)とポーズ(目的移動)の制御における最先端のパフォーマンスを実現し、細かなディテール歪みを著しく低減する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:51:14 GMT)
Motion Artifact Removal in Pixel-Frequency Domain via Alternate Masks and Diffusion Model [58.7] MRI(MRI)における運動アーチファクトは臨床診断に深刻な干渉を与える可能性がある。
ノイズの多いMRI画像の画素周波数情報を利用して、事前学習した拡散モデルを誘導し、クリーンなMRI画像の復元を行う新しい教師なし浄化法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:40:15 GMT)
How to Weight Multitask Finetuning? Fast Previews via Bayesian Model-Merging [58.6] 我々は、検索を高速プレビューで支援し、異なる再重み付けオプションについて大まかに考えることを提案する。
モデルマージを使用して、各タスクでトレーニングされたモデルのパラメータを単純に再利用し、平均化することで、プレビューを作成します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:06:36 GMT)
Implicit Neural Compression of Point Clouds [58.5] NeRC$textbf3$は、暗黙の神経表現を利用して、幾何学と属性の両方を扱う新しいポイントクラウド圧縮フレームワークである。
動的点雲の場合、4D-NeRC$textbf3$は最先端のG-PCCやV-PCC標準よりも優れた幾何圧縮を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:22:00 GMT)
Towards Long Video Understanding via Fine-detailed Video Story Generation [58.3] 長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:07:35 GMT)
From Logistic Regression to the Perceptron Algorithm: Exploring Gradient Descent with Large Step Sizes [57.9] 分離可能なデータセットによる分類問題に焦点をあてる。
近年の研究では、LR+GDは任意のステップサイズで解を見つけることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:43:39 GMT)
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.5] 敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:07:25 GMT)
Test-Time Alignment via Hypothesis Reweighting [56.7] 大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:02:26 GMT)
Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.9] タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:42:13 GMT)
Video Quality Assessment: A Comprehensive Survey [55.7] 映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:45:38 GMT)
ConvMesh: Reimagining Mesh Quality Through Convex Optimization [55.2] 本研究では、既存のメッシュを強化するために、規律付き凸プログラミングと呼ばれる凸最適化プログラミングを導入する。
元々のメッシュとターゲットのメッシュの両方から分離されたポイントクラウドに注目することにより、この手法は、最小限のデータ要求でメッシュ品質を大幅に改善することを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:48:25 GMT)
An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints [55.2] 逆制約を伴うオンライン凸最適化(OCO)について検討する。
本稿では,損失関数と制約関数の予測にアルゴリズムがアクセス可能な設定に着目する。
以上の結果から,現在のO(sqrtT) $ regret と $ tildeO(sqrtT) $ cumulative constraint violation の改善が期待できることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:06:42 GMT)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2] 本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:12:21 GMT)
Local Features Meet Stochastic Anonymization: Revolutionizing Privacy-Preserving Face Recognition for Black-Box Models [54.9] プライバシー保護顔認証(PPFR)の課題は現在、2つの未解決課題に直面している。
グローバルな特徴の破壊と局所的な特徴の強化により,ブラックボックス環境においても効果的に認識できる。
本手法は,ブラックボックスモデルの平均認識精度94.21%を達成し,プライバシ保護とアンチコンストラクションの両面で既存手法よりも優れていた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:49:15 GMT)
Why Does Dropping Edges Usually Outperform Adding Edges in Graph Contrastive Learning? [54.4] グラフがネットワークにどのように適合するかを定量化するために、新しいメトリック、すなわちエラー通過率(EPR)を導入する。
理論的な結論に触発されて,エッジの追加とエッジドロップを併用した新しいGCLアルゴリズムを提案する。
具体的には、EPRから得られる重みに応じてエッジを追加・ドロップすることで、ビューを生成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:31:06 GMT)
INRetouch: Context Aware Implicit Neural Representation for Photography Retouching [54.2] 本稿では、プロの編集から前後のイメージペアを通して学習する新しいリタッチ転送手法を提案する。
我々は,画像の内容とコンテキストに基づいて,適応的に編集を適用することを学習する文脈認識型インプシットニューラル表現を開発した。
提案手法は,写真再構成における既存の手法を超越するだけでなく,画像再構成タスクの性能向上にも寄与する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:26:09 GMT)
Grimm: A Plug-and-Play Perturbation Rectifier for Graph Neural Networks Defending against Poisoning Attacks [54.0] グラフニューラルネットワーク(GNN)の脆弱性に対処するグラフエージェントネットワーク(GAgN)を提案する。
GAgNはグラフ構造化エージェントネットワークであり、各ノードは1-hop-viewエージェントとして設計されている。
エージェントの限られたビューは、悪意のあるメッセージがGAgNでグローバルに伝播するのを防ぎ、グローバル最適化ベースのセカンダリアタックに抵抗する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:17:02 GMT)
Efficient Rectification of Neuro-Symbolic Reasoning Inconsistencies by Abductive Reflection [53.8] Neuro-Symbolic (NeSy) AIは、人間の二重プロセス認識の類似と見なすことができる。
本稿では,ABLフレームワークに基づくAbductive Reflection (ABL-Refl)を導入することにより,NeSyシステムを改善することを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:24:07 GMT)
Self-Refining Diffusion Samplers: Enabling Parallelization via Parareal Iterations [53.2] 自己精製拡散サンプリング(SRDS)は、サンプル品質を維持し、追加の並列計算コストでレイテンシを向上させることができる。
微分方程式の並列時間積分法であるPararealアルゴリズムから着想を得た。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:08:09 GMT)
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health [52.8] 本論文は,RMABに対する所望の報酬を学習するために,逆強化学習(IRL)を用いた最初の事例である。
本研究は,母子保健遠隔医療プログラムにおける改善された成果を示すものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:28:04 GMT)
Generalized Face Liveness Detection via De-fake Face Generator [52.2] 以前の顔アンチスプーフィング(FAS)手法は、目に見えない領域に一般化するという課題に直面している。
本稿では,大規模に付加的な現実面を効果的に活用できるAnomalous cue Guided FAS (AG-FAS)法を提案する。
提案手法は,未知のシナリオと未知のプレゼンテーションアタックを用いたクロスドメイン評価において,最先端の結果を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:07:25 GMT)
Monocular Lane Detection Based on Deep Learning: A Survey [51.2] 車線検出は自律運転認識システムにおいて重要な役割を果たす。
ディープラーニングアルゴリズムが普及するにつれて、それらに基づく単眼車線検出法は優れた性能を示した。
本稿では, 成熟度の高い2次元車線検出手法と開発途上国の3次元車線検出技術の両方を網羅して, 既存手法の概要を概説する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:14:04 GMT)
Optimal and Efficient Algorithms for Decentralized Online Convex Optimization [51.0] 分散オンライン凸最適化(D-OCO)は、局所計算と通信のみを用いて、グローバルな損失関数の列を最小化するように設計されている。
我々は,凸関数と強凸関数の残差を$tildeO(nrho-1/4sqrtT)$と$tildeO(nrho-1/2log T)$に削減できる新しいD-OCOアルゴリズムを開発した。
我々の分析によると、射影自由多様体は$O(nT3/4)$と$O(n)を達成できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:07:59 GMT)
Adaptive$^2$: Adaptive Domain Mining for Fine-grained Domain Adaptation Modeling [50.9] 本稿では,ドメインマイニングモジュールを用いてドメインを適応的に学習する新しいフレームワークであるAdaptive$2$を提案する。
その結果、手作りドメインを用いた従来のドメイン適応手法は、公正なFLOPS条件下では単一ドメインモデルより優れていることがわかった。
Adaptive$2$は、オンライン広告におけるドメイン識別と適応の両方を自動的に学習する最初のアプローチである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:41:41 GMT)
Towards Certified Unlearning for Deep Neural Networks [50.8] 認定されていない未学習は、凸機械学習モデルで広く研究されている。
認定アンラーニングとディープニューラルネットワーク(DNN)のギャップを埋める手法をいくつか提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:07:05 GMT)
Graph Agent Network: Empowering Nodes with Inference Capabilities for Adversarial Resilience [50.5] グラフニューラルネットワーク(GNN)の脆弱性に対処するグラフエージェントネットワーク(GAgN)を提案する。
GAgNはグラフ構造化エージェントネットワークであり、各ノードは1-hop-viewエージェントとして設計されている。
エージェントの限られたビューは、悪意のあるメッセージがGAgNでグローバルに伝播するのを防ぎ、グローバル最適化ベースのセカンダリアタックに抵抗する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:08:57 GMT)
LCFO: Long Context and Long Form Output Dataset and Benchmarking [50.4] LCFO(Long Context and Form Output)ベンチマークは、要約および要約拡張能力を評価するための評価フレームワークである。
LCFOは、長さの異なる3つの要約を持つ長い入力文書(平均長5k語)から構成される。
GPT-4o-miniは、要約および要約拡張タスクの両方において、自動システムの中で最高の人点を達成している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:35:45 GMT)
Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.2] 6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:27:33 GMT)
Dynamic Demonstrations Controller for In-Context Learning [48.5] In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
デモの数はモデル性能と正の相関関係にあると一般的に信じられている。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:14:28 GMT)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.4] 大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:04:18 GMT)
Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.4] ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。
本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。
CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:14:02 GMT)
Image Inpainting via Tractable Steering of Diffusion Models [48.2] 本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:49:41 GMT)
Multi-GraspLLM: A Multimodal LLM for Multi-Hand Semantic Guided Grasp Generation [47.5] 自動接触アノテーションを備えた,最初の大規模マルチハンドグリップデータセットであるMulti-GraspSetを提案する。
そこで我々は,Multi-GraspLLMを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:33:35 GMT)
DistrictNet: Decision-aware learning for geographical districting [47.4] 地区化は地理的地域を小さな地区に分割する複雑な問題である。
実世界の地区問題に対する高品質な解決策を数分で見つけるための構造化学習手法を提案する。
実際の都市ではコストを大幅に削減できるため,既存手法よりも優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:02:48 GMT)
Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.3] 画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:50:40 GMT)
Pysical Informed Driving World Model [47.0] DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。
我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:29:35 GMT)
Dynamic Modality-Camera Invariant Clustering for Unsupervised Visible-Infrared Person Re-identification [46.6] 教師なし学習の可視的人物再識別(USL-VI-ReID)は、教師付き手法よりも柔軟で費用対効果の高い代替手段を提供する。
既存の方法は単純にモダリティ固有のサンプルをクラスタリングし、インスタンス・クラスタ間またはクラスタ・クラスタ間相互関連を達成するために強力なアソシエーション技術を用いる。
我々は,USL-VI-ReIDのための動的モダリティ・カメラ不変クラスタリング(DMIC)フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:31:03 GMT)
ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes [45.3] ChatDynは、言語命令に基づいてストリートシーンのリアルなアクセシブ・ダイナミクスを生成できるシステムである。
複雑な言語による正確な制御を実現するため、ChatDynはマルチLLMエージェントロールプレイングアプローチを採用している。
計画に基づいて現実的なきめ細かいダイナミクスを生成するため、ChatDynは2つの新しいエグゼキュータを設計した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:58:48 GMT)
Predicting Human Brain States with Transformer [45.3] 自己注意に基づくモデルでは、以前の21.6sで5.04sまでの脳状態を正確に予測できることが示される。
これらの有望な初期結果は、fMRIデータに対するジェネリックモデルの開発の可能性を示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:18:39 GMT)
Topological Order in the Spectral Riemann Surfaces of Non-Hermitian Systems [45.0] 非エルミート系の複素数値スペクトルにおいて位相的に順序づけられた状態を示す。
これらのモデルは、そのようなモデルのエネルギー面における特異な例外点が消滅したときに生じる。
非エルミート2バンドモデルにおける位相的に保護された状態の特性について述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:28:42 GMT)
Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming [44.3] シーングラフを列挙するフレームワークであるGenerate Any Sceneを紹介した。
Any Sceneを生成することで、各シーングラフをキャプションに変換し、テキスト・ツー・ビジョンモデルのスケーラブルな評価を可能にする。
我々は,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,テキスト・ツー・3Dモデルに対して広範囲な評価を行い,モデル性能に関する重要な知見を提示する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:17:39 GMT)
Learning Photometric Feature Transform for Free-form Object Scan [44.2] 本研究では,非構造化ビューから自動で測光データを収集・変換するフレームワークを提案する。
我々は手持ちスキャンから様々な挑戦対象の幾何学的および異方的反射を再構築するシステムを構築した。
結果はプロの3Dスキャナーと写真からの復元に対して検証され、最先端技術と好適に比較される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:34:48 GMT)
EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.1] メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:35:13 GMT)
Bridging Relevance and Reasoning: Rationale Distillation in Retrieval-Augmented Generation [43.5] 本稿では,Rationale DistillatiOnを用いた新規かつ実用的な嗜好アライメントフレームワークであるRADIOを提案する。
まず,Large Language Models (LLMs) の推論能力を活用して,問合せに要する有理を抽出する理性抽出手法を提案する。
その後、抽出された有理性に基づいて文書を再引用する合理性に基づくアライメントプロセスが設計され、その選好を調整するために再帰者を微調整する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:32:41 GMT)
AltFS: Agency-light Feature Selection with Large Language Models in Deep Recommender Systems [43.3] ディープレコメンデータシステムのためのエージェントライト特徴選択手法であるAltFSを提案する。
本稿では,ディープレコメンデータシステムのためのエージェントライト特徴選択手法であるAltFSを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:28:18 GMT)
Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead [43.2] 探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。
自動シナリオベースET(ソープオペラテスト)の実現可能性,課題,道程について検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:57:23 GMT)
Map Optical Properties to Subwavelength Structures Directly via a Diffusion Model [43.0] 人工知能(AI)の強力な生成能力を活用し,潜伏拡散モデルに基づく実用的な逆設計手法を提案する。
本手法は,前方シミュレーションや反復最適化を必要とせず,光学特性を直接構造にマッピングする。
実験により,我々の直接写像に基づく逆設計法は,高忠実度でサブ波長フォトニック構造を生成可能であることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:17:34 GMT)
Animate-X: Universal Character Image Animation with Enhanced Motion Representation [42.7] Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。
我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。
また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:55:31 GMT)
CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis [42.1] 本稿では,拡張コンテキストコヒーレンスを用いた拡散モデルに基づくRS画像生成手法であるCC-Diffを紹介する。
空間的相互依存を捉えるために,合成した前景のインスタンスに背景生成を条件付けるシーケンシャルパイプラインを提案する。
実験により、CC-Diffは視覚的忠実度、意味的精度、位置精度において最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:30:06 GMT)
CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings [42.1] 本稿では,大規模なCAD図面におけるパノプティカルシンボルスポッティングの効率的な方法であるCADSpottingを紹介する。
CADSpottingは、統合された3Dポイントクラウドモデルに基づいて、ジョイントセマンティクス、例えば、パノプティックセグメンテーションを構築し、ロバストな特徴表現を学ぶ。
実験を支援するため,LS-CADという大規模CADデータセットを導入した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:27:12 GMT)
Comparison of Static Analysis Architecture Recovery Tools for Microservice Applications [42.0] 本稿では,マイクロサービスアプリケーションのためのアーキテクチャ回復ツールの同定を目的とした,多言語文献レビューの結果について述べる。
最高性能のツールはF1スコア0.86であった。
F1スコア0.91の4つのツールの組み合わせにより,複数のツールを組み合わせることで回復精度を高める可能性を検討した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:46:16 GMT)
Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information [41.5] トレーニングを必要としないテキスト情報誘導動的視覚トークン回復機構を提案する。
提案手法は,視覚トークンを平均10%まで圧縮しながら,従来の手法に匹敵する性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:19:47 GMT)
SINERGYM -- A virtual testbed for building energy optimization with Reinforcement Learning [40.7] 本稿では、大規模ビルディングシミュレーション、データ収集、継続的制御、実験監視のためのオープンソースのPythonベースの仮想テストベッドであるSinergymについて述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:09:13 GMT)
Annotation-guided Protein Design with Multi-Level Domain Alignment [39.8] マルチモーダルなタンパク質設計フレームワークPAAGを提案する。
タンパク質データベースから抽出したテキストアノテーションを統合し、シーケンス空間で制御可能な生成を行う。
具体的には、PAAGは対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:14:05 GMT)
Test-time Correction with Human Feedback: An Online 3D Detection System via Visual Prompting [39.7] TTC(Test-time Correction)システムは、人間のフィードバックによるテストタイムエラーのオンライン修正のために指定された、新しいオンライン3D検出システムである。
フレーム上で対話的なプロンプトでユーザフィードバックを活用することで、TTCは、将来のストリーミング入力に対する対応する検出結果を即座に更新できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:04:20 GMT)
Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection [39.6] 大規模言語モデル (LLM) はテキスト生成に革命をもたらした。
機械生成テキストの検出はますます困難になっている。
ImBD(Imitate Before Detect)アプローチを提案する。
次に、テスト対象のテキストの分布とマシンスタイルの分布を比較し、そのテキストが機械修正されたかどうかを判定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:17:14 GMT)
LA4SR: illuminating the dark proteome with generative AI [39.6] 我々は、微生物配列分類のためのオープンソースのAI言語モデル(LM)を再設計した。
F1のスコアは95点に達し、16,580倍速く動作した。
我々は、AI生成プロセスにアミノ酸パターンをもたらすカスタムAI説明可能性ソフトウェアツールを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:10:22 GMT)
The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better [39.6] すべての合成画像は、最終的にジェネレータを訓練するために使用される上流データに由来する。
我々は, LAION-2Bから直接取得した目標実画像に対して, 安定拡散によって生成されたタスク関連ターゲット合成データを微調整と比較した。
解析の結果,このアンダーパフォーマンスは生成物と,合成画像中のタスク関連視覚的詳細が不正確なためであることが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:56:37 GMT)
Mixture of Online and Offline Experts for Non-stationary Time Series [39.4] 非定常時系列に対するMOOE(Mixture of Online and Offline Experts)を提案する。
MOOEはオフライン間隔から静的オフラインの専門家を学び、現在のオンライン間隔で動的オンラインエキスパートを維持する。
具体的には、アルゴリズムの有効性を証明するために、理論解析、パラメータ収束の導出、後悔境界、一般化誤差境界に焦点をあてる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:32:58 GMT)
Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation [39.4] AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。
現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。
本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:33:18 GMT)
Advocating for the Silent: Enhancing Federated Generalization for Non-Participating Clients [38.8] 本稿では,フェデレートラーニングのための情報理論の一般化フレームワークについて紹介する。
局所分布の情報エントロピーを評価することで一般化誤差を定量化する。
導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:17:25 GMT)
Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning [38.8] 構造化非制限ランク行列(SURM)に基づく効率的なパラメータ微調整(PEFT)のためのフレームワークを提案する。
SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。
また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(ほぼ品質が低下する)。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:59:09 GMT)
CURE: A dataset for Clinical Understanding & Retrieval Evaluation [38.8] 医療提供者が医療現場で使用することを意図した検索システムのテストデータセットは少ない。
CUREは、単言語(英語)とクロスランガル(フランス語/スペイン語 ->英語)の2つの条件を持つ10の医療ドメインにまたがる2000のクエリからなる、通過ランキングのためのアドホック検索テストデータセットである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:46:25 GMT)
AGMixup: Adaptive Graph Mixup for Semi-supervised Node Classification [38.7] Mixupは、画像領域で$lambda$の混合比を使ってデータポイント間を補間することで、モデル一般化を強化する技術である。
本稿では,半教師付きノード分類のための適応グラフ混合(AGMixup)フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:04:35 GMT)
Integrating Optimization Theory with Deep Learning for Wireless Network Design [38.3] 従来の無線ネットワーク設計は、ドメイン固有の数学的モデルから派生した最適化アルゴリズムに依存している。
ディープラーニングは、複雑さと適応性の懸念を克服する、有望な代替手段として登場した。
本稿では,これらの問題に対処するために,最適化理論とディープラーニング手法を統合する新しいアプローチを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:27:48 GMT)
MixedGaussianAvatar: Realistically and Geometrically Accurate Head Avatar via Mixed 2D-3D Gaussian Splatting [38.2] 高忠実度3Dヘッドアバターの再構築は、仮想現実などの様々な応用において重要である。
最近の3次元ガウススティング(3DGS)に基づく手法は、トレーニングとレンダリングの効率を著しく向上させる。
そこで我々は,MixedGaussian Avatarという新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:00:52 GMT)
Criteria and Bias of Parameterized Linear Regression under Edge of Stability Regime [38.1] 安定性のエッジ(Edge of stability、EoS)は通常、安定性のエッジ(Edge of stability、EoS)と呼ばれる。
適切な条件下では、$l$ が二次的であっても EoS が成立することを示す。
また、より大きなステップサイズを採用すると、対角線ネットワークの暗黙のバイアスに新たな光を当てた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:07:37 GMT)
Fully Open Source Moxin-7B Technical Report [38.1] 大きな言語モデル(LLM)は、その人気と能力の急激な上昇によって、大きな変革を遂げている。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLLMであるMoxin 7Bを紹介します。
本モデルは,事前学習コードと構成の包括的リリースを通じて,オープンサイエンスのMOF分類レベルを最大化する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:03:58 GMT)
Open-Canopy: Towards Very High Resolution Forest Monitoring [38.0] オープンアクセス・カントリースケール・ベンチマークであるOpen-Canopyを導入し,高分解能(1.5m)キャノピー高さ推定を行った。
Open-Canopy-$Delta$は,樹齢の異なる画像間のキャノピー高さ変化検出のベンチマークである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:27:18 GMT)
Spin Squeezing with Magnetic Dipoles [37.9] 絡み合いは、ショットノイズ限界を超える量子センサーの測定精度を向上させることができる。
我々は、ほとんどの中性原子に固有の磁気双極子-双極子相互作用を利用してスピンスクイーズ状態を実現する。
エルビウム量子ガス顕微鏡における有限範囲スピン交換相互作用を用いて, メロジカルに有用なスクイージングの7.1dBを実現した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:36:10 GMT)
Backdoor attacks on DNN and GBDT -- A Case Study from the insurance domain [37.9] 2つのGBDTモデルと2つのDNNは、保険状況から2つの異なるデータセットでトレーニングされる。
バックドア攻撃のために、特定のパターンを含むさまざまなサンプルが作成され、トレーニングデータに追加されました。
このタイプの攻撃は、サンプルがいくつか追加されても、非常に成功できることが示されている。
実際のシナリオでは、攻撃者はいくつかの障害に直面しなければならないが、攻撃はほとんど追加のサンプルで機能するため、このリスクを評価する必要がある。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:15:06 GMT)
Efficient estimation of error bounds for quantum multiparametric imaging with constraints [37.7] 修正されたフィッシャー情報行列の近似構築のための実用的なアルゴリズムを提案する。
量子画像における1-, 2-, 多パラメータモデル問題に適用することで, 提案手法の有効性を実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:43:18 GMT)
Training Data Reconstruction: Privacy due to Uncertainty? [36.9] 我々は、$x$のランダムな初期化が、実際のトレーニングデータセットの一部でなく、有効なトレーニングサンプルに類似した再構築につながることを示す。
アフィン層と一隠れ層を用いた実験により, 自然画像の再構成を行うと, 相手側では, 再構成された画像が実際にトレーニングサンプルの一部であったかどうかを判別できないことが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:00:29 GMT)
TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.7] 位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは7つのジオアウェアイメージ分類と10のジオアウェアイメージ回帰データセットを含む。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:23:12 GMT)
Generative Semantic Communication: Architectures, Technologies, and Applications [36.7] 本稿では,ジェネレーティブ人工知能(GAI)のセマンティックコミュニケーションへの応用について述べる。
3つの人気セムコムシステムが最初に導入され、その中には変分オートエンコーダ、生成逆数ネットワーク、拡散モデルなどがある。
最先端のGAI技術大規模言語モデル(LLM)を取り入れた新しい生成型SemComシステムを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:50 GMT)
Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.7] DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:50:25 GMT)
Scaling Up Probabilistic Circuits by Latent Variable Distillation [36.6] その結果, 潜水式蒸留法は, 潜水式蒸留法を使わずに大容量PCの性能を著しく向上させることがわかった。
特に、画像モデリングのベンチマークでは、PCは広く使われている深層生成モデルと競合する性能を達成している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:58:21 GMT)
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.5] 最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。
この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:53:55 GMT)
Can We Generate Visual Programs Without Prompting LLMs? [36.1] 我々のゴールは,1)推論時にプロンプトベースのLCMを使用しない効率的なビジュアルプログラミングシステムを開発すること,2)大量のプログラムと応答アノテーションを使用することである。
データ拡張により、プロンプトフリーの小さなLCMは、より高速な推論の利点を付加した最先端のアートモデルと競合する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:32:21 GMT)
Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design [35.4] 大規模言語モデル(LLM)が普及し,LLM上でのMLモデルの効率的な設計の必要性が高まっている。
本稿では,LLMの効率的な推論技術に焦点をあて,モデルとシステム設計という2つの視点から解説する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:39:41 GMT)
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering [35.2] MLE-benchは、AIエージェントが機械学習エンジニアリングでどのように機能するかを測定するためのベンチマークである。
われわれはKaggleから75のMLエンジニアリング関連のコンペを開催する。
私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:02:22 GMT)
Correlated Structural and Optical Characterization of Hexagonal Boron Nitride [34.8] ヘキサゴンホウ素(hBN)はナノスやナノルミネッセンスにおいて中心的な役割を果たす。
hBNは室温の量子エミッタをホストし、光学的に量子フォトニクスに対処する。
量子エミッタとスピン欠陥のホストとしてのhBNの機能に影響を与える構造因子について検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:50:49 GMT)
Self-Interested Agents in Collaborative Learning: An Incentivized Adaptive Data-Centric Framework [34.2] 本稿では,データ中心型協調学習フレームワークを提案する。
各ステップで、arbiterはエージェントからデータのバッチを収集し、マシンラーニングモデルをトレーニングし、各エージェントにデータコントリビューションを反映する独自のモデルを提供する。
この設定は、共有データ影響モデルの更新を行うフィードバックループを確立し、結果のモデルが将来のデータ共有戦略をガイドする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:28:18 GMT)
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation [33.9] 本稿では,オブジェクト挿入と主観的生成の両方のためのチューニング不要な手法を提案する。
このタスクでは、複数のビューを与えられたオブジェクトを、画像またはテキストによって指定されたシーンにコンパイルする。
我々は,オブジェクト挿入と主観的生成の最先端手法と比較し,単一の参照や複数参照を用いて比較した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:53 GMT)
Rethinking Comprehensive Benchmark for Chart Understanding: A Perspective from Scientific Literature [33.7] 我々は新しいベンチマークであるScience Chart QA (SCI-CQA)を導入する。
過去10年間で、トップクラスのコンピュータサイエンスカンファレンス15の論文から、202,760のイメージテキストペアのデータセットをキュレートしました。
SCI-CQAはまた、人間の試験にインスパイアされた新しい評価フレームワークを導入し、5,629の精査された質問を含んでいる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:29:54 GMT)
Concept Bottleneck Language Models For protein design [33.6] 概念ボトルネックタンパク質言語モデル(CB-pLM)を紹介する。
CB-pLMは、各ニューロンが解釈可能な概念に対応する層を持つ生成マスク言語モデルである。
CB-pLMを2400万から30億のパラメータに拡張し、これらをトレーニングされた最大の概念ボトルネックモデルとし、生成言語モデリングを初めて実現しました。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:38:41 GMT)
POINTS1.5: Building a Vision-Language Model towards Real World Applications [33.5] 実世界の様々な応用に優れた新しい視覚言語モデルPOINTS1.5を導入する。
画像解像度が固定されたオリジナルのCLIPビジョンエンコーダを、ネイティブな動的高解像度をサポートするNaViTスタイルのビジョンエンコーダに置き換える。
我々はPOINTS1.5にバイリンガルサポートを追加し、中国語の能力を大幅に強化した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:08:25 GMT)
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning [33.1] 本稿では,任意のアームをサポート可能な安価で堅牢で柔軟な移動マニピュレータを提案する。
パワードキャスターにより、移動基地は完全にホロノミックになり、独立して同時に全ての平面自由度を制御することができる。
我々はロボットに直感的な携帯電話の遠隔操作インタフェースを装備し、模倣学習のためのデータ取得を容易にする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:54:22 GMT)
CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [33.1] オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、エージェントが見えない環境でターゲットオブジェクトを見つける必要があるAIの基本的なタスクである。
我々は,この認知過程を大規模言語モデルの助けを借りてモデル化しようとするCagNavを紹介する。
オープンボキャブラリとゼロショット設定では、HM3DベンチマークのSOTAを69.3%から87.2%に向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:50:35 GMT)
Representation Learning with Large Language Models for Recommendation [33.0] 本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:40:48 GMT)
Structured IB: Improving Information Bottleneck with Structured Feature Learning [32.8] 我々は、潜在的に構造化された機能を調べるためのフレームワークであるStructured IBを紹介した。
IBラグランジアン法と比較し,予測精度とタスク関連情報を比較検討した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:17:45 GMT)
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations? [32.6] 言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
単視点画像から物理的に再現可能な3次元変換サンプルを生成する最初のフレームワークであるAdvDreamerを提案する。
AdvDreamerは、先進的な生成技術と2つの重要なイノベーションを統合し、自然画像から3Dバリエーションの最悪の分布を特徴づけることを目指している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:14:13 GMT)
SVGFusion: Scalable Text-to-SVG Generation via Vector Space Diffusion [32.0] SVGFusionは、現実のSVGデータへのスケーリングが可能なテキストからSVGモデルである。
人気のあるText-to-Imageフレームワークを使って、ベクターグラフィックスのための連続的な潜伏空間を学習する。
品質と一般化性の向上を実現し、新たなSVGコンテンツ作成を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:02:25 GMT)
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.9] VLM(Vision-Language Models)は、様々なタスク(画像テキスト検索、視覚的質問応答など)において強力なパフォーマンスを実現している。
本稿では,付加的な監督を伴わずに VLM トレーニングを強化する階層的構造化学習 (HIST) を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:36:18 GMT)
DynamicPAE: Generating Scene-Aware Physical Adversarial Examples in Real-Time [31.3] 物理敵例(PAEs)は、ディープラーニング応用における現実世界のリスクの「ウィストル・ブロワーズ」と見なされている。
動的PEEの生成における主な課題は、ノイズの多い勾配フィードバックの下でパターンを探索し、シナリオの性質にアタックを適用することである。
静的アタック以外のリアルタイムな物理的アタックを可能にする最初の生成フレームワークであるDynamicPAEを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:00:15 GMT)
Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.0] Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:27:30 GMT)
What Should We Engineer in Prompts? Training Humans in Requirement-Driven LLM Use [30.9] 既存のプロンプトエンジニアリングの指示は、しばしば要求調節に焦点を合わせる訓練を欠いている。
本稿では,要求指向型プロンプトエンジニアリング(ROPE)について紹介する。
30人の初心者によるランダム化制御実験では、ROPEは従来のプロンプトエンジニアリングトレーニングよりも大幅に優れています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:58:53 GMT)
SegFace: Face Segmentation of Long-Tail Classes [30.9] 顔解析は、顔の編集、顔のスワップ、顔の化粧など、様々な高度な応用に必須である。
これらの頻繁なクラスはロングテールクラスと呼ばれ、ヘッドクラスとして知られるより頻繁なクラスによって隠蔽される。
従来の手法、主にCNNベースの手法は、訓練中にヘッドクラスに支配される傾向があり、結果としてロングテールクラスに対する準最適表現が生じる。
学習可能なクラス固有のトークンを利用する軽量トランスフォーマーモデルを用いた,シンプルで効率的なアプローチであるSegFaceを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:57 GMT)
HonestLLM: Toward an Honest and Helpful Large Language Model [30.8] 大規模言語モデル(LLM)は、その例外的な生成能力により、様々な産業で顕著な成功を収めている。
正直さを維持しながらLLMの有用性を優先できるだろうか?
LLMの誠実さと有用性を高めるための2つのアプローチとして、トレーニング不要の強化と微調整に基づく改善を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:52:58 GMT)
Superradiant phase transitions in the quantum Rabi model: Overcoming the no-go theorem through anisotropy [30.3] 超ラジアント相転移(SRPT)は、パラダイム的量子ラビモデルでは禁止されている。
異方性量子Rabiモデルにおいて、通常の位相から生じる2種類のSRPTを示す。
作業は、$mathbfA$-square 項を変更することなく、内在的な形で SRPT を観測するための新しい道を開くことができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:33:29 GMT)
Unlocking Visual Secrets: Inverting Features with Diffusion Priors for Image Reconstruction [29.9] ディープニューラルネットワーク(DNN)内の視覚表現を反転させることは、ディープラーニングのセキュリティとプライバシの分野において、困難かつ重要な問題である。
本稿では,画像合成の有望な手法である拡散モデルを用いて,特徴の反転品質を向上させることを提案する。
その結果,拡散モデルではDNNの特徴から隠れた情報を効果的に活用できることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:24:15 GMT)
Advancing Single- and Multi-task Text Classification through Large Language Model Fine-tuning [29.8] 大規模言語モデル(LLM)はテキスト分類タスクに広く使われている。
本研究は様々なモデルと手法を用いており、サイズやアーキテクチャは様々であり、微調整と事前訓練の両方のアプローチを含んでいる。
まず,20のニュースグループ(20NG)とデータセット上でのLLMの性能を評価し,エンコーダのみのRoBERTaモデルと比較した。
目的検出やスロットフィリングを含む複数の分類タスクを,両方のデータセットからのデータを用いて単一のモデルに組み合わせることで,両モデルのマルチタスク機能について検討した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:06:44 GMT)
BLADE: Single-view Body Mesh Learning through Accurate Depth Estimation [29.5] シングルイメージのヒューマンメッシュリカバリは、同時体型、ポーズ、カメラ推定といった特徴が欠如しているため、困難な作業である。
本研究では,仮定なしで単一の画像から視点パラメータを正確に復元するBLADE法を提案する。
提案手法は,3次元ポーズ推定と2次元アライメントの高精度化を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:08 GMT)
AniClipart: Clipart Animation with Text-to-Video Priors [28.8] 本稿では,静的アニメーションをテキストからビデオへの誘導による高品質なアニメーションに変換する計算システムAniClipartを紹介する。
As-Rigid-As-Possible(ARAP)形状の変形とレンダリングの差別化により、AniClipartは剛性を維持しながらエンドツーエンドで最適化できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:30:10 GMT)
Fast Prompt Alignment for Text-to-Image Generation [28.7] 本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:58:41 GMT)
InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models [28.5] 拡散モデルは、非常にデータ駆動であり、現実世界のデータに存在する不均衡とバイアスを継承する傾向がある。
拡散誘導のための不変意味情報学習を目的としたフレームワークInvDiffを提案する。
InvDiffは、画像生成の品質を維持しながら、バイアスを効果的に低減する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:47:11 GMT)
NushuRescue: Revitalization of the Endangered Nushu Language with AI [28.3] NushuRescueは、最小限のデータで絶滅危惧言語上で大きな言語モデルをトレーニングするために設計された、AI駆動のフレームワークである。
我々は,500文のNushu- Chinese並列コーパスであるNCGoldを開発した。
ヌシュレスキューは50の文に対して48.69%の翻訳精度を達成し、異なる長さの98の漢文を新たに翻訳したNASilverを作成した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:18:10 GMT)
Preference Discerning with LLM-Enhanced Generative Retrieval [28.3] 我々は、選好識別という新しいパラダイムを提案する。
嗜好判断において、我々は、そのコンテキスト内でのユーザの嗜好に対して、生成的シーケンシャルなレコメンデーションシステムを明示的に条件付けする。
ユーザレビューと項目固有データに基づいて,Large Language Models (LLMs) を用いてユーザ嗜好を生成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:26:55 GMT)
Multi-level Matching Network for Multimodal Entity Linking [28.1] MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。
マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。
M3ELは、3つの異なるモジュールで構成されている: (i) マルチモーダルエンコーダでモーダル固有の表現を抽出するマルチモーダル特徴抽出モジュール、 (ii) マッチング粒度の2レベルを含むモーダル内マッチングネットワークモジュール、 (iii) 双方向戦略、テキスト・ツー・ビジュアルおよびビジュアル・トゥ・テキストマッチングを適用するクロスモーダルマッチングネットワークモジュール。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:26:17 GMT)
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis [28.0] 高忠実度音声ヘッドの合成能力により, 放射場に基づく手法が注目されている。
本稿では,頭部の静的な3次元ガウス場を構築し,音声と同期して変形するPointTalkという新しい3次元ガウス法を提案する。
提案手法は,従来の手法と比較して,音声ヘッド合成における高忠実度およびオーディオ-リップ同期に優れる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:15:14 GMT)
Shaping AI's Impact on Billions of Lives [27.8] 我々は、AI実践者のコミュニティが、共通の善のために意識的に、積極的に働くことを主張する。
本稿は、新しいタイプのイノベーション基盤の青写真を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:22:32 GMT)
Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training [27.8] 39B以上のテンプレートの組み合わせを生成可能なプログラム型命令テンプレート生成器を提案する。
5つのベンチマークデータセット上の8つのコモンにわたる実験は、テンプレートの感度が高く、テンプレート間のパフォーマンスギャップは少なくとも29%である。
データセットにチューニングされたモデルは、データセットの75倍のスケールでチューニングされた同じスケールと比較して、最高の全体的なパフォーマンスを達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:39:42 GMT)
Mirror-3DGS: Incorporating Mirror Reflections into 3D Gaussian Splatting [27.4] Mirror-3DGSは鏡の幾何学と反射を正確に扱うように設計された新しいフレームワークである。
ミラー属性を3DGSに組み込むことで、ミラー3DGSはミラーの後ろからミラー化された視点をシミュレートし、シーンレンダリングのリアリズムを高める。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:30:11 GMT)
SweetieChat: A Strategy-Enhanced Role-playing Framework for Diverse Scenarios Handling Emotional Support Agent [27.3] 大規模言語モデル(LLM)は、相互作用中に共感的サポートを提供する有望な可能性を実証している。
本稿では,現実的な感情支援会話をシミュレートする,革新的な戦略強化型ロールプレイングフレームワークを提案する。
本フレームワークでは,3.7K+のマルチターン対話と62.8K+の発話からなるtextbfServeForEmoデータセットを開発した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:56:04 GMT)
Learnable Sparse Customization in Heterogeneous Edge Computing [27.2] 異種フェデレート学習(FedLPS)のための学習可能なパーソナライズ・スパシフィケーションを提案する。
FedLPSは、局所データ表現におけるモデルユニットの重要性を学び、パーソナライズされたデータ特徴を正確に抽出するために、最小限の重要度に基づくスパースパターンを導出する。
実験により、FedLPSは精度とトレーニングコストにおいてステータスクオアプローチよりも優れていることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:15:45 GMT)
Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis [27.2] 大規模マルチモーダルモデル(LMM)に基づく新しい縫製パターン生成手法を提案する。
LMMは多様な設計インプットを解釈するための直感的なインタフェースを提供する。
パターン作成プログラムは、よく構造化され、意味的に意味のあるミシンパターンの表現として機能する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:26:45 GMT)
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering [27.2] 我々は,個別サブセットサンプリング手法をグラフベースの視覚的質問応答システムに統合する。
本手法は,解釈可能性と解答精度のトレードオフを効果的に緩和することを示す。
また、生成されたサブグラフの解釈可能性を評価するために、人間の評価を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:18:37 GMT)
Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective [27.2] 本稿では,連続関係抽出における破滅的忘れに対処する新しい手法を提案する。
提案手法では各タスクにプロンプトプールを導入し,タスク内の変動を捉えるとともに,タスク間の差異を増大させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:00:33 GMT)
Dynamic Disentangled Fusion Network for RGBT Tracking [27.0] 本研究では,DDFNetと呼ばれる新しい動的遠方核融合ネットワークを提案し,その融合過程を複数の動的核融合モデルに分解する。
特に,RGBと熱機能を統合する6つの属性ベース融合モデルを6つの難解なシナリオで設計する。
ベンチマークデータセットによる実験結果は、DDFNetが他の最先端手法に対して有効であることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:03:27 GMT)
SpikeGS: Reconstruct 3D scene via fast-moving bio-inspired sensors [26.7] Spike Gausian Splatting (SpikeGS)は、スパイクストリームを3DGSパイプラインに統合し、素早く動くバイオインスパイアされたカメラで3Dシーンを再構築するフレームワークである。
SpikeGSは、高時間分解能から詳細な幾何学とテクスチャを抽出するが、スパイクストリームを欠いたテクスチャは、1秒でキャプチャされた3Dシーンを再構成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:52:12 GMT)
From MLP to NeoMLP: Leveraging Self-Attention for Neural Fields [26.7] 我々は,NeoMLPと呼ばれる,隠れたスケーラブルなノードに基づく新しいタイプの接続性を開発している。
マルチモーダル音声・視覚データを含む高分解能信号を取り付けることで,本手法の有効性を実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:01:38 GMT)
3D Mesh Editing using Masked LRMs [26.3] マルチビュー画像からの3次元再構成の最近の進歩を基盤として,メッシュ形状の編集に新たなアプローチを提案する。
モデルでは, 所定の3次元領域を除いて, 入力形状を再構成しなければならない条件付き再構成問題として形状編集を定式化する。
提案手法は,1つのフォワードパスでSoTAと同等の再構成機能によって,非マスキーク領域の入力幾何を保存できるだけでなく,単一の画像ガイダンスから様々なメッシュ編集を行うのに十分であることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:59:17 GMT)
Coverage-based Fairness in Multi-document Summarization [26.2] 本稿では,社会的属性の異なる文書のカバレッジに基づいた,新たな要約レベルの公平度尺度である平等カバレッジを提案する。
また,コーパスレベルの不公平性を検出するための新しいコーパスレベル尺度であるCoverage Parityを提案する。
また,Claude3-sonnetは全ての評価LCMの中でもっとも公平であることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:01:30 GMT)
Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data [26.0] 我々は、ロバストなステレオマッチングのためのソリューションであるStereoAnythingを紹介する。
ラベル付きステレオ画像を収集し,ラベル付きモノクロ画像から合成ステレオペアを生成することにより,データセットをスケールアップする。
5つの公開データセット上で,モデルのゼロショット能力を広範囲に評価した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:28:48 GMT)
Unicorn: Unified Neural Image Compression with One Number Reconstruction [25.8] textbfUnified textbfNeural textbfImage textbfCompression with textbfOne textbfNnumber textbfReconstruction)。
イメージをインデックス画像対として概念化し、微妙なニューラルネットワークでペア固有の分布を学習することにより、Unicornは、1つのインデックス番号だけでランダムに生成されたノイズから視覚的に喜ぶイメージを再構成することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:59:04 GMT)
Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization [25.8] 視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。
カメラのポーズを直接回帰するディープニューラルネットワークは、高速な推論能力のために人気を集めている。
textbfReloc3rは、シンプルだが効果的な視覚的ローカライゼーションフレームワークである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:36:18 GMT)
Hidden in the Noise: Two-Stage Robust Watermarking for Images [25.7] 拡散モデルの初期雑音に基づく画像の歪みのない透かし手法を提案する。
透かしを検出するには、画像のために再構成された初期ノイズと、以前に使用した初期ノイズとを比較する必要がある。
本稿では,効率的な検出を行うための2段階の透かしフレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:42:20 GMT)
OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline [25.5] 我々はOpenStereoと呼ばれるフレキシブルで効率的なステレオマッチングを開発する。
OpenStereoには10以上のネットワークモデルのトレーニングと推論コードが含まれている。
我々は, 立体マッチングにおける最近の展開の総合的分析とデコンストラクションを, 包括的アブレーション実験を通じて実施する。
私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:04:22 GMT)
Two-way Node Popularity Model for Directed and Bipartite Networks [25.5] Two-Way Node Popularity Model (TNPM)は、一般のガウス系内の異なる分布のエッジを許容する。
大規模ネットワークをより効率的に処理するための2段階分割コサインアルゴリズム(TSDC)。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:59:14 GMT)
GameArena: Evaluating LLM Reasoning through Live Computer Games [25.4] 我々は,人間との対話型ゲームプレイを通じて,大規模言語モデル(LLM)推論能力を評価するベンチマークであるGameArenaを紹介する。
GameArenaは3つのゲームからなり、参加者を楽しませたりエンゲージメントしたりしながら、特定の推論能力(演能的推論や帰納的推論など)をテストする。
我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:52:06 GMT)
TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.2] データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:34:43 GMT)
Position-aware Guided Point Cloud Completion with CLIP Model [25.1] 本稿では,単一モーダルフレームワークをマルチモーダルフレームワークに拡張するための迅速かつ効率的な手法を提案する。
このアプローチには、欠落部分の空間情報を強化するために設計された位置認識モジュールが組み込まれている。
さらに,既存の単調なクラウド補完データセットに基づいて,PCI-TIとMVP-TIの3重画像コーパスを確立する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:43:11 GMT)
SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration [24.7] 我々は,2つの主要なツール・ユース・フレームワークを持つ3つのデータセット上で,最先端のLarge Language Models (LLM) ファミリーの研究を行う。
本研究は,自信過剰にツールを誤用する傾向にあるLSMのツール使用行動を明らかにする。
我々は、観察された問題を緩和するための新しいアプローチ、textitCALを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:09:12 GMT)
RALI@TREC iKAT 2024: Achieving Personalization via Retrieval Fusion in Conversational Search [24.5] パーソナライズされた検索では、ユーザの複雑な検索意図を効果的にキャプチャするには、ユーザプロファイルからコンテキスト情報とキー要素の両方をクエリ再構成に組み込む必要がある。
これはオーバーパーソナライゼーション(over-personalization)という課題です。
そこで本研究では,クエリから生成したランキングリストを,パーソナライズレベルの違いで融合させることにより,異なる戦略を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:44:52 GMT)
Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection [24.4] 一般的なクエリ・トランスフォーマーアーキテクチャを用いたHuman-object Interaction (HOI)検出器は有望な性能を実現している。
インタラクション・プロンプト・ディストリビュート・ラーニング(InterProDa)のアプローチを紹介する。
提案手法は,ほとんどの変圧器を用いたHOI検出器に組み込むことができ,性能を著しく向上させることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:18:17 GMT)
Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks [24.1] 既存の修復ネットワークや高レベルビジョンネットワークの再構築を必要としないtextVariational textbfTranslator (VaT) と呼ばれる教師なし学習手法を提案する。
VaTはラベルを必要とせずに上記の最適化目標を達成する。
脱湿・低照度化による検出・分類実験は, 従来の非監督的手法に比べて, 本手法の優位性を示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:07:19 GMT)
Pragmatist: Multiview Conditional Diffusion Models for High-Fidelity 3D Reconstruction from Unposed Sparse Views [23.9] スパースから3D構造を推定すると、制約のない性質のため、予期せぬ観測は困難である。
近年,データ駆動型入力から暗黙の表現を直接予測し,有望な結果を得る方法が提案されている。
本研究では,限られた入力ビューから完全な観測結果を生成し,再構成を容易にする条件付き新規なビュー合成を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:30:24 GMT)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.8] 我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。
重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:59:10 GMT)
Analyzing and Improving Model Collapse in Rectified Flow Models [23.6] 生成モデルは、実際の分布と区別できない合成データを生成することを目的としているが、自己生成データに対する反復的な訓練は、エファンモデル崩壊(MC)を引き起こす可能性がある。
我々は、DAE(Denoising Autoencoders)の文脈内でのフレーミングにより、Rectified FlowにおけるMCの最初の理論的解析を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:05:35 GMT)
Proactive Model Adaptation Against Concept Drift for Online Time Series Forecasting [23.5] オンライン時系列予測のための新しいプロアクティブモデル適応フレームワークである textscProceed を提示する。
textscProceedは、最近使用されているトレーニングサンプルと現在のテストサンプルの間のコンセプトドリフトを推定することで最初に動作する。
次に、推定ドリフトをパラメータ調整に効率的に変換するために適応生成器を使用する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:57:10 GMT)
Towards Data-centric Machine Learning on Directed Graphs: a Survey [23.5] 本稿では,有向グラフ学習研究のための新しい分類法を提案する。
我々はこれらの手法をデータ中心の観点から再検討し、データ表現の理解と改善に重点を置いている。
我々はこの分野における主要な機会と課題を特定し、有向グラフ学習における将来の研究と開発を導く洞察を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:28:37 GMT)
DAKD: Data Augmentation and Knowledge Distillation using Diffusion Models for SAR Oil Spill Segmentation [23.5] 本稿では,拡散に基づくSAR-JointNetを用いて,現実的なSAR画像とそのラベルのセグメンテーションを学習する。
DAKDパイプラインはトレーニングデータセットを拡張し、SAR-JointNetから知識を抽出する。
SAROSS-Netはノイズの多いSAR画像から高周波特徴を選択的に転送するように設計されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:50:33 GMT)
Visions in Quantum Gravity [23.4] Norditaプログラム「量子重力:重力効果場理論から紫外完全アプローチ」
このコントリビューションは、プログラム中に開催された12のトピックに関する議論をまとめたものだ。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:00 GMT)
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.3] 本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。
次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。
我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:12:13 GMT)
Scalable Autoregressive Image Generation with Mamba [23.0] 本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:50:08 GMT)
Diversity Drives Fairness: Ensemble of Higher Order Mutants for Intersectional Fairness of Machine Learning Software [22.9] 本稿では,機械学習ソフトウェアの交差公正性を高めるための新しいアンサンブル手法であるFairHOMEを紹介する。
多様性の利点を強調する社会科学理論に触発されて、FairHOMEは入力インスタンスごとに多様なサブグループを表すミュータントを生成する。
我々はFairHOMEを、24の意思決定タスクにまたがる7つの最先端の公正性改善手法に対して広範囲に評価する。
平均して交差点の公正度は47.5%向上し、現在最高のパフォーマンスの手法を9.6ポイント上回っている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:44:35 GMT)
Length Optimization in Conformal Prediction [22.7] Conformal Prediction with Length-Optimization (CPL) は、ほぼ最適な長さの予測セットを構築するための、新しく実用的なフレームワークである。
本稿では,CPLが条件付き妥当性と長さの最適性を実現することを示す。
実験による評価は, CPLの最先端手法と比較して, 予測セットサイズ性能が優れていることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:48:59 GMT)
Regional Weather Variable Predictions by Machine Learning with Near-Surface Observational and Atmospheric Numerical Data [22.5] 本稿では,ケンタッキー・メソネット駅の近地観測データを統合した新しい機械学習(ML)モデルであるMiMa(マイクロマクロのショート)を提案する。
MiMaは現在のモデルを大きく上回り、Re-MiMaは未完成の場所の正確な短期予測を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:55:38 GMT)
MonoBox: Tightness-free Box-supervised Polyp Segmentation using Monotonicity Constraint [22.3] 単調性に制約されたボックス教師付きセグメンテーション手法であるMonoBoxを提案する。
MonoBoxは、ユーザフレンドリーでないボックステトネス仮定からトレーニングを解放する。
パブリックシンセサイザーと社内のリアルノイズデータセットの実験は、MonoBoxが他のアンチ・ノイズ・オブ・ザ・アーティファクトを上回っていることを示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:52:27 GMT)
Coherent3D: Coherent 3D Portrait Video Reconstruction via Triplane Fusion [22.2] シングルイメージの3Dポートレートの再構築により、テレプレゼンスシステムは1台のカメラからリアルタイムで3Dのポートレート映像をストリーミングできるようになった。
しかし、フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
本稿では,フレーム単位の入力ビューから動的に出現する参照ビューから,標準3Dを融合することにより,両世界を最大限に活用する新しい融合方式を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:57:24 GMT)
Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation [22.0] 本稿では,各レイヤの特徴マップにおけるドロップアウトによって引き起こされる情報損失を定量化することにより,推論中のドロップアウト率を動的に調整するアルゴリズムであるRate-Inを提案する。
特徴マップにおける機能的情報損失を定量化することにより、様々な医用画像タスクや建築構成の知覚品質を維持するために、ドロップアウト率を適応的に調整する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:50:45 GMT)
Rethinking the Starting Point: Collaborative Pre-Training for Federated Downstream Tasks [21.8] CoPreFLはモデルに依存しないメタラーニング(MAML)プロシージャで、異種および目に見えないFLシナリオを忠実に模倣するようにグローバルモデルを調整する。
当社のMAML手順では,パフォーマンスの分散をメタオブジェクト関数に組み込んで,クライアント間でパフォーマンスのバランスをとる。
我々は,任意の下流FLタスク間の平均精度と分散の両面で,CoPreFLが大幅に改善されることを実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:50:56 GMT)
Video Summarization using Denoising Diffusion Probabilistic Model [21.4] 本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。
具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:02:09 GMT)
StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory [21.3] 本稿では,複数の推論における特徴と予測の関連性を構築するために,StreamMOSと呼ばれるメモリ機構を備えたストリーミングネットワークを提案する。
具体的には、移動物体に先立って空間的と考えられる歴史的特徴を伝えるために、短期記憶を利用する。
また、投影と非対称畳み込みを備えた多視点エンコーダを提案し、異なる表現で物体の運動特徴を抽出する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:07:02 GMT)
LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba [21.3] 言語支援型3Dセマンティック占有予測ネットワークLOMAを提案する。
視覚言語モデルを活用することで、このモジュールは暗黙的な幾何学的知識と言語からの明示的な意味情報を提供する。
本アルゴリズムは,幾何的および意味的完備化タスクにおいて,新しい最先端性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:55:42 GMT)
Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.0] 大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:59:36 GMT)
Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning [21.0] 自己教師型学習は、今日の強化学習におけるいくつかの重要な課題を取り上げる可能性を秘めている。
最近の研究(METRA)は、相互情報から離れ、代わりに特定のワッサーシュタイン距離を最適化することが、優れたパフォーマンスのために重要であると効果的に主張している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:00:39 GMT)
Disentangling impact of capacity, objective, batchsize, estimators, and step-size on flow VI [20.9] フローベース変分推論(フローVI)の正規化は有望な近似推論手法である。
我々は、いくつかの重要な要因の影響を解消するために、ステップバイステップの分析を行う。
本稿では,先行する旋盤型ハミルトンモンテカルロ法(HMC)に適合するフローVIレシピを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:54:08 GMT)
Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.7] RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。
HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。
一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:31:47 GMT)
Weighted Ensemble Models Are Strong Continual Learners [20.6] 本研究では,タスク列のモデル学習を目標とする連続学習(CL)の問題について検討する。
CLは基本的に、新しいタスクで学べることと、以前に学んだ概念でのパフォーマンスを維持することのバランスをとる行為である。
安定性と塑性のトレードオフに対処するため,従来の課題と現在の課題のモデルパラメータを重み付けする手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:18:16 GMT)
Banyan: Fast Rotating Leader BFT [20.5] Banyanは、単一のラウンドトリップ時間でトランザクションを確認可能な、最初の回転型リーダステートマシンレプリケーションプロトコルである。
本稿では,高速経路におけるブロック終端遅延の最適化を可能にする新しいデュアルモード機構を提案する。
評価の結果,Banyanは最先端プロトコルと比較して,レイテンシを最大30%削減できることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:23:10 GMT)
CUPS: Improving Human Pose-Shape Estimators with Conformalized Deep Uncertainty [20.5] CUPSは、シーケンスからシーケンスまでの人間の形状を学習し、不確実な定量化を伴うRGBビデオからポーズする新しい方法である。
本研究では,学習過程に不確かさの定量化を効果的に統合し,学習中に複数の仮説を生成・スコアする手法を開発した。
学習後、学習した深部不確実性モデルを整合性スコアとして使用し、整合予測器の校正に使用することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:11:44 GMT)
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models [20.5] 事前訓練されたテキスト・トゥ・イメージ(T2I)拡散/フローモデルを用いて実際の画像を編集する場合、しばしば画像が対応するノイズマップに逆転する。
本稿では、インバージョンフリー、最適化フリー、モデル非依存のT2Iフローモデルのテキストベースの編集方法であるFlowEditを紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:50:29 GMT)
Discretized Gaussian Representation for Tomographic Reconstruction [20.4] 我々はCT(Computed Tomography)再構成に特化して設計された新しい離散ガウス表現(DGR)を提案する。
我々の表現は、離散化されたガウス函数の集合をエンドツーエンドに利用して直接3次元体積を再構成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:40:32 GMT)
SweetTokenizer: Semantic-Aware Spatial-Temporal Tokenizer for Compact Visual Discretization [20.1] SweetTokenizer (SweetTokenizer) は、視覚データに対するコンパクトで効果的な離散化手法である。
我々の目標は、VQ-VAEパラダイムの再現性を維持しつつ、トークンの圧縮比を高めることである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:48:06 GMT)
Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning [20.0] プライバシーの観点から、最悪のシナリオでは、アンラーニングは考慮すべきである、と私たちは主張する。
マイノリティグループは6つの未学習アプローチで、ほとんどの場合、少なくとも20%以上のプライバシー漏洩を経験します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:22:07 GMT)
Multilingual LLMs Inherently Reward In-Language Time-Sensitive Semantic Alignment for Low-Resource Languages [19.9] 資源豊富な言語と低リソースと見なされる言語とのラベル付きリソースの格差は、大規模言語モデル(LLM)にとって重要な障害である。
言語間インコンテキスト学習(X-ICL)における最近の進歩は、主に多言語事前学習型トランスフォーマーから得られる意味的に整合した例を通して、この問題を緩和する上で有望であることが示されている。
本研究では,低リソース言語における時間的推論能力の向上により,このギャップを埋めることを目的とする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:16:39 GMT)
Bootstrapping Heterogeneous Graph Representation Learning via Large Language Models: A Generalized Approach [19.8] グラフ表現学習法は,グラフ構造内の複雑な関係や特徴を捉えることで,複雑な非ユークリッドデータを扱うのに極めて効果的である。
既存のヘテロジニアスグラフニューラルネットワーク(HGNN)は有望な結果を示しているが、ノードタイプとエッジタイプの事前知識と統一ノード特徴形式が必要である。
大規模言語モデル(LLM)を用いたグラフ表現学習の最近の進歩は、新しいソリューションを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:37:32 GMT)
A Tutorial of Personalized Federated Recommender Systems: Recent Advances and Future Directions [19.7] パーソナライゼーションはレコメンデーションシステム(RecSys)の基盤となる。
FedRecSysを使えば、ユーザーは個人データをローカルに保持でき、グローバルモデルトレーニングのプライバシー感度が低いモデルパラメータのみを共有できる。
本チュートリアルでは,(1)PFedRecSysの既存研究の概要,(2)PFedRecSysの包括的分類,(3)PFedRecSysにおけるオープン課題の探求,将来的な方向性について紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:33:51 GMT)
Coherent postionization dynamics of molecules based on adiabatic strong-field approximation [19.5] 開系に対する密度行列法による強レーザー場における分子の電離後ダイナミクスについて検討した。
我々は、イオン状態間のコヒーレンスを予測するために、断熱強磁場近似法(ASFA)を導入する。
本研究は, イオン化後分子動力学の制御におけるイオン化生成コヒーレンスの重要性を明らかにするものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:58:29 GMT)
PointCFormer: a Relation-based Progressive Feature Extraction Network for Point Cloud Completion [19.5] ポイントクラウドの完成は、不完全なポイントクラウドから完全な3D形状を再構築することを目的としている。
PointCFormerは,ロバストなグローバル保持と正確な局所的詳細キャプチャに最適化されたトランスフォーマーフレームワークである。
PointCFormerは、広く使用されているベンチマークで最先端のパフォーマンスを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:37:21 GMT)
Generalized Least Squares Kernelized Tensor Factorization [19.3] 実世界のデータセットは、しばしば欠落または破損した値を含む。
Smoothness-Constrained Low-rank factorization modelは計算コストの削減とともに優れた性能を示した。
本稿ではテンソル完備化のための一般化最小方形カーネル化因子化フレームワークを紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:05:09 GMT)
Instructional Video Generation [19.3] 最先端の手法は、教示ビデオにおける視覚的ディテールの要素といまだに苦労している。
視覚的コンテキストとアクションテキストでガイドされた指導ビデオ生成のための新しい手法を提案する。
EpicKitchens と Ego4D をベースとした拡張指導データセットの評価を行った。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:13:49 GMT)
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.1] 本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:21:33 GMT)
DMin: Scalable Training Data Influence Estimation for Diffusion Models [18.9] DMinは、与えられた生成された画像に対するトレーニングデータサンプルの影響を推定するフレームワークである。
ストレージ要求を339.39TBから726MBに減らし、1秒以内に最も影響力のあるトレーニングサンプルを回収する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:58:40 GMT)
Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.9] 視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:37:04 GMT)
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations [18.7] 既存のテキスト・トゥ・イメージ(T2I)モデルは、複数のオブジェクトと複雑な関係を含む合成画像生成において、劣化した性能を示す。
シーングラフの高品質な構造アノテーションを備えた大規模データセットであるLAION-SGを構築した。
合成画像生成のモデルを評価するベンチマークであるCompSG-Benchについても紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:57:10 GMT)
TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch [18.7] 最近のLSMベースのTSは、通常、高品質なトレーニングデータを得るために複雑なデータ処理パイプラインを使用する。
本研究では、ノイズローバストなオーディオ・トークンーザ(S3Tokenizer)を利用して、シンプルで効率的なTSデータ処理パイプラインを設計する。
このパイプラインはデータ品質を維持しながら、データ取得コストを大幅に削減し、データの保持率50%以上を達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:38:50 GMT)
Robustness of Graph Classification: failure modes, causes, and noise-resistant loss in Graph Neural Networks [18.6] グラフニューラルネットワーク(GNN)は、グラフ分類タスクを解くのに強力だが、適用された問題はしばしばノイズの多いラベルを含んでいる。
本稿では,低次グラフの一般化に苦しむモデルにおいて,GNNの雑音に対するロバスト性を検証し,GNNの故障モードを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:35:37 GMT)
k-HyperEdge Medoids for Clustering Ensemble [18.3] クラスタリングアンサンブルはk-HyperEdge Medoids発見問題として定式化されている。
k-HyperEdge Medoidsに基づくクラスタリングアンサンブル法を提案する。
本手法の収束性は20データセットの実験的解析によって検証される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:04:17 GMT)
MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.2] 物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:41:19 GMT)
PyOD 2: A Python Library for Outlier Detection with LLM-powered Model Selection [18.1] Outlier Detection(OD)は、不正検出、ネットワーク侵入検出、クリックストリーム分析、レコメンデーションシステム、ソーシャルネットワークモデレーションに応用するための、重要な機械学習(ML)タスクである。
PyODはODの最も広く採用されているライブラリで、8500以上のGitHubスター、2500万ダウンロード、さまざまな業界利用がある。
PyODバージョン2(PyOD2)は、12の最先端ディープラーニングモデルをPyTorchフレームワークに統合し、ODモデルの自動選択のための大規模言語モデル(LLM)ベースのパイプラインを導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:53:20 GMT)
Semantic Loss Guided Data Efficient Supervised Fine Tuning for Safe Responses in LLMs [18.0] 有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。
本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。
負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:35:25 GMT)
TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition [17.9] 我々は手書き数式認識のための新しいモデルTAMER(Tree-Aware Transformer)を提案する。
TAMERは、シーケンス予測とツリー構造予測を協調的に最適化することで、シーケンス復号とツリー復号モデルの両方の利点を組み合わせる。
CROHMEデータセットの実験結果は、TAMERが従来のシーケンスデコーディングモデルより優れていることを示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:07:45 GMT)
The Effects of Multi-Task Learning on ReLU Neural Network Functions [17.8] 本稿では,マルチタスク浅層ReLUニューラルネットワーク学習問題の性質について検討し,最小2乗重みのデータセットに適合するようにネットワークを訓練する。
注目すべきことに、個々のタスクで学んだソリューションは、カーネル回帰問題を解くことによって得られるものと似ており、ニューラルネットワークとカーネルメソッドの間の新しい接続が明らかにされている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:37:55 GMT)
EvalSVA: Multi-Agent Evaluators for Next-Gen Software Vulnerability Assessment [17.7] ソフトウェア脆弱性(SV)評価のさまざまな側面を自律的に検討し,評価するために,マルチエージェント評価チームであるEvalSVAを紹介した。
EvalSVAは人間のようなプロセスを提供し、SVアセスメントの理由と答えの両方を生成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:00:50 GMT)
From Jack of All Trades to Master of One: Specializing LLM-based Autoraters to a Test Set [17.6] 本研究では,テストセットの履歴評価を活用して,インコンテキスト学習の例を構築することによって,与えられたテストセットに対してAutoraterを専門化する手法を設計する。
WMT'23 と WMT'24 テストセットにおいて, 機械翻訳評価の細粒度化作業におけるスペシャリスト手法の評価を行い, 最先端の XCOMET 測定値の 54% と 119% を劇的に上回っていることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:00:55 GMT)
Augmenting Sequential Recommendation with Balanced Relevance and Diversity [17.5] 本稿では、関連性と多様性のバランスをとるデータを生成するために、BASRec(Balanced Data Augmentation for Sequential Recommendation)を提案する。
BASRecはSingle-Sequence AugmentationとCross-Sequence Augmentationの2つのモジュールで構成されている。
我々は,BASRecが既存の手法よりも妥当性と多様性のバランスのよいデータを生成することを示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:29:15 GMT)
Tube Loss: A Novel Approach for Prediction Interval Estimation and probabilistic forecasting [17.5] 本稿では,予測区間(PI)の境界の同時推定のための新しい損失関数「タブロス」を提案する。
管損失に基づく経験的リスクを最小化することにより得られるパイは、既存の方法によるPIよりも高品質であることが示されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:04:52 GMT)
A Survey on Private Transformer Inference [17.4] トランスフォーマーモデルはAIに革命をもたらし、コンテンツ生成や感情分析などのアプリケーションを可能にする。
しかし、機械学習・アズ・ア・サービス(ML)における彼らの使用は、重要なプライバシー上の懸念を提起する。
Private Transformer Inference (PTI) は暗号技術を用いてこれらの問題に対処する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:05:24 GMT)
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Tensorflow Pretrained Models [17.4] この研究は、ResNet、MobileNet、EfficientNetを含むモダンなアーキテクチャをカバーしている。
PCA, t-SNE, UMAPなどの手法を用いた可視化により, 線形探索とモデル微調整の比較を行った。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:40:00 GMT)
A mechanical quantum memory for microwave photons [17.2] トランスモン超伝導体と長寿命メカニカル発振器の強い結合性を示す。
この発見は量子状態への例外的な保存を延長し、将来の応用におけるコンパクトなボゾン元素として前進させた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:21:09 GMT)
Human-Object Interaction from Human-Level Instructions [17.1] 本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。
我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。
従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:37:15 GMT)
Diffusion Model Patching via Mixture-of-Prompts [17.0] 拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
DMPは、収束したDiT-L/2のFIDをFFHQで10.38%向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:58:19 GMT)
SAFIRE: Segment Any Forged Image Region [17.0] 本稿では,任意の画像領域(SAFIRE, Segment Any Forged Image Region)を提案する。
特定の偽の痕跡を記憶する代わりに、SAFIREは自然に各ソース領域内の均一な特性に焦点を当てている。
このアプローチはより安定的で効果的な学習をもたらし、新しいタスクと従来のバイナリフォージェリーローカライゼーションの両方で優れたパフォーマンスを達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:40:37 GMT)
Nonlinear optical encoding enabled by recurrent linear scattering [17.0] 連続波レーザーを用いた光非線形ランダムマッピングを低出力で受動的に誘導する設計を提案する。
我々は,読み出し次元が減少しても,設計が重要な情報を保持することを実証した。
この能力により、当社の光学プラットフォームは、アプリケーション間で効率的な光学情報処理ソリューションを提供することができます。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:53:27 GMT)
TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning [16.9] TextRefinerは、既存のメソッドのテキストプロンプトを洗練するためのプラグイン・アンド・プレイメソッドである。
きめ細かいビジュアル概念をカプセル化する新しいローカルキャッシュモジュールを構築している。
最先端のパフォーマンスを実現し、推論で効率的である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:07:12 GMT)
Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.8] Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:37:56 GMT)
Counting Guidance for High Fidelity Text-to-Image Synthesis [16.8] テキストから画像への拡散モデルは、与えられた入力プロンプトに対して高忠実度コンテンツを作成するのに苦労することがある。
入力プロンプトに基づいて正しい対象数を正確に生成できるように拡散モデルを改善する手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:16:51 GMT)
Dynamic Pricing and Advertising with Demand Learning [16.5] 販売者が商品価格を設定できるだけでなく、フレキシブルな「広告スキーム」をデザインする新しい価格と広告の枠組みを考える。
我々は、販売者の実現可能な広告戦略に構造的な制限を課さず、情報を開示したり隠したりすることで、商品の宣伝を許す。
顧客は広告信号を観察し、製品に対するベイズ的な信念を推測します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:22:52 GMT)
Revisiting Weight Averaging for Model Merging [16.5] 重み平均化は、重み平均化そのものを中心としたタスクベクトルを暗黙的に誘導する。
これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
本研究では,8つの画像分類課題における手法の評価を行い,従来の手法よりも有意差があることを実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:29:20 GMT)
Diverse Similarity Encoder for Deep GAN Inversion [16.5] 現在のGAN(Deep Generative Adversarial Network)は高品質な(HQ)画像を合成できるため、GANによる学習表現が好ましい。
GANインバージョンは、イメージを潜在空間に反転させる方法を研究する新しいアプローチの1つである。
既存のGANエンコーダはStyleGANの画像を反転させることができるが、他の深いGANに適応することはできない。
我々はこの問題に対処する新しいアプローチを提案する。潜在ベクトルと画像の多様な類似性を評価することにより、適応型エンコーダを設計し、多種多様な類似性エンコーダ(DSE)を設計する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:03:31 GMT)
Challenges of Generating Structurally Diverse Graphs [16.5] グラフの集合に対する多様性の定義方法、このタスクが非自明な理由、そして適切な多様性尺度を選択する方法について議論する。
本研究では,基本ランダムグラフ生成器の多様性を著しく向上させることが可能であることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:57:09 GMT)
Supporting Gig Worker Needs and Advancing Policy Through Worker-Centered Data-Sharing [16.5] 本研究では、労働者主導のデータ共有を通じて、労働者がそのようなコストを克服する可能性について考察する。
我々は米国の11の政策ドメインの専門家にインタビューを行い、4つのドメインで14人の活動的なギグワーカーと共同設計ワークショップを開催した。
本研究は、データ集合体に関する労働者の関心や欲求と、政策立案者の優先した取り組み、情報ニーズ、そして(ミス)調整について概説した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:47:53 GMT)
DG-Mamba: Robust and Efficient Dynamic Graph Structure Learning with Selective State Space Models [16.4] 選択状態空間モデル(Mamba)を用いた動的グラフ構造学習フレームワークを提案する。
我々のフレームワークは、敵攻撃に対する最先端のベースラインよりも優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:32:38 GMT)
Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.2] 本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。
私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:12:14 GMT)
M2OST: Many-to-one Regression for Predicting Spatial Transcriptomics from Digital Pathology Images [16.2] 病理画像の階層構造に対応する多対一回帰変換器M2OSTを提案する。
1対1のイメージラベルペアで訓練された従来のモデルとは異なり、M2OSTはデジタル病理画像の異なるレベルからの複数の画像を使用して、共通の対応する領域における遺伝子発現を共同で予測する。
M2OSTはパラメータが少なく、浮動小数点演算(FLOP)で最先端のパフォーマンスを実現することができる
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:13:20 GMT)
DocVLM: Make Your VLM an Efficient Reader [16.1] 我々は、OCRに基づくモダリティを視覚言語モデル(VLM)に統合するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
制限付き(448$times$448)では、64の学習クエリを持つDocVLMが、InternVL2に統合された場合のDocVQAの結果を56.4%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:35:06 GMT)
Unsupervised Cross-Domain Regression for Fine-grained 3D Game Character Reconstruction [16.1] 単一視点画像から細粒度3Dゲームキャラクタをエンド・ツー・エンドで再構成できるクロスドメインフレームワークを提案する。
実験により,本手法は3次元ゲームキャラクタ再構成における最先端性能を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:49:10 GMT)
TapeAgents: a Holistic Framework for Agent Development and Optimization [16.1] TapeAgentsはエージェントセッションの微細で構造化されたログテープを中心に構築されたエージェントフレームワークである。
TapeAgentsはAI実践者に総合的なエンドツーエンドサポートを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:09:54 GMT)
Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.9] VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:23:34 GMT)
Concept Bottleneck Large Language Models [15.9] 概念ボトルネック大言語モデル(CB-LLM)について紹介する。
CB-LLMは、本質的に解釈可能な大言語モデル(LLM)を作成するための先駆的なアプローチである
CB-LLMにおける解釈可能なニューロンは、概念検出とテキスト生成にどのように使用できるかを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:04:10 GMT)
Deep Distributed Optimization for Large-Scale Quadratic Programming [15.8] 本稿では,大規模擬似プログラミング(QP)問題に対処するために設計された,ディープラーニング支援型分散最適化アーキテクチャを提案する。
DeepDistributedQPは、小さな問題をトレーニングし、同じポリシーを使用してもっと大きな問題(最大50K変数と150K制約)をスケールすることで、強力な一般化を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:45:00 GMT)
HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models [15.6] HyViLMは、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されている。
同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:41:21 GMT)
CoDTS: Enhancing Sparsely Supervised Collaborative Perception with a Dual Teacher-Student Framework [15.5] 我々は,CoDTS(Dual Teacher-Student framework)のエンドツーエンド協調認識を提案する。
適応的な補完学習を用いて、高品質な擬似ラベルと高品質な擬似ラベルの両方を生成する。
CoDTSは、品質と量の両方において、擬似ラベルの最適バランスを効果的に保証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:34:37 GMT)
Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.4] 我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。
私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。
その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:31:39 GMT)
Euclidean Fast Attention: Machine Learning Global Atomic Representations at Linear Cost [15.4] 長距離相関は、多くの機械学習タスクにおいて不可欠である。
Euclidean fast attention (EFA) はユークリッドデータのための線形スケーリング型注目機構である。
EFAは様々な長距離効果を効果的に捉え、MLFFは困難な化学相互作用を記述できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:59:09 GMT)
AsyncDSB: Schedule-Asynchronous Diffusion Schrödinger Bridge for Image Inpainting [15.2] 画像インペイントのためのスケジュール非同期拡散Schr"odinger Bridgeを提案する。
AsyncDSBは、特にFIDにおいて、最先端のベースラインメソッドよりも約3%から14%改善した上で、優れたパフォーマンスを実現しています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:08:07 GMT)
How Does the Smoothness Approximation Method Facilitate Generalization for Federated Adversarial Learning? [15.1] 一般化は、目に見えないデータに基づいてアルゴリズムのパフォーマンスを評価するために重要である。
2つのFALアルゴリズムの一般化性能を評価するアルゴリズム安定性尺度を開発した。
一般化誤差を低減するための最も効果的な方法としてRSAを同定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:57:16 GMT)
SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0] スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:18:30 GMT)
Grasp Diffusion Network: Learning Grasp Generators from Partial Point Clouds with Diffusion Models in SO(3)xR3 [15.0] シミュレーションを利用して、オブジェクトのペアのデータセットを作成し、ポーズを把握します。
次に、デプロイ中に素早く起動できる条件生成モデルを学びます。
シミュレーションと実世界の実験で、我々は90%以上の成功率でいくつかのオブジェクトを把握できることを示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:17:17 GMT)
Digging into Intrinsic Contextual Information for High-fidelity 3D Point Cloud Completion [14.9] そこで本研究では,細部における部分点雲からの短・長距離コンテキスト情報の両方を掘り下げる高忠実なPCC手法を提案する。
表面凍結モジュールは、ノイズのない部分点雲から障害に対してポイントを保護する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:09:37 GMT)
Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.9] 本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:56:15 GMT)
Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.8] 我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:27:00 GMT)
Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [14.7] 本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。
我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。
我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:12:39 GMT)
EvolvED: Evolutionary Embeddings to Understand the Generation Process of Diffusion Models [14.6] 拡散モデルは、ノイズから画像を生成するために反復的な改善に依存している。
Evolvedは拡散モデルにおける反復生成過程の全体像を提示する。
Central to Evolvedは、意味的関係を維持しながら反復的なステップを符号化する新しい進化的埋め込みアルゴリズムである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:23:17 GMT)
Adversarial Vulnerabilities in Large Language Models for Time Series Forecasting [14.6] 本稿では,Large Language Models (LLMs) に基づく時系列予測のための攻撃フレームワークを提案する。
実験により, 対向攻撃は, ランダムノイズよりもはるかに深刻な性能劣化を引き起こすことが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:53:15 GMT)
How to select slices for annotation to train best-performing deep learning segmentation models for cross-sectional medical images? [14.5] 横断的な医用画像のスライスをどのように選択するかという問題に対して,系統的に答える。
注記予算の異なる4つの医用画像分割作業について実験を行った。
私たちは、ほとんどの場合、1ボリュームあたりのスライス数を減らすことが好ましいことに気付きました。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:59:05 GMT)
2M-BELEBELE: Highly Multilingual Speech and American Sign Language Comprehension Dataset [14.5] BELEBELEを拡張することで、最初の多言語音声とアメリカ手話(ASL)理解データセットを導入する。
我々のデータセットは、BELEBELEとFLEURSの交差点にある74の言語と、1つの手話(ASL)をカバーしている。
2M-BELEBELEデータセットを5ショット設定と0ショット設定の両方で評価し, 音声理解の精度は読解の精度よりも8%低かった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:46:21 GMT)
Debiased Multimodal Understanding for Human Language Sequences [14.4] 本研究では,非保守的共同創設者として働く被験者の影響を抑えるために,因果介入モジュールであるSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:03:47 GMT)
Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.3] ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。
RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。
本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:40:27 GMT)
The Seeds of the FUTURE Sprout from History: Fuzzing for Unveiling Vulnerabilities in Prospective Deep-Learning Libraries [14.3] Futureは、新しく導入され、将来的なDLライブラリ用に調整された最初のユニバーサルファジィフレームワークである。
既存のライブラリからの履歴バグ情報と、特殊なコード生成のための微調整LDMを使用する。
バグ検出、バグ再現の成功率、コード生成の妥当性、APIカバレッジにおいて、既存のファジィアよりも大幅に優れています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:35:08 GMT)
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space [14.2] 我々は、概念空間と呼ばれるフレームワークを介してモデルの学習力学を分析します。
概念空間におけるモデルの学習力学の方向を,突然回転する瞬間を観察する。
驚くべきことに、これらの点は隠蔽能力の出現と正確に一致している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:53:57 GMT)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.1] 音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:48:08 GMT)
Improving Satellite Imagery Masking using Multi-task and Transfer Learning [14.0] マスキングの速度/精度の異なるトレードオフを提供するモデル群を提示する。
従来の水画素識別法と比較して,F1スコアは9%向上した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:00:51 GMT)
Protecting Confidentiality, Privacy and Integrity in Collaborative Learning [14.0] 効果的な機械学習(ML)トレーニングを促進するためには、データセット所有者とモデル所有者のコラボレーションが必要である。
Citadel++は、データセット、モデル、トレーニングコードの機密性と、個々のユーザのプライバシを同時に保護するために設計された、スケーラブルなコラボレーティブMLトレーニングシステムである。
我々の実験によると、Citadel++はプライバシ、モデルユーティリティ、パフォーマンスを提供し、データセットのオーナとモデルのオーナのプライバシとプライバシ要件に準拠しています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:48:18 GMT)
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.9] 大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:44:15 GMT)
How to Leverage Digit Embeddings to Represent Numbers? [13.9] 数値推論において、数自体を理解することは、既存の言語モデルにとって依然として課題である。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:47:09 GMT)
Dense ReLU Neural Networks for Temporal-spatial Model [13.8] 非パラメトリック推定にRectified Linear Unit (ReLU) アクティベーション機能を利用する完全接続深層ニューラルネットワークに着目する。
我々は、観測された測定における時間的および空間的依存に対処するため、収束率につながる非漸近境界を導出する。
我々はまた、多様体上のデータをモデル化し、高次元データの本質的な次元性を探求することで、次元性の呪いに取り組む。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:17:59 GMT)
AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models [13.8] 大規模オーディオ誘導モデル(LALM)の最近の進歩は、音声によるユーザインタラクションを可能にしている。
しかし、LALMの安全性を確保することは、社会的な懸念やAI規制を引き起こすリスクのあるアウトプットを防ぐために不可欠である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:30:57 GMT)
Reducing Inference Energy Consumption Using Dual Complementary CNNs [13.8] 本稿では,CNNのエネルギー要求を低減させる新しい手法を提案する。
我々は、予測において互いの「弱さ」をカバーし、互いに協調する2つの小さな補完的CNNを採用。
私たちがJetson Nanoコンピュータで行った実験では、各サンプルが一度複製された修正データセット上で最大85.8%のエネルギー削減が達成された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:22:34 GMT)
Mjolnir: Breaking the Shield of Perturbation-Protected Gradients via Adaptive Diffusion [13.8] フェデレートラーニングにおける勾配摂動保護のシールドを破ろうとする試みについて紹介する。
摂動抵抗性勾配漏洩攻撃であるMjolnirを導入する。
Mjolnirは、オリジナルのモデル構造や外部データへのアクセスを必要とせずに、勾配から摂動を取り除くことができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:05:22 GMT)
Aligner-Guided Training Paradigm: Advancing Text-to-Speech Models with Aligner Guided Duration [13.7] 本稿では,TASモデルの前にアライメント器をトレーニングすることにより,正確な時間ラベリングを優先する新しいAligner-Guided Training Paradigmを提案する。
実験の結果,単語誤り率を最大16%向上させることができ,音素・音調アライメントを著しく向上させることができることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:39:12 GMT)
NAT-NL2GQL: A Novel Multi-Agent Framework for Translating Natural Language to Graph Query Language [13.7] 自然言語をグラフクエリ言語に変換する新しいフレームワークであるNAT-NL2GQLを提案する。
私たちのフレームワークは、プリプロセッサエージェント、ジェネレータエージェント、Refinerエージェントの3つの相乗的エージェントで構成されています。
nGQL構文に基づく高品質なオープンソースNL2GQLデータセットの不足を踏まえ、金融市場グラフデータベースから構築されたデータセットであるStockGQLを開発した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:14:09 GMT)
TURBOATTENTION: Efficient Attention Approximation For High Throughputs LLMs [13.5] 注意の定量化を可能にする包括的アプローチであるTurboAttentionを提案する。
FlashQは、KVキャッシュの圧縮とアクティベーション-アクティベーション乗算の量子化の両方を可能にする、ヘッドワイズアテンション量子化技術である。
SASは、注目中の指数演算中にFP32への復調を不要にする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:03:05 GMT)
Active learning for efficient discovery of optimal gene combinations in the combinatorial perturbation space [13.4] NAIADは、最適な遺伝子ペアを効率的に発見する、アクティブな学習フレームワークである。
4つのCRISPR摂動データセットで、合計35万以上の遺伝子相互作用が評価された。
我々のフレームワークは、新規で効果的な遺伝子の組み合わせの同定を改善し、CRISPRライブラリーの設計をより効率的にする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:52:24 GMT)
NeRF-NQA: No-Reference Quality Assessment for Scenes Generated by NeRF and Neural View Synthesis Methods [13.4] NVS と NeRF の変種から合成した濃密に保存されたシーンに対する最初のノン参照品質評価手法である NeRF-NQA を提案する。
NeRF-NQAは、ビューワイズとポイントワイズの両方のアプローチを統合する共同品質評価戦略を採用している。
ビューワイズアプローチは、各合成ビューの空間的品質と全体ビュー間の一貫性を評価し、ポイントワイズアプローチはシーン表面の角質に焦点を当てる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:17:33 GMT)
TRIGS: Trojan Identification from Gradient-based Signatures [13.4] 機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:30:20 GMT)
Learning Physics Informed Neural ODEs With Partial Measurements [13.3] 我々は,システム状態の一部が測定されていない場合に,動的制御系を学習する問題に取り組む。
本稿では,非測定プロセスの動的制御を学習可能な逐次最適化フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:17:34 GMT)
Quantum Energy Teleportation versus Information Teleportation [13.2] 量子エネルギーテレポーテーション(QET)と量子情報テレポーテーション(QIT)は相違するだけでなく、互いに競合するものであることを示す。
熱的絡み合った多体系における性能の摂動的トレードオフ関係を示す。
テレポーテーションプロトコルの場合、QETとQITの全体的な性能は絡み合いリソースによって制約される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:13:46 GMT)
ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection [13.2] 本研究では,顔情報と身体情報とを特異に統合するモデルであるASDnBを提案する。
提案手法では,3次元畳み込みを2次元と1次元に分割し,性能を損なうことなく計算コストを削減する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:12:06 GMT)
Scalable, Validated Code Translation of Entire Projects using Large Language Models [13.1] 大規模言語モデル(LLM)は、慣用的なコードを生成する能力のため、コード翻訳において有望であることを示す。
既存の作品では、100行以上のコードに対する翻訳の成功率が低下している。
私たちは、コードを独立した翻訳が可能な小さなコードフラグメントに分割する、トランスフォーメーションのためのモジュラーアプローチを開発しています。
我々は,最大6,600行のコードと369の関数に対して,信頼性の高いRustを一貫して生成できることを示し,平均73%の関数をI/O同値で検証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:31:46 GMT)
AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization [13.0] 本稿では,画像上の微妙な摂動によって画像キャプションモデルを攻撃する新たな攻撃戦略であるAICAttackを提案する。
ブラックボックス攻撃シナリオ内で動作するため、我々のアルゴリズムはターゲットモデルのアーキテクチャ、パラメータ、勾配情報へのアクセスを必要としない。
複数の犠牲者モデルに対するベンチマークデータセットの広範な実験を通じて,AICAttackの有効性を実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:32:49 GMT)
Inverting Gradient Attacks Makes Powerful Data Poisoning [12.8] グラディエントアタックと、それらを変更する機械学習アルゴリズムによるデータ中毒は、設定で同等であることが証明されている。
データ中毒は、ニューラルネットワークを攻撃するために勾配攻撃を模倣することを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:23:23 GMT)
LatentSpeech: Latent Diffusion for Text-To-Speech Generation [12.8] 遅延拡散モデルを用いた新しいTS生成手法であるLatentSpeechを提案する。
LatentSpeechはターゲット次元をMelSpecsに必要なものの5%に削減し、TSエンコーダとvocoderの処理を簡素化する。
本研究は, TTSにおける潜在拡散モデルの最初の統合であり, 生成した音声の精度と自然性を高めるものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:55:06 GMT)
Statistical Downscaling via High-Dimensional Distribution Matching with Generative Models [12.7] 統計的ダウンスケーリングのための2段階確率的フレームワークであるGenerative Bias Correction and Super-Resolution(GenBCSR)を紹介する。
分散マッチングとしてダウンスケーリング問題をフレーミングすることにより、GenBCSRは教師付き学習の制約を緩和する。
我々は,GenBCSRが臨界影響変数の予測精度において,標準的なアプローチを超越していることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:52:17 GMT)
Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.7] 本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。
合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。
提案手法は既存手法よりも大幅に優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:31:45 GMT)
REPEAT: Improving Uncertainty Estimation in Representation Learning Explainability [12.3] 不確実性は、ディープラーニングモデルの信頼できる説明を提供するために不可欠である。
現在のR-XAI法は、重要点の変動を測定することによって不確実性を提供する。
本稿では,ピクセルが確実に重要であるか否かというキー問題に対処するREPEATと呼ばれる新しいR-XAI手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:24:31 GMT)
Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation [11.9] ニューラルマシン翻訳(NMT)システムは、トレーニングデータに存在する語彙バイアスを増幅し、出力翻訳において人工的に不十分な言語を生み出す。
自然とコンテンツ保存の両方に報いる新しい方法を提案する。
本手法は英蘭文翻訳において評価され,翻訳精度を損なうことなく,語彙的に豊かで,人文言語の性質が向上する翻訳モデルが得られた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:42:22 GMT)
Differentially Private Low-dimensional Synthetic Data from High-dimensional Datasets [11.8] 本研究では,高次元データセットから低次元合成データを効率的に生成する微分プライベートアルゴリズムを提案する。
アルゴリズムの重要なステップは、ほぼ最適精度を持つプライベートプライマリコンポーネント分析(PCA)手順である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:38:15 GMT)
A Deep Semantic Segmentation Network with Semantic and Contextual Refinements [11.8] 本稿では,セグメンテーションネットワーク内でこの問題に対処するためのセマンティックリファインメントモジュール(SRM)を提案する。
CRM(Contextual Refinement Module)は、空間次元とチャネル次元の両方にわたるグローバルなコンテキスト情報をキャプチャする。
これらのモジュールの有効性は、3つの広く使われているデータセット(Cityscapes, Bdd100K, ADE20K-demonstrating)で検証される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:40:46 GMT)
GN-FR:Generalizable Neural Radiance Fields for Flare Removal [11.6] レンズフレアの影響を受けやすい入力画像のスパース集合からフレアフリービューを描画するフレームワークを提案する。
782枚の画像と80枚の実フレアパターンを持つ17枚の実フレアシーンと、それに対応する注釈付きフレア占有マスクからなる3次元多視点フレアデータセットを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:43:52 GMT)
Attention-based Class-Conditioned Alignment for Multi-Source Domain Adaptation of Object Detectors [11.6] オブジェクト検出(OD)のドメイン適応手法は、ソースドメインとターゲットドメイン間の特徴調整を促進することによって、分散シフトの影響を軽減する。
MSDAは、複数のアノテーション付きソースデータセットとラベルなしターゲットデータを活用することで、検出モデルの正確性と堅牢性を改善する。
ODのための最先端MSDA手法の多くは、クラスに依存しない方法で特徴アライメントを実行する。
ドメイン間で各オブジェクトカテゴリのインスタンスをアライメントするMSDAのアライメント手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:55:33 GMT)
CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.6] CNNSumは、中国のマルチスケールの長文小説要約ベンチマークである。
我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:15:06 GMT)
DiffRaman: A Conditional Latent Denoising Diffusion Probabilistic Model for Bacterial Raman Spectroscopy Identification Under Limited Data Conditions [11.6] 本稿では, 深層生成モデルを用いたデータ生成手法を提案し, 細菌ラマンスペクトルの認識精度を向上させる。
DiffRamanによって生成された合成細菌ラマンスペクトルは、実実験スペクトルを効果的にエミュレートできることを示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:36:55 GMT)
Robust Noisy Correspondence Learning via Self-Drop and Dual-Weight [11.5] クラウドソーシング(Crowd-sourcing)あるいはWebクローリング(web crawling)は、マッチしないペアを導入する。
現在のアプローチでは、ディープニューラルネットワークの効果を利用してノイズを識別し、再重み付けを行う。
本稿では,データ分割による精巧なデータ処理を実現するための,新たなセルフドロップとデュアルウェイトアプローチを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:51:34 GMT)
COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [11.5] 我々は,TikTok上での映像品質の理解向上を目的とした,新しいケースケードMLLMフレームワークであるCOEF-VQを提案する。
COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイした。
この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:10:32 GMT)
ContextModule: Improving Code Completion via Repository-level Contextual Information [11.5] ContextModuleは生成されたコードの関連性と精度を改善する。
我々は,実世界のコーディング環境における遅延制約を満たすために,インデックスキャッシングなどの性能最適化を実装した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:15:49 GMT)
Evil twins are not that evil: Qualitative insights into machine-generated prompts [11.4] 我々は不透明な機械生成プロンプト(オートプロンプト)を初めて網羅的に分析した。
機械生成プロンプトは、しばしば理解可能な最後のトークンによって特徴づけられる。
機械生成プロンプトに適用したいくつかの改善は、自然言語シーケンスにも適用できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:22:44 GMT)
Dense Depth from Event Focal Stack [11.4] 本稿では,イベントカメラに装着した駆動レンズの焦点面を掃除する際に発生するイベントストリームからの深度推定手法を提案する。
イベントストリームからなるイベント焦点スタック''から、合成イベント焦点スタックでトレーニングされた畳み込みニューラルネットワークを用いて、深度マップを推論する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:13:38 GMT)
BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion [11.3] 本稿では,両方向ステップワイド・フィーチャーアライメントとフュージョンという,不整合な医用画像融合法を提案する。
特徴アライメントの観点では、BSFA-Fは双方向の段階的なアライメント変形場予測戦略を採用している。
複数のデータセットにまたがる実験結果から,本手法の有効性が示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:56:23 GMT)
ELBA: Learning by Asking for Embodied Visual Navigation and Task Completion [11.1] 本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,提案手法は質問応答能力のないベースラインモデルと比較して,タスク性能の向上を図っている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:55:09 GMT)
Analysis and Synthesis Denoisers for Forward-Backward Plug-and-Play Algorithms [11.0] 本稿では,合成復号化問題を近接演算子とみなすことができることを示す。
FB-内の「1つのサブイット」戦略は、ウォーム・リスタート戦略を使用すると無限であると解釈できることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:49:34 GMT)
Pioplat: A Scalable, Low-Cost Framework for Latency Reduction in Ethereum Blockchain [10.8] Pioplatは、実現可能で、カスタマイズ可能で、低コストのレイテンシ低減フレームワークである。
Pioplatは、ブロック/トランザクションの受信とトランザクションの送信のレイテンシを大幅に削減できることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:15:16 GMT)
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements [10.8] テキスト駆動型スタイル転送は、参照イメージのスタイルとテキストプロンプトによって記述されたコンテンツとをマージすることを目的としている。
テキスト・ツー・イメージ・モデルの最近の進歩はニュアンス・スタイルの変換を改善しているが、大きな課題は残る。
これらの問題に対処するための3つの補完戦略を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:13:23 GMT)
Federated Learning for Traffic Flow Prediction with Synthetic Data Augmentation [10.8] この研究はFedTPSと呼ばれるFLフレームワークを導入し、FLを介して軌道生成モデルをトレーニングすることで、各クライアントのローカルデータセットを増大させる合成データを生成する。
提案手法は,様々なFL手法と交通流予測モデルを用いて,大規模現実のライドシェアリングデータセットを用いて評価する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:25:38 GMT)
MID: A Comprehensive Shore-Based Dataset for Multi-Scale Dense Ship Occlusion and Interaction Scenarios [10.7] 海上航行行動データセット(MID)は、複雑な海上環境における船舶検出の課題に対処するために設計されている。
MIDには5,673の画像と135,884の微調整されたターゲットインスタンスが含まれており、教師付き学習と半教師付き学習の両方をサポートしている。
MIDの画像は、43の水域を横断する現実世界のナビゲーションの高精細なビデオクリップから得られたもので、天候や照明条件も様々である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:58:47 GMT)
FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU [10.7] 我々は、無視できる時間複雑性を持つ高速収束スケジューラであるFastFaceを提示する。
実際にFastFaceは、顔認識モデルのトレーニングを、1%以上の精度を犠牲にすることなく、元の時間の4分の1まで加速することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:14:55 GMT)
GR-NLP-TOOLKIT: An Open-Source NLP Toolkit for Modern Greek [10.6] 現代ギリシア語に特化して開発されたオープンソースの自然言語処理(NLP)ツールキットであるGR-NLP-TOOL KITを提案する。
このツールキットは、音声のタグ付け、形態的タグ付け、依存性解析、名前付きエンティティ認識、ギリシャ語からギリシャ語への翻訳という、5つのコアNLPタスクで最先端のパフォーマンスを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:34:23 GMT)
ProGDF: Progressive Gaussian Differential Field for Controllable and Flexible 3D Editing [10.6] 3D編集は、既存の3Dアセットの編集と再利用において重要な役割を担い、生産性を向上させる。
近年、3DGSベースの手法は、効率的なレンダリングと柔軟性のために注目を集めている。
3次元編集のためのプロセス指向モデリングの概念を導入し、プログレッシブガウス微分場(ProGDF)を提案する。
ProGDFはループ外トレーニングのアプローチであり、ユーザがリアルタイムでコントロール可能な編集機能と、ユーザフレンドリなインターフェースによる可変編集結果を提供するために、単一のトレーニングセッションのみを必要とする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:13:02 GMT)
Semantic Scene Completion Based 3D Traversability Estimation for Off-Road Terrains [10.5] オフロード環境は、自動運転車にとって重要な課題である。
主に構造化された環境のために設計された伝統的な知覚アルゴリズムは、しばしばこれらの条件下で失敗する。
本稿では, ORDformer を用いて, 前向きの視点から, 高密度の移動可能な占有率予測を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:36:36 GMT)
Learning Sketch Decompositions in Planning via Deep Reinforcement Learning [10.5] 計画と強化学習においては,問題間の共通部分構造を同定することが重要である。
これらのスケッチは問題をサブプロブレムに分割し、IW$(k)$検索の欲求列によって低時間で解けるようにした。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:45:31 GMT)
Noise-Aware Bayesian Optimization Approach for Capacity Planning of the Distributed Energy Resources in an Active Distribution Network [10.5] アクティブ分散ネットワーク(ADN)における再生可能エネルギー源(RES)の浸透は、複雑で不確実な運用シナリオにつながる。
本研究では, RES収容能力を高めるため, ADNにおける分散エネルギー資源の協調的容量計画を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:31:33 GMT)
Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills [10.4] 本稿では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成するメタコントロルを提案する。
私たちの中核的な洞察は、人間の専門家が制御システムの設計に使用する思考プロセスを自動化するために、メタ制御システムを構築することができるということです。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:36:26 GMT)
LinVT: Empower Your Image-level Large Language Model to Understand Videos [10.2] 大規模言語モデル(LLM)は様々なタスクで広く使われている。
我々は、任意の訓練された画像ベースのLCMをビデオLLMに変換するモジュールを提案する。
我々はLinVTをAquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VLの6つのビジュアルLLMでベンチマークした。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:43:02 GMT)
Bayesian optimized deep ensemble for uncertainty quantification of deep neural networks: a system safety case study on sodium fast reactor thermal stratification modeling [10.1] ディープ・アンサンブルはディープ・ニューラルネットワーク(DNN)における不確実性定量化(UQ)のための効率的でスケーラブルな方法である
本稿では,ベイズ最適化(BO)とBODEと呼ばれるDDEを組み合わせることによって,予測精度とUQを両立させる手法を提案する。
計算流体力学(CFD)データに基づいて学習したDensely Connected Convolutional Neural Network (DCNN) のケーススタディにBODEを適用し, 高速炉熱成層モデルにおける渦粘度を予測する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:06:50 GMT)
GraphTool-Instruction: Revolutionizing Graph Reasoning in LLMs through Decomposed Subtask Instruction [10.0] グラフ推論タスクを3つの異なるサブタスクに分解する,革新的なインストラクションチューニング手法を提案する。
我々のGraphTool-Instructionは、微調整なしで異なるLLMのプラグイン・アンド・プレイプロンプトとして使用できる。
Llama3-8B に基づいたグラフ推論 LLM である GraphForge を作成した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:12:52 GMT)
Image Retrieval Methods in the Dissimilarity Space [10.0] 特徴相似性空間は類似性マッチングにより適していると主張する。
また、プロジェクトクエリと参照埋め込みに対する二分変換を、異種空間への単一の埋め込みに提案する。
クエリと参照埋め込みの距離を比較するのとは対照的に、単一異種空間の埋め込みを分類する利点を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:39:32 GMT)
Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [10.0] ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:29:51 GMT)
Numerical Analysis of HiPPO-LegS ODE for Deep State Space Models [9.9] ディープラーニングにおいて、最近導入された状態空間モデルは、HiPPOメモリユニットを使用して入力関数の連続時間軌道を近似する。
HiPPO-LegS ODE はその特異性にも拘わらず、任意の初期条件の自由を伴わずに十分に仮定できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:13:55 GMT)
Decoding individual words from non-invasive brain recordings across 723 participants [9.9] 非侵襲的脳波(EEG)および脳磁図(MEG)信号から個々の単語を復号する新しいディープラーニングパイプラインを導入する。
我々は、英語、フランス語、オランダ語で書かれた500万語に対して、前例のないほど多くの参加者に対して、我々のアプローチを訓練し、評価する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:53:49 GMT)
Neural Observation Field Guided Hybrid Optimization of Camera Placement [9.9] 本稿では,勾配法と非勾配法を併用したハイブリッドカメラ配置最適化手法を提案する。
提案手法は,従来の計算時間の一部(8倍)しか必要とせず,最先端の性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:31:06 GMT)
A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings [9.8] 単語と音節レベルでの発音の自動検出は,コンピュータ支援型言語学習システムの構築に不可欠である。
音声合成音声における音節・音節レベルの優位性は,現在最先端の音声合成システム(SOTA)が学習している韻律埋め込みによってもたらされることが示されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:58:14 GMT)
Dual-Directed Algorithm Design for Efficient Pure Exploration [9.7] 有限組の代替品を用いた逐次適応実験の文脈における純粋探索問題を考える。
固定予算, 固定信頼度, 後収束率設定に対する最大最適化問題として問題複雑性尺度を定式化する。
我々のアルゴリズムは、$varepsilon$-best-armの識別(または、良好な選択保証の確率でランク付けと選択)としきい値の帯域幅で最適性を得る。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:10:25 GMT)
Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion [9.7] プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。
既存の方法は精度と効率のバランスをとるのが難しい。
より長い(厳密な)ソフトプロンプトは、一般的には、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間に費やされる。
マルチスペースプロジェクションとプロンプト融合による効率的なプロンプトチューニング法(EPT)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:03:56 GMT)
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs [9.6] 提案するCodeMMLUは,CodeLLMにおけるソフトウェア深度とコード理解度を評価するためのベンチマークである。
CodeMMLUには、コード分析、欠陥検出、ソフトウェアエンジニアリング原則といったタスクを含む、さまざまなドメインからソースされた10,000以上の質問が含まれている。
評価の結果,最先端モデルでさえ,CodeMMLUでは重大な課題に直面していることが明らかとなった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:31:19 GMT)
Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift [9.5] 本稿では,周辺情報,すなわちデータポイントの局所的構造を利用した新しい異種性尺度を提案する。
提案手法を用いて過大な誤差を特徴付けるとともに,従来の手法と比較して高速あるいは競合的な収束率を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:56:00 GMT)
CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.5] 本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。
CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:54:12 GMT)
Dynamic Universal Approximation Theory: The Basic Theory for Transformer-based Large Language Models [9.5] 大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。
本稿では,大規模言語モデル(LLM)の理論的基礎について考察する。
理論的な背景を提供し、これらの進歩を支えるメカニズムに光を当てている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:01:38 GMT)
Synthetic Vision: Training Vision-Language Models to Understand Physics [9.5] シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:40:16 GMT)
SenCLIP: Enhancing zero-shot land-use mapping for Sentinel-2 with ground-level prompting [9.3] SenCLIPは、ヨーロッパ各地のジオタグ付き地上画像と組み合わせた大量のSentinel-2画像のデータセットを利用して、CLIPをSentinel-2画像に転送する。
地上レベルの画像と衛星画像との整合性を示すアプローチでは,両方のプロンプトスタイルの分類精度が大幅に向上したことを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:52:14 GMT)
Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks [9.1] 本稿では,自動運転アプリケーション用に設計された,新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。
このアプローチでは、シーン内のマップインスタンスのクラスと順序付けられたポイントセットを予測することに重点を置いています。
Mask2Mapは、従来の最先端メソッドよりも優れたパフォーマンスを実現している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:01:39 GMT)
Learn How to Query from Unlabeled Data Streams in Federated Learning [9.0] フェデレートラーニング(FL)は、分散クライアント間の協調学習を可能にすると同時に、ローカルデータのプライバシ保護を可能にする。
FLに関する既存の研究は、トレーニングを開始すると、通常、各クライアントで利用可能なオフラインラベル付きデータを仮定する。
高価なアノテーションのコストを考えると、クライアントにラベルをつけるための情報的サンプルのサブセットを特定することが重要です。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:51:45 GMT)
Fast Mixing of Data Augmentation Algorithms: Bayesian Probit, Logit, and Lasso Regression [8.9] 本稿では,3つの重要なDAアルゴリズム(ProbitDA,LogitDA,LassoDA)の混合時間に関する非漸近上界を初めて証明する。
結果は一般に、ProbitとLogitのレグレッションで高度に不均衡なレスポンスデータを含む、大きな$n$と大きな$d$の設定に適用できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:48:04 GMT)
Cluster-Enhanced Federated Graph Neural Network for Recommendation [8.9] 本稿では、CFedGRという推薦のためのクラスタ強化フェデレーショングラフニューラルネットワークフレームワークを提案する。
このフレームワークは、プライバシ保護の方法で個々のグラフを拡張するために、高次の協調シグナルを導入する。
デバイスとサーバ間の通信を減らすために、2つの効率的な戦略が考案されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:22:04 GMT)
LABOR-LLM: Language-Based Occupational Representations with Large Language Models [8.9] CAREERは、キャリア履歴の関数として労働者の次の仕事を予測する。
本稿では,履歴書に基づく基礎モデルを大規模言語モデルに置き換える方法を検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:39:43 GMT)
Benchmarking learned algorithms for computed tomography image reconstruction tasks [8.9] 我々は,機械学習に基づくCT画像再構成アルゴリズムのベンチマークに,実世界の実験的CTデータセットである2DeteCTデータセットを使用する。
本稿では,これらの手法を後処理ネットワーク,学習/学習反復手法,学習正規化手法,プラグ・アンド・プレイ方式に分類する。
ベンチマークの結果,全データ再構成,リミテッドアングル再構成,スパースアングル再構成,低線量再構成,ビーム硬化補正といったタスクにおける各種アルゴリズムの有効性が示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:45:17 GMT)
CCxTrust: Confidential Computing Platform Based on TEE and TPM Collaborative Trust [8.5] 単一のハードウェアルートの信頼(RoT)への依存は、クラウドプラットフォームに対するユーザの信頼を制限します。
マルチクラウド環境での相互運用性の欠如と統一された信頼モデルにより、クロスプラットフォームでクロスクラウドな信頼チェーンが確立できない。
本稿では,TEE と TPM の相互信頼の根源を活用した秘密計算プラットフォームである CCxTrust を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:42:47 GMT)
Rumor Detection on Social Media with Temporal Propagation Structure Optimization [8.5] ソーシャルメディア上での噂を検知する従来の手法は、主にテキストコンテンツの分析に重点を置いている。
最近の研究は、噂の伝播中に出現する階層的な会話構造をモデル化するためにグラフニューラルネットワークを活用する方向に移行している。
重み付き伝搬木を構築することで時間情報を組み込んだ新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:53:14 GMT)
ProtoOcc: Accurate, Efficient 3D Occupancy Prediction Using Dual Branch Encoder-Prototype Query Decoder [8.5] ProtoOccは、3Dボクセルの占有状態とセマンティッククラスを予測するために設計された新しい3D占有予測モデルである。
ProtoOccはOcc3D-nuScenesベンチマークで45.02% mIoUで最先端のパフォーマンスを達成した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:55:21 GMT)
Ask1: Development and Reinforcement Learning-Based Control of a Custom Quadruped Robot [8.5] 本稿では、カスタマイズされた四足歩行ロボットAsk1の設計、開発、実験検証について述べる。
Ask1ロボットはUnitree Go1と類似した形態を持っているが、カスタムハードウェアコンポーネントと異なる制御アーキテクチャを備えている。
我々は、従来の強化学習に基づく制御方法をAsk1ロボットに拡張し、実世界のシナリオにおける我々のアプローチの適用性を実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:56:47 GMT)
Adapting Unsigned Graph Neural Networks for Signed Graphs: A Few-Shot Prompt Tuning Approach [8.4] グラフニューラルネットワーク(GNN)は、符号付きグラフ表現学習のための強力なツールであるが、限定的な一般化とラベル付きデータへの強い依存に苦慮している。
本稿では,符号付きグラフから符号付きグラフタスクへ知識を伝達するために,SGPT(Signed Graph Prompt Tuning)を提案する。
具体的には、SGPTはグラフテンプレートとセマンティックプロンプトを使用して、署名されたグラフ内の混合リンクセマンティクスを分離し、下流タスクのニーズに応じて固有のセマンティクス情報を適応的に統合する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:22:46 GMT)
Magneto: Combining Small and Large Language Models for Schema Matching [8.4] 小型言語モデル (SLM) は訓練データと大規模言語モデル (LLM) を必要とする。
我々は、スキーママッチングのための費用効率が高く正確なソリューションであるMagnetoを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:35:56 GMT)
Practical Performative Policy Learning with Strategic Agents [8.4] 本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。
本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:49:51 GMT)
Leveraging Graph-RAG and Prompt Engineering to Enhance LLM-Based Automated Requirement Traceability and Compliance Checks [8.4] 本研究は,頑健なグラフ-RAGフレームワークを,思考の連鎖や思考の樹木といった先進的な技術と統合することにより,性能を著しく向上させることを実証する。
さまざまなコンテキストにまたがって実装するのはコストが高く、複雑で、特定のシナリオに慎重に適応する必要がある。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:11:39 GMT)
Statistical Convergence Rates of Optimal Transport Map Estimation between General Distributions [8.3] 本研究の目的は,OTマップ推定の範囲を広げ,理論と実践のギャップを埋めることである。
本稿では,Brenierのポテンシャルに対する強い凸性仮定を伴わずに,Sieveプラグイン推定器を導入し,収束率を確立する。
また,ニューラルネットワークを用いたOTマップ推定を効率的に解くために,スケーラブルなアルゴリズムを開発した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:18:17 GMT)
EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation [8.3] EOV-Segは、オープン・ボキャブラリ・パノプティ・セグメンテーションのための新しい単一ステージ、共有、効率的、空間認識のフレームワークである。
視覚的アグリゲーションのセマンティック理解を改善するために,Vocabulary-Aware Selection (VAS) モジュールを導入する。
The Two-way Dynamic Embedding Experts (TDEE) was introduced a Two-way Dynamic Embedding Experts (TDEE) to leverage the spatial awareness ability of ViT-based CLIP backbone。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:48:20 GMT)
Can transformative AI shape a new age for our civilization?: Navigating between speculation and reality [8.3] 人工知能は、人類文明の多くの分野を再定義する可能性を持つ変革的な力として広く見なされている。
この研究は、人工知能が匹敵する影響を達成できるかどうかを検証し、技術的ブレークスルーの歴史的先例を探求する。
私たちは、変革的人工知能に到達することで、人類に全く新しい倫理的アプローチを適用させることができるかどうか、批判的な調査で終わります。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:44:47 GMT)
Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation [8.2] データセットには358の質問と338の英語文書と208のYorub'a文書が含まれている。
実験では、2つの言語間でのパフォーマンスが一貫した相違が見られる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:52:29 GMT)
Spatial-Temporal Federated Learning for Lifelong Person Re-identification on Distributed Edges [8.2] FedSTILは、異なるエッジクライアントから学んだ知識間の空間的時間的相関を抽出することを目的としている。
5つの実世界のデータセットの混合実験により、我々の手法はRan-1精度で4%近く向上していることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:47:01 GMT)
GLL: A Differentiable Graph Learning Layer for Neural Networks [8.1] グラフベースの学習技術、すなわちLaplace Learningは、教師付きおよび半教師付き学習(SSL)タスクのニューラルネットワークと組み合わせられている。
本研究では,一般的なグラフ学習層をニューラルネットワークに組み込むために,アジョイント法を用いてバックプロパゲーション方程式を導出する。
これにより、グラフラプラシアンベースのラベル伝搬をニューラルネットワーク層に正確に統合し、プロジェクションヘッドとソフトマックスアクティベーション関数を置き換えることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:54:29 GMT)
QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning [8.1] QEDCartographerは、教師付きと強化学習を組み合わせた自動証明合成ツールである。
オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。
本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:53:23 GMT)
Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey [8.1] Deep Reinforcement Learning (DRL)は、複雑な環境を横断してシーケンシャルなアクションをとる自律エージェントを訓練するための機械学習のサブフィールドである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念を高めている。
DRLのロバスト性向上手法として, 環境条件の未知の変化と摂動の可能性について考察する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:03:08 GMT)
Steganography in Game Actions [8.1] 本研究は, 実効性のあるステガノグラフィー媒体であると考えられるものの境界を拡大することを目的としている。
本研究では,環境と対話する複数のエージェントのエピソードを通して,隠れた情報を伝達するステガノグラフィーのパラダイムを探求する。
概念実証として,目的に向かって操る行為において,サブリミナル通信を隠蔽するナビゲーションタスクであるラビリンスゲームを通じて,アクションステガノグラフィーを例示する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:02:36 GMT)
Antelope: Potent and Concealed Jailbreak Attack Strategy [8.0] Antelopeは、ジェネレーティブモデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略である。
我々は、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:22:51 GMT)
Learning Variational Inequalities from Data: Fast Generalization Rates under Strong Monotonicity [7.8] 変分不等式(VIs)は最適化問題の幅広いクラスである。
強い単調性を満たすVIを学習するために、高速な速度を得る方法を示す。
具体的には、凸最小化の標準的な安定性に基づく議論が、ドメインが小さな被覆を許すとき、直接 VI に拡張されることを実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:27:57 GMT)
Estimating the Number of HTTP/3 Responses in QUIC Using Deep Learning [7.8] 本稿では、所定のQUIC接続におけるHTTP/3応答数をオブザーバによって推定する新しい手法を提案する。
提案方式では,QUIC接続トレースを画像シーケンスに変換し,機械学習(ML)モデルを用いて応答数を予測する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:59:51 GMT)
SpecRover: Code Intent Extraction via LLMs [7.7] 仕様推論は、高品質なプログラムパッチを作成するのに役立ちます。
当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。
2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:18:54 GMT)
DOGE: An Extrinsic Orientation and Gyroscope Bias Estimation for Visual-Inertial Odometry Initialization [7.7] 回転補正を遅らせることなく高精度で高剛性な視覚慣性オドメトリー(VIO)法を提案する。
本手法は,競争効率を維持しつつ,精度とロバスト性の両方で最先端の手法より優れる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:44:22 GMT)
HARP: A challenging human-annotated math reasoning benchmark [7.7] 本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。
そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。
これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。
私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:31:06 GMT)
Measurement-based quantum convolutional neural network for deep learning [7.7] 本稿では,クラスタ状態を利用して量子畳み込みニューラルネットワーク(QCNN)を実装するための代替手法を提案する。
システム全体の安定化は、複雑な制御を避けることで容易である。
クラスター状態を測定することによって量子データと古典データの両方を学習できるという数値的な証拠を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:55:07 GMT)
SwarmGPT-Primitive: A Language-Driven Choreographer for Drone Swarms Using Safe Motion Primitive Composition [7.7] SwarmGPT-Primitiveは、大きな言語モデルの推論能力と安全な動き計画を統合する言語ベースの振付法である。
SwarmGPT-Primitiveフレームワークは、安全なモーションプランニングからコレオグラフィー設計を分離する。
我々は、さまざまな歌を基にした振付を行う最大20機のドローンの群れによるシミュレーションと実験を通じて、我々のアプローチを実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:48:19 GMT)
Adaptive Principal Components Allocation with the $\ell_{2,g}$-regularized Gaussian Graphical Model for Efficient Fine-Tuning Large Models [7.7] ガウス図形モデル(GGM)に基づく高速ファインニング(PEFT)手法を提案する。
提案手法の有効性を実証し、トレーニング可能なパラメータを著しく少なくして競合性能を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:11:21 GMT)
FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.6] トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。
本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:08:18 GMT)
Discover Physical Concepts and Equations with Machine Learning [7.6] 我々は、物理発見のための人間の物理的推論プロセスをシミュレートするニューラルネットワークアーキテクチャであるSciNetを拡張した。
我々はこのモデルを、コペルニクスのヘリオ中心太陽系を含む物理学の歴史に触発されたいくつかの重要な例に適用する。
その結果、ニューラルネットワークは対応する理論を再構築することに成功した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:30:21 GMT)
Modeling Latent Non-Linear Dynamical System over Time Series [7.5] 本研究では,データから直接方程式を導出することにより時系列を与えられる非線形力学系をモデル化する問題について検討する。
本稿では、時間依存型モデリングを可能にする潜在状態を導入し、この問題を潜時状態の動的推定問題として定式化する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:45:30 GMT)
Causal thinking for decision making on Electronic Health Records: why and how [7.5] データ駆動決定には因果思考が必要である。
実生活の患者記録から有効な意思決定を支援するための,ステップバイステップのフレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:59:10 GMT)
Code LLMs: A Taxonomy-based Survey [7.3] 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
LLMは最近、自然言語(NL)とプログラミング言語(PL)のギャップを埋めて、コーディングタスクへの影響を拡大した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:07:50 GMT)
Combining Neural Fields and Deformation Models for Non-Rigid 3D Motion Reconstruction from Partial Data [7.3] 本研究では,非剛性変形形状の非構造観察から時間的コヒーレントな3次元運動を再構成するための,新しいデータ駆動型アプローチを提案する。
我々のゴールは、ゆるい服を着ている人間など、ほぼ等尺変形する形状の高忠実な動き再構成を実現することである。
本手法は, モノクローナルディープビデオから再構成したヒトおよび動物の動き系列に適用することにより, 最先端のアプローチよりも優れる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:24:08 GMT)
Adversarial Contrastive Domain-Generative Learning for Bacteria Raman Spectrum Joint Denoising and Cross-Domain Identification [7.2] 連成ラマン分光法とクロスドメイン同定のための対向的対照的なドメイン生成学習フレームワークを提案する。
ケーススタディによれば, 提案手法は, ノイズのない地中構造を必要とせず, 同時にスペクトルデノナイジングを行うことができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:52:08 GMT)
Cluster Decomposition for Improved Erasure Decoding of Quantum LDPC Codes [7.2] 任意の量子LDPC符号に適用可能な新しい消去復号器を導入する。
制約のないサイズのクラスタを許可することにより、このデコーダは、最大限のML(maximum-likelihood)パフォーマンスを達成する。
私たちが研究した一般的な量子LDPC符号に対しては、クラスタデコーダを用いてML性能曲線を推定することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:14:23 GMT)
Lightweight Method for Interactive 3D Medical Image Segmentation with Multi-Round Result Fusion [7.2] Segment Anything Model (SAM) は、インタラクティブセグメンテーションにおけるゼロショットの一般化機能により、広く注目を集めている。
コンパクトCNNモデルの可能性を示す新しいアプローチとして、3次元医用画像のための軽量インタラクティブネットワーク(LIM-Net)を提案する。
LIM-Netは、ユーザヒントから2Dプロンプトマスクを生成することによってセグメンテーションを開始する。
SAMベースのモデルと比較して、より強力な一般化が示され、競争精度が向上する一方で、より少ない相互作用が要求される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:52:16 GMT)
Mitigating Out-of-Entity Errors in Named Entity Recognition: A Sentence-Level Strategy [7.1] 文レベル情報を完全に活用する新しいフレームワーク,すなわちS+NERを提案する。
5つのベンチマークデータセットに対する実験により、S+NERは最先端のOOE-NERモデルより優れていることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:55:48 GMT)
MathDSL: A Domain-Specific Language for Concise Mathematical Solutions Via Program Synthesis [7.1] 本稿では,数式解析のためのドメイン特化言語であるMathを紹介する。
Mathは、プログラムモデルにデプロイされた場合、最先端の強化学習方法より優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:31:21 GMT)
Machine Learning Information Retrieval and Summarisation to Support Systematic Review on Outcomes Based Contracting [7.1] 本稿では、高度な機械学習(ML)と自然言語処理(NLP)ツールを用いて、社会科学における体系的レビューの効率性と範囲を向上させることにより、これらの課題に対処することを目的とした研究について述べる。
特に,人間のアノテータにとって時間を要する反復的かつ反復的なシステムレビュープロセスにおいて,情報検索や専門家の助言による要約といったツールを通じて,即時スケーラビリティに寄与する段階の自動化に着目する。
この記事では、体系的なレビューに対する統合的なアプローチと、説明可能性を含む今後の改善の方向性について学んだ教訓をまとめてまとめる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:54:01 GMT)
Disentanglement and Compositionality of Letter Identity and Letter Position in Variational Auto-Encoder Vision Models [7.1] 視覚入力における特徴のゆがみに関する最先端のニューラルネットワークが、文字の位置と文字の識別を、文字のイメージに基づいて訓練した場合に、切り離すことができるかどうかを検証した。
画像中の単語の水平および垂直の網膜位置などの表面的特徴を効果的に解消するが,文字の位置や文字の同一性は劇的に低下し,単語長の概念が欠如していることが判明した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:20:53 GMT)
Reward-based Blockchain Infrastructure for 3D IC Supply Chain Provenance [7.0] 2.5D/3D集積回路(IC)は、半導体サプライチェーン内の固有の信頼の問題により、非常に難しい課題である。
信頼できない場所で生産されるチップレットは、機密情報を侵害する可能性のある悪意のある回路を導入し、改ざんする恐れがある。
本稿では,サプライチェーン全体のICとチップレットのトレーサビリティを確立するために,ブロックチェーン技術を活用した革新的なアプローチを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:09:27 GMT)
Boundary Exploration of Next Best View Policy in 3D Robotic Scanning [7.0] 我々は,次の視点でスキャンした点雲の境界を探索するNBVポリシーを提案する。
参照モデルに基づいて次のセンサ位置を反復的に探索するモデルに基づく手法を提案する。
深層学習ネットワークであるBoundary Exploration NBV Network (BENBV-Net) を設計・提案し, スキャンしたデータから直接NBVを予測する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:11:13 GMT)
Watermarking Training Data of Music Generation Models [6.9] 本研究では,音声透かし技術を用いてコンテンツの不正使用を検知する方法について検討する。
非透かしデータでトレーニングされたモデルと非透かしデータでトレーニングされたモデルで生成された出力を比較した。
以上の結果から,人間には認識できないものを含む音声透かし技術が,モデル出力の顕著な変化を引き起こす可能性が示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:10:44 GMT)
Uncovering Capabilities of Model Pruning in Graph Contrastive Learning [6.9] 我々は、拡張ビューではなく、異なるモデルバージョンを対比することで、グラフのコントラスト学習の問題を再構築する。
教師なしおよび転送学習によるグラフ分類に関する様々なベンチマークにおいて,本手法を広範囲に検証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:58:06 GMT)
Go-Oracle: Automated Test Oracle for Go Concurrency Bugs [6.8] Go言語では、バグが大きな問題となっている。
我々の研究は、Goプログラムのテストオラクル問題に対処し、テスト実行をパスまたはフェールとして自動的に分類することを目指している。
ネイティブなGo実行トレーサを使用して、包括的な実行イベントをキャプチャします。
トランスフォーマーベースのニューラルネットワークをトレーニングする前に、これらのトレースを前処理してエンコードして、トレースをパスまたはフェールのいずれかとして効果的に分類します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:07:56 GMT)
Conditioned quantum-assisted deep generative surrogate for particle-calorimeter interactions [6.8] 本研究では,大型ハドロン衝突型加速器シミュレーションのための量子支援深部生成モデルを提案する。
このモデルでは,条件付き変分オートエンコーダ (VAE) と条件付き制限ボルツマンマシン (RBM) を統合する。
RBMノードと接続は、サンプリングのためにD-WaveのPegasus-structured textitAdvantage Quantum Annealer (QA)上でqubitsと couplerを使用するように慎重に設計されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:51:58 GMT)
SStaGCN: Simplified stacking based graph convolutional networks [6.7] グラフ畳み込みネットワーク(GCN)は、様々なグラフ構造データ学習タスクにおいて広く研究されている強力なモデルである。
本稿では, SStaGCN (Simplified stacking based GCN) と呼ばれる新しいGCNを提案する。
SStaGCNはGCNの過密問題を効果的に軽減できることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:10:17 GMT)
Early Exploration of a Flexible Framework for Efficient Quantum Linear Solvers in Power Systems [6.7] 我々は,電力システムアプリケーションとQiskitで利用可能な量子線形解器のギャップを埋める,NWQSimを利用した多用途フレームワークを提案する。
革新的なゲート融合戦略,回路深度低減,GPUアクセラレーションにより,シミュレータは資源効率を大幅に向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:16:20 GMT)
Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.5] 微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:37:28 GMT)
MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization [6.5] 基本モデル(FM)の量子化は、外れ値と呼ばれる大規模な特徴の出現によって困難である。
既存のoutlier-awareアルゴリズム/アーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。
我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:42:02 GMT)
Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.4] 本稿では, 局所(パッチレベル)から大域(スライダーレベル)の相互作用の相補的な情報を取得するために, 早期・後期融合におけるオミック埋め込みの利用を提案する。
この二重融合戦略は、解釈可能性と分類性能を高め、臨床診断の可能性を強調している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:02:25 GMT)
The Roles of English in Evaluating Multilingual Language Models [6.4] これらの役割には,タスクパフォーマンスと言語理解という,異なる目標がある,と私たちは主張する。
我々は、この不正確な方法から離れ、言語理解を強化することに重点を置くことを推奨する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:02:55 GMT)
Quantifying the benefits of code hints for refactoring deprecated Java APIs [6.4] このタスクの自動化には,コードヒントが有効であることを示す。
我々の実験は、コードヒントがこのタスクの自動化を可能にしていることを示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:44:14 GMT)
GSDeformer: Direct, Real-time and Extensible Cage-based Deformation for 3D Gaussian Splatting [6.4] 3次元ガウス散乱(3DGS)におけるケージ変形を実現する方法を提案する。
提案手法は,プロキシポイントクラウド表現を用いたケージベースの変形と3DGSをブリッジする。
実験により、GSDeformerは現在の方法よりも優れた変形結果を生成し、極端な変形下で頑健であり、編集のトレーニングを必要とせず、リアルタイム(60FPS)で動作し、他の3DGSの変種にも拡張可能であることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:03:37 GMT)
SuperGS: Super-Resolution 3D Gaussian Splatting Enhanced by Variational Residual Features and Uncertainty-Augmented Learning [6.3] Super-Resolution 3DGS (SuperGS) は、2段階の粗大なトレーニングフレームワークで設計された3DGSの拡張である。
SuperGSは、低解像度入力のみを使用して、現実世界と合成データセットの両方で最先端のHRNVSメソッドを超越している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:18:12 GMT)
A quantum-classical reinforcement learning model to play Atari games [6.3] 強化学習の最近の進歩は、パラメタライズド量子回路に基づく量子学習モデルの可能性を実証している。
本稿では,PQCと古典的特徴符号化と,Atariゲームに対処可能な後処理層を組み合わせたハイブリッドモデルを提案する。
数値解析により,提案したハイブリッドモデルは,Pong環境を解き,Breakoutの古典的参照に匹敵するスコアを得られることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:09 GMT)
Pole-based Vehicle Localization with Vector Maps: A Camera-LiDAR Comparative Study [6.3] 道路環境では、交通標識、信号機、街灯など多くの一般的な家具がポールの形をしている。
本稿では,自動アノテート画像に基づいて訓練された軽量ニューラルネットワークを用いて,カメラによるポール検出をリアルタイムに行う手法を提案する。
その結果,オープン道路環境における視線に基づくアプローチの精度が向上した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:05:05 GMT)
Automatic Image Annotation for Mapped Features Detection [6.3] 道路機能は、自動運転とローカライゼーションの鍵となる。
現代のディープラーニングに基づく知覚システムは、大量の注釈付きデータを必要とする。
本稿では,画像中の3つの自動アノテーション手法の融合について考察する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:06:52 GMT)
MT2ST: Adaptive Multi-Task to Single-Task Learning [6.2] Multi-Task to Single-Task (MT2ST) は、単語埋め込みタスクの訓練効率と精度を高めるために設計された。
我々のフレームワークは、補助的なタスクの影響を徐々に減らす*Diminish*と、特定の時点でMTLからSTLへトレーニングを移行する*Switch*の2つの戦略を採用している。
実験の結果,MT2STはSTLと比較してトレーニング時間を67%削減し,従来のMTLに比べて13%短縮し,高い精度を維持した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:44:19 GMT)
Continual Learning for Encoder-only Language Models via a Discrete Key-Value Bottleneck [6.1] エンコーダのみの言語モデルに対して,離散鍵値ボトルネックを導入する。
視覚における離散的なキーバリューのボトルネックの成功に触発され、新しいNLP固有の課題に対処する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:38:34 GMT)
Using GPT-4 to guide causal machine learning [6.0] 確立されたGPT-4(Turbo)に着目し,その性能を最も制約のある条件下で評価する。
その結果, GPT-4 グラフは評価カテゴリーで最も正確であることがわかった。
GPT-4と因果MLのペアリングは、この制限を克服し、実際のデータからグラフィカル構造を学習し、ドメインの専門家によって特定されたものとより密に一致することを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:43:54 GMT)
NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis [5.8] 本稿では,インドにおける判例の最大かつ多種多様なコーパスであるNyayaAnumanaについて紹介する。
ニヤヤ・アヌナナには最高裁判所、高等裁判所、法廷、地方裁判所、日刊令など幅広い事件がある。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:50:17 GMT)
From Division to Unity: A Large-Scale Study on the Emergence of Computational Social Science, 1990-2021 [5.6] 計算社会科学(CSS)の出現に関する総合的研究について述べる。
CSSは、社会科学の問題に対処するための計算手法を活用する学際分野である。
私たちは、CSSにフォーカスした場所の論文を使用して堅牢なCSS分類器をトレーニングし、1990年から2021年までの1100万の論文に適用しました。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:09:35 GMT)
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.6] Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを共有埋め込み空間で整列する非常に効果的な方法である。
CLIPモデルはテキストのみのタスクに苦しむことが多く、特殊なテキストモデルに比べてパフォーマンスが劣る。
本研究では,従来のモデルであるjina-clip-v1に基づいて,マルチタスク,マルチステージのコントラスト学習を多言語で実現した改良フレームワークを提案する。
結果として得られたモデルであるjina-clip-v2は、テキストのみのタスクとマルチモーダルタスクで前バージョンより優れており、マルチリンガルサポート、複雑なビジュアルドキュメントの理解の向上、効率の向上などが追加されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:28:12 GMT)
Adaptive Querying for Reward Learning from Human Feedback [5.6] 人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。
副作用などの不安全行動に関連するペナルティ関数を,複数種類のフィードバックを用いて学習する方法を検討する。
まず,クエリのクリティカルな状態を選択し,次に情報ゲインを用いてクエリのフィードバック形式を選択する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:02:48 GMT)
DALI: Domain Adaptive LiDAR Object Detection via Distribution-level and Instance-level Pseudo Label Denoising [5.5] 本稿では、分散レベルとインスタンスレベルのノイズに対処するDomain Adaptive LIdar(DALI)フレームワークについて紹介する。
DALIは最先端の結果を達成し、ほとんどのドメイン適応タスクにおいて主要なアプローチよりも優れています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:43:41 GMT)
Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.4] 自己監視型学習(SSL) 対照的な学習は、データの不足を軽減できる可能性を示している。
本研究の目的は,PCG分類におけるSSLモデルの性能向上を目的とした,幅広いオーディオベースの拡張と組み合わせの探索と評価である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:53:49 GMT)
Hierarchical Classification for Automated Image Annotation of Coral Reef Benthic Structures [5.4] 自動ベント画像アノテーションは,サンゴ礁の気候変動対策を効率的に監視し,保護するために重要である。
現在の機械学習アプローチでは、ベント生物の階層的な性質を捉えることができない。
階層分類を用いた良性画像のアノテートを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:28:30 GMT)
M2SE: A Multistage Multitask Instruction Tuning Strategy for Unified Sentiment and Emotion Analysis [5.4] 汎用MLLMのためのマルチステージマルチタスク・インストラクション・チューニング戦略であるM2SEを提案する。
マルチモーダル感情分析、感情認識、表情認識、感情理由推論、感情因果抽出といったタスクでモデルをトレーニングするために、組み合わせたアプローチを採用する。
我々のモデルであるEmotion Universe (EmoVerse) は、修正なしにMLLMフレームワーク上に構築されているが、M2SE戦略でトレーニングすると、これらのタスク間で大幅な改善が達成される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:55:00 GMT)
LISTN: Lexicon induction with socio-temporal nuance [5.4] 群言語は群力学の重要な記号である。
本稿では,グループ内言語の語彙を誘導する新しい手法を提案する。
オンラインの反女性コミュニティの会話で訓練された動的単語とユーザ埋め込みを用いて、我々のアプローチは、レキシコン誘導の先行手法よりも優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:21:11 GMT)
Learning to Reason via Self-Iterative Process Feedback for Small Language Models [5.4] 小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用効率が良く、カスタマイズできる。
この研究により、SLMは自己満足的なフィードバックから推論を学ぶことができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:05:04 GMT)
ConceptSearch: Towards Efficient Program Search Using LLMs for Abstraction and Reasoning Corpus (ARC) [5.3] ConceptSearchは、コンセプトベースのスコアリングを使用して、検索を効率的にガイドする新しい関数検索アルゴリズムである。
実験結果はConceptSearchの有効性を示し、直接プロンプトよりも大幅なパフォーマンス向上を実現している。
これらの知見は、概念に基づくガイダンスと統合されたLLMによるプログラム探索の可能性を強調した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:33:55 GMT)
CohEx: A Generalized Framework for Cohort Explanation [5.3] コホートの説明は、特定のグループや事例のコホートにおける説明者の振る舞いに関する洞察を与える。
本稿では,コホートの説明を測る上でのユニークな課題と機会について論じる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:25:40 GMT)
Enhancing Interpretability Through Loss-Defined Classification Objective in Structured Latent Spaces [5.3] 本稿では,高度な距離メトリック学習を教師付き分類タスクに統合する新しいアプローチであるLatent Boostを紹介する。
Latent Boostは、より高いシルエットスコアで示されるように、分類解釈性を改善し、トレーニング収束を加速する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:25:17 GMT)
Multimodal Difference Learning for Sequential Recommendation [5.2] ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:08:19 GMT)
Exploring Multidimensional Checkworthiness: Designing AI-assisted Claim Prioritization for Human Fact-checkers [5.2] 本稿では,AIによるクレーム優先順位付けのプロトタイプを開発し,クレーム優先順位付けにファクトチェッカーが多次元検査因子をどのように利用するかを検討する。
本研究は,多次元赤外関連性とファクトチェック性の間に概念的寄与をもたらす。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:24:15 GMT)
Acquired TASTE: Multimodal Stance Detection with Textual and Structural Embeddings [5.2] スタンス検出は、談話解析から偽ニュースの拡散の追跡、科学的事実の否定まで、幅広い下流の応用を可能にする上で重要な役割を担っている。
TASTEは、トランスフォーマーベースのコンテンツ埋め込みと教師なし構造埋め込みを調和して融合する、スタンス検出のためのマルチモーダルアーキテクチャである。
TASTEは、一般的なベンチマークで最先端の結果を達成し、強力なベースラインの配列を著しく上回っている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:08:44 GMT)
Extracting Database Access-control Policies From Web Applications [5.2] 人間がアプリケーションコードにどのポリシーが埋め込まれているのか、アプリケーションがどのデータにアクセスするのかを識別することは困難である。
本稿では,データクエリを要約することで,アプリケーションに埋め込まれたアクセス制御ポリシを抽出するタスクであるポリシー抽出に取り組む。
我々はRuby-on-Rails Webアプリケーションのポリシー抽出ツールであるOteを紹介した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:37:04 GMT)
ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement [5.1] コントラスト駆動医療画像(ConDSeg)というフレームワークを提案する。
様々な照明およびコントラストシナリオにおけるエンコーダの堅牢性を改善するように設計されている。
画像内の異なる大きさのエンティティを正確に特定し、共起特徴の誤学習を避ける。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:34:49 GMT)
DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production [5.0] 本稿では、実際の開発者インタラクションを忠実に模倣する合成トレーニングデータを生成する自動化ツールであるDialogAgentを紹介する。
このツールは手動データ生成への依存を著しく低減し、従来の方法に比べて効率を4.8倍に向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:31:36 GMT)
TGOSPA Metric Parameters Selection and Evaluation for Visual Multi-object Tracking [5.0] トラジェクトリ一般化最適サブパターン割り当て(TGOSPA)を用いて、多目的追跡性能を評価する。
ローカライズエラー、ミスや偽のオブジェクトの数、トラックスイッチの数などが説明できる。
TGOSPAパラメータの選択を探索することにより、特定のタスクに適したアルゴリズムの性能を比較し、理解し、最適化することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:57:05 GMT)
Dynamic Classification of Latent Disease Progression with Auxiliary Surrogate Labels [5.0] 進化する健康情報に基づく疾患進展予測は、真の疾患状態が不明な場合に困難である。
我々は,主観的ラベルを用いた適応的前方回帰アルゴリズムを開発した。
漸近特性が確立され, 有限試料による顕著な改善が示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:14:15 GMT)
Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases [4.9] Otizは、STIの検出とカウンセリングに特化したAIベースのプラットフォームである。
患者言語を模倣するプロンプトを用いて, STI4種(異種性ワート, ヘルペス, 梅毒, 尿道炎, 頸部炎)を評価した。
Otizは、診断精度(4.14.7)、全体的な精度(4.34.6)、情報の正確性(5.0)、理解性(4.2-4.4)、共感(4.5-4.3.6)を高く評価した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:36:32 GMT)
Input-dependence in quantum reservoir computing [4.9] 量子貯水池計算は、時間情報処理に量子力学系を利用する創発的な分野である。
以前の研究で、量子貯水池を価値のあるものにする特徴が見つかった: 量子貯水池チャネルの入力依存固定点への収縮力学である。
この研究は、入力依存の観点から貴重な量子貯水池の分析に寄与する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:59:11 GMT)
Spend More to Save More (SM2): An Energy-Aware Implementation of Successive Halving for Sustainable Hyperparameter Optimization [4.8] 我々は、広く採用されている逐次半減算アルゴリズムに基づく、エネルギーを意識したハイパーパラメータ最適化実装であるSpend More to Save More (SM2)を紹介する。
従来のアプローチとは異なり、SM2は最小のエネルギー消費で非効率な構成を特定するために探索予備訓練を採用している。
モデルの性能を最大化するだけでなく、エネルギー効率のトレーニングを可能にする最適構成を特定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:37:44 GMT)
GeoPlant: Spatial Plant Species Prediction Dataset [4.8] 種分布モデル (SDM) は空間的特徴から空間を横断する種を予測する。
我々は空間分解能(10-50m)の高いSDMのための新しいヨーロッパ規模のデータセットを設計・開発してきた。
このデータセットは、5Mの不均一なPresence-Onlyレコードと90kの徹底的なPresence-Absenceサーベイレコードで構成されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:00:00 GMT)
GPTDrawer: Enhancing Visual Synthesis through ChatGPT [4.8] GPTDrawerは、GPTベースのモデルの生成技術を活用して、視覚合成プロセスを強化する革新的なパイプラインである。
提案手法では,キーワード抽出,意味解析,画像テキストの一致評価を用いて,入力プロンプトを反復的に洗練するアルゴリズムを用いる。
その結果,ユーザ定義のプロンプトに従って生成した画像の忠実度が著しく向上したことを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:42:44 GMT)
Social Recommendation through Heterogeneous Graph Modeling of the Long-term and Short-term Preference Defined by Dynamic Time Spans [4.8] 本研究では,不均一グラフにソーシャル・ネットワーク・データの動的特性を組み込むことにより,ソーシャル・レコメンデーションを提供する新しい手法を提案する。
このモデルは実世界のデータに適用され、優れた性能を主張する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:36:10 GMT)
Intelligent Control of Robotic X-ray Devices using a Language-promptable Digital Twin [4.6] 自然言語はロボットC-アームX線システムを制御するために使用できる。
専門的なAIモデルは、X線画像を解釈して推論のセマンティック表現を作成する。
我々のシステムは、言語を通して誘導される柔軟で言語に整合したAIモデルを組み込んでいる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:00:25 GMT)
Reducing Reasoning Costs -- The Path of Optimization for Chain of Thought via Sparse Attention Mechanism [4.6] この研究は、いくつかの関連するトークンにのみ焦点をあてるスパースアテンションメカニズムを使うことを提案する。
この実験は、MIT OpenCourseWareの線形代数テスト問題の解法において、このモデルの推論時間、正当性スコア、思考長の連鎖とo1プレビューを比較して比較した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:50:30 GMT)
MoMA: Momentum Contrastive Learning with Multi-head Attention-based Knowledge Distillation for Histopathology Image Analysis [4.6] 計算病理学における特定のタスクに関して、品質データの欠如は一般的な問題である。
そこで本研究では,既存のモデルを用いて新たなターゲットモデルを学習する知識蒸留手法を提案する。
本研究では,教師モデルから学習対象モデルを学習するために,学習者・教師の枠組みを用いる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:03:53 GMT)
MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.5] 同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。
本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。
PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:59:57 GMT)
LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information [4.3] LLaVA-1.5に基づく動的特徴マップ削減(DFMR)を提案し、視覚的トークンオーバーロードの課題に対処する。
DFMRは視覚トークンを動的に圧縮し、トークン容量を解放する。
実験の結果, DFMRをLLaVA-1.5に統合することで, 各種視覚トークン長におけるLLaVAの性能が著しく向上することが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:46:06 GMT)
Sparse Signature Coefficient Recovery via Kernels [4.3] PDEに基づく手法は,高レベルなシグネチャに含まれる反復積分のスパースコレクションを効率的に計算できることを示す。
カーネルを取るシグネチャ空間にフィルタを形成することにより、シグネチャ係数の特定の群、特に変換の任意の深さにおける特異係数を効果的に分離することができる。
このようなフィルタは, 適切なシグネチャ変換の線形結合として表現できることを示し, 提案手法の有効性を実証的に示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:56:31 GMT)
Counterfactual Explanations with Probabilistic Guarantees on their Robustness to Model Change [4.2] 対実的説明(CFE)は、望ましいアウトプットを達成するために、機械学習モデルへの入力の調整方法をユーザに案内する。
この問題に対処する現在のメソッドは、しばしば特定のモデルや変更タイプのみをサポートする。
本稿では,任意のモデルや変更タイプに対して確率的保証を提供するCFEの生成手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:32:36 GMT)
Exploring Consistency in Graph Representations:from Graph Kernels to Graph Neural Networks [4.2] グラフネットワーク(GNN)は、グラフ表現学習において支配的なアプローチとして現れている。
ニューラルネットワーク手法とカーネルアプローチのギャップを橋渡しし、GNNが学習した表現の構造を一貫してキャプチャできるようにすることで、そのギャップを埋める。
これらの知見に触発されて、GNN層間のグラフ表現の類似性の整合性は、関係構造を捕捉し、グラフ分類性能を向上させる上で重要であると推測した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:06:31 GMT)
Sampling-based Continuous Optimization with Coupled Variables for RNA Design [4.2] RNA設計問題に対する連続的な最適化手法を開発した。
我々の研究はボルツマン確率、アンサンブル欠陥、エネルギーギャップといった重要な指標において、常に最先端の手法よりも優れています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:46:54 GMT)
Mixture of Experts Meets Decoupled Message Passing: Towards General and Adaptive Node Classification [4.1] グラフニューラルネットワークはグラフ表現学習において優れているが、異種データと長距離依存に苦慮している。
ノード分類のための汎用モデルアーキテクチャであるGNNMoEを提案する。
GNNMoEは様々なグラフデータに対して優れた性能を示し、過度にスムースな問題や大域的なノイズを効果的に軽減している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:35:13 GMT)
Accurate Medical Named Entity Recognition Through Specialized NLP Models [3.9] 医療用テキスト処理におけるBioBERTの効果について検討した。
その結果、BioBERTは精度とF1スコアの両方で最高の成績を示し、医療分野における適用性と優位性を検証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:06:57 GMT)
Emergent topological re-entrant phase transition in a generalized quasiperiodic modulated Su-Schrieffer-Heeger model [3.9] 一次元一般化準周期Su-Schrieffer-Heegerモデルの位相的性質について検討する。
その結果, トポロジカル再帰相転移が出現することが明らかとなった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:23:54 GMT)
Assessing Personalized AI Mentoring with Large Language Models in the Computing Field [3.9] GPT-4, LLaMA 3およびPalm 2は, 人間の介入を伴わないゼロショット学習手法を用いて評価した。
GPT-4はよりパーソナライズされたメンタリングを提供することを示している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:51:13 GMT)
BDA: Bangla Text Data Augmentation Framework [3.6] 高品質なデータが不足しているリソース制限フィールドでは、トレーニングデータの量を増やす上で、拡張が重要な役割を果たす。
本稿では、事前学習されたモデルとルールベースの手法の両方を用いて、テキストの新しい変種を生成するBangla Text Data Augmentation Frameworkを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:50:37 GMT)
Local vs. Global: Local Land-Use and Land-Cover Models Deliver Higher Quality Maps [3.6] 2023年、アフリカの人口の58.0%が深刻な食料不安全を経験し、21.6%が深刻な食料不安全に直面した。
本研究では,多様なデータソースを用いて局所的な土地被覆地図を作成する教師学生モデル構成によるデータ中心型フレームワークを提案する。
我々のフレームワークは、F1スコアで0.14、Intersection-over-Unionで0.21の改善とともに、最高のグローバルモデルよりも高品質なマップを実現した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:11:09 GMT)
GradStop: Exploring Training Dynamics in Unsupervised Outlier Detection through Gradient Cohesion [3.6] Unsupervised Outlier Detection (UOD)は、データマイニングと機械学習において重要なタスクであり、多数派から著しく逸脱したインスタンスを識別することを目的としている。
ラベルがなければ、深い UOD メソッドはモデルの直接最適化目標と Outlier Detection タスクの最終的なパフォーマンス目標との相違に悩まされる。
本稿では,深部UODモデルのトレーニングを最適化する早期停止アルゴリズムを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:07:58 GMT)
MNIST-Fraction: Enhancing Math Education with AI-Driven Fraction Detection and Analysis [3.5] 我々は,MNIST-Fractionの開発を通じて,数学教育分野への新たな貢献を示す。
MNIST-Fractionは有名なMNISTにインスパイアされたデータセットで、特に手書き数分数の認識と理解に特化している。
我々のアプローチは、深層学習、特に畳み込みニューラルネットワーク(CNN)を手書き数分数の認識と理解に活用することである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:56:28 GMT)
Autoformalizing and Simulating Game-Theoretic Scenarios using LLM-augmented Agents [3.5] 大規模言語モデル(LLM)を用いたゲーム理論シナリオの自動形式化を実現するフレームワークを提案する。
LLMの拡張されたエージェントは、自然言語のシナリオ記述を、各ゲームのルールを定義する実行可能な論理プログラムに変換する。
次にトーナメントシミュレーションを行い、エージェントが生成したゲームの機能をプレイしてテストする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:37:45 GMT)
Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation [3.5] フェデレートラーニング(FL)は、データ分散トレーニングフレームワークとして最近注目を集めている。
クライアント間のセマンティックな不均一性を制御可能なFLベンチマークを構築するためのベンチマークプロセスを提案する。
概念実証として,我々はまず,既存のPSG手法の有効性をFL設定で実証するフェデレートPSGベンチマークを構築した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:10:46 GMT)
How secure is AI-generated Code: A Large-Scale Comparison of Large Language Models [3.5] 本研究では,C言語記述時の脆弱性発生傾向について,最先端のLarge Language Model (LLM)を比較した。
生成されたプログラムの少なくとも62.07%は脆弱性がある。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:02:30 GMT)
LineGS : 3D Line Segment Representation on 3D Gaussian Splatting [3.5] LineGSは幾何学誘導型3次元ライン再構成と3次元ガウススプラッティングモデルを組み合わせた新しい手法である。
その結果, ベースライン法と比較して, 幾何精度とモデルコンパクト性に有意な改善が認められた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:26:17 GMT)
Reinforcement Learning Pair Trading: A Dynamic Scaling approach [3.5] 暗号市場固有のボラティリティのため、暗号通貨の取引は困難である。
本研究では,暗号アルゴリズムによる取引において,強化学習が意思決定を促進できるかどうかを検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:22:20 GMT)
A Multimodal Social Agent [3.5] 本稿では,人間中心のコンテンツ分析タスクに適したテキストリッチなソーシャルコンテンツを解析するマルチモーダルLLMエージェントであるMuSAを紹介する。
我々のアプローチは、MuSAがソーシャルコンテンツ分析を自動化し、改善できることを示し、様々なアプリケーションにおける意思決定プロセスを支援する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:04:27 GMT)
BEIR-NL: Zero-shot Information Retrieval Benchmark for the Dutch Language [3.4] BEIRデータセットをオランダ語に自動翻訳することでBEIR-NLを導入する。
我々は,語彙的BM25法と同様に,多言語密接なランク付けと再ランク付けモデルについて幅広い評価を行った。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:15:57 GMT)
Constrained Best Arm Identification in Grouped Bandits [3.4] そこで本研究では,各アームが複数の独立したサブアームから構成されるグループバンドセットについて検討する。
我々は、腕が実現可能であるとみなすためには、その属性のすべての平均報酬が指定された閾値を超えるべきであるという制約を課す。
ゴールは、固定された信頼設定において、実現可能な腕のセットの中で、属性の平均的な報酬が最大となる腕を見つけることである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:19:19 GMT)
Maximizing Information in Neuron Populations for Neuromorphic Spike Encoding [3.4] ニューロモルフィックの応用は、時間変化のアナログ刺激の代わりにスパイクを入力として使用することで、脳が行う処理をエミュレートする。
この損失を軽減するために、ある研究は1つのニューロンではなく、ニューロンの集団を用いてより多くの情報を符号化する集団符号化戦略を使用している。
本研究は,ニューロンの個体群における信号とスパイクの相互情報の最大化に基づくアプローチを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:14:12 GMT)
Large width penalization for neural network-based prediction interval estimation [3.2] 予測間隔(PI)は、信頼度に関連する予測の上下境界を示す。
高品質PIは高いPIカバレッジ確率(PICP)と狭いPI幅によって特徴づけられる。
本研究では,大径PI幅の平均値のペナルティ化を図った新しいPI損失関数を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:41:10 GMT)
dsLassoCov: a federated machine learning approach incorporating covariate control [3.2] フェデレートされた学習は、地理的に分散したデータセットを使用して、機械学習モデルの直接的なプライバシ保護トレーニングを可能にする。
我々は、共変量効果を制御するために設計された機械学習アプローチであるdsLassoCovを紹介する。
モデルトレーニングにおいて, dsLassoCovは効率よく, 効果的にコンバウンディング効果を管理できることを実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:03:52 GMT)
SAM-Mamba: Mamba Guided SAM Architecture for Generalized Zero-Shot Polyp Segmentation [3.1] 大腸内視鏡検査におけるポリープセグメンテーションは大腸癌の検出に不可欠である。
畳み込みニューラルネットワーク(CNN)に基づく従来のセグメンテーションモデルは、詳細なパターンとグローバルなコンテキストを捉えるのに苦労している。
効率的なポリープセグメンテーションのためのMamba-guided Segment Anything Model (SAM-Mamba)を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:47:54 GMT)
In-Context Learning with Topological Information for Knowledge Graph Completion [3.0] 我々は,知識グラフの性能を向上させるために,文脈内学習を通じてトポロジ情報を組み込む新しい手法を開発した。
提案手法は,テストグラフデータセット内のノードがトレーニンググラフデータセットに存在するような,トランスダクティブな設定において,高いパフォーマンスを実現する。
提案手法は,ILPC小データセットとILPC大データセットのベースラインよりも優れた性能を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:29:36 GMT)
Edge-Splitting MLP: Node Classification on Homophilic and Heterophilic Graphs without Message Passing [3.0] ES-MLPは、推論中にエッジを使わずに、すべてのデータセット上のホモ親和性およびヘテロ親和性モデルと同等であることを示す。
ES-MLPは、推論中に複数の種類のエッジノイズに対して堅牢であり、その推定時間は、一般的に使用されるMPNNの2倍から5倍高速である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:44:55 GMT)
FLIP: Flow-Centric Generative Planning for General-Purpose Manipulation Tasks [3.0] 本稿では,視覚空間のモデルベース計画アルゴリズムFLIPについて述べる。
FLIPは、オブジェクト、ロボット、タスク間の長い水平プランを一般的なアクション表現としてイメージフローで合成することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:17:00 GMT)
Toward Reliable Ad-hoc Scientific Information Extraction: A Case Study on Two Materials Datasets [2.9] GPT-4が2つの既存の物質科学データセットを複製できるかどうかを評価する。
我々は材料科学者を用いて詳細な手動エラー解析を行い、モデルが望ましい情報を忠実に抽出するのに苦労している場所を評価する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:28:47 GMT)
Evaluating Dialect Robustness of Language Models via Conversation Understanding [2.9] 私たちは「タブー」という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を使う。
目的語予測 (TWP) (textiti.e.$, predict the masked target word in a conversation) と目標語選択 (TWS) (textiti.e.$, select the most likely masked target word in a conversation) という2つの評価課題を定式化する。
私たちは、en-MV(en-USが方言情報を含むように変換される)とen-TR(方言情報を含む)の2つのサブセットを作成します。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:21:26 GMT)
DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization [2.8] 抽象的な要約は、大量のテキストをコヒーレントな要約に凝縮し、言い換える上で重要な一歩を踏み出した。
既存のモデルは、しばしばそのような文書の複雑な構造や専門的な内容に適応するのに苦労する。
本稿では,管理文書に適したドメイン適応型抽象要約フレームワークDocSumを紹介する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:36:50 GMT)
Predictive Modeling of Homeless Service Assignment: A Representation Learning Approach [2.8] この研究は、そのような特徴の潜在表現を導出することが、既存の代入決定プロセスのアルゴリズム的強化に不可欠であると主張している。
提案手法は,履歴データからサービス間の時間的・機能的関係を学習し,また,個人間の関連性を考慮し,次のサービス割り当ての予測を大幅に改善する特徴を生成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:24:57 GMT)
The robustness of entanglement in non-Hermitian cavity optomechanical system even away from exceptional points [2.8] 量子物理学は、$mathcalPT$-symmetric である非エルミート的ハミルトニアンを考えることで複素領域に拡張することができる。
また,EPから遠ざかるパラメータ群において,突然の絡み合いの消失はEP($mathcalPT$-symmetric systemに類似した)で緩和できるが,また,絡み合いの回復は熱雑音に対して極めて堅牢であることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:18:05 GMT)
Unveiling Language Competence Neurons: A Psycholinguistic Approach to Model Interpretability [2.7] 本研究は、言語モデルにおけるニューロンレベルの表現を探索するために、英語の心理言語学的パラダイムを用いている。
以上の結果から,GPT-2-XLは音形課題に苦しむ一方で,音性関連と暗黙の因果性の両方において,人間のような能力を示すことが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:05:21 GMT)
Skeleton-Guided Spatial-Temporal Feature Learning for Video-Based Visible-Infrared Person Re-Identification [2.6] 映像に基づく視覚的赤外線再識別(VVI-ReID)は,特徴的相違により困難である。
VVI-ReIDのための新しいスケルトン誘導時空間フェースリーニング(STAR)法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:05:28 GMT)
Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records [2.6] 本研究は、構造化された臨床データとともに、構造化されていない電子健康記録を構造化するためのRTSurvフレームワークを開発し、検証した。
34,276人の非構造化データと852の外部コホートを用いて、非構造化情報を構造化形式に変換することに成功した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:14:32 GMT)
Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing [2.5] 近年,マスク付きオートエンコーダ(MAE)による自己教師型学習が,リモートセンシング(RS)画像表現学習において注目されている。
本稿では,センサに依存しないコンテンツベース画像検索(CBIR)におけるMAEsの有効性について検討する。
マルチセンサRS画像アーカイブにおけるマスク画像モデリングの活用を目的とした,バニラMAEの適応可能性に関する体系的概要を述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:46:02 GMT)
Using Large Language Models for Parametric Shape Optimization [2.5] パラメータ化工学設計の最適形状を決定するための最適化フレームワーク LLM-PSO を開発した。
我々の予備調査は、LLMの形状最適化と工学設計をより広範囲に活用するためのさらなる研究を刺激する可能性がある。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:35:38 GMT)
Efficient Gravitational Wave Parameter Estimation via Knowledge Distillation: A ResNet1D-IAF Approach [2.4] 本研究では,重力波解析における計算効率を高めるため,知識蒸留技術を用いた新しい手法を提案する。
我々はResNet1Dと逆自己回帰フロー(Inverse Autoregressive Flow, IAF)アーキテクチャを組み合わせたフレームワークを開発し、複雑な教師モデルからの知識をより軽い学生モデルに伝達する。
実験の結果,教師モデルの4.09と比較すると,学生モデルは最適構成(40,100,0.75)で3.70の検証損失を達成し,パラメータの数を43%削減した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:56:46 GMT)
TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection [2.4] 大規模言語モデルは、様々なタスクにまたがる印象的な推論能力を示す。
これらの機能を、生成された推論データを通じてより小さなモデルに蒸留する試みは、推論プロセスの表面的な模倣につながる可能性がある。
2つの新しいアプローチを紹介するフレームワークであるTinyThinkerを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:05:42 GMT)
ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities [2.4] 本稿では, 顔認証, 性別検出, 年齢推定を中心に, 生体計測関連タスクにおけるChatGPTの能力について検討する。
本研究により,ChatGPTは顔の同一性を認識し,2つの顔画像の識別をかなり精度良く行うことが明らかとなった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:30:19 GMT)
Understanding Token Probability Encoding in Output Embeddings [2.3] 出力埋め込みベクトル内には、出力トークン確率の近似的な共通対数線形符号化が存在する。
出力の確率分布を正確に修正するために、出力埋め込みにおけるエンコーディングを操縦する。
言語モデルの事前学習力学において、出力埋め込みは初期ステップでコーパストークンの周波数情報をキャプチャする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:22:12 GMT)
Preventing Conflicting Gradients in Neural Marked Temporal Point Processes [2.3] MTPP(Neural Marked Temporal Point Process)は、ラベル付きイベント間の複雑な時間的相互依存性をキャプチャするフレキシブルモデルである。
MTPPモデルの学習は,両タスクが協調的に最適化されたトレーニング可能なパラメータの共通セットを共有する2タスク学習問題として,フレーム化可能であることを示す。
ニューラルMTPPモデルの新しいパラメトリゼーションを導入し、各タスクのモデリングとトレーニングを分離し、矛盾する勾配の問題を効果的に回避する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:10:04 GMT)
Competition and Diversity in Generative AI [2.3] 我々は、生産者が生成AIを使って互いに競合するときに、コンテンツ均質性の下流の結果を探索するゲーム理論モデルを開発した。
我々は、独立して機能する生成AIモデル(例えば、ベンチマークによると)は、競合に直面すると失敗し、その逆も失敗する可能性があることを示す。
コンペティションと均質性の間の相互作用が、生成AIの開発、評価、利用にどのように影響するかについて議論する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:34:31 GMT)
Comparative Analysis of Pooling Mechanisms in LLMs: A Sentiment Analysis Perspective [2.2] BERTやGPTのようなトランスフォーマーベースのモデルは、トークンレベルの埋め込みを文レベルの表現に集約するためにプール層に依存している。
Mean、Max、Weighted Sumといった一般的なプール機構は、この集約プロセスにおいて重要な役割を果たす。
本稿では,これらのプール機構が文レベル感情分析の文脈における2つの著名なLCMファミリー(BERTとGPT)に与える影響について検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:38:01 GMT)
Unified HT-CNNs Architecture: Transfer Learning for Segmenting Diverse Brain Tumors in MRI from Gliomas to Pediatric Tumors [2.1] トランスファーラーニングにより最適化されたハイブリッドトランスフォーマーと畳み込みニューラルネットワークのアンサンブルであるHT-CNNを紹介した。
この方法では、MRIデータから空間的および文脈的詳細を抽出し、一般的な腫瘍のタイプを表す多様なデータセットを微調整する。
本研究は, 医療イメージセグメンテーションにおけるトランスファーラーニングとアンサンブルアプローチの可能性を明らかにし, 臨床意思決定と患者ケアの大幅な向上を示唆するものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:52:01 GMT)
DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Object Detection and Tracking in Traffic Surveillance [2.1] 本稿では,動的グラフニューラルネットワーク(DGNN)をYOLO11と統合した新しいフレームワークであるDGNN-YOLOを紹介する。
グラフ構造の構築と更新により、DGNN-YOLOはオブジェクトをノードとして、インタラクションをエッジとして効果的に表現する。
実験により、DGNN-YOLOは様々な交通条件下で小さな物体を検出し、追跡する最先端の手法より一貫して優れていた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:04:22 GMT)
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations [2.0] 微妙な感情差を制御できるTTS(text-to-speech)システムの開発は、依然として困難な課題である。
既存の感情音声データベースは、広範囲の感情状態の取得に失敗する過度に単純化されたラベル付けスキームに悩まされることが多い。
本稿では,感情に富んだ音声セグメントを体系的に抽出し,それらに詳細な自然言語記述を付加することにより,データベース構築を目的とした新しいプロセスを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:13:39 GMT)
Understanding Gradient Descent through the Training Jacobian [1.9] トレーニングされたネットワークパラメータのヤコビアンを用いたニューラルネットワークトレーニングの幾何学について,その初期値について検討する。
本分析では,入力データに依存するがラベルに依存しない学習過程における低次元構造を明らかにする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:32:05 GMT)
AI Can Enhance Creativity in Social Networks [1.8] 我々は、意味的特徴とネットワーク構造的特徴を用いて、人々の思考性能を予測するモデルを訓練した。
SocialMuseは、予測パフォーマンスを最大化し、ピアレコメンデーションを生成する。
ソーシャルミューズを用いた治療ネットワークは,いくつかの創造性対策において,AIに依存しない制御ネットワークよりも優れていた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:11:07 GMT)
Greek2MathTex: A Greek Speech-to-Text Framework for LaTeX Equations Generation [1.8] 本稿では,ギリシャ語に特化して設計された新しい音声からLaへの方程式システムを提案する。
本稿では,音声認識(ASR)と自然言語処理(NLP)技術を利用したエンドツーエンドシステムを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:29:44 GMT)
Representation Learning of Multivariate Time Series using Attention and Adversarial Training [1.7] 変換器をベースとしたオートエンコーダを提案し, 逆方向のトレーニングスキームを用いて, 人工時系列信号を生成する。
その結果,生成した信号は畳み込みネットワークを用いた場合よりも,模範的データセットとの類似性が高いことがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:01:08 GMT)
Surveying Facial Recognition Models for Diverse Indian Demographics: A Comparative Analysis on LFW and Custom Dataset [1.7] 本稿では,従来の顔認識モデルとディープラーニングに基づく顔認識モデルの両方について,詳細な評価を行う。
我々は、EigenfacesやSIFTのような全体論的アプローチから、CNNとGaborフィルタ、ラプラシア変換、セグメンテーション技術を統合する高度なハイブリッドモデルまで、さまざまなモデルを分析する。
以上の結果から,インド系住民の民族的多様性に適応するモデルの能力に対する顕著な洞察が得られ,実世界の応用における精度と傾向を高めるための修正を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:54:21 GMT)
Patchfinder: Leveraging Visual Language Models for Accurate Information Retrieval using Model Uncertainty [1.7] 本稿では,視覚言語モデル(VLM)に基づいて情報抽出タスクに対処するアルゴリズムであるPatchFinderを提案する。
まず、VLMの出力の最大ソフトマックス確率に基づいて、信頼度に基づくスコアを考案し、その予測に対するモデルの信頼度を測定する。
PatchFinderは、42億のパラメータビジョン言語モデルであるPhi-3vを利用して、190のノイズの多いスキャンされたドキュメントのデータセットで94%の精度を達成することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:28:10 GMT)
Enhancing Drug-Target Interaction Prediction through Transfer Learning from Activity Cliff Prediction Tasks [1.6] 本研究では,交流予測から伝達学習を適用してDTI予測を向上する手法を提案する。
ACとDTIの予測を別の問題として扱う以前の研究とは異なり、この研究は、薬物発見におけるデータの不足と予測の課題に対処するための統一的な枠組みを確立している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:56:11 GMT)
Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms [1.5] 視覚入力を用いた応答最適化モデルでは,早期・中期の視覚領域において,より優れた予測精度が得られることを示す。
言語的記述では捉えられない入力の知覚的特徴に敏感な視覚野の3つの異なる領域を同定する。
本稿では,意味的内容に基づいて受容場や特徴マップを変調し,既存のSOTAよりも3~23%精度が向上する手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:07:02 GMT)
TryOffAnyone: Tiled Cloth Generation from a Dressed Person [1.5] 高忠実なタイル付き衣料品画像は、パーソナライズされたレコメンデーション、服装構成、バーチャルトライオンシステムに不可欠である。
本研究では, 微調整型安定拡散モデルを用いた新しい手法を提案する。
本手法は,服飾用マスクを統合し,対象の衣服を効果的に分離・処理する,一段ネットワーク設計の合理化を特徴とする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:41:53 GMT)
Measuring the Runtime Performance of C++ Code Written by Humans using GitHub Copilot [1.5] 開発者がGitHub Copilotを使用する場合と、そうでない場合とで生成されたC++コードのランタイムパフォーマンスを評価します。
結果から,Copilotは(統計的に重要な)実行時のパフォーマンスが遅いC++コードを生成する可能性が示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:52:23 GMT)
DuoLift-GAN:Reconstructing CT from Single-view and Biplanar X-Rays with Generative Adversarial Networks [1.4] 本稿では,DuoLift Generative Adversarial Networks (DuoLift-GAN)を紹介する。
これらの3D出力は統合された3D特徴マップにマージされ、完全な3D胸部ボリュームにデコードされ、よりリッチな3D情報キャプチャを可能にする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:01:03 GMT)
Image-Based Malware Classification Using QR and Aztec Codes [1.4] 実行可能ファイルから抽出された特徴をQRおよびAztecコードに変換する革新的な方法を検討する。
これらのコードは、CNNの学習能力を高める可能性のあるフォーマットで構造パターンをキャプチャする。
この結果から,QRおよびAztec符号を機能工学の一形態として用いることは,マルウェア領域において有望であることが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:25:06 GMT)
Assessing the Impact of Image Dataset Features on Privacy-Preserving Machine Learning [1.4] 本研究では,私的および非私的畳み込みニューラルネットワーク(CNN)モデルの有用性と脆弱性に影響を与える画像データセットの特徴を明らかにする。
不均衡なデータセットはマイノリティクラスでは脆弱性を増大させるが、DPはこの問題を緩和する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:15:21 GMT)
Auto-Generating Earnings Report Analysis via a Financial-Augmented LLM [1.4] 本稿では,収益報告分析を自動生成する LLM の開発という,新たな課題を提案する。
我々の手法は、既存の決算報告の詳細な分析と、この目的のためにLCMを微調整するためのユニークなアプローチを含む。
広範な財務文書により、金融指導データを構築し、LLMを財務状況に適応させることを可能にした。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:09:42 GMT)
Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: a case study on Baidu, Ernie and Qwen [1.3] 我々は、中国の主要検索エンジンBaiduに埋め込まれた社会的偏見を調査し、中国ベースのツールを調査した。
上記のツールにエンコードされた30万以上のビューを,そのようなグループを記述した候補語に誘導することで収集する。
言語モデルは検索エンジンに比べて多種多様な組込みビューを示すが、BaiduとQwenはErnieよりもネガティブなコンテンツを生成することが多い。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:13:03 GMT)
Security Properties for Open-Source Hardware Designs [1.3] 4つの共通設計に対してSystemVerilog Assertionsを提供する。
プロパティは設計によって整理され、セキュリティ欠陥と関連するCWEの詳細がタグ付けされている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:42:28 GMT)
MultiOrg: A Multi-rater Organoid-detection Dataset [1.3] このデータセットは、400以上の高解像度の2D顕微鏡画像と、6万以上のオルガノイドのアノテーションからなる。
さらに、私たちはオルガノイド検出のためのベンチマークを提供し、人気のある画像視覚化ツールであるNapariの、容易にインストール可能でインタラクティブなプラグインを通じて、最高のモデルを利用できるようにします。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:44:49 GMT)
Evaluating Different Fault Injection Abstractions on the Assessment of DNN SW Hardening Strategies [1.3] 本研究では、深層ニューラルネットワークSW硬化戦略を評価するための2つのFI手法(アプリケーションレベル(APP)と命令レベル(ISA))を比較した。
その結果、ISAにおける永久断層注入は、SW硬化技術のランキングを完全に変えていることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:32:09 GMT)
Accurate Water Level Monitoring in AWD Rice Cultivation Using Convolutional Neural Networks [1.2] 気候変動により農業セクターは困難に陥り、特に地球規模の水資源はますます不足している。
世界の人口の半数以上を占める主要な食料である米は、他の主要作物よりもはるかに多くの水を必要としている。
伝統的に、農家は水位を手動で測定する。
本稿では,コンピュータビジョン,特に畳み込みニューラルネットワークを用いて水位測定を自動化する新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:44:08 GMT)
Learning incomplete factorization preconditioners for GMRES [1.2] 行列分解を直接近似するためにグラフニューラルネットワークを訓練する。
グラフニューラルネットワークアーキテクチャを適用することで、出力自体がスパースであることを保証することができます。
GMRESの繰り返し回数を減らし、合成データに対するスペクトル特性を改善する効果を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:23:37 GMT)
Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [1.1] 本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:12:43 GMT)
NLPineers@ NLU of Devanagari Script Languages 2025: Hate Speech Detection using Ensembling of BERT-based models [1.0] 本稿では,ヒンディー語とネパール語に着目し,デバナガリ文字言語におけるヘイトスピーチの検出に焦点を当てた。
本研究では,様々なトランスフォーマーモデルを用いて,ヘイトスピーチと自由表現のニュアンス境界をナビゲートする効果について検討する。
この研究は、デバナガリ文字言語におけるヘイトスピーチ検出の必要性を強調し、さらなる研究の基盤を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:37:26 GMT)
CAT: Class Aware Adaptive Thresholding for Semi-Supervised Domain Generalization [1.0] ドメインの一般化は、ドメインのシフトがあっても、ソースドメインから目に見えないターゲットドメインに知識を移そうとします。
本稿では,限定ラベル付きデータを用いた半教師付き学習を利用して,ドメインシフト下での競合一般化性能を実現する手法CATを提案する。
提案手法では、フレキシブルしきい値を用いて、高いクラス多様性を持つ高品質な擬似ラベルを生成しながら、ノイズの多い擬似ラベルを精製し、信頼性を向上させる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:47:01 GMT)
Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs [1.0] 本研究では, 大規模NLPデータセットの効率的な復号化手法について検討した。
以上の結果から,異なる手法で観察された意味的類似性に基づく重複の頻度が低い可能性が示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:37:05 GMT)
Utilizing Multi-step Loss for Single Image Reflection Removal [0.9] 歪んだイメージは、オブジェクト検出やイメージセグメンテーションといったタスクに悪影響を及ぼす可能性がある。
単一画像を用いた画像反射除去のための新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:57:25 GMT)
DeepNose: An Equivariant Convolutional Neural Network Predictive Of Human Olfactory Percepts [0.9] 我々は、意味的データセットから人間の知覚を予測するために畳み込みニューラルネットワーク(CNN)を訓練する。
我々のネットワークは、異なる嗅覚データセットに対して高忠実度知覚予測を提供する。
我々は,DeepNoseネットワークが3次元分子形状を用いて,人間の嗅覚に対する高品質な予測を生成できることを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:35:24 GMT)
Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9] 細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。
この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:44:31 GMT)
Short-time simulation of quantum dynamics by Pauli measurements [0.9] 本稿では,古典的後処理における物理合成量子状態の短時間量子力学をシミュレーションするために,測定のパワーを活用することを提案する。
シミュレーション時間は短いが、我々のハイブリッド量子古典法は厳密な誤差境界を備えている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:03 GMT)
EM-Net: Gaze Estimation with Expectation Maximization Algorithm [0.9] 本稿では,ディープラーニングと従来の機械学習アルゴリズムに基づく,軽量な視線推定モデルEM-Netを提案する。
提案したGAM(Global Attention Mechanism)は,視線推定に関連する特徴を抽出し,グローバル依存関係を捕捉するモデルの能力を向上させる。
実験によると、トレーニングデータの50%しか使用しない前提で、EM-NetはGaze360、MPIIFaceGaze、RT-Geneデータセットのパフォーマンスをそれぞれ2.2%、2.02%、2.03%改善している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:43:18 GMT)
Expanding bipartite Bell inequalities for maximum multi-partite randomness [0.8] 本稿では,Mermin-Ardehali-Belinskii-Klyshkoの不等式に反する相関関係によって証明できるランダム性の最大値について検討する。
我々は,ベル不等式を拡大するベル不等式と呼ばれるランダム性証明手法から,最大ランダム性を証明する新しいBell不等式を導出する」。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:09:58 GMT)
Distinguishing Scams and Fraud with Ensemble Learning [0.8] 消費者金融保護局の苦情データベースは、ユーザ詐欺クエリにおけるLCMのパフォーマンスを評価するための豊富なデータソースである。
我々は詐欺やCFPBの苦情を識別するためのアンサンブルアプローチを開発した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:07:18 GMT)
NEAT Algorithm-based Stock Trading Strategy with Multiple Technical Indicators Resonance [0.8] 複数の技術指標を用いた株式取引にNEAT(NeuroEvolution of Augmenting Topologies)アルゴリズムを適用した。
当社のアプローチは、収益を最大化し、リスクを回避し、バイアンドホールド戦略を上回ることに重点を置いています。
本研究の結果から,NEATモデルはバイヤー・アンド・ホールド戦略と同様のリターンを得たが,リスク露光が低く,安定性が向上した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:42:15 GMT)
Climate Aware Deep Neural Networks (CADNN) for Wind Power Simulation [0.8] 風力発電予測は現代のエネルギーシステムにおいて重要な役割を担い、再生可能エネルギー源の電力網への統合を促進する。
本稿では,風力シミュレーションの精度を向上させるために,気候変数を利用したディープニューラルネットワーク(DNN)に基づく予測モデルを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:22:52 GMT)
GrEmLIn: A Repository of Green Baseline Embeddings for 87 Low-Resource Languages Injected with Multilingual Graph Knowledge [0.6] GrEmLInは、87の中間および低リソース言語に対して、グリーンで静的なベースライン埋め込みのリポジトリである。
我々はGrEmLIn埋め込みを多言語グラフ知識を統合することでGloVe埋め込みを強化する新しい手法で計算する。
実験により、GrEmLIn の埋め込みは、語彙的類似性のタスクにおいて、E5 からの最先端の文脈的埋め込みよりも優れていることが示された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:13:12 GMT)
More complex environments may be required to discover benefits of lifetime learning in evolving robots [0.6] その結果,平坦な環境よりも丘陵環境の方が学習に有益であることが示唆された。
学習の利点を見るためには、より困難な環境でロボットを評価する必要があるかもしれない。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:15:45 GMT)
Global and Preference-based Optimization with Mixed Variables using Piecewise Affine Surrogates [0.6] 本稿では,線形制約付き混合変数問題の解法として,新しいサロゲートに基づく大域的最適化アルゴリズムを提案する。
提案手法は, 目的関数の断片的なアフィンサロゲートを, 実現可能なサンプル上に構築することに基づいている。
この2つのアルゴリズムは、制約なしおよび制約付き混合変数ベンチマーク問題に対して評価される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:06:10 GMT)
Quantum Simultaneous Protocols without Public Coins using Modified Equality Queries [0.6] 量子通信は、当事者間の絡み合いがなくても、公共のランダム性を置き換えることができる場合もある。
これは既に2人のプレイヤーで知られていたが、2人以上のプレイヤーでは知られていなかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:16:53 GMT)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.6] 本研究では,LLM を悪用する特殊文字を用いたインジェクション攻撃の一種である,知覚不能な文字攻撃に対する特定の LLM 脆弱性について検討する。
攻撃の4つのカテゴリを考案し、コード解析とコード理解に関連するタスクのパフォーマンスへの影響について検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:52:41 GMT)
Lattice Hamiltonians and Stray Interactions Within Quantum Processors [0.6] 同じチップ上に多くの量子ビットを持つ量子プロセッサのハミルトンモデルを開発することは、量子コンピューティング技術の進歩に不可欠である。
この研究は、格子ハミルトンを量子回路設計に取り入れることの重要性を浮き彫りにしている。
ゆるやかに分離された量子ビットは、より弱い層間相互作用とより高いゲート忠実度をもたらし、従来の仮定に挑戦する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:34:23 GMT)
GEE-OPs: An Operator Knowledge Base for Geospatial Code Generation on the Google Earth Engine Platform Powered by Large Language Models [0.6] 本稿では,Google Earth Engine (GEE) JavaScript APIに適した演算子知識ベースを構築するためのフレームワークを提案する。
本フレームワークは、演算子構文知識テーブル、演算子関係周波数テーブル、演算子頻繁パターン知識テーブル、演算子関係連鎖知識テーブルからなる。
本研究では,演算子の知識抽出において,90%以上の精度,リコール,F1スコアが達成されていることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:56:40 GMT)
Large Language Models Still Face Challenges in Multi-Hop Reasoning with External Knowledge [0.5] 我々は、Chain-of-Thoughtによる4つの推論ベンチマークでGPT-3.5モデルをテストする(そのバリエーション)。
その結果,多種多様な推論タスクにおいて大きな言語モデルによって達成された驚くべき性能にもかかわらず,モデルが人間との大きな差を示す深刻な欠点に悩まされていることが明らかとなった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:53:26 GMT)
A Beginner's Guide to Power and Energy Measurement and Estimation for Computing and Machine Learning [0.5] 本稿では,エネルギー測定ツールの音質化に要する主な考察を紹介する。
これには、オン・ザ・ウォールとオン・デバイスの測定、サンプリング戦略とベストプラクティス、一般的なエラー源、プロキシ測定などが含まれる。
測定手法の現状を改善するための行動を呼び掛けて締めくくっている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:00 GMT)
A Double Machine Learning Approach for the Evaluation of COVID-19 Vaccine Effectiveness under the Test-Negative Design: Analysis of Québec Administrative Data [0.4] 我々はTNDDR(TND-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-
予防接種介入による結果の限界期待に対する効率的な影響関数(EIF)を導出する。
我々はTNDDR $sqrtn-$consistency, normality, double robustness の条件を確立する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:16:33 GMT)
Learning About Algorithm Auditing in Five Steps: Scaffolding How High School Youth Can Systematically and Critically Evaluate Machine Learning Applications [0.4] アルゴリズム監査は、アルゴリズムシステムの不透明な内部動作と外部からの外部影響を理解する方法である。
本稿では,若者を監査アルゴリズムで支援できる5つのステップを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:21:17 GMT)
Direct measurement of Tan's contact in a one-dimensional Lieb-Liniger gas [0.4] 強い相関関係を持つリーブ・ライニガーガス中のタン接触を初めて直接測定する。
この結果は,量子モンテカルロ計算の理論的予測とよく一致している。
我々の研究は、リーブ・ライニガーガスの幅広い相互作用状態におけるさらなる特徴付けの道を開く。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:56:21 GMT)
Post-Hoc MOTS: Exploring the Capabilities of Time-Symmetric Multi-Object Tracking [0.4] 事前に記録されたサンプル中の出芽酵母の検出、分画、追跡のための時間対称追跡手法が導入された。
我々は、このアーキテクチャの幅広い機能、アドバンテージ、潜在的な課題を、様々な特別に設計されたシナリオで明らかにすることを目指している。
本稿では,事前学習モデルと非事前学習モデルの両方を対象とした追跡アーキテクチャの注意分析を行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:50:06 GMT)
Beyond Knowledge Silos: Task Fingerprinting for Democratization of Medical Imaging AI [0.4] 医用画像解析の分野における安全な知識伝達のための枠組みを提案する。
このアプローチの鍵となるのは、特徴分布の構造化された表現である"フィンガープリント"のデータセットです。
本手法は,関連知識を識別する従来の手法より優れている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:28:42 GMT)
Efficient 3D affinely equivariant CNNs with adaptive fusion of augmented spherical Fourier-Bessel bases [0.4] フィルタ分解に基づく群同変畳み込みニューラルネットワーク (CNN) は, 3次元画像特徴抽出において有望な安定性とデータ効率を示した。
本稿では,容積画像に対する非パラメータ共有連続3次元アフィン群同変ニューラルネットワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:10:08 GMT)
Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia [0.3] フィリピンのテキストを扱う事前訓練された言語モデルにおいて、性差別とアンチクイアバイアスの両方を評価するベンチマークを導入する。
ベンチマークは、英国偏見評価データセットの文化的適応による7,074の新たな課題ペアで構成されています。
多言語モデルの場合、特定の言語で学習したバイアスの程度は、モデルが暴露した言語における事前学習データ量に影響されることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:43:31 GMT)
Annotation-Efficient Task Guidance for Medical Segment Anything [0.3] 医用画像のセグメンテーションは画像ワークフローにおける重要なタスクであり、多くの画像ベースの決定に影響を与える。
従来の完全教師付きセグメンテーションモデルは、大量のラベル付きトレーニングデータに依存しており、これは高価で時間を要する、エラーを起こしやすいプロセスである。
医療画像セグメンテーションのための新しいマルチタスク学習フレームワークSAM-Mixを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:47:00 GMT)
Koopman Theory-Inspired Method for Learning Time Advancement Operators in Unstable Flame Front Evolution [0.3] 本研究は,フレイムフロント不安定性に対するソリューション前進演算子を学習するために,クープマンインスパイアされたフーリエニューラル演算子(kFNO)と畳み込みニューラルニューラルネットワーク(kCNN)を紹介する。
データを高次元の潜在空間に変換することにより、これらのモデルは従来の手法と比較してより正確な多段階予測を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:47:19 GMT)
A Systematic Literature Review on the NIS2 Directive [0.3] NIS2として知られる指令は2022年末に欧州連合(EU)で制定された。
本報告では,この指示に対処する学術研究について,体系的な文献レビューを行う。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:04:47 GMT)
SPACE-SUIT: An Artificial Intelligence based chromospheric feature extractor and classifier for SUIT [0.2] 本研究では,SPACE-SUIT: Solar Phenomena Analysis and Classificationを開発した。
SUITのMg II kフィルタから観測される太陽色圏の特徴を検出し、分類する。
SPACE は SUIT FITS データセットの精度 0.788, 0.863, MAP 0.874 を達成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:08:06 GMT)
Extreme AutoML: Analysis of Classification, Regression, and NLP Performance [0.2] Extreme Learning Machines (ELMs) は基本的に異なるタイプのニューラルアーキテクチャを使用し、計算コストを大幅に削減してより良い結果をもたらす。
カリフォルニア大学アーバイン校(UCI)リポジトリのいくつかの一般的な分類データセットを使用して、Extreme AutoML技術をGoogleのAutoMLと比較した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:58:46 GMT)
Transformative Influence of LLM and AI Tools in Student Social Media Engagement: Analyzing Personalization, Communication Efficiency, and Collaborative Learning [0.2] AIによるアプリケーションは、学生がソーシャルメディアと対話する方法を変えつつある。
AIによって強化されたソーシャルメディアプラットフォームに関わる学生は、高等教育のパフォーマンスを報告します。
AIアルゴリズムは、共有された学術的関心とキャリア目標に基づいて、学生を効果的にマッチングする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:29:41 GMT)
Enhancing Remote Adversarial Patch Attacks on Face Detectors with Tiling and Scaling [0.1] 本稿では,顔検出装置を対象としたRAP(Remote Adversarial Patch)の攻撃可能性について論じる。
提案した顔検出器を対象とするパッチは,汎用物体検出器を対象とするパッチよりも優れた検出障害効果を示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:38:35 GMT)
Searching for Structure: Investigating Emergent Communication with Large Language Models [0.1] 我々は,大規模言語モデルが人工言語を学習し,使用する古典的参照ゲームについてシミュレートする。
この結果から, 当初構造化されていない全体言語は, 2つのLLMエージェントが正常に通信できるような構造的特性を持つことが明らかとなった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:50:03 GMT)
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions [0.0] IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。
これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:51:18 GMT)
Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy [0.0] ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:58:10 GMT)
Zero-Shot Class Unlearning in CLIP with Synthetic Samples [0.0] 私たちは、画像テキストペアの巨大なデータセットに基づいてトレーニングされたデュアルビジョン言語モデルであるCLIP内でのアンラーニングに重点を置いています。
リプシッツ正則化をCLIPのマルチモーダル文脈に適用する。
我々の忘れる手順は反復的であり、合成された忘れ物セットの精度を追跡し、選択された閾値未満の精度で停止する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:12:48 GMT)
Visible and Infrared Image Fusion Using Encoder-Decoder Network [0.0] 赤外線および可視光画像に焦点をあてた画像融合問題に対する学習に基づく新しい解法を提案する。
提案手法は,非参照品質指標を用いた損失関数とともに,畳み込み層とプーリング層のみを利用する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:42:31 GMT)
VEL: A Formally Verified Reasoner for OWL2 EL Profile [0.0] VEL はマシンチェック可能な正当性証明を備えた公式な EL++ 推論器である。
本研究は,理論および実装レベルでの正確性を確保するために,推論アルゴリズムの機械化の必要性を実証するものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:17:28 GMT)
Toy Model Challenging Prevailing Definitions of Classicality [0.0] 環境に誘導されたデコヒーレンスと量子ダーウィン主義に従う玩具モデルを分析する。
結果として生じる「古典的」力学は、一見無実の制御操作の後、非常に脆弱で再結合する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:08:38 GMT)
Towards Precision in Bolted Joint Design: A Preliminary Machine Learning-Based Parameter Prediction [0.0] ボルト接合部は、構造的整合性と信頼性を維持するために工学的に重要である。
従来の方法では、ボルト付きジョイントの非線形挙動を捉えることができないことが多い。
本研究では、負荷容量と摩擦係数を予測するために、経験的データとフィードフォワードニューラルネットワークを組み合わせる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:00:39 GMT)
Towards Automated Algebraic Multigrid Preconditioner Design Using Genetic Programming for Large-Scale Laser Beam Welding Simulations [0.0] 我々は、利用可能な個々のコンポーネントから効率的なマルチグリッドサイクルを構築するために、進化的アルゴリズムを用いる。
この技術はレーザービーム溶接プロセスの有限要素シミュレーションに適用される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:24:38 GMT)
Topic Classification of Case Law Using a Large Language Model and a New Taxonomy for UK Law: AI Insights into Summary Judgment [0.0] 本稿では,英国における要約判断事例のトピック分類のための新しい分類法の開発と適用について述べる。
機能的なトピックやトレンドを探るために、Large Language Model Claude 3 Opusを使用します。
クロード3オプスはこのトピックを87.13%、F1スコア0.87で正しく分類した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:40:54 GMT)
The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence [0.0] Early Bird仮説は、高密度ニューラルネットワークで当選した宝くじを見つけるための効率的なアルゴリズムを提案する。
探索終端付近の非重要なニューロン群を非変化的に活用する手法であるWORMを提案する。
実験によると、WORMは、計算オーバーヘッドが増大しているにもかかわらず、畳み込みニューラルネットワークのトレーニング中に、より高速なチケット識別を実現する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:21:13 GMT)
TECO: Improving Multimodal Intent Recognition with Text Enhancement through Commonsense Knowledge Extraction [0.0] 本稿では,これらの課題に対処するために,コミュオンセンス・ナレッジ・エクストラクタ(TECO)を用いたテキスト強調手法を提案する。
まず、生成した知識と検索した知識の両方から関係を抽出し、テキストモダリティにおける文脈情報を強化する。
そして、これらの強化されたテキスト特徴と視覚的および音響的表現を整合して、結合的なマルチモーダル表現を形成する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:38:48 GMT)
Surpassing the loss-noise robustness trade-off in quantum key distribution [0.0] 量子鍵分布(QKD)は、秘密鍵を共有する理論的に安全な方法を提供する。
従来のQKDプロトコルは広範なノイズ補償を必要とする。
代替プロトコルは、雑音耐性状態の論理量子ビットを符号化する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:00 GMT)
SuperCode: Sustainability PER AI-driven CO-DEsign [0.0] 本稿では,ChatGPTのような大規模言語モデルを用いた汎用AI駆動型協調設計手法を提案する。
本稿では,2つの電波天文学的応用を用いて,サステナビリティを重要な性能指標として評価する方法について述べる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:54:33 GMT)
Spin and Density Modes in a Binary Fluid of Light [0.0] 光の超流動二成分混合系におけるスピンおよび密度モードの実験的観察について述べる。
レーザーの2つの円偏光成分を非直線熱原子蒸気を介して同軸限界に伝播させることにより、反発相互作用を有する可溶性ボース・ボース混合物を得る。
両偏光の強度と位相を制御することにより、混合の基本モードを選択的に励起することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:03 GMT)
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs [0.0] 本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応した命令チューニング言語モデル SmolTulu を提案する。
ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:41:36 GMT)
Slow measurement-only dynamics of entanglement in Pauli subsystem codes [0.0] サブシステム量子誤り訂正符号に基づく量子回路の非単位ダイナミクスについて検討する。
サブシステム符号の非局所安定化器生成器がサブシステム対称性の形式をとる回路を考える。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:15:48 GMT)
Separability Lindblad equation for dynamical open-system entanglement [0.0] 我々は、開量子系の動的絡み合いを明白に識別する、リンドブラッド形式の非線形量子マスター方程式の新しいクラスを提唱した。
この分離性リンドブラッド方程式は古典的相関状態のみに量子軌道を制限している。
我々の結果は、散逸によって絡み合った状態の工学をベンチマークすることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:08 GMT)
SecureNT: A Practical Framework for Efficient Topology Protection and Monitoring [0.0] ネットワークトモグラフィーはネットワーク監視と管理において重要な役割を果たしている。
トポロジー情報は、様々な推論アルゴリズムを用いてエンドツーエンドの測定によって推測することができる。
既存の保護手法は、エンドツーエンドの遅延測定を操作してトポロジ情報を確保しようとする。
本稿では,これらの制約に対処する新しいプライバシー保護フレームワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:07:40 GMT)
Role of quantum geometric tensor on wavepacket dynamics in two-dimensional non-Hermitian systems [0.0] 非ハーミティティーがQGTの定義にどのように影響するかを明らかにするために、2バンド非エルミティアン系におけるウェーブ・パケットのダイナミクスについて検討する。
この結果から, 右固有状態のみを用いて定義されたQGTと左固有状態と右固有状態の両方を用いて定義されたQGTの2つの異なる一般化が, 波束力学において重要な役割を担っていることが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:56:00 GMT)
Robust entanglement measure for mixed quantum states [0.0] 有限次元の二部混合状態に対するエンタングルメント測度 (Modified Bloch Norm)(MBN$) を導入する。
$MBN$は有界絡みの力学解析に有効であることが示されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:33:08 GMT)
Restricted Monte Carlo wave function method and Lindblad equation for identifying entangling open-quantum-system dynamics [0.0] 我々のアルゴリズムは、分離可能な状態の集合に対して接射影を行い、古典的に相関した量子軌道へと導かれる。
この方法を適用することは、2量子系に対する citePAH24 で導入されたリンドブラッド形式における非線形マスター方程式の解法と等価である。
開系における動的絡み合いの影響を,いくつかの相関崩壊過程に適用することにより同定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:05:34 GMT)
Reduction of unitary operators, quantum graphs and quantum channels [0.0] 有限次元複素ヒルベルト空間におけるユニタリ作用素が与えられたとき、その部分空間へのユニタリ還元が定義される。
量子グラフへの応用について論じる。
量子チャネルの減少も定義されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:27:47 GMT)
Reducing Popularity Influence by Addressing Position Bias [0.0] 位置偏差は,フィードバックループを通じて位置偏差によって引き起こされる項目の人気を効果的に低減できることを示す。
ユーザのエンゲージメントや財務指標を損なうことなく、位置偏りがアソシエーション利用を著しく改善できることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:16:37 GMT)
Reaching Van den Broeck limit in linear response and Whitney limit in nonlinear response in edge mode quantum thermoelectrics and refrigeration [0.0] 線形および非線形輸送状態の両方において、電圧温度プローブを用いて量子熱エンジンと量子冷凍機を提案する。
最大出力での効率は、QHとQSHの両方のセットアップにおいてVan den Broeck限界に近づいている。
これは初めて、同じ設定と量子点接触を用いて、線形および非線形応答における熱電効率の限界が達成されるのを見る。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:06:54 GMT)
Random Circuits in the Black Hole Interior [0.0] ブラックホール内部の虫穴の幾何学的長さとランダム性の顕微鏡的測定値との間には,定量的なホログラフィー的関係が認められた。
半古典的双対がアインシュタイン・ローゼン核子を含むブラックホールの状態のアンサンブルをランダム回路で作成する。
指数的に長い回路時間では、ERカタピラーのアンサンブルはブラックホールのランダムな状態の集まりと区別できない。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:00 GMT)
Quantum-enhanced belief propagation for LDPC decoding [0.0] 本稿では,信仰伝播の事前処理ステップとして機能する量子強調的信念伝播アルゴリズムを紹介する。
本研究は,症候群とコード長の相違パラメータを共用する可能性について検討する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:14:18 GMT)
Quantum-Cognitive Neural Networks: Assessing Confidence and Uncertainty with Human Decision-Making Simulations [0.0] 我々は最近提案された量子トンネルニューラルネットワーク(QT-NN)を用いて画像データセットを分類する。
以上の結果から,QT-NNモデルが人為的な意思決定を再現する可能性を示す可能性が示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:34:21 GMT)
Quantum theory for nonlinear optical effects in the ultra-strong light-matter coupling regime [0.0] 半導体量子井戸ヘテロ構造における非線形光学現象の微視的量子論を示す。
本研究では,高密度マイクロキャビティ結合電子系における非線形変換効率を最適化するための新しい設計原理を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:17:38 GMT)
Quantum speed limit in quantum sensing [0.0] 最適時間分解能は、基底状態間の変換に必要な最小時間を記述する量子速度制限(QSL)と密接に関連していることを示す。
ダイアモンド中の窒素空孔中心のスピン-1 クォートを例に、実践的な実装について議論する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:17:24 GMT)
Quantum nonlinear optics on the edge of a few-particle fractional quantum Hall fluid in a small lattice [0.0] 少数の量子ホール流体のエッジモードの時間依存性外部電位に応答する量子力学について検討した。
非線形キラルルッティンガー液体理論は,小さい格子であっても定量的に正確な説明を提供することを示した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:23:52 GMT)
Quantum Zeno Engines and Heat Pumps [0.0] 量子アディバティック変換を量子ゼノストロークに置き換えた量子エンジンと量子ヒートポンプの実装について検討する。
ショートカット・トゥ・アディバティティティ手法よりも高速に最適性能を実現することができることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:53:59 GMT)
Quadratic dispersion relations in gapless frustration-free systems [0.0] 隙間のないフラストレーションのないハミルトン多様体における低エネルギー励起の分散は、実際にはそのような系の一般的な性質である。
これは、フラストレーションフリーハミルトニアンにおいて線形に分散的な励起を持つギャップレス位相を実現するノーゴー定理として理解することができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:43:02 GMT)
Proposal for a Bell Test with Entangled Atoms of Different Mass [0.0] 異なる質量の運動量-絡み合った原子対を用いたベル実験を提案する。
絡み合いは衝突によって発生し、その後2つの独立した原子干渉計を用いて量子状態が操作される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:56:47 GMT)
Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0] バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:54:14 GMT)
Pose Estimation of Buried Deep-Sea Objects using 3D Vision Deep Learning Models [0.0] 本研究では,南カリフォルニアサンペドロ盆地の海底で発見された土砂場樽のポーズと埋没率の推定手法を提案する。
本研究では,バレル点雲から埋設したバレルの6-DOFポーズと半径を入力として推定するためのバレルネットを提案する。
我々は, 合成したバレル点雲を用いてバレルネットを訓練し, 遠隔操作車(ROV)ビデオ映像を用いて, 提案手法の可能性を定性的に実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:43:16 GMT)
Plentiful Jailbreaks with String Compositions [0.0] 大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクメソッドに対して脆弱なままである。
我々のチームは、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統合した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 03:23:44 GMT)
Physics Based Differentiable Rendering for Inverse Problems and Beyond [0.0] 物理ベースの微分可能レンダリング(PBDR)はコンピュータビジョン、グラフィックス、機械学習において効率的な方法となっている。
これらの能力により、自律的なナビゲーション、シーン再構築、材料設計など幅広い分野において、優れたレンダリングが採用されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:31:17 GMT)
Parity symmetry breaking of spin-$j$ coherent state superpositions in Gaussian noise channel [0.0] Wigner関数とWigner-Yanaseスキュー情報は、量子コヒーレンスを介して接続される。
スピン-1/2$の2つのスピンコヒーレント状態の重ね合わせにおけるパリティ対称性と非対称性を解析し、スピン-1/2$のスピンと一般的なスピン-j$のスピンについて解析する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:48:00 GMT)
Optimization of Quantum Measurements for Robustness Against Dark Counts: The $D$-Trace Optimality Framework [0.0] そこで我々は,新しい最適度基準(D$-traceOptimity,D$-traceOptimity)によって,暗カウントエラーに対処する新しいフレームワークを提案する。
この基準は、ハードウェアの代替に頼らずにダークカウントの影響を最小限に抑えるために量子測定を最適化することを目的としている。
その結果, ある条件下では, 量子通信システムの性能が向上することが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:09:35 GMT)
Optical Gottesman-Kitaev-Preskill Qubit Generation via Approximate Squeezed Coherent State Superposition Breeding [0.0] Gottesman-Kitaev-Preskill (GKP) 量子ビットは、異常な誤り訂正能力で知られており、量子コンピューティングにおいて非常に解明されている。
未検出モードにおける所望の状態を隠蔽する光子数分解検出器を用いて、絡み合った真空モードの一部を計測する計測に基づく手法が、その最小限のリソース要求により光GKP量子ビット生成の候補として浮上している。
一般化された光子サブトラクションによって生成される近似的圧縮コヒーレント状態重畳を育む手法は, 単一の高い確率ホモダイン測定で2つの光子数分解測定を補足することでこの問題を克服する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:24:15 GMT)
On the Bargmann invariants for quantum imaginarity [0.0] 量子論における虚構は、量子コヒーレンスを記述する上で重要な役割を果たす。
量子ビット系におけるバーグマン不変量の構造とその量子化について研究する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:05:06 GMT)
On improving generalization in a class of learning problems with the method of small parameters for weakly-controlled optimal gradient systems [0.0] 制御入力が非線形項の係数としてシステム力学に入力される弱制御勾配系の変分問題を考える。
摂動理論を用いて、最適化問題の列を解くことができる結果を提供する。
また、そのような近似最適解に対する収束率を推定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:50:29 GMT)
On best approximation by multivariate ridge functions with applications to generalized translation networks [0.0] 近似の順序は$n-r/(d-ell)$として振る舞うが、$r$はソボレフ関数の正則性である。
我々の下限は、正則$r$の$L1$のときにも成り立つが、上限は$Lp$-Sobolevの$Lp$の$Lq p leq infty$の近似に適用される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:16:16 GMT)
Numerical study of computational cost of maintaining adiabaticity for long paths [0.0] 最近の研究は、経路長の無次元量$Q_D$のスケーリングは、時間スケールよりも断熱性を維持するための計算コストのスケーリングのためのより良いプロキシであると主張した。
この予想は、数値的に研究できる単純なハミルトン系に対して成り立つことを実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:46:36 GMT)
Novel 3D Binary Indexed Tree for Volume Computation of 3D Reconstructed Models from Volumetric Data [0.0] 我々はCT(Computed tomography)やMR(Magnetic resonance)から得られたデータの内在体積を効率的に計算するアルゴリズムを開発した。
提案アルゴリズムは,Fenwickツリーを作成するための再構成アルゴリズムと同時に,スキャン行順でデータを処理し,クエリ時間をはるかに早くし,スライシングやトランスフォーメーションモデルのユーザ版を支援する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:29:53 GMT)
Navigating Ethical Challenges in Generative AI-Enhanced Research: The ETHICAL Framework for Responsible Generative AI Use [0.0] 生成人工知能(GenAI)の急速な普及は、機会と倫理的課題の両方を提示する。
本稿では、研究におけるGenAIの責任を負うための実践的ガイドであるETHICALフレームワークを開発する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:49:11 GMT)
Narrow optical linewidths in stoichiometric layered rare-earth crystals [0.0] 固体中の希土類エミッタは、効率的で長寿命の量子メモリを実装するのに適している。
層状偏光結晶材料に細い光線幅を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:40:21 GMT)
Multimodal Approaches to Fair Image Classification: An Ethical Perspective [0.0] この論文は、公正な画像分類モデルの開発における技術と倫理の交差を探求する。
私は、有害な人口統計バイアスに対処するために、複数のモダリティを使用する公平さと方法の改善に重点を置いている。
この研究は、画像データセットや分類アルゴリズムにおける既存のバイアスを批判的に検討し、これらのバイアスを緩和するための革新的な方法を提案し、そのようなシステムを現実のシナリオに展開する際の倫理的影響を評価する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:58:31 GMT)
Monitored fermions with conserved $\mathrm{U}(1)$ charge [0.0] U(1)対称性を持つ自由フェルミオン系の測定誘起相について検討した。
広い空間と時間スケールにおける純度と二分性絡み合いの場の理論記述を導出する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:41:55 GMT)
Minimizing resource overhead in fusion-based quantum computation using hybrid spin-photon devices [0.0] 核融合型量子コンピューティングのための(2,2)-Shor符号化6環フォトニックリソース状態を構築するための3つのスキームを提案する。
核融合型量子計算において、最もよく知られた損失許容しきい値を達成する能力を分析して、これらのアーキテクチャをベンチマークする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:34:53 GMT)
Metric as Emergence of Hilbert Space [0.0] 時空と距離場の曖昧さを基本的な概念として説明する。
量子加速演算子(QAO)と呼ばれる加速の量子として演算子を構築する。
このアプローチでは、これらの概念は構築されたQAOを通してヒルベルト空間から現れる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:33:47 GMT)
MT3DNet: Multi-Task learning Network for 3D Surgical Scene Reconstruction [0.0] 画像支援最小侵襲手術(MIS)では,手術シーンの理解が外科医へのリアルタイムフィードバックに不可欠である。
この課題は、高解像度の画像で描かれた手術シーンの深さを正確に検出し、セグメンテーションし、推定することにある。
これらのタスクを同時に実行するために,Multi-Task Learning (MTL) ネットワークを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:06:05 GMT)
Local-to-Global Self-Supervised Representation Learning for Diabetic Retinopathy Grading [0.0] 本研究では,自己指導型学習と知識蒸留を用いた新しいハイブリッド学習モデルを提案する。
我々のアルゴリズムでは、自己教師型学習および知識蒸留モデルの中で初めて、テストデータセットがトレーニングデータセットよりも50%大きい。
類似の最先端モデルと比較すると,より高精度で効率的な表現空間が得られた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:55:10 GMT)
Lectures in Quantum Gravity [0.0] この講義ノート集は、ノルディタのPh.D.スクール「量子重力」で6つのミニコースで取り上げられたトピックの選考を含んでいる。
その範囲は、その基礎から最前線の研究まで、異なる領域間のつながりを強調する、一貫性のある図を提供することであった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:00 GMT)
Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0] 本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:11:41 GMT)
KANQAS: Kolmogorov-Arnold Network for Quantum Architecture Search [0.0] 我々は量子探索(QAS)アルゴリズムでKAN(Kolmogorov-Arnold Network)を用いて、量子状態の準備と量子化学のタスクにおける効率を解析する。
量子状態調製では、ノイズのないシナリオでは、成功確率はロバストネスの2倍から5倍であることを示す。
量子化学問題に対処するため,最近提案されたQASアルゴリズムを,KAN構造とカリキュラム強化学習を統合して拡張する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:52:39 GMT)
Intelligent Electric Power Steering: Artificial Intelligence Integration Enhances Vehicle Safety and Performance [0.0] 電動パワーステアリング(EPS)システムは、電動モーターを使用して車両のステアリングを支援する。
本稿では,人工知能(AI)と電力ステアリング(EPS)システムの統合について説明する。
レーン制御(LCC)、自動駐車システム(Automated Parking Systems)、自律走行ステアリング(Autonomous Vehicle Steering)など、EPSにおけるAI応用のケーススタディ。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:41:51 GMT)
Improving Active Learning with a Bayesian Representation of Epistemic Uncertainty [0.0] アクティブラーニングの一般的な戦略は、特にてんかんの不確実性の減少を目標にすることである。
この組み合わせが、望ましい特性を持つ新しいアクティブな学習戦略にどのように結びつくかを示す。
非自明な設定でこれらの戦略の効率性を示すために、確率的ガウス過程(GP)の概念を導入する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:19:20 GMT)
Holographic dual of Bures metric and subregion complexity [0.0] ホログラフィック共形場理論の密度行列の減少に対する計算複雑性は、双対重力理論における幾何観測可能量と関連していると推測されている。
2次元CFTにおける真空の後続状態の単一間隔に付随する混合状態のこの複雑性測定を計算した。
我々は、真空の摂動的に小さな変換に対して、バーズ計量複雑性尺度と複雑性=体積'のパラダイム内のホログラフィック部分領域複雑性を比較した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:01 GMT)
High Dimensional Quantum Eavesdropping: A Hypothetical Attack on BB84 & SSP [0.0] 本稿では,共有鍵の誤り解析により検出できない新たな攻撃戦略を開発し,検討する。
与えられた量子鍵分布アルゴリズムで可能な全ての状態にまたがる次元の粒子を測定することで、測定された粒子の崩壊状態は検出不可能である。
これらのシミュレーションの結果、この攻撃の効率が示され、各アルゴリズムの量子ビット誤り率解析により、盗聴器は検出できない。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:52:05 GMT)
Gordon decomposition of the magnetizability of a Dirac one-electron atom in an arbitrary discrete energy state [0.0] この研究は、選択された水素様イオンの励起状態が1leqslant Z leqslant 137$に対して$chi_d$と$chi_p$の数値が得られた最近の論文の序文である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:57:54 GMT)
Goetterfunke: Creativity in Machinae Sapiens. About the Qualitative Shift in Generative AI with a Focus on Text-To-Image [0.0] 人間とAIのコラボレーションでは、コンピューターはツール以上のものになったようだ。
この記事では、現在の機械学習パラダイムにおけるコンピュータにおける創造性の可能性について述べる。
技術の背後にある重要な概念と、この質的な変化に寄与したイノベーションについて概説している。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 23:03:28 GMT)
Geometry of fibers of the multiplication map of deep linear neural networks [0.0] 固定行列に乗算する構成可能な行列のクイバーの集合の幾何学について検討する。
我々の解は、同変コホモロジーにおけるポアンカー級数、二次整数プログラム、明示的な公式の3つの形式で表される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:56:00 GMT)
Geometric Deformation of Quantum Mechanics [0.0] 無限次元 K アーラー多様体 $cal M$ を導入し、状態多様体と呼ぶ。
このアプローチでは、量子系の状態は余接バンドル$T*cal M$の点によって記述される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:21:57 GMT)
GenPlan: Generative sequence models as adaptive planners [0.0] マルチタスクのミッションにおける意思決定は依然として重大な課題を呈している。
エージェントは、報酬機能を通じて学んだ1つのタスク以上の適応に失敗します。
エージェントは、トレーニングデモでカバーされていない新しい環境に一般化できない。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:32:33 GMT)
FuzzDistill: Intelligent Fuzzing Target Selection using Compile-Time Analysis and Machine Learning [0.0] FuzzDistillは、コンパイル時のデータと機械学習を利用してファジィングターゲットを洗練するアプローチです。
実世界のソフトウェアで実施した実験を通じて,私のアプローチの有効性を実証し,テスト時間の大幅な短縮を実証した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:55:58 GMT)
Fundamental bounds on many-body spin cluster intensities [0.0] 多重量子コヒーレンス分光法(MQC)はスピンクラスターを探索する強力な手法である。
以前の実験では、コヒーレンス秩序が増大するにつれて、MQCの強度が急速に低下することが判明した。
弱偏極限界外の熱力学限界における観測可能なMQC強度の基本的な境界を確立する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 22:02:46 GMT)
From communities to interpretable network and word embedding: an unified approach [0.0] グラフ埋め込みは、ベクトル化された特徴空間におけるネットワークの相互作用とトポロジを要約する強力なツールである。
本稿では,ネットワーク頂点を解釈可能なベクトル空間に効率的に埋め込む新しいフレームワークを提案する。
SINr-MF は古典グラフでよく機能し、SINr-NR は高速なグラフや単語の埋め込みを生成できる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 08:27:25 GMT)
Fast Laplace transforms on quantum computers [0.0] 我々はQuantum Laplace Transform (QLT)を導入し、$lceil log_2(N)rceil$-qubitsで符号化された量子状態上の$Ntimes N$離散Laplace変換の実装を可能にする。
多くの場合、関連する量子回路は、$N$を$O(log(N))$としてスケールする深さを持ち、$O(log(N))$としてスケールする大きさを持ち、指数関数的に少ない演算と、古典的な演算よりも双指数的に少ない計算時間を必要とする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:11:49 GMT)
Fair Primal Dual Splitting Method for Image Inverse Problems [0.0] 本稿では,このスムーズな項を主部分プロブレムと二重部分プロブレムに組み込む,公平な原始双対アルゴリズムフレームワークを提案する。
画像復調と超分解能再構成の実験により,提案手法が現状よりも優れていることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:36:35 GMT)
FLRONet: Deep Operator Learning for High-Fidelity Fluid Flow Field Reconstruction from Sparse Sensor Measurements [0.0] FLRONetは、空間と時間におけるスパースセンサー測定からフルステートフローフィールドを再構築するために設計された、新しい演算子学習フレームワークである。
FLRONetは真の演算子を近似する際の優れた性能を実現し、高忠実度離散化においてかなり高速な推論を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:28:48 GMT)
Exact quantization of nonreciprocal quasi-lumped electrical networks [0.0] 本稿では、非線形で非相反的な準ランプ型電気ネットワークの正準量子化可能なハミルトン記述を得るための正確な方法を提案する。
我々は、一般準ループ要素ネットワークのハミルトン的記述を求める際に生じる特異点を同定し、分類する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:23:11 GMT)
Exact Algorithms for Multiagent Path Finding with Communication Constraints on Tree-Like Structures [0.0] パラメータ化複雑性フレームワークを用いて,通信制約問題を用いたマルチエージェントパス探索について検討する。
我々の主な貢献は、入力ネットワークの特定の構造を考える際に効率的である3つの正確なアルゴリズムである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:17:31 GMT)
Ensemble-Based Quantum-Token Protocol Benchmarked on IBM Quantum Processors [0.0] 量子トークンは、例えば銀行によって発行される量子状態に、制限不能な認証キーを格納することを想定している。
本稿では,アンサンブルベースの量子トークンプロトコルを提案する。
カスタムアンサンブルベースのキュービットでプロトコルをベンチマークするために,グラフィカルなユーザインターフェースを備えたオープンソースツールを提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:39:39 GMT)
Enhancing Cybersecurity in IoT Networks: A Deep Learning Approach to Anomaly Detection [0.0] インターネットやスマートデバイスの普及は、サイバー犯罪の増加につながっている。
本稿では,IoTネットワークにおけるサイバー犯罪と戦う上で重要な戦略であるLSTMとアテンションメカニズムを取り入れたディープラーニングモデルを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:31:05 GMT)
Enhanced Facial Feature Extraction and Recignation Using Optimal Fully Dispersed Haar-like Filters [0.0] 本稿では,顔の特徴抽出と再帰性を高めるために,完全分散Haarライクなフィルタを最適に同定するアルゴリズムを提案する。
従来のHaarライクなフィルターとは異なり、これらの新しいフィルターはピクセルを画像内に自由に移動させ、複雑な局所的な特徴をより効果的に捉えることができる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 17:09:02 GMT)
Engineering propagating cat states with driving-assisted cavity QED [0.0] 時間変調駆動はエミッターを刺激し、4LSに絡み合ったコヒーレントな状態の重畳を生成する。
その最適値は、状態の伝播のための他の世代の方法と同様に定式化されている。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 02:12:34 GMT)
Engineering of self-bending surface plasmon polaritons through Hermite-Gaussian mode expansion [0.0] 表面プラズモン分極は、フォトニクスやナノテクノロジーといった分野において過去数十年間、多くの注目を集めてきた。
ここでは、新しいタイプの多軸表面プラズモンビームの設計に適した新しい理論枠組みを導入する。
本研究では,エアリー系表面プラズモン偏光子を空気-銀界面に沿って伝搬させることを考慮し,その実現可能性の数値的証拠を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:01 GMT)
Effective description of open quantum dynamics in relativistic scattering [0.0] 相対論的散乱における量子粒子の開力学について検討した。
Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) 粒子の進化を記述する。
$phi phi rightarrow chi chi$に付随するGKSLジェネレータは、初期モータのローレンツ不変の機能によって特徴づけられる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:17:46 GMT)
EQB: Synthesizing Permutative Quantum Gates and Circuits Using Rotation-Based Group Decomposition [0.0] ササオとサラヴァノフの群論に基づく方法からの分解は、二項量子カスケードを設計するために拡張される。
局所変換のクラスも、最終標準カスケード回路を単純化するために提示される。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:53:10 GMT)
Dynamically corrected gates in silicon singlet-triplet spin qubits [0.0] 我々はSi/SiGe二重量子ドットで実現されたシングルトリップキュービットにおける超微細ノイズを軽減するために設計された補正ゲートを実験的に実装した。
修正されたゲートは不忠実度を約3倍に減らし、その結果、アイデンティティとアダマールゲートの両方で0.99以上となる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:11:40 GMT)
Der Effizienz- und Intelligenzbegriff in der Lexikographie und kuenstlichen Intelligenz: kann ChatGPT die lexikographische Textsorte nachbilden? [0.0] 本稿では,レキシコグラフィーと人工知能,AIにおける効率性と知性の概念について検討する。
本実験の目的は,語彙的テキストタイプ,辞書的記事について,経験的,統計的に考察することである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:18:07 GMT)
Demonstration of Enhanced Qubit Readout via Reinforcement Learning [0.0] モデルフリー強化学習(RL)と調整された学習環境を併用し、この多目的最適化タスクを実現する。
我々は、RLエージェントが取得した測定パルスが最先端の性能を達成することを、IBM量子デバイス上で実証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 04:19:26 GMT)
Decoding Poultry Vocalizations -- Natural Language Processing and Transformer Models for Semantic and Emotional Analysis [0.0] ニワトリの音響言語を解読することは、動物福祉と生態情報学に新たな機会をもたらす。
生物音響データを意味のある知見に変換するために,高度な自然言語処理とトランスフォーマーベースモデルを適用した。
このパイプラインは、養鶏の発声を、遭難コール、給餌信号、交尾発声を含む解釈可能なカテゴリにデコードする。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 06:44:32 GMT)
Compression of Higher Order Ambisonics with Multichannel RVQGAN [0.0] RVQGANニューラルコーディング法のマルチチャネル拡張を提案し,3次Ambisonics音声のデータ駆動圧縮を実現する。
このモデルには、他のタイプのコンテンツやマルチチャネルフォーマットを学ぶための潜在的な応用がある。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:34:25 GMT)
Comparative Opinion Mining in Product Reviews: Multi-perspective Prompt-based Learning [0.0] 比較クインタプル抽出(COQE)は、テキスト中の5つの重要なコンポーネントを特定することを目的としている。
製品レビューから正確な比較情報を抽出することは、ニュアンス付き言語と従来の手法におけるシーケンシャルなタスクエラーのために困難である。
我々は,COQE用に設計されたエンドツーエンドモデルであるMPP-COQEを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:18:52 GMT)
Commercial CMOS Process for Quantum Computing: Quantum Dots and Charge Sensing in a 22 nm Fully Depleted Silicon-on-Insulator Process [0.0] 産業標準シリコンオン絶縁体CMOS構造のチャネルに形成された量子ドットに電子や穴を閉じ込めることは、スケーラブルな量子ビットアーキテクチャへの有望なアプローチである。
我々は,GlobalFoundries 22FDX(TM)産業プロセスを用いて製造した市販ナノ構造の計測結果を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:41:55 GMT)
Comments on: RIO: Return Instruction Obfuscation for Bare-Metal IoT Devices with Binary Analysis [0.0] RIOはリターン命令を暗号化することでリターン指向プログラミング攻撃のためのガジェットを見つけるのを防ぐ。
本稿では,復号化せずに容易に復号命令を検索できるRIOの設計上の欠陥を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:10:23 GMT)
CodoMo: Python Model Checking to Integrate Agile Verification Process of Computer Vision Systems [0.0] CodoMo: pyModelChecking用のPythonコードからモデルジェネレータ
このツールは、AST静的アナライザとConcolicテストツールによるPythonコードの、pyModelCheckingによる検証に適した中間モデルへの変換を自動化する。
我々はジェスチャベースの画像処理インタフェースを用いたTello Droneプログラムの検証に成功した。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:29:30 GMT)
Charge and Flux Noise from Nonequilibrium Quasiparticle Energy Distributions in Superconducting Qubits and Resonators [0.0] ジョセフソン接合を横切る過剰な準粒子のトンネルは超伝導量子ビットにおける主要な損失とデコヒーレンス機構の1つとして認識されている。
非平衡準粒子密度から生じる損失機構を新たに提案する: 接合部から超伝導線上に存在する準粒子によるオーミック損失。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 21:44:20 GMT)
Can Schroedingerist Wavefunction Physics Explain Brownian Motion? III: A One-Dimensional Heavy and Light Particles Model Exhibiting Brownian-Motion-Like Trajectories and Diffusion [0.0] 有限級数を与え、BML軌道と拡散の基準を満たす一次元摂動モデルを導入する。
プランク定数は拡散係数に現れ、これは前世紀におけるポインケアとアインシュタインの研究と現在の理論をさらに区別するものである。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 20:30:47 GMT)
Calibration of syndrome measurements in a single experiment [0.0] 付加的なノイズ源を考慮したシンドローム統計を得るための校正法について述べる。
本手法の雑音推定と誤り訂正への応用例を示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 12:14:45 GMT)
Bounding Large-Scale Bell Inequalities [0.0] ベルの不等式は非局所性を研究するための重要なツールであるが、システムのサイズが大きくなるにつれてすぐに計算的に難解になる。
本研究では,NPA階層,投影の交互化法,メモリ効率のアルゴリズムL-BFGSを組み合わせることで,そのような不等式に対する量子的違反の上限を求める新しい手法を提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:45:15 GMT)
Bootstrapping time-evolution in quantum mechanics [0.0] 本稿では、任意の初期状態から量子力学系の時間進化に基づく厳密な境界の階層を得る方法を提案する。
階層内の任意の固定レベルに対して、境界は短い時間進化の後に最も厳密であり、時間とともに徐々に緩める。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 19:00:04 GMT)
Bell's inequality in relativistic Quantum Field Theory [0.0] 相対論的量子場理論におけるベルの不等式の簡潔かつ自己完結な導入について述べる。
実スカラーの質量場を例に、真空状態におけるベルの不等式と因果相補的くさびに対する違反を例証する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 10:35:06 GMT)
Axiomatic approach to measures of total correlations [0.0] 相関は科学の様々な分野、特に量子力学において重要な役割を果たす。
我々は、量子相互情報は完全な相関の有効な尺度であり続けていると論じる。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 01:02:51 GMT)
Atomic-optical interferometry in fractured loops: a general solution for Rydberg radio frequency receivers [0.0] 新しい高周波原子受信機は、原子-光相互作用の理論的な記述に注意を向ける。
非平衡定常状態のフーリエ展開に対する我々のアプローチを基礎として、そのようなシステムをモデル化する手法を提案する。
我々は、この原子検出器の動作を記述する境界パラメータを得るRydberg超ヘテロダイン受信機の完全な記述を提供する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:12:18 GMT)
Asymptotically good CSS-T codes exist [0.0] 任意のCSSコードからCSS-Tコードを生成するためのバイナリ量子コードの構築について述べる。
同じ結果が二項量子低密度パリティのCSS-T符号に対して成り立つことを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 18:03:58 GMT)
Assisted morbidity coding: the SISCO.web use case for identifying the main diagnosis in Hospital Discharge Records [0.0] 本論文は, 病院退院記録に適切な診断・手続きコードで記入する医師を支援するためのSISCO.webアプローチを提案することを目的とする。
このWebサービスは、NLPアルゴリズム、特定のコーディングルール、およびアドホック決定ツリーを活用して、主条件を特定する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 16:08:25 GMT)
An Overview of the Decentralized Reconfiguration Language Concerto-D through its Maude Formalization [0.0] モーデ形式化による分散化再構成言語 Concerto-D の概要を提案する。
Concerto-Dは関連する作業と比較して2つのパラメータを改善している。
私たちはMaude形式仕様言語に依存しています。これはロジックの書き直しに基づいており、結果として並列モデルを記述するのに完全に適しています。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 09:31:40 GMT)
Agency and Morality as part of Text Entry AI Assistant Personas [0.0] 本稿では,ユーザの直接制御の下で,テキスト合成AIアシスタントのインストゥルメンタルビューから遠ざかる必要性について論じる。
コンピュータによるコミュニケーションにおけるAI支援の道徳的側面の分析に基づいて,エージェントのペルソナを設計するための基本的ガイドラインを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 13:06:24 GMT)
Accurate Prediction of Temperature Indicators in Eastern China Using a Multi-Scale CNN-LSTM-Attention model [0.0] マルチスケールの畳み込み型CNN-LSTM-Attentionアーキテクチャに基づく天気予報モデルを提案する。
このモデルは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)ネットワーク、およびアテンションメカニズムを統合している。
実験結果から, モデルが高精度に温度変動を予測できることが示唆された。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 00:42:31 GMT)
ADAPT-QSCI: Adaptive Construction of an Input State for Quantum-Selected Configuration Interaction [0.0] 量子多体ハミルトンの基底状態とそのエネルギーを計算するための量子古典ハイブリッドアルゴリズムを提案する。
本手法は, ADAPT-QSCIと呼ばれ, 小分子に対して正確な基底状態エネルギーが得られることを示す。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 05:17:27 GMT)
A Unified Model For Voice and Accent Conversion In Speech and Singing using Self-Supervised Learning and Feature Extraction [0.0] 本稿では,話し声と歌声の両方を変換できる新しい音声変換モデルを提案する。
このモデルの特長の1つは、ハイブリッド音声サンプルでアクセント変換を行う能力である。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:47:39 GMT)
A Robust Clustering Framework Combining Minimum Description Length and Genetic Optimization [0.0] 本稿では,最小記述長(MDL)原理と遺伝的最適化アルゴリズムを組み合わせた新しいクラスタリングフレームワークを提案する。
このアプローチは、ベースラインとしてアンサンブルクラスタリングソリューションから始まり、MDLに基づく評価関数を使用して洗練され、遺伝的アルゴリズムで最適化される。
その結果、この手法は従来のクラスタリングアルゴリズムを一貫して上回り、高い精度、高い安定性、バイアスの低減を実現していることがわかった。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 14:26:35 GMT)
A Review of Intelligent Device Fault Diagnosis Technologies Based on Machine Vision [0.0] 本稿ではトランスフォーマーの構造,動作原理,メリット,特に自己注意機構と並列計算機能について詳述する。
ViT(Vision Transformer)やその拡張など、視覚タスクの精度と効率を改善するために自己認識を活用する重要なTransformerモデルの亜種を強調している。
これらの進歩にもかかわらず、広範なラベル付きデータセットへの依存、重要な計算要求、リソース制限されたデバイスにモデルをデプロイすることの難しさなど、課題は残る。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 07:06:53 GMT)
A History Equivalence Algorithm for Dynamic Process Migration [0.0] 本稿では、履歴等価性と呼ばれるトレイルベースの一貫性モデルを用いて、古いワークフローから新しいワークフローへの状態の同値写像を求めるアルゴリズムを提案する。
このアルゴリズムは、マイグレーション中のプロセスの到達可能性グラフにおいて、すべての緩和可能な状態に対する履歴相当のマッピングを求める。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 11:50:41 GMT)
A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis [0.0] マルチモーダル・アスペクトベース感覚分析(MABSA)は、テキストと画像を組み合わせて感情分析を行う。
既存の手法は、文像のデノイズ化またはアスペクト像のデノイズ化に対処するが、どちらの種類のノイズにも対処できない。
本稿では,Hybrid Curriculum Denoising Module (HCD)とAspect-Enhance Denoising Module (AED)の2つの異なるコンポーネントからなる新しいアプローチであるDualDeを提案する。
論文参考訳(メタデータ) (Wed, 11 Dec 2024 15:53:13 GMT)