The Llama 3 Herd of Models [356.6] 本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。
Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。
Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:27:33 GMT)
Linear Adversarial Concept Erasure [108.4] 与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:06:05 GMT)
LaVin-DiT: Large Vision Diffusion Transformer [100.0] LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:10:24 GMT)
SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.9] セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。
我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:06:35 GMT)
Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.4] 本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:13:38 GMT)
Aligning Generalisation Between Humans and Machines [74.1] 近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。
AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:36:07 GMT)
Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.3] 既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:24:47 GMT)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.2] Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:20:32 GMT)
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.2] 既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:10:32 GMT)
SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning [65.4] SnapMemは、新しいスナップショットベースのシーン表現で、エンボディエージェントの3Dシーンメモリとして機能する。
調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:57:43 GMT)
Decision Making with Differential Privacy under a Fairness Lens [65.2] アメリカ国勢調査局は、多くの重要な意思決定プロセスの入力として使用される個人のグループに関するデータセットと統計を公表している。
プライバシと機密性要件に従うために、これらの機関は、しばしば、プライバシを保存するバージョンのデータを公開する必要がある。
本稿では,差分的プライベートデータセットのリリースについて検討し,公平性の観点から重要な資源配分タスクに与える影響を考察する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:34:43 GMT)
Counterfactual Generation from Language Models [64.6] 対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:00:34 GMT)
MIN: Multi-channel Interaction Network for Drug-Target Interaction with Protein Distillation [64.5] マルチチャネルインタラクションネットワーク(MIN)はドラッグ・ターゲット・インタラクション(DTI)を予測するための新しいフレームワークである
MINには、表現学習モジュールとマルチチャネルインタラクションモジュールが組み込まれている。
MINはDTI予測の強力なツールであるだけでなく、タンパク質結合部位の予測に関する新たな洞察も提供する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:38:36 GMT)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.1] 本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:11:42 GMT)
Efficient Diffusion Model for Image Restoration by Residual Shifting [63.0] 本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:47:29 GMT)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.6] GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:06:06 GMT)
Dynamic 3D Gaussian Fields for Urban Areas [60.6] 大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。
本研究では,大規模都市にスケールするニューラルネットワークシーン表現である4DGFを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:09:50 GMT)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.5] Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:44:00 GMT)
Hierarchical Cross-Attention Network for Virtual Try-On [59.5] 我々は,仮想試行課題に対する革新的な解決策を提示する:我々の小説HCANet(Hierarchical Cross-Attention Network)
HCANetは、幾何学的マッチングと試行という2つの主要なステージで作られており、それぞれが現実的な仮想試行の結果を提供する上で重要な役割を果たす。
HCANetの重要な特徴は、新しい階層的クロスアテンション(HCA)ブロックを両方のステージに組み込むことで、個人と衣服のモダリティ間の長距離相関を効果的に捉えることができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:39:58 GMT)
EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.5] 現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:09:58 GMT)
Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.5] 我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:37:21 GMT)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.2] OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:53:08 GMT)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.2] 継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:36:16 GMT)
A Distance Similarity-based Genetic Optimization Algorithm for Satellite Ground Network Planning Considering Feeding Mode [53.7] 衛星データ中継ミッションの送信効率の低さは、現在システムの構築を制約している問題となっている。
本研究では,タスク間の状態特性を考慮した距離類似性に基づく遺伝的最適化アルゴリズム(DSGA)を提案し,タスク間の類似性を決定するための重み付きユークリッド距離法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:08:06 GMT)
VLP: Vision Language Planning for Autonomous Driving [52.6] 本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:49:18 GMT)
FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge [52.6] 既存の方法は、通常、空間領域で実際の顔と偽の顔とを混ぜ合わせて合成偽の顔を生成する。
本稿では,周波数知識をブレンドして擬似フェイク顔を生成する新しい手法であるem FreqBlenderを紹介する。
実験により,DeepFake検出の高速化に本手法の有効性が示され,他の手法のプラグ・アンド・プレイ戦略の可能性が確認された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:30:48 GMT)
A Concept-Based Explainability Framework for Large Multimodal Models [52.4] 本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:27:07 GMT)
Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.9] 本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:30:08 GMT)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.4] 我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:26:52 GMT)
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.6] 拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:38:51 GMT)
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers [47.2] GIFTは、視覚分類器に対するポストホック、グローバル、解釈可能、忠実なテキスト説明を導出するためのフレームワークである。
私たちのコード、データ、モデルはhttps://github.com/valeoai/GIFT.comでリリースされます。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:52:22 GMT)
Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly [45.0] 本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。
本稿では,格子型ボクセル部品を個別に組立てることで,生成AI出力を物理的生産に利用することの課題に対処することを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:59:27 GMT)
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator [44.6] ディプチッチ・プロンプティング(Diptych Prompting)は、被写体を正確にアライメントした塗装タスクとして再解釈する、新しいゼロショットアプローチである。
提案手法は主観的画像生成だけでなく, 主観的画像生成と主観的画像編集もサポートする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:17:43 GMT)
AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation [43.6] リモートセンシング画像オブジェクト検出(RSIOD)は、衛星や空中画像内の特定の物体を特定し、特定することを目的としている。
現在のRSIODデータセットにはラベル付きデータが不足しており、現在の検出アルゴリズムのパフォーマンスを著しく制限している。
本稿では,RSIODに適したレイアウト制御可能な拡散生成モデル(AeroGen)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:04:33 GMT)
Towards Satellite Image Road Graph Extraction: A Global-Scale Dataset and A Novel Method [42.4] 我々は,グローバルスケールの衛星道路グラフ抽出データセット,すなわちグローバルスケールデータセットを収集する。
ノード誘導再サンプリング方式を採用した新しい道路グラフ抽出モデルであるSAM-Road++を開発した。
実験では,収集したGlobal-ScaleデータセットとSAM-Road++法の有効性を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:26:07 GMT)
Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation [42.1] 急性虚血性脳梗塞(AIS)は、時間的クリティカルな管理を必要とし、数時間の介入が遅れて、患者の不可逆的な障害につながる。
磁気共鳴画像(MRI)を用いた拡散強調画像(DWI)はAISの検出において重要な役割を担っているため,DWIからのAISの自動予測は臨床的に重要な課題となっている。
画像所見から最も関連性の高い臨床情報を含むテキストラジオグラフィー報告では, 従来のDWI-to-report 生成法では, 異なるモダリティのマッピングが困難であった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:18:55 GMT)
Importance-based Token Merging for Diffusion Models [41.9] 拡散モデルは高品質の画像とビデオ生成において優れている。
それらを高速化する強力な方法は、より高速な計算のために類似のトークンをマージすることだ。
マージ時に重要なトークンを保存することは,サンプルの品質を著しく向上させることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:01:49 GMT)
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.6] 本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。
評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。
DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:18:33 GMT)
Efficient Lifelong Model Evaluation in an Era of Rapid Progress [40.6] S&S(Sort & Search, S&S)は, 動的プログラミングアルゴリズムを利用して, テストサンプルのランク付けとサブセレクションを行う。
S&Sは高い効率の近似精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間に削減し、近似誤差が低く、メモリコストは100MBである。
我々の研究は、現在の精度予測指標の問題を強調し、サンプルレベルの評価指標に移行する必要性を示唆している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:30:55 GMT)
Implicit High-Order Moment Tensor Estimation and Learning Latent Variable Models [39.3] 潜在変数モデル学習の課題について検討する。
このような応用により、暗黙のモーメント計算のための一般化されたアルゴリズムを開発した。
一般的なアルゴリズムを利用して, 以下のモデルに対する初等学習者を得る。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:13:24 GMT)
Data Augmentation for Supervised Graph Outlier Detection via Latent Diffusion Models [39.3] 本稿では,教師付きグラフ外乱検出におけるクラス不均衡を緩和する新しいデータ拡張であるGODMを紹介する。
複数のデータセットに対して行われた大規模な実験は、GODMの有効性と効率を裏付けるものである。
GODMをプラグイン・アンド・プレイパッケージにカプセル化し,PyPIでリリースする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:06:32 GMT)
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.9] 本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:23:27 GMT)
A Novel Plug-and-Play Approach for Adversarially Robust Generalization [38.7] 本稿では,MLモデルを摂動テストデータから保護するために,逆向きに堅牢なトレーニングを採用する頑健なフレームワークを提案する。
私たちの貢献は、計算学と統計学の両方の観点から見ることができます。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:04:41 GMT)
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.5] LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:03:32 GMT)
Block Modulating Video Compression: An Ultra Low Complexity Image Compression Encoder for Resource Limited Platforms [35.8] 省電力・計算資源の少ないモバイルプラットフォーム上で, BMVCの超低コスト化が提案されている。
ディープニューラルネットワークによって実装された2種類のBMVCデコーダを提示する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:06:05 GMT)
Practical and Asymptotically Exact Conditional Sampling in Diffusion Models [35.7] 条件生成法では,タスク固有の訓練を必要とせず,幅広い条件分布の正確なサンプルを提供する必要がある。
重み付き粒子の集合をシミュレートすることで拡散モデルの条件分布をターゲットとした逐次モンテカルロアルゴリズムであるTwisted Diffusion Sampler(TDS)を導入する。
ベンチマークテストケースでは、TDSはフレキシブルなコンディショニング基準を可能にし、多くの場合、最先端の技術よりも優れています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:09:14 GMT)
Efficient Wireless Federated Learning via Low-Rank Gradient Factorization [34.5] オーバー・ザ・エア・ローランク圧縮(Ota-LC)と呼ばれる新しいプロトコルは、計算コストが低く、通信オーバヘッドが低いことを示す。
例えば、Cifar-10データセットでテスト精度の70%を目標とする場合、Ota-LCはベンチマーク方式と比較して、通信コストを少なくとも33%削減する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:56:34 GMT)
SPRINT Enables Interpretable and Ultra-Fast Virtual Screening against Thousands of Proteomes [34.0] SPRINTは、DTIのための全プロテオームと新しい作用機構に対して、全ての化学ライブラリーをスクリーニングするためのベクトルベースのアプローチである。
SPRINTは正確かつ解釈可能なだけでなく、超高速で、ENAMINE Real Databaseに対してヒトのプロテオーム全体を問い合わせるのに16分かかります。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:39:27 GMT)
A GAN Approach for Node Embedding in Heterogeneous Graphs Using Subgraph Sampling [33.5] 本稿では,グラフニューラルネットワーク (GNN) とGAN (Generative Adrial Network) を組み合わせた新しいフレームワークを提案する。
このフレームワークには高度なエッジ生成と選択モジュールが含まれており、合成ノードとエッジを同時に生成することができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:46:18 GMT)
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents [32.0] 大規模マルチモーダルモデル (LMM) は視覚言語理解において顕著な進歩を遂げた。
それらは、多数の画像に対して複雑な推論を必要とする現実世界のアプリケーションにおいて制限に直面している。
我々はDocHaystackとInfoHaystackという2つの文書ハイスタックベンチマークを導入し、大規模ビジュアル文書検索と理解においてLMMの性能を評価する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:14:42 GMT)
Trans-Glasso: A Transfer Learning Approach to Precision Matrix Estimation [30.8] 精度行列推定のための2段階変換学習法であるTrans-Glassoを提案する。
本研究では,Trans-Glassoが特定の条件下での最小最適性を実現することを示す。
我々はTrans-Glassoを様々ながんサブタイプのための脳組織およびタンパク質ネットワークにまたがる遺伝子ネットワークに適用する際の有効性を検証する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:30:56 GMT)
SilentWood: Private Inference Over Gradient-Boosting Decision Forests [30.6] 我々は,高度にスケーラブルな勾配ブースト決定林のための,最初のプライベート推論プロトコルを提案する。
我々のプロトコルの推論時間は、プロトコルを実行する並列のベースラインよりも高速である。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:27:08 GMT)
Policy-Gradient Training of Language Models for Ranking [29.9] テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。
現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。
我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:00:51 GMT)
LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery [29.8] 我々は,ロボットが新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムであるLOTUSを紹介する。
継続的なスキル発見は、既存のスキルを更新して、以前のタスクを忘れないようにし、新しいタスクを解決するための新しいスキルを追加する。
総合的な実験の結果、LOTUSは最先端のベースラインを11%以上の成功率で上回っていることがわかった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:28:06 GMT)
Enhancing the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters Augmentation [29.5] 顔認識(FR)モデルは、良質な顔画像を微妙に操作する敵の例に対して脆弱である。
既存の敵攻撃法は、サロゲートモデルを増強する潜在的な利点を見落としていることが多い。
本稿では,DPA攻撃法(Diverse Parameters Augmentation)と呼ばれる新しい手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:22:37 GMT)
What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.4] Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:40:25 GMT)
BridgeNet: Comprehensive and Effective Feature Interactions via Bridge Feature for Multi-task Dense Predictions [29.0] マルチタスク密度予測は,複数の画素単位の予測タスクを統合ネットワーク内で同時に処理し,視覚的シーン理解を実現することを目的としている。
これらの未探索問題に対処するために,包括的かつ識別的な中間ブリッジ特徴を抽出する新しいブリッジネットフレームワークを提案する。
私たちの知る限りでは、クロスタスクインタラクションにおける機能参加者の完全性と品質を考慮した最初の作品です。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:48:25 GMT)
An Empirical Study on Challenges for LLM Application Developers [28.7] 私たちは、人気のあるOpenAI開発者フォーラムから29,057の関連質問をクロールして分析します。
2,364の質問を手動で分析した後、LLM開発者が直面している課題の分類を構築した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:19:43 GMT)
Interactive Visual Assessment for Text-to-Image Generation Models [28.5] 生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:06:18 GMT)
ChemSafetyBench: Benchmarking LLM Safety on Chemistry Domain [28.2] ChemSafetyBenchは、大規模言語モデル(LLM)の正確性と安全性を評価するために設計されたベンチマークである。
ChemSafetyBenchは、化学特性のクエリ、化学利用の合法性の評価、合成法の記述という3つの重要なタスクを含んでいる。
私たちのデータセットには、様々な化学材料にまたがる30万以上のサンプルがあります。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:50:33 GMT)
LoBAM: LoRA-Based Backdoor Attack on Model Merging [27.6] モデルマージ(Model merging)は、異なるタスクに微調整された複数のモデルを統合して、複数のドメインにまたがる汎用モデルを作成する、新たなテクニックである。
既存の研究は、かなりの計算資源を仮定することで、そのような攻撃のリスクを実証しようとするものである。
最小限のトレーニングリソースで高い攻撃成功率を得る方法であるLoBAMを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:41:24 GMT)
ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance [27.2] 完全一貫した高忠実な会話アバター生成のための新しいフレームワークであるConsistentAvatarを提案する。
本手法は,隣接するフレーム間の安定性の時間的表現をモデル化する。
大規模な実験により、ConsistentAvatarは生成した外観、3D、表現、時間的一貫性について最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:43:09 GMT)
KAAE: Numerical Reasoning for Knowledge Graphs via Knowledge-aware Attributes Learning [26.6] 数値推論は自然言語処理やレコメンダシステムなど、さまざまな人工知能応用において重要である。
既存のアプローチは、セマンティックな関連性とセマンティックなあいまいさという、モデリングにおいて2つの重要な課題に直面する。
数値推論における知識グラフ埋め込みのための新しい知識認識属性埋め込みモデル(KAAE)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:43:04 GMT)
MUNBa: Machine Unlearning via Nash Bargaining [26.4] マシン・アンラーニング(MU)は、モデル全体の有用性を保ちながら、モデルから有害な振る舞いを選択的に消去することを目的としている。
マルチタスク学習問題として、MUは、特定の概念やデータを忘れたり、一般的なパフォーマンスを保つことに関連する目的のバランスをとる。
我々はMUを2人組の協調ゲームとして再編成し、そこでは、忘れるプレイヤーと保存プレイヤーが勾配提案を通じて貢献し、全体のゲインを最大化する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:18:28 GMT)
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability [26.2] MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:38:05 GMT)
Learning state and proposal dynamics in state-space models using differentiable particle filters and neural networks [25.1] 本稿では,ニューラルネットワークを用いて粒子フィルタの提案分布と遷移分布を学習する新しい手法であるStateMixNNを提案する。
本手法は,ログライクリフをターゲットとしてトレーニングされており,観測シリーズのみを必要とする。
提案手法は, 最先端技術と比較して隠れ状態の回復を著しく改善し, 非線形シナリオの改善を図っている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:30:56 GMT)
UPS: Efficiently Building Foundation Models for PDE Solving via Cross-Modal Adaptation [25.1] UPSは異なるPDEを共有表現空間に埋め込み、F変換アーキテクチャを用いてそれらを処理する。
クロスモーダルUPSは、PDEBenchから1Dと2DのPDEファミリを幅広く利用し、データ転送の4倍、計算の26倍の精度で既存の統一モデルより優れている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:39:43 GMT)
ML-SPEAK: A Theory-Guided Machine Learning Method for Studying and Predicting Conversational Turn-taking Patterns [25.0] 自己組織化チーム内で対話型ターンテイクの計算モデルを開発する。
個人の性格特性とチームのコミュニケーションパターンのギャップを埋めることで、私たちのモデルはチームプロセスの理論を伝えることができるのです。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:27:01 GMT)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.4] 単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:31:16 GMT)
Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.7] TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。
そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。
その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:06:12 GMT)
C-DiffSET: Leveraging Latent Diffusion for SAR-to-EO Image Translation with Confidence-Guided Reliable Object Generation [23.6] C-DiffSETは、訓練済みの遅延拡散モデル(LDM)を自然画像で広く訓練したフレームワークである。
顕著なことに、事前訓練されたVAEエンコーダは、SAR入力のノイズレベルが異なる場合でも、同じ潜時空間でSARとEOの画像を整列する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:25:59 GMT)
freePruner: A Training-free Approach for Large Multimodal Model Acceleration [23.6] freePrunerはトレーニング不要のトークン削減アプローチで、追加のトレーニングなしでオープンソースLMMに直接適用することができる。
実験によると、FreePrunerはメインストリームの視覚的質問応答ベンチマークで同等のパフォーマンスを維持しながら、2倍の高速化を実現している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:25:16 GMT)
How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking [23.6] 視覚言語追跡(VLT)は、テキスト情報を組み込むことで、従来の単一のオブジェクト追跡を拡張する。
現行のVLTトラッカーは、複数のベンチマークでの単一モダリティ方式に比べて性能が劣ることが多い。
VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:31:40 GMT)
Aligning LLM Agents by Learning Latent Preference from User Edits [23.2] 本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定する学習フレームワーク PreLUDE を提案する。
本稿では,要約とメール作成という2つの対話型環境を導入し,GPT-4シミュレーションユーザを用いて評価を行う。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:19:03 GMT)
EMD: Explicit Motion Modeling for High-Quality Street Gaussian Splatting [22.6] ストリートシーンの光現実的再構築は、自動運転における実世界のシミュレータの開発に不可欠である。
3D/4Dガウス散乱(GS)に基づく最近の手法は有望な結果を示したが、動的物体の予測不可能な動きのため、複雑な街路シーンではまだ課題に直面している。
本稿では,ガウス人に学習可能な動作埋め込みを導入することで,動的物体の運動をモデル化するEMD(Explicit Motion Decomposition)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:10:04 GMT)
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images [22.1] クラウドセグメンテーションはリモートセンシング画像解釈において重要な課題である。
本稿では,クラウドセグメンテーションの精度とロバスト性を高めるために,Cloud-Adapterと呼ばれるパラメータ効率適応手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:55:16 GMT)
Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text [21.7] テーブルの品質評価のための既存の尺度は、テーブルの全体的なセマンティクスをキャプチャすることができない。
テーブルのセマンティクスをキャプチャするテーブル評価戦略であるTabEvalを提案する。
提案手法を検証するために,1250種類のウィキペディアテーブルのテキスト記述からなるデータセットをキュレートする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:08:45 GMT)
MS-Glance: Bio-Insipred Non-semantic Context Vectors and their Applications in Supervising Image Reconstruction [21.6] 非意味的文脈情報は視覚認識に不可欠である。
生物学的に通知される非意味的文脈記述子 textbfMS-Glance と Glance Index Measure を提案する。
MS-Glanceは、自然画像と医療画像の両方において、既存の画像復元損失よりも優れています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:04:56 GMT)
Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data [21.4] ニューラルマシン翻訳(NMT)の最近の研究により、高品質なマシン生成データに対するトレーニングは、人為的なデータに対するトレーニングよりも優れていることが示されている。
この研究は、LLM生成、MBRデコード、QE参照のデータセットを初めてリリースし、文レベルと多文の両方の例を示す。
我々の(機械生成)データセットのスクラッチからのトレーニングは、(Webcrawled) WMT'23トレーニングデータセットのトレーニングよりも優れています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:09:15 GMT)
HLAT: High-quality Large Language Model Pre-trained on AWS Trainium [21.2] 本稿では,4096 AWS Trainiumアクセラレータを1.8兆トークン以上で事前トレーニングした7Bおよび70BデコーダのみのLLMのファミリーを紹介する。
HLATはモデルサイズと同等のモデル品質が得られることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:02:06 GMT)
Prompt-Based Exemplar Super-Compression and Regeneration for Class-Incremental Learning [21.1] PESCRは,その量を大幅に増加させ,模範者の多様性を高める新しいアプローチである。
画像はビジュアルとテキストのプロンプトに圧縮され、元の画像の代わりに保存される。
その後の段階では、拡散モデルにより様々な例が再生される。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:14:16 GMT)
An Information-Theoretic Regularizer for Lossy Neural Image Compression [20.9] ロスシー画像圧縮ネットワークは、特定の歪み制約に固執しながら、画像の潜伏エントロピーを最小限にすることを目的としている。
本稿では、負条件源エントロピーをトレーニング対象に組み込むことにより、ニューラル画像圧縮タスクの新たな構造正規化手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:19:27 GMT)
Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.6] モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:20:24 GMT)
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models [20.6] グラフ上での学習にグラフシーケンスモデルを採用するための統一フレームワークを提案する。
本稿では,グローバルおよびローカルなグラフタスクのレンズを用いて,トランスフォーマーと現代のリカレントモデルの表現能力を評価する。
GSM++は階層的親和性クラスタリング(HAC)アルゴリズムを用いてグラフを階層的シーケンスにトークン化する高速ハイブリッドモデルである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:24:42 GMT)
CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow [20.6] CLIP-BEVFormerは,多視点画像由来のBEVバックボーンを接地真実情報フローで拡張する新しい手法である。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:33:56 GMT)
PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment [20.1] 我々は,報酬得点を決定するための推論ステップの数を考慮したPSPO-WRSを開発し,非線形報酬形成に最適化されたワイブル分布を利用する。
6つの数学的推論データセットの実験結果は、PSPO-WRSが現在の主流モデルより一貫して優れていることを示している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:52:38 GMT)
Federated PCA and Estimation for Spiked Covariance Matrices: Optimal Rates and Efficient Algorithm [19.7] フェデレートラーニング(FL)は、プライバシとデータセキュリティの強化により、機械学習において、近年大きな注目を集めている。
本稿では,分散差分プライバシー制約下でのフェデレーションPCAとスパイク共分散行列の推定について検討する。
我々は、集中サーバの最適レートがローカルクライアントのミニマックスレートの調和平均であることから、収束のミニマックスレートを確立する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:57:50 GMT)
MolMetaLM: a Physicochemical Knowledge-Guided Molecular Meta Language Model [19.5] 本稿では,分子メタ言語フレームワーク MolMetaLM を提案する。
我々は、同じS(分子)を共有する複数のS,P,O>知識トリプルとしてフォーマットされた分子特化メタ言語パラダイムを設計する。
異なる分子知識とノイズを導入することで、メタ言語パラダイムは数万の事前学習タスクを生成する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:27:38 GMT)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.0] 大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。
再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。
LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:40:36 GMT)
FATE: Full-head Gaussian Avatar with Textural Editing from Monocular Video [18.5] FATEは、単一のモノクロビデオから編集可能なフルヘッドアバターを再構築する新しい方法である。
離散ガウス表現を連続写像に変換するためのニューラルベーキング手法が導入された。
FATEは、定性評価と定量的評価の両方において、以前のアプローチより優れている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:47:48 GMT)
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.9] 大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:20:36 GMT)
ConAIR:Consistency-Augmented Iterative Interaction Framework to Enhance the Reliability of Code Generation [17.7] コード生成, ConAIR の信頼性を高めるために, 一貫性を付加した反復的相互作用フレームワークを提案する。
人間の努力を最小限に抑えることで、パフォーマンスを大幅に向上できることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:26:24 GMT)
POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.6] 値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では,POWQMIX (Poly Optimal Joint Actions Weighted QMIX) アルゴリズムを提案する。
提案アルゴリズムは,最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:23:54 GMT)
From Jack of All Trades to Master of One: Specializing LLM-based Autoraters to a Test Set [17.6] 本研究では,テストセットの履歴評価を活用して,インコンテキスト学習の例を構築することによって,与えられたテストセットに対してAutoraterを専門化する手法を設計する。
WMT'23 と WMT'24 テストセットにおいて, 機械翻訳評価の細粒度化作業におけるスペシャリスト手法の評価を行い, 最先端の XCOMET 測定値の 54% と 119% を劇的に上回っていることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:02:21 GMT)
Maximizing the Impact of Deep Learning on Subseasonal-to-Seasonal Climate Forecasting: The Essential Role of Optimization [17.6] 天気予報や気候予報は農業や災害管理といった分野にとって不可欠である。
2週間から6週間にわたるS2Sスケールでの予測は依然として困難である。
本稿では,ネットワーク構造ではなく最適化が,この性能ギャップの根本原因になり得ることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:01:54 GMT)
Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts [17.4] 我々は、生涯LLM編集とビジョンLLM編集のギャップを埋めるために、LIfelong Vision言語modEl EditのLiveEditを提案する。
ビジュアルセマンティック知識を活用するためにハードフィルタリング機構を開発し、入力クエリの視覚的に無関係な専門家を排除した。
視覚的に関係のある専門家を統合するために,テキストの意味的関連性に基づくソフトルーティング機構を導入し,マルチエキスパート融合を実現する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:19:40 GMT)
Gradient-Guided Parameter Mask for Multi-Scenario Image Restoration Under Adverse Weather [17.0] 悪天候下でのマルチシナリオ画像復元のためのグラディエントガイド付きシナリオマスクを提案する。
本手法は, モデルパラメータを, 勾配変動強度の評価により, 共通成分と特異成分に分割する。
これにより、モデルがそれぞれの気象シナリオに関連する機能を正確かつ適応的に学習し、性能を損なうことなく効率と効率の両方を改善することができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:16:27 GMT)
Classifier-Free Guidance inside the Attraction Basin May Cause Memorization [16.8] 拡散モデルは、トレーニングデータから画像を正確に再現する傾向がある。
記憶された画像は、画質が高く、条件付け機構によく適合している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:36:03 GMT)
LAGUNA: LAnguage Guided UNsupervised Adaptation with structured spaces [16.6] mnameは、絶対座標における表現の整列から、潜在空間における等価概念の相対的な位置の整列へと焦点を移す新しいアプローチである。
mnameは言語空間におけるクラスラベル間の意味的/幾何学的関係に基づいてドメインに依存しない構造を定義する。
我々は4つの画像とビデオデータセットにまたがるドメイン適応タスクにおけるmnameの優位性を実証的に示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:26:53 GMT)
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.5] 視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。
既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。
本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:17:17 GMT)
LADDER: Language Driven Slice Discovery and Error Rectification [16.1] 現在のクラスタリングや離散属性ベースのスライス発見メソッドは、重要な制限に直面している。
我々は,(1)不完全性に対処するために自然言語の柔軟性を活用すること,(2)LLMの潜在的テクストドメイン知識と高度な推論を用いて文を分析し,仮説を直接導出する,という制限に対処することを提案する。
厳密な評価は、ラダーがバイアスを発見し緩和する際に、既存のベースラインを一貫して上回っていることを示している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:52:37 GMT)
Unveiling the Achilles' Heel: Backdoor Watermarking Forgery Attack in Public Dataset Protection [15.6] バックドアの透かしは 所有権の証拠として データセット保護を再定義する
本稿では,バックドア透かしの信頼性を疑問視し,攻撃者の視点から再検討する。
偽造攻撃の問題を探索することにより、データセットのオーナシップ検証プロセスの固有の欠陥を明らかにする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:39:52 GMT)
Sample- and Parameter-Efficient Auto-Regressive Image Models [15.5] 我々は,新しい自己回帰目標を事前学習した視覚モデルであるXTRAを紹介する。
XTRAはBlock Causal Maskを採用しており、それぞれのBlockは標準的な因果マスクに頼るのではなく、k$times$kトークンを表す。
XTRAはブロック単位でピクセル値を再構築することにより、より大きな画像領域上の高レベルの構造パターンをキャプチャする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:40:46 GMT)
TASER: Temporal Adaptive Sampling for Fast and Accurate Dynamic Graph Representation Learning [15.4] TGNN(Temporal Graph Neural Networks)は、様々なハイインパクトアプリケーションで最先端の性能を実証している。
TGNNは、時間遅延リンクや歪んだ相互作用分布のような実世界の動的グラフで見られる一般的なノイズの傾向にある。
本稿では,TGNNの精度,効率,スケーラビリティに最適化された最初の適応サンプリング手法であるTASERを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:42:11 GMT)
Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.4] 大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。
実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:24:19 GMT)
Dephasing-assisted diffusive dynamics in superconducting quantum circuits [14.8] まず,超伝導量子回路における劣化ノイズの制御による拡散力学を実証する。
準周期秩序を持つ超伝導量子ビットアレイにおいて,デファスティングにより局所化が促進されることを示す。
量子ビットアレイに異なる励起分布を合成することにより、より局所化された初期状態が、より高速に低雑音で均一に分散された混合状態に緩和されるのを観察する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:14:36 GMT)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.8] 大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:25:17 GMT)
SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training [14.7] 分散トレーニング、特にSharded Data Parallelism(ShardedDP)は、トレーニング時間とメモリ使用量を軽減する重要なテクニックとして登場した。
ShardedDPのスケーラビリティにおける大きな課題は、重みと勾配の集中的なコミュニケーションである。
本稿では,2つの新しい手法により,重みと勾配の通信を4ビット程度に効果的に削減するSDP4Bitを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:53:48 GMT)
Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.6] オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:46:45 GMT)
Generalization Error Curves for Analytic Spectral Algorithms under Power-law Decay [13.8] 本稿では,カーネル勾配勾配法における一般化誤差曲線の完全な特徴付けを行う。
ニューラル・タンジェント・カーネル理論により、これらの結果は広義のニューラルネットワークを訓練する際の一般化行動の理解を大幅に改善する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:28:15 GMT)
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation [13.6] Vision-to-audio (V2A) はマルチメディアに広く応用されている。
音源認識型V2A(SSV2A)ジェネレータを提案する。
SSV2Aは, 世代的忠実度と関連性の両方において, 最先端の手法を超越していることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:27:19 GMT)
SplatSDF: Boosting Neural Implicit SDF via Gaussian Splatting Fusion [13.0] 我々は,3DGSandSDF-NeRFをアーキテクチャレベルで融合させる「SplatSDF」と呼ばれる新しいニューラル暗黙的SDFを提案し,幾何的および光度精度と収束速度を大幅に向上させた。
提案手法は,提案時の幾何的および測光的評価において,最先端のSDF-NeRFモデルより優れる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:35:19 GMT)
NeRF Inpainting with Geometric Diffusion Prior and Balanced Score Distillation [12.2] GB-NeRF(GB-NeRF)は,2次元拡散前処理の改良によりNeRFの塗布性を高める新しいフレームワークである。
当社のアプローチでは,外観と幾何学的先行を同時に学習する微調整戦略という,2つの重要なイノベーションを取り入れています。
本手法は既存の手法に比べて外観の忠実度と幾何的整合性に優れる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:17:00 GMT)
Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [12.0] Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:57:33 GMT)
SplatFlow: Self-Supervised Dynamic Gaussian Splatting in Neural Motion Flow Field for Autonomous Driving [11.6] 運動流場(NMFF)内における動的ガウススプラッティングSplatFlowについて紹介する。
SplatFlowは、トラックされた3Dバウンディングボックスを必要とせずに4次元の時空間表現を学習し、正確な動的シーン再構成と新しいビューRGB、深さとフロー合成を可能にする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:39:30 GMT)
Perfectly Covert Communication with a Reflective Panel [11.5] 本研究は,無線ネットワークにおけるEmphperfect Covert通信の問題について考察する。
具体的には、送信機が通信を完全に隠蔽し、不要なリスナ(Willie)にエンフェッロエネルギーを供給し、検出の確率をゼロにする方式に注意を向ける。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:53:44 GMT)
Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning [11.2] 本稿では,スペクトル時間減衰グラフプーリングとマルチタスク学習を利用したQbyE (Query-by-Example) KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:55:13 GMT)
Hindi audio-video-Deepfake (HAV-DF): A Hindi language-based Audio-video Deepfake Dataset [11.2] ヒンディー語でのフェイクビデオやスピーチは、農村部や半都市部に多大な影響を及ぼす可能性がある。
本論文は,Hindi Audio-video-Deepfake'(HAV-DF)という,ヒンディー語による新しいディープフェイクデータセットを作成することを目的とする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:18:43 GMT)
Knowledge-Assisted Privacy Preserving in Semantic Communication [11.2] 本稿では,SCネットワークにおけるデータプライバシ向上のための知識の活用について検討する。
まず、知識の分析に基づいてSCにおける攻撃の可能性を特定する。
本稿では、ソースメッセージを正確にエンコードし復号するためのデータ伝送層からなる、知識支援型プライバシ保護SCフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:53:46 GMT)
AutoProSAM: Automated Prompting SAM for 3D Multi-Organ Segmentation [11.1] Segment Anything Model (SAM)は、画像セグメンテーションのための先駆的なプロンプトベースの基礎モデルの一つである。
近年の研究では、SAMはもともと2次元の自然画像用に設計されており、3次元の医用画像分割作業に最適化されていることが示されている。
本稿では,これらの課題を克服するため,AutoProSAMと呼ばれる新しい手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:48:51 GMT)
$\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models [10.7] 様々なレイヤで表現されるリッチな視覚的意味情報と,異なる拡散アーキテクチャの時間ステップについて検討する。
k-スパースオートエンコーダ(k-SAE)を利用した単意味的解釈可能な特徴を明らかにする。
既成拡散モデルの特徴量に対する軽量分類器を用いた移動学習による機械的解釈について検討する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:54:22 GMT)
Enhancing Post-Hoc Attributions in Long Document Comprehension via Coarse Grained Answer Decomposition [10.6] ポストホック属性システムは、回答テキストをソース文書にマッピングするように設計されているが、このマッピングの粒度は未解決である。
そこで本研究では,テンプレートを用いたテキスト内学習を用いて,帰属に対する回答の事実分解に関する新しい手法を提案し,検討する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:07:10 GMT)
MulModSeg: Enhancing Unpaired Multi-Modal Medical Image Segmentation with Modality-Conditioned Text Embedding and Alternating Training [10.6] マルチモーダル(MulModSeg)戦略を提案する。
MulModSegは、凍結されたテキストエンコーダを介して、モダリティ条件付きテキスト埋め込みフレームワークを組み込んでいる。
腹部多臓器および心室サブ構造をCTとMRの両方で分画する従来の方法より一貫して優れていた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:37:01 GMT)
A Survey on LLM-as-a-Judge [10.3] 大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。
LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:03:35 GMT)
Towards Balanced RGB-TSDF Fusion for Consistent Semantic Scene Completion by 3D RGB Feature Completion and a Classwise Entropy Loss Function [10.2] RGB-TSDF 融合は非自明なものと考えられており、一般的に使用されるナイーブ付加は矛盾する結果をもたらす。
本稿では、3D RGB機能補完モジュールを備えた2段階ネットワークを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:00:05 GMT)
TKG-DM: Training-free Chroma Key Content Generation Diffusion Model [9.9] トレーニングフリークロマキーコンテンツ生成拡散モデル(TKG-DM)
学習自由クロマキーコンテンツ生成拡散モデル(TKG-DM)を提案する。
提案手法は、制御された背景生成のための初期雑音における色相の操作を初めて検討するものである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:07:15 GMT)
FG-CXR: A Radiologist-Aligned Gaze Dataset for Enhancing Interpretability in Chest X-Ray Report Generation [9.4] 我々は, 放射線学者が生成したキャプションと, 各解剖学の視線注意熱マップとの間に, 微粒なペアリング情報を提供するFine-Grained CXRデータセットを提案する。
解析の結果, ブラックボックス画像キャプション法を用いてレポートを生成するだけでは, CXRのどの情報を利用するのかを適切に説明できないことがわかった。
本稿では, 放射線科医の視線と転写の両面を密接に一致させるため, 放射線科医の診断過程を模倣する新しい注意生成ネットワーク(Gen-XAI)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:22:40 GMT)
Gradient dynamics for low-rank fine-tuning beyond kernels [9.3] 学生-教師設定における低ランク微調整について検討する。
基本モデルにおける行列であり,オンライン勾配勾配で訓練された学生モデルが,教師に収束する,という軽微な仮定の下で証明する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:00:28 GMT)
FollowGen: A Scaled Noise Conditional Diffusion Model for Car-Following Trajectory Prediction [9.3] 本研究では,自動車追従軌道予測のためのスケールドノイズ条件拡散モデルを提案する。
車両間の詳細な相互作用と自動車追従ダイナミクスを生成フレームワークに統合し、予測された軌跡の精度と妥当性を向上させる。
種々の実世界の運転シナリオに関する実験結果は,提案手法の最先端性能と堅牢性を示すものである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:13:45 GMT)
Active Prompt Learning with Vision-Language Model Priors [9.2] 視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:34:33 GMT)
HateDay: Insights from a Global Hate Speech Dataset Representative of a Day on Twitter [9.1] ヘイトスピーチの流行と構成が言語や国によってどのように異なるかを示す。
モデルがヘイトスピーチと攻撃的スピーチを区別できないことを含む、パフォーマンスの低下を説明するいくつかの要因を同定する。
このような低性能は、公開検出モデルによる音声のモデレーションを嫌うものだ、と我々は主張する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:54:30 GMT)
Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.1] 我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:05:05 GMT)
LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.9] 本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:23:14 GMT)
Efficient Online Inference of Vision Transformers by Training-Free Tokenization [8.8] 我々は、性能とランタイムを維持しながら、エネルギーコストを削減できるトレーニング不要の方法である、textbfVisual Word Tokenizer$(VWT)を紹介した。
以上の結果から,VWTは効率の良いオンライン推論に適しており,性能に限界があることが明らかとなった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:47:13 GMT)
MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking [8.7] 本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。
特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。
本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:31:58 GMT)
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset [8.5] AfriMed-QAはPan-African English multi-choice Medical Question-Answering データセットである。
15,000の質問が16カ国の60以上の医療学校から寄せられ、32の医療専門学校から寄せられた。
バイオメディカル LLM は一般的なモデルよりも優れており、エッジフレンドリーな LLM はパススコアの達成に苦慮している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:43:02 GMT)
Knowledge Transfer Across Modalities with Natural Language Supervision [8.5] 我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。
知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 17:26:50 GMT)
Learn2Synth: Learning Optimal Data Synthesis Using Hypergradients [8.4] 合成によるドメインランダム化は、入力画像の領域に関してバイアスのないネットワークをトレーニングするための強力な戦略である。
本稿では,少数の実ラベル付きデータを用いて合成パラメータを学習する新しい手法であるLearner2 Synthを紹介する。
このアプローチにより、トレーニング手順は、セグメンテーションネットワークをトレーニングするためにこれらの実例を使用することなく、実際のラベル付き例の恩恵を受けることができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:52:49 GMT)
SPA: Efficient User-Preference Alignment against Uncertainty in Medical Image Segmentation [8.3] textbfSPAは、人間との相互作用が最小限である様々なテストタイムの好みに効率的に適応する。
好みのセグメンテーションに達すると、臨床の作業量を減らす。
1) 既存の対話的セグメンテーションアプローチと比較して, 臨床時間と労力の大幅な削減が示されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:27:08 GMT)
ReWind: Understanding Long Videos with Instructed Learnable Memory [8.0] VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:23:22 GMT)
Understanding and Estimating the Execution Time of Quantum Programs [8.0] 本研究では,シミュレータおよび実量子コンピュータ上での量子プログラム実行時の特性について検討する。
本稿では,グラフトランスフォーマーモデルを用いて実行時間を推定する革新的な手法を提案する。
我々のアプローチは量子コンピューティングプラットフォームに統合され、量子実行時間を正確に見積もることができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:02:10 GMT)
OCDet: Object Center Detection via Bounding Box-Aware Heatmap Prediction on Edge Devices with NPUs [8.0] OCDetは、NPUを使ったエッジデバイス向けに最適化された軽量なObject Center Detectionフレームワークである。
OCDetは、オブジェクト中心の確率を表すヒートマップを予測し、ピーク識別を通じて中心点を抽出する。
NPUフレンドリーなセマンティックFPNとMobileNetV4のバックボーンで構築されたOCDetモデルは、当社のBa balanced Continuous Focal Loss (BCFL)によってトレーニングされています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:17:35 GMT)
TANGNN: a Concise, Scalable and Effective Graph Neural Networks with Top-m Attention Mechanism for Graph Representation Learning [7.9] 本稿では,Top-mアテンション機構アグリゲーションコンポーネントと近傍アグリゲーションコンポーネントを統合した,革新的なグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
提案手法の有効性を評価するため,提案手法をGNN分野において未探索の新たな課題である引用感情予測に適用した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:31:25 GMT)
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.8] LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:40:05 GMT)
DRCT: Saving Image Super-resolution away from Information Bottleneck [7.8] 低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:11:41 GMT)
On the Boundary Feasibility for PDE Control with Neural Operators [7.5] 本稿では,境界出力の軌道方向の制約満足度を確実にするために,一般神経境界制御障壁関数(BCBF)を導入する。
境界制御入力から出力軌道への伝達関数をモデル化したニューラル演算子を用いて、BCFの変化は入力境界の変化に線形に依存することを示す。
双曲型, 放物型, ナビエ・ストークスPDE動的環境下での実験により, 提案手法の有効性が検証された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:15:51 GMT)
ACE: Action Concept Enhancement of Video-Language Models in Procedural Videos [7.0] 行動概念強化(ACE)は視覚言語モデル(VLM)の概念理解を改善する
ACEは補助的な分類損失に拡張作用シノニムと負を継続的に組み込む。
エンコードされたエンコードされたアクションシノニムの埋め込みのアライメントを、埋め込み空間に可視化することにより、VLMの概念理解の強化を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:49:49 GMT)
KinMo: Kinematic-aware Human Motion Understanding and Generation [7.0] テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:50:11 GMT)
Decentralised Variational Inference Frameworks for Multi-object Tracking on Sensor Networks: Additional Notes [6.9] 本稿では,様々な分散型変分推論方式を提案することで,マルチセンサ多対象追跡の課題に取り組む。
まず、集中型VIセンサ融合方式をベンチマークとして確立し、その分散化の限界を解析する。
標準ELBOの代わりに,局所最大化下界(LM-ELBO)を最適化する分散勾配型VIフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:46:25 GMT)
DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.7] DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:02:03 GMT)
Johnny Can't Revoke Consent Either: Measuring Compliance of Consent Revocation on the Web [6.4] ウェブ上での同意の取り消しについて、事前の研究は行われていない。
ウェブサイトの19.87%は、ユーザーがさまざまなインターフェースで同意を取り消すのを難しくしている。
20.5%のウェブサイトは受け入れよりも多くの努力を必要としており、2.48%は同意の取り消しを提供していない。
57.5%のウェブサイトは、ユーザーのデータの継続的な違法な処理を可能にする同意取り消し後にクッキーを削除しない。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:23:01 GMT)
Deep Learning for THz Channel Estimation and Beamforming Prediction via Sub-6GHz Channel [5.8] 本稿では,効率的な畳み込みニューラルネットワーク(CNN)を用いたTHzチャネル推定器を提案する。
推定したTHzチャネル係数を用いて,既成のコードブックから最適なビームフォーマを推定する。
従来の手法にかかわるオーバーヘッドを除去するだけでなく、ほぼ最適スペクトル効率率も達成する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:36:35 GMT)
Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai [5.7] タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:50:59 GMT)
Multi-scale Cascaded Large-Model for Whole-body ROI Segmentation [5.4] 我々は,Multi-scale Cascaded Fusing Network (MCFNet)と呼ばれる,革新的なカスケードネットワークアーキテクチャを提案する。
MCFNetは、複雑なマルチスケールとマルチ解像度の機能を効果的にキャプチャする。
我々は,36,131対の画像マスクを含む671症例の多様なデータセットに対して,A6000 GPUを用いて実験を行った。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:39:06 GMT)
Adaptive Least Mean pth Power Graph Neural Networks [5.4] オンライングラフ信号推定のための適応フィルタとグラフニューラルネットワークを組み合わせた普遍的なフレームワークを提案する。
LMP-GNNは、ノイズや観察の欠如、オンライン更新機能を扱う際の適応フィルタリングの利点を保っている。
4つの異なる雑音分布下での2つの実世界の温度グラフとトラヒックグラフに関する実験結果から,提案したLMP-GNNの有効性とロバスト性が確認された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:26:22 GMT)
Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment [5.3] 対照的に訓練された視覚言語モデルに対する攻撃を緩和する手法を提案する。
提案手法では,言語モデルから抽出した外部知識を活用し,外部知識との強い整合性に欠ける画像領域間の相関関係の学習を防止する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:51:52 GMT)
Multi-Reranker: Maximizing performance of retrieval-augmented generation in the FinanceRAG challenge [5.3] 本稿では,ACM-ICAIF '24 FinanceRAGコンペティションのための,高性能で財務特化度の高いRetrieval-Augmented Generation(RAG)システムの開発について述べる。
我々は,検索前段階におけるクエリ拡張とコーパスの洗練に関するアブレーション研究を通じて,性能を最適化した。
特に,生成フェーズの長いコンテキストサイズを管理するための効率的な手法を導入し,性能を犠牲にすることなく応答品質を大幅に改善した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:56:21 GMT)
The Landscape of Data Reuse in Interactive Information Retrieval: Motivations, Sources, and Evaluation of Reusability [5.3] 本研究では,対話型情報検索(Interactive Information Retrieval:IIR)研究分野の経験者を対象に,データ再利用の実践について検討した。
我々は、データ再利用に関するモチベーション、経験、懸念について、人口統計学的背景、制度、キャリアの段階から、21の半構造化内面のインタビューを行った。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:15:31 GMT)
ChannelDropBack: Forward-Consistent Stochastic Regularization for Deep Networks [5.0] 既存のテクニックでは、しばしば特別なレイヤを追加することによってネットワークのアーキテクチャを変更する必要がある。
本稿では,逆情報フローにのみランダム性を導入する単純な正規化手法であるChannelDropBackを提案する。
アーキテクチャを変更することなく、任意のモデルやレイヤのトレーニングプロセスにシームレスに統合することができます。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:49:24 GMT)
A Systematic Review of Echo Chamber Research: Comparative Analysis of Conceptualizations, Operationalizations, and Varying Outcomes [5.0] この体系的なレビューは、エコーチャンバーとフィルタバブルに関する現在の研究を合成する。
これは、エコーチャンバーの研究において、その現象の存在、先行者、および影響に不満がある理由を浮き彫りにする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:42:56 GMT)
Meta-Learning for Color-to-Infrared Cross-Modal Style Transfer [4.9] 最近の赤外線画像の物体検出モデルはディープニューラルネットワーク(DNN)に基づいている
我々は,大規模で多様なカラー画像データセットを活用するために,クロスモーダル・スタイル・トランスファー(CMST)を提案する。
CMSTはDNNベースの検出器に極めて有効であることがわかった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:51:05 GMT)
Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.8] 既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:25:06 GMT)
MUCM-Net: A Mamba Powered UCM-Net for Skin Lesion Segmentation [4.8] 皮膚病変のセグメンテーションは早期皮膚がん検出の鍵となる。
CNNやU-Netといったディープラーニング手法は、これらの問題に対処する上で有望であることを示している。
本稿では,Mamba State-Space ModelsとUCM-Netアーキテクチャを組み合わせたMUCM-Netを提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:57:13 GMT)
The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges [4.7] 大規模言語モデル(LLM)がどの程度「合理的に」振舞うかは明らかになっていない。
LLMエージェントに埋め込まれた認知バイアスのリスクを実証的に確認した。
AIエージェントのデバイアスの複雑さと重要性を強調します。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:43:27 GMT)
"Moralized" Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks [4.6] 本研究の目的は,多段階のジェイルブレイクによる言語攻撃に対するガードレールの有効性を評価することである。
被験者はGPT-4o、Grok-2 Beta、Llama 3.1 (405B)、Gemini 1.5、Claude 3.5 Sonnet。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:32:44 GMT)
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus [4.6] 大規模言語モデル(LLM)の推論と文脈理解能力を評価する新しい手法を提案する。
思考仮説言語(LoTH:Logical Coherence, compositionality, Productivity)の3つの重要なコンポーネントに注目します。
実験の結果,LSMは推論能力を示す一方で,これらの3つの側面において,人間レベルの推論に遅れが生じることが判明した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:26:41 GMT)
On the importance of local and global feature learning for automated measurable residual disease detection in flow cytometry data [4.6] 本稿では,フロー(FCM)データにおけるMRD検出のための様々な深層学習手法について検討する。
本稿では,現在最先端(SOTA)モデルへの2つの適応を提案する。
コントリビューションには、SOTAモデルの拡張、公開データセットのパフォーマンス向上、実験室間の一般化の改善などが含まれています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:15:34 GMT)
Heralded nonlocal quantum gates for distributed quantum computation in a decoherence-free subspace [4.5] 空間的に分離された空洞に結合した2つの定常量子ビットに非自明な量子ゲートを実装するためのプロトコルを提案する。
複合系の進化を動的に制御することにより、非局所的な2量子ビット量子ゲートはキャビティモードまたは原子の実際の励起なしで実現できる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:17:19 GMT)
Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.5] Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:22:21 GMT)
Traditional Chinese Medicine Case Analysis System for High-Level Semantic Abstraction: Optimized with Prompt and RAG [4.3] 本稿では,Webスクレイピングを用いた中国伝統医学(TCM)臨床症例データベースの構築に関する技術的計画について述べる。
患者の詳細,病因,症候群,アノテーションなどの重要な領域で,5000件以上のTCMの臨床症例を集め,データクリーニングを行い,データセットを構造化した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:24:15 GMT)
Reliable Generation of Privacy-preserving Synthetic Electronic Health Record Time Series via Diffusion Models [4.2] 電子健康記録(Electronic Health Records, EHRs)は、患者レベルの豊富なデータソースであり、医療データ分析に有用なリソースを提供する。
しかしながら、プライバシー上の懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。
本研究では,現実的かつプライバシに保護された合成ERH時系列を効率的に生成することで,これらの課題を克服することを目的とする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:02:15 GMT)
How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? [4.2] トークン化と正規化は、ストップワードの除去とステミング/レマティゼーションよりも効果的である。
パート・オブ・Speech Taggingは、Lemmatisationには役に立たない。
本稿では,新しいコンテキストベースのパイプライン修復手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:18:33 GMT)
Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.2] 中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:34:59 GMT)
SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.1] 本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:43:38 GMT)
FLD+: Data-efficient Evaluation Metric for Generative Models [4.1] 本稿では,より信頼性が高く,データ効率が高く,計算効率が高く,新しい領域に適応可能な生成画像の品質を評価するための新しい指標を提案する。
提案した計量は、任意の領域からの画像の密度(正確には対数のような)の計算を可能にする正規化フローに基づいている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:12:57 GMT)
Multi-label Sequential Sentence Classification via Large Language Model [4.0] 本稿では,LLM-SSCを提案する。LLM-SSCは大規模言語モデル(LLM)をベースとした,シングルラベルとマルチラベルのSSCタスクのためのフレームワークである。
従来の中小言語モデルを用いたアプローチとは異なり、提案フレームワークはLSMを用いて設計したプロンプトを通じてSSCラベルを生成する。
また、自動重み付け方式によるマルチラベルのコントラスト学習損失も提示し、マルチラベル分類タスクを可能にする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:27:35 GMT)
Machine Learning-based sEMG Signal Classification for Hand Gesture Recognition [3.9] 筋電図(EMG)信号を用いて手の動きを解析・分類する。
本稿では,新しい特徴抽出手法を用いてEMGに基づく手動作認識の性能をベンチマークすることを目的とする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:29:51 GMT)
Faithful quantum teleportation via a nanophotonic nonlinear Bell state analyzer [3.9] ナノフォトニックキャビティを用いた時間ビン符号化光子に対する非線形ベル状態解析器について述べる。
我々の効率的なナノフォトニクスプラットフォームによって強化された非線形光学エンタングリング演算は、忠実な量子情報プロトコルを実現することができることを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:44:06 GMT)
QEQR: An Exploration of Query Expansion Methods for Question Retrieval in CQA Services [3.3] 我々は,単語類似度に基づく手法を用い,質問類似度に基づく手法を提案し,これらの手法を選択的に拡張して質問を拡張する。
提案手法は,クエリ拡張を伴わない最良性能のベースラインと比較して,1.8%の相対的な改善を実現している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:47:03 GMT)
Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.3] 拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:05:35 GMT)
Graph Signal Adaptive Message Passing [3.2] Graph Signal Adaptive Message Passing (GSAMP)は、新しいメッセージパッシング手法である。
同時に、時間変化のグラフ信号に対して、オンライン予測、データ計算の欠如、ノイズ除去を行う。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:25:59 GMT)
DySurv: dynamic deep learning model for survival analysis with conditional variational inference [2.6] 本研究では,動的に死亡リスクを推定する条件付き変分自動エンコーダDySurvを提案する。
DySurv は累積リスク発生関数を直接見積もるが、時間から時間までのプロセスのパラメトリックな仮定は行わない。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:41:00 GMT)
Ontology-Constrained Generation of Domain-Specific Clinical Summaries [2.6] 我々は、関連性を改善しつつ幻覚を低減するために構造化誘導復号法を用いる。
医療領域に適用すると,健康記録の要約の可能性を示す。
MIMIC-IIIデータセットの評価は、ドメイン適応要約の生成の改善を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:05:48 GMT)
Hatching-Box: Monitoring the Rearing Process of Drosophila Using an Embedded Imaging and in-vial Detection System [2.5] Hatching-Boxはショウジョウバエの生長行動を自動的に監視し定量化する新しい画像解析システムである。
我々は,ハッチボックスが集団行動に関する追加情報を抽出し,個々の標本のライフサイクル全体を再構築できることを示した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:09:42 GMT)
Partial Knowledge Distillation for Alleviating the Inherent Inter-Class Discrepancy in Federated Learning [2.4] クラスバランス学習においても弱いクラスが一貫して存在することを観察する。
クラス間精度の差は、FashionMNISTとCIFAR-10データセットのフェデレーション学習で36.9%以上に達する。
本稿では,弱いクラスの分類精度を向上させるために,クラス固有の部分的知識蒸留法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:16:46 GMT)
GeoAI-Enhanced Community Detection on Spatial Networks with Graph Deep Learning [2.4] 本研究では、地域2vecと呼ばれる、GeoAIによる教師なしコミュニティ検出手法のファミリーを提案する。
提案手法は,ノード属性の類似性と空間的相互作用強度を同時に最大化したい場合に,複数のベースラインと比較し,最善を尽くす。
また、公衆衛生における欠落地域脱線問題にも適用され、地域化問題におけるその可能性を実証している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:09:34 GMT)
FDDM: Unsupervised Medical Image Translation with a Frequency-Decoupled Diffusion Model [2.3] MR-CT変換のための周波数分離拡散モデルを提案する。
我々のモデルは低周波・高周波情報に二重経路逆拡散法を用いる。
翻訳された解剖学的構造の精度を維持しつつ、高品質なターゲットドメイン画像を生成することができる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:47:23 GMT)
Secondary Use of Health Data: Centralized Structure and Information Security Frameworks in Finland [2.3] フィンランドは、健康と社会データの二次的利用のための枠組みを確立した。
本稿では、二次健康データと社会データを集中的に活用するための実装の概要について述べる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 08:49:29 GMT)
String breaking mechanism in a lattice Schwinger model simulator [2.2] 光学格子量子シミュレータを用いた一次元格子ゲージ理論における弦破れ機構の実験的検討を行った。
我々の研究は、制御可能な量子シミュレータとしての光学格子の可能性を強調し、複雑なゲージ理論とその関連する現象の探索を可能にする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:57:43 GMT)
A Diffusion-based Data Generator for Training Object Recognition Models in Ultra-Range Distance [2.2] 超視界に位置するほとんど見えない物体を認識するためのモデルは、ラベル付きサンプルの徹底的な収集を必要とする。
本研究では,ディフュージョンモデルに基づくDUR(Diffusion in Ultra-Range)フレームワークを提案する。
DURは、URGRモデルのトレーニングにおいて、忠実度と認識成功率の両方において優位性を示す他の種類の生成モデルと比較される。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:55:30 GMT)
IRSKG: Unified Intrusion Response System Knowledge Graph Ontology for Cyber Defense [2.2] 侵入応答システム(IRS)は、検出後の脅威を軽減するために重要である。
IRSはいくつかの戦術、技術、手順(TTP)を使用して攻撃を軽減し、インフラを通常の運用に復元する。
我々は,新たなエンタープライズシステムの導入を合理化するIRS知識グラフオントロジー(IRSKG)を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:31:55 GMT)
Modeling Latent Neural Dynamics with Gaussian Process Switching Linear Dynamical Systems [2.2] ガウス過程スイッチング線形力学系(gpSLDS)の2つの目的をバランスさせるアプローチを開発する。
我々の手法は、非線形力学をガウス過程(GP-SDE)で記述した微分方程式による潜在状態の進化をモデル化した以前の研究に基づいている。
本手法は, 離散状態境界近傍の力学における人工振動など, rSLDS の重要な限界を解消するとともに, 力学の後方不確かさを推定する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:47:00 GMT)
Explainable AI needs formal notions of explanation correctness [2.1] 医学のような重要な分野における機械学習はリスクをもたらし、規制を必要とする。
1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。
現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 23:02:49 GMT)
Quantum Prometheus: Defying Overhead with Recycled Ancillas in Quantum Error Correction [2.1] 量子エラー訂正(QEC)は、量子コンピュータの信頼性を確保するために重要である。
QEC符号は安定化器測定のためのアンシラ量子ビットに大きく依存する。
我々は,X型およびZ型安定器で同じアンシラ量子ビットを再利用することにより,アンシラ量子ビット数の削減を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:37:22 GMT)
Postselected amplification applied to atomic magnetometers [2.1] 原子磁気センサ(AM)を光学的マッハ・ツェンダー干渉計(MZI)に埋め込む
プローブレーザ光のファラデー回転(FR)角の増幅効果をMZIを通過した際のレーザ光子の経路変化状態を適切に選択することにより解析する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:29:46 GMT)
ResEmoteNet: Bridging Accuracy and Loss Reduction in Facial Emotion Recognition [2.0] 顔の感情認識のための新しいディープラーニングアーキテクチャであるResEmoteNetを提案する。
SEブロックの包含は、人間の顔の重要な特徴に選択的に焦点を合わせ、特徴表現を強化し、あまり関係のないものを抑制する。
提案したネットワークは、4つのデータベースすべてで最先端のモデルより優れている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:32:32 GMT)
A Constrast-Agnostic Method for Ultra-High Resolution Claustrum Segmentation [2.0] 超高分解能(0.35mm等方性)におけるクラスラム分割のコントラストおよび分解能に依存しない手法を提案する。
この手法はSynthSegセグメンテーションフレームワークに基づいており、合成トレーニング強度画像を利用して優れた一般化を実現する。
我々は18個の超高分解能MRIスキャンから得られたクラスラム手動ラベルを用いて,自動クラスラムセグメンテーションのためのディープラーニングネットワークを訓練した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:03:40 GMT)
VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection [1.9] ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。
本稿では,VideoPatchCore と呼ばれる VAD の効率的なメモリ手法を提案する。
提案手法では,メモリ最適化を優先する構造を導入し,映像データの特徴に合わせて3種類のメモリを設定する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:29:40 GMT)
ChatBCI: A P300 Speller BCI Leveraging Large Language Models for Improved Sentence Composition in Realistic Scenarios [1.9] ChatBCI は P300 のスペル BCI で,ユーザによる初期文字からの単語の提案や,その後の単語の予測を行う。
ChatBCIは、リモートクエリを通じて単語提案をGPT-3.5 APIに検索する。
その結果、タスク1では、ChatBCIはレター・バイ・レターのBCIスペルを平均で上回り、それぞれ62.14%、キーストロークは53.22%削減された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:42:12 GMT)
Modeling Inter-Dependence Between Time and Mark in Multivariate Temporal Point Processes [1.9] 過去のイベントを条件として、マーク付きTPPは、時刻と次のイベントのマークの同時分布を学習することを目的としている。
単純性のために、条件付き独立なTPPモデルは時間とマークが与えられたイベント履歴から独立していると仮定する。
我々は、条件付き独立モデルの制約を克服するために、時間とマークの条件付き相互依存性をモデル化する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 17:41:26 GMT)
Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.9] トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:09:58 GMT)
Least Privilege Access for Persistent Storage Mechanisms in Web Browsers [1.8] サードパーティスクリプトは、クッキーやローカルストレージ、IndexedDBといった永続的なストレージに格納されているユーザのプライベートデータに、無制限にアクセスできる。
永続記憶オブジェクトのきめ細かい制御を強制する機構を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:25:43 GMT)
Online High-Frequency Trading Stock Forecasting with Automated Feature Clustering and Radial Basis Function Neural Networks [1.8] 本研究では,高周波取引(HFT)株価予測のための自律的実験機械学習プロトコルを提案する。
k-meansアルゴリズムを放射基底関数ニューラルネットワーク(RBFNN)に組み込むことで,手動クラスタリングの課題に対処する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:30:04 GMT)
MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7] ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。
大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 05:13:27 GMT)
Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.7] 大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:47:12 GMT)
Fine-Grained Open-Vocabulary Object Recognition via User-Guided Segmentation [1.6] FOCUS: ユーザガイドによるきめ細かいオープン語彙オブジェクト認識。
FOCUSと呼ばれる新しい基礎モデルに基づく検出手法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:13:27 GMT)
Realization of High-Fidelity CZ Gate based on a Double-Transmon Coupler [1.4] Double-transmon coupler (DTC) は、抑制された残差相互作用と高速な高忠実な2ビットゲートの両方を同時に実現することを目的としている。
我々は、強化学習に基づく最先端の加工技術とモデルフリーパルス最適化プロセスを利用する。
DTC方式の性能は、超伝導量子プロセッサの競争力のあるビルディングブロックとしての可能性を示している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:35:37 GMT)
Artificial intelligence for partial differential equations in computational mechanics: A review [1.2] 本稿では、偏微分方程式(PDE)に対するAIの研究について概観する。
PDEのためのAIのコアはデータとPDEの融合であり、ほぼすべてのPDEを解決できる。
本稿では、固体力学、流体力学、生体力学を含む計算力学におけるPDEへのAIの適用について論じる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:46:11 GMT)
Quantitative Analysis of IITs' Research Growth and SDG Contributions [1.2] 本研究はIITs-Bombay, Delhi, Madras, Kharagpur, Kanpurの研究成果を概観する。
研究成果は指数関数的に増加し、資金と協力の増大に支えられている。
IIT-カンプルは研究効果に優れており、IIT-ボンベイとIIT-マドラは高い生産性を示すが、紙面当たりの影響はわずかに低い。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 04:45:18 GMT)
Enriching GNNs with Text Contextual Representations for Detecting Disinformation Campaigns on Social Media [1.0] この研究は、偽ニュース検出のためにTransformerベースのテキスト機能をグラフニューラルネットワーク(GNN)に組み込むことによって、ギャップに対処する。
我々は、文脈テキスト表現がGNN性能を高め、テキスト特徴のないモデルよりもマクロF1が33.8%向上し、静的テキスト表現が9.3%向上したことを示した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:48:58 GMT)
Enhancing Object Detection Accuracy in Autonomous Vehicles Using Synthetic Data [0.8] 機械学習モデルの性能は、トレーニングデータセットの性質とサイズに依存する。
正確で信頼性の高い機械学習モデルを構築するためには、高品質、多様性、関連性、代表的トレーニングデータが不可欠である。
十分に設計された合成データは、機械学習アルゴリズムの性能を向上させることができると仮定されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:38:02 GMT)
Haar-Laplacian for directed graphs [0.7] 本稿では,スペクトル畳み込みネットワークの構築を目的とした新しいラプラシア行列を提案する。
重み予測や有向グラフの denoising などの応用において,本手法がよりよい結果をもたらすことを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:42:16 GMT)
Faulty towers: recovering a functioning quantum random access memory in the presence of defective routers [0.6] 本稿では,故障したルータの存在下で機能するQRAMの復旧方法について論じる。
従来のアルゴリズムである texttFlagQubitMinimization は,このようなアンシラの必要人数を最小限に抑える。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 17:27:30 GMT)
A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.6] 多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 17:35:23 GMT)
An adversarial feature learning based semantic communication method for Human 3D Reconstruction [0.6] 本稿では,人体3次元再構成のための適応的特徴学習ベースセマンティックコミュニケーション手法(AFLSC)を提案する。
本研究では,2次元画像から空間配置,キーポイント,姿勢,深度情報を抽出するマルチタスク学習に基づく特徴抽出手法を提案する。
また,これらの特徴情報を意味データにエンコードするための,敵対的特徴学習に基づく意味的符号化手法を設計する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:09:53 GMT)
Less is More: Optimizing Function Calling for LLM Execution on Edge Devices [0.4] 大きな言語モデル(LLM)は、複雑な入力を処理したり、複数のツールを効果的に管理できないため、エッジでの関数呼び出しに苦労する。
動的ツール選択のためのファインチューニングフリー関数呼び出し方式であるLess-is-Moreを紹介する。
我々のアプローチは、LLMで利用可能なツールの数を選択的に削減することで、エッジデバイス上での機能呼び出し性能、実行時間、電力効率を大幅に改善する、というキーインサイトに基づいている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:51:09 GMT)
Efficient Bitcoin Address Classification Using Quantum-Inspired Feature Selection [0.4] 量子インスパイアされたアルゴリズムを用いて、リスクの高いBitcoinアドレスを識別する革新的なアプローチを提案する。
Bitcoinアドレスを6つのクラスに分類することで、SAによる特徴選択がトレーニング時間を30.3%短縮したことを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:03:57 GMT)
Transition Network Analysis: A Novel Framework for Modeling, Visualizing, and Identifying the Temporal Patterns of Learners and Learning Processes [0.4] 本稿では,トランジッション・ネットワーク・アナリティクス(Transition Network Analysis, TNA)を提案する。
TNAはプロセスマイニングと確率グラフ表現を統合し、学習プロセスデータ内の遷移パターンをモデル化、視覚化、識別する。
今後の方向性としては、予測手法の進歩、信頼性評価の拡張、縦断的TNA探索、置換テストを用いたTNAネットワークの比較などがある。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:54:15 GMT)
Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4] 本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。
AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。
その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:34:50 GMT)
Challenges in Comparing Code Maintainability across Different Programming Languages [0.3] 私たちは、保守性指標や技術的負債のアプローチを通じて、保守性の品質を比較することに関連する課題に焦点を合わせます。
私たちの研究は、過去15年間にワロニアで実施された一連のコード分析に基づいています。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 09:41:53 GMT)
Machine-agnostic Automated Lumbar MRI Segmentation using a Cascaded Model Based on Generative Neurons [0.2] MRI画像から腰椎椎間板と椎間板を分離する新しい機械診断手法を提案する。
12のスキャナーと34の被験者の画像からなるユニークなデータセットを、戦略的前処理とデータ拡張技術によって強化した。
本モデルとDenseNet121エンコーダの併用により, 腰椎椎間板断面積が83.66%, 感度が91.44%, Dice similarity Coefficient (DSC) が91.03%, 腰椎椎間板断面積が良好であった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:34:29 GMT)
A Comparative Analysis of Transformer and LSTM Models for Detecting Suicidal Ideation on Reddit [0.2] 多くの人がRedditのようなソーシャルメディアプラットフォームで自殺的な考えを表明しています。
本稿では, 深層学習変換器モデルBERT, RoBERTa, DistilBERT, ALBERT, ELECTRAの有効性を検討した。
RoBERTaは93.22%、F1スコア93.14%の最も効果的なモデルとして登場した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 01:17:43 GMT)
From MTEB to MTOB: Retrieval-Augmented Classification for Descriptive Grammars [0.2] モデルが言語文法からどのように情報を抽出し、分類できるかを評価するためのベンチマークのセットを紹介する。
ベンチマークは、WALSとGrambankの類型的特徴に焦点を当てた、言語家族間で248の言語に関する言語記述を含んでいる。
このベンチマークは、言語モデルの言語的特徴を正確に解釈し抽出するコンテキスト内能力を、初めて包括的に評価するものである。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:47:10 GMT)
MC-NEST -- Enhancing Mathematical Reasoning in Large Language Models with a Monte Carlo Nash Equilibrium Self-Refine Tree [0.1] 我々はモンテカルロ・ナッシュ・エクイリビリウム・セルフリファインツリー(MC-NEST)アルゴリズムを導入し,モンテカルロ・ツリー・セルフリファインツリー(MCTSr)アプローチの強化を行った。
Nash Equilibrium戦略とLLMに基づく自己定義と自己評価プロセスを統合することで、MC-NESTは複雑な数学的推論タスクの意思決定を改善することを目指している。
LLMの複雑な数学的推論性能を著しく向上させる可能性を示し,オリンピアドレベルのベンチマークに対するMC-NESTの有効性を評価した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:31:58 GMT)
Classifier Enhanced Deep Learning Model for Erythroblast Differentiation with Limited Data [0.1] ResNet-50深層学習モデルを用いて赤血球スミア画像の検出と識別を行う。
以上の結果から,ResNet50-SVM分類器は,他のモデルの総合的検査精度と赤血球検出精度を一貫して上回っていることが示唆された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:51:15 GMT)
Inducing Human-like Biases in Moral Reasoning Language Models [0.0] 我々は、行動データと人間の脳データに基づいて、道徳的推論のために微調整された大規模言語モデル(LLM)のアライメントについて検討した。
より大規模なモデルでは、両方のメトリクスでパフォーマンスが向上する一方、BrainScoresは微調整後の大幅な改善は行わなかった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:01:07 GMT)
When Image Generation Goes Wrong: A Safety Analysis of Stable Diffusion Models [0.0] 本研究では,10種類の安定拡散モデルによる有害画像の生成能力について検討した。
これらのモデルが不適切なコンテンツを生成することによって有害なプロンプトに応答することを示す。
以上の結果から,観察されたモデルでは,拒絶行動や安全対策が完全に欠如していることが示唆された。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:42:43 GMT)
Unsupervised machine learning for data-driven rock mass classification: addressing limitations in existing systems using drilling data [0.0] 世界の地下建設の安定性とリスクを評価するためには,岩盤の質量分類システムが不可欠である。
これらの制限を概説し、ドリルデータに基づくデータ駆動システムがそれを克服する方法について説明する。
トンネルプロファイルの1メートル区間における数千のMWDデータから抽出した統計情報を用いて, 適切に定義されたクラスタが, 様々な分類システムの基礎となることを実証した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:49:16 GMT)
Transparent but Powerful: Explainability, Accuracy, and Generalizability in ADHD Detection from Social Media Data [0.0] 注意欠陥・高活動障害(ADHD: Attention-deficit/hyperactive disorder)は、小児と成人の両方に影響を及ぼす精神疾患である。
人工知能の最近の進歩、特に自然言語処理(NLP)と機械学習(ML)は、ソーシャルメディアデータを用いたスケーラブルで非侵襲的なADHDスクリーニング方法に対する有望なソリューションを提供する。
本稿では,浅層学習モデルと深層学習アプローチを併用したADHD検出に関する総合的研究を行い,ADHD関連ソーシャルメディアテキストの言語パターンを解析する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:26:01 GMT)
The Gravito-Phononic Effect [0.0] 光電効果は量子論の発展における歴史的マイルストーンであった。
我々は、半古典的、量子的、新古典的モデルのレンズを通して光電効果を再考する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:50:35 GMT)
Single-snapshot machine learning for super-resolution of turbulence [0.0] 非線形機械学習技術は、乱流の単一スナップショットから物理的洞察を効果的に抽出することができる。
本研究では,1スナップショットのみから抽出したフロータイルを用いて学習した機械学習モデルを用いて,レイノルズ数の範囲で渦構造を再構築可能であることを示す。
この研究は、機械学習の実践者が乱流データに浪費するのを阻止することを望んでいる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:43:06 GMT)
Semi-supervised Single-view 3D Reconstruction via Multi Shape Prior Fusion Strategy and Self-Attention [0.0] 半教師付き学習戦略はラベル付きデータへの依存を減らす革新的なアプローチを提供する。
我々は3次元再構成のための革新的なフレームワークを作成した。
当社のフレームワークでは,ベースラインよりも3.3%パフォーマンスが向上した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:46:16 GMT)
Realizing Altermagnetism in Fermi-Hubbard Models with Ultracold Atoms [0.0] 光学格子中の超低温フェルミオン原子を用いて、d波の反磁性相を実現する方法を示す。
異方性スピン輸送(異方性スピン輸送)という反磁性の定義された特性の1つは、トラップ膨張実験によって探究できる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:09:28 GMT)
Rational kernel-based interpolation for complex-valued frequency response functions [0.0] この研究は、データからの複素値関数のカーネルベースの近似に関するものである。
複素値関数の新しいヒルベルト核空間を導入し、これらの空間の最小ノルムとしてカーネル対を用いて複素値の問題を定式化する。
電磁法や音響法など,様々な分野の例に対する数値的な結果から,本手法の性能が説明できる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:37:13 GMT)
Quantum and classical correlations in four-wave mixing from cold ensembles of two-level atoms [0.0] コールド2レベル原子のアンサンブルからの4波混合における量子相関は、背景光をフィルターすることなく優位に立つ可能性がある。
量子相関の崩壊速度は試料中の原子の数とともに変化し、その超放射能のような性質を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:36:46 GMT)
Matrix representation of the resolvent operator in square-integrable basis and physical application [0.0] 直交可積分基底の任意の有限集合において、可解作用素(グリーン函数)の行列元に対する簡単な公式を得る。
我々の発見の副産物は、行列の正規化された固有ベクトルの固有値の表現である。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 14:25:57 GMT)
Majority-Agreed Key Distribution using Absolutely Maximally Entangled Stabilizer States [0.0] Phys. Rev. A 77, 060304(R), Facchi et al. は絶対最大エンタングル(AME)状態を導入した。
A 77, 060304(R), Facchi らは[Phys. Rev. A 77, 060304(R, Facchi et al. において、そのような状態に対する可能な応用として、多数値付き鍵分布(MAKD)を提案した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:54:19 GMT)
Majorana fermion induced power-law scaling in the violations of the Wiedemann-Franz law [0.0] マヨラナ境界状態による2次元トポロジカル絶縁体におけるウィーデマン・フランツの法則の違反は、単一粒子像におけるローレンツ比によって研究される。
本研究では,バチカー電圧-温度プローブを用いた非弾性散乱によるマヨラナ境界状態の存在と欠如におけるロレンツ比のスケーリングについて検討した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:22:08 GMT)
Machine learned reconstruction of tsunami dynamics from sparse observations [0.0] 本研究では, 津波波のフルフィールド表面高さ測定を行うために, スパースセンシング応用のためのトランスフォーマーニューラルネットワークを用いた。
我々は,USGSの過去の地震記録に対応する震源となる8つの津波シミュレーションからなるデータセット上でモデルを訓練する。
その結果, センサの少なくともいくつかが非ゼロ信号を得た場合, 真の磁場からの微細な位相と振幅特性の顕著な分解能が得られた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 18:43:27 GMT)
Leveraging High-Level Synthesis and Large Language Models to Generate, Simulate, and Deploy a Uniform Random Number Generator Hardware Design [0.0] 本稿では,大規模言語モデルツールを用いたハードウェア設計のための高レベル合成手法を提案する。
ケーススタディとして,我々の手法を用いて,whidboneインタフェースを用いた変分連続乱数生成器の設計を行った。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:15:34 GMT)
Learning the Rolling Penny Dynamics [0.0] 非ホロノミックシステム(英: nonholonomic system)は、非ホロノミック制約を受けるシステムである。
我々は、典型的な非ホロノミックシステムのダイナミクス(ローリングペニー)を学ぶことを検討する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:41:27 GMT)
Learning a local trading strategy: deep reinforcement learning for grid-scale renewable energy integration [0.0] 本稿では,太陽エネルギーを併用したグリッドスケール電池の運用における強化学習の活用について検討する。
その結果、RLは近似的最適(非因果的)演算の61%(最大96%)を達成できた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:55:38 GMT)
Large-scale study of human memory for meaningful narratives [0.0] 本研究では,大規模リコールおよび認識メモリ実験のための自然言語モデル(LLM)を用いて,自然主義的物語刺激を設計するパイプラインを開発する。
我々は,多数の参加者とともにオンライン記憶実験を行い,異なるサイズの物語の認識・記憶データを収集した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:37:21 GMT)
How Ambiguous are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty [0.0] 答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。
モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。
本稿では,不完全理理性に対処する方法を提案する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 21:16:55 GMT)
From Quantum Cognition to Conceptuality Interpretation I: Tracing the Brussels Group's Intellectual Journey [0.0] この記事では、量子概念とフォーマリズムの最初の応用から人間の認知まで、知的旅の重要なステップをスケッチする。
これは、人間の概念領域と多くの類似性を引き合いに出し、身体的現実を過小評価するレベルの認知活動の存在を示唆することで実現された。
概念性解釈と量子認知の間の交配の増大は、将来的には期待される。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 00:22:51 GMT)
From Exponential to Polynomial Complexity: Efficient Permutation Counting with Subword Constraints [0.0] 置換による異なる置換を数えることは、特に複数のサブワードを含む場合、分析における長年の課題である。
本稿では,置換による異なる置換を計算するための閉形式式を示す新しいフレームワークを提案する。
次に、新たな式を開発することにより、基本公式を複数のサブワードを扱うように拡張する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:52:11 GMT)
From Complexity to Parsimony: Integrating Latent Class Analysis to Uncover Multimodal Learning Patterns in Collaborative Learning [0.0] 本研究では,Multimodal Learning Analytics(MMLA)に潜在クラス分析(LCA)を統合する新しい手法を提案する。
LCAは、協調コミュニケーション(Collaborative Communication)、身体的コラボレーション(Embodied Collaboration)、遠隔インタラクション(Distant Interaction)、孤独エンゲージメント(Solitary Engagement)の4つの異なるクラスを特定した。
疫学ネットワーク分析は、これらのマルチモーダル指標を元のモノモーダル指標と比較し、マルチモーダルアプローチがより相似であることを発見した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:36:35 GMT)
Four-Qubit CHSH Games [0.0] 2つの新しい4プレイヤー量子ゲームが提示される。
あるゲームでは、プレイヤーが$GHZ$-stateを共有するときに最適な量子戦略が達成される。
他のゲームでは、プレイヤーは量子リソースとして$W$-stateを使用することでより有利になる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:16:09 GMT)
Federated Learning in Chemical Engineering: A Tutorial on a Framework for Privacy-Preserving Collaboration Across Distributed Data Sources [0.0] この研究は、化学工学のコミュニティに、この分野へのアクセシビリティな導入を提供することを目的としている。
製造最適化、マルチモーダルデータ統合、薬物発見といったタスクにおけるフェデレートラーニングの適用について検討する。
チュートリアルは、$textttFlower$や$texttTensorFlow Federated$といった主要なフレームワークを使用して構築され、FLを採用するための適切なツールを化学技術者に提供するように設計されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:16:06 GMT)
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0] マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 02:17:10 GMT)
Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset [0.0] 本稿では,文法的誤り検出(GED)のためのLLMモデルの改良について述べる。
GEDへの従来のアプローチには手作業で設計された機能が含まれていたが、最近、ニューラルネットワーク(NN)がこれらの機能の発見を自動化した。
BERTベースの未使用モデルでは、F1スコアは0.91で、トレーニングデータの精度は98.49%であった。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 10:57:41 GMT)
Enabling Efficient Serverless Inference Serving for LLM (Large Language Model) in the Cloud [0.0] レビューレポートでは、サーバレス推論と既存のソリューションにおけるコールドスタートレイテンシについて論じている。
大規模言語モデルのサーバーレス推論におけるコールドスタート問題に対処するために設計されたシステム。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 22:19:37 GMT)
Emerging topological characterization in non-equilibrium states of quenched Kitaev chains [0.0] 量子系の位相特性はギャップの閉じによって決定される。
量子リアルタイム進化中の動的量子相転移(DQPT)は、量子相転移(QPT)の非平衡アナログとして現れた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:25:52 GMT)
Dynamical Landauer's principle: Quantifying information transmission by thermodynamics [0.0] 古典的な情報の$n$ビットを伝送する量子力学の能力は、熱力学的タスクにおいて$n$のエネルギーを伝達する能力と等価であることを示す。
我々の発見は情報伝達とエネルギーの強い結びつきを明らかにする。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:59:16 GMT)
Dicke states as matrix product states [0.0] 我々は、最小結合次元$chi=k+1$のディック状態の正確な正準行列積状態(MPS)表現を導出する。
また、高スピンおよびキュディット・ディック状態に対する最小結合次元を持つ正確な正準MPS表現も見出す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:40:47 GMT)
Derivation of recursive formulas for integrals of Hermite polynomial products and their applications [0.0] 結果は、物理学と数学の様々な分野に広く関係している。
ハーモニックトラップに閉じ込められた1次元小天体系のアブ初期シミュレーションにおいて、2次元および3次元要素を正確に計算するために応用される。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:30:16 GMT)
Creating Hierarchical Dispositions of Needs in an Agent [0.0] 競合する目的を優先する階層的抽象化を学習するための新しい手法を提案する。
我々は、これらのスカラー値とグローバル報酬を優先的に順序付けする方程式を導出し、ゴール形成を知らせるニーズ階層を誘導する。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:41:54 GMT)
Comparative Analysis of Resource-Efficient CNN Architectures for Brain Tumor Classification [0.0] 本研究は,脳腫瘍分類のための有効かつ単純な畳み込みニューラルネットワーク(CNN)アーキテクチャと事前訓練されたResNet18とVGG16モデルの比較分析を行った。
カスタムCNNアーキテクチャは、複雑さが低いにもかかわらず、事前訓練されたResNet18とVGG16モデルとの競合性能を示している。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 16:13:40 GMT)
Class Order Disorder in Wikidata and First Fixes [0.0] SPARQLクエリはWikidataに対して評価され、いくつかの違反や疑わしい情報の頻度を決定する。
より優れたツールやWikidataコミュニティの関与にもかかわらず、この問題にどのように対処するかについて提案されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:15:13 GMT)
Circuit design in biology and machine learning. II. Anomaly detection [0.0] 異常検出は、生体システムが非定型的な環境入力を認識し反応する方法の理解を深める可能性がある。
本研究では,生体回路の概念的枠組みを構築するための機械学習技術を構築した。
私は、機械学習の概念にインスパイアされた最小限の回路に焦点を合わせ、セルスケールに縮小しました。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 20:36:57 GMT)
Capacitive Touch Sensor Modeling With a Physics-informed Neural Network and Maxwell's Equations [0.0] 本稿では,Physical-Informed Neural Network (PINN) を用いたサロゲートモデルを用いて設計過程を高速化する手法を提案する。
PINNモデルは、指と容量センサの相互作用を記述する静電気方程式を解く。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 11:22:24 GMT)
AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0] データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。
AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:37:54 GMT)
Automatic High-quality Verilog Assertion Generation through Subtask-Focused Fine-Tuned LLMs and Iterative Prompting [0.0] 高品質なシステムVerilog Assertions (SVA) を自動生成する大規模言語モデル(LLM)に基づくフローを提案する。
サブタスクに着目したファインチューニング手法を導入し,機能的に正しいアサーションの数を7.3倍に増やした。
実験では、このアプローチを使って構文エラーのないアサーション数が26%増加した。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 03:52:32 GMT)
An unconditional distribution learning advantage with shallow quantum circuits [0.0] 浅量子回路仮説を用いた近似分布学習フレームワーク(PAC)において,非条件量子の優位性を証明した。
本研究では,1つの量子ビットゲートと2つの量子ビットゲートを用いた量子回路(QNC0)が,ファンイン古典回路(NC0)よりも優れているという有意義な生成的分布学習問題を仮説クラスの選択として挙げる。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 13:03:22 GMT)
An Integrated Deep Learning Framework for Effective Brain Tumor Localization, Segmentation, and Classification from Magnetic Resonance Images [0.0] 脳内の腫瘍は、様々な種類の脳細胞から生じる脳組織内の異常な細胞増殖によって生じる。
本研究は,MRI画像からのグリオーマの局在,セグメンテーション,分類のためのDLフレームワークを提案する。
提案モデルでは,早期診断を可能とし,患者に対してより正確な治療オプションを提供することで,医療用AIの進歩を期待できる結果が得られた。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 07:55:26 GMT)
Accelerated Hydration Site Localization and Thermodynamic Profiling [0.0] 本研究では,タンパク質構造用水和部位の高速かつ高精度な局在と熱力学的プロファイリング法を提案する。
この方法は、明示的な水分子動力学シミュレーションの大規模で新しいデータセットに基づいて訓練された幾何学的深層ニューラルネットワークに基づいている。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 17:58:58 GMT)
AI in Supply Chain Risk Assessment: A Systematic Literature Review and Bibliometric Analysis [0.0] サプライチェーンリスクアセスメント(SCRA)は、人工知能(AI)と機械学習(ML)技術を統合することで、大きな進化を目撃している。
以前のレビューでは確立した方法論を概説しているが、新たなAI/ML技術を見落としている。
本稿では,総合的な文献分析と体系的な文献レビューを行う。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 12:41:32 GMT)
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers [0.0] バイアス検出のためにテンプレートや特定のデータセットに頼るのではなく、ターゲットドメインデータに小さな摂動を持つ対実例を作成します。
感情,感情,ヘイトスピーチなどの主観的分析に広く用いられている分類器について,本研究の結果は,ある国で話されている言語に関する肯定的なバイアスを示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 15:01:52 GMT)
A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0] コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。
以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。
これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 06:40:47 GMT)
"All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0] 「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文参考訳(メタデータ) (Sat, 23 Nov 2024 19:18:08 GMT)