このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240928となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# チャットシーン:オブジェクト識別器を用いた3次元シーンと大規模言語モデル
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers ( http://arxiv.org/abs/2312.08168v3 ) ライセンス: Link先を確認 | Haifeng Huang, Yilun Chen, Zehan Wang, Rongjie Huang, Runsen Xu, Tai Wang, Luping Liu, Xize Cheng, Yang Zhao, Jiangmiao Pang, Zhou Zhao, | (参考訳) 3次元大規模言語モデル(LLM)の最近の進歩は、3次元シーン理解に有望な能力を示している。
しかし,従来の手法では複雑なシーン理解のための一般的な参照と接地能力に欠陥があった。
本稿では,オブジェクトレベルのシーンと対話するためのオブジェクト識別子とオブジェクト中心表現について紹介する。
具体的には、入力された3Dシーンを一組のオブジェクト提案に分解し、それぞれにユニークな識別子トークンを割り当てる。
シーン言語データの不足を考えると、シーン埋め込みは意味豊かな2Dまたは3D表現から派生した明示的なオブジェクトレベルの埋め込みのシーケンスとしてモデル化する。
オブジェクト識別子を用いることで、多様な3Dシーン言語タスクを統一された質問応答形式に変換し、追加のタスク固有のヘッドを必要とせずに、共同トレーニングを容易にする。
ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dといったベンチマークでは、ダウンストリームタスクの微調整が最小限に抑えられ、既存のメソッドよりも大幅に優れています。
Recent advancements in 3D Large Language Models (LLMs) have demonstrated promising capabilities for 3D scene understanding. However, previous methods exhibit deficiencies in general referencing and grounding capabilities for intricate scene comprehension. In this paper, we introduce the use of object identifiers and object-centric representations to interact with scenes at the object level. Specifically, we decompose the input 3D scene into a set of object proposals, each assigned a unique identifier token, which enables efficient object referencing and grounding during user-assistant interactions. Given the scarcity of scene-language data, we model the scene embeddings as a sequence of explicit object-level embeddings, derived from semantic-rich 2D or 3D representations. By employing object identifiers, we transform diverse 3D scene-language tasks into a unified question-answering format, facilitating joint training without the need for additional task-specific heads. With minimal fine-tuning on all downstream tasks, our model significantly outperforms existing methods on benchmarks including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-28 |
# Taming Timeout Flakiness: A Empirical Study of SAP HANA
Taming Timeout Flakiness: An Empirical Study of SAP HANA ( http://arxiv.org/abs/2402.05223v2 ) ライセンス: Link先を確認 | Alexander Berndt, Sebastian Baltes, Thomas Bach, | (参考訳) 回帰テストは、コードの変更が既存の機能を壊すのを防ぐことを目的としている。
不安定なテストは回帰テストに悪影響を及ぼす。それは、必ずしもコードの変更によって起こらないテストの失敗の結果であり、あいまいな信号を与えるからだ。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
SAP HANAにおけるテストのフレキネスを低減することを目的として,テストタイムアウトがシステムテストのフレキネスに与える影響を実証的に検討した。
我々は、タイムアウト値を自動調整するための様々なアプローチを評価し、実行時間コストを削減し、ビルドのターンアラウンド時間を改善するための適合性を評価した。
SAP HANAのテスト実行のメタデータは、同じコード修正で6ヶ月にわたって繰り返しテストを実行することで収集する。
テストのフレキネス率を分析し、テストタイムアウト値の進化を調べ、タイムアウト値を最適化するための異なるアプローチを評価する。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
テストタイムアウトは、不安定なテスト失敗の70%を占める。
開発者は通常、手動でタイムアウト値を増やしたり、長時間実行したテストを分割することで、不安定なタイムアウトに反応する。
しかし、手動でタイムアウト値を調整するのは面倒な作業である。
タイムアウト最適化に対する我々のアプローチは、タイムアウトに関連する不安定な障害を80%削減し、全体的な中央値のタイムアウト値を25%削減する。
テストタイムアウトは、システムテストにおけるフレキネスの主要な要因である。
開発者がこの問題を効果的に軽減することは難しい。
タイムアウト値を最適化する手法は、テストコストを最小化しながら、不安定な故障を低減します。
大規模産業ソフトウェアシステムに取り組んでいる実践者は、我々の発見を利用してシステムテストの有効性を高めつつ、開発者が手動で適切なタイムアウト値を維持することの負担を軽減できます。
Regression testing aims to prevent code changes from breaking existing features. Flaky tests negatively affect regression testing because they result in test failures that are not necessarily caused by code changes, thus providing an ambiguous signal. Test timeouts are one contributing factor to such flaky test failures. With the goal of reducing test flakiness in SAP HANA, we empirically study the impact of test timeouts on flakiness in system tests. We evaluate different approaches to automatically adjust timeout values, assessing their suitability for reducing execution time costs and improving build turnaround times. We collect metadata on SAP HANA's test executions by repeatedly executing tests on the same code revision over a period of six months. We analyze the test flakiness rate, investigate the evolution of test timeout values, and evaluate different approaches for optimizing timeout values. The test flakiness rate ranges from 49% to 70%, depending on the number of repeated test executions. Test timeouts account for 70% of flaky test failures. Developers typically react to flaky timeouts by manually increasing timeout values or splitting long-running tests. However, manually adjusting timeout values is a tedious task. Our approach for timeout optimization reduces timeout-related flaky failures by 80% and reduces the overall median timeout value by 25%, i.e., blocked tests are identified faster. Test timeouts are a major contributing factor to flakiness in system tests. It is challenging for developers to effectively mitigate this problem manually. Our technique for optimizing timeout values reduces flaky failures while minimizing test costs. Practitioners working on large-scale industrial software systems can use our findings to increase the effectiveness of their system tests while reducing the burden on developers to manually maintain appropriate timeout values. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-28 |
# 上から見たビュー: モデル行動の分布変化を評価するためのフレームワーク
View From Above: A Framework for Evaluating Distribution Shifts in Model Behavior ( http://arxiv.org/abs/2407.00948v2 ) ライセンス: Link先を確認 | Tanush Chopra, Michael Li, Jacob Haimes, | (参考訳) 大きな言語モデル(LLM)が特定のタスクを実行するように要求されるとき、彼らの学習した表現が現実と一致しているかをどうやって確認できますか?
本稿では,LLMの意思決定プロセスにおける分布変化を体系的に評価するドメインに依存しないフレームワークを提案する。
個々のLSMの行動は期待された行動と一致しているように見えるが、多くの試行において、統計的に重要な分布シフトが出現する。
これをテストするために、既知の結果論理を持つ明確に定義された環境を構築する: Blackjack。
1000以上の臨床試験で、LSMの学習された表現における行動的不整合を示す統計的に重要な証拠が発見された。
When large language models (LLMs) are asked to perform certain tasks, how can we be sure that their learned representations align with reality? We propose a domain-agnostic framework for systematically evaluating distribution shifts in LLMs decision-making processes, where they are given control of mechanisms governed by pre-defined rules. While individual LLM actions may appear consistent with expected behavior, across a large number of trials, statistically significant distribution shifts can emerge. To test this, we construct a well-defined environment with known outcome logic: blackjack. In more than 1,000 trials, we uncover statistically significant evidence suggesting behavioral misalignment in the learned representations of LLM. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-28 |
# カイバーの2ステップ攻撃の改善
An Improved Two-Step Attack on Kyber ( http://arxiv.org/abs/2407.06942v2 ) ライセンス: Link先を確認 | Kai Wang, Dejun Xu, Jing Tian, | (参考訳) 国家標準技術研究所(NIST)による3回にわたる厳格な評価の後、2022年7月にCRYSTALS-Kyberが選定され、2024年8月に標準化された。
今後のデプロイメントフェーズにおいて、Kyberの物理的なセキュリティをさらに評価することが緊急になる。
本稿では,Kyber に対する2段階攻撃を改良し,より少ないエネルギートレースと少ない時間で全秘密鍵 s を迅速に回収する手法を提案する。
最初のステップでは、相関パワー分析(CPA)を用いて、少数のエネルギートレースを持つsの推算値の一部を取得する。
CPAは、ピアソンとケンドールのランク相関係数の両方を活用し、リークモデルを変更して精度を向上させることで強化される。
第2のステップでは、CPAの結果に基づいてsを回復するために格子攻撃を採用する。
成功率は、トライアル・アンド・エラーの手法を構築することによって、大きく積み上げられる。
我々は,ARM Cortex-M4 上で Kyber512 (4 128-value group of s) の参照実装に対する攻撃を実装し,約9分で128-value group of s を回収することに成功した。
さらに、この場合のコストは、グループで60CPAの推測値と推測で15のパワートレースに限られます。
After three rounds of post-quantum cryptography (PQC) strict evaluations conducted by the national institute of standards and technology (NIST), CRYSTALS-Kyber was successfully selected in July 2022 and standardized in August 2024. It becomes urgent to further evaluate Kyber's physical security for the upcoming deployment phase. In this brief, we present an improved two-step attack on Kyber to quickly recover the full secret key, s, by using much fewer energy traces and less time. In the first step, we use the correlation power analysis (CPA) to obtain a portion of guess values of s with a small number of energy traces. The CPA is enhanced by utilizing both the Pearson and Kendall's rank correlation coefficients and modifying the leakage model to improve the accuracy. In the second step, we adopt the lattice attack to recover s based on the results of CPA. The success rate is largely built up by constructing a trial-and-error method. We implement the proposed attack for the reference implementation of Kyber512 (4 128-value groups of s) on ARM Cortex-M4 and successfully recover a 128-value group of s in about 9 minutes using a 16-core machine. Additionally, in that case, we only cost at most 60 CPA guess values for a group and 15 power traces for a guess. | 翻訳日:2024-11-08 22:51:20 公開日:2024-09-28 |
# 動的環境における自律的意思決定のための奥行き駆動型強化学習(DAD-RL)
Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment ( http://arxiv.org/abs/2407.08932v2 ) ライセンス: Link先を確認 | Jayabrata Chowdhury, Venkataramanan Shivaraman, Sumit Dangi, Suresh Sundaram, P. B. Sujit, | (参考訳) 都市環境における自律走行車(AV)の意思決定は、周囲の車両との動的相互作用のために本質的に困難である。
安全な計画のためには、AVはシーン内の様々な時空間相互作用の重み付けを理解する必要がある。
現代の研究では、トラジェクトリ予測を中心に相互作用を符号化するためにコロッサルトランスフォーマーアーキテクチャを使用しており、計算複雑性が増大している。
時空間的理解と性能を損なうことなくこの問題に対処するため,エゴのRL駆動意思決定プロセスにおいて,周囲車両の意義を動的に割り当て,組み込む,DADRL(Deep Attention Driven Reinforcement Learning)フレームワークを提案する。
AV中心の時空間アテンション符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
地図と経路のコンテキストを理解するために,コンテキストマップから特徴を抽出するためにコンテキストエンコーダを用いる。
時空間表現と文脈符号化の組み合わせは、包括的な状態表現を提供する。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
我々は,交通信号のないSMARTS都市ベンチマークの枠組みを検証し,DADRLが最近の最先端手法よりも優れていることを示す。
さらに、アブレーション研究は、優れた性能を達成する上で、文脈エンコーダと時空間アテンションエンコーダの重要性を強調している。
Autonomous Vehicle (AV) decision making in urban environments is inherently challenging due to the dynamic interactions with surrounding vehicles. For safe planning, AV must understand the weightage of various spatiotemporal interactions in a scene. Contemporary works use colossal transformer architectures to encode interactions mainly for trajectory prediction, resulting in increased computational complexity. To address this issue without compromising spatiotemporal understanding and performance, we propose the simple Deep Attention Driven Reinforcement Learning (DADRL) framework, which dynamically assigns and incorporates the significance of surrounding vehicles into the ego's RL driven decision making process. We introduce an AV centric spatiotemporal attention encoding (STAE) mechanism for learning the dynamic interactions with different surrounding vehicles. To understand map and route context, we employ a context encoder to extract features from context maps. The spatiotemporal representations combined with contextual encoding provide a comprehensive state representation. The resulting model is trained using the Soft Actor Critic (SAC) algorithm. We evaluate the proposed framework on the SMARTS urban benchmarking scenarios without traffic signals to demonstrate that DADRL outperforms recent state of the art methods. Furthermore, an ablation study underscores the importance of the context-encoder and spatio temporal attention encoder in achieving superior performance. | 翻訳日:2024-11-08 22:17:54 公開日:2024-09-28 |
# CollectiveSFT:中国医学ベンチマークのための大規模言語モデルのスケーリングと医療における集団指導
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare ( http://arxiv.org/abs/2407.19705v3 ) ライセンス: Link先を確認 | Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny, | (参考訳) LLM(Large Language Models)の急速な進歩は、その能力を評価するための多数のベンチマークの作成を促している。この研究は、中国における包括的医療ベンチマーク(CMB)に焦点を当て、教師付き微調整(SFT)におけるデータセットの多様性と分散が、LLMのパフォーマンスをいかに向上させるかを示す。注目すべきことに、我々は、より大きなモデルに匹敵するスコアを達成するために、小さなベースモデルをトレーニングし、モデルのサイズに関わらず、多種多様な分散データセットがパフォーマンスを最適化できることを示した。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
以上の結果から,より広い範囲のトレーニングデータにより,データセットの品質と微調整プロセスにおける多様性の重要性を浮き彫りにすることで,さまざまな医療シナリオに対してモデルを一般化し,効果的に実行する能力が向上する可能性が示唆された。
我々は、将来の研究のためのモデルをhttps://github.com/CAS-SIAT-XinHai/CollectiveSFTでオープンソース化しました。
The rapid progress in Large Language Models (LLMs) has prompted the creation of numerous benchmarks to evaluate their capabilities.This study focuses on the Comprehensive Medical Benchmark in Chinese (CMB), showcasing how dataset diversity and distribution in supervised fine-tuning (SFT) may enhance LLM performance.Remarkably, We successfully trained a smaller base model to achieve scores comparable to larger models, indicating that a diverse and well-distributed dataset can optimize performance regardless of model size.This study suggests that even smaller models may reach high performance levels with carefully curated and varied datasets. By integrating a wide range of instructional content, our approach addresses potential issues such as data quality inconsistencies. Our results imply that a broader spectrum of training data may enhance a model's ability to generalize and perform effectively across different medical scenarios, highlighting the importance of dataset quality and diversity in fine-tuning processes. We open-source the model for future research at https://github.com/CAS-SIAT-XinHai/CollectiveSFT | 翻訳日:2024-11-08 14:27:29 公開日:2024-09-28 |
# ブール行列論理プログラミングによる二元関数の能動的学習
Active learning of digenic functions with boolean matrix logic programming ( http://arxiv.org/abs/2408.14487v2 ) ライセンス: Link先を確認 | Lun Ai, Stephen H. Muggleton, Shi-shun Liang, Geoff S. Baldwin, | (参考訳) 本研究では,ゲノムスケールメタボリック・ネットワーク・モデル (GEMs) と呼ばれる,代謝過程の包括的データベースに基づく,細胞工学の促進と生物学的発見の促進を目的として,論理ベースの機械学習技術を適用した。
予測されたホストの振る舞いは、常にGEMによって正しく記述されるわけではない。
GEM内の複雑な遺伝的相互作用の学習は、計算的および経験的課題を提示する。
これらの問題に対処するために,ブール行列を利用して大規模論理プログラムを評価する,Boolean Matrix Logic Programming (BMLP) と呼ばれる新しい手法について述べる。
能動的学習を通じて情報的実験を導くことにより,ゲノム仮説空間を効率的に探索するシステム「BMLP_{active}$」を導入する。
サブシンボリックな方法とは対照的に、$BMLP_{active}$は、データログ論理プログラムを用いて解釈可能で論理的な表現で広く受け入れられている細菌ホストの最先端のGEMを符号化する。
特に、$BMLP_{active}$は、ランダムな実験よりも訓練例が少ない遺伝子ペア間の相互作用をうまく学習することができ、実験的な設計空間の増加を克服することができる。
$BMLP_{active}$は代謝モデルの迅速な最適化を可能にし、微生物工学のための自動運転ラボに現実的なアプローチを提供する。
We apply logic-based machine learning techniques to facilitate cellular engineering and drive biological discovery, based on comprehensive databases of metabolic processes called genome-scale metabolic network models (GEMs). Predicted host behaviours are not always correctly described by GEMs. Learning the intricate genetic interactions within GEMs presents computational and empirical challenges. To address these, we describe a novel approach called Boolean Matrix Logic Programming (BMLP) by leveraging boolean matrices to evaluate large logic programs. We introduce a new system, $BMLP_{active}$, which efficiently explores the genomic hypothesis space by guiding informative experimentation through active learning. In contrast to sub-symbolic methods, $BMLP_{active}$ encodes a state-of-the-art GEM of a widely accepted bacterial host in an interpretable and logical representation using datalog logic programs. Notably, $BMLP_{active}$ can successfully learn the interaction between a gene pair with fewer training examples than random experimentation, overcoming the increase in experimental design space. $BMLP_{active}$ enables rapid optimisation of metabolic models and offers a realistic approach to a self-driving lab for microbial engineering. | 翻訳日:2024-11-08 05:04:12 公開日:2024-09-28 |
# GeoTransfer : 伝達学習による一般化可能なFew-Shot多視点再構成
GeoTransfer : Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning ( http://arxiv.org/abs/2408.14724v2 ) ライセンス: Link先を確認 | Shubhendu Jena, Franck Multon, Adnane Boukhayma, | (参考訳) 本稿では,ニューラルラジアンス場(NeRF)の表現力を活用し,その特徴を高速に伝達して正確な占有場を学習することで,スパース3次元再構成手法を提案する。
スパース入力からの既存の3次元再構成手法は、複雑な幾何学的詳細を捉えるのに依然として苦労しており、隠蔽領域を扱う際の限界に悩まされている。
一方、NeRFは複雑なシーンをモデル化する上で優れているが、意味のある幾何学を抽出する手段を提供していない。
提案手法は,NeRF特徴量に符号化された情報を伝達して,正確な占有場表現を導出することにより,両世界の長所を提供する。
我々は、訓練済みで一般化可能なNeRFネットワークを用いて、詳細なシーンラディアンス情報をキャプチャし、この知識を、一般化可能な暗黙の占有ネットワークのトレーニングに迅速に転送する。
このプロセスは、一般化可能なNeRFでエンコードされたシーン幾何学の知識を活用し、3次元空間のより正確な一般化可能な表現を促進するために、占有場を学習するためにそれを精製するのに役立つ。
伝達学習アプローチは、等級(数日から3.5時間)でトレーニング時間を劇的に短縮し、スクラッチから一般化可能な表面再構成法を訓練する必要がなくなる。
さらに, 精度の高い占有領域の学習を支援するボリュームレンダリングウェイトに対する新たな損失と, 占有領域のグローバルな平滑化を支援する通常の損失を導入する。
我々はDTUデータセットに対する我々のアプローチを評価し、特にスパース入力データと隠蔽領域の挑戦シナリオにおいて、再構築精度の観点から最先端の性能を実証する。
さらに,Blended MVSデータセットに定性的な結果を表示することで,再学習を伴わずに,本手法の一般化能力を実証する。
This paper presents a novel approach for sparse 3D reconstruction by leveraging the expressive power of Neural Radiance Fields (NeRFs) and fast transfer of their features to learn accurate occupancy fields. Existing 3D reconstruction methods from sparse inputs still struggle with capturing intricate geometric details and can suffer from limitations in handling occluded regions. On the other hand, NeRFs excel in modeling complex scenes but do not offer means to extract meaningful geometry. Our proposed method offers the best of both worlds by transferring the information encoded in NeRF features to derive an accurate occupancy field representation. We utilize a pre-trained, generalizable state-of-the-art NeRF network to capture detailed scene radiance information, and rapidly transfer this knowledge to train a generalizable implicit occupancy network. This process helps in leveraging the knowledge of the scene geometry encoded in the generalizable NeRF prior and refining it to learn occupancy fields, facilitating a more precise generalizable representation of 3D space. The transfer learning approach leads to a dramatic reduction in training time, by orders of magnitude (i.e. from several days to 3.5 hrs), obviating the need to train generalizable sparse surface reconstruction methods from scratch. Additionally, we introduce a novel loss on volumetric rendering weights that helps in the learning of accurate occupancy fields, along with a normal loss that helps in global smoothing of the occupancy fields. We evaluate our approach on the DTU dataset and demonstrate state-of-the-art performance in terms of reconstruction accuracy, especially in challenging scenarios with sparse input data and occluded regions. We furthermore demonstrate the generalization capabilities of our method by showing qualitative results on the Blended MVS dataset without any retraining. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-28 |
# カラーコードによる低オーバーヘッドマジック状態蒸留
Low-overhead magic state distillation with color codes ( http://arxiv.org/abs/2409.07707v2 ) ライセンス: Link先を確認 | Seok-Hyung Lee, Felix Thomsen, Nicholas Fazio, Benjamin J. Brown, Stephen D. Bartlett, | (参考訳) 非クリフォードゲートのフォールトトレラント実装は、量子誤り訂正符号を用いて普遍的なフォールトトレラント量子コンピューティングを実現する上で大きな課題である。
マジックステート蒸留は、最もよく研究されている方法であるが、かなりの資源を必要とする。
したがって、論理レベルと物理レベルの両方の観点から、特定のコードに対してマジックステート蒸留を調整し、最適化することが重要である。
本研究では,2次元カラーコードに対して,表面符号よりも高い符号化率,クリフォードゲートの超越実装,効率的な格子手術を期待できる最適化を行う。
本研究では,15-to-1蒸留回路と格子手術に基づく2つの蒸留方式を提案する。
我々の最初のスキームは故障T測定を使い、目標の不忠実度が一定の閾値を超える場合(物理誤差率$p$で\sim 35p^3$)に資源効率を提供する。
資源効率を保ちながら低い不整合性を実現するため,第2の手法では蒸留フリーの耐故障性魔法状態準備プロトコルを利用して,第1の手法よりもはるかに低い不整合性(例えば$\sim 10^{-19}$ for $p = 10^{-4}$)を実現する。
特に,本手法は,与えられた達成可能な目標不忠実度に対して,最大2桁の資源コストで,カラーコードに対する最も優れたマジック状態蒸留法より優れている。
Fault-tolerant implementation of non-Clifford gates is a major challenge for achieving universal fault-tolerant quantum computing with quantum error-correcting codes. Magic state distillation is the most well-studied method for this but requires significant resources. Hence, it is crucial to tailor and optimize magic state distillation for specific codes from both logical- and physical-level perspectives. In this work, we perform such optimization for two-dimensional color codes, which are promising due to their higher encoding rates compared to surface codes, transversal implementation of Clifford gates, and efficient lattice surgery. We propose two distillation schemes based on the 15-to-1 distillation circuit and lattice surgery, which differ in their methods for handling faulty rotations. Our first scheme uses faulty T-measurement, offering resource efficiency when the target infidelity is above a certain threshold ($\sim 35p^3$ for physical error rate $p$). To achieve lower infidelities while maintaining resource efficiency, our second scheme exploits a distillation-free fault-tolerant magic state preparation protocol, achieving significantly lower infidelities (e.g., $\sim 10^{-19}$ for $p = 10^{-4}$) than the first scheme. Notably, our schemes outperform the best existing magic state distillation methods for color codes by up to about two orders of magnitude in resource costs for a given achievable target infidelity. | 翻訳日:2024-11-07 21:42:46 公開日:2024-09-28 |
# Nvidia GPUとMixed Precisionによる分類モデルの機械学習カーボンフットプリントの改善 -その1-
Improve Machine Learning carbon footprint using Nvidia GPU and Mixed Precision training for classification models -- Part I ( http://arxiv.org/abs/2409.07853v2 ) ライセンス: Link先を確認 | Andrew Antonopoulos, | (参考訳) これは私の修士論文の第1部であり、分類MLモデルのトレーニング中にデフォルトの浮動小数点(32bit)とNvidiaの混合精度(16bit、32bit)を用いて消費電力を比較する。
特定のハードウェアを備えたカスタムPCが実験のために構築され、バッチサイズ、ニューロン、エポックなどの異なるMLハイパーパラメータがDeep Neural Networks (DNN)を構築するために選択された。
さらに、実験中に、グラフィクス処理ユニット(GPU)、中央処理ユニット(CPU)、ランダムアクセスメモリ(RAM)、および壁に接続されたワットメータからWattsの消費電力データを収集するために様々なソフトウェアが使用された。
DNNのデフォルトのハイパーパラメータ値を持つベンチマークテストが参照として使用され、実験では異なる設定の組み合わせが使用された。
結果はExcelに記録され、グループ間の平均値を計算し、グラフとテーブルを用いて比較するために記述統計が選択された。
その結果, 混合精度と特定のハイパーパラメータを併用した場合, 有意差は認められなかった。
ベンチマークと比較すると、分類の最適化により消費電力は7ワットから11ワットに減少した。
同様に、計算が同じ消費電力データを使用するため、炭素フットプリントは減少する。
しかし、ハードウェア性能に悪影響を及ぼす可能性があるため、ハイパーパラメータの設定には考慮が必要である。
しかし,本研究では,ANOVAとTテストの関係を比較するために,推論統計(特にANOVAとTテスト)を必要とした。
さらに, ベンチマークと実験の関係について, 統計的に有意な評価は得られなかった。
しかし、GPUのクラスタによるより広範な実装は、本質的な要因であり、統計分析の結果を変える可能性があるため、サンプルサイズを著しく増大させることができる。
This is the 1st part of the dissertation for my master degree and compares the power consumption using the default floating point (32bit) and Nvidia mixed precision (16bit and 32bit) while training a classification ML model. A custom PC with specific hardware was built to perform the experiments, and different ML hyper-parameters, such as batch size, neurons, and epochs, were chosen to build Deep Neural Networks (DNN). Additionally, various software was used during the experiments to collect the power consumption data in Watts from the Graphics Processing Unit (GPU), Central Processing Unit (CPU), Random Access Memory (RAM) and manually from a wattmeter connected to the wall. A benchmarking test with default hyper parameter values for the DNN was used as a reference, while the experiments used a combination of different settings. The results were recorded in Excel, and descriptive statistics were chosen to calculate the mean between the groups and compare them using graphs and tables. The outcome was positive when using mixed precision combined with specific hyper-parameters. Compared to the benchmarking, the optimisation for the classification reduced the power consumption between 7 and 11 Watts. Similarly, the carbon footprint is reduced because the calculation uses the same power consumption data. Still, a consideration is required when configuring hyper-parameters because it can negatively affect hardware performance. However, this research required inferential statistics, specifically ANOVA and T-test, to compare the relationship between the means. Furthermore, tests indicated no statistical significance of the relationship between the benchmarking and experiments. However, a more extensive implementation with a cluster of GPUs can increase the sample size significantly, as it is an essential factor and can change the outcome of the statistical analysis. | 翻訳日:2024-11-07 21:42:46 公開日:2024-09-28 |
# 医療文書自動作成のための大規模言語モデルの効率的な微調整
Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation ( http://arxiv.org/abs/2409.09324v2 ) ライセンス: Link先を確認 | Hui Yi Leong, Yi Fan Gao, Ji Shuai, Yang Zhang, Uktu Pamuksuz, | (参考訳) 科学的な研究によると、直接治療に費やされる1時間ごとに、医師は管理業務、特に電子健康記録(EHR)と机作業に2時間近くを費やしている。
この過剰な管理負担は、患者の治療に使える時間を短縮するだけでなく、医師のバーンアウトや医療提供の非効率に寄与する。
これらの課題に対処するため,医学的対話から医療報告を自動生成する大規模言語モデル(LLM)であるMediGenを紹介した。
LLaMA3-8Bを含むオープンソース事前訓練モデルに最先端の方法論を活用することで、臨床相互作用の転写と要約の精度を向上する。
LLaMA3-8Bモデルでは,ROUGEスコアが58%,BERTScore-F1が72%と有望な結果を示した。
これらの結果から,メディジェンは医師の業務負担を大幅に削減し,医療効率と医師の健康を向上する可能性が示唆された。
Scientific research indicates that for every hour spent in direct patient care, physicians spend nearly two additional hours on administrative tasks, particularly on electronic health records (EHRs) and desk work. This excessive administrative burden not only reduces the time available for patient care but also contributes to physician burnout and inefficiencies in healthcare delivery. To address these challenges, this study introduces MediGen, a fine-tuned large language model (LLM) designed to automate the generation of medical reports from medical dialogues. By leveraging state-of-the-art methodologies for fine-tuning open-source pretrained models, including LLaMA3-8B, MediGen achieves high accuracy in transcribing and summarizing clinical interactions. The fine-tuned LLaMA3-8B model demonstrated promising results, achieving a ROUGE score of 58% and a BERTScore-F1 of 72%, indicating its effectiveness in generating accurate and clinically relevant medical reports. These findings suggest that MediGen has the potential to significantly reduce the administrative workload on physicians, improving both healthcare efficiency and physician well-being. | 翻訳日:2024-11-07 20:57:42 公開日:2024-09-28 |
# マルチモーダルデータ融合におけるテンソル解析のための位相固有値理論
Topological Eigenvalue Theorems for Tensor Analysis in Multi-Modal Data Fusion ( http://arxiv.org/abs/2409.09392v2 ) ライセンス: Link先を確認 | Ronald Katende, | (参考訳) 本稿では,ベッチ数などの位相不変量を利用して,マルチモーダルデータ融合の文脈におけるテンソル固有値解析のための新しいフレームワークを提案する。
テンソル固有値解析への伝統的なアプローチは、しばしば行列理論を拡張するが、この研究はテンソル構造の理解を強化するトポロジカルな視点を導入する。
固有値とトポロジカルな特徴を結びつける新しい定理を確立することにより、提案フレームワークはデータの潜在構造について深い洞察を与え、解釈可能性と堅牢性の両方を改善する。
データ融合の応用は、このアプローチの理論的および実践的な重要性を示し、機械学習とデータサイエンスに大きな影響を与える可能性がある。
This paper presents a novel framework for tensor eigenvalue analysis in the context of multi-modal data fusion, leveraging topological invariants such as Betti numbers. Traditional approaches to tensor eigenvalue analysis often extend matrix theory, whereas this work introduces a topological perspective to enhance the understanding of tensor structures. By establishing new theorems that link eigenvalues to topological features, the proposed framework provides deeper insights into the latent structure of data, improving both interpretability and robustness. Applications in data fusion demonstrate the theoretical and practical significance of this approach, with potential for broad impact in machine learning and data science. | 翻訳日:2024-11-07 20:57:42 公開日:2024-09-28 |
# より少ない: 効率的なマルチモーダルLCMのための簡易かつ効果的なトーケン削減法
Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs ( http://arxiv.org/abs/2409.10994v2 ) ライセンス: Link先を確認 | Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang, | (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩は、様々な領域で顕著なパフォーマンスをもたらした。
しかし、この進歩はこれらのモデルの資源消費が大幅に増加したことに伴う。
MLLMの効率向上を目的とした新しいアプローチであるTRIM(CLIP Metric)を導入し,その性能を損なうことなくその効率向上を図る。
視覚質問応答(VQA)タスクにおける人間の注意パターンにインスパイアされたTRIMは、画像トークンの選択と縮小について、新たな視点を示す。
TRIM法は12のデータセットにまたがって広範囲にテストされており、その結果は、一貫した性能を維持しながら、計算オーバーヘッドを大幅に削減したことを示している。
本研究はMLLMの効率的な開発において重要な一歩を踏み出し,高性能モデルのアクセシビリティ向上と持続可能性向上に寄与する。
The rapid advancement of Multimodal Large Language Models (MLLMs) has led to remarkable performances across various domains. However, this progress is accompanied by a substantial surge in the resource consumption of these models. We address this pressing issue by introducing a new approach, Token Reduction using CLIP Metric (TRIM), aimed at improving the efficiency of MLLMs without sacrificing their performance. Inspired by human attention patterns in Visual Question Answering (VQA) tasks, TRIM presents a fresh perspective on the selection and reduction of image tokens. The TRIM method has been extensively tested across 12 datasets, and the results demonstrate a significant reduction in computational overhead while maintaining a consistent level of performance. This research marks a critical stride in efficient MLLM development, promoting greater accessibility and sustainability of high-performing models. | 翻訳日:2024-11-07 20:13:03 公開日:2024-09-28 |
# 分子オプトメカニクスのためのナノキャビティ--基礎的記述と応用
Nanocavities for Molecular Optomechanics: their fundamental description and applications ( http://arxiv.org/abs/2409.12537v1 ) ライセンス: Link先を確認 | Philippe Roelli, Huatian Hu, Ewold Verhagen, Stephanie Reich, Christophe Galland, | (参考訳) 光が分子振動とエネルギーを非弾性散乱で交換する過程である振動ラマン散乱は、光と振動の両方が量子化される量子枠組みにおいて最も基礎的に説明されている。
ラマン散乱器をプラズモンナノキャビティ内に埋め込むと、表面増強ラマン散乱(SERS)の十分に制御された実装のように、結合系は、コヒーレントでパラメトリックに増幅された光-振動相互作用が振動状態工学とナノスケール非線形光学の資源となるオプティメカルキャビティを実現する。
このパースペクティブの目的は、分子空洞光学(McOM)の分野における言語とパラメータの関連を明らかにすることである。
分子空洞光学の理論的枠組みをSERSやナノプラズモニクスのコミュニティ全体において実用的に活用することを目的としている。
品質因子(Q$'s)とモード体積(V$'s)は基本的に光-物質相互作用の増強におけるナノキャビティの性能を示すが、分子光学の重要なパラメータは光-物質結合効率(\eta$'s)と光学的協調性(\mathcal{C}$'s)である。
これらの量の重要性の図示として、分子振動で光学的に誘起される透明性を観察できる可能性について検討する。
Vibrational Raman scattering -- a process where light exchanges energy with a molecular vibration through inelastic scattering -- is most fundamentally described in a quantum framework where both light and vibration are quantized. When the Raman scatterer is embedded inside a plasmonic nanocavity, as in some sufficiently controlled implementations of surface-enhanced Raman scattering (SERS), the coupled system realizes an optomechanical cavity, where coherent and parametrically amplified light-vibration interaction becomes a resource for vibrational state engineering and nanoscale nonlinear optics. The purpose of this Perspective is to clarify the connection between the languages and parameters used in the fields of molecular cavity optomechanics (McOM) vs. its conventional, `macroscopic' counterpart, and to summarize the main results achieved so far in McOM and the most pressing experimental and theoretical challenges. We aim to make the theoretical framework of molecular cavity optomechanics practically usable for the SERS and nanoplasmonics community at large. While quality factors ($Q$'s) and mode volumes ($V$'s) essentially describe the performance of a nanocavity in enhancing light-matter interaction, we point to the light-cavity coupling efficiencies ($\eta$'s) and optomechanical cooperativities ($\mathcal{C}$'s) as the key parameters for molecular optomechanics. As an illustration of the significance of these quantities, we investigate the feasibility of observing optomechanically induced transparency with a molecular vibration -- a measurement that would allow for a direct estimate of the optomechanical cooperativity. | 翻訳日:2024-11-07 14:30:28 公開日:2024-09-28 |
# 分子オプトメカニクスのためのナノキャビティ--基礎的記述と応用
Nanocavities for Molecular Optomechanics: their fundamental description and applications ( http://arxiv.org/abs/2409.12537v2 ) ライセンス: Link先を確認 | Philippe Roelli, Huatian Hu, Ewold Verhagen, Stephanie Reich, Christophe Galland, | (参考訳) 光が分子振動とエネルギーを非弾性散乱で交換する過程である振動ラマン散乱は、光と振動の両方が量子化される量子枠組みにおいて最も基礎的に説明されている。
ラマン散乱器をプラズモンナノキャビティ内に埋め込むと、表面増強ラマン散乱(SERS)の十分に制御された実装のように、結合系は、コヒーレントでパラメトリックに増幅された光-振動相互作用が振動状態工学とナノスケール非線形光学の資源となるオプティメカルキャビティを実現する。
このパースペクティブの目的は、分子空洞光学(McOM)の分野における言語とパラメータの関連を明らかにすることである。
分子空洞光学の理論的枠組みをSERSやナノプラズモニクスのコミュニティ全体において実用的に活用することを目的としている。
品質因子(Q$'s)とモード体積(V$'s)は基本的に光-物質相互作用の増強におけるナノキャビティの性能を示すが、分子光学の重要なパラメータは光-物質結合効率(\eta$'s)と光学的協調性(\mathcal{C}$'s)である。
これらの量の重要性の図示として、分子振動で光学的に誘起される透明性を観察できる可能性について検討する。
Vibrational Raman scattering -- a process where light exchanges energy with a molecular vibration through inelastic scattering -- is most fundamentally described in a quantum framework where both light and vibration are quantized. When the Raman scatterer is embedded inside a plasmonic nanocavity, as in some sufficiently controlled implementations of surface-enhanced Raman scattering (SERS), the coupled system realizes an optomechanical cavity, where coherent and parametrically amplified light-vibration interaction becomes a resource for vibrational state engineering and nanoscale nonlinear optics. The purpose of this Perspective is to clarify the connection between the languages and parameters used in the fields of molecular cavity optomechanics (McOM) vs. its conventional, `macroscopic' counterpart, and to summarize the main results achieved so far in McOM and the most pressing experimental and theoretical challenges. We aim to make the theoretical framework of molecular cavity optomechanics practically usable for the SERS and nanoplasmonics community at large. While quality factors ($Q$'s) and mode volumes ($V$'s) essentially describe the performance of a nanocavity in enhancing light-matter interaction, we point to the light-cavity coupling efficiencies ($\eta$'s) and optomechanical cooperativities ($\mathcal{C}$'s) as the key parameters for molecular optomechanics. As an illustration of the significance of these quantities, we investigate the feasibility of observing optomechanically induced transparency with a molecular vibration -- a measurement that would allow for a direct estimate of the optomechanical cooperativity. | 翻訳日:2024-11-07 14:30:28 公開日:2024-09-28 |
# 一般グラフ上のゲージループ弦ハドロンの定式化と完全ゲージ固定ハミルトニアン格子ゲージ理論への応用
Gauge Loop-String-Hadron Formulation on General Graphs and Applications to Fully Gauge Fixed Hamiltonian Lattice Gauge Theory ( http://arxiv.org/abs/2409.13812v1 ) ライセンス: Link先を確認 | I. M. Burbano, Christian W. Bauer, | (参考訳) ゲージ不変量、ループ弦ハドロン(LSH)に基づくSU(2)ヤン・ミルズ理論の表現を、頂点と半リンクからなる一般グラフ上に展開する。
弱い結合の研究から着想を得て、この手法を最大木ゲージ固定に適用する。
これにより、LSH量子数の観点から理論の完全なゲージ固定表現を開発することができる。
この定式化の量子数が磁気記述の変数とどのように直接関連しているかを明示的に示す。
こうすることで、Kogut-Susskind の定式化、前ポテンシャル、および点分割が一般グラフに対して作用する方法についても詳細に説明する。
この研究の付録では、一般グラフ上で定義されるハミルトン純ゲージ理論の数学的詳細を自己完結した説明を提供する。
We develop a gauge invariant, Loop-String-Hadron (LSH) based representation of SU(2) Yang-Mills theory defined on a general graph consisting of vertices and half-links. Inspired by weak coupling studies, we apply this technique to maximal tree gauge fixing. This allows us to develop a fully gauge fixed representation of the theory in terms of LSH quantum numbers. We explicitly show how the quantum numbers in this formulation directly relate to the variables in the magnetic description. In doing so, we will also explain in detail the way that the Kogut-Susskind formulation, prepotentials, and point splitting, work for general graphs. In the appendix of this work we provide a self-contained exposition of the mathematical details of Hamiltonian pure gauge theories defined on general graphs. | 翻訳日:2024-11-07 05:01:49 公開日:2024-09-28 |
# 一般グラフ上のゲージループ弦ハドロンの定式化と完全ゲージ固定ハミルトニアン格子ゲージ理論への応用
Gauge Loop-String-Hadron Formulation on General Graphs and Applications to Fully Gauge Fixed Hamiltonian Lattice Gauge Theory ( http://arxiv.org/abs/2409.13812v2 ) ライセンス: Link先を確認 | I. M. Burbano, Christian W. Bauer, | (参考訳) ゲージ不変量、ループ弦ハドロン(LSH)に基づくSU(2)ヤン・ミルズ理論の表現を、頂点と半リンクからなる一般グラフ上に展開する。
弱い結合の研究から着想を得て、この手法を最大木ゲージ固定に適用する。
これにより、LSH量子数の観点から理論の完全なゲージ固定表現を開発することができる。
この定式化の量子数が磁気記述の変数とどのように直接関連しているかを明示的に示す。
こうすることで、Kogut-Susskind の定式化、前ポテンシャル、および点分割が一般グラフに対して作用する方法についても詳細に説明する。
この研究の付録では、一般グラフ上で定義されるハミルトン純ゲージ理論の数学的詳細を自己完結した説明を提供する。
We develop a gauge invariant, Loop-String-Hadron (LSH) based representation of SU(2) Yang-Mills theory defined on a general graph consisting of vertices and half-links. Inspired by weak coupling studies, we apply this technique to maximal tree gauge fixing. This allows us to develop a fully gauge fixed representation of the theory in terms of LSH quantum numbers. We explicitly show how the quantum numbers in this formulation directly relate to the variables in the magnetic description. In doing so, we will also explain in detail the way that the Kogut-Susskind formulation, prepotentials, and point splitting, work for general graphs. In the appendix of this work we provide a self-contained exposition of the mathematical details of Hamiltonian pure gauge theories defined on general graphs. | 翻訳日:2024-11-07 05:01:49 公開日:2024-09-28 |
# ビデオデノイング拡散と構造同定によるメカニカル多元系メタマテリアルの非線形逆設計
Nonlinear Inverse Design of Mechanical Multi-Material Metamaterials Enabled by Video Denoising Diffusion and Structure Identifier ( http://arxiv.org/abs/2409.13908v1 ) ライセンス: Link先を確認 | Jaewan Park, Shashank Kushwaha, Junyan He, Seid Koric, Qibang Liu, Iwona Jasiuk, Diab Abueidda, | (参考訳) メタマテリアルは、添加物製造の進歩により、将来性のある分野として、カスタマイズされた特性を持つ合成材料である。
これらの材料は内部の格子構造から独特の機械的特性を導き出し、しばしば幾何学的パターンを繰り返す複数の材料から構成される。
従来の逆設計アプローチは潜在的な可能性を示しているが、非線形材料挙動を複数の可能な構造構造にマッピングするのに苦労している。
本稿では, 非線形応力-ひずみ応答に基づく逆多材料設計のためのビデオ拡散モデル, 生成人工知能(AI)を利用した新しいフレームワークを提案する。
提案手法は,(1) 対象の非線形応力-ひずみ応答に基づく解場生成のためのビデオ拡散モデルを用いたフィールドジェネレータと,(2) 対応する多材料2D設計を決定するための2つのUNetモデルを用いた構造識別子からなる。
複数の材料、塑性、大きな変形を取り入れることで、我々の革新的な設計手法は、現実の応用でよく見られるメタマテリアルの高非線形力学的挙動の制御を強化することができる。
機械的特性を微調整した次世代メタマテリアルを生成するための有望なソリューションを提供する。
Metamaterials, synthetic materials with customized properties, have emerged as a promising field due to advancements in additive manufacturing. These materials derive unique mechanical properties from their internal lattice structures, which are often composed of multiple materials that repeat geometric patterns. While traditional inverse design approaches have shown potential, they struggle to map nonlinear material behavior to multiple possible structural configurations. This paper presents a novel framework leveraging video diffusion models, a type of generative artificial Intelligence (AI), for inverse multi-material design based on nonlinear stress-strain responses. Our approach consists of two key components: (1) a fields generator using a video diffusion model to create solution fields based on target nonlinear stress-strain responses, and (2) a structure identifier employing two UNet models to determine the corresponding multi-material 2D design. By incorporating multiple materials, plasticity, and large deformation, our innovative design method allows for enhanced control over the highly nonlinear mechanical behavior of metamaterials commonly seen in real-world applications. It offers a promising solution for generating next-generation metamaterials with finely tuned mechanical characteristics. | 翻訳日:2024-11-07 04:39:44 公開日:2024-09-28 |
# ビデオデノイング拡散と構造同定によるメカニカル多元系メタマテリアルの非線形逆設計
Nonlinear Inverse Design of Mechanical Multi-Material Metamaterials Enabled by Video Denoising Diffusion and Structure Identifier ( http://arxiv.org/abs/2409.13908v2 ) ライセンス: Link先を確認 | Jaewan Park, Shashank Kushwaha, Junyan He, Seid Koric, Qibang Liu, Iwona Jasiuk, Diab Abueidda, | (参考訳) メタマテリアルは、添加物製造の進歩により、将来性のある分野として、カスタマイズされた特性を持つ合成材料である。
これらの材料は内部の格子構造から独特の機械的特性を導き出し、しばしば幾何学的パターンを繰り返す複数の材料から構成される。
従来の逆設計アプローチは潜在的な可能性を示しているが、非線形材料挙動を複数の可能な構造構造にマッピングするのに苦労している。
本稿では, 非線形応力-ひずみ応答に基づく逆多材料設計のためのビデオ拡散モデル, 生成人工知能(AI)を利用した新しいフレームワークを提案する。
提案手法は,(1) 対象の非線形応力-ひずみ応答に基づく解場生成のためのビデオ拡散モデルを用いたフィールドジェネレータと,(2) 対応する多材料2D設計を決定するための2つのUNetモデルを用いた構造識別子からなる。
複数の材料、塑性、大きな変形を取り入れることで、我々の革新的な設計手法は、現実の応用でよく見られるメタマテリアルの高非線形力学的挙動の制御を強化することができる。
機械的特性を微調整した次世代メタマテリアルを生成するための有望なソリューションを提供する。
Metamaterials, synthetic materials with customized properties, have emerged as a promising field due to advancements in additive manufacturing. These materials derive unique mechanical properties from their internal lattice structures, which are often composed of multiple materials that repeat geometric patterns. While traditional inverse design approaches have shown potential, they struggle to map nonlinear material behavior to multiple possible structural configurations. This paper presents a novel framework leveraging video diffusion models, a type of generative artificial Intelligence (AI), for inverse multi-material design based on nonlinear stress-strain responses. Our approach consists of two key components: (1) a fields generator using a video diffusion model to create solution fields based on target nonlinear stress-strain responses, and (2) a structure identifier employing two UNet models to determine the corresponding multi-material 2D design. By incorporating multiple materials, plasticity, and large deformation, our innovative design method allows for enhanced control over the highly nonlinear mechanical behavior of metamaterials commonly seen in real-world applications. It offers a promising solution for generating next-generation metamaterials with finely tuned mechanical characteristics. | 翻訳日:2024-11-07 04:39:44 公開日:2024-09-28 |
# ReLoo:野生のモノクロ映像から身を寄せられた人間の再構築
ReLoo: Reconstructing Humans Dressed in Loose Garments from Monocular Video in the Wild ( http://arxiv.org/abs/2409.15269v2 ) ライセンス: Link先を確認 | Chen Guo, Tianjian Jiang, Manuel Kaufmann, Chengwei Zheng, Julien Valentin, Jie Song, Otmar Hilliges, | (参考訳) これまでは、モノクロビデオから人間の3D再構成に大きな進歩があったが、現状の手法では、構音の間に大きな非剛体表面の変形を示すゆるい衣服を扱えるものはほとんどなかった。
これにより、標準的なズボンやTシャツを着た人間にそのような方法を適用することが制限される。
我々の手法であるReLooは、この制限を克服し、モノクラー・イン・ザ・ワイルド・ビデオから、ゆるい服を着た人間の高品質な3Dモデルを再構築する。
この問題に対処するために、我々はまず、布を被った人間を神経内装と外装に分解する階層化された神経人間表現を確立する。
さらに, 階層型神経表現の上に, 自由移動が可能な衣服層のための非階層型仮想骨変形モジュールを導入し, ゆるやかな衣服の正確な復元を可能にする。
グローバルな最適化は、多層異なるボリュームレンダリングにより、人体と衣服の形状、外観、変形を共同で最適化する。
ReLooを評価するために,マルチビュー・キャプチャー・スタジオで動的に変形する衣服の被写体を記録する。
この評価は、既存のデータセットと我々の新しいデータセットの両方に基づいて、屋内データセットと地中ビデオの両方において、ReLooの先行技術よりも明確な優位性を示している。
While previous years have seen great progress in the 3D reconstruction of humans from monocular videos, few of the state-of-the-art methods are able to handle loose garments that exhibit large non-rigid surface deformations during articulation. This limits the application of such methods to humans that are dressed in standard pants or T-shirts. Our method, ReLoo, overcomes this limitation and reconstructs high-quality 3D models of humans dressed in loose garments from monocular in-the-wild videos. To tackle this problem, we first establish a layered neural human representation that decomposes clothed humans into a neural inner body and outer clothing. On top of the layered neural representation, we further introduce a non-hierarchical virtual bone deformation module for the clothing layer that can freely move, which allows the accurate recovery of non-rigidly deforming loose clothing. A global optimization jointly optimizes the shape, appearance, and deformations of the human body and clothing via multi-layer differentiable volume rendering. To evaluate ReLoo, we record subjects with dynamically deforming garments in a multi-view capture studio. This evaluation, both on existing and our novel dataset, demonstrates ReLoo's clear superiority over prior art on both indoor datasets and in-the-wild videos. | 翻訳日:2024-11-06 20:16:59 公開日:2024-09-28 |
# LLM-CARD:大規模言語モデルの記述と景観を目指して
LLM-CARD: Towards a Description and Landscape of Large Language Models ( http://arxiv.org/abs/2409.17011v2 ) ライセンス: Link先を確認 | Shengwei Tian, Lifeng Han, Erick Mendez Guzman, Goran Nenadic, | (参考訳) 自然言語処理(NLP)分野の急速な成長に伴い、多種多様な言語モデル(LLM)が様々なNLPタスクに対して出現し続けている。
論文の数が増えるにつれて、研究者や開発者は情報過負荷の課題に直面している。
したがって,学術論文からLLMに関する重要な情報を自動抽出・整理するシステムを開発することが特に重要である(\textbf{LLM model card})。
本研究は,論文から大規模言語モデルに関する重要な情報を自動的に抽出し,研究者がLLMに関する情報に効率的にアクセスできるようにする,名前付きエンティティ認識 (\textbf{NER}) と関係抽出 (\textbf{RE}) 手法を用いて,そのような先駆的なシステムを開発することを目的とする。
これらの機能には、 model \textit{licence}、 model \textit{name}、 model \textit{application}が含まれる。
これらの機能により、各紙のモデルカードを作成できる。
106の学術論文は, LLMの名前, ライセンス, 適用の3つの辞書を定義して処理した。
11051文を辞書検索により抽出し、その名称とライセンスのリンクを持つ129文と、モデル名とアプリケーションの間のリンクを持つ106文の最終的な選択を手作業でレビューすることでデータセットを構築した。
data and code in \textsc{LLM-Card} is openly host at \url{https://github.com/shengwei-tian/dependency-parser-visualization}
With the rapid growth of the Natural Language Processing (NLP) field, a vast variety of Large Language Models (LLMs) continue to emerge for diverse NLP tasks. As an increasing number of papers are presented, researchers and developers face the challenge of information overload. Thus, it is particularly important to develop a system that can automatically extract and organise key information about LLMs from academic papers (\textbf{LLM model card}). This work is to develop such a pioneer system by using Named Entity Recognition (\textbf{NER}) and Relation Extraction (\textbf{RE}) methods that automatically extract key information about large language models from the papers, helping researchers to efficiently access information about LLMs. These features include model \textit{licence}, model \textit{name}, and model \textit{application}. With these features, we can form a model card for each paper. \textbf{Data-contribution} wise, 106 academic papers were processed by defining three dictionaries - LLMs name, licence, and application. 11,051 sentences were extracted through dictionary lookup, and the dataset was constructed through manual review of the final selection of 129 sentences that have a link between the name and the licence, and 106 sentences that have a link between the model name and the application. Data and code in \textsc{LLM-Card} is openly hosted at \url{https://github.com/shengwei-tian/dependency-parser-visualization} | 翻訳日:2024-11-06 17:00:06 公開日:2024-09-28 |
# 自然言語処理を用いた説得文中のパワーワードの自動検出と解析
Automated Detection and Analysis of Power Words in Persuasive Text Using Natural Language Processing ( http://arxiv.org/abs/2409.18033v2 ) ライセンス: Link先を確認 | Sahil Garje, | (参考訳) 力強い言葉は強い感情的な反応を引き起こし、読者の行動に大きな影響を与え、マーケティング、政治、動機づけなどの分野において重要な役割を果たす言葉である。
本研究では,オンラインソースから抽出した包括的データセットから作成したカスタム辞書を用いて,説得文中のパワーワードの自動検出と解析を行う手法を提案する。
特殊なPythonパッケージであるThe Text Mongerは、与えられたテキスト内のパワーワードの存在と頻度を特定するために作成され、使用される。
フィクションの抜粋、スピーチ、マーケティング資料などの多様なデータセットを分析し、パワーワードが感情や読者のエンゲージメントに与える影響を分類し評価することを目的とする。
この発見は、さまざまなドメインにまたがるパワーワードの有効性に関する貴重な洞察を提供し、コンテンツクリエーター、広告主、政策立案者に対して、彼らのメッセージングとエンゲージメント戦略を強化するための実践的なアプリケーションを提供する。
Power words are terms that evoke strong emotional responses and significantly influence readers' behavior, playing a crucial role in fields like marketing, politics, and motivational writing. This study proposes a methodology for the automated detection and analysis of power words in persuasive text using a custom lexicon created from a comprehensive dataset scraped from online sources. A specialized Python package, The Text Monger, is created and employed to identify the presence and frequency of power words within a given text. By analyzing diverse datasets, including fictional excerpts, speeches, and marketing materials,the aim is to classify and assess the impact of power words on sentiment and reader engagement. The findings provide valuable insights into the effectiveness of power words across various domains, offering practical applications for content creators, advertisers, and policymakers looking to enhance their messaging and engagement strategies. | 翻訳日:2024-11-06 15:51:02 公開日:2024-09-28 |
# 国家支援型攻撃の詳細な分析 : 事例研究とサイバーセキュリティ指標
An In-depth Analysis of a Nation-Sponsored Attack: Case Study and Cybersecurity Insights ( http://arxiv.org/abs/2409.19194v1 ) ライセンス: Link先を確認 | Puya Pakshad, Abiha Hussain, Maks Dudek, Leen Mobarki, Abel Castilla, | (参考訳) 国家が支援するサイバー攻撃は、重要なインフラを標的にし、重要なサービスを妨害することで、国家安全保障に重大な脅威をもたらす。
韓国の銀行部門とインフラに最も影響を及ぼすサイバー脅威の1つは、数年前に起きたダークソウルのサイバー攻撃だった。
北朝鮮が支援するハッカーによって組織されたと信じられているこの攻撃は、システムに侵入するために槍のフィッシング、DNS中毒、マルウェアを駆使した。
本稿では,ダークソウル攻撃の詳細な分析を行い,使用技術を調べ,グローバルなサイバーセキュリティコミュニティに対する洞察と防衛勧告を提供する。
攻撃の背後にあるモチベーションは、韓国の対応やサイバーセキュリティ政策への広範な影響の評価とともに検討されている。
我々の分析は、攻撃された脆弱性を強調し、国家が支援するサイバー脅威に対するより積極的な防御の必要性を強調している。
そこで本稿は、このような脅威に直面した国家サイバーセキュリティの強力な防衛の必要性を強調した。
Nation-sponsored cyberattacks pose a significant threat to national security by targeting critical infrastructure and disrupting essential services. One of the most impactful cyber threats affecting South Korea's banking sector and infrastructure was the Dark Seoul cyberattack, which occurred several years ago. Believed to have been orchestrated by North Korean state-sponsored hackers, the attack employed spear phishing, DNS poisoning, and malware to compromise systems, causing widespread disruption. In this paper, we conduct an in-depth analysis of the Dark Seoul attack, examining the techniques used and providing insights and defense recommendations for the global cybersecurity community. The motivations behind the attack are explored, along with an assessment of South Korea's response and the broader implications for cybersecurity policy. Our analysis highlights the vulnerabilities exploited and underscores the need for more proactive defenses against state-sponsored cyber threats. This paper, therefore, emphasizes the critical need for stronger national cybersecurity defenses in the face of such threats. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# 急速加速による白内障の診断
Faster Acceleration for Steepest Descent ( http://arxiv.org/abs/2409.19200v1 ) ライセンス: Link先を確認 | Site Bai, Brian Bullins, | (参考訳) 非ユークリッド滑らか性仮定の下での凸最適化のための新しい高速化一階法を提案する。
標準加速度法とは対照的に,本手法では,異なるノルムに対して一次二重反復列を用いて,暗黙的に決定された補間パラメータを用いて結合する。
$d$次元における$\ell_p$ノルムのスムーズな問題に対して、我々の手法は、一階のオラクルへの呼び出しの観点から、最大$O(d^{1-\frac{2}{p}})$の反復複雑性の改善を提供する。
We propose a new accelerated first-order method for convex optimization under non-Euclidean smoothness assumptions. In contrast to standard acceleration techniques, our approach uses primal-dual iterate sequences taken with respect to differing norms, which are then coupled using an implicitly determined interpolation parameter. For $\ell_p$ norm smooth problems in $d$ dimensions, our method provides an iteration complexity improvement of up to $O(d^{1-\frac{2}{p}})$ in terms of calls to a first-order oracle, thereby allowing us to circumvent long-standing barriers in accelerated non-Euclidean steepest descent. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# n 個の任意の観測値に対するウィグナー分布の粒子近似
Particle approximations of Wigner distributions for n arbitrary observables ( http://arxiv.org/abs/2409.19206v1 ) ライセンス: Link先を確認 | Ralph Sabbagh, Olga Movilla Miangolarra, Hamid Hezari, Tryphon T. Georgiou, | (参考訳) n 個の任意の量子オブザーバブルの符号付き合同確率尺度のクラスが導出され、マルゲナウ・ヒル型の対称作用素順序を持つ準特性関数に基づいて研究される。
これらの観測値に付随するウィグナー分布は、そのような測度によって厳密に近似できることが示されている。
これらの測度は、量子可観測体の有限スペクトル範囲上で支持されるディラックデルタ分布のアフィン結合によって与えられ、主軸に沿って粗い粒度が粗いときに正しい確率限界を与える。
スピン-1/2粒子のスピン測定における準確率分布の2変数化を専門とし,その閉形式式を導出する。
副作用として、これらの粒子近似の収束とミーラー・ハイネの定理の間の関係を指摘する。
最後に、これらの準確率分布の支持を、反復的な思考実験の観点から解釈する。
A class of signed joint probability measures for n arbitrary quantum observables is derived and studied based on quasi-characteristic functions with symmetrized operator orderings of Margenau-Hill type. It is shown that the Wigner distribution associated with these observables can be rigorously approximated by such measures. These measures are given by affine combinations of Dirac delta distributions supported over the finite spectral range of the quantum observables and give the correct probability marginals when coarse-grained along any principal axis. We specialize to bivariate quasi-probability distributions for the spin measurements of spin-1/2 particles and derive their closed-form expressions. As a side result, we point out a connection between the convergence of these particle approximations and the Mehler-Heine theorem. Finally, we interpret the supports of these quasi-probability distributions in terms of repeated thought experiments. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# パラメトリック収縮を持つベイズ輸送写像による非ガウス空間分布の学習
Learning non-Gaussian spatial distributions via Bayesian transport maps with parametric shrinkage ( http://arxiv.org/abs/2409.19208v1 ) ライセンス: Link先を確認 | Anirban Chakraborty, Matthias Katzfuss, | (参考訳) 気候モデル解析や確率的気象発生装置を含む多くの応用は、比較的少数のトレーニングサンプルに基づいて高次元および非ガウス空間の分布を学習またはエミュレートする必要がある。
この課題に対処するために、最近提案されたベイズ輸送マップ(BTM)アプローチは、非パラメトリックガウス過程(GP)成分を持つ三角形の輸送マップで構成され、利息分布の分布をガウス基準分布に変換するように訓練されている。
本稿では,この既存のBTMの性能向上のために,拡張性に対するVecchia近似と組み合わせた'base'パラメトリックガウス系へのマップ成分の縮小を提案する。
結果として得られたShrinkTMアプローチは、特に少数のトレーニングサンプルにおいて、既存のBTMよりも正確である。
空間フィールドの単一のサンプルでトレーニングすると、‘base’ファミリーよりもパフォーマンスが良くなります。
我々はShrinkTMの利点を実証するが、シミュレーションデータと気候モデル出力について数値実験を行う。
Many applications, including climate-model analysis and stochastic weather generators, require learning or emulating the distribution of a high-dimensional and non-Gaussian spatial field based on relatively few training samples. To address this challenge, a recently proposed Bayesian transport map (BTM) approach consists of a triangular transport map with nonparametric Gaussian-process (GP) components, which is trained to transform the distribution of interest distribution to a Gaussian reference distribution. To improve the performance of this existing BTM, we propose to shrink the map components toward a ``base'' parametric Gaussian family combined with a Vecchia approximation for scalability. The resulting ShrinkTM approach is more accurate than the existing BTM, especially for small numbers of training samples. It can even outperform the ``base'' family when trained on a single sample of the spatial field. We demonstrate the advantage of ShrinkTM though numerical experiments on simulated data and on climate-model output. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# 複雑な特徴選択のためのランダムフォレストプレスクリーニングによる小さなサンプルデータセット上でのSISSO性能向上
Boosting SISSO Performance on Small Sample Datasets by Using Random Forests Prescreening for Complex Feature Selection ( http://arxiv.org/abs/2409.19209v1 ) ライセンス: Link先を確認 | Xiaolin Jiang, Guanqi Liu, Jiaying Xie, Zhenpeng Hu, | (参考訳) 材料科学において、データ駆動方式は、コストを削減し、成功率を向上させるとともに、材料発見と最適化を加速する。
シンボリック回帰は、大規模なデータセット、特にSure Independence Screening and Sparsifying Operator(SISSO)メソッドから材料記述子を抽出する鍵である。
SISSOは、大量のメモリを必要とするため、式空間全体を格納する必要があるが、複雑な問題ではパフォーマンスが制限される。
この問題に対処するために、ランダムフォレスト(RF)とSISSOを組み合わせたRF-SISSOアルゴリズムを提案する。
このアルゴリズムでは、ランダムフォレストアルゴリズムは、非線形関係の事前スクリーニング、キャプチャ、特徴選択の改善に使われ、入力データの質を高め、回帰および分類タスクの精度と効率を高めることができる。
299の材料に対するSISSOの検証問題をテストするために、RF-SISSOは頑健な性能と高い精度を示す。
RF-SISSOは4つのトレーニングサンプルサイズすべてで0.9以上のテスト精度を維持し、特にサンプルサイズが小さいトレーニングサブセットにおいて、回帰効率を著しく向上させることができる。
45サンプルのトレーニングサブセットでは,RF-SISSOの効率は元のSISSOの265倍であった。
大規模データセットの収集は実用実験に費用と時間を要するため、RF-SISSOは限られたデータで高い予測精度を効率的に提供することで科学的研究に有用であると考えられる。
In materials science, data-driven methods accelerate material discovery and optimization while reducing costs and improving success rates. Symbolic regression is a key to extracting material descriptors from large datasets, in particular the Sure Independence Screening and Sparsifying Operator (SISSO) method. While SISSO needs to store the entire expression space to impose heavy memory demands, it limits the performance in complex problems. To address this issue, we propose a RF-SISSO algorithm by combining Random Forests (RF) with SISSO. In this algorithm, the Random Forest algorithm is used for prescreening, capturing non-linear relationships and improving feature selection, which may enhance the quality of the input data and boost the accuracy and efficiency on regression and classification tasks. For a testing on the SISSO's verification problem for 299 materials, RF-SISSO demonstrates its robust performance and high accuracy. RF-SISSO can maintain the testing accuracy above 0.9 across all four training sample sizes and significantly enhancing regression efficiency, especially in training subsets with smaller sample sizes. For the training subset with 45 samples, the efficiency of RF-SISSO was 265 times higher than that of original SISSO. As collecting large datasets would be both costly and time-consuming in the practical experiments, it is thus believed that RF-SISSO may benefit scientific researches by offering a high predicting accuracy with limited data efficiently. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# 制約クラスによる画像分類の難読化の学習
Learning to Obstruct Few-Shot Image Classification over Restricted Classes ( http://arxiv.org/abs/2409.19210v1 ) ライセンス: Link先を確認 | Amber Yijia Zheng, Chiao-An Yang, Raymond A. Yeh, | (参考訳) オープンソースの事前訓練されたバックボーンの進歩により、新しいタスクのモデルを微調整するのが比較的簡単になる。
しかし、この低いエントリーバリアは、有害なアプリケーションのためのモデルを開発する悪いアクターのような潜在的なリスクを引き起こす。
ダウンストリームタスクの微調整が難しい事前学習モデルを開発することは可能か?
そこで本研究では,FSC ( few-shot classification) に着目した。
具体的には、他のクラスの性能を維持しながら、制限されたクラスの集合に対して、FSCをより困難にする方法について検討する。
本稿では,事前学習したバックボーンをメタ学習し,それを'poor initialization'と表現する手法を提案する。
提案するLearning to Obstruct(LTO)アルゴリズムは,画像分類のためのImageNetやCIFAR100,属性分類のためのCelebAなど,3つのデータセットにまたがる4つのFSC手法をうまく妨害する。
Advancements in open-source pre-trained backbones make it relatively easy to fine-tune a model for new tasks. However, this lowered entry barrier poses potential risks, e.g., bad actors developing models for harmful applications. A question arises: Is possible to develop a pre-trained model that is difficult to fine-tune for certain downstream tasks? To begin studying this, we focus on few-shot classification (FSC). Specifically, we investigate methods to make FSC more challenging for a set of restricted classes while maintaining the performance of other classes. We propose to meta-learn over the pre-trained backbone in a manner that renders it a ''poor initialization''. Our proposed Learning to Obstruct (LTO) algorithm successfully obstructs four FSC methods across three datasets, including ImageNet and CIFAR100 for image classification, as well as CelebA for attribute classification. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# ネットワークトラフィック分類における群分散ロバスト最適化によるクラス不均衡効果の抑制
Group Distributionally Robust Optimization can Suppress Class Imbalance Effect in Network Traffic Classification ( http://arxiv.org/abs/2409.19214v1 ) ライセンス: Link先を確認 | Wumei Du, Qi Wang, Yiqin Lv, Dong Liang, Guanlin Wu, Xingxing Liang, Zheng Xie, | (参考訳) インターネットサービスによってトラフィックが急増し、特にアプリケーションがリスクに敏感な場合には、これらのインターネットデータの機械学習が必須のツールになっている。
本稿では,インターネットデータ分析において基本的かつユビキタスに存在しているクラス不均衡の存在下でのネットワークトラフィックの分類に焦点をあてる。
このクラス不均衡の存在は、主に最適決定境界を逸脱させ、結果として機械学習モデルに対する最適解がより少なくなる。
この効果を緩和するために,群分散ロバストな最適化のレンズを通してクラス不均衡を軽減するための設計戦略を提案する。
本手法は,クラス別における非パラメトリック重みを反復的に更新し,再重み付き損失を最小限に抑えて学習モデルを最適化する。
Stackelbergのゲームから最適化ステップを解釈し、典型的なベンチマークで広範な実験を行う。
その結果,本手法はクラス不均衡の負の効果を抑えるだけでなく,予測における総合的な性能を向上させることができることがわかった。
Internet services have led to the eruption of traffic, and machine learning on these Internet data has become an indispensable tool, especially when the application is risk-sensitive. This paper focuses on network traffic classification in the presence of class imbalance, which fundamentally and ubiquitously exists in Internet data analysis. This existence of class imbalance mostly drifts the optimal decision boundary, resulting in a less optimal solution for machine learning models. To alleviate the effect, we propose to design strategies for alleviating the class imbalance through the lens of group distributionally robust optimization. Our approach iteratively updates the non-parametric weights for separate classes and optimizes the learning model by minimizing reweighted losses. We interpret the optimization steps from a Stackelberg game and perform extensive experiments on typical benchmarks. Results show that our approach can not only suppress the negative effect of class imbalance but also improve the comprehensive performance in prediction. | 翻訳日:2024-11-06 04:01:11 公開日:2024-09-28 |
# リスト回帰の特徴付け
A Characterization of List Regression ( http://arxiv.org/abs/2409.19218v1 ) ライセンス: Link先を確認 | Chirag Pabbaraju, Sahasrajit Sarmasarkar, | (参考訳) 最近、リスト学習タスクのサンプルの複雑さを理解し、特徴付けることに関心が寄せられ、そこでは、学習アルゴリズムが$k$の予測の短いリストを作ることができる。
この中には、標準リスト分類とオンラインリスト分類のPACサンプルの複雑さを特徴づける最近の研究が含まれている。
このテーマに加え、本研究では、リストPAC回帰の完全な特徴付けを提供する。
本稿では,2つの組合せ次元,すなわち$k$-OIG次元と$k$-fat-shattering次元を提案する。
これらの量は標準回帰のために既知の次元を一般化する。
これにより、既存のリスト学習の特徴を分類から回帰まで拡張する。
There has been a recent interest in understanding and characterizing the sample complexity of list learning tasks, where the learning algorithm is allowed to make a short list of $k$ predictions, and we simply require one of the predictions to be correct. This includes recent works characterizing the PAC sample complexity of standard list classification and online list classification. Adding to this theme, in this work, we provide a complete characterization of list PAC regression. We propose two combinatorial dimensions, namely the $k$-OIG dimension and the $k$-fat-shattering dimension, and show that they optimally characterize realizable and agnostic $k$-list regression respectively. These quantities generalize known dimensions for standard regression. Our work thus extends existing list learning characterizations from classification to regression. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# 可変焦点多視点画像のためのフィールド深さの延長
Extending Depth of Field for Varifocal Multiview Images ( http://arxiv.org/abs/2409.19220v1 ) ライセンス: Link先を確認 | Zhilong Li, Kejun Wu, Qiong Liu, You Yang, | (参考訳) 光イメージングシステムは通常、光学の性質のため磁場の深さによって制限される。
したがって、拡張深度(EDoF)は、出現する視覚的アプリケーションの要件を満たすための基本的なタスクである。
この課題を解決するために、単一の視点から多焦点画像を使用することが一般的である。
本手法は,固定視野条件下でのEDoFの許容品質を得ることができるが,静的シーンにのみ適用可能であり,視野が制限され固定されている。
新たなデータ型である可変焦点マルチビュー画像は、マルチフォーカス画像よりも視野情報が多いため、EDoFを解くための新たなパラダイムとなる可能性がある。
可変焦点多視点画像のEDoFを実現するために、画像アライメント、画像最適化、画像融合を含むEDoFのエンドツーエンド手法を提案する。
実験の結果,提案手法の有効性が示された。
Optical imaging systems are generally limited by the depth of field because of the nature of the optics. Therefore, extending depth of field (EDoF) is a fundamental task for meeting the requirements of emerging visual applications. To solve this task, the common practice is using multi-focus images from a single viewpoint. This method can obtain acceptable quality of EDoF under the condition of fixed field of view, but it is only applicable to static scenes and the field of view is limited and fixed. An emerging data type, varifocal multiview images have the potential to become a new paradigm for solving the EDoF, because the data contains more field of view information than multi-focus images. To realize EDoF of varifocal multiview images, we propose an end-to-end method for the EDoF, including image alignment, image optimization and image fusion. Experimental results demonstrate the efficiency of the proposed method. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# コーシーアクティベーション機能とXNet
Cauchy activation function and XNet ( http://arxiv.org/abs/2409.19221v1 ) ライセンス: Link先を確認 | Xin Li, Zhihong Xia, Hongkun Zhang, | (参考訳) 我々はCauchy Activation Functionと呼ばれる新しいアクティベーション関数を開発した。
この関数は複素解析においてコーシー積分定理から導かれ、特に高精度を必要とする問題に向いている。
このイノベーションは、私たちが(Comple)XNet、あるいは単にXNetと呼ぶ、新しいタイプのニューラルネットワークを生み出しました。
XNetは画像分類や部分微分方程式(PDE)の解法などの高次元的課題に対して特に有効であることを示す。
評価の結果、XNetはコンピュータビジョンにおいてMNISTやCIFAR-10のような確立されたベンチマークを著しく上回り、低次元および高次元のPDEシナリオにおいて物理インフォームドニューラルネットワーク(PINN)よりも大幅に優位であることがわかった。
We have developed a novel activation function, named the Cauchy Activation Function. This function is derived from the Cauchy Integral Theorem in complex analysis and is specifically tailored for problems requiring high precision. This innovation has led to the creation of a new class of neural networks, which we call (Comple)XNet, or simply XNet. We will demonstrate that XNet is particularly effective for high-dimensional challenges such as image classification and solving Partial Differential Equations (PDEs). Our evaluations show that XNet significantly outperforms established benchmarks like MNIST and CIFAR-10 in computer vision, and offers substantial advantages over Physics-Informed Neural Networks (PINNs) in both low-dimensional and high-dimensional PDE scenarios. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# スタックオーバーフローにおけるエネルギー消費はどのように知覚されるか?
How do Practitioners Perceive Energy Consumption on Stack Overflow? ( http://arxiv.org/abs/2409.19222v1 ) ライセンス: Link先を確認 | Bihui Jin, Heng Li, Ying Zou, | (参考訳) ソフトウェアアプリケーションのエネルギー消費は、実践者が日々の開発プロセスを熟考する上で重要な問題となっている。
従来,エネルギー消費に関する実践者の視点を理解するために,限られた数の実践者を対象に,ユーザサーベイを実施してきた。
本稿では,985 Stack Overflow (SO) のエネルギー消費に関する質問を含む,厳密にキュレートされたデータセットの実験的解析を行うことにより,先行研究を補完する。
これらの質問は、実践者が日々の開発活動で直面している実世界のエネルギー関連障害を反映している。
エネルギー消費に対する実践者の認識を理解するため,これらの質問の背景にある意図,それらの意味的トピック,およびこれらの質問に関連するタグカテゴリについて検討する。
私たちの実証研究の結果は、
i) 質問者に対して投稿の開始と質問を促す意図は,主に概念やAPIの使い方を理解することに関連している。
(二)エネルギー消費に関する最も一般的な話題は、計算資源に関するものである。
三 エネルギー利用の監視が課題となり、質問に対するコミュニティの反応を受けるのに長い時間を要すること。
(iv)実践者は、アプリケーションの開発において、様々なレベル、すなわちハードウェア、オペレーティングシステム、プログラミング言語からのエネルギー消費について理解している。
我々の研究は、実践者が直面するエネルギー消費に関する問題に対する洞察を提供する。
我々は,エネルギー消費が,コーディング効率やエネルギーモニタリングといった異なる観点からソフトウェアシステムの開発に与える影響について,実践者の意識を高め,エネルギー効率の高いソフトウェアシステムの開発を支援する将来の研究機会に光を当てた。
Energy consumption of software applications has emerged as a critical issue for practitioners to contemplate in their daily development processes. Previous studies have performed user surveys with a limited number of practitioners to comprehend practitioners' viewpoints on energy consumption. In this paper, we complement prior studies by conducting an empirical analysis of a meticulously curated dataset comprising 985 Stack Overflow (SO) questions concerning energy consumption. These questions reflect real-world energy-related predicaments faced by practitioners in their daily development activities. To understand practitioners' perception of energy consumption, we investigate the intentions behind these questions, their semantic topics, as well as the tag categories associated with these questions. Our empirical study results reveal that (i) the intentions that drive the questioners to initiate posts and ask questions are primarily associated with understanding a concept or how to use an API; (ii) the most prevalent topic related to energy consumption concerns computing resources; (iii) monitoring energy usage poses a challenging issue, and it takes the longest response time to receive a community response to the questions; and (iv) practitioners are apprehensive about energy consumption from different levels, i.e., hardware, operating systems, and programming languages, during the development of the applications. Our work furnishes insights into the issues related to energy consumption faced by practitioners. Our observations raise awareness among practitioners about the impact of energy consumption on developing software systems from different perspectives, such as coding efficiency and energy monitoring, and shed light on future research opportunities to assist practitioners in developing energy-efficient software systems. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# Summit Vitals: 高高度でのマルチカメラとマルチシグナルバイオセンシング
Summit Vitals: Multi-Camera and Multi-Signal Biosensing at High Altitudes ( http://arxiv.org/abs/2409.19223v1 ) ライセンス: Link先を確認 | Ke Liu, Jiankai Tang, Zhang Jiang, Yuntao Wang, Xiaojing Liu, Dong Li, Yuanchun Shi, | (参考訳) 遠隔ビデオPSG (rPPG) とコンタクトビデオPSG (cPPG) の2つの主要なアプローチを用いて, 生理学的信号の非侵襲的, 簡便な計測方法として, ビデオ光胸腺造影法 (vPPG) が考案された。
心拍数が増加し、血中酸素濃度が低下する高高度環境でのバイタルモニタリングは、重大な課題を呈している。
これらの課題に対処するため,運動と酸素回収のシナリオにおいて10名から80名の非接触顔と接触指の同時撮影を行い,PSG,呼吸速度(RR),SpO2を測定したSUMSデータセットを導入した。
このデータセットは、ビデオバイタル推定アルゴリズムを検証し、顔のrPPGと指のcPPGを比較するように設計されている。
さらに、異なる位置(顔と指)から動画を融合させることで、顔と指のみと比較して、SpO2予測の平均絶対誤差(MAE)が7.6\%と10.6\%減少する。
クロスオブジェクト評価では、HR推定に0.5BPM未満、SpO2推定に2.5\%のMAEを達成し、マルチカメラ融合技術の精度を実証した。
以上の結果から,PSGや血液酸素などの複数の指標の同時トレーニングがSpO2推定におけるMAEを17.8 %減少させる可能性が示唆された。
Video photoplethysmography (vPPG) is an emerging method for non-invasive and convenient measurement of physiological signals, utilizing two primary approaches: remote video PPG (rPPG) and contact video PPG (cPPG). Monitoring vitals in high-altitude environments, where heart rates tend to increase and blood oxygen levels often decrease, presents significant challenges. To address these issues, we introduce the SUMS dataset comprising 80 synchronized non-contact facial and contact finger videos from 10 subjects during exercise and oxygen recovery scenarios, capturing PPG, respiration rate (RR), and SpO2. This dataset is designed to validate video vitals estimation algorithms and compare facial rPPG with finger cPPG. Additionally, fusing videos from different positions (i.e., face and finger) reduces the mean absolute error (MAE) of SpO2 predictions by 7.6\% and 10.6\% compared to only face and only finger, respectively. In cross-subject evaluation, we achieve an MAE of less than 0.5 BPM for HR estimation and 2.5\% for SpO2 estimation, demonstrating the precision of our multi-camera fusion techniques. Our findings suggest that simultaneous training on multiple indicators, such as PPG and blood oxygen, can reduce MAE in SpO2 estimation by 17.8\%. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# ギャップを橋渡しする学習:計画と強化学習による効率的な新規性回復
Learning to Bridge the Gap: Efficient Novelty Recovery with Planning and Reinforcement Learning ( http://arxiv.org/abs/2409.19226v1 ) ライセンス: Link先を確認 | Alicia Li, Nishanth Kumar, Tomás Lozano-Pérez, Leslie Kaelbling, | (参考訳) 現実の世界は予測できない。
したがって、自律ロボットによる長期意思決定問題を解決するためには、展開中の環境の変化に適応可能なエージェントを構築する必要がある。
モデルに基づく計画手法により、ロボットは様々な環境で複雑な長期タスクを解くことができる。
しかし、そのようなアプローチは、その基盤となるモデルが考慮していない新しい状況を特徴とする環境に展開するときに脆くなる傾向にある。
そこで本研究では,Reinforcement Learning (RL) を通じて '橋のポリシー' を学習し,そのような新奇性に適応することを提案する。
本稿では,橋梁政策を終了する特別な 'CallPlanner' アクションでRL問題を構築し,エージェントのハンドコントロールをプランナーに戻すという,そのような学習のための簡単な定式化を提案する。
これにより、RLポリシーは、プランナーに問い合わせ、返却されたプランに従って目標を達成する一連の状態を学ぶことができる。
この定式化により,計画者の知識を生かし,スパース報酬による長期探査への挑戦を避けることで,エージェントが迅速に学習できることが示唆された。
複雑度の異なる3つの模擬領域を対象とした実験において、本手法は、純粋なRLベースラインを含む複数のベースラインよりも、より効率的に新規性に適応するポリシーを学習できることを実証した。
また、学習されたブリッジポリシーは、エージェントがより複雑なタスクを、遭遇したノベルティの複数のインスタンスで解決できるように、プランナーと組み合わせることが可能であることを実証する。
The real world is unpredictable. Therefore, to solve long-horizon decision-making problems with autonomous robots, we must construct agents that are capable of adapting to changes in the environment during deployment. Model-based planning approaches can enable robots to solve complex, long-horizon tasks in a variety of environments. However, such approaches tend to be brittle when deployed into an environment featuring a novel situation that their underlying model does not account for. In this work, we propose to learn a ``bridge policy'' via Reinforcement Learning (RL) to adapt to such novelties. We introduce a simple formulation for such learning, where the RL problem is constructed with a special ``CallPlanner'' action that terminates the bridge policy and hands control of the agent back to the planner. This allows the RL policy to learn the set of states in which querying the planner and following the returned plan will achieve the goal. We show that this formulation enables the agent to rapidly learn by leveraging the planner's knowledge to avoid challenging long-horizon exploration caused by sparse reward. In experiments across three different simulated domains of varying complexity, we demonstrate that our approach is able to learn policies that adapt to novelty more efficiently than several baselines, including a pure RL baseline. We also demonstrate that the learned bridge policy is generalizable in that it can be combined with the planner to enable the agent to solve more complex tasks with multiple instances of the encountered novelty. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# 絡み合った光子対の偏光基底射影による局所ランダム性と非局所相関のコヒーレンス解析
Coherence analysis of local randomness and nonlocal correlation through polarization-basis projections of entangled photon pairs ( http://arxiv.org/abs/2409.19227v1 ) ライセンス: Link先を確認 | B. S. Ham, | (参考訳) 二次非線形光学媒体から生じる偏光-絡み合った光子対は、量子情報の基本的な研究と潜在的な応用の両方のために広く研究されている。
自然パラメトリックダウンコンバージョン(SPDC)では、線形光学を用いた偏光基底投影(Phys)による局所ランダム性や非局所相関が実証されている。
A 60, R773 (1999)。
本稿では、対光子の偏光制御によるこれらの確立された量子現象のコヒーレンス解析とその投影計測について述べる。
まず, 測定イベント間の不整合性に依存する局所的ランダム性に着目し, クロスサンドウィッチ非線形媒質からランダムに生成した光子対の量子重ね合わせを解析する。
第2に、独立に制御された遠隔パラメータから生じる非局所的相関を理解するために、ペア光子間の偶然検出について検討し、分離不能な積-基底関係をもたらす。
このコヒーレンスに基づくアプローチは、光子の波の性質に固有の位相情報の重要性を強調し、量子的特徴に関する決定論的視点に光を当てる。
Polarization-entangled photon pairs generated from second-order nonlinear optical media have been extensively studied for both fundamental research and potential applications of quantum information. In spontaneous parametric down-conversion (SPDC), quantum entanglement between paired photons, often regarded as mysterious, has been demonstrated for local randomness and nonlocal correlation through polarization-basis projections using linear optics (Phys. Rev. A 60, R773 (1999)). This paper presents a coherence analysis of these established quantum phenomena with polarization control of the paired photons and their projection measurements. First, we analyze the quantum superposition of photon pairs generated randomly from cross-sandwiched nonlinear media, focusing on local randomness, which depends on the incoherence among measured events. Second, we investigate coincidence detection between paired photons to understand the nonlocal correlation arising from independently controlled remote parameters, resulting in an inseparable product-basis relationship. This coherence-based approach sheds light on a deterministic perspective on quantum features, emphasizing the significance of phase information intrinsic to the wave nature of photons. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# GS-EVT:ガウス散乱に基づくイベントカメラのクロスモーダル追跡
GS-EVT: Cross-Modal Event Camera Tracking based on Gaussian Splatting ( http://arxiv.org/abs/2409.19228v1 ) ライセンス: Link先を確認 | Tao Liu, Runze Yuan, Yi'ang Ju, Xun Xu, Jiaqi Yang, Xiangting Meng, Xavier Lagorce, Laurent Kneip, | (参考訳) 信頼性の高い自己ローカライゼーションは多くのインテリジェントなモバイルプラットフォームの基礎となるスキルである。
本稿では,運動追跡におけるイベントカメラの利用について検討する。
イベントカメラベースのマッピングの課題を回避するため、ソリューションはクロスモーダルな方法でフレーム化される。
フレームベースのカメラから直接来る地図表現を追跡する。
具体的には,提案手法は,高効率でリアルな新規ビュー合成を可能にする最先端の表現であるガウススプラッティング(Gaussian splatting)上で動作させる。
提案手法の鍵となるのは,参照ポーズと局所微分画像レンダリングのための第1次ダイナミックスを用いた新しいポーズパラメトリゼーションである。
後者は、スタグ付き粗大な最適化スキームにおける統合イベントの画像と比較される。
以上の結果から,ガウススプラッティングのリアルなビューレンダリング能力は,公開および新たに記録されたデータシーケンスの多種多様な安定かつ正確な追跡に繋がることが示された。
Reliable self-localization is a foundational skill for many intelligent mobile platforms. This paper explores the use of event cameras for motion tracking thereby providing a solution with inherent robustness under difficult dynamics and illumination. In order to circumvent the challenge of event camera-based mapping, the solution is framed in a cross-modal way. It tracks a map representation that comes directly from frame-based cameras. Specifically, the proposed method operates on top of gaussian splatting, a state-of-the-art representation that permits highly efficient and realistic novel view synthesis. The key of our approach consists of a novel pose parametrization that uses a reference pose plus first order dynamics for local differential image rendering. The latter is then compared against images of integrated events in a staggered coarse-to-fine optimization scheme. As demonstrated by our results, the realistic view rendering ability of gaussian splatting leads to stable and accurate tracking across a variety of both publicly available and newly recorded data sequences. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# 強化学習におけるTD誤差駆動型正規化による二重アクター臨界
Double Actor-Critic with TD Error-Driven Regularization in Reinforcement Learning ( http://arxiv.org/abs/2409.19231v1 ) ライセンス: Link先を確認 | Haohui Chen, Zhiyong Chen, Aoxiang Liu, Wentuo Fang, | (参考訳) 筋力学習における価値推定の精度向上を目的として,時間差誤差駆動型正規化手法であるTDDRを提案する。
TDDRはダブルアクターを採用し、各アクターが批評家とペアを組むことで、ダブルアクターの利点を完全に活用する。
さらに、TDDRは革新的な批判的正規化アーキテクチャを導入している。
従来の決定論的ポリシー勾配に基づくアルゴリズムではアクター批判的な二重構造が欠如しているのに対し、TDDRは優れた推定結果を提供する。
さらに、アクタークリティカルな2つのフレームワークを持つ既存のアルゴリズムとは異なり、TDDRは追加のハイパーパラメータを導入せず、設計と実装プロセスを大幅に単純化します。
TDDRは、継続的な制御タスクに挑戦するベンチマークアルゴリズムと比較して、強い競争力を示す。
To obtain better value estimation in reinforcement learning, we propose a novel algorithm based on the double actor-critic framework with temporal difference error-driven regularization, abbreviated as TDDR. TDDR employs double actors, with each actor paired with a critic, thereby fully leveraging the advantages of double critics. Additionally, TDDR introduces an innovative critic regularization architecture. Compared to classical deterministic policy gradient-based algorithms that lack a double actor-critic structure, TDDR provides superior estimation. Moreover, unlike existing algorithms with double actor-critic frameworks, TDDR does not introduce any additional hyperparameters, significantly simplifying the design and implementation process. Experiments demonstrate that TDDR exhibits strong competitiveness compared to benchmark algorithms in challenging continuous control tasks. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# TrojVLM:視覚言語モデルに対するバックドア攻撃
TrojVLM: Backdoor Attack Against Vision Language Models ( http://arxiv.org/abs/2409.19232v1 ) ライセンス: Link先を確認 | Weimin Lyu, Lu Pang, Tengfei Ma, Haibin Ling, Chao Chen, | (参考訳) VLM(Vision Language Models)の出現は、コンピュータビジョンとLLM(Large Language Models)の統合において、視覚的な入力に基づく詳細なテキスト記述を生成する重要な進歩である。
単一モーダル性や分類タスクを中心とした以前の研究とは異なり、この研究は複雑な画像・テキスト生成に携わるVLMを対象としたバックドアアタックの最初の調査であるTrojVLMを紹介している。
具体的には、TrojVLMは、有毒な画像に遭遇する際に、所定のターゲットテキストを出力テキストに挿入する。
さらに、オリジナル画像コンテンツのセマンティックな整合性を確保するために、新しいセマンティック保存損失を提案する。
画像キャプションと視覚的質問応答(VQA)タスクの評価は、特定のテキスト出力をトリガーしながら、元のセマンティックコンテンツを維持する上でのTrojVLMの有効性を確認する。
この研究は、VLMや画像・テキスト生成における重大なセキュリティリスクを明らかにするだけでなく、このような高度な脅威に対してマルチモーダルモデルを確保するための基盤となる。
The emergence of Vision Language Models (VLMs) is a significant advancement in integrating computer vision with Large Language Models (LLMs) to produce detailed text descriptions based on visual inputs, yet it introduces new security vulnerabilities. Unlike prior work that centered on single modalities or classification tasks, this study introduces TrojVLM, the first exploration of backdoor attacks aimed at VLMs engaged in complex image-to-text generation. Specifically, TrojVLM inserts predetermined target text into output text when encountering poisoned images. Moreover, a novel semantic preserving loss is proposed to ensure the semantic integrity of the original image content. Our evaluation on image captioning and visual question answering (VQA) tasks confirms the effectiveness of TrojVLM in maintaining original semantic content while triggering specific target text outputs. This study not only uncovers a critical security risk in VLMs and image-to-text generation but also sets a foundation for future research on securing multimodal models against such sophisticated threats. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# 特徴分別によるAndroidマルウェアのデコード:注意力強化型MLP-SVMアプローチ
Decoding Android Malware with a Fraction of Features: An Attention-Enhanced MLP-SVM Approach ( http://arxiv.org/abs/2409.19234v1 ) ライセンス: Link先を確認 | Safayat Bin Hakim, Muhammad Adil, Kamal Acharya, Houbing Herbert Song, | (参考訳) Androidマルウェアの高度化は、従来の検出方法に重大な課題をもたらし、高い精度で脅威を効果的に識別し分類できる革新的なアプローチを必要としている。
本稿では,Androidのマルウェア検出と分類をより効果的にするために,注目度を高めるマルチレイヤ・パーセプトロン(MLP)とサポートベクトルマシン(SVM)を相乗的に統合する新しいフレームワークを提案する。
CCCS-CIC-AndMal-2020データセットで利用可能な9,760件のうち、47件の機能を慎重に分析することにより、我々のMLP-SVMモデルは悪意のあるアプリケーションを特定する上で99%以上の精度で達成できる。
MLPは、注意機構によって強化され、最も識別性の高い特徴に焦点を当て、さらにLDA(Linear Discriminant Analysis)を使用して47の機能をわずか14のコンポーネントに減らした。
この次元の大幅な減少にもかかわらず、RBFカーネルを備えたSVMコンポーネントは、これらのコンポーネントを高次元空間にマッピングし、マルウェアをそれぞれのファミリーに正確に分類するのに役立つ。
精度、精度、リコール、F1スコアの指標を含む厳密な評価は、既存の最先端技術と比較して、我々のアプローチの優位性を確認します。
提案するフレームワークは,コンパクトな機能セットを活用することで,計算処理の複雑さを著しく低減するだけでなく,進化するAndroidマルウェアのランドスケープに対してレジリエンスを示す。
The escalating sophistication of Android malware poses significant challenges to traditional detection methods, necessitating innovative approaches that can efficiently identify and classify threats with high precision. This paper introduces a novel framework that synergistically integrates an attention-enhanced Multi-Layer Perceptron (MLP) with a Support Vector Machine (SVM) to make Android malware detection and classification more effective. By carefully analyzing a mere 47 features out of over 9,760 available in the comprehensive CCCS-CIC-AndMal-2020 dataset, our MLP-SVM model achieves an impressive accuracy over 99% in identifying malicious applications. The MLP, enhanced with an attention mechanism, focuses on the most discriminative features and further reduces the 47 features to only 14 components using Linear Discriminant Analysis (LDA). Despite this significant reduction in dimensionality, the SVM component, equipped with an RBF kernel, excels in mapping these components to a high-dimensional space, facilitating precise classification of malware into their respective families. Rigorous evaluations, encompassing accuracy, precision, recall, and F1-score metrics, confirm the superiority of our approach compared to existing state-of-the-art techniques. The proposed framework not only significantly reduces the computational complexity by leveraging a compact feature set but also exhibits resilience against the evolving Android malware landscape. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# 自動防御のためのペシミズムの価格
The Price of Pessimism for Automated Defense ( http://arxiv.org/abs/2409.19237v1 ) ライセンス: Link先を確認 | Erick Galinkin, Emmanouil Pountourakis, Spiros Mancoridis, | (参考訳) 特にサイバーセキュリティの分野では、モデルに組み込まれた仮定が実質的な財政的、あるいは国家的セキュリティに影響を及ぼす可能性がある。
コンピュータ科学者は最悪のケースの結果を最適化するよう求められることが多く、セキュリティはリスク軽減に重点を置いているため、最悪のケースシナリオの準備は合理的に思える。
本研究は,最も可能性の高いケースではなく,最悪のケースに対する準備が,学習者にとって最適な結果をもたらすことを実証する。
確率的ベイズゲーム(英語版)のレンズを通して、我々はまず、サイバーセキュリティ実践者に対するモデルの有用性に影響を与える様々な攻撃者の知識モデリング仮定を探索する。
ゲームの状態とディフェンダーの隠蔽情報に関する異なる攻撃的知識のモデルを考えると、最悪の場合に対して最適化するために、ディフェンダーにコストがかかることが分かる。
The well-worn George Box aphorism ``all models are wrong, but some are useful'' is particularly salient in the cybersecurity domain, where the assumptions built into a model can have substantial financial or even national security impacts. Computer scientists are often asked to optimize for worst-case outcomes, and since security is largely focused on risk mitigation, preparing for the worst-case scenario appears rational. In this work, we demonstrate that preparing for the worst case rather than the most probable case may yield suboptimal outcomes for learning agents. Through the lens of stochastic Bayesian games, we first explore different attacker knowledge modeling assumptions that impact the usefulness of models to cybersecurity practitioners. By considering different models of attacker knowledge about the state of the game and a defender's hidden information, we find that there is a cost to the defender for optimizing against the worst case. | 翻訳日:2024-11-06 00:28:26 公開日:2024-09-28 |
# Zorro: ReLUとGELUを拡張するアクティベーション関数のフレキシブルで微分可能なパラメトリックファミリー
Zorro: A Flexible and Differentiable Parametric Family of Activation Functions That Extends ReLU and GELU ( http://arxiv.org/abs/2409.19239v1 ) ライセンス: Link先を確認 | Matias Roodschild, Jorge Gotay-Sardiñas, Victor A. Jimenez, Adrian Will, | (参考訳) トランスフォーマーや拡張LSTM(xLSTM)といった最近のニューラルネットワークアーキテクチャや、畳み込みニューラルネットワークのような従来のアーキテクチャでさえ、アクティベーション関数は、ほぼすべてのニューラルネットワークの不可欠な部分である。
より効果的なトレーニングを可能にし、非線形データパターンをキャプチャする。
過去30年間に400以上の関数が提案され、固定パラメータやトレーニング可能なパラメータが提案されているが、広く使われているのはごくわずかである。
ReLUは最も頻繁に使われており、GELUとSwishの派生型が増えている。
しかし、ReLUは微分不可能な点と爆発的な勾配問題を示し、GELUとSwish variantの異なるパラメータのテストは、データセットやアーキテクチャに適応するためにより多くのパラメータを必要とする様々な結果を生成する。
本稿では、ReLUとSigmoidを融合した5つの主要な関数からなる連続微分可能で柔軟なファミリーであるZorroと呼ばれる新しいアクティベーション関数のセットを紹介する。
ゾロ関数は滑らかで適応可能であり、情報ゲートとして機能し、0-1の範囲でReLUと整列し、正規化、神経細胞死、勾配爆発を必要とせずにReLUに代わるものを提供する。
Zorroはまた、Swish、GELU、DGELUといった関数を近似し、異なるデータセットやアーキテクチャに合わせてパラメータを提供する。
完全に接続された、畳み込み、そしてトランスフォーマーアーキテクチャでテストし、その効果を実証しました。
Even in recent neural network architectures such as Transformers and Extended LSTM (xLSTM), and traditional ones like Convolutional Neural Networks, Activation Functions are an integral part of nearly all neural networks. They enable more effective training and capture nonlinear data patterns. More than 400 functions have been proposed over the last 30 years, including fixed or trainable parameters, but only a few are widely used. ReLU is one of the most frequently used, with GELU and Swish variants increasingly appearing. However, ReLU presents non-differentiable points and exploding gradient issues, while testing different parameters of GELU and Swish variants produces varying results, needing more parameters to adapt to datasets and architectures. This article introduces a novel set of activation functions called Zorro, a continuously differentiable and flexible family comprising five main functions fusing ReLU and Sigmoid. Zorro functions are smooth and adaptable, and serve as information gates, aligning with ReLU in the 0-1 range, offering an alternative to ReLU without the need for normalization, neuron death, or gradient explosions. Zorro also approximates functions like Swish, GELU, and DGELU, providing parameters to adjust to different datasets and architectures. We tested it on fully connected, convolutional, and transformer architectures to demonstrate its effectiveness. | 翻訳日:2024-11-06 00:18:22 公開日:2024-09-28 |
# オンライン過激派集団におけるコミュニティ構造と言語の発展の連成モデル
Jointly modelling the evolution of community structure and language in online extremist groups ( http://arxiv.org/abs/2409.19243v1 ) ライセンス: Link先を確認 | Christine de Kock, | (参考訳) グループ間相互作用は、特定の社会的・時間的文脈内で発生し、コミュニティをモデル化する際に考慮すべきである。
本稿では,コミュニティ構造と言語を時間とともに共同でモデル化する手法を提案し,これを過激派反女性オンライングループ(マンスフィア)の文脈に適用する。
我々のモデルは、トレーニングウィンドウ上で進化する単語やユーザに対して、時間的に接地された埋め込みを導出する。
このアプローチは、これらの構成要素の1つを欠いた先行モデル(例えば、社会構造を組み込んだり、静的な単語埋め込みを使ったりしない)よりも優れていることを示す。
これらの埋め込みを用いて、これらのコミュニティ内でのユーザと単語の進化を3つの方法で調査する。
i)ユーザを埋め込みのシーケンスとしてモデル化し,トレーニングウィンドウを超えて親和性グループを予測する。
(II)時相事象の文脈において,単語の進化がいかに有用かを説明する。
(三)マンスフェアのサブグループ内の暴力的言語に対する妥当性を特徴付ける。
Group interactions take place within a particular socio-temporal context, which should be taken into account when modelling communities. We propose a method for jointly modelling community structure and language over time, and apply it in the context of extremist anti-women online groups (collectively known as the manosphere). Our model derives temporally grounded embeddings for words and users, which evolve over the training window. We show that this approach outperforms prior models which lacked one of these components (i.e. not incorporating social structure, or using static word embeddings). Using these embeddings, we investigate the evolution of users and words within these communities in three ways: (i) we model a user as a sequence of embeddings and forecast their affinity groups beyond the training window, (ii) we illustrate how word evolution is useful in the context of temporal events, and (iii) we characterise the propensity for violent language within subgroups of the manosphere. | 翻訳日:2024-11-06 00:18:22 公開日:2024-09-28 |
# 文の簡易化のための編集制約付き復号法
Edit-Constrained Decoding for Sentence Simplification ( http://arxiv.org/abs/2409.19247v1 ) ライセンス: Link先を確認 | Tatsuya Zetsu, Yuki Arase, Tomoyuki Kajiwara, | (参考訳) 文単純化のための語彙制約付きデコードに基づく編集操作を提案する。
文の単純化において、語彙パラフレーズは複雑な文を単純な文に書き換える主要な手続きの1つである。
これまでの研究では、このタスクにおける語彙的に制約されたデコードの有効性が確認されているが、それらの制約は緩くなり、最適以下の生成につながる可能性がある。
本稿では, 簡易化時に行われる編集操作を再現する制約を設計し, より厳密な満足度条件を定義することで, この問題に対処する。
提案手法は, この課題によく用いられる3つの英語単純化コーパスにおいて, 従来よりも一貫して優れていた。
We propose edit operation based lexically constrained decoding for sentence simplification. In sentence simplification, lexical paraphrasing is one of the primary procedures for rewriting complex sentences into simpler correspondences. While previous studies have confirmed the efficacy of lexically constrained decoding on this task, their constraints can be loose and may lead to sub-optimal generation. We address this problem by designing constraints that replicate the edit operations conducted in simplification and defining stricter satisfaction conditions. Our experiments indicate that the proposed method consistently outperforms the previous studies on three English simplification corpora commonly used in this task. | 翻訳日:2024-11-06 00:18:22 公開日:2024-09-28 |
# Beyond Euclidean: 弱監視ビデオビオレンス検出のためのデュアルスペース表現学習
Beyond Euclidean: Dual-Space Representation Learning for Weakly Supervised Video Violence Detection ( http://arxiv.org/abs/2409.19252v1 ) ライセンス: Link先を確認 | Jiaxu Leng, Zhanjie Wu, Mingpi Tan, Yiran Liu, Ji Gan, Haosheng Chen, Xinbo Gao, | (参考訳) 多くのビデオ暴力検出(VVD)法はユークリッド空間での表現学習に重点を置いているが、十分な識別的特徴の習得に苦慮しており、視覚的に暴力的な出来事と類似した正常な出来事を認識するのに弱点がある("\emph{i.}, amambiuous violence")。
対照的に、双曲表現学習は、イベント間の階層的および複雑な関係をモデル化する能力で有名であり、視覚的に類似したイベント間の識別を増幅する可能性がある。
これらに触発されて、弱教師付きVVDのための新しいDual-Space Representation Learning(DSRL)法を開発し、ユークリッドと双曲の両ジオメトリーの強度を活用し、イベントの視覚的特徴を捉えながら、イベント間の本質的な関係を探求し、特徴の識別能力を高める。
DSRLは、双曲空間における事象コンテキストを漸進的に学習するために、新しい情報集約戦略を採用している。
さらに、DSRLは異なる空間のサイバーバルカン化を破り、ユークリッド空間と双曲空間の間の情報相互作用を促進し、最終的な暴力検出のためのより良い差別的特徴を捉えようと試みている。
総合実験により提案したDSRLの有効性が実証された。
While numerous Video Violence Detection (VVD) methods have focused on representation learning in Euclidean space, they struggle to learn sufficiently discriminative features, leading to weaknesses in recognizing normal events that are visually similar to violent events (\emph{i.e.}, ambiguous violence). In contrast, hyperbolic representation learning, renowned for its ability to model hierarchical and complex relationships between events, has the potential to amplify the discrimination between visually similar events. Inspired by these, we develop a novel Dual-Space Representation Learning (DSRL) method for weakly supervised VVD to utilize the strength of both Euclidean and hyperbolic geometries, capturing the visual features of events while also exploring the intrinsic relations between events, thereby enhancing the discriminative capacity of the features. DSRL employs a novel information aggregation strategy to progressively learn event context in hyperbolic spaces, which selects aggregation nodes through layer-sensitive hyperbolic association degrees constrained by hyperbolic Dirichlet energy. Furthermore, DSRL attempts to break the cyber-balkanization of different spaces, utilizing cross-space attention to facilitate information interactions between Euclidean and hyperbolic space to capture better discriminative features for final violence detection. Comprehensive experiments demonstrate the effectiveness of our proposed DSRL. | 翻訳日:2024-11-06 00:18:22 公開日:2024-09-28 |
# LISTN : 社会時相ニュアンスによる語彙誘導
LISTN: Lexicon induction with socio-temporal nuance ( http://arxiv.org/abs/2409.19257v1 ) ライセンス: Link先を確認 | Christine de Kock, | (参考訳) 過激派オンラインコミュニティの研究は、しばしば言語分析を利用してグループダイナミクスや行動を探究する。
既存の研究は、しばしば、グループ内言語の進化する性質やコミュニティの社会的構造を捉えない時代遅れのレキシコンに依存している。
本稿では,その社会的・時間的文脈を取り入れた,グループ内レキシコンを誘導する新しい手法を提案する。
オンラインの反女性コミュニティの会話で訓練された動的単語とユーザ埋め込みを用いて、我々のアプローチは、レキシコン誘導の先行手法よりも優れている。
人間の専門家によって検証され、各用語の特定のサブコミュニティとの関係を定量化する、新しいマンスフィア用語の辞書を提供する。
本稿では,本手法の有用性を示すグループ内言語に関する新たな知見を示す。
Research on extremist online communities frequently utilizes linguistic analysis to explore group dynamics and behaviour. Existing studies often rely on outdated lexicons that do not capture the evolving nature of in-group language, nor the social structure of the community. This paper proposes a novel method for inducing in-group lexicons which incorporates its socio-temporal context. Using dynamic word and user embeddings trained on conversations from online anti-women communities, our approach outperforms prior methods for lexicon induction. We provide a new lexicon of manosphere terms, validated by human experts, which quantifies the relevance of each term to a specific sub-community. We present novel insights on in-group language which illustrate the utility of this approach. | 翻訳日:2024-11-06 00:18:22 公開日:2024-09-28 |
# VecLSTM:LSTMベクトル化とデータベース統合による活動認識のための軌道データ処理と管理
VecLSTM: Trajectory Data Processing and Management for Activity Recognition through LSTM Vectorization and Database Integration ( http://arxiv.org/abs/2409.19258v1 ) ライセンス: Link先を確認 | Solmaz Seyed Monir, Dongfang Zhao, | (参考訳) アクティビティ認識は、大量の軌跡データと、迅速かつ効率的な処理の必要性のため、難しい課題である。
既存の手法では従来のLSTMアーキテクチャを用いてこの問題を緩和しようと試みてきたが、これらのアプローチは大規模なデータセットを処理する際の非効率さに悩まされることが多い。
この課題に対応するために,我々は,LSTMに基づくニューラルネットワークの性能と効率を向上させる新しいフレームワークであるVecLSTMを提案する。
従来のアプローチとは異なり、VecLSTMはベクトル化層を導入し、最適化された数学的演算を利用して入力シーケンスをより効率的に処理する。
我々はVecLSTMを実装し、MySQLデータベースに組み込んだ。
VecLSTMの有効性を評価するために,1,467,652サンプルと7つのユニークなラベルからなるデータセットを用いて,従来のLSTMモデルと比較した。
VecLSTMは85.57\%、試験精度85.47\%、重み付きF1スコア0.86である。
さらに、VecLSTMはトレーニング時間を大幅に短縮し、従来のLSTMモデルに比べて26.2倍の削減を実現している。
Activity recognition is a challenging task due to the large scale of trajectory data and the need for prompt and efficient processing. Existing methods have attempted to mitigate this problem by employing traditional LSTM architectures, but these approaches often suffer from inefficiencies in processing large datasets. In response to this challenge, we propose VecLSTM, a novel framework that enhances the performance and efficiency of LSTM-based neural networks. Unlike conventional approaches, VecLSTM incorporates vectorization layers, leveraging optimized mathematical operations to process input sequences more efficiently. We have implemented VecLSTM and incorporated it into the MySQL database. To evaluate the effectiveness of VecLSTM, we compare its performance against a conventional LSTM model using a dataset comprising 1,467,652 samples with seven unique labels. Experimental results demonstrate superior accuracy and efficiency compared to the state-of-the-art, with VecLSTM achieving a validation accuracy of 85.57\%, a test accuracy of 85.47\%, and a weighted F1-score of 0.86. Furthermore, VecLSTM significantly reduces training time, offering a 26.2\% reduction compared to traditional LSTM models. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# PDCFNet: ピクセル差分畳み込みによる水中画像の強化
PDCFNet: Enhancing Underwater Images through Pixel Difference Convolution ( http://arxiv.org/abs/2409.19269v1 ) ライセンス: Link先を確認 | Song Zhang, Daoliang Li, Ran Zhao, | (参考訳) 深層学習法の大部分は、水中画像の強化にバニラ畳み込みを利用している。
バニラ畳み込みは、局所的な特徴を捉え、画像の空間的階層構造を学ぶのに優れるが、スムーズな入力画像の傾向があり、特徴表現やモデリングを幾分制限する。
水中劣化画像の顕著な特徴はぼやけており、画像のテクスチャや細部(高周波の特徴)をより鮮明にすることを目的としている。
そのため,周波数特性の活用により性能の向上が期待できる。
これを解決するために、画像に重要な変化を伴う勾配情報に焦点を当てたPixel Difference Convolution (PDC)を導入し、改良された画像のモデリングを改善する。
PDCとクロスレベル特徴融合に基づく水中画像強調ネットワークPDCFNetを提案する。
具体的には、並列PDCを用いて高周波数特徴を捕捉し、ディテールとテクスチャを向上するPDCに基づくディテールエンハンスメントモジュールを設計する。
設計されたクロスレベル機能融合モジュールは、異なるレベルの機能に対する結合や乗算のような操作を行い、多様な機能間の十分な相互作用と強化を保証する。
提案するPDCFNetは,UIEBデータセット上でのPSNR27.37とSSIM92.02を達成し,これまでで最高の性能を実現する。
私たちのコードはhttps://github.com/zhangsong1213/PDCFNetで利用可能です。
Majority of deep learning methods utilize vanilla convolution for enhancing underwater images. While vanilla convolution excels in capturing local features and learning the spatial hierarchical structure of images, it tends to smooth input images, which can somewhat limit feature expression and modeling. A prominent characteristic of underwater degraded images is blur, and the goal of enhancement is to make the textures and details (high-frequency features) in the images more visible. Therefore, we believe that leveraging high-frequency features can improve enhancement performance. To address this, we introduce Pixel Difference Convolution (PDC), which focuses on gradient information with significant changes in the image, thereby improving the modeling of enhanced images. We propose an underwater image enhancement network, PDCFNet, based on PDC and cross-level feature fusion. Specifically, we design a detail enhancement module based on PDC that employs parallel PDCs to capture high-frequency features, leading to better detail and texture enhancement. The designed cross-level feature fusion module performs operations such as concatenation and multiplication on features from different levels, ensuring sufficient interaction and enhancement between diverse features. Our proposed PDCFNet achieves a PSNR of 27.37 and an SSIM of 92.02 on the UIEB dataset, attaining the best performance to date. Our code is available at https://github.com/zhangsong1213/PDCFNet. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# OpenSep: オープンワールドオーディオ分離のためのテキスト変換による大規模言語モデルの活用
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation ( http://arxiv.org/abs/2409.19270v1 ) ライセンス: Link先を確認 | Tanvir Mahmud, Diana Marculescu, | (参考訳) 様々なソースを含む実世界のシナリオにおけるオーディオ分離は、オーバーセパレーション、アンダーセパレーション、事前定義されたトレーニングソースへの依存など、既存のモデルの制限によって大きな課題を呈する。
自動音声分離に大規模言語モデル(LLM)を活用する新しいフレームワークであるOpenSepを提案する。
OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。
その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
さらに,単一音源と混合音を同時に分離し,モダリティアライメントを高めるため,ミックス・アンド・セパレート・トレーニング・フレームワークのマルチレベル拡張を導入する。
大規模な実験は、OpenSepが新しい、目に見えない、可変なソースを挑戦的な混合で正確に分離し、SOTAベースライン法より優れていることを示す。
コードはhttps://github.com/tanvir-utexas/OpenSep.gitで公開されている。
Audio separation in real-world scenarios, where mixtures contain a variable number of sources, presents significant challenges due to limitations of existing models, such as over-separation, under-separation, and dependence on predefined training sources. We propose OpenSep, a novel framework that leverages large language models (LLMs) for automated audio separation, eliminating the need for manual intervention and overcoming source limitations. OpenSep uses textual inversion to generate captions from audio mixtures with off-the-shelf audio captioning models, effectively parsing the sound sources present. It then employs few-shot LLM prompting to extract detailed audio properties of each parsed source, facilitating separation in unseen mixtures. Additionally, we introduce a multi-level extension of the mix-and-separate training framework to enhance modality alignment by separating single source sounds and mixtures simultaneously. Extensive experiments demonstrate OpenSep's superiority in precisely separating new, unseen, and variable sources in challenging mixtures, outperforming SOTA baseline methods. Code is released at https://github.com/tanvir-utexas/OpenSep.git | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# 知覚圧縮機:長期シナリオにおける訓練不要なプロンプト圧縮法
Perception Compressor:A training-free prompt compression method in long context scenarios ( http://arxiv.org/abs/2409.19272v1 ) ライセンス: Link先を確認 | Jiwei Tang, Jin Xu, Tingwei Lu, Hai Lin, Yiming Zhao, Hai-Tao Zheng, | (参考訳) 大規模言語モデル(LLM)は、様々なシナリオにおいて例外的な能力を示す。
しかし、多くの冗長な情報に悩まされ、長いコンテキストシナリオの途中で失われる傾向があり、パフォーマンスが低下する。
これらの課題に対処するために、トレーニング不要なプロンプト圧縮手法であるPerception Compressorを提案する。
圧縮比とオープンブック比を動的に割り当てるデュアルスロープ比アロケータと、最も関係のあるデモンストレーションを検索するためのガイダンス質問と指示を利用する知覚検索器と、LLMを邪魔するトークンを除去しながらトークンレベルでキー情報を保持する半誘導反復圧縮を備える。
長い文脈のベンチマーク、すなわちNaturalQuestions、LongBench、MuSiQueについて広範な実験を行う。
実験の結果, パーセプション圧縮機は既存手法よりも高い性能を示し, 最先端性能を実現している。
Large Language Models (LLMs) demonstrate exceptional capabilities in various scenarios. However, they suffer from much redundant information and tend to be lost in the middle in long context scenarios, leading to inferior performance. To address these challenges, we present Perception Compressor, a training-free prompt compression method. It includes a dual-slope ratio allocator to dynamically assign compression ratios and open-book ratios, a perception retriever that leverages guiding questions and instruction to retrieve the most relevant demonstrations, and a semi-guided iterative compression that retains key information at the token level while removing tokens that distract the LLM. We conduct extensive experiments on long context benchmarks, i.e., NaturalQuestions, LongBench, and MuSiQue. Experiment results show that Perception Compressor outperforms existing methods by a large margin, achieving state-of-the-art performance. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# 離散力学系を効果的に近似するリカレントニューラルネットワークの明示的構築
Explicit construction of recurrent neural networks effectively approximating discrete dynamical systems ( http://arxiv.org/abs/2409.19278v1 ) ライセンス: Link先を確認 | Chikara Nakayama, Tsuyoshi Yoneda, | (参考訳) 我々は、再帰性を持つ力学系に由来する任意の有界離散時系列を考える。
より正確には、対応する離散力学系を効果的に近似する、リカレントニューラルネットワークの明示的な構築を提供する。
We consider arbitrary bounded discrete time series originating from dynamical system with recursivity. More precisely, we provide an explicit construction of recurrent neural networks which effectively approximate the corresponding discrete dynamical systems. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# 拡張座標系におけるエネルギー保存則による分散最適化
Distributed Optimization via Energy Conservation Laws in Dilated Coordinates ( http://arxiv.org/abs/2409.19279v1 ) ライセンス: Link先を確認 | Mayank Baranwal, Kushal Chakrabarti, | (参考訳) 分散的な方法で問題を最適化することは、複数のエージェントとプライベートデータを含むシステムにとって重要である。
かなりの関心があるにもかかわらず、分散最適化アルゴリズムの収束率を分析する統一的な方法が欠落している。
本稿では,拡張座標における連続時間力学系の解析のためのエネルギー保存手法を提案する。
元の座標系における力学を直接解析する代わりに、拡張座標系において物理エネルギーに似た保存量を確立する。
その結果、収束率を逆時間差係数で明示的に表すことができる。
この一般化されたアプローチを利用して、新しい二階分散加速勾配流を$O\left(1/t^{2-\epsilon}\right)$ in time $t$ for $\epsilon>0$で定式化する。
次に、半二階シンプレクティックなオイラー離散化を用いて、$k$反復で$O\left(1/k^{2-\epsilon}\right)$の収束率を持つレートマッチングアルゴリズムを導出する。
我々の知る限り、これはスムーズな凸最適化のために設計された分散最適化アルゴリズムにおいて最も好ましい収束率を示している。
その高速化された収束挙動は、実用的、大規模問題に対する様々な最先端分散最適化アルゴリズムに対してベンチマークされる。
Optimizing problems in a distributed manner is critical for systems involving multiple agents with private data. Despite substantial interest, a unified method for analyzing the convergence rates of distributed optimization algorithms is lacking. This paper introduces an energy conservation approach for analyzing continuous-time dynamical systems in dilated coordinates. Instead of directly analyzing dynamics in the original coordinate system, we establish a conserved quantity, akin to physical energy, in the dilated coordinate system. Consequently, convergence rates can be explicitly expressed in terms of the inverse time-dilation factor. Leveraging this generalized approach, we formulate a novel second-order distributed accelerated gradient flow with a convergence rate of $O\left(1/t^{2-\epsilon}\right)$ in time $t$ for $\epsilon>0$. We then employ a semi second-order symplectic Euler discretization to derive a rate-matching algorithm with a convergence rate of $O\left(1/k^{2-\epsilon}\right)$ in $k$ iterations. To the best of our knowledge, this represents the most favorable convergence rate for any distributed optimization algorithm designed for smooth convex optimization. Its accelerated convergence behavior is benchmarked against various state-of-the-art distributed optimization algorithms on practical, large-scale problems. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# 一般騒音のあるシナリオにおける絡み合った状態の忠実度に対する信頼区間推定
Reliable Interval Estimation for the Fidelity of Entangled States in Scenarios with General Noise ( http://arxiv.org/abs/2409.19282v1 ) ライセンス: Link先を確認 | Liangzhong Ruan, Bas Dirkse, | (参考訳) 絡み合った状態の忠実度推定は、量子ネットワークにおける品質制御とエラー検出に不可欠なビルディングブロックを構成する。
それでも、量子ネットワークは、しばしば異質で相関的なノイズに遭遇し、推定された忠実度に過剰な不確実性をもたらす。
本稿では,一般雑音の条件下で推定された忠実度に付随する不確実性について,ランダムサンプリング,思考実験,ベイズ推定を併用することにより制約し,一般雑音の存在下で有効な忠実度に対する信頼区間を与える。
提案した信頼区間は、推定精度を高めるために、後部分布の偶数モーメントをすべて組み込む。
推定精度に影響を与える要因を特定し解析する。
具体的には,過度な測定の問題に対処し,一般的な雑音条件下での忠実度推定のための測定比率を適切に決定する必要性を強調した。
Fidelity estimation for entangled states constitutes an essential building block for quality control and error detection in quantum networks. Nonetheless, quantum networks often encounter heterogeneous and correlated noise, leading to excessive uncertainty in the estimated fidelity. In this paper, the uncertainty associated with the estimated fidelity under conditions of general noise is constrained by jointly employing random sampling, a thought experiment, and Bayesian inference, resulting in a credible interval for fidelity that is valid in the presence of general noise. The proposed credible interval incorporates all even moments of the posterior distribution to enhance estimation accuracy. Factors influencing the estimation accuracy are identified and analyzed. Specifically, the issue of excessive measurements is addressed, emphasizing the necessity of properly determining the measurement ratio for fidelity estimation under general noise conditions. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# FINE:可変サイズの拡散モデルの初期化のための因子化知識
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models ( http://arxiv.org/abs/2409.19289v1 ) ライセンス: Link先を確認 | Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Xin Geng, | (参考訳) 拡散モデルは、しばしば緩やかな収束に直面し、パラメータ効率の良い微調整(PEFT)のような既存の効率的な訓練技術は、主に微調整された事前訓練モデルのために設計されている。
しかし、これらの手法は、対応する事前訓練されたモデルが存在しない実世界展開のための可変サイズにモデルを適用する場合に限られる。
そこで本研究では,モデルサイズとタスク固有の要件の両方を考慮して,事前学習モデルを活用した下流ネットワークを初期化するための,Learngeneフレームワークに基づくFINEを提案する。
FINE は事前学習した知識を行列の積 ($U$, $\Sigma$, $V$) に分解し、$U$ と $V$ はネットワークブロック間で `learngenes'' として共有され、$\Sigma$ は層固有のままである。
初期化中、FINE はデータの小さなサブセットを使用して $\Sigma$ のみをトレーニングする一方で、re learngene パラメータを固定し、初期化においてサイズとタスクの考慮事項を統合する最初のアプローチをマークしている。
画像生成タスクにおける学習遺伝子に基づく手法の総合的なベンチマークを行い、FINEが直接事前学習、特に小型モデルにおいて一貫して性能を向上し、可変モデルサイズで最先端の結果が得られることを示した。
FINEはまた、計算とストレージの大幅な節約を提供し、トレーニング手順を約$3N\times$、ストレージを$5\times$で削減している。
さらに、タスクへのFINEの適応性は、複数の下流データセットにわたるFIDとsFIDで平均4.29と3.30のパフォーマンス改善をもたらし、その汎用性と効率性を強調している。
Diffusion models often face slow convergence, and existing efficient training techniques, such as Parameter-Efficient Fine-Tuning (PEFT), are primarily designed for fine-tuning pre-trained models. However, these methods are limited in adapting models to variable sizes for real-world deployment, where no corresponding pre-trained models exist. To address this, we introduce FINE, a method based on the Learngene framework, to initializing downstream networks leveraging pre-trained models, while considering both model sizes and task-specific requirements. FINE decomposes pre-trained knowledge into the product of matrices (i.e., $U$, $\Sigma$, and $V$), where $U$ and $V$ are shared across network blocks as ``learngenes'', and $\Sigma$ remains layer-specific. During initialization, FINE trains only $\Sigma$ using a small subset of data, while keeping the learngene parameters fixed, marking it the first approach to integrate both size and task considerations in initialization. We provide a comprehensive benchmark for learngene-based methods in image generation tasks, and extensive experiments demonstrate that FINE consistently outperforms direct pre-training, particularly for smaller models, achieving state-of-the-art results across variable model sizes. FINE also offers significant computational and storage savings, reducing training steps by approximately $3N\times$ and storage by $5\times$, where $N$ is the number of models. Additionally, FINE's adaptability to tasks yields an average performance improvement of 4.29 and 3.30 in FID and sFID across multiple downstream datasets, highlighting its versatility and efficiency. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# VLAD-BuFF:視覚的位置認識のためのバースト認識高速特徴集約
VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition ( http://arxiv.org/abs/2409.19293v1 ) ライセンス: Link先を確認 | Ahmad Khaliq, Ming Xu, Stephen Hausler, Michael Milford, Sourav Garg, | (参考訳) 視覚的位置認識(VPR)は、多くの視覚的位置決めパイプラインの重要な要素である。
VPRは、局所的な特徴を共同学習するための画像検索タスクとアグリゲーションメソッドとして、しばしば定式化される。
現在の最先端のVPR手法はVLADアグリゲーションに依存しており、クラスタセンターへのソフトアサインを通じて、機能の重み付けされたコントリビューションを学ぶように訓練することができる。
しかし、このプロセスには2つの重要な制限がある。
第一に、クラスタ間重み付けはクラスタ内の過剰に表現された繰り返し構造(例えば、シャドウやウィンドウペイン)を考慮しない。
第二に、クラスタ比較に対する特徴は、高次元局所特徴を持つ最先端の画像エンコーダに対して計算集約的である。
本稿では,VLAD-BuFFを2つの新しいコントリビューションで導入することで,これらの制限に対処する。
一 エンドツーエンドのVPR訓練において、バースト認識の特徴を学習するための自己相似機能割引機構
二 局所的特徴次元を減らし、特にPCAを初期化して学習可能な事前投影により高速な特徴集約を行うこと。
我々は、VLAD-BuFFが新しい最先端を設定できる9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
さらなる質的研究を通じて,提案手法が非識別的特徴を効果的に下降させることを示す。
ソースコード:https://github.com/Ahmedest61/VLAD-BuFF/。
Visual Place Recognition (VPR) is a crucial component of many visual localization pipelines for embodied agents. VPR is often formulated as an image retrieval task aimed at jointly learning local features and an aggregation method. The current state-of-the-art VPR methods rely on VLAD aggregation, which can be trained to learn a weighted contribution of features through their soft assignment to cluster centers. However, this process has two key limitations. Firstly, the feature-to-cluster weighting does not account for over-represented repetitive structures within a cluster, e.g., shadows or window panes; this phenomenon is also referred to as the `burstiness' problem, classically solved by discounting repetitive features before aggregation. Secondly, feature to cluster comparisons are compute-intensive for state-of-the-art image encoders with high-dimensional local features. This paper addresses these limitations by introducing VLAD-BuFF with two novel contributions: i) a self-similarity based feature discounting mechanism to learn Burst-aware features within end-to-end VPR training, and ii) Fast Feature aggregation by reducing local feature dimensions specifically through PCA-initialized learnable pre-projection. We benchmark our method on 9 public datasets, where VLAD-BuFF sets a new state of the art. Our method is able to maintain its high recall even for 12x reduced local feature dimensions, thus enabling fast feature aggregation without compromising on recall. Through additional qualitative studies, we show how our proposed weighting method effectively downweights the non-distinctive features. Source code: https://github.com/Ahmedest61/VLAD-BuFF/. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# ダイナミックオーディオデータからのcovid-19検出のためのモデル性能の維持:包括的ドリフト適応フレームワークの開発と評価
Sustaining model performance for covid-19 detection from dynamic audio data: Development and evaluation of a comprehensive drift-adaptive framework ( http://arxiv.org/abs/2409.19300v1 ) ライセンス: Link先を確認 | Theofanis Ganitidis, Maria Athanasiou, Konstantinos Mitsis, Konstantia Zarkogianni, Konstantina S. Nikita, | (参考訳) 背景:新型コロナウイルス(COVID-19)パンデミックは、多様なデータソースから病気を検出する堅牢な診断ツールの必要性を強調している。
機械学習モデル、特に畳み込みニューラルネットワーク(CNN)は、将来性を示している。
しかし、実世界のデータのダイナミックな性質は、基礎となるデータ分布が変化するにつれて、パフォーマンスが経時的に低下するモデルドリフトにつながる可能性がある。
この課題に対処することは、診断アプリケーションの正確性と信頼性を維持するために不可欠である。
目的: 本研究の目的は, モデルドリフトを監視し, 動的オーディオデータに基づいて訓練された新型コロナウイルス検出モデルの性能変動を軽減するための適応機構を用いたフレームワークを開発することである。
方法:クラウドソースされた2つのCOVID-19オーディオデータセット、COVID-19 SoundsとCOSWARAを使用した。
開発期間は開発期間と開発期間に分けられた。
ベースラインCNNモデルを訓練し, 発達期からのコークス記録を用いて評価した。
最大平均誤差(MMD)は,データ分布の変化と周期間のモデル性能を検出するために用いられた。
ドリフトを検出すると、リトレーニングがトリガーされ、ベースラインモデルが更新された。
非教師付きドメイン適応(UDA)とアクティブラーニング(AL)の2つのアプローチを比較した。
結果: UDAは、それぞれCOVID-19 SoundsとCOSWARAデータセットで、バランスの取れた精度を最大22%改善した。
ALはさらに改善され、それぞれ30%と60%に向上した。
結論: 提案されたフレームワークは、新型コロナウイルス検出におけるモデルドリフトに対処し、進化するデータへの継続的適応を可能にする。
このアプローチは、持続的なモデルパフォーマンスを保証し、新型コロナウイルスや他の潜在的な感染症の堅牢な診断ツールに寄与する。
Background: The COVID-19 pandemic has highlighted the need for robust diagnostic tools capable of detecting the disease from diverse and evolving data sources. Machine learning models, especially convolutional neural networks (CNNs), have shown promise. However, the dynamic nature of real-world data can lead to model drift, where performance degrades over time as the underlying data distribution changes. Addressing this challenge is crucial to maintaining accuracy and reliability in diagnostic applications. Objective: This study aims to develop a framework that monitors model drift and employs adaptation mechanisms to mitigate performance fluctuations in COVID-19 detection models trained on dynamic audio data. Methods: Two crowd-sourced COVID-19 audio datasets, COVID-19 Sounds and COSWARA, were used. Each was divided into development and post-development periods. A baseline CNN model was trained and evaluated using cough recordings from the development period. Maximum mean discrepancy (MMD) was used to detect changes in data distributions and model performance between periods. Upon detecting drift, retraining was triggered to update the baseline model. Two adaptation approaches were compared: unsupervised domain adaptation (UDA) and active learning (AL). Results: UDA improved balanced accuracy by up to 22% and 24% for the COVID-19 Sounds and COSWARA datasets, respectively. AL yielded even greater improvements, with increases of up to 30% and 60%, respectively. Conclusions: The proposed framework addresses model drift in COVID-19 detection, enabling continuous adaptation to evolving data. This approach ensures sustained model performance, contributing to robust diagnostic tools for COVID-19 and potentially other infectious diseases. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# フェデレーション学習におけるプライバシー侵害は容易ではない:実験的検討
Privacy Attack in Federated Learning is Not Easy: An Experimental Study ( http://arxiv.org/abs/2409.19301v1 ) ライセンス: Link先を確認 | Hangyu Zhu, Liyuan Huang, Zhenping Xie, | (参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のために提案される分散機械学習のパラダイムである。
従来の集中型学習アプローチとは異なり、FLでは、複数のユーザが自身のデータを開示することなく、共有グローバルモデルを共同でトレーニングすることができるため、プライバシー漏洩のリスクが大幅に低減される。
しかし、最近の研究では、FLはプライバシー保護を完全に保証することはできないことが示されており、攻撃者は通信モデル勾配を通じてユーザーのプライベートデータを抽出できる可能性がある。
多くのプライバシ攻撃FLアルゴリズムが開発されているが、その多くは計算された勾配の単一ステップからプライベートデータを再構築するように設計されている。
これらの手法が現実的なフェデレーション環境で有効かどうか、あるいは他の制限があるかどうかは不明だ。
本稿では,FLに対するプライバシ攻撃の有効性を研究者がよりよく理解し,評価することを目的としている。
本稿では,この話題に関する最近の研究論文を分析し,実際のFL環境で実験を行い,様々な攻撃手法の性能を比較した。
我々の実験結果によると、既存の最先端のプライバシー攻撃アルゴリズムは、防衛戦略がなくても、現実的なFL設定でプライベートクライアントデータを効果的に侵害することはできない。
これは、FLにおけるプライバシー攻撃が、当初予想されていたよりも難しいことを示唆している。
Federated learning (FL) is an emerging distributed machine learning paradigm proposed for privacy preservation. Unlike traditional centralized learning approaches, FL enables multiple users to collaboratively train a shared global model without disclosing their own data, thereby significantly reducing the potential risk of privacy leakage. However, recent studies have indicated that FL cannot entirely guarantee privacy protection, and attackers may still be able to extract users' private data through the communicated model gradients. Although numerous privacy attack FL algorithms have been developed, most are designed to reconstruct private data from a single step of calculated gradients. It remains uncertain whether these methods are effective in realistic federated environments or if they have other limitations. In this paper, we aim to help researchers better understand and evaluate the effectiveness of privacy attacks on FL. We analyze and discuss recent research papers on this topic and conduct experiments in a real FL environment to compare the performance of various attack methods. Our experimental results reveal that none of the existing state-of-the-art privacy attack algorithms can effectively breach private client data in realistic FL settings, even in the absence of defense strategies. This suggests that privacy attacks in FL are more challenging than initially anticipated. | 翻訳日:2024-11-06 00:08:33 公開日:2024-09-28 |
# AVIATE: 2言語ソフトウェアプロジェクトにおけるIRベースのトレーサビリティ回復のためのアーティファクトの翻訳変数のエクスプロイト
AVIATE: Exploiting Translation Variants of Artifacts to Improve IR-based Traceability Recovery in Bilingual Software Projects ( http://arxiv.org/abs/2409.19304v1 ) ライセンス: Link先を確認 | Kexin Sun, Yiding Ren, Hongyu Kuang, Hui Gao, Xiaoxing Ma, Guoping Rong, Dong Shao, He Zhang, | (参考訳) トレーサビリティは、さまざまな種類のアーティファクト(ソフトウェアリポジトリのイシューやコミットなど)間のトレースを確立することによって、さまざまなソフトウェア開発活動を促進する上で重要な役割を担います。
自動トレーサビリティ回復のための探究の中で、IR(Information Retrieval)ベースのアプローチは、アーティファクト間のトレーサビリティの可能性を測り、多くのシナリオで利点を示すために、テキストの類似性を活用する。
しかし、ソフトウェア開発のグローバル化は、アーティファクトテキストにおける同じ概念(例えば、"ShuXing" 対 "attribute" など)上の多言語主義のような新しい課題を導入し、IRベースのアプローチのパフォーマンスを著しく妨げている。
既存の研究では、機械翻訳はバイリンガルプロジェクトの不整合という用語に対処するのに役立つことが示されている。
しかし、この翻訳は二言語プロジェクトのものと一致しない同義語(例えば、「ShuXing」を「property」として訳す)も持ち込むことができる。
そこで本研究では,異なる種類の成果物(つまり,合意二項)の翻訳変種間で同時に現れる単語ペアを利用して,異なる翻訳者からの翻訳変種を利用するAVIATEという拡張戦略を提案する。
これらの両項を用いて、まずアーティファクトテキストを豊かにし、次に計算したIR値を拡張して、両言語ソフトウェアプロジェクトのIRベースのトレーサビリティ回復を改善する。
17のバイリンガルプロジェクト(英語と他の4つの言語を含む)の実験は、AVIATEが機械翻訳(この分野の最先端技術)でIRベースのアプローチを著しく上回り、平均精度は16.67で平均31.43%、平均精度は8.38 (11.22%)、多言語トレーサビリティ回復の課題に対処する効果を示した。
Traceability plays a vital role in facilitating various software development activities by establishing the traces between different types of artifacts (e.g., issues and commits in software repositories). Among the explorations for automated traceability recovery, the IR (Information Retrieval)-based approaches leverage textual similarity to measure the likelihood of traces between artifacts and show advantages in many scenarios. However, the globalization of software development has introduced new challenges, such as the possible multilingualism on the same concept (e.g., "ShuXing" vs. "attribute") in the artifact texts, thus significantly hampering the performance of IR-based approaches. Existing research has shown that machine translation can help address the term inconsistency in bilingual projects. However, the translation can also bring in synonymous terms that are not consistent with those in the bilingual projects (e.g., another translation of "ShuXing" as "property"). Therefore, we propose an enhancement strategy called AVIATE that exploits translation variants from different translators by utilizing the word pairs that appear simultaneously across the translation variants from different kinds artifacts (a.k.a. consensual biterms). We use these biterms to first enrich the artifact texts, and then to enhance the calculated IR values for improving IR-based traceability recovery for bilingual software projects. The experiments on 17 bilingual projects (involving English and 4 other languages) demonstrate that AVIATE significantly outperformed the IR-based approach with machine translation (the state-of-the-art in this field) with an average increase of 16.67 in Average Precision (31.43%) and 8.38 (11.22%) in Mean Average Precision, indicating its effectiveness in addressing the challenges of multilingual traceability recovery. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# EEPNet:LiDARとカメラのクロスモーダル動的レジストレーションのためのエッジPixelベースの効率的なマッチングネットワーク
EEPNet: Efficient Edge Pixel-based Matching Network for Cross-Modal Dynamic Registration between LiDAR and Camera ( http://arxiv.org/abs/2409.19305v1 ) ライセンス: Link先を確認 | Yuanchao Yue, Hui Yuan, Suai Li, Qi Jiang, | (参考訳) 自動運転車が複雑な環境の中で軌道を正確に知覚し、分析し、計画するためには、マルチセンサー融合が不可欠である。
これは通常、高精度でリアルタイムな登録を必要とするLiDARセンサーとカメラのデータの統合を伴う。
画像にLiDAR点雲を登録する現在の手法は、固有のモダリティ差と計算オーバーヘッドのために大きな課題に直面している。
これらの問題に対処するために,ポイントクラウド投影から得られた反射率マップを利用して,登録精度を向上させる高度ネットワークであるEEPNetを提案する。
ポイントクラウドプロジェクションの導入は、ネットワーク入力レベルでのモダリティ差を大幅に軽減し、リフレクタンスデータの導入は、カメラの視野内のポイントクラウドの空間情報に制限のあるシナリオにおけるパフォーマンスを向上させる。
さらに、特徴マッチングにエッジピクセルを使用し、効率的なマッチング最適化層を組み込むことで、EEPNetはリアルタイム登録タスクを著しく高速化する。
実験による検証により、EEPNetは最先端の手法に比べて精度と効率が優れていることが示された。
我々の貢献は、自律認識システムにおいて大きな進歩をもたらし、現実世界のアプリケーションにおける堅牢で効率的なセンサー融合への道を開いた。
Multisensor fusion is essential for autonomous vehicles to accurately perceive, analyze, and plan their trajectories within complex environments. This typically involves the integration of data from LiDAR sensors and cameras, which necessitates high-precision and real-time registration. Current methods for registering LiDAR point clouds with images face significant challenges due to inherent modality differences and computational overhead. To address these issues, we propose EEPNet, an advanced network that leverages reflectance maps obtained from point cloud projections to enhance registration accuracy. The introduction of point cloud projections substantially mitigates cross-modality differences at the network input level, while the inclusion of reflectance data improves performance in scenarios with limited spatial information of point cloud within the camera's field of view. Furthermore, by employing edge pixels for feature matching and incorporating an efficient matching optimization layer, EEPNet markedly accelerates real-time registration tasks. Experimental validation demonstrates that EEPNet achieves superior accuracy and efficiency compared to state-of-the-art methods. Our contributions offer significant advancements in autonomous perception systems, paving the way for robust and efficient sensor fusion in real-world applications. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# CausalVE: 因果的ビデオ予測による顔ビデオのプライバシー暗号化
CausalVE: Face Video Privacy Encryption via Causal Video Prediction ( http://arxiv.org/abs/2409.19306v1 ) ライセンス: Link先を確認 | Yubo Huang, Wenhao Feng, Xin Lai, Zixi Wang, Jingzehua Xu, Shuai Zhang, Hongjie He, Fan Chen, | (参考訳) 高度な顔認識技術と、プライバシー技術が不十分なレコメンデーションシステムと、顔のインタラクションに関するポリシーは、バイオプライバシー違反に対する懸念を高める。
ビデオやライブストリーミングのWebサイトの普及に伴い、公開対面のビデオ配信とインタラクションは、プライバシー上のリスクを増大させる。
既存の技術は、様々なプライバシー強化手法を通じて機密な生体情報漏洩のリスクに対処するが、対話データによって伝達される情報を破損させたり、攻撃者が機密な生体情報を推測できるような特定の生体情報を残したりすることで、より高いセキュリティリスクを引き起こす。
本稿では,これらの欠点に対処するため,ニューラルネットワークフレームワークCausalVEを提案する。
本研究では,顔誘導による顔交換を実現するために拡散モデルを採用し,ダイナミックなビデオ推論と予測のために秘密映像の音声シーケンス特徴と時空間的特徴を用いて,秘密映像と同数のフレームを有するカバービデオを得る。
さらに,ビデオ隠蔽のために可逆的ニューラルネットワークを用いて秘密映像を隠蔽し,秘密データを拡散させる。
多数の実験により、我々のCausalVEは、公開ビデオの拡散において優れたセキュリティを持ち、定性的、定量的、視覚的な観点から最先端の手法より優れていることが証明された。
Advanced facial recognition technologies and recommender systems with inadequate privacy technologies and policies for facial interactions increase concerns about bioprivacy violations. With the proliferation of video and live-streaming websites, public-face video distribution and interactions pose greater privacy risks. Existing techniques typically address the risk of sensitive biometric information leakage through various privacy enhancement methods but pose a higher security risk by corrupting the information to be conveyed by the interaction data, or by leaving certain biometric features intact that allow an attacker to infer sensitive biometric information from them. To address these shortcomings, in this paper, we propose a neural network framework, CausalVE. We obtain cover images by adopting a diffusion model to achieve face swapping with face guidance and use the speech sequence features and spatiotemporal sequence features of the secret video for dynamic video inference and prediction to obtain a cover video with the same number of frames as the secret video. In addition, we hide the secret video by using reversible neural networks for video hiding so that the video can also disseminate secret data. Numerous experiments prove that our CausalVE has good security in public video dissemination and outperforms state-of-the-art methods from a qualitative, quantitative, and visual point of view. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# ドメイン特有な大規模言語モデルの設計--パブリックオピニオンシミュレーションにおけるファインチューニングの役割
Designing Domain-Specific Large Language Models: The Critical Role of Fine-Tuning in Public Opinion Simulation ( http://arxiv.org/abs/2409.19308v1 ) ライセンス: Link先を確認 | Haocheng Lin, | (参考訳) 大規模言語モデル(LLM)は、様々な分野にわたる自然言語処理を変革してきたが、その汎用設計は、環境政策に関する意見をシミュレートするなど、専門分野におけるその有効性を制限している。
本稿では、英国家庭縦断調査のデータを用いた微調整LDMのアプローチを提案し、年齢、収入、教育、地域といった社会デコグラフィー要因の条件付けモデルにより、意見生成の精度を向上させる。
多様な合成プロファイルをエミュレートすることで、微調整されたモデルは、事前訓練されたバージョンよりも効果的な人口集団間の微妙な差異を捉える。
Chi-Squared、Cosine similarity、Jaccard Index、KL-divergenceなどのメトリクスは、合成世論データと実世界の世論データの間に強い整合性を示す。
このアプローチは、環境問題に対する公衆の感情をより情報的、代表的、倫理的な洞察を提供するための微調整LDMの可能性を強調している。
この結果は、より正確で倫理的な政策シミュレーションのために、特定の社会的文脈にLLMを合わせることの重要性を浮き彫りにした。
Large language models (LLMs) have transformed natural language processing across diverse fields, yet their general-purpose design limits their effectiveness in specialized domains, such as simulating opinions on environmental policies. This paper presents an approach for fine-tuning LLMs using data from the UK Household Longitudinal Study, improving the accuracy of opinion generation by conditioning models on socio-demographic factors like age, income, education, and region. By emulating diverse synthetic profiles, fine-tuned models capture the subtle differences across demographic groups more effectively than pre-trained versions. Metrics such as Chi-Squared, Cosine Similarity, Jaccard Index, and KL-divergence, demonstrate a strong alignment between synthetic and real-world opinion data. This approach highlights the potential of fine-tuning LLMs to provide more informed, representative, and ethical insights into public sentiments on environmental issues. The findings underscore the importance of tailoring LLMs to specific societal contexts for more accurate and ethical policy simulations. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# モデルX線:わずかなショット学習によるAIモデル重みの隠れマルウェアの検出
Model X-Ray: Detection of Hidden Malware in AI Model Weights using Few Shot Learning ( http://arxiv.org/abs/2409.19310v1 ) ライセンス: Link先を確認 | Daniel Gilkarov, Ran Dubin, | (参考訳) AIモデルの活用の可能性が高まったのは、人工知能(AI)の急速な進歩と、AIモデルを共有するためにModel Zooのようなプラットフォームが広く使用されているためだ。
攻撃者は、ステガノグラフィー技術によってAIモデルにマルウェアを埋め込むことができ、これらのモデルのかなりのサイズを利用して悪意のあるデータを隠蔽し、悪質な目的、例えばRemote Code Execution(リモートコード実行)に利用する。
AIモデルのセキュリティを確保することは、AI技術に依存している多数の組織やユーザを保護するために不可欠な、急成長する研究分野である。
本研究は,新しい画像表現を用いて,AIモデルを画像場に転送することで,よく研究された数ショットの学習手法を活用する。
この領域で数ショットの学習を適用することで、実践的なモデルの作成が可能になります。
本手法は,その実用性を阻害する最先端検出技術における限界に対処する。
このアプローチにより、必要なトレーニングデータセットのサイズが40000モデルから6.5%に削減される。
さらに, 組込み速度が最大25%, 最大6%の微妙な攻撃を連続的に検出し, 従来の手法は100%-50%の埋込み速度で有効であった。
我々は、訓練されたモデルが様々な要因に関して一般的なものであることを保証するため、厳密な評価戦略を採用している。
さらに,我々の訓練したモデルが,新しい拡散スペクトルステガノグラフィー攻撃を検知し,一つのタイプの攻撃を学習することで,モデルが顕著に堅牢であることを示す。
我々は、再現性をサポートし、この新しい分野の研究を強化するために、コードをオープンソースにしています。
The potential for exploitation of AI models has increased due to the rapid advancement of Artificial Intelligence (AI) and the widespread use of platforms like Model Zoo for sharing AI models. Attackers can embed malware within AI models through steganographic techniques, taking advantage of the substantial size of these models to conceal malicious data and use it for nefarious purposes, e.g. Remote Code Execution. Ensuring the security of AI models is a burgeoning area of research essential for safeguarding the multitude of organizations and users relying on AI technologies. This study leverages well-studied image few-shot learning techniques by transferring the AI models to the image field using a novel image representation. Applying few-shot learning in this field enables us to create practical models, a feat that previous works lack. Our method addresses critical limitations in state-of-the-art detection techniques that hinder their practicality. This approach reduces the required training dataset size from 40000 models to just 6. Furthermore, our methods consistently detect delicate attacks of up to 25% embedding rate and even up to 6% in some cases, while previous works were only shown to be effective for a 100%-50% embedding rate. We employ a strict evaluation strategy to ensure the trained models are generic concerning various factors. In addition, we show that our trained models successfully detect novel spread-spectrum steganography attacks, demonstrating the models' impressive robustness just by learning one type of attack. We open-source our code to support reproducibility and enhance the research in this new field. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# 高速かつエネルギー効率の良い大言語モデルのためのアナログインメモリ・コンピューティング・アテンション機構
Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models ( http://arxiv.org/abs/2409.19315v1 ) ライセンス: Link先を確認 | Nathan Leroux, Paul-Philipp Manea, Chirag Sudarshan, Jan Finkbeiner, Sebastian Siegel, John Paul Strachan, Emre Neftci, | (参考訳) 自己認識機構によって駆動されるトランスフォーマーニューラルネットワークは、基礎的および大規模言語モデルのコアコンポーネントである。
ジェネレーティブトランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
しかし、GPUストアドプロジェクションは、新しい世代のステップごとにSRAMにロードされなければならない。
本稿では,利得セルメモリに基づくアナログインメモリ・コンピューティングを用いた,高速でエネルギー効率の高い自己認識ハードウェアの実装を提案する。
揮発性ゲイン細胞記憶は、配列生成中に新しいトークンを保存するために効率的に書き込むことができ、アナログ符号付き重み乗算を行い、自己保持に必要なドット積を計算する。
Sliding Window Attentionを実装し、過去のステップの有限セットのメモリを保持する。
配列読み出しのためのチャージ・ツー・パルス変換器は、自己アテンション段階間のアナログ・デジタル変換を不要にする。
初期化アルゴリズムを用いて事前学習した重みをセルの非理想性に適応させ,ハードウェア制約にもかかわらず最小限のトレーニング繰り返しでChatGPT-2に匹敵するNLP性能を実現する。
エンドツーエンドのハードウェア設計には、デジタルコントロール、エリアの推定、レイテンシ、エネルギが含まれています。
このシステムは、GPUと比較して最大で2桁の遅延と最大5桁のエネルギー消費を減らし、大規模言語モデルにおける超高速で低消費電力のシーケンス生成に向けた重要なステップとなる。
Transformer neural networks, driven by self-attention mechanisms, are core components of foundational and Large Language Models. In generative transformers, self-attention uses cache memory to store token projections, avoiding recomputation at each time step. However, GPU-stored projections must be loaded into SRAM for each new generation step, causing latency and energy bottlenecks for long sequences. In this work, we propose a fast and energy-efficient hardware implementation of self-attention using analog in-memory computing based on gain cell memories. Volatile gain cell memories can be efficiently written to store new tokens during sequence generation, while performing analog signed weight multiplications to compute the dot-products required for self-attention. We implement Sliding Window Attention, which keeps memory of a finite set of past steps. A charge-to-pulse converter for array readout eliminates the need for analog-to-digital conversion between self-attention stages. Using a co-designed initialization algorithm to adapt pre-trained weights to gain cell non-idealities, we achieve NLP performance comparable to ChatGPT-2 with minimal training iterations, despite hardware constraints. Our end-to-end hardware design includes digital controls, estimating area, latency, and energy. The system reduces attention latency by up to two orders of magnitude and energy consumption by up to five orders compared to GPUs, marking a significant step toward ultra-fast, low-power sequence generation in Large Language Models. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# Shapley-Owen効果によるフェアネス解析
Fairness Analysis with Shapley-Owen Effects ( http://arxiv.org/abs/2409.19318v1 ) ライセンス: Link先を確認 | Harald Ruess, | (参考訳) 我々は、Shapley-Owen効果の観点での相対的重要性とその等式帰属は適切であり、等式帰属のための少数の合理的な命令を受け入れるならば、公平性を測定する唯一の方法であると主張する。
一方、Shapley-Owen効果の計算は非常に要求される。
主な技術的結果はシェープリー・オーウェン効果のスペクトル分解であり、これらの指標の計算をモデル固有部分とモデル独立部分に分解する。
モデル非依存部は事前に計算され、シャプリー・オウエン効果のモデル固有計算はモデルの 'emph{polynomial chaos expansion} (PCE) の係数で解析的に表現され、現在では異なるシャプリー・オウエン効果の計算に再利用できる。
また,モデルのPCEの高精度かつスパーストランケーションとShapley-Owen効果のスペクトル分解を,累積近似誤差の上限とともに計算するアルゴリズムを提案する。
PCE と Shapley-Owen の効果の近似は、それらの真の値に収束する。
We argue that relative importance and its equitable attribution in terms of Shapley-Owen effects is an appropriate one, and, if we accept a small number of reasonable imperatives for equitable attribution, the only way to measure fairness. On the other hand, the computation of Shapley-Owen effects can be very demanding. Our main technical result is a spectral decomposition of the Shapley-Owen effects, which decomposes the computation of these indices into a model-specific and a model-independent part. The model-independent part is precomputed once and for all, and the model-specific computation of Shapley-Owen effects is expressed analytically in terms of the coefficients of the model's \emph{polynomial chaos expansion} (PCE), which can now be reused to compute different Shapley-Owen effects. We also propose an algorithm for computing precise and sparse truncations of the PCE of the model and the spectral decomposition of the Shapley-Owen effects, together with upper bounds on the accumulated approximation errors. The approximations of both the PCE and the Shapley-Owen effects converge to their true values. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# 単眼スマートフォン画像からの高能率3次元モデル再構成のためのスケーラブルクラウド負パイプライン
Scalable Cloud-Native Pipeline for Efficient 3D Model Reconstruction from Monocular Smartphone Images ( http://arxiv.org/abs/2409.19322v1 ) ライセンス: Link先を確認 | Potito Aghilar, Vito Walter Anelli, Michelantonio Trizio, Tommaso Di Noia, | (参考訳) 近年、エンターテイメント、製造、シミュレーションなど様々な分野で3Dモデルの人気が高まっている。
しかし、これらのモデルを手動で作成することは、時間と資源集約的なプロセスであり、大規模産業アプリケーションには実用的ではない。
この問題に対処するため、研究者たちは人工知能と機械学習のアルゴリズムを利用して、自動的に3Dモデルを生成する。
本稿では,スマートフォンカメラを用いたモノクロ2D画像から3Dモデルを自動的に再構成する,クラウドネイティブなパイプラインを提案する。
我々の目標は、Digital Twinモデルを作成するための業界標準4.0を満たす、効率的で容易に適応可能なソリューションを提供することです。
NVIDIA Research Labsが開発した機械学習モデルと、GoogleのARCoreフレームワークに基づいたユニークなポーズ補償コンポーネントを備えたカスタムデザインのポーズレコーダを活用しています。
我々のソリューションは, 組込み材料とテクスチャを備えた再利用可能な3Dモデルを作成し, 外部の3Dモデリングソフトウェアや3Dエンジンでエクスポート可能かつカスタマイズ可能である。
さらに、ワークフロー全体はマイクロサービスアーキテクチャ標準を採用して実装されており、パイプラインの各コンポーネントがスタンドアロンの置き換え可能なモジュールとして動作できるようにする。
In recent years, 3D models have gained popularity in various fields, including entertainment, manufacturing, and simulation. However, manually creating these models can be a time-consuming and resource-intensive process, making it impractical for large-scale industrial applications. To address this issue, researchers are exploiting Artificial Intelligence and Machine Learning algorithms to automatically generate 3D models effortlessly. In this paper, we present a novel cloud-native pipeline that can automatically reconstruct 3D models from monocular 2D images captured using a smartphone camera. Our goal is to provide an efficient and easily-adoptable solution that meets the Industry 4.0 standards for creating a Digital Twin model, which could enhance personnel expertise through accelerated training. We leverage machine learning models developed by NVIDIA Research Labs alongside a custom-designed pose recorder with a unique pose compensation component based on the ARCore framework by Google. Our solution produces a reusable 3D model, with embedded materials and textures, exportable and customizable in any external 3D modelling software or 3D engine. Furthermore, the whole workflow is implemented by adopting the microservices architecture standard, enabling each component of the pipeline to operate as a standalone replaceable module. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# 多次元透過率の一般化モデル
A Generalized Model for Multidimensional Intransitivity ( http://arxiv.org/abs/2409.19325v1 ) ライセンス: Link先を確認 | Jiuding Duan, Jiyi Li, Yukino Baba, Hisashi Kashima, | (参考訳) 非透過性はペアワイズ・リクエスト・モデリングにおいて重要な問題である。
これは、サイクリックな選好連鎖を形成し、支配関係の文脈における社会的選択論において長い間議論されてきた、プレイヤーまたはオブジェクトのグループ間の過渡的なペアワイドな選好を指す。
しかし、高次元におけるプレイヤーと対応するプレイヤーの多面的非透過性は捕捉が困難である。
本稿では,各プレイヤーのd-次元表現(d>1)を協調的に学習する確率モデルと,組込み空間上でRd内の距離距離を体系的にキャプチャするデータセット固有の距離空間を提案する。
興味深いことに、計量空間にさらなる制約を課すことで、提案モデルは非推移的表現学習で使用される以前のモデルに退化する。
さらに,様々な実世界のベンチマークデータセットにおいて,オブジェクト間の非推移的関係の広大な存在を定量的に検討する。
私たちの知る限りでは、この調査はこのタイプの最初のものである。
提案手法の社会的選択, 選挙, オンラインゲームデータセットを含む実世界の異なるデータセットに対する予測性能は, 提案手法が予測精度において競合する手法よりも優れていることを示す。
Intransitivity is a critical issue in pairwise preference modeling. It refers to the intransitive pairwise preferences between a group of players or objects that potentially form a cyclic preference chain and has been long discussed in social choice theory in the context of the dominance relationship. However, such multifaceted intransitivity between players and the corresponding player representations in high dimensions is difficult to capture. In this paper, we propose a probabilistic model that jointly learns each player's d-dimensional representation (d>1) and a dataset-specific metric space that systematically captures the distance metric in Rd over the embedding space. Interestingly, by imposing additional constraints in the metric space, our proposed model degenerates to former models used in intransitive representation learning. Moreover, we present an extensive quantitative investigation of the vast existence of intransitive relationships between objects in various real-world benchmark datasets. To our knowledge, this investigation is the first of this type. The predictive performance of our proposed method on different real-world datasets, including social choice, election, and online game datasets, shows that our proposed method outperforms several competing methods in terms of prediction accuracy. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# 3D-CT-GPT:大規模視線モデルの統合による3次元放射線学レポートの作成
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models ( http://arxiv.org/abs/2409.19330v1 ) ライセンス: Link先を確認 | Hao Chen, Wei Zhao, Yingli Li, Tianyang Zhong, Yisong Wang, Youlan Shang, Lei Guo, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang, | (参考訳) 医用画像解析は、医用画像データの指数的増加を考えると、現代の放射線診断において重要である。
自動レポート生成システムへの需要がますます高まっている。
従来の研究では、主に2次元医用画像の機械学習とマルチモーダル言語モデルの使用に焦点が当てられていたが、データ不足と計算複雑性のため、3次元医用画像のレポートの生成はあまり検討されていない。
本稿では,3次元CTスキャン,特に胸部CTから放射線診断レポートを生成するために,VQAに基づく医用視覚言語モデルである3D-CT-GPTを紹介する。
3D-CT-GPTは,公開データセットとプライベートデータセットの両方での大規模な実験により,レポートの精度と品質において,既存の手法を著しく上回っていることが示された。
一部オープンソースCT2RepやオープンソースM3Dなど,現在の手法はほとんどないが,適切なデータ変換と評価手法による公正な比較を確実にする。
実験の結果, 3D-CT-GPTは診断精度とコヒーレンスを向上し, 臨床放射線学報告作成のための堅牢なソリューションとして確立した。
今後の作業は、データセットの拡大と、そのパフォーマンスと適用性を高めるために、モデルをさらに最適化することに集中する。
Medical image analysis is crucial in modern radiological diagnostics, especially given the exponential growth in medical imaging data. The demand for automated report generation systems has become increasingly urgent. While prior research has mainly focused on using machine learning and multimodal language models for 2D medical images, the generation of reports for 3D medical images has been less explored due to data scarcity and computational complexities. This paper introduces 3D-CT-GPT, a Visual Question Answering (VQA)-based medical visual language model specifically designed for generating radiology reports from 3D CT scans, particularly chest CTs. Extensive experiments on both public and private datasets demonstrate that 3D-CT-GPT significantly outperforms existing methods in terms of report accuracy and quality. Although current methods are few, including the partially open-source CT2Rep and the open-source M3D, we ensured fair comparison through appropriate data conversion and evaluation methodologies. Experimental results indicate that 3D-CT-GPT enhances diagnostic accuracy and report coherence, establishing itself as a robust solution for clinical radiology report generation. Future work will focus on expanding the dataset and further optimizing the model to enhance its performance and applicability. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# OnePath: クラウドにおける効率的かつプライバシ保護による決定木推論
OnePath: Efficient and Privacy-Preserving Decision Tree Inference in the Cloud ( http://arxiv.org/abs/2409.19334v1 ) ライセンス: Link先を確認 | Shuai Yuan, Hongwei Li, Xinyuan Qian, Wenbo Jiang, Guowen Xu, | (参考訳) ストレージ容量の拡大とクラウドサーバの堅牢な計算能力により、マシンラーニング推論サービスのクラウドへのアウトソーシングが広く行われている。
このプラクティスは、運用上の大きなメリットを提供する一方で、プロプライエタリなモデルや機密性の高いユーザデータを公開するなど、重大なプライバシー上のリスクも生じます。
本稿では,クラウド環境におけるセキュアかつ効率的な決定木推論を目的としたフレームワークであるOnePathを紹介する。
決定ツリーのすべての内部ノードをトラバースする必要のある既存のスキームとは異なり、我々のプロトコルは、予測パス上のノードのみをセキュアに識別し、処理し、推論プロセスを通して暗号文の下でデータのプライバシを維持する。
この選択的トラバーサルは、セキュリティと効率の両方を高める。
プライバシとパフォーマンスをさらに最適化するために、OnePathでは、セキュアな推論のオンラインフェーズにおいて、機能暗号化などの軽量な暗号化技術を採用している。
特に、当社のプロトコルでは、プロバイダとクライアントの両方が、オンラインを継続的に継続することなくセキュアな推論を実行することが可能であり、これは現実世界のアプリケーションにとって重要な利点である。
OnePathが決定木分類器とユーザデータのプライバシーをしっかりと保護していることを示す。
実験結果から,テストデータセット上でのクエリデータをわずか数マイクロ秒で処理することで,提案手法の効率性を強調した。
OnePathを通じて、クラウドベースの決定ツリー推論におけるセキュリティと効率性のバランスをとる実用的なソリューションを提供し、様々なアプリケーションに有望な選択肢となります。
The expansive storage capacity and robust computational power of cloud servers have led to the widespread outsourcing of machine learning inference services to the cloud. While this practice offers significant operational benefits, it also poses substantial privacy risks, including the exposure of proprietary models and sensitive user data. In this paper, we introduce OnePath, a framework designed for secure and efficient decision tree inference in cloud environments. Unlike existing schemes that require traversing all internal nodes of a decision tree, our protocol securely identifies and processes only the nodes on the prediction path, maintaining data privacy under ciphertext throughout the inference process. This selective traversal enhances both security and efficiency. To further optimize privacy and performance, OnePath employs lightweight cryptographic techniques, such as functional encryption, during the online phase of secure inference. Notably, our protocol allows both providers and clients to perform secure inference without the need to remain online continuously, a critical advantage for real-world applications. We substantiate the security of our framework with formal proofs, demonstrating that OnePath robustly protects the privacy of decision tree classifiers and user data. Experimental results highlight the efficiency of our approach, with our scheme processing query data in mere microseconds on the tested dataset. Through OnePath, we provide a practical solution that balances the needs for security and efficiency in cloud-based decision tree inference, making it a promising option for a variety of applications. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# エコーチャンバーの復号化:LLMによるソーシャルネットワークにおける偏光のシミュレーション
Decoding Echo Chambers: LLM-Powered Simulations Revealing Polarization in Social Networks ( http://arxiv.org/abs/2409.19338v1 ) ライセンス: Link先を確認 | Chenxi Wang, Zongfang Liu, Dequan Yang, Xiuying Chen, | (参考訳) こうした現象が我々の社会に破壊的な結果をもたらす可能性があるため、ソーシャルメディアがエコーチャンバーなどの重要な問題に与える影響に対処する必要がある。
伝統的な研究は、感情的な傾向や意見の進化を数字や公式に過度に単純化し、ニュースやコミュニケーションがテキストを通じて伝達されることを無視し、これらのアプローチを制限する。
そこで本研究では,LLMに基づく社会意見ネットワークのシミュレーションを提案し,偏光現象の評価と対策を行う。
まず,社会的相互作用の異なる特徴をシミュレートするために,3つの典型的なネットワーク構造を構築した。
次に、エージェントはレコメンデーションアルゴリズムに基づいて対話し、推論と分析を通じて戦略を更新する。
これらの相互作用を古典的境界信頼モデル(BCM)、フリードキン・ジョンセン(FJ)モデルと比較し、エコーチャンバー関連指標を用いて、意見のダイナミクスをシミュレーションし、意見の分極やエコーチャンバーなどの現象を再現する上で、我々の枠組みの有効性を実証する。
本稿では、特に言語に基づくシミュレーションにおいて、エコーチャンバーの低減に役立つ能動的および受動的ヌッジの2つの緩和法を提案する。
われわれの研究は、社会分極緩和のための貴重な洞察とガイダンスを提供することを期待している。
The impact of social media on critical issues such as echo chambers needs to be addressed, as these phenomena can have disruptive consequences for our society. Traditional research often oversimplifies emotional tendencies and opinion evolution into numbers and formulas, neglecting that news and communication are conveyed through text, which limits these approaches. Hence, in this work, we propose an LLM-based simulation for the social opinion network to evaluate and counter polarization phenomena. We first construct three typical network structures to simulate different characteristics of social interactions. Then, agents interact based on recommendation algorithms and update their strategies through reasoning and analysis. By comparing these interactions with the classic Bounded Confidence Model (BCM), the Friedkin Johnsen (FJ) model, and using echo chamber-related indices, we demonstrate the effectiveness of our framework in simulating opinion dynamics and reproducing phenomena such as opinion polarization and echo chambers. We propose two mitigation methods, active and passive nudges, that can help reduce echo chambers, specifically within language-based simulations. We hope our work will offer valuable insights and guidance for social polarization mitigation. | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# X-Prompt: ビデオオブジェクトセグメンテーションのためのマルチモーダルビジュアルプロンプト
X-Prompt: Multi-modal Visual Prompt for Video Object Segmentation ( http://arxiv.org/abs/2409.19342v1 ) ライセンス: Link先を確認 | Pinxue Guo, Wanyun Li, Hao Huang, Lingyi Hong, Xinyu Zhou, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Wei Zhang, Wenqiang Zhang, | (参考訳) RGB-Thermal、RGB-Depth、RGB-Eventを含むVOS(Multi-modal Video Object Segmentation)は、極端な照明、高速モーション、バックグラウンドの注意散らしといった従来のVOSメソッドが苦労する課題に対処する能力のために注目を集めている。
既存のアプローチでは、特定のブランチを設計し、各タスクの融合のためにフルパラメータの微調整を行う場合が多い。
しかし、このパラダイムは研究努力とハードウェアコストを複製するだけでなく、限られたマルチモーダルアノテートデータによるモデル崩壊のリスクも負う。
本稿では,RGB+Xとして指定された全マルチモーダルビデオオブジェクトセグメンテーションタスクに対して,X-Promptという普遍的なフレームワークを提案する。
X-Promptフレームワークは、まずRGBデータを使用してビデオオブジェクトセグメンテーション基盤モデルを事前訓練し、次にプロンプトの追加モダリティを利用して、限られたデータで下流のマルチモーダルタスクに適応する。
X-Promptフレームワーク内では、多モードビジュアル・プロンプター(MVP)を導入し、オブジェクトを正確にセグメンテーションするための様々なモダリティを持つ基礎モデルを推進します。
さらに,多モード適応エキスパート (MAE) を用いて, 一般化能力を損なうことなく, ファウンデーションモデルをプラグ可能なモダリティ固有知識に適応させる手法を提案する。
X-Promptフレームワークの有効性を評価するため、4つのベンチマークで3つのタスクについて広範な実験を行った。
提案したユニバーサルX-Promptフレームワークは、完全な微調整パラダイムを一貫して上回り、最先端のパフォーマンスを達成する。
コード:https://github.com/PinxueGuo/X-Prompt.git
Multi-modal Video Object Segmentation (VOS), including RGB-Thermal, RGB-Depth, and RGB-Event, has garnered attention due to its capability to address challenging scenarios where traditional VOS methods struggle, such as extreme illumination, rapid motion, and background distraction. Existing approaches often involve designing specific additional branches and performing full-parameter fine-tuning for fusion in each task. However, this paradigm not only duplicates research efforts and hardware costs but also risks model collapse with the limited multi-modal annotated data. In this paper, we propose a universal framework named X-Prompt for all multi-modal video object segmentation tasks, designated as RGB+X. The X-Prompt framework first pre-trains a video object segmentation foundation model using RGB data, and then utilize the additional modality of the prompt to adapt it to downstream multi-modal tasks with limited data. Within the X-Prompt framework, we introduce the Multi-modal Visual Prompter (MVP), which allows prompting foundation model with the various modalities to segment objects precisely. We further propose the Multi-modal Adaptation Experts (MAEs) to adapt the foundation model with pluggable modality-specific knowledge without compromising the generalization capacity. To evaluate the effectiveness of the X-Prompt framework, we conduct extensive experiments on 3 tasks across 4 benchmarks. The proposed universal X-Prompt framework consistently outperforms the full fine-tuning paradigm and achieves state-of-the-art performance. Code: https://github.com/PinxueGuo/X-Prompt.git | 翻訳日:2024-11-05 23:58:48 公開日:2024-09-28 |
# 視覚における変圧器のアンヴェイルベニグアオーバーフィッティング:トレーニングダイナミクス,収束,一般化
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization ( http://arxiv.org/abs/2409.19345v1 ) ライセンス: Link先を確認 | Jiarui Jiang, Wei Huang, Miao Zhang, Taiji Suzuki, Liqiang Nie, | (参考訳) トランスフォーマーは、近年の大きな基礎モデルの開発において大きな力を発揮している。
特にビジョントランスフォーマー(ViT)は、視覚の分野で革命的な変化をもたらし、実験的な面で大きな成果を上げている。
しかし、その理論的能力、特にトレーニングデータに適合する訓練の際の一般化については、まだ完全には理解されていない。
このギャップに対処するため、この研究は視覚におけるトランスフォーマーの良心的な過度な視点を深く掘り下げている。
そこで本研究では,ソフトマックスの自己保持層と,勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
変圧器最適化におけるソフトマックスによる課題と多重みの相互依存特性に対処する手法を開発することにより, トレーニング力学を特徴付けることができ, ポストトレーニングにおける一般化を実現した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
理論的結果は実験によりさらに検証される。
Transformers have demonstrated great power in the recent development of large foundational models. In particular, the Vision Transformer (ViT) has brought revolutionary changes to the field of vision, achieving significant accomplishments on the experimental side. However, their theoretical capabilities, particularly in terms of generalization when trained to overfit training data, are still not fully understood. To address this gap, this work delves deeply into the benign overfitting perspective of transformers in vision. To this end, we study the optimization of a Transformer composed of a self-attention layer with softmax followed by a fully connected layer under gradient descent on a certain data distribution model. By developing techniques that address the challenges posed by softmax and the interdependent nature of multiple weights in transformer optimization, we successfully characterized the training dynamics and achieved generalization in post-training. Our results establish a sharp condition that can distinguish between the small test error phase and the large test error regime, based on the signal-to-noise ratio in the data model. The theoretical results are further verified by experimental simulation. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# 深部学習に基づく脊髄磁気共鳴画像の分離と定量化に向けて
Toward Deep Learning-based Segmentation and Quantitative Analysis of Cervical Spinal Cord Magnetic Resonance Images ( http://arxiv.org/abs/2409.19354v1 ) ライセンス: Link先を確認 | Maryam Tavakol Elahi, | (参考訳) 本研究は, 頚髄の微細構造と微細構造に関するマルチパラメトリック研究と, 深層学習に基づく医用画像セグメンテーションの2つの課題について論じる。
まず,健常層における頚髄の包括的解析を行った。
日本整形外科学会(mJOA)のスコアやアメリカ脊髄損傷協会(ASIA)の障害尺度などの指標を用いて,医療従事者が機能検査を行う必要のある従来の研究とは異なり,本研究は頚髄のMR画像に焦点を絞ったものである。
第2に,MR画像から高精度なマクロ構造計測を実現するために,最先端の深層学習に基づくセグメンテーション手法を用いる。
この目的のために,注意的スキップ接続を備えた拡張UNetライクなトランスフォーマーベースのフレームワークを提案する。
本稿では,問題領域,提案された解決策,研究の現状,期待されている貢献について報告する。
This research proposal discusses two challenges in the field of medical image analysis: the multi-parametric investigation on microstructural and macrostructural characteristics of the cervical spinal cord and deep learning-based medical image segmentation. First, we conduct a thorough analysis of the cervical spinal cord within a healthy population. Unlike most previous studies, which required medical professionals to perform functional examinations using metrics like the modified Japanese Orthopaedic Association (mJOA) score or the American Spinal Injury Association (ASIA) impairment scale, this research focuses solely on Magnetic Resonance (MR) images of the cervical spinal cord. Second, we employ cutting-edge deep learning-based segmentation methods to achieve highly accurate macrostructural measurements from MR images. To this end, we propose an enhanced UNet-like Transformer-based framework with attentive skip connections. This paper reports on the problem domain, proposed solutions, current status of research, and expected contributions. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# 自動レース用マルチセンサシステムによるステアリング予測
Steering Prediction via a Multi-Sensor System for Autonomous Racing ( http://arxiv.org/abs/2409.19356v1 ) ライセンス: Link先を確認 | Zhuyun Zhou, Zongwei Wu, Florian Bolli, Rémi Boutteau, Fan Yang, Radu Timofte, Dominique Ginhac, Tobi Delbruck, | (参考訳) 自動運転レースは急速に研究の注目を集めている。
伝統的に、レーシングカーは主要な視覚系として2D LiDARに依存している。
本研究では,イベントカメラと既存システムの統合について検討し,時間情報の拡張について述べる。
私たちの目標は、2D LiDARデータをイベントデータをエンドツーエンドの学習フレームワークに融合させることです。
私たちの知る限りでは、この挑戦的な研究トピックに対処する最初の研究です。
まずは、ステアリング予測専用のマルチセンサデータセットを作成することから始めます。
このデータセットを用いて、様々なSOTA融合法を評価することで、ベンチマークを確立する。
既存の手法では計算コストがかなり高い場合が多い。
そこで我々は,新しい,効率的かつ効果的な融合設計を提案するために,低ランク技術を適用した。
我々は、融合プロセスの指針となる新しい融合学習ポリシーを導入し、不整合に対する堅牢性を高めた。
我々の融合アーキテクチャはLiDAR単独よりも優れた操舵予測を提供し、RMSEは7.72から1.28に大幅に減少する。
第2次融合法と比較すると,本研究は学習可能なパラメータの11%に過ぎず,精度は向上した。
ソースコード、データセット、ベンチマークは、将来の研究を促進するためにリリースされる。
Autonomous racing has rapidly gained research attention. Traditionally, racing cars rely on 2D LiDAR as their primary visual system. In this work, we explore the integration of an event camera with the existing system to provide enhanced temporal information. Our goal is to fuse the 2D LiDAR data with event data in an end-to-end learning framework for steering prediction, which is crucial for autonomous racing. To the best of our knowledge, this is the first study addressing this challenging research topic. We start by creating a multisensor dataset specifically for steering prediction. Using this dataset, we establish a benchmark by evaluating various SOTA fusion methods. Our observations reveal that existing methods often incur substantial computational costs. To address this, we apply low-rank techniques to propose a novel, efficient, and effective fusion design. We introduce a new fusion learning policy to guide the fusion process, enhancing robustness against misalignment. Our fusion architecture provides better steering prediction than LiDAR alone, significantly reducing the RMSE from 7.72 to 1.28. Compared to the second-best fusion method, our work represents only 11% of the learnable parameters while achieving better accuracy. The source code, dataset, and benchmark will be released to promote future research. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# 量子準同型暗号による量子委譲・連合学習
Quantum delegated and federated learning via quantum homomorphic encryption ( http://arxiv.org/abs/2409.19359v1 ) ライセンス: Link先を確認 | Weikang Li, Dong-Ling Deng, | (参考訳) 量子学習モデルは、古典的な領域に対して計算上の優位性をもたらす可能性を秘めている。
強力な量子サーバがクラウド上で利用可能になるにつれて、クライアントのプライベートデータの保護が重要になる。
量子準同型暗号スキームを組み込むことにより、量子デリゲートおよびフェデレート学習を計算理論によるデータプライバシー保証で実現可能な汎用フレームワークを提案する。
この枠組みの下での学習と推論は、盲点量子コンピューティングに基づくスキームに比べて通信の複雑さが著しく低いことが示される。
さらに、提案した量子フェデレーション学習シナリオでは、サーバが情報を抽出することなく暗号化された量子データを操作することができるため、クライアント側からのローカル量子デバイスに対する計算負担は少ない。
さらに、教師付き学習におけるある種の量子スピードアップが、量子カーネル手法を用いたプライベートデリゲート学習シナリオにまたがることを示す。
当社の結果は,クラウド上でのプライバシ保証型量子学習への貴重なガイドを提供するとともに,今後の研究やセキュリティ関連のアプリケーションにも役立つだろう。
Quantum learning models hold the potential to bring computational advantages over the classical realm. As powerful quantum servers become available on the cloud, ensuring the protection of clients' private data becomes crucial. By incorporating quantum homomorphic encryption schemes, we present a general framework that enables quantum delegated and federated learning with a computation-theoretical data privacy guarantee. We show that learning and inference under this framework feature substantially lower communication complexity compared with schemes based on blind quantum computing. In addition, in the proposed quantum federated learning scenario, there is less computational burden on local quantum devices from the client side, since the server can operate on encrypted quantum data without extracting any information. We further prove that certain quantum speedups in supervised learning carry over to private delegated learning scenarios employing quantum kernel methods. Our results provide a valuable guide toward privacy-guaranteed quantum learning on the cloud, which may benefit future studies and security-related applications. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# 高次元データにおける特徴学習のためのスパースモデリング
Sparse Modelling for Feature Learning in High Dimensional Data ( http://arxiv.org/abs/2409.19361v1 ) ライセンス: Link先を確認 | Harish Neelam, Koushik Sai Veerella, Souradip Biswas, | (参考訳) 本稿では,木質表面欠陥検出に焦点をあて,高次元データセットにおける次元減少と特徴抽出に対する革新的なアプローチを提案する。
提案フレームワークはスパースモデリング技術,特にラッソ法と近位勾配法を,効率的かつ解釈可能な特徴選択のための包括的パイプラインに統合する。
VGG19のような事前訓練されたモデルを活用し、分離森林や局所外部因子といった異常検出手法を取り入れることで、複雑なデータセットから有意義な特徴を抽出するという課題に対処する。
スパースモデリング手法の性能を評価するために、精度やF1スコアなどの評価指標を可視化とともに採用する。
本研究は,特に木材表面欠陥検出の文脈において,機械学習におけるスパースモデリングの理解と応用を促進することを目的としている。
This paper presents an innovative approach to dimensionality reduction and feature extraction in high-dimensional datasets, with a specific application focus on wood surface defect detection. The proposed framework integrates sparse modeling techniques, particularly Lasso and proximal gradient methods, into a comprehensive pipeline for efficient and interpretable feature selection. Leveraging pre-trained models such as VGG19 and incorporating anomaly detection methods like Isolation Forest and Local Outlier Factor, our methodology addresses the challenge of extracting meaningful features from complex datasets. Evaluation metrics such as accuracy and F1 score, alongside visualizations, are employed to assess the performance of the sparse modeling techniques. Through this work, we aim to advance the understanding and application of sparse modeling in machine learning, particularly in the context of wood surface defect detection. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# マルチエージェントゲームにおける模倣学習のための学習戦略表現
Learning Strategy Representation for Imitation Learning in Multi-Agent Games ( http://arxiv.org/abs/2409.19363v1 ) ライセンス: Link先を確認 | Shiqi Lei, Kanghon Lee, Linjing Li, Jinkyoo Park, | (参考訳) マルチエージェントゲームにおける模倣学習(IL)のためのオフラインデータセットは、通常、学習アルゴリズムが望ましくない動作を取得するのを防ぐために、様々な戦略を示すプレイヤートラジェクトリを含む。
これらの軌道の表現を学習することは、各デモ隊が採用した戦略を描写するための効果的なアプローチである。
しかし、既存の学習戦略はプレイヤーの識別や、マルチエージェントゲームには適さない強い仮定に依存していることが多い。
そこで本稿では,(1)マルチエージェントゲームにおける戦略表現を効果的に学習する戦略表現(STRIL)フレームワーク,(2)これらの表現に基づいて提案された指標を推定し,(3)インジケータを用いてサブ最適データをフィルタリングする戦略表現(STRIL)フレームワークを提案する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
提案手法は, 戦略表現と指標の獲得に成功し, 支配的軌道を識別し, 既存のIL性能を大幅に向上させる。
The offline datasets for imitation learning (IL) in multi-agent games typically contain player trajectories exhibiting diverse strategies, which necessitate measures to prevent learning algorithms from acquiring undesirable behaviors. Learning representations for these trajectories is an effective approach to depicting the strategies employed by each demonstrator. However, existing learning strategies often require player identification or rely on strong assumptions, which are not appropriate for multi-agent games. Therefore, in this paper, we introduce the Strategy Representation for Imitation Learning (STRIL) framework, which (1) effectively learns strategy representations in multi-agent games, (2) estimates proposed indicators based on these representations, and (3) filters out sub-optimal data using the indicators. STRIL is a plug-in method that can be integrated into existing IL algorithms. We demonstrate the effectiveness of STRIL across competitive multi-agent scenarios, including Two-player Pong, Limit Texas Hold'em, and Connect Four. Our approach successfully acquires strategy representations and indicators, thereby identifying dominant trajectories and significantly enhancing existing IL performance across these environments. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# マインド・ザ・ギャップ(Mind the Gap)
Mind the Gap: Promoting Missing Modality Brain Tumor Segmentation with Alignment ( http://arxiv.org/abs/2409.19366v1 ) ライセンス: Link先を確認 | Tianyi Liu, Zhaorui Tan, Haochuan Jiang, Xi Yang, Kaizhu Huang, | (参考訳) 脳腫瘍のセグメンテーションは、しばしば多重磁気共鳴画像(MRI)に基づいている。
しかし、臨床実践ではMRIの特定のモダリティが欠落している可能性があり、さらに難しいシナリオが提示される。
この課題に対処するため、知識蒸留は有望な戦略の1つとして現れてきた。
しかし、最近の試みは一般的にモダリティのギャップを見落としているため、異なるモダリティをまたいだ不変な特徴表現を学ばない。
このような欠点は、教師と学生の両方に限られたパフォーマンスをもたらす。
この問題を改善するために,本論文では,係わるモダリティの潜在的特徴を適切に定義された分布アンカーに整合させる新しいパラダイムを提案する。
主要な貢献として、我々の新しい訓練パラダイムは、厳密な証拠を低く保ち、理論的にその有効性を証明していることを証明している。
異なるバックボーンの広範な実験により、提案手法が不変の特徴表現を可能とし、モダリティギャップを狭める教師を作成できることが検証された。
これはまた、欠落したモダリティの学生に優れた指導を与え、ダイススコアの平均1.75の改善を達成している。
Brain tumor segmentation is often based on multiple magnetic resonance imaging (MRI). However, in clinical practice, certain modalities of MRI may be missing, which presents an even more difficult scenario. To cope with this challenge, knowledge distillation has emerged as one promising strategy. However, recent efforts typically overlook the modality gaps and thus fail to learn invariant feature representations across different modalities. Such drawback consequently leads to limited performance for both teachers and students. To ameliorate these problems, in this paper, we propose a novel paradigm that aligns latent features of involved modalities to a well-defined distribution anchor. As a major contribution, we prove that our novel training paradigm ensures a tight evidence lower bound, thus theoretically certifying its effectiveness. Extensive experiments on different backbones validate that the proposed paradigm can enable invariant feature representations and produce a teacher with narrowed modality gaps. This further offers superior guidance for missing modality students, achieving an average improvement of 1.75 on dice score. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# 合成心エコー図を用いたモデルトレーニングのための効率的な意味的拡散構造
Efficient Semantic Diffusion Architectures for Model Training on Synthetic Echocardiograms ( http://arxiv.org/abs/2409.19371v1 ) ライセンス: Link先を確認 | David Stojanovski, Mariana da Silva, Pablo Lamata, Arian Beqiri, Alberto Gomez, | (参考訳) 画像解析のためのディープラーニングモデルを効果的に学習するデータセットを効率的に合成するための拡散生成モデルの有用性について検討する。
具体的には, セマンティックガイド付き人工心臓超音波画像を生成するために, 計算効率を向上した新規なLDM ($\Gamma$-distribution Latent Denoising Diffusion Models) を提案する。
また、左室区分けと2値心エコー図の分類タスクのための訓練深部ネットワークにおける実際のデータの代わりにこれらの合成画像を使用することの可能性についても検討した。
合成エコーデータを生成するための計算コスト,得られた画像の視覚的リアリズム,および実データに基づいて,これらの合成エコーを用いて訓練された下流タスク(分割と分類)の性能を6つの拡散モデルと比較した。
セグメンテーションと分類性能に影響を及ぼす様々な拡散戦略とODEソルバを比較した。
その結果,提案アーキテクチャは,最先端手法と比較して,ダウンストリームタスク性能を維持・改善しながら,計算コストを大幅に削減することを示した。
他の拡散モデルはよりリアルなエコー像を高い計算コストで生成するが、我々の研究はモデルトレーニングでは、視覚的リアリズムは必ずしもモデルの性能と関係がなく、より効率的なモデルを使用することでかなりの計算コストを節約できることを示している。
We investigate the utility of diffusion generative models to efficiently synthesise datasets that effectively train deep learning models for image analysis. Specifically, we propose novel $\Gamma$-distribution Latent Denoising Diffusion Models (LDMs) designed to generate semantically guided synthetic cardiac ultrasound images with improved computational efficiency. We also investigate the potential of using these synthetic images as a replacement for real data in training deep networks for left-ventricular segmentation and binary echocardiogram view classification tasks. We compared six diffusion models in terms of the computational cost of generating synthetic 2D echo data, the visual realism of the resulting images, and the performance, on real data, of downstream tasks (segmentation and classification) trained using these synthetic echoes. We compare various diffusion strategies and ODE solvers for their impact on segmentation and classification performance. The results show that our propose architectures significantly reduce computational costs while maintaining or improving downstream task performance compared to state-of-the-art methods. While other diffusion models generated more realistic-looking echo images at higher computational cost, our research suggests that for model training, visual realism is not necessarily related to model performance, and considerable compute costs can be saved by using more efficient models. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# DOTA:視覚言語モデルの分布テスト時間適応
DOTA: Distributional Test-Time Adaptation of Vision-Language Models ( http://arxiv.org/abs/2409.19375v1 ) ライセンス: Link先を確認 | Zongbo Han, Jialong Yang, Junfan Li, Qinghua Hu, Qianli Xu, Mike Zheng Shou, Changqing Zhang, | (参考訳) ビジョン言語基盤モデル(例えばCLIP)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、トレーニングデータとテストデータの間に大きな分散ギャップがある場合、これらのモデルをデプロイすることは信頼できないかもしれない。
トレーニングフリーなテスト時動的アダプタ(TDA)は、代表的なテストサンプルを格納して、その後のテストの分類をガイドすることで、この問題に対処する有望なアプローチである。
しかし、TDAはキャッシュ内で限られた数の参照サンプルしか管理しないため、サンプルをドロップすることでキャッシュが更新された時に深刻なテスト時間が壊滅的に忘れてしまう。
本稿では,Dota(DistributiOnal Test-time Adaptation)の簡易かつ効果的な手法を提案する。
代表的なテストサンプルを鼻で覚える代わりに、Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
テスト時間後確率は、適応目的のベイズの定理に基づく推定分布を用いて計算される。
そこで本研究では,不確実なサンプルに対する適応性を更に高めるために,不確実なサンプルを識別し,フィードバックを収集し,Dotaフレームワークに組み込む新たなHuman-in-the-loopパラダイムを提案する。
大規模な実験は、DotaがCLIPを継続的に学習できることを示す。
Vision-language foundation models (e.g., CLIP) have shown remarkable performance across a wide range of tasks. However, deploying these models may be unreliable when significant distribution gaps exist between the training and test data. The training-free test-time dynamic adapter (TDA) is a promising approach to address this issue by storing representative test samples to guide the classification of subsequent ones. However, TDA only naively maintains a limited number of reference samples in the cache, leading to severe test-time catastrophic forgetting when the cache is updated by dropping samples. In this paper, we propose a simple yet effective method for DistributiOnal Test-time Adaptation (Dota). Instead of naively memorizing representative test samples, Dota continually estimates the distributions of test samples, allowing the model to continually adapt to the deployment environment. The test-time posterior probabilities are then computed using the estimated distributions based on Bayes' theorem for adaptation purposes. To further enhance the adaptability on the uncertain samples, we introduce a new human-in-the-loop paradigm which identifies uncertain samples, collects human-feedback, and incorporates it into the Dota framework. Extensive experiments validate that Dota enables CLIP to continually learn, resulting in a significant improvement compared to current state-of-the-art methods. | 翻訳日:2024-11-05 23:48:39 公開日:2024-09-28 |
# I.D.データからの構造化学習について、どの程度の知識があるか?-因果発見のための解釈可能な多次元パフォーマンス指標
How much do we really know about Structure Learning from i.i.d. Data? Interpretable, multi-dimensional Performance Indicator for Causal Discovery ( http://arxiv.org/abs/2409.19377v1 ) ライセンス: Link先を確認 | Georg Velev, Stefan Lessmann, | (参考訳) 観測データからの非線形因果発見は、データ生成プロセスで利用される構造方程式の定式化に厳密な識別可能性の仮定を課す。
仮定違反による構造学習手法の評価には厳密で解釈可能なアプローチが必要であり、この手法は推定と基底真理との構造的類似性と因果推論に使用する発見グラフのキャパシティの両方を定量化する。
統合された性能評価フレームワークが欠如していることから,我々は,因果発見の分野に特化して最適解の距離(DOS)を解釈可能な6次元評価指標として導入した。
さらに、実世界のプロセスにインスパイアされた非識別・非線形因果パターンの比率を増大させることで、7つの異なるファミリーからの構造学習アルゴリズムの性能を評価する最初の研究である。
7つの実験要素を組み込んだ大規模シミュレーション研究により,因果的順序に基づく方法に加えて,因果的因果発見が最適解に比較的近い結果をもたらすことが示された。
感度分析の結果に加えて,シミュレーションフレームワークの実験的要因間の相互作用効果について検討し,様々なシナリオにおける因果発見技術の性能に関する透明性を提供する。
Nonlinear causal discovery from observational data imposes strict identifiability assumptions on the formulation of structural equations utilized in the data generating process. The evaluation of structure learning methods under assumption violations requires a rigorous and interpretable approach, which quantifies both the structural similarity of the estimation with the ground truth and the capacity of the discovered graphs to be used for causal inference. Motivated by the lack of unified performance assessment framework, we introduce an interpretable, six-dimensional evaluation metric, i.e., distance to optimal solution (DOS), which is specifically tailored to the field of causal discovery. Furthermore, this is the first research to assess the performance of structure learning algorithms from seven different families on increasing percentage of non-identifiable, nonlinear causal patterns, inspired by real-world processes. Our large-scale simulation study, which incorporates seven experimental factors, shows that besides causal order-based methods, amortized causal discovery delivers results with comparatively high proximity to the optimal solution. In addition to the findings from our sensitivity analysis, we explore interactions effects between the experimental factors of our simulation framework in order to provide transparency about the expected performance of causal discovery techniques in different scenarios. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# emph{TxGraffiti} を用いた数学における自動推論
Automated conjecturing in mathematics with \emph{TxGraffiti} ( http://arxiv.org/abs/2409.19379v1 ) ライセンス: Link先を確認 | Randy Davila, | (参考訳) \emph{TxGraffiti} はデータ駆動のヒューリスティックなコンピュータプログラムで、様々な数学的領域にまたがる予想を生成するプロセスを自動化するために開発された。
2017年の創設以来、特にグラフ理論において、emph{TxGraffiti} は数多くの数学的な出版物に貢献してきた。
本稿では, 数学的推論の自動化の先駆けとなった, もともとの \emph{Graffiti} プログラムのルーツである \emph{TxGraffiti} の設計と基本原理について述べる。
本稿では,データ収集過程,可算予想の生成,および余剰あるいは過渡的な予想をフィルタリングする 'emph{Dalmatian} ヒューリスティックのような手法について述べる。
さらに、数学文献への貢献を強調し、ユーザが対話的に推測を探索できる新しいWebベースのインタフェースを導入する。
グラフ理論に焦点をあてる一方で、実証されたテクニックは数学の他の分野にも及んでいる。
\emph{TxGraffiti} is a data-driven, heuristic-based computer program developed to automate the process of generating conjectures across various mathematical domains. Since its creation in 2017, \emph{TxGraffiti} has contributed to numerous mathematical publications, particularly in graph theory. In this paper, we present the design and core principles of \emph{TxGraffiti}, including its roots in the original \emph{Graffiti} program, which pioneered the automation of mathematical conjecturing. We describe the data collection process, the generation of plausible conjectures, and methods such as the \emph{Dalmatian} heuristic for filtering out redundant or transitive conjectures. Additionally, we highlight its contributions to the mathematical literature and introduce a new web-based interface that allows users to explore conjectures interactively. While we focus on graph theory, the techniques demonstrated extend to other areas of mathematics. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# CMOS高並列低消費電力マルチチップニューラルネットワークアクセラレータの共設計
Co-design of a novel CMOS highly parallel, low-power, multi-chip neural network accelerator ( http://arxiv.org/abs/2409.19389v1 ) ライセンス: Link先を確認 | W Hokenmaier, R Jurasek, E Bowen, R Granger, D Odom, | (参考訳) なぜセキュリティカメラやセンサー、サイリは、オンボードの計算ではなくクラウドサーバーを使うのか?
非常に低消費電力で高性能なチップの欠如は、非テザリングエッジデバイスのフィールド能力を大幅に制限した。
NV-1は、並列処理(>10X)を大幅に高速化し、エネルギー消費を劇的に削減する(>100X)新しい低消費電力ASICAIプロセッサである。
現在のプロトタイプファブは、アルゴリズムとソフトウェア駆動アーキテクチャ設計とVLSI設計の協調開発に成功している。
革新的な通信プロトコルは、電力使用量を最小化し、ローカルなターゲットアドレスマッチングを通じてアドレスバスを排除し、ノード間のデータ転送コストを大幅に削減した。
開発プロセス全体を通じて、ソフトウェアとアーキテクチャチームは、サーキット設計チームの実装活動と並行して革新を行うことができた。
提案したハードウェアのディジタルツインが早期に開発され、技術的実装がアーキテクチャの仕様を満たしていることを確認するとともに、予測された性能指標が実際のハードウェアテストデータで完全に検証されている。
このデバイスは現在、電界センサアプリケーションで使われており、この新しい現実世界の超低消費電力のASICデバイスを根拠として、さらなる原理実証が進行中である。
Why do security cameras, sensors, and siri use cloud servers instead of on-board computation? The lack of very-low-power, high-performance chips greatly limits the ability to field untethered edge devices. We present the NV-1, a new low-power ASIC AI processor that greatly accelerates parallel processing (> 10X) with dramatic reduction in energy consumption (> 100X), via many parallel combined processor-memory units, i.e., a drastically non-von-Neumann architecture, allowing very large numbers of independent processing streams without bottlenecks due to typical monolithic memory. The current initial prototype fab arises from a successful co-development effort between algorithm- and software-driven architectural design and VLSI design realities. An innovative communication protocol minimizes power usage, and data transport costs among nodes were vastly reduced by eliminating the address bus, through local target address matching. Throughout the development process, the software and architecture teams were able to innovate alongside the circuit design team's implementation effort. A digital twin of the proposed hardware was developed early on to ensure that the technical implementation met the architectural specifications, and indeed the predicted performance metrics have now been thoroughly verified in real hardware test data. The resulting device is currently being used in a fielded edge sensor application; additional proofs of principle are in progress demonstrating the proof on the ground of this new real-world extremely low-power high-performance ASIC device. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 最適化BERTモデルを用いた5G生態系における効率的なフェデレーション侵入検出
Efficient Federated Intrusion Detection in 5G ecosystem using optimized BERT-based model ( http://arxiv.org/abs/2409.19390v1 ) ライセンス: Link先を確認 | Frederic Adjewa, Moez Esseghir, Leila Merghem-Boulahia, | (参考訳) 第5世代(5G)は高度なサービスを提供し、IoT(Internet of Things)内のインテリジェントトランスポート、コネクテッドヘルスケア、スマートシティなどのアプリケーションをサポートする。
しかし、これらの進歩は、ますます高度なサイバー攻撃を伴う、重大なセキュリティ上の課題をもたらす。
本稿では,連合学習と大規模言語モデル(LLM)を用いた頑健な侵入検知システム(IDS)を提案する。
IDSの中核は、悪意のあるネットワークフローを特定するために適応された変換器モデルであるBERTに基づいている。
我々は、限られたリソースを持つエッジデバイスの性能を最適化するために、このトランスフォーマーを変更した。
集中学習と連合学習の両文脈で実験を行った。
集中的な設定では、モデルは97.79%の推測精度を達成した。
フェデレートされた学習コンテキストでは、モデルはIID(Independent and Identically Distributed)と非IIDデータの両方を使用して、さまざまなシナリオに基づいてトレーニングされ、データのプライバシと規制の遵守が保証された。
また、線形量子化を利用してエッジデバイス上に展開するモデルを圧縮した。
この減少により、モデルサイズが28.74%の精度は0.02%わずかに低下した。
結果は、IoTエコシステムに展開するLLMの生存可能性を強調し、計算リソースとストレージリソースが制限されたデバイス上での運用能力を強調した。
The fifth-generation (5G) offers advanced services, supporting applications such as intelligent transportation, connected healthcare, and smart cities within the Internet of Things (IoT). However, these advancements introduce significant security challenges, with increasingly sophisticated cyber-attacks. This paper proposes a robust intrusion detection system (IDS) using federated learning and large language models (LLMs). The core of our IDS is based on BERT, a transformer model adapted to identify malicious network flows. We modified this transformer to optimize performance on edge devices with limited resources. Experiments were conducted in both centralized and federated learning contexts. In the centralized setup, the model achieved an inference accuracy of 97.79%. In a federated learning context, the model was trained across multiple devices using both IID (Independent and Identically Distributed) and non-IID data, based on various scenarios, ensuring data privacy and compliance with regulations. We also leveraged linear quantization to compress the model for deployment on edge devices. This reduction resulted in a slight decrease of 0.02% in accuracy for a model size reduction of 28.74%. The results underscore the viability of LLMs for deployment in IoT ecosystems, highlighting their ability to operate on devices with constrained computational and storage resources. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 動的スパーストレーニングによる価値に基づく深層多エージェント強化学習
Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training ( http://arxiv.org/abs/2409.19391v1 ) ライセンス: Link先を確認 | Pihe Hu, Shaolong Li, Zhuoran Li, Ling Pan, Longbo Huang, | (参考訳) 深層マルチエージェント強化学習(MARL)は、多エージェントシナリオにおいて多数のパラメータを持つニューラルネットワークに依存しており、しばしばかなりの計算オーバーヘッドを引き起こす。
したがって、MARLにおける訓練の迅速化とモデル圧縮の実現が急務である。
本稿では、MARLトレーニングにおける計算負担を軽減するために、深層学習タスクに有効な動的スパーストレーニング(DST)の利用を提案する。
しかし、DSTを直接採用しても満足なMARLエージェントは得られず、深いスパース値ベースのMARLモデルにおける価値学習の低下につながる。
この課題に乗じて,学習目標の信頼性とサンプル分布の合理性を同時に向上し,スパースモデルにおける価値学習を改善することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを導入する。
具体的には、MASTはSoft Mellowmax OperatorをハイブリッドTD-($\lambda$)スキーマに組み込んで、信頼性のある学習目標を確立する。
さらに、トレーニングサンプルの配布を強化するために、デュアルリプレイバッファ機構を使用している。
これらの側面に基づいて、MASTは勾配に基づくトポロジーの進化を利用して、スパースネットワークを用いて複数のMARLエージェントを訓練する。
複数のベンチマークで様々な値ベースのMARLアルゴリズムを比較検討した結果、トレーニングと推論の両方において、Floating Point Operations(FLOPs)における最大20ドルまでの冗長性の大幅な削減が、パフォーマンス劣化の3.5%以下で実証された。
Deep Multi-agent Reinforcement Learning (MARL) relies on neural networks with numerous parameters in multi-agent scenarios, often incurring substantial computational overhead. Consequently, there is an urgent need to expedite training and enable model compression in MARL. This paper proposes the utilization of dynamic sparse training (DST), a technique proven effective in deep supervised learning tasks, to alleviate the computational burdens in MARL training. However, a direct adoption of DST fails to yield satisfactory MARL agents, leading to breakdowns in value learning within deep sparse value-based MARL models. Motivated by this challenge, we introduce an innovative Multi-Agent Sparse Training (MAST) framework aimed at simultaneously enhancing the reliability of learning targets and the rationality of sample distribution to improve value learning in sparse models. Specifically, MAST incorporates the Soft Mellowmax Operator with a hybrid TD-($\lambda$) schema to establish dependable learning targets. Additionally, it employs a dual replay buffer mechanism to enhance the distribution of training samples. Building upon these aspects, MAST utilizes gradient-based topology evolution to exclusively train multiple MARL agents using sparse networks. Our comprehensive experimental investigation across various value-based MARL algorithms on multiple benchmarks demonstrates, for the first time, significant reductions in redundancy of up to $20\times$ in Floating Point Operations (FLOPs) for both training and inference, with less than $3\%$ performance degradation. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 正準相関誘導深部ニューラルネットワーク
Canonical Correlation Guided Deep Neural Network ( http://arxiv.org/abs/2409.19396v1 ) ライセンス: Link先を確認 | Zhiwen Chen, Siwen Mo, Haobin Ke, Steven X. Ding, Zhaohui Jiang, Chunhua Yang, Weihua Gui, | (参考訳) データの2つのビューの学習表現は、結果の表現が非常に線形に相関しているように、機械学習において魅力的である。
本稿では,Deep Neural Network (CCDNN) によって実現され,そのような相関表現を学習することのできる標準相関学習フレームワークを提案する。
また、多変量解析(MVA)と機械学習の新たな融合であり、ニューラルネットワークの助けを借りて、MVAをエンドツーエンドアーキテクチャに変換すると見なすことができる。
線形正準相関解析 (CCA) やカーネルCA, 深部CACAと異なり, 最適化定式化は最大相関に制限されず, 相関表現学習能力を保ち, 再構成, 分類, 予測などの最適化定式化による工学的タスクに重点を置いている。
さらに、相関による冗長性を低減するために、冗長性フィルタを設計する。
各種タスクにおけるCCDNNの性能について述べる。
MNISTデータセットの実験では、CCDNNはDCCAやDCCAEよりも平均2乗誤差と平均絶対誤差の点で、再構成性能が優れていることが示された。
また,本ネットワークを産業的故障診断に適用し,その分類・予測作業に有用なライフケースを残そうとする。
提案手法は,既存手法と比較して,両方のタスクにおいて優れた性能を示す。
また,CCDNNの残差接続によりさらに深く拡張する手法も付録で紹介されている。
Learning representations of two views of data such that the resulting representations are highly linearly correlated is appealing in machine learning. In this paper, we present a canonical correlation guided learning framework, which allows to be realized by deep neural networks (CCDNN), to learn such a correlated representation. It is also a novel merging of multivariate analysis (MVA) and machine learning, which can be viewed as transforming MVA into end-to-end architectures with the aid of neural networks. Unlike the linear canonical correlation analysis (CCA), kernel CCA and deep CCA, in the proposed method, the optimization formulation is not restricted to maximize correlation, instead we make canonical correlation as a constraint, which preserves the correlated representation learning ability and focuses more on the engineering tasks endowed by optimization formulation, such as reconstruction, classification and prediction. Furthermore, to reduce the redundancy induced by correlation, a redundancy filter is designed. We illustrate the performance of CCDNN on various tasks. In experiments on MNIST dataset, the results show that CCDNN has better reconstruction performance in terms of mean squared error and mean absolute error than DCCA and DCCAE. Also, we present the application of the proposed network to industrial fault diagnosis and remaining useful life cases for the classification and prediction tasks accordingly. The proposed method demonstrates superior performance in both tasks when compared to existing methods. Extension of CCDNN to much more deeper with the aid of residual connection is also presented in appendix. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 潜伏変数によるネットワークとアイテム応答の共分散関係
The co-varying ties between networks and item responses via latent variables ( http://arxiv.org/abs/2409.19400v1 ) ライセンス: Link先を確認 | Selena Wang, Plamena Powla, Tracy Sweet, Subhadeep Paul, | (参考訳) 教師間の関係は教育に関する認識に影響を与えることが知られている。
本研究では,教師の助言関係(ネットワークス)が,教師の満足感,学生,教育方針に対する影響の認知とどのように関係しているかを,アンケート(イテム・レスポンス)に対する回答として記録した。
本稿では,ネットワークとアイテムの応答の結合モデル (JNIRM) を提案する。
この手法により、アナリストはネットワークとアイテムの応答間の依存性をテストし、解釈することができる。
JNIRMを用いて、教師の助言関係は、教育政策に対する影響に対する認識よりも、満足感と学生の認識に寄与することが判明した。
また,学校によっては相補性の原則が適用され,教師は学校と異なる者から助言を求める傾向にある。
JNIRMは、遅延変数モデルを用いて、ネットワークとアイテムの応答を個別にモデル化するよりも優れたパラメータ推定とモデル適合性を示す。
Relationships among teachers are known to influence their teaching-related perceptions. We study whether and how teachers' advising relationships (networks) are related to their perceptions of satisfaction, students, and influence over educational policies, recorded as their responses to a questionnaire (item responses). We propose a novel joint model of network and item responses (JNIRM) with correlated latent variables to understand these co-varying ties. This methodology allows the analyst to test and interpret the dependence between a network and item responses. Using JNIRM, we discover that teachers' advising relationships contribute to their perceptions of satisfaction and students more often than their perceptions of influence over educational policies. In addition, we observe that the complementarity principle applies in certain schools, where teachers tend to seek advice from those who are different from them. JNIRM shows superior parameter estimation and model fit over separately modeling the network and item responses with latent variable models. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 編集可能なメモリグラフを用いた検索拡張生成によるパーソナライズされたエージェントの作成
Crafting Personalized Agents through Retrieval-Augmented Generation on Editable Memory Graphs ( http://arxiv.org/abs/2409.19401v1 ) ライセンス: Link先を確認 | Zheng Wang, Zhongyang Li, Zeren Jiang, Dandan Tu, Wei Shi, | (参考訳) モバイルインターネットの時代、ユーザーデータは、しばしば記憶と呼ばれ、パーソナルデバイス上で連続的に生成される。
このデータを効果的に管理し、ユーザに提供することは、魅力的な研究トピックです。
本稿では,大規模言語モデル(LLM)をベースとしたパーソナライズされたエージェントを作成するための新しいタスクを提案する。
この目的を達成するために、我々は、Retrieval-Augmented Generation (RAG) 技術と Editable Memory Graph (EMG) を組み合わせたソリューションであるEMG-RAGを紹介する。
このアプローチはさらに、データ収集、編集性、選択性という3つの異なる課題に対処するために、強化学習を使用して最適化されている。
実世界のデータセットに対する大規模な実験は、EMG-RAGの有効性を検証する。
さらに、パーソナライズされたエージェントは、実際のスマートフォンAIアシスタントに転送され、ユーザビリティが向上した。
In the age of mobile internet, user data, often referred to as memories, is continuously generated on personal devices. Effectively managing and utilizing this data to deliver services to users is a compelling research topic. In this paper, we introduce a novel task of crafting personalized agents powered by large language models (LLMs), which utilize a user's smartphone memories to enhance downstream applications with advanced LLM capabilities. To achieve this goal, we introduce EMG-RAG, a solution that combines Retrieval-Augmented Generation (RAG) techniques with an Editable Memory Graph (EMG). This approach is further optimized using Reinforcement Learning to address three distinct challenges: data collection, editability, and selectability. Extensive experiments on a real-world dataset validate the effectiveness of EMG-RAG, achieving an improvement of approximately 10% over the best existing approach. Additionally, the personalized agents have been transferred into a real smartphone AI assistant, which leads to enhanced usability. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# 最適マルチウェイデータ表現の効率的な計算のためのテンソル・テンソル生成物
Projected Tensor-Tensor Products for Efficient Computation of Optimal Multiway Data Representations ( http://arxiv.org/abs/2409.19402v1 ) ライセンス: Link先を確認 | Katherine Keegan, Elizabeth Newman, | (参考訳) テンソル分解は、マルチウェイデータの特徴抽出と圧縮に欠かせないツールとなっている。
テンソル作用素の最近の進歩は、標準行列代数の望ましい性質を多線型分解のために維持することを可能にしている。
この行列-ミメティックテンソル演算の背後には、サイズがデータの特定の次元に2次に依存する可逆行列がある。
その結果、大規模マルチウェイデータの場合、非可逆行列は適用と反転を計算的に要求することができ、建設と貯蔵コストの観点から非効率なテンソル表現を導出することができる。
本研究では,計算オーバーヘッドを低減するために可逆性制限を緩和し,基本線形代数的性質を保った新しいテンソルテンソル積を提案する。
投影された積の背後にある変換は、単体列を持つ高次およびスキニー行列であり、データの特定の次元にのみ線形に依存するため、計算複雑性は桁違いに減少する。
予測された製品フレームワーク内での圧縮表現の行列緩和性と最適性を証明するための広範な理論を提供する。
さらに、プロジェクテッド積に基づく近似が、同等の非行列的テンソル因子化より優れていることを証明した。
本研究は,映像・ハイパースペクトル画像データを用いた数値実験により,予測製品の実用的メリットを実証し,理論的知見を裏付けるものである。
Tensor decompositions have become essential tools for feature extraction and compression of multiway data. Recent advances in tensor operators have enabled desirable properties of standard matrix algebra to be retained for multilinear factorizations. Behind this matrix-mimetic tensor operation is an invertible matrix whose size depends quadratically on certain dimensions of the data. As a result, for large-scale multiway data, the invertible matrix can be computationally demanding to apply and invert and can lead to inefficient tensor representations in terms of construction and storage costs. In this work, we propose a new projected tensor-tensor product that relaxes the invertibility restriction to reduce computational overhead and still preserves fundamental linear algebraic properties. The transformation behind the projected product is a tall-and-skinny matrix with unitary columns, which depends only linearly on certain dimensions of the data, thereby reducing computational complexity by an order of magnitude. We provide extensive theory to prove the matrix mimeticity and the optimality of compressed representations within the projected product framework. We further prove that projected-product-based approximations outperform a comparable, non-matrix-mimetic tensor factorization. We support the theoretical findings and demonstrate the practical benefits of projected products through numerical experiments on video and hyperspectral imaging data. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# マスクによる復元:ブラインドオールインワン画像復元のためのマスク画像モデリングの活用
Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration ( http://arxiv.org/abs/2409.19403v1 ) ライセンス: Link先を確認 | Chu-Jie Qin, Rui-Qi Wu, Zikun Liu, Xin Lin, Chun-Le Guo, Hyun Hee Park, Chongyi Li, | (参考訳) オールインワン画像復元は、複数の劣化タイプを1つのモデルで処理することを目的としている。
本稿では,オールインワンブラインド画像復元のための簡単なパイプラインを提案する。
我々は,マスク画像モデリングを用いて,他の手法のような劣化型を区別するのではなく,本質的な画像情報を抽出することで,画像内容に焦点をあてる。
我々のパイプラインは、マスク付き画像事前学習とマスク属性コンダクタンスによる微調整の2段階からなる。
我々は、オールインワン画像復元に適した、簡単なマスキング事前訓練アプローチを設計する。
このアプローチは、さまざまな劣化から優先される画像コンテンツの抽出を優先するネットワークを強化し、異なる復元タスク間でよりバランスの取れたパフォーマンスを実現し、より強力な総合的な結果を得る。
学習した画像の先行情報を可能な限り保存しながら、入力整合性のギャップを埋めるために、我々は少数の層を選択的に微調整した。
具体的には,提案したMask Attribute Conductance(MAC)によって各レイヤの重要性をランク付けし,高いコントリビューションを持つレイヤを微調整のために選択する。
大規模な実験により,本手法が最先端の性能を達成できることが実証された。
私たちのコードとモデルは、 \href{https://github.com/Dragoniss/RAM}{https://github.com/Dragoniss/RAM} でリリースされます。
All-in-one image restoration aims to handle multiple degradation types using one model. This paper proposes a simple pipeline for all-in-one blind image restoration to Restore Anything with Masks (RAM). We focus on the image content by utilizing Mask Image Modeling to extract intrinsic image information rather than distinguishing degradation types like other methods. Our pipeline consists of two stages: masked image pre-training and fine-tuning with mask attribute conductance. We design a straightforward masking pre-training approach specifically tailored for all-in-one image restoration. This approach enhances networks to prioritize the extraction of image content priors from various degradations, resulting in a more balanced performance across different restoration tasks and achieving stronger overall results. To bridge the gap of input integrity while preserving learned image priors as much as possible, we selectively fine-tuned a small portion of the layers. Specifically, the importance of each layer is ranked by the proposed Mask Attribute Conductance (MAC), and the layers with higher contributions are selected for finetuning. Extensive experiments demonstrate that our method achieves state-of-the-art performance. Our code and model will be released at \href{https://github.com/Dragonisss/RAM}{https://github.com/Dragonisss/RAM}. | 翻訳日:2024-11-05 23:38:55 公開日:2024-09-28 |
# G3R: グラディエントガイドによる一般化可能な再構築
G3R: Gradient Guided Generalizable Reconstruction ( http://arxiv.org/abs/2409.19405v1 ) ライセンス: Link先を確認 | Yun Chen, Jingkang Wang, Ze Yang, Sivabalan Manivasagam, Raquel Urtasun, | (参考訳) 仮想現実やシミュレーションなどのアプリケーションでは,大規模な3Dシーン再構成が重要である。
既存のニューラルレンダリングアプローチ(例えば、NeRF、3DGS)は、大きなシーンで現実的な再構築を実現しているが、シーンごとの最適化は高価で遅い。
一般化可能なアプローチや大規模な再構築モデルは高速だが、主に小さなシーンやオブジェクトに向いており、しばしば低い品質のレンダリング結果を生成する。
本稿では,大規模シーンにおける高品質な3Dシーン表現を効率よく予測できる一般化可能な再構成手法であるG3Rを紹介する。
本稿では,3次元シーン表現を反復的に更新する,微分可能なレンダリングからの勾配フィードバック信号を学習し,シーンごとの最適化による高光写実性と高速フィードフォワード予測手法によるデータ駆動事前処理の利点を組み合わせた再構成ネットワークを提案する。
都市走行とドローンのデータセットの実験では、G3Rは様々な大きなシーンをまたいで一般化し、少なくとも10倍の再現プロセスを加速し、3DGSと同等またはより良いリアリズムを実現し、大きなビューの変更に対してより堅牢であることが示されている。
Large scale 3D scene reconstruction is important for applications such as virtual reality and simulation. Existing neural rendering approaches (e.g., NeRF, 3DGS) have achieved realistic reconstructions on large scenes, but optimize per scene, which is expensive and slow, and exhibit noticeable artifacts under large view changes due to overfitting. Generalizable approaches or large reconstruction models are fast, but primarily work for small scenes/objects and often produce lower quality rendering results. In this work, we introduce G3R, a generalizable reconstruction approach that can efficiently predict high-quality 3D scene representations for large scenes. We propose to learn a reconstruction network that takes the gradient feedback signals from differentiable rendering to iteratively update a 3D scene representation, combining the benefits of high photorealism from per-scene optimization with data-driven priors from fast feed-forward prediction methods. Experiments on urban-driving and drone datasets show that G3R generalizes across diverse large scenes and accelerates the reconstruction process by at least 10x while achieving comparable or better realism compared to 3DGS, and also being more robust to large view changes. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# 脳-JEPA: ゆるやかな位置決めと時空間マスキングを用いた脳ダイナミクス基礎モデル
Brain-JEPA: Brain Dynamics Foundation Model with Gradient Positioning and Spatiotemporal Masking ( http://arxiv.org/abs/2409.19407v1 ) ライセンス: Link先を確認 | Zijian Dong, Ruilin Li, Yilei Wu, Thuan Tinh Nguyen, Joanna Su Xian Chong, Fang Ji, Nathanael Ren Jie Tong, Christopher Li Hsian Chen, Juan Helen Zhou, | (参考訳) 本稿では、JEPA(Joint-Embedding Predictive Architecture)を用いた脳動力学基礎モデルであるBrain-JEPAを紹介する。
この先駆的なモデルは、人口統計学予測、疾患診断/予後、および微調整による特性予測における最先端のパフォーマンスを達成する。
さらに、オフ・ザ・シェルフの評価(例えば線形探索)に優れており、以前の大きな脳活動モデルを上回るように、異なる民族群間で優れた一般化性を示す。
Brain-JEPAは2つの革新的な技術、Brain Gradient PositioningとSpatiotemporal Maskingを取り入れている。
Brain Gradient Positioningは、脳機能解析のための機能座標系を導入し、異なる関心領域(ROI)の位置エンコーディングを強化する。
fMRIデータの特徴に合わせた時空間マスキングは、異種時系列パッチの課題に対処する。
これらの手法はモデル性能を高め、認知の基盤となる神経回路の理解を深める。
全体として、Brain-JEPAは、脳機能座標系の構築や、AI-神経科学インターフェースでの脳活動のマスキングといった重要な問題に対処し、下流適応による脳活動分析における新たなパラダイムを設定しようとしている。
We introduce Brain-JEPA, a brain dynamics foundation model with the Joint-Embedding Predictive Architecture (JEPA). This pioneering model achieves state-of-the-art performance in demographic prediction, disease diagnosis/prognosis, and trait prediction through fine-tuning. Furthermore, it excels in off-the-shelf evaluations (e.g., linear probing) and demonstrates superior generalizability across different ethnic groups, surpassing the previous large model for brain activity significantly. Brain-JEPA incorporates two innovative techniques: Brain Gradient Positioning and Spatiotemporal Masking. Brain Gradient Positioning introduces a functional coordinate system for brain functional parcellation, enhancing the positional encoding of different Regions of Interest (ROIs). Spatiotemporal Masking, tailored to the unique characteristics of fMRI data, addresses the challenge of heterogeneous time-series patches. These methodologies enhance model performance and advance our understanding of the neural circuits underlying cognition. Overall, Brain-JEPA is paving the way to address pivotal questions of building brain functional coordinate system and masking brain activity at the AI-neuroscience interface, and setting a potentially new paradigm in brain activity analysis through downstream adaptation. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# ディープスパイクニューラルネットワークにおけるメンバーシッププライバシ評価
Membership Privacy Evaluation in Deep Spiking Neural Networks ( http://arxiv.org/abs/2409.19413v1 ) ライセンス: Link先を確認 | Jiaxin Li, Gorka Abad, Stjepan Picek, Mauro Conti, | (参考訳) ニューラルネットワーク(Artificial Neural Networks, ANN)は、非線形機能を持つニューロンを模倣して浮動小数点数を出力する。
ANNとは異なり、スパイキングニューラルネットワーク(SNN)は、データポイントの前方で様々な入力信号を受信し、生物学的に妥当な方法でニューロンをシミュレートする。
ANNは、顔認識やオブジェクト検出など、複数のタスクにおいて顕著な成功を収めてきたが、近年、低消費電力、高速推論、イベント駆動特性により、SNNは注目を集めている。
ANNに対するプライバシーの脅威は広く検討されているが、SNNでの作業はずっと少ない。
例えば、ANNがメンバーシップ推論攻撃(MIA)に弱いことはよく知られているが、SNNにも同じことが当てはまるかどうかは調査されていない。
本稿では,SNNに対するMIAにインスパイアされた8つのMIAを考慮し,SNNの会員プライバシを評価する。
評価の結果,SNNは神経形データセット(時間次元)を用いて訓練された場合,ANNよりも脆弱(最大攻撃精度は10%高い)であることが示唆された。
一方、(時間次元なしで)静的データセットでANNやSNNをトレーニングする場合、脆弱性は使用されるデータセットに依存する。
静的データセットでトレーニングされたANNをSNNに変換すると、MIAsの精度が低下する(最大11.5%、ターゲットモデルのテスト精度は7.6%)。
次に,MIAのSNNへの影響要因について,ハイパーパラメーターによる検討を行った。
最後に、静的データに対する基本データ拡張法と、ニューロモルフィックデータに対する2つの最近のデータ拡張法は、SNNにおけるMIAの性能を著しく低下させる(最大25.7%)ことを示した。
Artificial Neural Networks (ANNs), commonly mimicking neurons with non-linear functions to output floating-point numbers, consistently receive the same signals of a data point during its forward time. Unlike ANNs, Spiking Neural Networks (SNNs) get various input signals in the forward time of a data point and simulate neurons in a biologically plausible way, i.e., producing a spike (a binary value) if the accumulated membrane potential of a neuron is larger than a threshold. Even though ANNs have achieved remarkable success in multiple tasks, e.g., face recognition and object detection, SNNs have recently obtained attention due to their low power consumption, fast inference, and event-driven properties. While privacy threats against ANNs are widely explored, much less work has been done on SNNs. For instance, it is well-known that ANNs are vulnerable to the Membership Inference Attack (MIA), but whether the same applies to SNNs is not explored. In this paper, we evaluate the membership privacy of SNNs by considering eight MIAs, seven of which are inspired by MIAs against ANNs. Our evaluation results show that SNNs are more vulnerable (maximum 10% higher in terms of balanced attack accuracy) than ANNs when both are trained with neuromorphic datasets (with time dimension). On the other hand, when training ANNs or SNNs with static datasets (without time dimension), the vulnerability depends on the dataset used. If we convert ANNs trained with static datasets to SNNs, the accuracy of MIAs drops (maximum 11.5% with a reduction of 7.6% on the test accuracy of the target model). Next, we explore the impact factors of MIAs on SNNs by conducting a hyperparameter study. Finally, we show that the basic data augmentation method for static data and two recent data augmentation methods for neuromorphic data can considerably (maximum reduction of 25.7%) decrease MIAs' performance on SNNs. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# メッセージパッシンググラフニューラルネットワークにおける逐次信号混合アグリゲーション
Sequential Signal Mixing Aggregation for Message Passing Graph Neural Networks ( http://arxiv.org/abs/2409.19414v1 ) ライセンス: Link先を確認 | Mitchell Keren Taraday, Almog David, Chaim Baskin, | (参考訳) メッセージパッシンググラフニューラルネットワーク(MPGNN)は、様々なグラフエンティティ間での複雑な相互作用をモデル化する手段として好まれている。
そのようなモデルの理論はよく理解されているが、それらの集約モジュールは十分な注意を払っていない。
サムベースのアグリゲータは、その分離能力に関するしっかりとした理論的基礎を持っている。
しかし、実践者は、より複雑な凝集と多様な凝集の混合物を使うことを好むことが多い。
本稿では,このギャップについて解説する。
我々は、サムベースのアグリゲータが、異なる隣人に属する機能を「ミックス」することに失敗し、下流のタスクで成功しないと主張している。
そこで我々は,MPGNNのための新しいプラグ・アンド・プレイアグリゲーションであるSequential Signal Mixing Aggregation (SSMA)を紹介する。
SSMAは隣接する特徴を2次元の離散的な信号として扱い、それらを連続的に結合させ、本質的に隣り合った特徴を混合する能力を増強する。
広範な実験により,SSMAと確立されたMPGNNアーキテクチャを組み合わせることで,様々なベンチマークにおいて大幅な性能向上を実現し,多くの設定で新たな最先端結果が得られることを示す。
ソースコードは \url{https://almogdavid.github.io/SSMA/} で公開しました。
Message Passing Graph Neural Networks (MPGNNs) have emerged as the preferred method for modeling complex interactions across diverse graph entities. While the theory of such models is well understood, their aggregation module has not received sufficient attention. Sum-based aggregators have solid theoretical foundations regarding their separation capabilities. However, practitioners often prefer using more complex aggregations and mixtures of diverse aggregations. In this work, we unveil a possible explanation for this gap. We claim that sum-based aggregators fail to "mix" features belonging to distinct neighbors, preventing them from succeeding at downstream tasks. To this end, we introduce Sequential Signal Mixing Aggregation (SSMA), a novel plug-and-play aggregation for MPGNNs. SSMA treats the neighbor features as 2D discrete signals and sequentially convolves them, inherently enhancing the ability to mix features attributed to distinct neighbors. By performing extensive experiments, we show that when combining SSMA with well-established MPGNN architectures, we achieve substantial performance gains across various benchmarks, achieving new state-of-the-art results in many settings. We published our code at \url{https://almogdavid.github.io/SSMA/} | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# ハイブリッド意思決定システムにおけるギャップのブリッジ化
Bridging the Gap in Hybrid Decision-Making Systems ( http://arxiv.org/abs/2409.19415v1 ) ライセンス: Link先を確認 | Federico Mazzoni, Roberto Pellungrini, Riccardo Guidotti, | (参考訳) BRIDGETはハイブリッド意思決定のための新しいヒューマン・イン・ザ・ループシステムであり、ユーザがラベルのないデータセットからレコードにラベルを付けるのを手助けし、最も人気のある2つのハイブリッド意思決定パラダイムの「ギャップを埋める」ことを試みている。
BRIDGETは、マシンか人間のどちらかが担当すべきタイミングを理解し、2つのステータスを動的に切り替える。
BRIDGETは、ユーザに対して懐疑的なスタンスを仮定し、提案を提供するマシンラーニングモデルを持つか、あるいは自身でユーザを呼び戻すかのどちらかだ。
我々の提案は、人間と機械の意思決定者を含む将来の相乗的システムの基礎を成していると信じている。
We introduce BRIDGET, a novel human-in-the-loop system for hybrid decision-making, aiding the user to label records from an un-labeled dataset, attempting to ``bridge the gap'' between the two most popular Hybrid Decision-Making paradigms: those featuring the human in a leading position, and the other with a machine making most of the decisions. BRIDGET understands when either a machine or a human user should be in charge, dynamically switching between two statuses. In the different statuses, BRIDGET still fosters the human-AI interaction, either having a machine learning model assuming skeptical stances towards the user and offering them suggestions, or towards itself and calling the user back. We believe our proposal lays the groundwork for future synergistic systems involving a human and a machine decision-makers. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# 機械学習操作:マッピング研究
Machine Learning Operations: A Mapping Study ( http://arxiv.org/abs/2409.19416v1 ) ライセンス: Link先を確認 | Abhijit Chakraborty, Suddhasvatta Das, Kevin Gary, | (参考訳) 機械学習とAIは、最近多くの企業が採用している。
機械学習オペレーション(MLOps)は、マシンラーニングモデルを本番環境にデプロイする際の、DevOpsなどの継続的ソフトウェアエンジニアリングプロセスの使用を指す。
それでも、すべての機械学習イニシアチブが、複雑な要因の多さから生産段階に移行した訳ではない。
この記事では、MLOpsパイプラインのいくつかのコンポーネント、すなわちデータ操作パイプライン、モデル構築パイプライン、デプロイメントパイプラインに存在する問題について議論する。
MLOpsシステムで発生する課題を、異なる焦点領域に分類するために、システマティックマッピング研究が実施されている。
このデータを使用して、現実的で適用可能なレコメンデーションが、その実装に使用できるツールやソリューションに対して提供されます。
この研究の主な価値は、私たちの研究で概説された推奨されたソリューションとともに、MLOpsの特有の課題をマップすることです。
これらのガイドラインは特定のツールに特化せず、研究と産業の両方に適用できる。
Machine learning and AI have been recently embraced by many companies. Machine Learning Operations, (MLOps), refers to the use of continuous software engineering processes, such as DevOps, in the deployment of machine learning models to production. Nevertheless, not all machine learning initiatives successfully transition to the production stage owing to the multitude of intricate factors involved. This article discusses the issues that exist in several components of the MLOps pipeline, namely the data manipulation pipeline, model building pipeline, and deployment pipeline. A systematic mapping study is performed to identify the challenges that arise in the MLOps system categorized by different focus areas. Using this data, realistic and applicable recommendations are offered for tools or solutions that can be used for their implementation. The main value of this work is it maps distinctive challenges in MLOps along with the recommended solutions outlined in our study. These guidelines are not specific to any particular tool and are applicable to both research and industrial settings. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# クロスサイロ・フェデレーションラーニングにおけるソース推論攻撃による主観的データ監査
Subject Data Auditing via Source Inference Attack in Cross-Silo Federated Learning ( http://arxiv.org/abs/2409.19417v1 ) ライセンス: Link先を確認 | Jiaxin Li, Marco Arazzi, Antonino Nocera, Mauro Conti, | (参考訳) フェデレートラーニング(FL)におけるソース推論攻撃(SIA)は、どのクライアントがローカルモデルトレーニングにターゲットデータポイントを使用しているかを特定することを目的としている。
これにより、中央サーバはクライアントのデータ利用を監査できる。
クロスサイロFLでは、クライアント(サイロ)が複数の被験者(個人、ライター、デバイスなど)からデータを収集し、情報漏洩のリスクを訴える。
対象メンバーシップ推論攻撃(SMIA)はこのシナリオをターゲットとし、どのクライアントも対象の対象からのデータポイントを利用するかどうかをクロスサイロFLで推測しようとする。
しかし、SMIAの既存の結果は限定的であり、攻撃シナリオに対する強い仮定に基づいている。
そこで本研究では,ISAのターゲットデータポイントを1つのクライアントでしか使用できないという致命的な制約を除去し,SMIAのターゲットデータを利用するクライアントを不正確な検出を行うことにより,SLSIA(Subject-Level Source Inference Attack)を提案する。
攻撃者はサーバ側に配置され、ターゲットデータソースを制御し、ターゲット対象からのデータポイントを使用して全クライアントを検出する。
我々の戦略はバイナリアタック分類器を利用して、対象対象からのテストデータにローカルモデルによって返される埋め込みが、その対象からのデータでクライアントがモデルを訓練することを示すユニークなパターンを含むかどうかを予測する。
これを実現するために、攻撃者はターゲット対象から派生したデータを使用してモデルをローカルに事前トレーニングし、それらを利用してバイナリ攻撃分類器のトレーニングセットを構築する。
我々のSLSIAは3つのデータセット上で従来の手法よりも大幅に優れています。
具体的には、SLSIAの最大平均精度は50名以上の対象者に対して0.88である。
埋め込み分布と入力特徴距離を解析すると、スパースな対象を持つデータセットの方が攻撃の影響を受けやすいことが分かる。
最後に、アイテムレベルおよび主観レベルの差分プライバシー機構を用いて、SLSIAを保護することを提案する。
Source Inference Attack (SIA) in Federated Learning (FL) aims to identify which client used a target data point for local model training. It allows the central server to audit clients' data usage. In cross-silo FL, a client (silo) collects data from multiple subjects (e.g., individuals, writers, or devices), posing a risk of subject information leakage. Subject Membership Inference Attack (SMIA) targets this scenario and attempts to infer whether any client utilizes data points from a target subject in cross-silo FL. However, existing results on SMIA are limited and based on strong assumptions on the attack scenario. Therefore, we propose a Subject-Level Source Inference Attack (SLSIA) by removing critical constraints that only one client can use a target data point in SIA and imprecise detection of clients utilizing target subject data in SMIA. The attacker, positioned on the server side, controls a target data source and aims to detect all clients using data points from the target subject. Our strategy leverages a binary attack classifier to predict whether the embeddings returned by a local model on test data from the target subject include unique patterns that indicate a client trains the model with data from that subject. To achieve this, the attacker locally pre-trains models using data derived from the target subject and then leverages them to build a training set for the binary attack classifier. Our SLSIA significantly outperforms previous methods on three datasets. Specifically, SLSIA achieves a maximum average accuracy of 0.88 over 50 target subjects. Analyzing embedding distribution and input feature distance shows that datasets with sparse subjects are more susceptible to our attack. Finally, we propose to defend our SLSIA using item-level and subject-level differential privacy mechanisms. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# デバイス非依存型完全ネットワーク非局所性による任意のパーティーおよび非有界入力シナリオ
Device-independent full network nonlocality for arbitrary-party and unbounded-input scenario ( http://arxiv.org/abs/2409.19419v1 ) ライセンス: Link先を確認 | Sneha Munshi, A. K. Pan, | (参考訳) 複数の独立したソースを含む複数パーティネットワークにおける非局所性は、単一のソースを含む標準のマルチパーティイトベル非局所性と大きく異なる。
完全ネットワーク非局所性(FNN)の概念(Phys)。
Lett.128, 010403 (2022) は局所的非局所的モデルで再現できない量子相関を特徴付けている。
しかし、FNNのデモンストレーションは、エッジパーティの3つまたは2つのジコトミック測定を含む、局所的および3つの局所的な星型ネットワークシナリオに限られていた。
本稿では,大規模なネットワーク不等式がFNNを表わさないことを示す。
次に、最適量子違反がFNNを示す星型および線形鎖型ネットワークにおいて、任意のパーティーおよび非有界入力ネットワークの不等式をエレガントに導入し、非局所性が真にネットワーク全体に分散されていることを証明した。
固定出力と4出力のエレガントな関節測定を必然的に必要とする既存のFNNのデモンストレーションとは対照的に,我々の一般化された不等式はより実験的に親和性が高く,2出力の計測しか必要としない。
さらに、最適量子違反の導出は完全に解析的であり、量子システムの次元を仮定することができないため、デバイスに依存しない自己検査の可能性を示す。
The nonlocality arising in a multi-party network involving multiple independent sources radically differs from the standard multipartite Bell nonlocality involving a single source. The notion of the full network nonlocality (FNN) (Phys. Rev. Lett.128, 010403 (2022)) characterizes the quantum correlations that cannot be reproduced by a local-nonlocal model featuring one local source and the rest of nonlocal no-signaling sources. However, the demonstration of FNN was limited to bilocal and trilocal star-shaped network scenarios involving three or two dichotomic measurements for edge parties. In this paper, we first demonstrate that a large class of prevailing network inequalities does not exhibit FNN. We then introduce an elegant set of arbitrary-party and unbounded-input network inequalities in star-shaped and linear-chain networks whose optimal quantum violation exhibits FNN, certifying that the nonlocality is genuinely distributed to the entire network. Contrasting to existing demonstrations of FNN that inevitably require fixed-input and four-output elegant joint measurements for the central party, our generalized inequalities are more experimentally friendly, requiring only two-output measurements. Moreover, our derivation of optimal quantum violation is fully analytic and devoid of assuming the dimension of the quantum system, thereby showcasing its potential for device-independent self-testing. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# 異なる感覚データ間の情報伝達を可能にするマルチセンサ学習とマルチモーダリティイメージング
Multi-sensor Learning Enables Information Transfer across Different Sensory Data and Augments Multi-modality Imaging ( http://arxiv.org/abs/2409.19420v1 ) ライセンス: Link先を確認 | Lingting Zhu, Yizheng Chen, Lianli Liu, Lei Xing, Lequan Yu, | (参考訳) マルチモダリティイメージングは、画像の主題を包括的に理解するために、臨床および生医学的な研究に広く用いられている。
現在、マルチモダリティイメージングは、相互情報や空間的に登録されたハードウェアの誘導の下で、独立に再構成された画像のポストホック融合によって実現されており、マルチモダリティイメージングの精度と有用性は制限されている。
本稿では,CTとMRIの相乗的画像化のためのDMI(Data-driven multi-modality imaging)戦略について検討する。
マルチモダリティ画像における2つの特徴,すなわち、イントラモダリティとイントラモダリティの2つの特徴を明らかにし、マルチセンサラーニング(MSL)フレームワークを用いて、クロスオーバー相互モダリティの機能を拡張マルチモダリティイメージングに活用する。
MSLイメージングアプローチは、従来の画像モダリティの境界を画定し、CTとMRIの最適なハイブリッド化を可能にし、感覚データの使用を最大化する。
相乗的CT-MRI脳画像撮影によるDMI戦略の有効性について紹介する。
DMIの原理は極めて一般的であり、規律を越えて様々なDMIアプリケーションに対して大きな可能性を秘めている。
Multi-modality imaging is widely used in clinical practice and biomedical research to gain a comprehensive understanding of an imaging subject. Currently, multi-modality imaging is accomplished by post hoc fusion of independently reconstructed images under the guidance of mutual information or spatially registered hardware, which limits the accuracy and utility of multi-modality imaging. Here, we investigate a data-driven multi-modality imaging (DMI) strategy for synergetic imaging of CT and MRI. We reveal two distinct types of features in multi-modality imaging, namely intra- and inter-modality features, and present a multi-sensor learning (MSL) framework to utilize the crossover inter-modality features for augmented multi-modality imaging. The MSL imaging approach breaks down the boundaries of traditional imaging modalities and allows for optimal hybridization of CT and MRI, which maximizes the use of sensory data. We showcase the effectiveness of our DMI strategy through synergetic CT-MRI brain imaging. The principle of DMI is quite general and holds enormous potential for various DMI applications across disciplines. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# ユニモーダルからマルチモーダルへ:プロジェクタのスケールアップからアライメントモーダリティへ
From Unimodal to Multimodal: Scaling up Projectors to Align Modalities ( http://arxiv.org/abs/2409.19425v1 ) ライセンス: Link先を確認 | Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Noel E. O'Connor, | (参考訳) CLIPのような最近の対照的なマルチモーダル視覚言語モデルは、オープンワールドのセマンティックな理解を堅牢に示しており、それらの整列した潜在空間のために、視覚言語アプリケーションのための標準画像バックボーンとなっている。
しかし、このプラクティスは、マルチモーダルアプリケーションで未使用の視覚と言語の両方に強力なユニモーダルエンコーダを残しており、重要な疑問を提起している。
そこで本研究では,事前学習した凍結した単調エンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味論的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなMLPプロジェクタのトレーニングが含まれる。
我々は12のゼロショット分類データセットと2つの画像テキスト検索データセットに対するアプローチを評価した。
DINOv2とAll-Roberta-Largeのテキストエンコーダを用いた最良のモデルでは,データ20倍,計算要求65倍の精度で,ImageNet上で76\(\%\)の精度を実現している。
提案したフレームワークは,モデル開発のアクセシビリティを高めつつ,多様なシナリオにまたがる柔軟な適応を実現し,既存のユニモーダルアーキテクチャを利用してマルチモーダルモデルを構築するための効率的なアプローチを提供する。
コードとデータセットは近くリリースされる。
Recent contrastive multimodal vision-language models like CLIP have demonstrated robust open-world semantic understanding, becoming the standard image backbones for vision-language applications due to their aligned latent space. However, this practice has left powerful unimodal encoders for both vision and language underutilized in multimodal applications which raises a key question: Is there a plausible way to connect unimodal backbones for zero-shot vision-language tasks? To this end, we propose a novel approach that aligns vision and language modalities using only projection layers on pretrained, frozen unimodal encoders. Our method exploits the high semantic similarity between embedding spaces of well-trained vision and language models. It involves selecting semantically similar encoders in the latent space, curating a concept-rich dataset of image-caption pairs, and training simple MLP projectors. We evaluated our approach on 12 zero-shot classification datasets and 2 image-text retrieval datasets. Our best model, utilizing DINOv2 and All-Roberta-Large text encoder, achieves 76\(\%\) accuracy on ImageNet with a 20-fold reduction in data and 65 fold reduction in compute requirements. The proposed framework enhances the accessibility of model development while enabling flexible adaptation across diverse scenarios, offering an efficient approach to building multimodal models by utilizing existing unimodal architectures. Code and datasets will be released soon. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# 非平滑正規化最適化のための近修正準ニュートン法
A Proximal Modified Quasi-Newton Method for Nonsmooth Regularized Optimization ( http://arxiv.org/abs/2409.19428v1 ) ライセンス: Link先を確認 | Youssef Diouane, Mohamed Laghdaf Habiboullah, Dominique Orban, | (参考訳) 我々は、$\mathcal{C}^1$ function $f$と下半連続なprox-bounded $h$の和を最小化する修正準ニュートン法であるR2Nを開発する。
f$ と $h$ はともに非凸である。
各イテレーションにおいて、本手法は2次モデルの和を$f$、モデルが$h$、適応2次正規化項を最小化することにより、ステップを計算する。
ステップは、近次勾配法の変種によって計算される。
信頼領域(TR)法よりもR2Nの利点は、近位作用素が追加のTR指標を含まないことである。
また、モデル Hessian が対角線となる変種 R2DH も開発しており、h$ が分離可能なとき、サブプロブレムソルバに頼ることなくステップを計算することができる。
R2DHはスタンドアローンソルバとしても、R2N内のサブプロブレムソルバとしても使用できる。
R2NおよびR2DHの非単トン変種について述べる。
一階定常度測度の零点への大域収束は、局所的なリプシッツ連続性$\nabla f$に依存しないが、モデルヘッセンが非有界に成長することを可能にし、これは準ニュートンモデルに特に関係している仮定である。
例えば、$\nabla f$ のリプシッツ連続性の下では、$O(1 / \epsilon^{2/(1 - p)})$ という厳密な最悪ケースの複雑さを確立して、その測度を $\epsilon > 0$ 以下にする。
後者は $|\mathcal{S}_k|^p$ よりも早く分岐してはいけない。
p = 1$ のとき、厳密な指数複雑性を$O(\exp(c \epsilon^{-2}))$ とすると、$c > 0$ は定数である。
提案するJuliaの実装について述べるとともに, 基本探索問題, 画像復調, 最小ランク行列補完, 非線形支持ベクトルマシンに関する数値経験を報告する。
特に、最小ランク問題は、対応する近位作用素が解析的に知られていないため、TRアプローチで直接解決することはできない。
We develop R2N, a modified quasi-Newton method for minimizing the sum of a $\mathcal{C}^1$ function $f$ and a lower semi-continuous prox-bounded $h$. Both $f$ and $h$ may be nonconvex. At each iteration, our method computes a step by minimizing the sum of a quadratic model of $f$, a model of $h$, and an adaptive quadratic regularization term. A step may be computed by a variant of the proximal-gradient method. An advantage of R2N over trust-region (TR) methods is that proximal operators do not involve an extra TR indicator. We also develop the variant R2DH, in which the model Hessian is diagonal, which allows us to compute a step without relying on a subproblem solver when $h$ is separable. R2DH can be used as standalone solver, but also as subproblem solver inside R2N. We describe non-monotone variants of both R2N and R2DH. Global convergence of a first-order stationarity measure to zero holds without relying on local Lipschitz continuity of $\nabla f$, while allowing model Hessians to grow unbounded, an assumption particularly relevant to quasi-Newton models. Under Lipschitz-continuity of $\nabla f$, we establish a tight worst-case complexity bound of $O(1 / \epsilon^{2/(1 - p)})$ to bring said measure below $\epsilon > 0$, where $0 \leq p < 1$ controls the growth of model Hessians. The latter must not diverge faster than $|\mathcal{S}_k|^p$, where $\mathcal{S}_k$ is the set of successful iterations up to iteration $k$. When $p = 1$, we establish the tight exponential complexity bound $O(\exp(c \epsilon^{-2}))$ where $c > 0$ is a constant. We describe our Julia implementation and report numerical experience on a basis-pursuit problem, image denoising, minimum-rank matrix completion, and a nonlinear support vector machine. In particular, the minimum-rank problem cannot be solved directly at this time by a TR approach as corresponding proximal operators are not known analytically. | 翻訳日:2024-11-05 23:29:10 公開日:2024-09-28 |
# 「物語のシミュラム」:質的研究参加者としての大規模言語モデルの検討
'Simulacrum of Stories': Examining Large Language Models as Qualitative Research Participants ( http://arxiv.org/abs/2409.19430v1 ) ライセンス: Link先を確認 | Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox, | (参考訳) 生成モデルに関する最近の興奮は、大規模言語モデル(LLM)によって生成された合成研究データを用いて、例えば、調査、実験、インタビューを通じて、研究と開発における人間の参加と労働の置き換えを提案する提案の波を引き起こしている。
我々は,このパラダイムシフトの視点を理解するために,19人の定性的な研究者にインタビューを行った。
当初懐疑的だった研究者たちは、LLMが生成したデータに同様の物語が現れるのを見て驚きました。
しかし、いくつかの会話のターンにおいて、LLMが参加者の同意や代理店を閉ざす方法、触覚や文脈の深さに欠ける応答を生成する方法、質的な研究方法のリスク軽減など、基本的な制限を特定した。
参加者のプロキシとしてのLLMの使用は代理効果を行使し、現在のモデルの技術的な限界を超えて、LLMが質的な知識の方法に適合するかどうかのコアにまで広がる倫理的・認識論的懸念を提起する。
The recent excitement around generative models has sparked a wave of proposals suggesting the replacement of human participation and labor in research and development--e.g., through surveys, experiments, and interviews--with synthetic research data generated by large language models (LLMs). We conducted interviews with 19 qualitative researchers to understand their perspectives on this paradigm shift. Initially skeptical, researchers were surprised to see similar narratives emerge in the LLM-generated data when using the interview probe. However, over several conversational turns, they went on to identify fundamental limitations, such as how LLMs foreclose participants' consent and agency, produce responses lacking in palpability and contextual depth, and risk delegitimizing qualitative research methods. We argue that the use of LLMs as proxies for participants enacts the surrogate effect, raising ethical and epistemological concerns that extend beyond the technical limitations of current models to the core of whether LLMs fit within qualitative ways of knowing. | 翻訳日:2024-11-05 23:19:25 公開日:2024-09-28 |
# MicroFlow: TinyML用の効率的なRustベースの推論エンジン
MicroFlow: An Efficient Rust-Based Inference Engine for TinyML ( http://arxiv.org/abs/2409.19432v1 ) ライセンス: Link先を確認 | Matteo Carnelos, Francesco Pasti, Nicola Bellotto, | (参考訳) MicroFlowは、Rustプログラミング言語を使用して組み込みシステムにニューラルネットワーク(NN)をデプロイするためのオープンソースのTinyMLフレームワークである。
これらの目的を達成するため、MicroFlowはコンパイラベースの推論エンジンアプローチを採用しており、Rustのメモリ安全性と機能を備えている。
提案したソリューションは,2kBのRAMしか持たないベアメタル8ビットマイクロコントローラを含む,リソース制約の高いデバイスへのNNの展開を成功させる。
さらに、MicroFlowは、NN参照モデル(ウェイクワードや人検出など)をデプロイする他の最先端ソリューションよりも、FlashやRAMメモリを使用できない。
また、中規模のNNでは既存のエンジンよりも高速な推論が可能であり、大きなNNでは同様の性能が得られる。
実験の結果、特にリソースが限られているクリティカルな環境でのTinyMLモデルのデプロイにおいて、MicroFlowの効率性と適合性が証明された。
MicroFlow is an open-source TinyML framework for the deployment of Neural Networks (NNs) on embedded systems using the Rust programming language, specifically designed for efficiency and robustness, which is suitable for applications in critical environments. To achieve these objectives, MicroFlow employs a compiler-based inference engine approach, coupled with Rust's memory safety and features. The proposed solution enables the successful deployment of NNs on highly resource-constrained devices, including bare-metal 8-bit microcontrollers with only 2kB of RAM. Furthermore, MicroFlow is able to use less Flash and RAM memory than other state-of-the-art solutions for deploying NN reference models (i.e. wake-word and person detection). It can also achieve faster inference compared to existing engines on medium-size NNs, and similar performance on bigger ones. The experimental results prove the efficiency and suitability of MicroFlow for the deployment of TinyML models in critical environments where resources are particularly limited. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# Python Package sbijaxによるシミュレーションに基づく推論
Simulation-based inference with the Python Package sbijax ( http://arxiv.org/abs/2409.19435v1 ) ライセンス: Link先を確認 | Simon Dirmeier, Simone Ulzega, Antonietta Mira, Carlo Albert, | (参考訳) ニューラルシュミレーションに基づく推論(SBI)は、ニューラルネットワークを代理モデルとして用いる難易度関数を持つベイズ推論のための新しい手法のファミリーを記述している。
本稿では,ユーザフレンドリなプログラミングインタフェースを用いたニューラルシミュレーションに基づく推論において,多種多様な最先端の手法を実装したPythonパッケージであるsbijaxを紹介する。
sbijaxは、SBI推定器を迅速に構築し、数行のコードで後部分布を計算および視覚化するための高レベルの機能を提供する。
さらに、このパッケージは、従来のベイズ近似計算、モデル診断の計算、および要約統計を自動的に推定する機能を提供する。
完全にJAXで書かれているため、sbijaxは非常に計算効率が良く、ニューラルネットワークを高速にトレーニングし、CPUとGPUの両方で自動的に並列にコードを実行することができる。
Neural simulation-based inference (SBI) describes an emerging family of methods for Bayesian inference with intractable likelihood functions that use neural networks as surrogate models. Here we introduce sbijax, a Python package that implements a wide variety of state-of-the-art methods in neural simulation-based inference using a user-friendly programming interface. sbijax offers high-level functionality to quickly construct SBI estimators, and compute and visualize posterior distributions with only a few lines of code. In addition, the package provides functionality for conventional approximate Bayesian computation, to compute model diagnostics, and to automatically estimate summary statistics. By virtue of being entirely written in JAX, sbijax is extremely computationally efficient, allowing rapid training of neural networks and executing code automatically in parallel on both CPU and GPU. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# シンセティック医療データセットの多様性を評価する指標SDICEの導入
Introducing SDICE: An Index for Assessing Diversity of Synthetic Medical Datasets ( http://arxiv.org/abs/2409.19436v1 ) ライセンス: Link先を確認 | Mohammed Talha Alam, Raza Imam, Mohammad Areeb Qazi, Asim Ukaye, Karthik Nandakumar, | (参考訳) 生成モデリングの進歩は、合成医療画像生成の最先端を推し進めている。
これらの合成画像は、医療画像解析のためのより正確な機械学習モデルの開発を支援する効果的なデータ拡張方法として機能する。
これらの合成画像の忠実度は徐々に増大しているが、これらの画像の多様性は未研究の現象である。
本研究では,コントラストエンコーダによって誘導される類似度分布の特性に基づくSDICEインデックスを提案する。
合成データセットと実画像の参照データセットが与えられた後、SDICEインデックスは、原画像と合成画像の類似度スコア分布間の距離を測定し、類似度スコアを事前訓練されたコントラストエンコーダを用いて推定する。
この距離は指数関数を用いて正規化され、領域間で容易に比較できる一貫した計量を与える。
MIMIC-chest X-rayデータセットとImageNetデータセットで実施された実験は、合成医療データセットの多様性を評価する上で、SDICEインデックスの有効性を示した。
Advancements in generative modeling are pushing the state-of-the-art in synthetic medical image generation. These synthetic images can serve as an effective data augmentation method to aid the development of more accurate machine learning models for medical image analysis. While the fidelity of these synthetic images has progressively increased, the diversity of these images is an understudied phenomenon. In this work, we propose the SDICE index, which is based on the characterization of similarity distributions induced by a contrastive encoder. Given a synthetic dataset and a reference dataset of real images, the SDICE index measures the distance between the similarity score distributions of original and synthetic images, where the similarity scores are estimated using a pre-trained contrastive encoder. This distance is then normalized using an exponential function to provide a consistent metric that can be easily compared across domains. Experiments conducted on the MIMIC-chest X-ray and ImageNet datasets demonstrate the effectiveness of SDICE index in assessing synthetic medical dataset diversity. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# コントラスト画像とリモートセンシング事前学習による自然界画像の表現学習の改善
Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery ( http://arxiv.org/abs/2409.19439v1 ) ライセンス: Link先を確認 | Andy V. Huynh, Lauren E. Gillespie, Jael Lopez-Saucedo, Claire Tang, Rohan Sikand, Moisés Expósito-Alonso, | (参考訳) マルチモーダル画像テキストのコントラスト学習は、共同表現がモダリティを越えて学習できることを示してきた。
本稿では, 画像データの複数のビューを対照的な学習で活用することで, 一つのビューが欠落している場合でも, 下流の詳細な分類性能を向上できることを示す。
ContRastive Image-remote Sensing Pre-training (CRISP)$\unicode{x2014}$a new pre-training task for ground-level and air image representation learning of the natural world$\unicode{x2014}$and introduce Nature Multi-View (NMV)。
NMVデータセットと関連する資料はhf.co/datasets/andyvhuynh/NatureMultiViewで入手できる。
Multimodal image-text contrastive learning has shown that joint representations can be learned across modalities. Here, we show how leveraging multiple views of image data with contrastive learning can improve downstream fine-grained classification performance for species recognition, even when one view is absent. We propose ContRastive Image-remote Sensing Pre-training (CRISP)$\unicode{x2014}$a new pre-training task for ground-level and aerial image representation learning of the natural world$\unicode{x2014}$and introduce Nature Multi-View (NMV), a dataset of natural world imagery including $>3$ million ground-level and aerial image pairs for over 6,000 plant taxa across the ecologically diverse state of California. The NMV dataset and accompanying material are available at hf.co/datasets/andyvhuynh/NatureMultiView. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# 画像変換ネットワークのためのトリガー型フラジイルモデル透かし
Trigger-Based Fragile Model Watermarking for Image Transformation Networks ( http://arxiv.org/abs/2409.19442v1 ) ライセンス: Link先を確認 | Preston K. Robinette, Dung T. Nguyen, Samuel Sasaki, Taylor T. Johnson, | (参考訳) 脆弱な透かしでは、微妙な透かしが、改ざん時に透かしが壊れるように、物体に埋め込まれる。
この脆弱なプロセスは、ウォーターマークされたオブジェクトの完全性とソースを保証するために使用することができる。
モデル整合性のための脆弱な透かしは分類モデルで研究されているが、画像変換/生成モデルはまだ検討されていない。
本稿では,画像出力に固有の特性を生かした画像変換/生成ネットワークのための,新しいトリガ型フラクタモデル透かしシステムを提案する。
例えば、特定のトリガ入力を使用すると、生成されたコンテンツに特定の視覚パターン、スタイル、または異常を示す。
私たちのアプローチは、堅牢な透かしとは別として、さまざまなデータセットやアタックにわたるモデルのソースと整合性を効果的に検証し、ベースラインを94%上回るようにしています。
我々は,本手法の安全性,トリガの柔軟性,結果の透かしの柔軟性,性能に対する透かし損失の感度を解析するための追加実験を行った。
また、このアプローチを2つの異なるタスク(1つの即時タスクと1つのダウンストリームタスク)に適用可能であることを示す。
これは、画像変換/生成ネットワークのための脆弱なモデル透かしを考える最初の研究である。
In fragile watermarking, a sensitive watermark is embedded in an object in a manner such that the watermark breaks upon tampering. This fragile process can be used to ensure the integrity and source of watermarked objects. While fragile watermarking for model integrity has been studied in classification models, image transformation/generation models have yet to be explored. We introduce a novel, trigger-based fragile model watermarking system for image transformation/generation networks that takes advantage of properties inherent to image outputs. For example, manifesting watermarks as specific visual patterns, styles, or anomalies in the generated content when particular trigger inputs are used. Our approach, distinct from robust watermarking, effectively verifies the model's source and integrity across various datasets and attacks, outperforming baselines by 94%. We conduct additional experiments to analyze the security of this approach, the flexibility of the trigger and resulting watermark, and the sensitivity of the watermarking loss on performance. We also demonstrate the applicability of this approach on two different tasks (1 immediate task and 1 downstream task). This is the first work to consider fragile model watermarking for image transformation/generation networks. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# HTML-LSTM:木構造LSTMを用いたWebページ内のHTMLテーブルからの情報抽出
HTML-LSTM: Information Extraction from HTML Tables in Web Pages using Tree-Structured LSTM ( http://arxiv.org/abs/2409.19445v1 ) ライセンス: Link先を確認 | Kazuki Kawamura, Akihiro Yamamoto, | (参考訳) 本稿では,類似内容の異なるHTMLテーブルから情報を抽出する手法を提案する。
我々は,複数のHTMLテーブルを単一のテーブルに統合し,様々なWebページに含まれる情報の検索を目指す。
HTMLデータの言語情報と構造情報の両方を抽出するために,木構造データのためのニューラルネットワークである木構造LSTMを拡張して設計する。
WWWに公開された実データを用いて,提案手法を実験により評価する。
In this paper, we propose a novel method for extracting information from HTML tables with similar contents but with a different structure. We aim to integrate multiple HTML tables into a single table for retrieval of information containing in various Web pages. The method is designed by extending tree-structured LSTM, the neural network for tree-structured data, in order to extract information that is both linguistic and structural information of HTML data. We evaluate the proposed method through experiments using real data published on the WWW. | 翻訳日:2024-11-05 23:19:24 公開日:2024-09-28 |
# 音声信号強調のための高度なクラスタリング手法:ファジィC平均、K平均、カーネルファジィC平均法のレビューとメタ分析
Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods ( http://arxiv.org/abs/2409.19448v1 ) ライセンス: Link先を確認 | Abdulhady Abas Abdullah, Aram Mahmood Ahmed, Tarik Rashid, Hadi Veisi, Yassin Hussein Rassul, Bryar Hassan, Polla Fattah, Sabat Abdulhameed Ali, Ahmed S. Shamsaldin, | (参考訳) 音声信号処理は,ノイズの多い環境下での音声データの明瞭さと理解性の向上を課題とする,現代の通信技術の基盤となっている。
この分野での大きな課題は、音声アクティベーションアシスタントから自動書き起こしサービスまで、様々な用途において重要な、背景雑音からの音声の効果的な分離と認識である。
音声認識の質は、テクノロジー駆動通信におけるユーザ体験とアクセシビリティに直接影響を及ぼす。
本稿では,これらの課題に対処するため,高度なクラスタリング手法,特にKFCM(Kernel Fuzzy C-Means)手法について検討する。
K-Means (KM) や Fuzzy C-Means (FCM) のような従来の手法と比較して, KFCM は音声信号における非線形および非定常雑音条件の処理に優れた性能を発揮することが示唆された。
このレビューの最も顕著な結果は、様々な雑音環境へのKFCMの適応性であり、音声強調のための堅牢な選択である。
さらに,音声認識品質を損なうことなく,雑音条件の変化にリアルタイムで適応できる,よりダイナミックなクラスタリングアルゴリズムの必要性など,現在の手法のギャップを明らかにする。
主なコントリビューションには、現在のクラスタリングアルゴリズムの詳細な比較分析や、音声認識精度を高めるためにKFCMとニューラルネットワークを組み合わせたハイブリッドモデルをさらに統合するための提案が含まれている。
このレビューを通じて、より洗練された適応クラスタリング技術へのシフトを提唱し、音声の強化を大幅に改善し、よりレジリエントな音声処理システムへの道を開く。
Speech signal processing is a cornerstone of modern communication technologies, tasked with improving the clarity and comprehensibility of audio data in noisy environments. The primary challenge in this field is the effective separation and recognition of speech from background noise, crucial for applications ranging from voice-activated assistants to automated transcription services. The quality of speech recognition directly impacts user experience and accessibility in technology-driven communication. This review paper explores advanced clustering techniques, particularly focusing on the Kernel Fuzzy C-Means (KFCM) method, to address these challenges. Our findings indicate that KFCM, compared to traditional methods like K-Means (KM) and Fuzzy C-Means (FCM), provides superior performance in handling non-linear and non-stationary noise conditions in speech signals. The most notable outcome of this review is the adaptability of KFCM to various noisy environments, making it a robust choice for speech enhancement applications. Additionally, the paper identifies gaps in current methodologies, such as the need for more dynamic clustering algorithms that can adapt in real time to changing noise conditions without compromising speech recognition quality. Key contributions include a detailed comparative analysis of current clustering algorithms and suggestions for further integrating hybrid models that combine KFCM with neural networks to enhance speech recognition accuracy. Through this review, we advocate for a shift towards more sophisticated, adaptive clustering techniques that can significantly improve speech enhancement and pave the way for more resilient speech processing systems. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# Jupyterのノートブックが分類を攻撃:ランサムウェア、データ流出、セキュリティのミスコンフィグレーション
Jupyter Notebook Attacks Taxonomy: Ransomware, Data Exfiltration, and Security Misconfiguration ( http://arxiv.org/abs/2409.19456v1 ) ライセンス: Link先を確認 | Phuong Cao, | (参考訳) Jupyter Notebooksを使用したオープンサイエンスコラボレーションは、高価なトレーニングされたAIモデル、高性能コンピューティングリソース、不正アクセス、偶発的削除、誤用といったセキュリティ上の脆弱性に対するデータトレーニングを公開する可能性がある。
Jupyter Notebooks(Githubの公開ノート約1100万枚)のユビキタスな展開は、再現可能な研究を可能にすることで、協調的な科学計算を変革した。
ジュピターは、国立スーパーコンピュータ応用センター(NCSA)や国立研究所、産業などの学術機関のAI研究者とスーパーコンピュータの間のHPCの科学ゲートウェイインターフェースである。
ジュピターを標的とする攻撃は科学的な任務や事業を妨害する可能性がある。
本稿では,Jupyter Notebooksのネットワークによる攻撃分類について述べる。
Jupyter(直接データアクセス、複数のプログラミング言語カーネルでの任意のコード実行)のオープンな性質と、その巨大なアタックインターフェース(端末、ファイルブラウザ、信頼できないセル)もまた、スーパーコンピュータのリソースを誤用し、最先端の研究成果物を盗もうとするアタックを惹きつけている。
Jupyterは、急速に進化するWebSocketプロトコルの暗号化データグラムを使用して、Zeekのような最先端のネットワーク可観測性ツールにも挑戦する。
私たちは、より高度なAI駆動の攻撃がJupyterをターゲットに適応し、守備隊の視界が限られていることを考えています。
さらに、ジュピターの暗号設計は、出現する量子脅威に対処するために適応すべきである。
バランスに関して、この論文はJupyter Notebooksに対する脅威モデルを体系的に記述し、Jupyterをこのような攻撃に対してより良い可視性を持つよう監査する設計を概説した最初の論文である。
Open-science collaboration using Jupyter Notebooks may expose expensively trained AI models, high-performance computing resources, and training data to security vulnerabilities, such as unauthorized access, accidental deletion, or misuse. The ubiquitous deployments of Jupyter Notebooks (~11 million public notebooks on Github have transformed collaborative scientific computing by enabling reproducible research. Jupyter is the main HPC's science gateway interface between AI researchers and supercomputers at academic institutions, such as the National Center for Supercomputing Applications (NCSA), national labs, and the industry. An impactful attack targeting Jupyter could disrupt scientific missions and business operations. This paper describes the network-based attack taxonomy of Jupyter Notebooks, such as ransomware, data exfiltration, security misconfiguration, and resource abuse for cryptocurrency mining. The open nature of Jupyter (direct data access, arbitrary code execution in multiple programming languages kernels) and its vast attack interface (terminal, file browser, untrusted cells) also attract attacks attempting to misuse supercomputing resources and steal state-of-the-art research artifacts. Jupyter uses encrypted datagrams of rapidly evolving WebSocket protocols that challenge even the most state-of-the-art network observability tools, such as Zeek. We envisage even more sophisticated AI-driven attacks can be adapted to target Jupyter, where defenders have limited visibility. In addition, Jupyter's cryptographic design should be adapted to resist emerging quantum threats. On balance, this is the first paper to systematically describe the threat model against Jupyter Notebooks and lay out the design of auditing Jupyter to have better visibility against such attacks. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# 複数データソースからのスケーラブルな微調整:一階近似手法
Scalable Fine-tuning from Multiple Data Sources:A First-Order Approximation Approach ( http://arxiv.org/abs/2409.19458v1 ) ライセンス: Link先を確認 | Dongyue Li, Ziniu Zhang, Lu Wang, Hongyang R. Zhang, | (参考訳) 目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
この問題の鍵となる課題は、全ての補助タスクが目標タスクの性能を向上させるのに役立つわけではないことである。
したがって、補助的なタスクの正しい部分集合を選択することが重要である。
前方および後方選択のような従来のサブセット選択法は、補助タスクのサブセットを繰り返し訓練する必要があるため、LM微調整には適さない。
本稿では,繰り返し学習することなくモデル微調整性能を推定するアルゴリズムを提案する。
提案アルゴリズムはまず,すべてのタスクのデータを用いてマルチタスクトレーニングを行い,メタ初期化を実現する。
次に,機能値とメタ初期化からの勾配を用いて,サブセットの微調整損失を近似する。
実験により、この勾配に基づく近似は、12個の変圧器ベースのLMに対して顕著な精度で成り立つことがわかった。
これにより、数秒以内にCPU上での微調整性能を推定できる。
我々は、我々のアプローチを検証するために広範囲な実験を行い、従来のサブセット選択よりも30\times$のスピードアップを提供し、真の微調整性能の誤差はわずか1\%である。
インストラクションチューニングとチェーン・オブ・ファインチューニングのダウンストリーム評価では、サブセット選択に勾配や表現類似性を利用する先行手法を最大3.8 %$で改善する。
We study the problem of fine-tuning a language model (LM) for a target task by optimally using the information from $n$ auxiliary tasks. This problem has broad applications in NLP, such as targeted instruction tuning and data selection in chain-of-thought fine-tuning. The key challenge of this problem is that not all auxiliary tasks are useful to improve the performance of the target task. Thus, choosing the right subset of auxiliary tasks is crucial. Conventional subset selection methods, such as forward & backward selection, are unsuitable for LM fine-tuning because they require repeated training on subsets of auxiliary tasks. This paper introduces a new algorithm to estimate model fine-tuning performances without repeated training. Our algorithm first performs multitask training using the data of all the tasks to obtain a meta initialization. Then, we approximate the model fine-tuning loss of a subset using functional values and gradients from the meta initialization. Empirically, we find that this gradient-based approximation holds with remarkable accuracy for twelve transformer-based LMs. Thus, we can now estimate fine-tuning performances on CPUs within a few seconds. We conduct extensive experiments to validate our approach, delivering a speedup of $30\times$ over conventional subset selection while incurring only $1\%$ error of the true fine-tuning performances. In downstream evaluations of instruction tuning and chain-of-thought fine-tuning, our approach improves over prior methods that utilize gradient or representation similarity for subset selection by up to $3.8\%$. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# 動的に変化する環境における移動ロボットのための言語誘導ロバストナビゲーション
Language-guided Robust Navigation for Mobile Robots in Dynamically-changing Environments ( http://arxiv.org/abs/2409.19459v1 ) ライセンス: Link先を確認 | Cody Simons, Zhichao Liu, Brandon Marcus, Amit K. Roy-Chowdhury, Konstantinos Karydis, | (参考訳) 本稿では,車輪付き移動ロボットを用いた人車内ナビゲーションのための具体的AIシステムの開発を行う。
本研究では,ロボットの意図した軌道に大きく影響する環境変化を検知し,フィードバックを求める上で,ロボットの現在の計画を直接的かつ効果的に監視する方法を提案する。
また,自然言語で表現された人間のフィードバックを局所的なナビゲーション経路ポイントに解析し,それをグローバルな計画システムに統合する手法を開発した。
本手法の有効性とロバスト性を検証するために,資源制約の車輪付きロボットを用いたシミュレーションおよび物理ハードウェア実験における広範囲な試験を行った。
この作業は、環境状態に関する情報を人間に提供する環境の持続的な監視を行う、精密農業や建設のようなアプリケーションを支援することができる。
In this paper, we develop an embodied AI system for human-in-the-loop navigation with a wheeled mobile robot. We propose a direct yet effective method of monitoring the robot's current plan to detect changes in the environment that impact the intended trajectory of the robot significantly and then query a human for feedback. We also develop a means to parse human feedback expressed in natural language into local navigation waypoints and integrate it into a global planning system, by leveraging a map of semantic features and an aligned obstacle map. Extensive testing in simulation and physical hardware experiments with a resource-constrained wheeled robot tasked to navigate in a real-world environment validate the efficacy and robustness of our method. This work can support applications like precision agriculture and construction, where persistent monitoring of the environment provides a human with information about the environment state. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# CNNにおけるニューラルエンコーディングの普遍性について
On the universality of neural encodings in CNNs ( http://arxiv.org/abs/2409.19460v1 ) ライセンス: Link先を確認 | Florentin Guth, Brice Ménard, | (参考訳) 画像分類タスクを訓練した畳み込みニューラルネットワークにおけるニューラルエンコーディングの普遍性について検討する。
そこで我々は,学習したウェイトを直接比較する手法を開発した。
これは空間次元とチャネル次元の分解に基づいており、整列した重みの共分散の類似度を測定する。
学習された固有ベクトルは、VGG型ネットワークの様々な層に対して、異なる自然画像データセットにまたがって普遍的であることを示す。
この結果から,自然画像に対する普遍的ニューラルエンコーディングの存在が示唆された。
彼らは、より基本的なレベルで、トランスファーラーニングの成功を説明する。
我々の研究は、ニューラルネットワークの性能を最大化する代わりに、学習された符号化の普遍性を最大化して、原理化された基礎モデルを構築することができることを示している。
We explore the universality of neural encodings in convolutional neural networks trained on image classification tasks. We develop a procedure to directly compare the learned weights rather than their representations. It is based on a factorization of spatial and channel dimensions and measures the similarity of aligned weight covariances. We show that, for a range of layers of VGG-type networks, the learned eigenvectors appear to be universal across different natural image datasets. Our results suggest the existence of a universal neural encoding for natural images. They explain, at a more fundamental level, the success of transfer learning. Our work shows that, instead of aiming at maximizing the performance of neural networks, one can alternatively attempt to maximize the universality of the learned encoding, in order to build a principled foundation model. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# 高速なマルウェア分類:ビジョントランスフォーマーソリューション
Accelerating Malware Classification: A Vision Transformer Solution ( http://arxiv.org/abs/2409.19461v1 ) ライセンス: Link先を確認 | Shrey Bavishi, Shrey Modi, | (参考訳) 最近のマルウェア攻撃の頻度と規模は、進化を続けるサイバーセキュリティの状況において、急激で正確なマルウェア分類の必要性を浮き彫りにしている。
主な課題は、密接に関連するマルウェアファミリーを正確に分類することである。
この進化する脅威に対処するために,マルウェアの検出と分類に最先端の成果をもたらす新しいアーキテクチャLeViT-MCを提案する。
LeViT-MCは、ビジョントランスフォーマーベースのアーキテクチャ、イメージベースの可視化アプローチ、高度なトランスファー学習技術を活用している。
MaleVisデータセットを用いたマルチクラスマルウェア分類の実験結果は、既存のモデルに対するLeViT-MCの顕著な優位性を示している。
本研究は、進化するサイバー脅威との戦いの最前線で、画像ベースと移動学習技術を組み合わせることの重要性を強調した。
本稿では,画像分類の最先端化だけでなく,時間効率も向上した新しいアーキテクチャLeViT-MCを提案する。
The escalating frequency and scale of recent malware attacks underscore the urgent need for swift and precise malware classification in the ever-evolving cybersecurity landscape. Key challenges include accurately categorizing closely related malware families. To tackle this evolving threat landscape, this paper proposes a novel architecture LeViT-MC which produces state-of-the-art results in malware detection and classification. LeViT-MC leverages a vision transformer-based architecture, an image-based visualization approach, and advanced transfer learning techniques. Experimental results on multi-class malware classification using the MaleVis dataset indicate LeViT-MC's significant advantage over existing models. This study underscores the critical importance of combining image-based and transfer learning techniques, with vision transformers at the forefront of the ongoing battle against evolving cyber threats. We propose a novel architecture LeViT-MC which not only achieves state of the art results on image classification but is also more time efficient. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# InSIGHTBUDDY-AI:大規模言語モデルとアンサンブル学習を用いたメディケイト抽出とエンティティリンク
INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning ( http://arxiv.org/abs/2409.19467v1 ) ライセンス: Link先を確認 | Pablo Romero, Lifeng Han, Goran Nenadic, | (参考訳) 医学的NLP研究において, 標準臨床知識ベース(SNOMED-CT, BNFなど)へのマッピングなど, 病院環境における実践的応用により, 医療的NLP研究において重要な役割を担っている。
本研究では,薬品のテキストマイニング作業における現状のLCMとその関連属性,例えば投与量,経路,強度,副作用について検討する。
さらに,異なるアンサンブル学習手法(\textsc{Stack-Ensemble} と \textsc{Voting-Ensemble} )を探索し,個々の LLM からモデル性能を増強する。
アンサンブル学習の結果,個々の微調整ベースモデル BERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, PubMedBERT よりも優れた性能を示した。
最後に、抽出した医療用語をSNOMED-CTコードとBNFコードにマッピングするエンティティリンク機能を構築し、さらに医学・デバイス辞典(dm+d)やICDにマッピングする。
私たちのモデルのツールキットとデスクトップアプリケーションは、 \url{https://github.com/HECTA-UoM/ensemble-NER}で公開されています。
Medication Extraction and Mining play an important role in healthcare NLP research due to its practical applications in hospital settings, such as their mapping into standard clinical knowledge bases (SNOMED-CT, BNF, etc.). In this work, we investigate state-of-the-art LLMs in text mining tasks on medications and their related attributes such as dosage, route, strength, and adverse effects. In addition, we explore different ensemble learning methods (\textsc{Stack-Ensemble} and \textsc{Voting-Ensemble}) to augment the model performances from individual LLMs. Our ensemble learning result demonstrated better performances than individually fine-tuned base models BERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, and PubMedBERT across general and specific domains. Finally, we build up an entity linking function to map extracted medical terminologies into the SNOMED-CT codes and the British National Formulary (BNF) codes, which are further mapped to the Dictionary of Medicines and Devices (dm+d), and ICD. Our model's toolkit and desktop applications are publicly available at \url{https://github.com/HECTA-UoM/ensemble-NER}. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# SELP:大規模言語モデルを用いたロボットエージェントの安全かつ効率的なタスクプラン生成
SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models ( http://arxiv.org/abs/2409.19471v1 ) ライセンス: Link先を確認 | Yi Wu, Zikang Xiong, Yiran Hu, Shreyash S. Iyengar, Nan Jiang, Aniket Bera, Lin Tan, Suresh Jagannathan, | (参考訳) ロボットエージェントによる自然言語(NL)コマンドの理解と実行を促進する大規模言語モデル(LLM)の大幅な進歩にもかかわらず、エージェントがユーザ指定の制約に準拠することを保証することは、特に複雑なコマンドやロングホライゾンタスクにおいて困難である。
この課題に対処するために,同値投票,制約付き復号化,ドメイン固有の微調整という3つの重要な知見を提示する。
等価投票は、NLコマンドから複数の線形時間論理(LTL)式を生成・サンプリングし、等価LTL式をグループ化し、最終LTL式として多数群を選択することで一貫性を保証する。
制約付き復号法は生成したLTL公式を用いて計画の自動回帰推論を強制し、生成した計画がLTLに準拠していることを保証する。
ドメイン固有の微調整は、特定のタスクドメイン内で安全で効率的なプランを生成するために、LSMをカスタマイズする。
我々のアプローチである Safe Efficient LLM Planner (SELP) はこれらの知見を組み合わせることで,ユーザコマンドに忠実なプランを高い信頼性で生成する LLM Planner を作成する。
ドローンナビゲーションやロボット操作など,さまざまなロボットエージェントやタスクに対してSELPの有効性と汎用性を示す。
ドローンナビゲーションタスクでは、SELPは最先端のプランナーを10.8%、安全率(NLコマンドに準拠したタスクの終了)を19.8%上回る。
ロボット操作タスクでは、SELPは安全率を20.4%向上させる。
NL-to-LTLとロボットタスク計画のためのデータセットをgithub.com/lt-asset/selpでリリースする。
Despite significant advancements in large language models (LLMs) that enhance robot agents' understanding and execution of natural language (NL) commands, ensuring the agents adhere to user-specified constraints remains challenging, particularly for complex commands and long-horizon tasks. To address this challenge, we present three key insights, equivalence voting, constrained decoding, and domain-specific fine-tuning, which significantly enhance LLM planners' capability in handling complex tasks. Equivalence voting ensures consistency by generating and sampling multiple Linear Temporal Logic (LTL) formulas from NL commands, grouping equivalent LTL formulas, and selecting the majority group of formulas as the final LTL formula. Constrained decoding then uses the generated LTL formula to enforce the autoregressive inference of plans, ensuring the generated plans conform to the LTL. Domain-specific fine-tuning customizes LLMs to produce safe and efficient plans within specific task domains. Our approach, Safe Efficient LLM Planner (SELP), combines these insights to create LLM planners to generate plans adhering to user commands with high confidence. We demonstrate the effectiveness and generalizability of SELP across different robot agents and tasks, including drone navigation and robot manipulation. For drone navigation tasks, SELP outperforms state-of-the-art planners by 10.8% in safety rate (i.e., finishing tasks conforming to NL commands) and by 19.8% in plan efficiency. For robot manipulation tasks, SELP achieves 20.4% improvement in safety rate. Our datasets for evaluating NL-to-LTL and robot task planning will be released in github.com/lt-asset/selp. | 翻訳日:2024-11-05 23:07:28 公開日:2024-09-28 |
# オープンソースモデルにおける過渡的安全保護
Overriding Safety protections of Open-source Models ( http://arxiv.org/abs/2409.19476v1 ) ライセンス: Link先を確認 | Sachin Kumar, | (参考訳) LLM(Large Language Models)は、近年、様々なドメイン/タスクにまたがる問題を解決するツールとして広く採用されている。
これらのモデルは、有害または有害な結果、推測時敵攻撃を生じさせる可能性があるため、安全アライメントトレーニングおよび安全ガードレールを装着するためのレッドチームを行う。
これらのモデルを使用する場合、通常、細調整は、モデルがより整合性を高めつつ、有害なデータで微調整された場合、安全でない応答を生じやすくするモデルアライメントのために行われる。
逆に、モデルが安全データに基づいて微調整されている場合、モデルがより安全な応答を生成できるようにすることも検討された。
さらに、有害なデータに対するモデル調整が、モデルの不確実性の増加による知識の漂流につながるため、役に立たないか、信頼できないかを調査する。
ASRが観測した有害データをベースモデルのASRと比較して35%の精度で微調整した場合に,オープンソースにおける安全保護を過度に防ぐことができることを示した。
また, 有害なデータを用いた微調整モデルにより, 有害な微調整モデルは非常に不確実であり, 膨大な知識の漂流と応答の真偽が減少した。
さらに, 安全な微調整モデルでは, ベースモデルと比較してASRは51.68%減少し, セーフモデルもベースモデルに比べて不確実性や真偽の軽微な低下を示した。
この論文のコードは、https://github.com/techsachinkr/Overriding_Model_Safety_Protectionsで公開されている。
LLMs(Large Language Models) nowadays have widespread adoption as a tool for solving issues across various domain/tasks. These models since are susceptible to produce harmful or toxic results, inference-time adversarial attacks, therefore they do undergo safety alignment training and Red teaming for putting in safety guardrails. For using these models, usually fine-tuning is done for model alignment on the desired tasks, which can make model more aligned but also make it more susceptible to produce unsafe responses, if fine-tuned with harmful data.In this paper, we study how much of impact introduction of harmful data in fine-tuning can make, and if it can override the safety protection of those models. Conversely,it was also explored that if model is fine-tuned on safety data can make the model produce more safer responses. Further we explore if fine-tuning the model on harmful data makes it less helpful or less trustworthy because of increase in model uncertainty leading to knowledge drift. Our extensive experimental results shown that Safety protection in an open-source can be overridden, when fine-tuned with harmful data as observed by ASR increasing by 35% when compared to basemodel's ASR. Also, as observed, fine-tuning a model with harmful data made the harmful fine-tuned model highly uncertain with huge knowledge drift and less truthfulness in its responses. Furthermore, for the safe fine-tuned model, ASR decreases by 51.68% as compared to the basemodel, and Safe model also shown in minor drop in uncertainty and truthfulness as compared to basemodel. This paper's code is available at: https://github.com/techsachinkr/Overriding_Model_Safety_Protections | 翻訳日:2024-11-05 22:57:44 公開日:2024-09-28 |
# RTL2M$μ$PATH:マルチ$μ$PATH合成とハードウェアセキュリティ検証への応用
RTL2M$μ$PATH: Multi-$μ$PATH Synthesis with Applications to Hardware Security Verification ( http://arxiv.org/abs/2409.19478v1 ) ライセンス: Link先を確認 | Yao Hsiao, Nikos Nikoleris, Artem Khyzha, Dominic P. Mulligan, Gustavo Petri, Christopher W. Fletcher, Caroline Trippel, | (参考訳) Checkツールは、$\mu$SPECモデルと呼ばれるマイクロアーキテクチャの抽象モデルを分析することで、プロセッサの正式なメモリ一貫性モデルとセキュリティ検証を自動化する。
このアプローチの有効性にもかかわらず、手書きで書かなければならない$\mu$SPECモデルの検証ギャップがあり、RTLはCheckツールの広範な採用を制限する。
我々の以前の作業は RTL2$\mu$SPEC と呼ばれ、単純なプロセッサのSystemVerilog 実装から形式的に検証された$\mu$SPEC モデルを自動的に合成することで、このギャップを狭める。
しかし、RTL2$\mu$SPECは、命令(例えば、負荷)が1つ以上のマイクロアーキテクチャ実行パス(\mu$PATH、eg、キャッシュヒットまたはミスパス)を示すことができない入力設計を仮定する。
本稿では、まず、RTL2M$\mu$PATHと呼ばれる自動的なアプローチとツールを提案し、RTL2$\mu$SPECの単一実行パス仮定を解決する。
SystemVerilogプロセッサの設計、命令エンコーディング、そして控えめな設計メタデータが与えられた後、RTL2M$\mu$PATHは各命令に対して正式に認証された$\mu$PATHの完全なセットを見つける。
次に, 入力設計におけるマイクロアーキテクチャ側チャネルの存在を強く示し, 1ドル以上を提示できる命令について述べる。
そこで本研究では,RTL2M$\mu$PATHをシンボル情報フロー解析により拡張し,SystemVerilogプロセッサ設計から公式に検証された各種リーク契約の合成を支援する,SynthLCという自動手法とツールを提案する。
漏洩契約は、ハードウェアサイドチャネル攻撃に対する最先端の防御に基礎を置いている。
SynthLCは、ハードウェアの付着を正式に検証する最初の自動化手法である。
The Check tools automate formal memory consistency model and security verification of processors by analyzing abstract models of microarchitectures, called $\mu$SPEC models. Despite the efficacy of this approach, a verification gap between $\mu$SPEC models, which must be manually written, and RTL limits the Check tools' broad adoption. Our prior work, called RTL2$\mu$SPEC, narrows this gap by automatically synthesizing formally verified $\mu$SPEC models from SystemVerilog implementations of simple processors. But, RTL2$\mu$SPEC assumes input designs where an instruction (e.g., a load) cannot exhibit more than one microarchitectural execution path ($\mu$PATH, e.g., a cache hit or miss path) -- its single-execution-path assumption. In this paper, we first propose an automated approach and tool, called RTL2M$\mu$PATH, that resolves RTL2$\mu$SPEC's single-execution-path assumption. Given a SystemVerilog processor design, instruction encodings, and modest design metadata, RTL2M$\mu$PATH finds a complete set of formally verified $\mu$PATHs for each instruction. Next, we make an important observation: an instruction that can exhibit more than one $\mu$PATH strongly indicates the presence of a microarchitectural side channel in the input design. Based on this observation, we then propose an automated approach and tool, called SynthLC, that extends RTL2M$\mu$PATH with a symbolic information flow analysis to support synthesizing a variety of formally verified leakage contracts from SystemVerilog processor designs. Leakage contracts are foundational to state-of-the-art defenses against hardware side-channel attacks. SynthLC is the first automated methodology for formally verifying hardware adherence to them. | 翻訳日:2024-11-05 22:57:44 公開日:2024-09-28 |
# 深部吸収剤の空間推論と計画
Spatial Reasoning and Planning for Deep Embodied Agents ( http://arxiv.org/abs/2409.19479v1 ) ライセンス: Link先を確認 | Shu Ishida, | (参考訳) 人間は、計画、推論、行動の結果の予測によって、長期的な目的で複雑なタスクを実行することができる。
実施エージェントが同様の能力を達成するためには、追加の試行錯誤の予算が限られている新しいシナリオに転送可能な環境に関する知識を得る必要がある。
深層RLのような学習ベースのアプローチは、データから固有の規則性やアプリケーションドメインの特徴を発見し、活用することができる。
この論文は、空間的推論と計画タスクのためのデータ駆動技術の開発を探求し、学習効率の向上、解釈可能性、新しいシナリオ間の伝達可能性に焦点を当てている。
主な貢献は4つある。
1)CALVINは、長期計画のために世界の解釈可能なモデルを学ぶ微分プランナーである。
熟練したデモンストレーションから報酬と状態遷移を学ぶことで、迷路や室内の部屋のような部分的に観察可能な3D環境をうまくナビゲートした。
2) SOAPは、長期的タスクに対して教師なしのオプションを発見するRLアルゴリズムである。
オプションはタスクをサブタスクに分割し、サブタスクの一貫性のある実行を可能にする。
SOAPは履歴条件付き回廊タスクとAtariのような古典的なベンチマークで堅牢なパフォーマンスを示した。
3)LangPropは、LLMを使ったコード最適化フレームワークで、学習可能なポリシーとしてコードを扱い、推論を必要とするエンボディエージェントの問題を解決する。
このフレームワークは、CARLA自動運転ベンチマークで人書きの専門家に匹敵する、あるいは優れたパフォーマンスで解釈可能なコードを生成することに成功した。
4) Voggiteは、Minecraftの複雑なタスクを解決するビジョン・ツー・アクション・トランスフォーマーバックエンドを備えたエンボディエージェントである。
これは、タスクを複数のステージに分割するアクショントリガーを特定することで、MineRL BASALTコンペティションで3位を獲得した。
Humans can perform complex tasks with long-term objectives by planning, reasoning, and forecasting outcomes of actions. For embodied agents to achieve similar capabilities, they must gain knowledge of the environment transferable to novel scenarios with a limited budget of additional trial and error. Learning-based approaches, such as deep RL, can discover and take advantage of inherent regularities and characteristics of the application domain from data, and continuously improve their performances, however at a cost of large amounts of training data. This thesis explores the development of data-driven techniques for spatial reasoning and planning tasks, focusing on enhancing learning efficiency, interpretability, and transferability across novel scenarios. Four key contributions are made. 1) CALVIN, a differential planner that learns interpretable models of the world for long-term planning. It successfully navigated partially observable 3D environments, such as mazes and indoor rooms, by learning the rewards and state transitions from expert demonstrations. 2) SOAP, an RL algorithm that discovers options unsupervised for long-horizon tasks. Options segment a task into subtasks and enable consistent execution of the subtask. SOAP showed robust performances on history-conditional corridor tasks as well as classical benchmarks such as Atari. 3) LangProp, a code optimisation framework using LLMs to solve embodied agent problems that require reasoning by treating code as learnable policies. The framework successfully generated interpretable code with comparable or superior performance to human-written experts in the CARLA autonomous driving benchmark. 4) Voggite, an embodied agent with a vision-to-action transformer backend that solves complex tasks in Minecraft. It achieved third place in the MineRL BASALT Competition by identifying action triggers to segment tasks into multiple stages. | 翻訳日:2024-11-05 22:57:44 公開日:2024-09-28 |
# 持続病原性グラフを用いた疫学対応ニューラル・オード
Epidemiology-Aware Neural ODE with Continuous Disease Transmission Graph ( http://arxiv.org/abs/2410.00049v1 ) ライセンス: Link先を確認 | Guancheng Wan, Zewen Liu, Max S. Y. Lau, B. Aditya Prakash, Wei Jin, | (参考訳) 効果的な流行予測は、公衆衛生戦略や医療資源の効率的な配分、特に急激な伝染病に直面している場合に重要である。
しかし、既存のディープラーニング手法は、しばしば伝染病のダイナミックな性質を見落とし、病気の伝達の特定のメカニズムを説明できない。
これらの課題に対応するために,本論文では,持続疾患伝達グラフ(EARTH)を用いたエピデミロジー・アウェア・ニューラル・オードという,革新的なエンドツーエンドのフレームワークを紹介した。
持続的および局所的な疾患伝達パターンを学習するために,我々はまず,伝染病発生過程における複雑な空間拡散過程を考慮して,ニューラルODEアプローチと流行メカニズムをシームレスに統合するEANOを提案する。
さらに,グローバルな感染動向をモデル化するためにGLTGを導入し,これらの信号を利用して局所的な感染を動的に誘導する。
流行傾向のグローバルコヒーレンスと流行伝達パターンの局所的ニュアンスの両方に対応するため,我々は,予測に最も有意義な情報を融合するための横断的アプローチを構築した。
EARTHは両コンポーネントのスムーズな相乗効果を通じて、感染症の拡散を理解し予測するためのより堅牢で柔軟なアプローチを提供する。
大規模な実験により、EARTHは最先端の方法と比較して現実世界の流行を予測するのに優れた性能を示した。
コードはhttps://github.com/Emory-Melody/EpiLearn.comから入手できる。
Effective epidemic forecasting is critical for public health strategies and efficient medical resource allocation, especially in the face of rapidly spreading infectious diseases. However, existing deep-learning methods often overlook the dynamic nature of epidemics and fail to account for the specific mechanisms of disease transmission. In response to these challenges, we introduce an innovative end-to-end framework called Epidemiology-Aware Neural ODE with Continuous Disease Transmission Graph (EARTH) in this paper. To learn continuous and regional disease transmission patterns, we first propose EANO, which seamlessly integrates the neural ODE approach with the epidemic mechanism, considering the complex spatial spread process during epidemic evolution. Additionally, we introduce GLTG to model global infection trends and leverage these signals to guide local transmission dynamically. To accommodate both the global coherence of epidemic trends and the local nuances of epidemic transmission patterns, we build a cross-attention approach to fuse the most meaningful information for forecasting. Through the smooth synergy of both components, EARTH offers a more robust and flexible approach to understanding and predicting the spread of infectious diseases. Extensive experiments show EARTH superior performance in forecasting real-world epidemics compared to state-of-the-art methods. The code will be available at https://github.com/Emory-Melody/EpiLearn. | 翻訳日:2024-11-05 15:19:28 公開日:2024-09-28 |
# CycleBNN: バイナリニューラルネットワークにおけるサイクル精度トレーニング
CycleBNN: Cyclic Precision Training in Binary Neural Networks ( http://arxiv.org/abs/2410.00050v1 ) ライセンス: Link先を確認 | Federico Fontana, Romeo Lanzino, Anxhelo Diko, Gian Luca Foresti, Luigi Cinque, | (参考訳) 本稿では、効率的なディープラーニングのための有望な道であるバイナリニューラルネットワーク(BNN)について研究し、計算オーバーヘッドとメモリフットプリントを大幅に削減し、完全精度のネットワークを実現する。
しかし、エネルギー集約的なトレーニングの課題とパフォーマンスの低下は、永続的な問題である。
課題に対処するため、事前の作業は主にタスク関連の推論最適化に重点を置いている。
従来の研究とは異なり、この研究はサイクロンBNNを導入し、BNNとサイクル精度トレーニングを統合する革新的な方法論を提供する。
このアプローチは、パフォーマンスの損失を最小限に抑えながら、トレーニング効率を向上させるように設計されている。
サイクルの精度を動的に調整することにより、トレーニング効率とモデル性能のトレードオフを便利に実現できる。
これは、データをオンボードで収集し、持続的で効率的なディープラーニングアーキテクチャを実現する、エネルギー制約のあるトレーニングシナリオにおける我々の方法の可能性を強調します。
CIFAR-10 と PASCAL-VOC では、ImageNet でのトレーニング中に 96.09 %、CIFAR-10 で 88.88 %、PASCAL-VOC で 96.09 % の演算をしながら、競争性能を得る。
最後に、CycleBNNは、より速く、よりアクセスしやすいネットワークのトレーニングへの道を提供し、実用的なアプリケーションの開発を加速する。
PyTorchのコードは \url{https://github.com/fedeloper/CycleBNN/} で公開されている。
This paper works on Binary Neural Networks (BNNs), a promising avenue for efficient deep learning, offering significant reductions in computational overhead and memory footprint to full precision networks. However, the challenge of energy-intensive training and the drop in performance have been persistent issues. Tackling the challenge, prior works focus primarily on task-related inference optimization. Unlike prior works, this study offers an innovative methodology integrating BNNs with cyclic precision training, introducing the CycleBNN. This approach is designed to enhance training efficiency while minimizing the loss in performance. By dynamically adjusting precision in cycles, we achieve a convenient trade-off between training efficiency and model performance. This emphasizes the potential of our method in energy-constrained training scenarios, where data is collected onboard and paves the way for sustainable and efficient deep learning architectures. To gather insights on CycleBNN's efficiency, we conduct experiments on ImageNet, CIFAR-10, and PASCAL-VOC, obtaining competitive performances while using 96.09\% less operations during training on ImageNet, 88.88\% on CIFAR-10 and 96.09\% on PASCAL-VOC. Finally, CycleBNN offers a path towards faster, more accessible training of efficient networks, accelerating the development of practical applications. The PyTorch code is available at \url{https://github.com/fedeloper/CycleBNN/} | 翻訳日:2024-11-05 15:19:28 公開日:2024-09-28 |
# 遅延PTC-LLM:大規模言語モデルを用いた列車遅延時の地下鉄乗客選択予測
DelayPTC-LLM: Metro Passenger Travel Choice Prediction under Train Delays with Large Language Models ( http://arxiv.org/abs/2410.00052v1 ) ライセンス: Link先を確認 | Chen Chen, Yuxin He, Hao Wang, Jingjing Chen, Qin Luo, | (参考訳) 列車の遅延は、ネットワーク化された運転条件下でのアーバンレールトランジット(URT)ネットワークを通して急速に伝播し、運用部門にとって大きな課題となる。
列車遅延下での乗客の移動選択の正確な予測は、乗客の流れの再分配に関する解釈可能な洞察を与え、緊急対応とサービス回復の重要な決定支援を提供する。
しかし、乗客の不均一性による旅行選択の多様性と遅延イベントの分散は、メトロ遅延下の旅行選択データセットにおけるデータ分散とサンプル不均衡の問題を引き起こす。
通常、大きなバランスの取れたデータセットに依存する従来の機械学習アプローチを使用して、この問題をモデル化することは困難である。
本稿では,大規模言語モデル(DelayPTC-LLM)を用いて,大規模言語モデル(LLM)の強みを考察し,大規模言語モデル(DelayPTC-LLM)を用いた旅行選択予測手法を提案する。
適切に設計されたプロンプトエンジニアリングは、乗客の不均一性と遅延イベントの特徴を考慮した旅行選択に関する予測の作成と合理化において、LSMを導くために開発された。
AFC(Automated Fare Collection)データと詳細な遅延ログを含む深センメトロの現実世界のデータを利用することで、従来の予測モデルとDelayPTC-LLMの比較分析により、交通システムの破壊によって一般的に発生する複雑なスパースデータセットを扱う上で、LLMの優れた能力を示す。
その結果,DelayPTC-LLMの利点を,予測精度と大規模トラフィックデータに対する実用的な洞察を提供する可能性の観点から検証した。
Train delays can propagate rapidly throughout the Urban Rail Transit (URT) network under networked operation conditions, posing significant challenges to operational departments. Accurately predicting passenger travel choices under train delays can provide interpretable insights into the redistribution of passenger flow, offering crucial decision support for emergency response and service recovery. However, the diversity of travel choices due to passenger heterogeneity and the sparsity of delay events leads to issues of data sparsity and sample imbalance in the travel choices dataset under metro delays. It is challenging to model this problem using traditional machine learning approaches, which typically rely on large, balanced datasets. Given the strengths of large language models (LLMs) in text processing, understanding, and their capabilities in small-sample and even zero-shot learning, this paper proposes a novel Passenger Travel Choice prediction framework under metro delays with the Large Language Model (DelayPTC-LLM). The well-designed prompting engineering is developed to guide the LLM in making and rationalizing predictions about travel choices, taking into account passenger heterogeneity and features of the delay events. Utilizing real-world data from Shenzhen Metro, including Automated Fare Collection (AFC) data and detailed delay logs, a comparative analysis of DelayPTC-LLM with traditional prediction models demonstrates the superior capability of LLMs in handling complex, sparse datasets commonly encountered under disruption of transportation systems. The results validate the advantages of DelayPTC-LLM in terms of predictive accuracy and its potential to provide actionable insights for big traffic data. | 翻訳日:2024-11-05 15:19:28 公開日:2024-09-28 |
# 周波数適応型マルチスケールディープニューラルネットワーク
Frequency-adaptive Multi-scale Deep Neural Networks ( http://arxiv.org/abs/2410.00053v1 ) ライセンス: Link先を確認 | Jizu Huang, Rukang You, Tao Zhou, | (参考訳) ダウンスケールマッピングを備えたマルチスケールディープニューラルネットワーク(MscaleDNN)は、高周波特性を特徴とする近似対象関数において、従来のDNNよりも優れていることを示す。
しかし、MscaleDNNの性能はダウンスケールマッピングのパラメータに大きく依存する。
本研究では、MscaleDNNが高周波関数の近似に有利である理由を説明するための適合誤差を確立する。
この知見に基づいて,ダウンスケールマッピングの精度と堅牢性を高めるために,ハイブリッド機能埋め込みを構築した。
ダウンスケールマッピングにおけるパラメータに対するMscaleDNNsの依存性を低減するため,周波数適応型MscaleDNNsを提案する。
半古典的極限付近の滑らかなポテンシャルを持つschr$\ddot{\text{o}}$dinger方程式の波動伝播と局所解の伝播を含む数値的な例を示す。
これらの例は、周波数適応型MscaleDNNが標準MscaleDNNに比べて2~3桁の精度を向上していることを示している。
Multi-scale deep neural networks (MscaleDNNs) with downing-scaling mapping have demonstrated superiority over traditional DNNs in approximating target functions characterized by high frequency features. However, the performance of MscaleDNNs heavily depends on the parameters in the downing-scaling mapping, which limits their broader application. In this work, we establish a fitting error bound to explain why MscaleDNNs are advantageous for approximating high frequency functions. Building on this insight, we construct a hybrid feature embedding to enhance the accuracy and robustness of the downing-scaling mapping. To reduce the dependency of MscaleDNNs on parameters in the downing-scaling mapping, we propose frequency-adaptive MscaleDNNs, which adaptively adjust these parameters based on a posterior error estimate that captures the frequency information of the fitted functions. Numerical examples, including wave propagation and the propagation of a localized solution of the schr$\ddot{\text{o}}$dinger equation with a smooth potential near the semi-classical limit, are presented. These examples demonstrate that the frequency-adaptive MscaleDNNs improve accuracy by two to three orders of magnitude compared to standard MscaleDNNs. | 翻訳日:2024-11-05 15:19:28 公開日:2024-09-28 |
# 科学やボットに対する大衆の関心 : Twitter上の科学的記事の選択的増幅
Public interest in science or bots? Selective amplification of scientific articles on Twitter ( http://arxiv.org/abs/2410.01842v1 ) ライセンス: Link先を確認 | Ashiqur Rahman, Ehsan Mohammadi, Hamed Alhoori, | (参考訳) ソーシャルメディアは、すぐに一般大衆にリーチできる驚くべき能力によって、学術的な記事を共有して公衆の反応を測定するのに欠かせないものになっている。
ソーシャルメディア上のボットによるスパムは、会話をコントロールし、現実世界の人々の生活に影響を及ぼす政策に影響を及ぼす、与えられた研究に対する偽の公的な関心を示す可能性があるため、この話題は批判的な研究と注意を保証している。
Twitter Application Programming Interface(API)とBotometer APIを通じて収集されたデータと組み合わせて、Altmetricデータセットを使用しました。
それらのデータを、学術論文、記事のいくつかの特徴、そしてTwitter上で過度なボット活動があったかどうかを示すラベルと組み合わせた。
論文の異なる特徴に基づいて,ボット活動の可能性について分析した。
また、このデータセットを使用して機械学習モデルをトレーニングして、任意の記事において可能なボットアクティビティを特定しました。
私たちの機械学習モデルは、0.70の精度で、あらゆる学術論文で可能なボットアクティビティを識別できる。
また,「健康と人間科学」に関する記事は,他の研究分野と比較してボット活動の傾向が強いことも見出した。
本研究は,ボット活動の悪意を論じることなく,学術論文の普及におけるボット活動の存在を識別し,今後の研究のベースラインを作成するためのツールを提供する。
With the remarkable capability to reach the public instantly, social media has become integral in sharing scholarly articles to measure public response. Since spamming by bots on social media can steer the conversation and present a false public interest in given research, affecting policies impacting the public's lives in the real world, this topic warrants critical study and attention. We used the Altmetric dataset in combination with data collected through the Twitter Application Programming Interface (API) and the Botometer API. We combined the data into an extensive dataset with academic articles, several features from the article and a label indicating whether the article had excessive bot activity on Twitter or not. We analyzed the data to see the possibility of bot activity based on different characteristics of the article. We also trained machine-learning models using this dataset to identify possible bot activity in any given article. Our machine-learning models were capable of identifying possible bot activity in any academic article with an accuracy of 0.70. We also found that articles related to "Health and Human Science" are more prone to bot activity compared to other research areas. Without arguing the maliciousness of the bot activity, our work presents a tool to identify the presence of bot activity in the dissemination of an academic article and creates a baseline for future research in this direction. | 翻訳日:2024-11-04 14:34:44 公開日:2024-09-28 |
# アサメ語用大規模言語モデルにおけるトケナイザの性能評価
Performance Evaluation of Tokenizers in Large Language Models for the Assamese Language ( http://arxiv.org/abs/2410.03718v1 ) ライセンス: Link先を確認 | Sagar Tamang, Dibya Jyoti Bora, | (参考訳) トークンゲータのトレーニングは、ディープラーニングモデルのパフォーマンスにおいて重要な役割を果たす。
本研究の目的は,インド・アサメ語における5つの言語モデル (LLM) におけるトークン化器の性能を理解することである。
この研究は、Assameseのような低リソース言語に対する多言語サポートを理解することが重要である。
2つのAIのSUTRAのトークン化は平均正規化シーケンス長(NSL)が0.45、続いてOpen AIのGPT-4oが平均NSLが0.54、Gemma 2、Meta Llama 3.1、Mistral Large Instruct 2407が平均NSLが0.82、1.4、および1.48である。
Training of a tokenizer plays an important role in the performance of deep learning models. This research aims to understand the performance of tokenizers in five state-of-the-art (SOTA) large language models (LLMs) in the Assamese language of India. The research is important to understand the multi-lingual support for a low-resourced language such as Assamese. Our research reveals that the tokenizer of SUTRA from Two AI performs the best with an average Normalized Sequence Length (NSL) value of 0.45, closely followed by the tokenizer of GPT-4o from Open AI with an average NSL value of 0.54, followed by Gemma 2, Meta Llama 3.1, and Mistral Large Instruct 2407 with an average NSL value of 0.82, 1.4, and 1.48 respectively. | 翻訳日:2024-11-02 20:28:28 公開日:2024-09-28 |
# FluentEditor+:局所的階層的音響平滑性とグローバル韻律一貫性をモデル化したテキストベースの音声編集
FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency ( http://arxiv.org/abs/2410.03719v1 ) ライセンス: Link先を確認 | Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li, | (参考訳) テキストベースの音声編集(TSE)により、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を行い、元の録音を直接変更することなく、更新された音声を生成することができる。
テキストベースの音声編集(TSE)により、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を行い、元の録音を直接変更することなく、更新された音声を生成することができる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照対象との差異を最小限に抑えることに重点を置いているが、元の言説の文脈において、局所的・グローバル的流布を維持することの重要性を無視することが多い。
さらに、音声の未修正部分とのシームレスな統合も困難であり、通常、TTS(text-to-speech)システムのサポートが必要である。
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$\tiny +$を紹介する。
FluentEditor$\tiny +$は、高度な特徴抽出技術を使用して、音響特性と韻律特性の両方をキャプチャし、編集された領域と未編集領域の間の流動的な遷移を保証する。
このモデルにより、セグメント音響の滑らかさと大域的韻律整合性が保証され、出力のコヒーレンスと自然性を保ちながら、音声のシームレスなスプライシングが可能となる。
VCTKとLibriTTSデータセットの大規模な実験によると、FluentEditor$\tiny +$は、Editspeech、Campnet、$A^3T$ FluentSpeech、Fluenteditorといった既存のTSベースのメソッドを、流布と韻律の両方で上回っている。
アブレーション研究は、システム全体の有効性に対する各モジュールの貢献をさらに強調する。
Text-based speech editing (TSE) allows users to modify speech by editing the corresponding text and performing operations such as cutting, copying, and pasting to generate updated audio without altering the original recording directly. Text-based speech editing (TSE) allows users to modify speech by editing the corresponding text and performing operations such as cutting, copying, and pasting to generate updated audio without altering the original recording directly. While current TSE techniques focus on minimizing discrepancies between generated speech and reference targets within edited segments, they often neglect the importance of maintaining both local and global fluency in the context of the original discourse. Additionally, seamlessly integrating edited segments with unaltered portions of the audio remains challenging, typically requiring support from text-to-speech (TTS) systems. This paper introduces a novel approach, FluentEditor$\tiny +$, designed to overcome these limitations. FluentEditor$\tiny +$ employs advanced feature extraction techniques to capture both acoustic and prosodic characteristics, ensuring fluent transitions between edited and unedited regions. The model ensures segmental acoustic smoothness and global prosody consistency, allowing seamless splicing of speech while preserving the coherence and naturalness of the output. Extensive experiments on the VCTK and LibriTTS datasets show that FluentEditor$\tiny +$ surpasses existing TTS-based methods, including Editspeech, Campnet, $A^3T$ FluentSpeech, and Fluenteditor, in both fluency and prosody. Ablation studies further highlight the contributions of each module to the overall effectiveness of the system. | 翻訳日:2024-11-02 20:28:28 公開日:2024-09-28 |
# NeuralQP: 大規模QCQPのための汎用ハイパーグラフベースの最適化フレームワーク
NeuralQP: A General Hypergraph-based Optimization Framework for Large-scale QCQPs ( http://arxiv.org/abs/2410.03720v1 ) ライセンス: Link先を確認 | Zhixiao Xiong, Fangyu Zong, Huigen Ye, Hua Xu, | (参考訳) 機械学習(ML)最適化フレームワークは、共有された問題構造を学習することで、大規模擬似制約付き二次プログラム(QCQP)の最適化を加速する能力に注目されている。
しかし、既存のMLフレームワークは、しばしば強力な問題前提と大規模解決器に大きく依存する。
本稿では,大規模QCQPのための汎用ハイパーグラフフレームワークであるNeuralQPを紹介する。
NeuralQPには2つの主要なコンポーネントがある。ハイパーグラフベースのニューラル予測(Hypergraph-based Neural Prediction)は、問題前提のないQCQPの埋め込みと予測ソリューションを生成する。
さらに、ハイパーグラフ表現を用いたUniEGNNは、二次プログラミングのための内部点法(IPM)と等価であることを示す。
QPLIBによる2つのベンチマーク問題と大規模な実世界のインスタンスの実験により、NeuralQPは、ソリューションの品質と時間効率の両方で最先端のソルバ(例えば、GurobiとSCIP)より優れており、QCQPのML最適化フレームワークの効率性が検証されている。
Machine Learning (ML) optimization frameworks have gained attention for their ability to accelerate the optimization of large-scale Quadratically Constrained Quadratic Programs (QCQPs) by learning shared problem structures. However, existing ML frameworks often rely heavily on strong problem assumptions and large-scale solvers. This paper introduces NeuralQP, a general hypergraph-based framework for large-scale QCQPs. NeuralQP features two main components: Hypergraph-based Neural Prediction, which generates embeddings and predicted solutions for QCQPs without problem assumptions, and Parallel Neighborhood Optimization, which employs a McCormick relaxation-based repair strategy to identify and correct illegal variables, iteratively improving the solution with a small-scale solver. We further prove that our framework UniEGNN with our hypergraph representation is equivalent to the Interior-Point Method (IPM) for quadratic programming. Experiments on two benchmark problems and large-scale real-world instances from QPLIB demonstrate that NeuralQP outperforms state-of-the-art solvers (e.g., Gurobi and SCIP) in both solution quality and time efficiency, further validating the efficiency of ML optimization frameworks for QCQPs. | 翻訳日:2024-11-02 20:28:28 公開日:2024-09-28 |
# オープンソース生成AIと機械学習によるテーマ分析:帰納的定性コードブック開発のための新しい手法
Thematic Analysis with Open-Source Generative AI and Machine Learning: A New Method for Inductive Qualitative Codebook Development ( http://arxiv.org/abs/2410.03721v1 ) ライセンス: Link先を確認 | Andrew Katz, Gabriella Coloyan Fleming, Joyce Main, | (参考訳) 本稿では,社会科学研究におけるテーマ分析を近似するワークフローにおいて,オープンソース生成テキストモデルをどのように活用できるかという,一つの中心的な疑問に答えることを目的とする。
この質問に答えるために、我々は、オープンソースの機械学習技術、自然言語処理ツール、生成テキストモデルを使用して、テーマ分析を容易にする、ジェネレーティブAI対応のテーマオーガナイゼーションと構造化(GATOS)ワークフローを提示する。
本手法の有効性を確認するために,本手法をGATOSワークフローに適用した3つのケーススタディを提案する。
具体的には、オープンソースモデルとツールからなるワークフローが、既知のテーマやサブテーマの空間に近づくコードブックを誘導的に生成できる範囲について検討する。
これらのテキストから洞察を得ることの難しさに対処するため、オープンソースの生成テキストモデルと検索拡張生成を組み合わせるとともに、大量のテキスト中のコードやテーマを識別するエンジニアリング、すなわち定性的なコードブックを生成する。
このプロセスは、研究者が1つの分析単位のテキストを読み、すでにコードブックにある既存のコードを考慮し、既存のコードブックが適切なテーマカバレッジを提供するかどうかに基づいて、新しいコードを生成するかどうかを判断することで、従来のテーマ分析で使用可能な帰納的コーディングプロセスを模倣する。
チームワーク設定におけるチームメイトフィードバックの研究、倫理的行動の組織文化の研究、パンデミック後のオフィス復帰に関する従業員視点の研究である。
GATOSのワークフローは、元の合成データセットを生成するのに使われたテキストのテーマを識別できることを示す。
This paper aims to answer one central question: to what extent can open-source generative text models be used in a workflow to approximate thematic analysis in social science research? To answer this question, we present the Generative AI-enabled Theme Organization and Structuring (GATOS) workflow, which uses open-source machine learning techniques, natural language processing tools, and generative text models to facilitate thematic analysis. To establish validity of the method, we present three case studies applying the GATOS workflow, leveraging these models and techniques to inductively create codebooks similar to traditional procedures using thematic analysis. Specifically, we investigate the extent to which a workflow comprising open-source models and tools can inductively produce codebooks that approach the known space of themes and sub-themes. To address the challenge of gleaning insights from these texts, we combine open-source generative text models, retrieval-augmented generation, and prompt engineering to identify codes and themes in large volumes of text, i.e., generate a qualitative codebook. The process mimics an inductive coding process that researchers might use in traditional thematic analysis by reading text one unit of analysis at a time, considering existing codes already in the codebook, and then deciding whether or not to generate a new code based on whether the extant codebook provides adequate thematic coverage. We demonstrate this workflow using three synthetic datasets from hypothetical organizational research settings: a study of teammate feedback in teamwork settings, a study of organizational cultures of ethical behavior, and a study of employee perspectives about returning to their offices after the pandemic. We show that the GATOS workflow is able to identify themes in the text that were used to generate the original synthetic datasets. | 翻訳日:2024-11-02 20:28:28 公開日:2024-09-28 |
# 金融関係グラフの評価:予測前の解釈
Evaluating Financial Relational Graphs: Interpretation Before Prediction ( http://arxiv.org/abs/2410.07216v1 ) ライセンス: Link先を確認 | Yingjie Niu, Lanxin Lu, Rian Dolphin, Valerio Poti, Ruihai Dong, | (参考訳) 株価変動は複数の要因の影響を受けており、正確で堅牢な株価トレンド予測は重要かつ困難な課題となっている。
グラフニューラルネットワークに基づく手法は、最近、内部要因とストック間の関係を反映したストック関係グラフを構築することで、この領域で顕著な成功を収めた。
しかし、これらの手法の多くは、適切なデータセットがないため、静的なストック関係グラフを構築するための事前定義された要素に依存しており、ストック関係の動的変化を捉えていない。
さらに、これらの手法における関係グラフの評価は、下流タスクにおけるニューラルネットワークモデルの性能と結びついており、混乱と不正確性をもたらす。
これらの問題に対処するため,S\&P 500 Indexの在庫に基づいて収集されたSPNewsデータセットを導入し,動的関係グラフの構築を容易にする。
さらに,下流タスクに依存しない新たな金融関係グラフ評価手法を提案する。
歴史的金融現象を説明するために関係グラフを用いて、グラフニューラルネットワークを構築する前にその妥当性を評価し、関連する金融関係を捉える上でのグラフの有効性を確実にする。
実験結果から,評価手法は様々な財務関係グラフを効果的に区別することができ,従来の手法と比較して解釈可能な結果が得られることが示された。
この領域の再現性とさらなる研究を促進するため、ソースコードをGitHubで公開しています。
Accurate and robust stock trend forecasting has been a crucial and challenging task, as stock price changes are influenced by multiple factors. Graph neural network-based methods have recently achieved remarkable success in this domain by constructing stock relationship graphs that reflect internal factors and relationships between stocks. However, most of these methods rely on predefined factors to construct static stock relationship graphs due to the lack of suitable datasets, failing to capture the dynamic changes in stock relationships. Moreover, the evaluation of relationship graphs in these methods is often tied to the performance of neural network models on downstream tasks, leading to confusion and imprecision. To address these issues, we introduce the SPNews dataset, collected based on S\&P 500 Index stocks, to facilitate the construction of dynamic relationship graphs. Furthermore, we propose a novel set of financial relationship graph evaluation methods that are independent of downstream tasks. By using the relationship graph to explain historical financial phenomena, we assess its validity before constructing a graph neural network, ensuring the graph's effectiveness in capturing relevant financial relationships. Experimental results demonstrate that our evaluation methods can effectively differentiate between various financial relationship graphs, yielding more interpretable results compared to traditional approaches. We make our source code publicly available on GitHub to promote reproducibility and further research in this area. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-28 |
# Consistency DistillationとComplementary Information Fusionによるマルチアトラス脳ネットワーク分類
Multi-Atlas Brain Network Classification through Consistency Distillation and Complementary Information Fusion ( http://arxiv.org/abs/2410.08228v1 ) ライセンス: Link先を確認 | Jiaxing Xu, Mengcheng Lan, Xia Dong, Kai He, Wei Zhang, Qingtian Bian, Yiping Ke, | (参考訳) 神経科学の領域では、脳ネットワークを介して神経疾患に関連する特異なパターンを特定することが重要である。
静止状態機能核磁気共鳴イメージング(fMRI)は、関心領域(ROI)として定義される異なる脳領域にわたる血液酸素レベル依存(BOLD)シグナルを関連付けることにより、これらのネットワークをマッピングするための主要なツールとなる。
これらの脳ネットワークの構築には、脳の分裂の様々な仮説に基づいて、アトラスを用いて脳をROIにパーセレーションする。
しかし、脳ネットワーク分類の標準アトラスは存在せず、障害の異常を検出するのに限界がある。
最近の手法では複数のアトラスを利用する方法が提案されているが、それらはアトラス間の一貫性を無視し、ROIレベルの情報交換を欠いている。
これらの制約に対処するために、fMRIデータを用いた脳ネットワーク分類を改善するために、Atlas-Integrated Distillation and Fusion Network (AIDFusion)を提案する。
AIDFusionは、非整合トランスフォーマーを使用して、不整合アトラス固有の情報をフィルタリングし、アトラス間の区別可能な接続を蒸留することで、複数のアトラスを利用するという課題に対処する。
また、クロスアトラス整合性を高めるために、主観的および集団レベルの整合性制約も含んでいる。
さらに、AIDFusionは、アトラス間メッセージパッシング機構を使用して、脳領域にまたがる相補的な情報を融合する。
異なる疾患の4つのデータセットに対する実験結果から, AIDFusion の有効性と有効性を示した。
ケーススタディでは、AIDFusion抽出パターンが解釈可能で、確立した神経科学的な発見と一致していることを示している。
In the realm of neuroscience, identifying distinctive patterns associated with neurological disorders via brain networks is crucial. Resting-state functional magnetic resonance imaging (fMRI) serves as a primary tool for mapping these networks by correlating blood-oxygen-level-dependent (BOLD) signals across different brain regions, defined as regions of interest (ROIs). Constructing these brain networks involves using atlases to parcellate the brain into ROIs based on various hypotheses of brain division. However, there is no standard atlas for brain network classification, leading to limitations in detecting abnormalities in disorders. Some recent methods have proposed utilizing multiple atlases, but they neglect consistency across atlases and lack ROI-level information exchange. To tackle these limitations, we propose an Atlas-Integrated Distillation and Fusion network (AIDFusion) to improve brain network classification using fMRI data. AIDFusion addresses the challenge of utilizing multiple atlases by employing a disentangle Transformer to filter out inconsistent atlas-specific information and distill distinguishable connections across atlases. It also incorporates subject- and population-level consistency constraints to enhance cross-atlas consistency. Additionally, AIDFusion employs an inter-atlas message-passing mechanism to fuse complementary information across brain regions. Experimental results on four datasets of different diseases demonstrate the effectiveness and efficiency of AIDFusion compared to state-of-the-art methods. A case study illustrates AIDFusion extract patterns that are both interpretable and consistent with established neuroscience findings. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-28 |
# ビット平面を符号化したカラーモデル情報によるニューラルネットワークのスパイク精度の向上
Improving Spiking Neural Network Accuracy With Color Model Information Encoded Bit Planes ( http://arxiv.org/abs/2410.08229v1 ) ライセンス: Link先を確認 | Nhan T. Luu, Thang C. Truong, Duong T. Luu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、計算神経科学と人工知能において有望なパラダイムとして登場し、低エネルギー消費や小さなメモリフットプリントといった利点を提供している。
しかし、それらの実践的採用はいくつかの課題によって制約されている。
本研究では,入力画像データの様々な色モデルから抽出したビットプレーンをスパイク符号化に用いる新しい符号化手法により,SNNの性能を向上させる新しい手法を提案する。
提案手法は,モデルサイズを増大させることなく従来の手法と比較して,SNNの計算精度を向上させる。
実験的な検証を通じて,複数のコンピュータビジョンタスクにおける性能向上を実現するための符号化戦略の有効性を実証する。
我々の知る限りでは、これはSNNの文脈内で色空間を適用する最初の研究である。
カラー空間のユニークな特徴を活用することで、今後の研究や応用において、より効率的かつ効果的なSNNモデルへの道を開いたいと考えています。
Spiking neural networks (SNNs) have emerged as a promising paradigm in computational neuroscience and artificial intelligence, offering advantages such as low energy consumption and small memory footprint. However, their practical adoption is constrained by several challenges, prominently among them being performance optimization. In this study, we present a novel approach to enhance the performance of SNNs through a new encoding method that exploits bit planes derived from various color models of input image data for spike encoding. Our proposed technique is designed to improve the computational accuracy of SNNs compared to conventional methods without increasing model size. Through extensive experimental validation, we demonstrate the effectiveness of our encoding strategy in achieving performance gain across multiple computer vision tasks. To the best of our knowledge, this is the first research endeavor applying color spaces within the context of SNNs. By leveraging the unique characteristics of color spaces, we hope to unlock new potentials in SNNs performance, potentially paving the way for more efficient and effective SNNs models in future researches and applications. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-28 |
# テキスト要約がトピックモデリングに及ぼす影響の検討
Investigating the Impact of Text Summarization on Topic Modeling ( http://arxiv.org/abs/2410.09063v1 ) ライセンス: Link先を確認 | Trishia Khandelwal, | (参考訳) トピックモデルは、文書の集合の中で類似したテーマを特定し、グループ化するのに使用される。
ディープラーニングに基づくニューラルトピックモデルの最近の進歩は、大きな研究関心を集めている。
本稿では、事前学習された大言語モデル(LLM)を用いてトピックモデルに入力する前に文書の要約を生成することにより、トピックモデリング性能をさらに向上する手法を提案する。
トピックモデリングへの影響を比較するために、異なる長さの要約を生成するために、ショットプロンプトはほとんど使われない。
このアプローチは特に大きなドキュメントにとって有効であり、ノイズを減らし、全体的なテーマを曖昧にしてしまうような無関係な詳細を捉えるのに役立ちます。
さらに、データセットが最適な要約長を示し、トピックモデリング性能が向上することが観察された。
提案手法は,従来のモデルと比較して,トピックの多様性とコヒーレンス値に比較して優れている。
Topic models are used to identify and group similar themes in a set of documents. Recent advancements in deep learning based neural topic models has received significant research interest. In this paper, an approach is proposed that further enhances topic modeling performance by utilizing a pre-trained large language model (LLM) to generate summaries of documents before inputting them into the topic model. Few shot prompting is used to generate summaries of different lengths to compare their impact on topic modeling. This approach is particularly effective for larger documents because it helps capture the most essential information while reducing noise and irrelevant details that could obscure the overall theme. Additionally, it is observed that datasets exhibit an optimal summary length that leads to improved topic modeling performance. The proposed method yields better topic diversity and comparable coherence values compared to previous models. | 翻訳日:2024-10-30 16:58:09 公開日:2024-09-28 |
# オープンエンド符号化タスクのためのテストケースインフォームド知識トレース
Test Case-Informed Knowledge Tracing for Open-ended Coding Tasks ( http://arxiv.org/abs/2410.10829v1 ) ライセンス: Link先を確認 | Zhangqi Duan, Nigel Fernandez, Alexander Hicks, Andrew Lan, | (参考訳) 学生に特定の仕様に従ってプログラムを構築するよう依頼するオープンエンドコーディングタスクは、コンピュータサイエンス教育において一般的である。
学生のモデリングは、学生のコードが多様であることを意味するので、難しい場合がある。
応答の正しさのみを分析する伝統的な知識追跡(KT)モデルは、学生のコードから学生の知識のニュアンスを完全に捉えることはできない。
本稿では,オープンエンドプログラミングにおけるテストケース・インフォームド・ナレッジ・トラクション(TIKTOC)について紹介する。
既存のCodeWorkoutデータセットをオープンエンドのコーディング質問のサブセットに使用するテストケースで拡張し、同時に解析と予測を行うマルチタスク学習KT手法を提案する。
1)学生のコード提出が各試験ケースを通過させるか否か
2) 大きな言語モデルをバックボーンとして使用した,学生のオープンエンドコード。
提案手法は,入力されたコード全体のスコアのみを使用するコーディングにおいて,既存のKTメソッドよりも優れていることを定量的に示す。
また、テストケース情報をオープンなコードと組み合わせることで、学生の知識に関する詳細な洞察を得る方法も定性的に示しています。
Open-ended coding tasks, which ask students to construct programs according to certain specifications, are common in computer science education. Student modeling can be challenging since their open-ended nature means that student code can be diverse. Traditional knowledge tracing (KT) models that only analyze response correctness may not fully capture nuances in student knowledge from student code. In this paper, we introduce Test case-Informed Knowledge Tracing for Open-ended Coding (TIKTOC), a framework to simultaneously analyze and predict both open-ended student code and whether the code passes each test case. We augment the existing CodeWorkout dataset with the test cases used for a subset of the open-ended coding questions, and propose a multi-task learning KT method to simultaneously analyze and predict 1) whether a student's code submission passes each test case and 2) the student's open-ended code, using a large language model as the backbone. We quantitatively show that these methods outperform existing KT methods for coding that only use the overall score a code submission receives. We also qualitatively demonstrate how test case information, combined with open-ended code, helps us gain fine-grained insights into student knowledge. | 翻訳日:2024-10-29 19:24:58 公開日:2024-09-28 |