このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240105となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# MalModel:ブラックボックスバックドア攻撃によるモバイルディープラーニングモデルにおける不正な支払いを回避
MalModel: Hiding Malicious Payload in Mobile Deep Learning Models with Black-box Backdoor Attack ( http://arxiv.org/abs/2401.02659v1 ) ライセンス: Link先を確認 | Jiayi Hua, Kailong Wang, Meizhen Wang, Guangdong Bai, Xiapu Luo, Haoyu Wang, | (参考訳) モバイルマルウェアは、ユビキタスなモバイルコンピューティングの時代において、最も重要なセキュリティ脅威の1つになっている。
セキュリティの専門家による対策努力にもかかわらず、近年は特定されたマルウェアサンプルの急速な増加を目撃している。
これは部分的には、敵に対する未調査の攻撃面を常に開き続ける、新しく導入された技術によるものかもしれない。
典型的な例として、モバイルデバイス上でのディープラーニング(DL)モデルの保存と実行を可能にする、最近開発されたモバイル機械学習(ML)フレームワークがある。
明らかなアドバンテージにもかかわらず、この新機能は必然的に潜在的な脆弱性も導入する(例えば、デバイス上のモデルは悪意のある目的のために修正される可能性がある)。
本研究では,4つの要因(層型,層数,層被覆率,置換するバイト数)を考慮に入れた戦略に基づいて,悪意のあるペイロードをディープラーニングモデルのパラメータ内に隠蔽することにより,モバイルマルウェアを生成・変換する手法を提案する。
提案手法を用いることで、モデル性能にほとんど影響を与えずにDLモバイルアプリケーションでマルウェアを実行することができる(0.4%の精度低下と39msの遅延オーバーヘッド)。
Mobile malware has become one of the most critical security threats in the era of ubiquitous mobile computing. Despite the intensive efforts from security experts to counteract it, recent years have still witnessed a rapid growth of identified malware samples. This could be partly attributed to the newly-emerged technologies that may constantly open up under-studied attack surfaces for the adversaries. One typical example is the recently-developed mobile machine learning (ML) framework that enables storing and running deep learning (DL) models on mobile devices. Despite obvious advantages, this new feature also inadvertently introduces potential vulnerabilities (e.g., on-device models may be modified for malicious purposes). In this work, we propose a method to generate or transform mobile malware by hiding the malicious payloads inside the parameters of deep learning models, based on a strategy that considers four factors (layer type, layer number, layer coverage and the number of bytes to replace). Utilizing the proposed method, we can run malware in DL mobile applications covertly with little impact on the model performance (i.e., as little as 0.4% drop in accuracy and at most 39ms latency overhead). | 翻訳日:2024-03-18 10:39:12 公開日:2024-01-05 |
# Ejafa_protocol: カスタムINCセキュアプロトコル
Ejafa_protocol: A custom INC secure protocol ( http://arxiv.org/abs/2401.02787v1 ) ライセンス: Link先を確認 | Ejafa Bassam, | (参考訳) 「EJAFA_PROTOCOL:A CUSTOM INC SECURE PROTOCOL」は、軽量デバイスに適した暗号化ソリューションであり、セキュリティと効率の微妙なバランスをとっています。
このプロトコルには、鍵交換用のX25519や暗号化用のChaCha20など、現代の暗号プリミティブが含まれており、RFC標準に準拠している。
本報告では,プロトコルの設計,各種ネットワークプロトコルの実装,性能特性について検討する。
プロトコルの重要な特徴は、セキュリティを犠牲にすることなく、リソース制限された環境への適応性である。
この研究はセキュアな通信プロトコルの進化に寄与し、幅広いアプリケーションにまたがる実用的なデプロイのための堅牢なソリューションを提供する。
"EJAFA_PROTOCOL: A CUSTOM INC SECURE PROTOCOL" presents a cryptographic solution tailored for lightweight devices, striking a delicate balance between security and efficiency. The protocol incorporates modern cryptographic primitives, including X25519 for key exchange and ChaCha20 for encryption, while adhering to established RFC standards. The report explores the protocol's design, implementation over various network protocols, and its performance characteristics. A key feature of the protocol is its adaptability to resource-constrained environments without compromising on security. This work contributes to the evolving landscape of secure communication protocols, providing a robust solution for practical deployment across a spectrum of applications. | 翻訳日:2024-03-18 10:39:12 公開日:2024-01-05 |
# Wolfram言語のためのzk-SNARKコンパイラを目指して
Towards a zk-SNARK compiler for Wolfram language ( http://arxiv.org/abs/2401.02935v1 ) ライセンス: Link先を確認 | Armando Cruz, | (参考訳) ゼロ知識証明(ゼロ知識証明、英: Zero-knowledge proofs、zk-Proofs)は、証明者が解の内容を明らかにすることなく、与えられた公的な問題に対する解を持っていることを証明できる通信プロトコルである。
任意計算はインタラクティブなzk-Proofに変換できるので、何が実行されたのかを知らずに正しく実行されたと誰もが信じており、デジタル通貨に大きな影響を及ぼす。
それにもかかわらず、インタラクティブな証明はブロックチェーンアプリケーションには適していないが、zk-SNARKのような新しいプロトコルはZcashのようなゼロ知識台帳を可能にする。
このプロジェクトはWolframのZeroKnowledgeProofs paclet上に構築され、Pinocchioプロトコルに基づいたzk-SNARKコンパイラを実装している。
Zero-knowledge proofs (zk-Proofs) are communication protocols by which a prover can demonstrate to a verifier that it possesses a solution to a given public problem without revealing the content of the solution. Arbitrary computations can be transformed into an interactive zk-Proof so anyone is convinced that it was executed correctly without knowing what was executed on, having huge implications for digital currency. Despite this, interactive proofs are not suited for blockchain applications but novel protocols such as zk-SNARKs have made zero-knowledge ledgers like Zcash possible. This project builds upon Wolfram's ZeroKnowledgeProofs paclet and implements a zk-SNARK compiler based on Pinocchio protocol. | 翻訳日:2024-03-18 10:39:11 公開日:2024-01-05 |
# SplitKによるW4A16量子推論のためのトリトン融合カーネルの高速化 Accelerating a Triton Fused Kernel for W4A16 Quantized Inference with SplitK work decomposition ( http://arxiv.org/abs/2402.00025v1 ) ライセンス: Link先を確認 | Adnan Hoque, Less Wright, Jamie Yang, Mudhakar Srivatsa and Raghu Ganti | (参考訳) 本稿では,w4a16量子化推論のための効率的な融合行列乗算カーネルの実装を提案する。
本実装は基礎モデル推論ワークロードに見られるスキニー行列-行列乗算のタイプの改善を示す。
特に,スキンの活性化行列と正方形重み行列の行列乗算のタイプについて検討する。
その結果,A100では平均65%の速度向上,H100では平均124%の速度改善(ピークは295%)が得られた。 We propose an implementation of an efficient fused matrix multiplication kernel for W4A16 quantized inference, where we perform dequantization and GEMM in a fused kernel using a SplitK work decomposition. Our implementation shows improvement for the type of skinny matrix-matrix multiplications found in foundation model inference workloads. In particular, this paper surveys the type of matrix multiplication between a skinny activation matrix and a square weight matrix. Our results show an average of 65% speed improvement on A100, and an average of 124% speed improvement on H100 (with a peak of 295%) for a range of matrix dimensions including those found in a llama-style model, where m < n = k. | 翻訳日:2024-02-04 05:22:40 公開日:2024-01-05 |
# 分子エンベディング用LLaMAとChatGPTエンベディングの比較解析 Comparative Analysis of LLaMA and ChatGPT Embeddings for Molecule Embedding ( http://arxiv.org/abs/2402.00024v1 ) ライセンス: Link先を確認 | Shaghayegh Sadeghi, Alan Bui, Ali Forooghi, Jianguo Lu, Alioune Ngom | (参考訳) 目的: ChatGPT や LLaMA のような大規模言語モデル (LLM) は,化学情報学の分野,特に化学構造を表現する標準的な方法である単純分子入力線入力システム (SMILES) の解釈において,その可能性をますます認識している。
これらのLLMはSMILES文字列をベクトル表現にデコードすることができ、化学グラフを理解するための新しいアプローチを提供する。
方法: SMILES文字列の埋め込みにおけるChatGPTとLLaMAの性能について検討する。
我々は分子特性予測 (mp) と薬物-薬物相互作用予測 (ddi) の2つの重要な応用について評価を行った。
結果: LLaMAを用いて生成したSMILES埋め込みは,MPおよびDDI予測タスクにおいてChatGPTより優れていた。
特に、LLaMAベースのSMILES埋め込みは、両方の予測タスクで既存のメソッドに匹敵する結果を示す。
結論: LLMのケミノフォマティクスへの応用,特にSMILESの組込み利用は,薬物開発を進展させる大きな可能性を示唆している。
これには、化学的性質の予測を改善し、薬物発見プロセスを促進することが含まれる。
GitHub:https://github.com/sshaghayeghs/LLaMA-VS-ChatGPT Purpose: Large Language Models (LLMs) like ChatGPT and LLaMA are increasingly recognized for their potential in the field of cheminformatics, particularly in interpreting Simplified Molecular Input Line Entry System (SMILES), a standard method for representing chemical structures. These LLMs can decode SMILES strings into vector representations, providing a novel approach to understanding chemical graphs. Methods: We investigate the performance of ChatGPT and LLaMA in embedding SMILES strings. Our evaluation focuses on two key applications: molecular property (MP) prediction and drug-drug interaction (DDI) prediction, both essential in drug development and healthcare. Results: We find that SMILES embeddings generated using LLaMA outperform those from ChatGPT in both MP and DDI prediction tasks. Notably, LLaMA-based SMILES embeddings show results comparable to existing methods in both prediction tasks. Conclusion: The application of LLMs in cheminformatics, particularly in utilizing SMILES embeddings, shows significant promise for advancing drug development. This includes improving the prediction of chemical properties and facilitating the drug discovery process. GitHub: https://github.com/sshaghayeghs/LLaMA-VS-ChatGPT | 翻訳日:2024-02-04 05:22:26 公開日:2024-01-05 |
# マルチテンポラルセンチネル-1とセンチネル-2データを用いた水域マッピング Using Multi-Temporal Sentinel-1 and Sentinel-2 data for water bodies mapping ( http://arxiv.org/abs/2402.00023v1 ) ライセンス: Link先を確認 | Luigi Russo, Francesco Mauro, Babak Memar, Alessandro Sebastianelli, Paolo Gamba and Silvia Liberata Ullo | (参考訳) 気候変動は極端な気象現象を激化させ、水不足と豪雨の予測不可能を招き、持続可能な開発、生物多様性、水と衛生へのアクセスへの脅威を引き起こす。
本稿では,多様な気象条件下での総合的水資源モニタリングに有用な知見を提供することを目的とする。
SEN2DWATERデータセットの拡張は、流域セグメンテーションの能力を高めるために提案されている。
sentinel-1データと既存のmultispectral sentinel-2データとの時間的及び空間的に整合したレーダ情報の統合により、新しいマルチソースおよびマルチテンポラルデータセットが生成される。
強化データセットのベンチマークには、土壌水指数(SWI)や正規化差分水指数(NDWI)などの指標と、教師なし機械学習(ML)分類器(k平均クラスタリング)が適用される。
また,本研究による今後の発展や応用の可能性についても検討した。 Climate change is intensifying extreme weather events, causing both water scarcity and severe rainfall unpredictability, and posing threats to sustainable development, biodiversity, and access to water and sanitation. This paper aims to provide valuable insights for comprehensive water resource monitoring under diverse meteorological conditions. An extension of the SEN2DWATER dataset is proposed to enhance its capabilities for water basin segmentation. Through the integration of temporally and spatially aligned radar information from Sentinel-1 data with the existing multispectral Sentinel-2 data, a novel multisource and multitemporal dataset is generated. Benchmarking the enhanced dataset involves the application of indices such as the Soil Water Index (SWI) and Normalized Difference Water Index (NDWI), along with an unsupervised Machine Learning (ML) classifier (k-means clustering). Promising results are obtained and potential future developments and applications arising from this research are also explored. | 翻訳日:2024-02-04 05:22:00 公開日:2024-01-05 |
# フェデレーション領域一般化のための多元協調勾配偏差最小化 Multi-Source Collaborative Gradient Discrepancy Minimization for Federated Domain Generalization ( http://arxiv.org/abs/2401.10272v1 ) ライセンス: Link先を確認 | Yikang Wei and Yahong Han | (参考訳) Federated Domain Generalizationは、複数の分散ソースドメインからドメイン不変モデルを学び、目に見えないターゲットドメインにデプロイすることを目的としている。
プライバシ上の懸念から、異なるソースドメインからのデータは分離され、ドメインギャップを埋める上での課題が生じる。
この問題に対処するために,フェデレーションドメイン一般化のための多元協調勾配偏差最小化(mcgdm)法を提案する。
具体的には,分離された領域内のドメイン固有情報を過大に満たさないために,元の画像と拡張画像とのドメイン内勾配マッチングを提案する。
さらに,分散ドメイン間のドメインシフトをさらに低減できる他のドメインの協調によるドメイン間勾配マッチングを提案する。
本手法はドメイン内勾配マッチングとドメイン間勾配マッチングを組み合わせることで,学習モデルが未知の領域をうまく一般化することを可能にする。
さらに,疑似ラベル付きターゲットドメイン上でターゲットモデルを微調整することにより,フェデレーション領域適応タスクに拡張することができる。
フェデレーション領域の一般化と適応に関する広範な実験は,本手法が最先端手法を大幅に上回っていることを示している。 Federated Domain Generalization aims to learn a domain-invariant model from multiple decentralized source domains for deployment on unseen target domain. Due to privacy concerns, the data from different source domains are kept isolated, which poses challenges in bridging the domain gap. To address this issue, we propose a Multi-source Collaborative Gradient Discrepancy Minimization (MCGDM) method for federated domain generalization. Specifically, we propose intra-domain gradient matching between the original images and augmented images to avoid overfitting the domain-specific information within isolated domains. Additionally, we propose inter-domain gradient matching with the collaboration of other domains, which can further reduce the domain shift across decentralized domains. Combining intra-domain and inter-domain gradient matching, our method enables the learned model to generalize well on unseen domains. Furthermore, our method can be extended to the federated domain adaptation task by fine-tuning the target model on the pseudo-labeled target domain. The extensive experiments on federated domain generalization and adaptation indicate that our method outperforms the state-of-the-art methods significantly. | 翻訳日:2024-01-28 16:19:07 公開日:2024-01-05 |
# 効率と最小レイテンシを改善した汎用スパイクニューラルネットワークの訓練 Training a General Spiking Neural Network with Improved Efficiency and Minimum Latency ( http://arxiv.org/abs/2401.10843v1 ) ライセンス: Link先を確認 | Yunpeng Yao, Man Wu, Zheng Chen, Renyuan Zhang | (参考訳) イベント駆動方式で動作し、バイナリスパイク表現を使用するスパイキングニューラルネットワーク(SNN)が、エネルギー効率の高いコンピューティングの候補として最近登場した。
しかし、SNNモデルのトレーニングには通常の学習イテレーションに加えて多くの時間ステップが必要であり、それによってエネルギー効率が制限される。
本稿では,限られた時間ステップで機能学習とアクティベーション効率を向上し,よりエネルギー効率の良いsnsのための新しいソリューションを提供する,一般的なトレーニングフレームワークを提案する。
この枠組みにより,snニューロンは異なる受容野からロバストスパイク特徴を学習し,他のニューロンから伝達される現在の刺激情報と再発情報の両方を利用してニューロンの状態を更新することができる。
この設定は、単一の時間ステップ内で情報を継続的に補完する。
さらに,これら2つの刺激を融合させてニューロンの重量をスムーズに最適化する投射関数を提案する。
畳み込みモデルと繰り返しモデルの両方の提案を評価する。
実験の結果,CIFAR10,CIFAR100,TinyImageNetなどの最先端の視覚分類タスクが72.41%,72.31%,CNNのCIFAR100では1段階に過ぎなかった。
提案手法は, CIFAR10 上での標準 ANN と SNN の10倍ジュールエネルギーを, 追加の時間ステップなしで削減する。 Spiking Neural Networks (SNNs) that operate in an event-driven manner and employ binary spike representation have recently emerged as promising candidates for energy-efficient computing. However, a cost bottleneck arises in obtaining high-performance SNNs: training a SNN model requires a large number of time steps in addition to the usual learning iterations, hence this limits their energy efficiency. This paper proposes a general training framework that enhances feature learning and activation efficiency within a limited time step, providing a new solution for more energy-efficient SNNs. Our framework allows SNN neurons to learn robust spike feature from different receptive fields and update neuron states by utilizing both current stimuli and recurrence information transmitted from other neurons. This setting continuously complements information within a single time step. Additionally, we propose a projection function to merge these two stimuli to smoothly optimize neuron weights (spike firing threshold and activation). We evaluate the proposal for both convolution and recurrent models. Our experimental results indicate state-of-the-art visual classification tasks, including CIFAR10, CIFAR100, and TinyImageNet.Our framework achieves 72.41% and 72.31% top-1 accuracy with only 1 time step on CIFAR100 for CNNs and RNNs, respectively. Our method reduces 10x and 3x joule energy than a standard ANN and SNN, respectively, on CIFAR10, without additional time steps. | 翻訳日:2024-01-28 16:07:20 公開日:2024-01-05 |
# 新しい意思決定アンサンブルフレームワーク:投機的株価予測のためのカスタムアテンションBiLSTMとXGBoost A Novel Decision Ensemble Framework: Customized Attention-BiLSTM and XGBoost for Speculative Stock Price Forecasting ( http://arxiv.org/abs/2401.11621v1 ) ライセンス: Link先を確認 | Riaz Ud Din, Salman Ahmed, Saddam Hussain Khan | (参考訳) 投機的株価の予測は、革新的なアルゴリズムの開発を促進する効果的な投資リスク管理に不可欠である。
しかし、投機的性質、ボラティリティ、金融市場における複雑なシーケンシャルな依存関係には、高度な技術を必要とする固有の課題がある。
本稿では、投機的株式Bitcoin-USD(BTC-USD)の日替わり価格を予測するための新しいフレームワークであるCAB-XDE(customized attention BiLSTM-XGB decision ensemble)を提案する。
CAB-XDEフレームワークは、カスタマイズされた双方向長短期メモリ(BiLSTM)とアテンション機構とXGBoostアルゴリズムを統合する。
カスタマイズされたBiLSTMはその学習機能を活用して、複雑なシーケンシャルな依存関係と投機的な市場トレンドをキャプチャする。
また、新しい注意機構は、影響のある特徴に重みを動的に割り当て、解釈性を高め、効果的なコスト対策とボラティリティ予測を最適化する。
さらに、XGBoostは非線形関係を扱い、提案したCAB-XDEフレームワークの堅牢性に寄与する。
さらに、重み判定理論-誤差相反法は予測をさらに洗練する。
この改良はモデル重みを反復的に調整することで達成される。
性能を向上させるために、理論的な期待値と個別にカスタマイズされた注意点における実際の誤差の相違に基づく。
最後に、xgboostおよびカスタマイズされたアテンションbilstmモデルからの予測を連結して多様な予測空間を達成し、cab-xdeの一般化能力を高めるためにアンサンブル分類器に提供される。
提案されたCAB-XDEフレームワークは、Yahoo Financeから供給された不安定なBitcoin市場で実証的に検証され、MAPEが0.0037、MAEが84.40、RMSEが106.14で、最先端のモデルを上回っている。 Forecasting speculative stock prices is essential for effective investment risk management that drives the need for the development of innovative algorithms. However, the speculative nature, volatility, and complex sequential dependencies within financial markets present inherent challenges which necessitate advanced techniques. This paper proposes a novel framework, CAB-XDE (customized attention BiLSTM-XGB decision ensemble), for predicting the daily closing price of speculative stock Bitcoin-USD (BTC-USD). CAB-XDE framework integrates a customized bi-directional long short-term memory (BiLSTM) with the attention mechanism and the XGBoost algorithm. The customized BiLSTM leverages its learning capabilities to capture the complex sequential dependencies and speculative market trends. Additionally, the new attention mechanism dynamically assigns weights to influential features, thereby enhancing interpretability, and optimizing effective cost measures and volatility forecasting. Moreover, XGBoost handles nonlinear relationships and contributes to the proposed CAB-XDE framework robustness. Additionally, the weight determination theory-error reciprocal method further refines predictions. This refinement is achieved by iteratively adjusting model weights. It is based on discrepancies between theoretical expectations and actual errors in individual customized attention BiLSTM and XGBoost models to enhance performance. Finally, the predictions from both XGBoost and customized attention BiLSTM models are concatenated to achieve diverse prediction space and are provided to the ensemble classifier to enhance the generalization capabilities of CAB-XDE. The proposed CAB-XDE framework is empirically validated on volatile Bitcoin market, sourced from Yahoo Finance and outperforms state-of-the-art models with a MAPE of 0.0037, MAE of 84.40, and RMSE of 106.14. | 翻訳日:2024-01-28 15:58:28 公開日:2024-01-05 |
# オブジェクト検出とフィルタアンサンブルによるマルチモーダルデータキュレーション Multimodal Data Curation via Object Detection and Filter Ensembles ( http://arxiv.org/abs/2401.12225v1 ) ライセンス: Link先を確認 | Tzu-Heng Huang, Changho Shin, Sui Jiet Tay, Dyah Adila, Frederic Sala | (参考訳) 我々は,2023年のDataCompコンペティション・フィルタ・トラックのエントリーに使用したマルチモーダルデータの計算手法を提案する。
オブジェクト検出と弱い監視に基づくアンサンブルを組み合わせた手法を提案する。
提案手法の2つのステップのうちの1つとして,ゼロショット物体検出モデルを用いて,粒状情報を抽出し,様々なフィルタ設計を行う。
第2のステップでは、フィルタリングルールのアンサンブルに弱い監督を採用する。
提案手法は, 最高性能のベースラインと比較して4%の性能向上を実現し, 書き込み時の小型トラックにおける上位位置を導出する。
さらに,中規模トラックでは,既存のベースラインを弱監督下に組み込むことで,ベースラインに対する注目すべき4.2%の改善を実現している。 We propose an approach for curating multimodal data that we used for our entry in the 2023 DataComp competition filtering track. Our technique combines object detection and weak supervision-based ensembling. In the first of two steps in our approach, we employ an out-of-the-box zero-shot object detection model to extract granular information and produce a variety of filter designs. In the second step, we employ weak supervision to ensemble filtering rules. This approach results in a 4% performance improvement when compared to the best-performing baseline, producing the top-ranking position in the small scale track at the time of writing. Furthermore, in the medium scale track, we achieve a noteworthy 4.2% improvement over the baseline by simply ensembling existing baselines with weak supervision. | 翻訳日:2024-01-28 15:41:27 公開日:2024-01-05 |
# データ駆動型物理インフォームドニューラルネットワーク:デジタル双対視点 Data-Driven Physics-Informed Neural Networks: A Digital Twin Perspective ( http://arxiv.org/abs/2401.08667v1 ) ライセンス: Link先を確認 | Sunwoong Yang, Hojin Kim, Yoonpyo Hong, Kwanjung Yee, Romit Maulik, Namwoo Kang | (参考訳) 本研究では,物理インフォームドニューラルネットワーク(PINN)によるディジタル双生児の実現の可能性について,様々な観点から検討する。
まず,手動によるメッシュ生成を伴わない仮想表現の自動構築を可能にするPINNのメッシュフリーフレームワークにおいて,コロケーションポイントに対する様々な適応サンプリング手法の有効性を検証する。
次に,データ駆動型PINN(DD-PINN)フレームワークの全体的な性能について検討し,DTシナリオで取得したデータセットを活用する。
より一般的な物理学への拡張性はパラメトリックなナビエ・ストークス方程式で検証され、レイノルズ数の変化によりピンが再訓練される必要はない。
また、データセットを異なる忠実度/疎度から収集することも多いため、多忠実DD-PINNも提案され、評価されている。
それらは外挿作業においても驚くべき予測性能を示し、単一忠実性アプローチよりも42\sim62\%$改善されている。
最後に,マルチフィデシャルdd-pinnsの不確かさ定量化性能をアンサンブル法により検討し,予測不確かさの正確な測定が重要であるdtにおけるそのポテンシャルを検証する。
この研究で調べたDD-PINNフレームワークは、上記の観点から従来のPINNよりもDTシナリオに適していることが分かり、エンジニアはシームレスなDTの実現に一歩近づいた。 This study explores the potential of physics-informed neural networks (PINNs) for the realization of digital twins (DT) from various perspectives. First, various adaptive sampling approaches for collocation points are investigated to verify their effectiveness in the mesh-free framework of PINNs, which allows automated construction of virtual representation without manual mesh generation. Then, the overall performance of the data-driven PINNs (DD-PINNs) framework is examined, which can utilize the acquired datasets in DT scenarios. Its scalability to more general physics is validated within parametric Navier-Stokes equations, where PINNs do not need to be retrained as the Reynolds number varies. In addition, since datasets can be often collected from different fidelity/sparsity in practice, multi-fidelity DD-PINNs are also proposed and evaluated. They show remarkable prediction performance even in the extrapolation tasks, with $42\sim62\%$ improvement over the single-fidelity approach. Finally, the uncertainty quantification performance of multi-fidelity DD-PINNs is investigated by the ensemble method to verify their potential in DT, where an accurate measure of predictive uncertainty is critical. The DD-PINN frameworks explored in this study are found to be more suitable for DT scenarios than traditional PINNs from the above perspectives, bringing engineers one step closer to seamless DT realization. | 翻訳日:2024-01-22 09:39:19 公開日:2024-01-05 |
# オフライン手書き署名検証:転送学習と特徴選択アプローチ Offline Handwriting Signature Verification: A Transfer Learning and Feature Selection Approach ( http://arxiv.org/abs/2401.09467v1 ) ライセンス: Link先を確認 | Fatih Ozyurt, Jafar Majidpour, Tarik A. Rashid, Canan Koc | (参考訳) 手書き署名検証は、バイオメトリックスと文書の認証において、重大な課題となる。
目的は、与えられた手書きの署名の真正性を確認することであり、本物と偽物とを区別することである。
この問題は金融、法律文書、セキュリティなど多くの分野に応用されている。
現在、コンピュータビジョンと機械学習の分野は、手書き署名検証の分野において大きな進歩を遂げている。
しかし、結果は、取得した結果、データセットの構造、使用済みモデルによって強化される可能性がある。
提案する戦略は4段階ある。
まず、420人の個人から12600枚の画像の大規模なデータセットを収集し、それぞれが30種類の署名を持っている(すべての著者の署名は本物)。
その後の段階では、MobileNetV2というディープラーニングモデルを用いて、各画像から最高の特徴を抽出した。
特徴選択の段階では、3つのセレクタ近傍成分分析(NCA)、Chi2、相互情報(MI)を用いて200,300,400,500の特徴を抽出し、合計12の特徴ベクトルを与えた。
最後に、svmやカーネル(rbf、ポリ、リニア)、kn、dt、線形判別分析、ナイーブベイズといった機械学習技術を適用することで、12の結果を得た。
特徴選択手法を使わずに、提案したオフライン署名検証は91.3%の分類精度を達成したのに対し、わずか300の特徴を持つNAA特徴選択手法は97.7%の分類精度を達成した。
自己組織型フレームワークであることのメリットがある設計モデルと提案モデルを用いて,高い分類精度を実現した。
提案手法は,最適最小選択特徴量を用いて,最適なモデル性能と結果の検証ベクタを同定する。 Handwritten signature verification poses a formidable challenge in biometrics and document authenticity. The objective is to ascertain the authenticity of a provided handwritten signature, distinguishing between genuine and forged ones. This issue has many applications in sectors such as finance, legal documentation, and security. Currently, the field of computer vision and machine learning has made significant progress in the domain of handwritten signature verification. The outcomes, however, may be enhanced depending on the acquired findings, the structure of the datasets, and the used models. Four stages make up our suggested strategy. First, we collected a large dataset of 12600 images from 420 distinct individuals, and each individual has 30 signatures of a certain kind (All authors signatures are genuine). In the subsequent stage, the best features from each image were extracted using a deep learning model named MobileNetV2. During the feature selection step, three selectors neighborhood component analysis (NCA), Chi2, and mutual info (MI) were used to pull out 200, 300, 400, and 500 features, giving a total of 12 feature vectors. Finally, 12 results have been obtained by applying machine learning techniques such as SVM with kernels (rbf, poly, and linear), KNN, DT, Linear Discriminant Analysis, and Naive Bayes. Without employing feature selection techniques, our suggested offline signature verification achieved a classification accuracy of 91.3%, whereas using the NCA feature selection approach with just 300 features it achieved a classification accuracy of 97.7%. High classification accuracy was achieved using the designed and suggested model, which also has the benefit of being a self-organized framework. Consequently, using the optimum minimally chosen features, the proposed method could identify the best model performance and result validation prediction vectors. | 翻訳日:2024-01-22 09:14:43 公開日:2024-01-05 |
# 拡散モデルによる表面の摩擦特性の調整 Tailoring Frictional Properties of Surfaces Using Diffusion Models ( http://arxiv.org/abs/2401.05206v1 ) ライセンス: Link先を確認 | Even Marius Nordhagen, Henrik Andersen Sveinsson, Anders Malthe-S{\o}renssen | (参考訳) 本稿では,条件付き生成機械学習モデル,特に拡散復調確率モデル(DDPM)を用いて表面摩擦特性を正確に設計する手法を提案する。
分子動力学シミュレーションにより得られた摩擦特性を持つ合成表面のデータセットを作成し、DDPMに所望の摩擦結果から表面構造を予測する訓練を行った。
従来の試行錯誤法や数値最適化法とは異なり、この手法は摩擦基準を精度と効率で満たした表面設計を直接生み出す。
この材料表面工学の進歩は、表面設計プロセスの反復性を減らす機械学習の可能性を示している。
本研究は, 表面特性を精密に調整する新しい経路を提供するだけでなく, 表面特性が重要となる材料科学の幅広い応用を示唆する。 This Letter introduces an approach for precisely designing surface friction properties using a conditional generative machine learning model, specifically a diffusion denoising probabilistic model (DDPM). We created a dataset of synthetic surfaces with frictional properties determined by molecular dynamics simulations, which trained the DDPM to predict surface structures from desired frictional outcomes. Unlike traditional trial-and-error and numerical optimization methods, our approach directly yields surface designs meeting specified frictional criteria with high accuracy and efficiency. This advancement in material surface engineering demonstrates the potential of machine learning in reducing the iterative nature of surface design processes. Our findings not only provide a new pathway for precise surface property tailoring but also suggest broader applications in material science where surface characteristics are critical. | 翻訳日:2024-01-15 09:08:23 公開日:2024-01-05 |
# 強相関状態の特徴:3フェルミオン1次元高調波トラップからの教訓 Characteristic features of the strongly-correlated regime: Lessons from a 3-fermion one-dimensional harmonic trap ( http://arxiv.org/abs/2401.04733v1 ) ライセンス: Link先を確認 | Victor Caliva and Johanna I Fuks | (参考訳) 1次元調和ポテンシャルに閉じ込められた3つのフェルミオンの強相関状態への遷移について検討した。
この興味深い、しかしあまり研究されていないシステムによって、制度の特徴的な特徴を識別することができ、その一部は産業に関連する強い相関関係にある。
さらに, 量子ドット中の電子の挙動, ポールトラップ中のイオン, 1次元光学格子中のフェルミオン原子についても記述した。
基底状態付近では、これら全てのプラットフォームは調和ポテンシャルに閉じ込められたフェルミオンとして記述できる。
相関系はトラップ電位の自然周波数を変化させることで制御でき、それを探索するためにツイスト光を用いることを提案する。
1次元の3フェルミオントラップに強い相関を示す4つのシグネチャを同定し,n個の閉じ込められたフェルミオンが存在する可能性が示唆された。
i) 基底状態密度はn個の極大分離ピーク(wigner crystal)で強く局在している。
二 対称及び反対称基底状態の波動関数が退化する(ボゾン化)
三 フォン・ノイマンエントロピーが成長する。
iv)エネルギースペクトルは、N正規モード以下で完全に特徴づけられる。 The transition into a strongly-correlated regime of 3 fermions trapped in a one-dimensional harmonic potential is investigated. This interesting, but little-studied system, allows us to identify characteristic features of the regime, some of which are also present in strongly-correlated materials relevant to the industry. Furthermore, our findings describe the behavior of electrons in quantum dots, ions in Paul traps, and even fermionic atoms in one-dimensional optical lattices. Near the ground state, all these platforms can be described as fermions trapped in a harmonic potential. The correlation regime can be controlled by varying the natural frequency of the trapping potential, and to probe it, we propose to use twisted light. We identify 4 signatures of strong correlation in the one-dimensional 3-fermion trap, which are likely to be present for any number N of trapped fermions: i) the ground state density is strongly localized with N maximally separated peaks (Wigner Crystal) ii) the symmetric and antisymmetric ground state wavefunctions become degenerate (bosonization) iii) the von Neumann entropy grows, iv) the energy spectrum is fully characterized by N normal modes or less. | 翻訳日:2024-01-15 09:08:10 公開日:2024-01-05 |
# ストックトレンド分類のための並列保持型マルチリレーショナルグラフ拡散ニューラルネットワーク Multi-relational Graph Diffusion Neural Network with Parallel Retention for Stock Trends Classification ( http://arxiv.org/abs/2401.05430v1 ) ライセンス: Link先を確認 | Zinuo You, Pengju Zhang, Jin Zheng, John Cartlidge | (参考訳) 株価トレンドの分類は、株価と内部の複雑な時間進化のダイナミクスのため、基本的かつ困難な課題である。
この2つの課題に取り組むために,複数の株式の将来的な動きを予測するためのグラフベース表現学習手法を提案する。
まず、動的多元関係ストックグラフを生成することによって、株式間の複雑な時間的変動関係をモデル化する。
これは、情報エントロピーと信号エネルギーを利用して各取引日における株間関係の強さと方向を定量化する新しいエッジ生成アルゴリズムによって達成される。
そして,これらの初期グラフを,確率的マルチリレーショナル拡散プロセスにより改良し,タスク最適エッジを適応的に学習する。
その後,並列保持を持つ分離表現学習スキームを実装し,最後のグラフ表現を得る。
この戦略は個々の株式の独特な時間的特徴をよりよく捉え、同時に株価グラフ全体の構造も捉える。
2つの米国市場(nasdaqとnyse)と1つの中国市場(shanghai stock exchange: sse)からの実世界のデータセットで包括的な実験を行い、本手法の有効性を検証した。
当社のアプローチは、7年にわたる3回の試行期間における次のトレーディングデイの株価トレンドを予想する上で、常に最先端のベースラインを上回ります。
データセットとコードがリリースされた(https://github.com/pixelhero98/MGDPR)。 Stock trend classification remains a fundamental yet challenging task, owing to the intricate time-evolving dynamics between and within stocks. To tackle these two challenges, we propose a graph-based representation learning approach aimed at predicting the future movements of multiple stocks. Initially, we model the complex time-varying relationships between stocks by generating dynamic multi-relational stock graphs. This is achieved through a novel edge generation algorithm that leverages information entropy and signal energy to quantify the intensity and directionality of inter-stock relations on each trading day. Then, we further refine these initial graphs through a stochastic multi-relational diffusion process, adaptively learning task-optimal edges. Subsequently, we implement a decoupled representation learning scheme with parallel retention to obtain the final graph representation. This strategy better captures the unique temporal features within individual stocks while also capturing the overall structure of the stock graph. Comprehensive experiments conducted on real-world datasets from two US markets (NASDAQ and NYSE) and one Chinese market (Shanghai Stock Exchange: SSE) validate the effectiveness of our method. Our approach consistently outperforms state-of-the-art baselines in forecasting next trading day stock trends across three test periods spanning seven years. Datasets and code have been released (https://github.com/pixelhero98/MGDPR). | 翻訳日:2024-01-15 08:23:22 公開日:2024-01-05 |
# 視覚障害者のための触覚署名システムの概念 The Concept of the Tactile Signature System for Individuals with Visual Impairments ( http://arxiv.org/abs/2401.04126v1 ) ライセンス: Link先を確認 | Anatoliy Kremenchutskiy, Galymzhan Gabdreshov | (参考訳) 視覚障害者が手書き署名を作成するためのアクセス可能で効果的なシステムがないことは、彼らの独立と生活の様々な側面への完全な参加に重大な障壁をもたらす。
本研究は,視覚障害を持つ個人に対して,独自の手書き署名を形成するための画期的なアプローチである触覚シグネチャシステムを紹介する。
パーソナライズされたカスタマイズ: 触覚インタラクションと音声アルゴリズムによるガイダンスを通じて、個人は好みや自然な書き方を反映した署名を作成する。
リアルタイムフィードバック: AIによる音声プロンプトと分析により、シグネチャ生成の正確性と一貫性が保証される。
アクセシビリティ: ローカルサービスセンターのインストールは、署名生成のためのセキュアで管理された環境を提供する。
システムの影響は個人レベルを超えている: 排他性と独立性を促進する: 盲目の個人は他人に頼らずに法的および金融的な取引を行うことができる。
エンパワーズは平等な機会を育む: 教育、雇用、市民のエンゲージメントへの参加がよりアクセスしやすくなる。
国際コンベンションの遵守: 障害者が社会に完全に参加する権利を保持する。
触覚シグネチャシステムは、視覚障害者にとって包括的でアクセスしやすい未来への大きな一歩である。 The lack of an accessible and effective system for blind individuals to create handwritten signatures presents a significant barrier to their independence and full participation in various aspects of life. This research introduces the Tactile Signature System, a groundbreaking approach that empowers individuals with visual impairments to form their unique handwritten signatures. Key features of the system include: Personalized customization: Through tactile interaction and voice algorithmic guidance, individuals create signatures reflecting their preferences and natural writing style. Real-time feedback: AI-powered voice prompts and analysis ensure accuracy and consistency in signature formation. Accessibility: Installation in local service centers provides a secure and supervised environment for signature creation. The system's impact reaches beyond the individual level: Promotes inclusivity and independence: Blind individuals can engage in legal and financial transactions without relying on others. Empowers and fosters equal opportunities: Participation in education, employment, and civic engagement becomes more accessible. Aligns with international conventions: Upholds the right of persons with disabilities to participate fully in society. The Tactile Signature System represents a significant step towards an inclusive and accessible future for individuals with visual impairments. | 翻訳日:2024-01-10 19:00:30 公開日:2024-01-05 |
# DGPO:多様性誘導政策最適化による複数戦略の発見 DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization ( http://arxiv.org/abs/2207.05631v3 ) ライセンス: Link先を確認 | Wentse Chen, Shiyu Huang, Yuan Chiang, Tim Pearce, Wei-Wei Tu, Ting Chen, Jun Zhu | (参考訳) ほとんどの強化学習アルゴリズムは、与えられたタスクを解決する単一の最適戦略を求める。
しかし、エージェントとユーザとのインタラクションをより活発にしたり、あるいは予期せぬ摂動に対するポリシーの堅牢性を改善するために、多様なソリューションセットを学ぶことは、しばしば有用である。
本稿では,特定の課題を解決するための複数の戦略を見出すオンポリシーアルゴリズムであるdgpoを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
具体的には,情報理論の多様性目標に基づく本質的な報酬を設計する。
最終目標は戦略の多様性と外的報酬を交互に制約することであった。
制約付き最適化問題を確率的推論タスクとして解き、導出した下限を最大化するためにポリシー反復を用いる。
実験の結果,多種多様な強化学習タスクにおいて,多様な戦略を効率的に発見できることがわかった。
ベースライン法と比較して、DGPOはより多様な戦略を発見し、しばしばより良いサンプル効率で同等の報酬を得る。 Most reinforcement learning algorithms seek a single optimal strategy that solves a given task. However, it can often be valuable to learn a diverse set of solutions, for instance, to make an agent's interaction with users more engaging, or improve the robustness of a policy to an unexpected perturbance. We propose Diversity-Guided Policy Optimization (DGPO), an on-policy algorithm that discovers multiple strategies for solving a given task. Unlike prior work, it achieves this with a shared policy network trained over a single run. Specifically, we design an intrinsic reward based on an information-theoretic diversity objective. Our final objective alternately constraints on the diversity of the strategies and on the extrinsic reward. We solve the constrained optimization problem by casting it as a probabilistic inference task and use policy iteration to maximize the derived lower bound. Experimental results show that our method efficiently discovers diverse strategies in a wide variety of reinforcement learning tasks. Compared to baseline methods, DGPO achieves comparable rewards, while discovering more diverse strategies, and often with better sample efficiency. | 翻訳日:2024-01-10 00:48:44 公開日:2024-01-05 |
# 言語モデル間インタラクションの評価 Evaluating Human-Language Model Interaction ( http://arxiv.org/abs/2212.09746v5 ) ライセンス: Link先を確認 | Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang | (参考訳) 言語モデル(LM)の現実的な応用は、筆記補助やコードオートコンプリートなど、人間とLMの相互作用を含む。
しかしながら、ほとんどのベンチマークは、モデルが人間の関与なしに出力を生成するという点で非インタラクティブである。
HALIE(Human-AI Language-based Interaction Evaluation)と呼ばれる,対話型システムのコンポーネントと,評価指標を設計する際に考慮すべき次元を定義するフレームワークを開発した。
HALIE の標準的非対話的評価との比較
(i)最終的な出力だけでなく、対話的なプロセス
(ii)第三者のアセスメントに限らず、一人称主観的な経験
(iii)品質を超えた選好の概念(楽しさ及び所有権など)
次に,ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,インタラクションのさまざまな形式をカバーする5つのタスクを設計した。
最先端の4つのLM(OpenAIのGPT-3とAI21 LabsのJurassic-1の3つの変種)では、より優れた非インタラクティブ性能は、必ずしもより良い人間とLMの相互作用に変換されない。
特に,非対話的,インタラクティブな指標から得られた結果が,LM評価における人間とLMの相互作用の重要性を浮き彫りにした3つの事例を強調した。 Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation. | 翻訳日:2024-01-10 00:38:25 公開日:2024-01-05 |
# 間隔準メトリック埋め込みによる非対称距離の表現の改善 Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings ( http://arxiv.org/abs/2211.15120v2 ) ライセンス: Link先を確認 | Tongzhou Wang, Phillip Isola | (参考訳) 非対称距離構造(準距離構造)は、私たちの生活においてユビキタスであり、機械学習応用においてより注目を集めている。
このような準計量構造をモデル表現に取り入れることで、強化学習(RL)や因果関係学習など、多くの課題が改善されることが示されている。
本研究では,そのような準メトリックモデルにおいて4つの望ましい性質を示し,それに対してどのように先行作用が失敗するかを示す。
4つの基準を全て満たすために, IQE (Interval Quasimetric Embedding) を提案する。
3つの準メトリック学習実験において、iqeは強い近似と一般化能力を示し、従来の方法よりも優れた性能と効率をもたらす。
Project Page: https://www.tongzhouwang.info/interval_quasimetric_embedding Quasimetric Learning Code Package: https://www.github.com/quasimetric-learning/torch-quasimetric Asymmetrical distance structures (quasimetrics) are ubiquitous in our lives and are gaining more attention in machine learning applications. Imposing such quasimetric structures in model representations has been shown to improve many tasks, including reinforcement learning (RL) and causal relation learning. In this work, we present four desirable properties in such quasimetric models, and show how prior works fail at them. We propose Interval Quasimetric Embedding (IQE), which is designed to satisfy all four criteria. On three quasimetric learning experiments, IQEs show strong approximation and generalization abilities, leading to better performance and improved efficiency over prior methods. Project Page: https://www.tongzhouwang.info/interval_quasimetric_embedding Quasimetric Learning Code Package: https://www.github.com/quasimetric-learning/torch-quasimetric | 翻訳日:2024-01-10 00:37:37 公開日:2024-01-05 |
# Geometric Information Bottleneckを用いた説明可能なレコメンダ Explainable Recommender with Geometric Information Bottleneck ( http://arxiv.org/abs/2305.05331v2 ) ライセンス: Link先を確認 | Hanqi Yan, Lin Gui, Menghan Wang, Kun Zhang, Yulan He | (参考訳) 説明可能なレコメンデータシステムは、レコメンデーションの決定を説明し、システムに対するユーザの信頼を高めることができる。
ほとんどの説明可能なレコメンデータシステムは、説明生成のためのモデルをトレーニングするために、人間の注釈による推論に依存するか、レビューから重要なテキストスパンを説明として抽出するために注意メカニズムを利用する。
抽出された合理性はしばしば個々のレビューに制限され、レビューテキスト以外の暗黙的な特徴を特定することができない。
コストのかかる人的アノテーションのプロセスを避け,個々のレビューを超えて説明を生成するために,ユーザとイテムのインタラクションから学習した幾何学的事前学習を,ユーザとイテムのレビューから潜在要因を推測する変動ネットワークに組み込むことを提案する。
個別のユーザ・イテムペアからの潜伏因子は、推薦と説明の生成の両方に利用することができ、これは、前回の知識で符号化されたグローバルな特性を自然に継承する。
3つの電子商取引データセットによる実験結果から,提案手法は推薦行動の観点から既存のコンテンツベースレコメンデータシステムに匹敵する性能を保ちながら,ワッサーシュタイン距離を用いた変分レコメンデータの解釈可能性を大幅に向上することが示された。 Explainable recommender systems can explain their recommendation decisions, enhancing user trust in the systems. Most explainable recommender systems either rely on human-annotated rationales to train models for explanation generation or leverage the attention mechanism to extract important text spans from reviews as explanations. The extracted rationales are often confined to an individual review and may fail to identify the implicit features beyond the review text. To avoid the expensive human annotation process and to generate explanations beyond individual reviews, we propose to incorporate a geometric prior learnt from user-item interactions into a variational network which infers latent factors from user-item reviews. The latent factors from an individual user-item pair can be used for both recommendation and explanation generation, which naturally inherit the global characteristics encoded in the prior knowledge. Experimental results on three e-commerce datasets show that our model significantly improves the interpretability of a variational recommender using the Wasserstein distance while achieving performance comparable to existing content-based recommender systems in terms of recommendation behaviours. | 翻訳日:2024-01-10 00:02:43 公開日:2024-01-05 |
# RL$^3$: RLによるメタ強化学習をRL$^2$内で促進する RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ ( http://arxiv.org/abs/2306.15909v3 ) ライセンス: Link先を確認 | Abhinav Bhatia, Samer B. Nashed, Shlomo Zilberstein | (参考訳) RL$^2$のようなメタ強化学習(meta-RL)手法は、与えられたタスク分布に合わせてデータ効率のよいRLアルゴリズムを学習するための有望なアプローチとして登場した。
しかしながら、これらのRLアルゴリズムは、値関数のような一般的なRLコンポーネントにまとめるのではなく、繰り返しニューラルネットワークを使用して経験のシーケンスを処理するため、長い水平タスクや分配タスクに苦労する。
さらに、トランスフォーマーでさえ、トレーニングや推論コストが禁じられる前に効率的に推論できる履歴の長さに実用的な制限がある。
対照的に、従来のRLアルゴリズムはドメイン知識を活用せず、より多くのデータが利用可能になるにつれて最適なポリシーに収束するので、データ非効率である。
本稿では,従来のRLとメタRLを組み合わせたハイブリッド手法であるRL$^3$を提案する。
rl$^3$ は rl$^2$ と比較して長期ホリゾン・アウト・オブ・ディストリビューション・タスクでより大きな累積報酬を得られるが、短期的には後者の効率は維持される。
様々な短期的、長期的、複雑な依存関係を示すメタRL文献から、カスタムドメインとベンチマークドメインの両方で実験を行う。 Meta reinforcement learning (meta-RL) methods such as RL$^2$ have emerged as promising approaches for learning data-efficient RL algorithms tailored to a given task distribution. However, these RL algorithms struggle with long-horizon tasks and out-of-distribution tasks since they rely on recurrent neural networks to process the sequence of experiences instead of summarizing them into general RL components such as value functions. Moreover, even transformers have a practical limit to the length of histories they can efficiently reason about before training and inference costs become prohibitive. In contrast, traditional RL algorithms are data-inefficient since they do not leverage domain knowledge, but they do converge to an optimal policy as more data becomes available. In this paper, we propose RL$^3$, a principled hybrid approach that combines traditional RL and meta-RL by incorporating task-specific action-values learned through traditional RL as an input to the meta-RL neural network. We show that RL$^3$ earns greater cumulative reward on long-horizon and out-of-distribution tasks compared to RL$^2$, while maintaining the efficiency of the latter in the short term. Experiments are conducted on both custom and benchmark discrete domains from the meta-RL literature that exhibit a range of short-term, long-term, and complex dependencies. | 翻訳日:2024-01-09 23:37:28 公開日:2024-01-05 |
# 高インピーダンス表面波共振器 High-impedance surface acoustic wave resonators ( http://arxiv.org/abs/2306.12993v2 ) ライセンス: Link先を確認 | Yadav P. Kandel, Suraj Thapa Magar, Arjun Iyer, William H. Renninger, John M. Nichol | (参考訳) 小型化、低損失化、磁場や高温との互換性から、表面波共振器は将来の量子インターコネクトとして大きな可能性を秘めている。
本稿では、半導体量子ドットを含むナノスケール固体量子システムに強い静電容量結合のポテンシャルを持つGHz帯表面波共振器の設計、製造、特性評価を行う。
このような系への強い容量結合は大きな特性インピーダンスを必要とし、我々が構成する共振器は100$\Omega$を超えるインピーダンス値を持つ。
ガウス音響モードを密閉することにより,高インピーダンス値を実現する。
同時に、共振器の損失も低く、ミリケルビン温度では品質要因は数千である。
これらの高インピーダンス共振器は、大きな真空電界揺らぎを示し、様々な固体量子系と強い結合の可能性を期待されている。 Because of their small size, low loss, and compatibility with magnetic fields and elevated temperatures, surface acoustic wave resonators hold significant potential as future quantum interconnects. Here, we design, fabricate, and characterize GHz-frequency surface acoustic wave resonators with the potential for strong capacitive coupling to nanoscale solid-state quantum systems, including semiconductor quantum dots. Strong capacitive coupling to such systems requires a large characteristic impedance, and the resonators we fabricate have impedance values above 100 $\Omega$. We achieve such high impedance values by tightly confining a Gaussian acoustic mode. At the same time, the resonators also have low loss, with quality factors of several thousand at millikelvin temperatures. These high-impedance resonators are expected to exhibit large vacuum electric-field fluctuations and have the potential for strong coupling to a variety of solid-state quantum systems. | 翻訳日:2024-01-09 23:36:06 公開日:2024-01-05 |
# 1光子が2つの原子を同時に励起する超強結合光マター系 One photon simultaneously excites two atoms in a ultrastrongly coupled light-matter system ( http://arxiv.org/abs/2307.15437v2 ) ライセンス: Link先を確認 | Akiyoshi Tomonaga, Roberto Stassi, Hiroto Mukai, Franco Nori, Fumiki Yoshihara, and Jaw-Shen Tsai | (参考訳) 2つのフラックス量子ビットからなる超伝導回路を共振器に超強結合させる実験を行った。
フラックス量子ビットのアンハーモニック性が大きいため、この系はスピンスピン相互作用項を含む一般化されたディッケ・ハミルトニアンによって正しく記述できる。
実験的に測定されたスペクトルにおいて、回避されたレベル交差は、共振器から \textit{one} 光子を吸収することによって \textit{two} 人工原子の \textit{simultaneous} 励起を可能にするエキゾチック相互作用の証拠を提供する。
この多原子超強結合系は、励起数が保存されていない非線形光学の研究の扉を開く。
これにより、チップ上の量子情報処理タスクの新しいプロセスが可能になる。 We experimentally investigate a superconducting circuit composed of two flux qubits ultrastrongly coupled to a common $LC$ resonator. Owing to the large anharmonicity of the flux qubits, the system can be correctly described by a generalized Dicke Hamiltonian containing spin-spin interaction terms. In the experimentally measured spectrum, an avoided level crossing provides evidence of the exotic interaction that allows the \textit{simultaneous} excitation of \textit{two} artificial atoms by absorbing \textit{one} photon from the resonator. This multi-atom ultrastrongly coupled system opens the door to studying nonlinear optics where the number of excitations is not conserved. This enables novel processes for quantum-information processing tasks on a chip. | 翻訳日:2024-01-09 23:24:05 公開日:2024-01-05 |
# 生成型adversarial neural operatorsによる広帯域動画像合成:開発と検証 Broadband Ground Motion Synthesis via Generative Adversarial Neural Operators: Development and Validation ( http://arxiv.org/abs/2309.03447v2 ) ライセンス: Link先を確認 | Yaozhong Shi, Grigorios Lavrentiadis, Domniki Asimaki, Zachary E. Ross, Kamyar Azizzadenesheli | (参考訳) 本稿では,GANO(Generative Adversarial Neural Operator)を用いた地動合成のためのデータ駆動モデルを提案する。このモデルでは,機械学習の最近の進歩とオープンアクセスの強い動きデータセットを組み合わせて,モーメントマグニチュード(M$),破断距離(R_{rup}$),最大30mの時間平均せん断波速度(V_{S30}$),テクトニック環境や断層のスタイルを条件とした3成分加速度時間ヒストリーを生成する。
モデルトレーニングがデータサンプリング周波数に依存しないことを保証する、分解能不変量アーキテクチャであるneural operatorsを使用する。
まず, 条件付きグラウンドモーション合成アルゴリズム(従来はcGM-GANOと呼ばれていた)について述べる。
次に,南カリフォルニア地震センター(SCEC)ブロードバンド・プラットフォーム(BBP)で発生する地動シミュレーションを用いて,cGM-GANOフレームワークを検証する。
最後に、日本のKK-netデータセット上でcGM-GANOをトレーニングし、このフレームワークがフーリエ振幅と擬スペクトル加速度のスケール、距離、および$V_{S30}$を回復可能であることを示す。
実験データを用いた残差解析と,選択した地動シナリオに対する従来の地動モデル(GMM)との比較により,cGM-GANOの評価を行った。
その結果,cGM-GANOは,対応するテクトニクス環境のGMMと一貫した中央値のスケーリングを実現することがわかった。
最大のミスフィットは、トレーニングデータの不足により、短距離で観測される。
短距離の例外を除いて、応答スペクトル順序の摂動変動性は、特にトレーニングデータの適切さによる沈み込みイベントに関してもよく理解されている。
提案フレームワークの応用には、サイト固有のエンジニアリングアプリケーションのためのリスク対象地動の生成が含まれる。 We present a data-driven model for ground-motion synthesis using a Generative Adversarial Neural Operator (GANO) that combines recent advancements in machine learning and open access strong motion data sets to generate three-component acceleration time histories conditioned on moment magnitude ($M$), rupture distance ($R_{rup}$), time-average shear-wave velocity at the top $30m$ ($V_{S30}$), and tectonic environment or style of faulting. We use Neural Operators, a resolution invariant architecture that guarantees that the model training is independent of the data sampling frequency. We first present the conditional ground-motion synthesis algorithm (referred to heretofore as cGM-GANO) and discuss its advantages compared to previous work. Next, we verify the cGM-GANO framework using simulated ground motions generated with the Southern California Earthquake Center (SCEC) Broadband Platform (BBP). We lastly train cGM-GANO on a KiK-net dataset from Japan, showing that the framework can recover the magnitude, distance, and $V_{S30}$ scaling of Fourier amplitude and pseudo-spectral accelerations. We evaluate cGM-GANO through residual analysis with the empirical dataset as well as by comparison with conventional Ground Motion Models (GMMs) for selected ground motion scenarios. Results show that cGM-GANO produces consistent median scaling with the GMMs for the corresponding tectonic environments. The largest misfit is observed at short distances due to the scarcity of training data. With the exception of short distances, the aleatory variability of the response spectral ordinates is also well captured, especially for subduction events due to the adequacy of training data. Applications of the presented framework include generation of risk-targeted ground motions for site-specific engineering applications. | 翻訳日:2024-01-09 22:59:09 公開日:2024-01-05 |
# 測度に基づく量子ゲートテレポーテーションの要件としての対称性保護トポロジカル秩序 Symmetry protected topological order as a requirement for measurement-based quantum gate teleportation ( http://arxiv.org/abs/2310.10561v3 ) ライセンス: Link先を確認 | Zhuohao Liu, Emma C. Johnson, and David L. Feder | (参考訳) 相関空間における測定に基づく量子テレポーテーションのすべての既知の資源状態は、位相秩序を保護した対称性を持つが、これは十分か必要か?
この研究は、1次元のキュービット状態の2つの族を負の質問に答えるために考慮する。
第一は、有限相関長と熱力学的極限における縮退したエンタングルメントスペクトルによって特徴づけられるが、単一量子ゲートの普遍的な集合を決定論的にテレポートできない大域的非オンサイト対称性によって保護される、特別な場合としてクラスター状態を含む結合次元 2 の行列生成状態の族である。
2つ目は結合次元 4 の状態であり、有限個のシングルキュービットゲートの決定論的普遍的テレポーテーションの資源であるが、対称性を持たない。 All known resource states for measurement-based quantum teleportation in correlation space possess symmetry protected topological order, but is this a sufficient or even necessary condition? This work considers two families of one-dimensional qubit states to answer this question in the negative. The first is a family of matrix-product states with bond dimension two that includes the cluster state as a special case, protected by a global non-onsite symmetry, which is characterized by a finite correlation length and a degenerate entanglement spectrum in the thermodynamic limit but which is unable to deterministically teleport a universal set of single-qubit gates. The second are states with bond dimension four that are a resource for deterministic universal teleportation of finite single-qubit gates, but which possess no symmetry. | 翻訳日:2024-01-09 22:50:45 公開日:2024-01-05 |
# 統一乱数生成ハードウェア設計を生成、シミュレート、デプロイするために高レベル合成と大規模言語モデルを活用する Leveraging High-Level Synthesis and Large Language Models to Generate, Simulate, and Deploy a Uniform Random Number Generator Hardware Design ( http://arxiv.org/abs/2311.03489v4 ) ライセンス: Link先を確認 | James T. Meech | (参考訳) 本稿では,大規模言語モデルツールを用いたハードウェア設計のための高レベル合成手法を提案する。
この方法論は、大きな言語モデルを除くオープンソースツールのみを使用する。
ケーススタディとして,我々の手法を用いて,whidboneインタフェースを用いた変分連続乱数生成器の設計を行った。
大規模言語モデル生成シミュレーションとdieharder randomness test suiteを用いて,乱数生成器設計の機能と品質を検証する。
ケーススタディでは,大規模言語モデルチャットログ,Pythonスクリプト,Verilogスクリプト,シミュレーション結果をすべて文書化しています。
オープンソースシリコン130nm設計ツールと組み合わされたハードウェア設計手法は、アプリケーション固有の集積回路設計に革命をもたらすと信じています。
われわれの手法は、モノのインターネットのためのドメイン固有のコンピューティングアクセラレータを構築する際の参入障壁を著しく低くし、より近代的なプロセスノードにおける後の製造のためのコンセプトプロトタイプの証明を行う。 We present a new high-level synthesis methodology for using large language model tools to generate hardware designs. The methodology uses exclusively open-source tools excluding the large language model. As a case study, we use our methodology to generate a permuted congruential random number generator design with a wishbone interface. We verify the functionality and quality of the random number generator design using large language model-generated simulations and the Dieharder randomness test suite. We document all the large language model chat logs, Python scripts, Verilog scripts, and simulation results used in the case study. We believe that our method of hardware design generation coupled with the open source silicon 130 nm design tools will revolutionize application-specific integrated circuit design. Our methodology significantly lowers the bar to entry when building domain-specific computing accelerators for the Internet of Things and proof of concept prototypes for later fabrication in more modern process nodes. | 翻訳日:2024-01-09 22:22:26 公開日:2024-01-05 |
# AGIのレベル:AGIへの道のりをめざして Levels of AGI: Operationalizing Progress on the Path to AGI ( http://arxiv.org/abs/2311.02462v2 ) ライセンス: Link先を確認 | Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg | (参考訳) 本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIパフォーマンス、一般性、自律性のレベルを導入します。
モデルの比較,リスク評価,AGIへの道程の進捗測定を行う共通言語を提供することで,この枠組みが自律運転のレベルに類似した形で有用になることを願っている。
フレームワークを開発するために、既存のAGIの定義を分析し、AGIにとって有用なオントロジーが満たすべき6つの原則を抽出する。
これらの原則には、メカニズムよりも能力にフォーカスすること、汎用性とパフォーマンスを別々に評価すること、エンドポイントではなくagiに向かう段階を定義することが含まれる。
これらの原則を念頭に置いて,奥行き(性能)と能力の広さ(一般性)に基づく「アギのレベル」を提案し,このオントロジーに現在のシステムがどのように適合するかを考察する。
これらのレベルに対してAGIモデルの振る舞いと能力を定量化する将来のベンチマークの課題について論じる。
最後に、これらのAGIのレベルが自律性やリスクといったデプロイメント上の考慮事項とどのように相互作用するかについて議論し、高機能なAIシステムの責任と安全なデプロイメントにおいて、ヒューマン・AIインタラクションパラダイムを慎重に選択することの重要性を強調します。 We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance, generality, and autonomy. It is our hope that this framework will be useful in an analogous way to the levels of autonomous driving, by providing a common language to compare models, assess risks, and measure progress along the path to AGI. To develop our framework, we analyze existing definitions of AGI, and distill six principles that a useful ontology for AGI should satisfy. These principles include focusing on capabilities rather than mechanisms; separately evaluating generality and performance; and defining stages along the path toward AGI, rather than focusing on the endpoint. With these principles in mind, we propose 'Levels of AGI' based on depth (performance) and breadth (generality) of capabilities, and reflect on how current systems fit into this ontology. We discuss the challenging requirements for future benchmarks that quantify the behavior and capabilities of AGI models against these levels. Finally, we discuss how these levels of AGI interact with deployment considerations such as autonomy and risk, and emphasize the importance of carefully selecting Human-AI Interaction paradigms for responsible and safe deployment of highly capable AI systems. | 翻訳日:2024-01-09 22:21:40 公開日:2024-01-05 |
# 野生生物保護のための効率的な照明不変型タイガー検出フレームワーク An Efficient Illumination Invariant Tiger Detection Framework for Wildlife Surveillance ( http://arxiv.org/abs/2311.17552v2 ) ライセンス: Link先を確認 | Gaurav Pendharkar, A.Ancy Micheal, Jason Misquitta, Ranjeesh Kaippada | (参考訳) タイガー保護は、環境保全、密猟対策、トラの個体数の持続的な成長のためのコミュニティ関与を含む多面的イニシアチブの戦略的展開を必要とする。
人工知能の出現により、トラの監視はオブジェクト検出によって自動化される。
本稿では,トラ検出のためのEnlightenGANとYOLOv8に基づく正確な照明不変フレームワークを提案する。
微調整されたYOLOv8モデルでは、照明の強化なしにmAPスコアが61%に達する。
照明強化により、mAPは0.7%向上する。
このアプローチは、ATRWデータセットの最先端のパフォーマンスを約6%から7%向上させる。 Tiger conservation necessitates the strategic deployment of multifaceted initiatives encompassing the preservation of ecological habitats, anti-poaching measures, and community involvement for sustainable growth in the tiger population. With the advent of artificial intelligence, tiger surveillance can be automated using object detection. In this paper, an accurate illumination invariant framework is proposed based on EnlightenGAN and YOLOv8 for tiger detection. The fine-tuned YOLOv8 model achieves a mAP score of 61% without illumination enhancement. The illumination enhancement improves the mAP by 0.7%. The approaches elevate the state-of-the-art performance on the ATRW dataset by approximately 6% to 7%. | 翻訳日:2024-01-09 22:09:52 公開日:2024-01-05 |
# Hyper-VolTran: HyperNetworksによる3Dオブジェクト構造への高速で一般化可能なワンショット画像 Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks ( http://arxiv.org/abs/2312.16218v2 ) ライセンス: Link先を確認 | Christian Simon, Sen He, Juan-Manuel Perez-Rua, Mengmeng Xu, Amine Benhalloum, Tao Xiang | (参考訳) 拡散モデルによる現在のニューラルリコンストラクション手法は、その一般化能力を制限するため、依然としてシーン固有の最適化に依存している。
一般化と整合性に関する既存のアプローチの限界を克服するため,我々はニューラルレンダリング技術を導入する。
本手法では,符号付き距離関数を表面表現とし,幾何エンコードボリュームとハイパーネットワークを用いて一般化された前処理を取り入れる。
具体的には,生成したマルチビュー入力からニューラルエンコーディングボリュームを構築する。
テスト時に入力画像に条件付けされたSDFネットワークの重みを調整し、HyperNetworksを介して新しいシーンへのモデル適応を可能にする。
合成ビューから得られたアーティファクトを緩和するために,ボリュームトランスフォーマモジュールを用いて,各視点を別々に処理するのではなく,画像特徴の集約性を向上させることを提案する。
提案手法はHyper-VolTranと呼ばれ,シーン固有の最適化のボトルネックを回避し,複数の視点から生成された画像間の一貫性を維持する。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。 Solving image-to-3D from a single view is an ill-posed problem, and current neural reconstruction methods addressing it through diffusion models still rely on scene-specific optimization, constraining their generalization capability. To overcome the limitations of existing approaches regarding generalization and consistency, we introduce a novel neural rendering technique. Our approach employs the signed distance function as the surface representation and incorporates generalizable priors through geometry-encoding volumes and HyperNetworks. Specifically, our method builds neural encoding volumes from generated multi-view inputs. We adjust the weights of the SDF network conditioned on an input image at test-time to allow model adaptation to novel scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts derived from the synthesized views, we propose the use of a volume transformer module to improve the aggregation of image features instead of processing each viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we avoid the bottleneck of scene-specific optimization and maintain consistency across the images generated from multiple viewpoints. Our experiments show the advantages of our proposed approach with consistent results and rapid generation. | 翻訳日:2024-01-09 21:33:27 公開日:2024-01-05 |
# 都市域の進化と土地表面温度 Evolution of urban areas and land surface temperature ( http://arxiv.org/abs/2401.03005v1 ) ライセンス: Link先を確認 | Sudipan Saha, Tushar Verma, Dario Augusto Borges Oliveira | (参考訳) 世界人口の増加に伴い、我々の都市は人口の増加に対応するために拡大してきた。
都市の拡張は概して周辺地域の拡大につながる。
しかし、こうした市街地の拡大は、土地表面温度(LST)が上昇する地域の増加を引き起こす可能性がある。
各夏をデータポイントとして考えることで,lst多年時系列を形成し,クラスタ化して時空間パターンを得る。
これらのパターンから、いくつかの興味深い現象が観測されている。例えば、いくつかのクラスターは、構築された領域と合理的に類似している。
さらに, 開発活動が進む都市では, LST中心の大量移動が数年にわたって進行している。
3つの異なる大陸の3つの異なる都市について、上記の研究を行う。 With the global population on the rise, our cities have been expanding to accommodate the growing number of people. The expansion of cities generally leads to the engulfment of peripheral areas. However, such expansion of urban areas is likely to cause increment in areas with increased land surface temperature (LST). By considering each summer as a data point, we form LST multi-year time-series and cluster it to obtain spatio-temporal pattern. We observe several interesting phenomena from these patterns, e.g., some clusters show reasonable similarity to the built-up area, whereas the locations with high temporal variation are seen more in the peripheral areas. Furthermore, the LST center of mass shifts over the years for cities with development activities tilted towards a direction. We conduct the above-mentioned studies for three different cities in three different continents. | 翻訳日:2024-01-09 21:14:39 公開日:2024-01-05 |
# 人間会話エージェント会話の言語パターンにおけるジェンダーバイアスの探索 Exploring Gender Biases in Language Patterns of Human-Conversational Agent Conversations ( http://arxiv.org/abs/2401.03030v1 ) ライセンス: Link先を確認 | Weizi Liu | (参考訳) 人間と機械のコミュニケーションが高まるにつれて、機械は性別のような人間的な特徴で設計され、不注意に認知バイアスを引き起こす。
音声アシスタントやチャットボットなど、多くの会話エージェント(cas)は女性パーソナラをデフォルトとし、性別のステレオタイプや不平等の持続に関する懸念を引き起こした。
女性の潜在的な客観化とこれらの技術による性ステレオタイプ強化に関する批判が浮上している。
この研究は会話型AI設計にあり、人間とCAの相互作用における性バイアスの影響を深く研究することを目的としている。
行動・コミュニケーション研究の観点からは、このプログラムは知覚だけでなく、casとのインタラクションにおけるユーザの言語スタイルにも焦点を当てている。
casのジェンダーデザインによって、既存のジェンダーバイアスがどのように引き起こされるのかを理解することを目的としている。
さらにcasのジェンダーデザインが性別バイアスを補強し、それらを人間と人間のコミュニケーションに拡張する可能性についても検討している。
本研究の目的は,CAsにおけるジェンダーの割り当てが適切かどうか,デザインにおけるジェンダー平等を促進する方法について,会話エージェントの倫理的デザインを通知することである。 With the rise of human-machine communication, machines are increasingly designed with humanlike characteristics, such as gender, which can inadvertently trigger cognitive biases. Many conversational agents (CAs), such as voice assistants and chatbots, default to female personas, leading to concerns about perpetuating gender stereotypes and inequality. Critiques have emerged regarding the potential objectification of females and reinforcement of gender stereotypes by these technologies. This research, situated in conversational AI design, aims to delve deeper into the impacts of gender biases in human-CA interactions. From a behavioral and communication research standpoint, this program focuses not only on perceptions but also the linguistic styles of users when interacting with CAs, as previous research has rarely explored. It aims to understand how pre-existing gender biases might be triggered by CAs' gender designs. It further investigates how CAs' gender designs may reinforce gender biases and extend them to human-human communication. The findings aim to inform ethical design of conversational agents, addressing whether gender assignment in CAs is appropriate and how to promote gender equality in design. | 翻訳日:2024-01-09 21:02:06 公開日:2024-01-05 |
# 量子コンピュータにおけるループファインマン積分 Loop Feynman integration on a quantum computer ( http://arxiv.org/abs/2401.03023v1 ) ライセンス: Link先を確認 | Jorge J. Mart\'inez de Lejarza, Leandro Cieri, Michele Grossi, Sofia Vallecorsa, Germ\'an Rodrigo | (参考訳) このレターは、量子フーリエ反復振幅推定 (Quantum Fourier Iterative Amplitude Estimation, QFIAE) と呼ばれる新しい量子モンテカルロ積分器の性能と利点を詳細に調べ、Fynman積分を短期量子コンピュータと量子シミュレータで数値的に評価する。
二次的なスピードアップを達成するために、QFIAEは多次元積分を効率的にフーリエ級数に分解する量子ニューラルネットワーク(QNN)を導入した。
1ループのtadpole feynmanダイアグラムでは、実際の量子コンピュータ上で量子アルゴリズムの実装に成功し、解析値との合理的な一致を得た。
より外部の脚を持つoneloop feynmanダイアグラムは量子シミュレータで解析されている。
これらの結果は、我々の量子アルゴリズムがループファインマン積分を効果的に推定する方法を徹底的に説明し、その手法はファイナンス、人工知能、その他の物理科学などの分野にも応用できることを示した。 This Letter investigates in detail the performance and advantages of a new quantum Monte Carlo integrator, dubbed Quantum Fourier Iterative Amplitude Estimation (QFIAE), to numerically evaluate for the first time loop Feynman integrals in a near-term quantum computer and a quantum simulator. In order to achieve a quadratic speedup, QFIAE introduces a Quantum Neural Network (QNN) that efficiently decomposes the multidimensional integrand into its Fourier series. For a one-loop tadpole Feynman diagram, we have successfully implemented the quantum algorithm on a real quantum computer and obtained a reasonable agreement with the analytical values. Oneloop Feynman diagrams with more external legs have been analyzed in a quantum simulator. These results thoroughly illustrate how our quantum algorithm effectively estimates loop Feynman integrals and the method employed could also find applications in other fields such as finance, artificial intelligence, or other physical sciences. | 翻訳日:2024-01-09 21:01:46 公開日:2024-01-05 |
# ディジタル量子プロセッサにおける実時間発展からのフラストレーション磁気系の基底状態エネルギーと磁化曲線 Ground state energy and magnetization curve of a frustrated magnetic system from real-time evolution on a digital quantum processor ( http://arxiv.org/abs/2401.03015v1 ) ライセンス: Link先を確認 | Aaron Szasz, Ed Younis, Wibe Albert de Jong | (参考訳) 物質の新しいエキゾチック相、特に量子スピン液体を実現できる多体量子系を相互作用するモデルは、テンソルネットワークシミュレーションのような最先端の古典的手法でも研究することは困難である。
量子コンピューティングは、これらの困難を克服し、基底状態やダイナミクスなどを見つけるための有望な経路を提供する。
本稿では,最近開発されたリアルタイム進化に基づくハイブリッド量子古典アルゴリズムは,2次元カゴメ格子上の反強磁性ハイゼンベルクモデルであるスピン液体の探索において,特に重要なモデルを解くための有望な手法であると主張する。
本稿では,モデルの時間発展を実現するための効率的な量子回路の構築方法を示し,量子コンピュータ上での可観測性を評価する。
次に, 加古目格子と関連する8スピン系から12スピンの星プラケットに制限し, ハイブリッドアルゴリズムが基底状態エネルギーと磁化曲線を効率的に検出できることを示す。
これらの実演では、厳密な状態ベクトル、サンプリングによる統計的ノイズを伴う厳密な状態ベクトル、ノイズの多い古典的エミュレーター、(8スピン系のみの)実量子ハードウェア、特に量子量子量子h1-1プロセッサの4つのレベルを用いる。
以上の結果から, これらのハイブリッドアルゴリズムは, 凝縮物質理論以降の重要な未解決問題を解く上で有望な方向を示すことが示唆された。 Models of interacting many-body quantum systems that may realize new exotic phases of matter, notably quantum spin liquids, are challenging to study using even state-of-the-art classical methods such as tensor network simulations. Quantum computing provides a promising route for overcoming these difficulties to find ground states, dynamics, and more. In this paper, we argue that recently developed hybrid quantum-classical algorithms based on real-time evolution are promising methods for solving a particularly important model in the search for spin liquids, the antiferromagnetic Heisenberg model on the two-dimensional kagome lattice. We show how to construct efficient quantum circuits to implement time evolution for the model and to evaluate key observables on the quantum computer, and we argue that the method has favorable scaling with increasing system size. We then restrict to a 12-spin star plaquette from the kagome lattice and a related 8-spin system, and we give an empirical demonstration on these small systems that the hybrid algorithms can efficiently find the ground state energy and the magnetization curve. For these demonstrations, we use four levels of approximation: exact state vectors, exact state vectors with statistical noise from sampling, noisy classical emulators, and (for the 8-spin system only) real quantum hardware, specifically the Quantinuum H1-1 processor; for the noisy simulations, we also employ error mitigation strategies based on the symmetries of the Hamiltonian. Our results strongly suggest that these hybrid algorithms present a promising direction for resolving important unsolved problems in condensed matter theory and beyond. | 翻訳日:2024-01-09 21:01:27 公開日:2024-01-05 |
# 非可換空間における共軌道と運動量次数の絡み合いについて On the entanglement of co-ordinate and momentum degrees of freedom in noncommutative space ( http://arxiv.org/abs/2401.03014v1 ) ライセンス: Link先を確認 | Shilpa Nandi, Muklesur Rahaman, Pinaki Patra | (参考訳) 本稿では,位相空間非可換性による量子絡み合いについて検討する。
位置位置と運動量-運動量非可換性は、非可換空間における振動子の陰影下での座標と運動量自由度の絡み合い特性を研究するために組み込まれている。
システムの厳密な解は、モデルが標準変数によって再表現された後に、非可換自由度への特定のボップのシフトを実行することによって得られる。
等方振動子に対する二分極ガウス状態は常に分離可能である。
時間依存システムの研究を拡張するため、パラメータへの任意の時間依存を許容する。
時間依存等方性発振器はルイス・リーゼンフェルド不変量法によって解かれる。
任意の時間依存のシナリオであっても、分離性は変化しない。
我々は、時間非依存のパラメータに対しても絡み合った状態を与える異方振動子に研究を拡大する。
ウィグナー準確率分布はバイパルタイトガウス状態に対して構成される。
雑音行列(共分散行列)はウィグナー分布の助けを借りて明示的に研究される。
サイモンの分離可能性基準 (generalized peres-horodecki criterion) は、二成分状態が分離可能である(質量と周波数)パラメータのユニークな関数を見つけるために用いられてきた。
特に,位相空間の非可換性を含むだけでは絡み合いを生成するのに十分ではなく,同じ足場において異方性は重要であることを示す。 In this paper, we investigate the quantum entanglement induced by phase-space noncommutativity. Both the position-position and momentum-momentum noncommutativity are incorporated to study the entanglement properties of coordinate and momentum degrees of freedom under the shade of oscillators in noncommutative space. Exact solutions for the systems are obtained after the model is re-expressed in terms of canonical variables, by performing a particular Bopp's shift to the noncommuting degrees of freedom. It is shown that the bipartite Gaussian state for an isotropic oscillator is always separable. To extend our study for the time-dependent system, we allow arbitrary time dependency on parameters. The time-dependent isotropic oscillator is solved with the Lewis-Riesenfeld invariant method. It turns out that even for arbitrary time-dependent scenarios, the separability property does not alter. We extend our study to the anisotropic oscillator, which provides an entangled state even for time-independent parameters. The Wigner quasi-probability distribution is constructed for a bipartite Gaussian state. The noise matrix (covariance matrix) is explicitly studied with the help of Wigner distribution. Simon's separability criterion (generalized Peres-Horodecki criterion) has been employed to find the unique function of the (mass and frequency) parameters, for which the bipartite states are separable. In particular, we show that the mere inclusion of non-commutativity of phase-space is not sufficient to generate the entanglement, rather anisotropy is important at the same footing. | 翻訳日:2024-01-09 21:00:57 公開日:2024-01-05 |
# 時系列予測における拡散モデルの台頭 The Rise of Diffusion Models in Time-Series Forecasting ( http://arxiv.org/abs/2401.03006v1 ) ライセンス: Link先を確認 | Caspar Meijer and Lydia Y. Chen | (参考訳) 本調査は,時系列予測における拡散モデルの適用について考察する。
拡散モデルは、生成AIの様々な分野で最先端の結果を示している。
本論文は拡散モデルに関する包括的背景情報を含み,その条件付け手法を詳述し,時系列予測におけるそれらの利用について概説する。
分析は11の特定の時系列実装、その背後にある直観と理論、異なるデータセットの有効性、相互比較をカバーする。
この研究の主な貢献は、時系列予測における拡散モデルの応用の徹底的な探索と、これらのモデルの時系列的概観である。
さらに、本論文は、この領域における最先端技術に関する洞察に富んだ議論を行い、今後の研究の方向性について概説する。
これはaiと時系列分析の研究者にとって貴重な資源となり、拡散モデルの最新の進歩と将来の可能性を明確に示す。 This survey delves into the application of diffusion models in time-series forecasting. Diffusion models are demonstrating state-of-the-art results in various fields of generative AI. The paper includes comprehensive background information on diffusion models, detailing their conditioning methods and reviewing their use in time-series forecasting. The analysis covers 11 specific time-series implementations, the intuition and theory behind them, the effectiveness on different datasets, and a comparison among each other. Key contributions of this work are the thorough exploration of diffusion models' applications in time-series forecasting and a chronologically ordered overview of these models. Additionally, the paper offers an insightful discussion on the current state-of-the-art in this domain and outlines potential future research directions. This serves as a valuable resource for researchers in AI and time-series analysis, offering a clear view of the latest advancements and future potential of diffusion models. | 翻訳日:2024-01-09 21:00:09 公開日:2024-01-05 |
# AST-T5: コード生成と理解のための構造認識事前トレーニング AST-T5: Structure-Aware Pretraining for Code Generation and Understanding ( http://arxiv.org/abs/2401.03003v1 ) ライセンス: Link先を確認 | Linyuan Gong, Mostafa Elhoushi, Alvin Cheung | (参考訳) 大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅な進歩を遂げているが、多くのLLMは、その構造的性質を無視した単純なシーケンスとしてコードを扱う。
AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。
動的プログラミングを用いて、AST-Aware Segmentationはコード構造を保持しますが、AST-Aware Span Corruptionは、さまざまなコード構造を再構築するためのモデルを提供します。
他のモデルとは異なり、AST-T5は複雑なプログラム分析やアーキテクチャの変更を避けるため、エンコーダ・デコーダ変換器とシームレスに統合される。
AST-T5 は、様々なコード関連タスクにおいて、同様の大きさの LM を一貫して上回っている。
AST-T5はコード間タスクにおいて特に強力で、Bug2Fixタスクの正確なマッチスコアの2ポイント、CodeXGLUEのJava-C#トランスパイレーションの正確なマッチスコアの3ポイントを超えている。
私たちのコードとモデルはhttps://github.com/gonglinyuan/ast_t5で公開されています。 Large language models (LLMs) have made significant advancements in code-related tasks, yet many LLMs treat code as simple sequences, neglecting its structured nature. We introduce AST-T5, a novel pretraining paradigm that leverages the Abstract Syntax Tree (AST) for enhanced code generation, transpilation, and understanding. Using dynamic programming, our AST-Aware Segmentation retains code structure, while our AST-Aware Span Corruption objective equips the model to reconstruct various code structures. Unlike other models, AST-T5 avoids intricate program analyses or architectural changes, so it integrates seamlessly with any encoder-decoder Transformer. Evaluations show that AST-T5 consistently outperforms similar-sized LMs across various code-related tasks. Structure-awareness makes AST-T5 particularly powerful in code-to-code tasks, surpassing CodeT5 by 2 points in exact match score for the Bugs2Fix task and by 3 points in exact match score for Java-C# Transpilation in CodeXGLUE. Our code and model are publicly available at https://github.com/gonglinyuan/ast_t5. | 翻訳日:2024-01-09 20:59:53 公開日:2024-01-05 |
# 医用画像分類のためのプロンプト駆動潜在ドメイン一般化 Prompt-driven Latent Domain Generalization for Medical Image Classification ( http://arxiv.org/abs/2401.03002v1 ) ライセンス: Link先を確認 | Siyuan Yan, Chi Liu, Zhen Yu, Lie Ju, Dwarikanath Mahapatra, Brigid Betz-Stablein, Victoria Mar, Monika Janda, Peter Soyer, and Zongyuan Ge | (参考訳) 医用画像解析のためのディープラーニングモデルは、データセットアーティファクトのバイアス、カメラのバリエーション、イメージングステーションの違いなどによる分布シフトに容易に悩まされ、現実の臨床環境では信頼性の低い診断につながる。
ドメイン一般化(Domain Generalization, DG)は、複数のドメイン上のモデルをトレーニングして、見えないドメインでうまく動作させることを目的とした手法である。
しかし、既存のdgメソッドでは、各画像のドメインラベルが利用可能で正確であると仮定しており、通常は限られた数の医療データセットでしか利用できない。
これらの課題に対処するため,Pmpt-driven Latent Domain Generalization (PLDG) と呼ばれるドメインラベルに依存しない新しい医用画像分類フレームワークを提案する。
PLDGは教師なしのドメイン発見と迅速な学習からなる。
このフレームワークはまず、バイアスに関連するスタイル機能をクラスタリングして擬似ドメインラベルを発見し、その後、協調ドメインプロンプトを利用して視覚トランスフォーマーをガイドし、検出された多様なドメインから知識を学習する。
異なるプロンプト間のドメイン間知識学習を容易にするために,ドメインプロンプトと共有プロンプト間の知識共有を可能にするドメインプロンプト生成手法を提案する。
ドメイン混在戦略は、より柔軟な決定マージンのためにも適用され、誤ったドメイン割り当てのリスクを軽減する。
3つの医用画像分類タスクと1つのデバイアス処理タスクに関する大規模な実験により、ドメインラベルを頼らずに従来のDGアルゴリズムと同等あるいはそれ以上の性能を達成できることが実証された。
論文が受け入れられ次第、私たちのコードは公開される予定だ。 Deep learning models for medical image analysis easily suffer from distribution shifts caused by dataset artifacts bias, camera variations, differences in the imaging station, etc., leading to unreliable diagnoses in real-world clinical settings. Domain generalization (DG) methods, which aim to train models on multiple domains to perform well on unseen domains, offer a promising direction to solve the problem. However, existing DG methods assume domain labels of each image are available and accurate, which is typically feasible for only a limited number of medical datasets. To address these challenges, we propose a novel DG framework for medical image classification without relying on domain labels, called Prompt-driven Latent Domain Generalization (PLDG). PLDG consists of unsupervised domain discovery and prompt learning. This framework first discovers pseudo domain labels by clustering the bias-associated style features, then leverages collaborative domain prompts to guide a Vision Transformer to learn knowledge from discovered diverse domains. To facilitate cross-domain knowledge learning between different prompts, we introduce a domain prompt generator that enables knowledge sharing between domain prompts and a shared prompt. A domain mixup strategy is additionally employed for more flexible decision margins and mitigates the risk of incorrect domain assignments. Extensive experiments on three medical image classification tasks and one debiasing task demonstrate that our method can achieve comparable or even superior performance than conventional DG algorithms without relying on domain labels. Our code will be publicly available upon the paper is accepted. | 翻訳日:2024-01-09 20:59:31 公開日:2024-01-05 |
# UnetTSF: より良いパフォーマンスの線形複雑度時系列予測モデル UnetTSF: A Better Performance Linear Complexity Time Series Prediction Model ( http://arxiv.org/abs/2401.03001v1 ) ライセンス: Link先を確認 | Li chu, Xiao bingjia, Yuan qiping | (参考訳) 近年、トランスフォーマーベースモデルは、良好な結果を得て、Dlinearを超えるベースラインモデルとなる時系列予測の分野で大きな進歩を遂げている。
本稿では,線形複雑度を持つU-Net時系列予測モデル(UnetTSF)を提案する。
FPN技術を用いて時系列データから特徴を抽出し、時系列データを時系列データに適した融合構造を設計しながら、時系列データをトレンドや季節的な用語に分解する手法を初めて用いた。
8つのオープンソースのデータセットでテストした後、最高の線形モデルdlinerと比較します。
32の試験プロジェクトのうち、31は最高の結果を得た。
mseの平均減少率は10.1%、maeの平均減少率は9.1%である。
UnetTSFは複雑なトランスフォーマーベースPatchTSTと比較して、mseの9つの最適結果と32のテストプロジェクトにおけるmaeの15の最適結果を得た。 Recently, Transformer-base models have made significant progress in the field of time series prediction which have achieved good results and become baseline models beyond Dlinear. The paper proposes an U-Net time series prediction model (UnetTSF) with linear complexity, which adopts the U-Net architecture. We are the first to use FPN technology to extract features from time series data, replacing the method of decomposing time series data into trend and seasonal terms, while designing a fusion structure suitable for time series data. After testing on 8 open-source datasets, compared to the best linear model DLiner. Out of 32 testing projects, 31 achieved the best results. The average decrease in mse is 10.1%, while the average decrease in mae is 9.1%. Compared with the complex transformer-base PatchTST, UnetTSF obtained 9 optimal results for mse and 15 optimal results for mae in 32 testing projects. | 翻訳日:2024-01-09 20:59:02 公開日:2024-01-05 |
# 深層学習バグの再現性向上に向けた実証的研究 Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study ( http://arxiv.org/abs/2401.03069v1 ) ライセンス: Link先を確認 | Mehil B. Shah, Mohammad Masudur Rahman, Foutse Khomh | (参考訳) コンテキスト: ディープラーニングはさまざまな領域で著しく進歩しています。
しかし、従来のソフトウェアシステムと同様に、ディープラーニングシステムにはバグが含まれており、自動運転車によるクラッシュによって証明されるような深刻な影響がある。
ディープラーニング技術の大幅な進歩にもかかわらず、ディープラーニングのバグを再現することに注力する研究はほとんどない。
既存の文献では、深層学習バグのわずか3%が再現可能であり、さらなる研究の必要性を強調している。
目的: 深層学習バグの再現性を検討する。
我々は、深層学習バグ再現性を改善するための編集アクションと有用な情報を特定する。
メソッド: まず、Stack OverflowとDefects4MLから3つのフレームワークと22のアーキテクチャで668のディープラーニングバグのデータセットを構築します。
次に、階層化サンプリングを用いて102のバグを選択し、再現性を決定する。
これらのバグを再現しながら、編集動作とそれらの再生に必要な有用な情報を識別する。
第3に, aprioriアルゴリズムを用いて有用な情報を特定し, 特定のバグタイプを再現するために必要なアクションを編集した。
最後に,22人の開発者を対象に,実生活環境における発見の有効性を評価する。
結果:85のバグを再現し,10の編集動作と5つの有用な情報カテゴリを特定し,深層学習バグの再現に役立てた。
その結果, バグ再現性が22.92%向上し, 再現時間が24.35%低下した。
結論:本研究は,ディープラーニングバグ再現性の重要な問題に対処する。
専門家や研究者は、この発見を利用してディープラーニングバグ再現性を向上させることができる。 Context: Deep learning has achieved remarkable progress in various domains. However, like traditional software systems, deep learning systems contain bugs, which can have severe impacts, as evidenced by crashes involving autonomous vehicles. Despite substantial advancements in deep learning techniques, little research has focused on reproducing deep learning bugs, which hinders resolving them. Existing literature suggests that only 3% of deep learning bugs are reproducible, underscoring the need for further research. Objective: This paper examines the reproducibility of deep learning bugs. We identify edit actions and useful information that could improve deep learning bug reproducibility. Method: First, we construct a dataset of 668 deep learning bugs from Stack Overflow and Defects4ML across 3 frameworks and 22 architectures. Second, we select 102 bugs using stratified sampling and try to determine their reproducibility. While reproducing these bugs, we identify edit actions and useful information necessary for their reproduction. Third, we used the Apriori algorithm to identify useful information and edit actions required to reproduce specific bug types. Finally, we conduct a user study with 22 developers to assess the effectiveness of our findings in real-life settings. Results: We successfully reproduced 85 bugs and identified ten edit actions and five useful information categories that can help us reproduce deep learning bugs. Our findings improved bug reproducibility by 22.92% and reduced reproduction time by 24.35% based on our user study. Conclusions: Our research addresses the critical issue of deep learning bug reproducibility. Practitioners and researchers can leverage our findings to improve deep learning bug reproducibility. | 翻訳日:2024-01-09 20:49:52 公開日:2024-01-05 |
# 量子場理論におけるソーシャルエコーチャンバー--ファデエフ-ポポフゴースト現象、ループダイアグラム、カットオフエネルギー理論の探求 Social Echo Chambers in Quantum Field Theory: Exploring Faddeev-Popov Ghosts Phenomena, Loop Diagrams, and Cut-off Energy Theory ( http://arxiv.org/abs/2401.03067v1 ) ライセンス: Link先を確認 | Yasuko Kawahata | (参考訳) 本稿では, 量子場理論の概念を応用し, 社会現象, 特にディジタル環境, オフライン環境におけるフィルタ気泡の出現と影響を分析するための学際的アプローチを提案する。
フィルターバブルは、デジタルおよびオフライン環境で発生しがちで、メディアリテラシーと情報免疫が極めて低いデジタルネイティブをターゲットにしている。
さらに、ステルスマーケティングの余波、偽ニュース、"インスピレーションマーケティング(inspirational marketing)"など、存在しないステルスマーケティングの形式は急増しており、大きな社会的破壊と搾取につながる可能性がある。
これらは情報リテラシーの低下や知識水準の低下、学術的成果など、様々な社会的リスクの原因である。
遠隔インタラクション,近接インタラクション,ファインマン図,ループ図などの量子力学的原理を探索することにより,社会文脈における情報拡散と意見形成の理解を深めることを目指す。
本モデルでは, エージェントの意見, 相互作用確率, 柔軟性などの重要なパラメータを, さまざまな条件下での意見分布, クラスタ形成, 偏極の観察を容易にする。
本研究の目的は,量子場理論の概念を用いてフィルタ気泡現象を数学的にモデル化し,その社会的影響を分析することである。
本論は議論論文であり,提案手法は社会現象を理解するための革新的な視点を提供するが,その解釈と適用には注意を要する。 This paper presents an interdisciplinary approach to analyze the emergence and impact of filter bubbles in social phenomena, especially in both digital and offline environments, by applying the concepts of quantum field theory. Filter bubbles tend to occur in digital and offline environments, targeting digital natives with extremely low media literacy and information immunity. In addition, in the aftermath of stealth marketing, fake news, "inspirational marketing," and other forms of stealth marketing that never exist are rampant and can lead to major social disruption and exploitation. These are the causes of various social risks, including declining information literacy and knowledge levels and academic achievement. By exploring quantum mechanical principles such as remote interaction, proximity interaction, Feynman diagrams, and loop diagrams, we aim to gain a better understanding of information dissemination and opinion formation in social contexts. Our model incorporates key parameters such as agents' opinions, interaction probabilities, and flexibility in changing opinions, facilitating the observation of opinion distributions, cluster formation, and polarization under a variety of conditions. The purpose of this paper is to mathematically model the filter bubble phenomenon using the concepts of quantum field theory and to analyze its social consequences. This is a discussion paper and the proposed approach offers an innovative perspective for understanding social phenomena, but its interpretation and application require careful consideration. | 翻訳日:2024-01-09 20:49:31 公開日:2024-01-05 |
# CRUXEval: コードの推論、理解、実行のためのベンチマーク CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution ( http://arxiv.org/abs/2401.03065v1 ) ライセンス: Link先を確認 | Alex Gu, Baptiste Rozi\`ere, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve, Sida I. Wang | (参考訳) 800のPython関数(3-13行)からなるベンチマークであるCRUXEval(Code Reasoning, Understanding, and eXecution Evaluation)を紹介する。
各関数は入出力ペアを持ち、入力予測と出力予測という2つの自然なタスクに繋がる。
まず、ベンチマークの将来のバリエーションを作成するために使用できる実行ベンチマークを生成するための一般的なレシピを提案する。
第2に、ベンチマークで20のコードモデルを評価し、最近のHumanEvalのハイスコアモデルの多くがベンチマークで同様の改善を示さないことを発見した。
第3に、単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、解決には程遠いことを示す。
最善の設定であるgpt-4 with chain of thought (cot)は、入力と出力の予測でそれぞれ75%と81%のpass@1を達成している。
対照的に、コードllama 34bは、入力と出力の予測において50%と46%のpass@1を達成し、オープンとクローズドソースモデルのギャップを強調している。
CRUXEvalを強制するモデルが存在しないので、コード推論機能と改善のための領域のレンズとして、単純なプログラムで一貫したGPT-4障害の例を示します。 We present CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation), a benchmark consisting of 800 Python functions (3-13 lines). Each function comes with an input-output pair, leading to two natural tasks: input prediction and output prediction. First, we propose a generic recipe for generating our execution benchmark which can be used to create future variation of the benchmark. Second, we evaluate twenty code models on our benchmark and discover that many recent high-scoring models on HumanEval do not show the same improvements on our benchmark. Third, we show that simple CoT and fine-tuning schemes can improve performance on our benchmark but remain far from solving it. The best setup, GPT-4 with chain of thought (CoT), achieves a pass@1 of 75% and 81% on input and output prediction, respectively. In contrast, Code Llama 34B achieves a pass@1 of 50% and 46% on input and output prediction, highlighting the gap between open and closed source models. As no model is close to acing CRUXEval, we provide examples of consistent GPT-4 failures on simple programs as a lens into its code reasoning capabilities and areas for improvement. | 翻訳日:2024-01-09 20:49:07 公開日:2024-01-05 |
# 超高分解能マルチコントラスト非バイアスアイアトラスと高確率精細化 Super-Resolution Multi-Contrast Unbiased Eye Atlases With Deep Probabilistic Refinement ( http://arxiv.org/abs/2401.03060v1 ) ライセンス: Link先を確認 | Ho Hin Lee, Adam M. Saunders, Michael E. Kim, Samuel W. Remedios, Yucheng Tang, Qi Yang, Xin Yu, Shunxing Bao, Chloe Cho, Louise A. Mawn, Tonia S. Rex, Kevin L. Schey, Blake E. Dewey, Jeffrey M. Spraggins, Jerry L. Prince, Yuankai Huo, and Bennett A. Landman | (参考訳) 眼の形態は、特に軌道と視神経において、個体群によって大きく異なる。
これらの変化は、眼器官の集団的特徴を非バイアス空間参照に一般化する可能性と堅牢性を制限する。
これらの制約に対処するため,高分解能非偏眼アトラスの作成プロセスを提案する。
まず,高平面解像度に比べて低分解能のスキャンから空間的詳細を復元するため,深層学習に基づく超解像アルゴリズムを適用した。
そして、少数の被験者スキャンを用いて、反復的メートル法に基づく登録による初期偏見のない参照を生成する。
残りのスキャンをこのテンプレートに登録し, 臓器境界アライメントを高めるために, より拡張的な変形場を生成する教師なしの深い確率的アプローチを用いてテンプレートを改良する。
4種類のMRI組織コントラストの磁気共鳴画像を用いて,4つのアトラスを別々の空間アライメントで生成する。
各組織造影では, 硬質, アフィンおよび変形性変換からなる標準登録フレームワークと比較して, 4つのラベル付き領域の平均Diceスコアが有意に向上した。
これらの結果は,提案手法を用いた眼器官と境界の効果的なアライメントを強調する。
超解像前処理モデルと深層確率モデルを組み合わせることで、眼のアトラスを生成するという課題に対処し、大まかに変化する集団の標準基準として機能する。 Eye morphology varies significantly across the population, especially for the orbit and optic nerve. These variations limit the feasibility and robustness of generalizing population-wise features of eye organs to an unbiased spatial reference. To tackle these limitations, we propose a process for creating high-resolution unbiased eye atlases. First, to restore spatial details from scans with a low through-plane resolution compared to a high in-plane resolution, we apply a deep learning-based super-resolution algorithm. Then, we generate an initial unbiased reference with an iterative metric-based registration using a small portion of subject scans. We register the remaining scans to this template and refine the template using an unsupervised deep probabilistic approach that generates a more expansive deformation field to enhance the organ boundary alignment. We demonstrate this framework using magnetic resonance images across four different MRI tissue contrasts, generating four atlases in separate spatial alignments. For each tissue contrast, we find a significant improvement in the average Dice score across four labeled regions compared to a standard registration framework consisting of rigid, affine, and deformable transformations. These results highlight the effective alignment of eye organs and boundaries using our proposed process. By combining super-resolution preprocessing and deep probabilistic models, we address the challenge of generating an eye atlas to serve as a standardized reference across a largely variable population. | 翻訳日:2024-01-09 20:48:44 公開日:2024-01-05 |
# URLLCトラフィックに対する信頼性最適化されたユーザアドミッション制御:ニューラルコンテキスト帯域アプローチ Reliability-Optimized User Admission Control for URLLC Traffic: A Neural Contextual Bandit Approach ( http://arxiv.org/abs/2401.03059v1 ) ライセンス: Link先を確認 | Omid Semiari, Hosein Nikopour, Shilpa Talwar | (参考訳) 超信頼性低レイテンシ通信(URLLC)は、次世代無線ネットワークにおける幅広い新興サービスの基盤となっている。
URLLCは基本的に、URLLCトラフィックをサポートするのに十分なリソースがあるかどうかを積極的に判断するネットワークの能力に依存している。
それでも、URLLCユーザ機器(UE)の正確な品質保証(QoS)予測とセル過負荷の防止は非常に難しい作業である。
これは、トラフィックとチャネル統計、ユーザのモビリティ、UE間の相互依存パフォーマンスにQoSメトリクス(レイテンシと信頼性)が依存しているためである。
本稿では, セルに関連付ける前に, URLLC UE に対して QoS を積極的に推定し, セル過負荷を伴わない UE のサブセットのみを許容する新しい QoS 対応 UE 入出力制御手法を開発した。
この目的のために、最適化問題を定式化し、UEのQoS要求とセルレベルの負荷ダイナミクスを認識した効率的なUE入出力制御ポリシーを求める。
この問題を解決するために,非線形帯域問題に対処するに適したフレームワークである(深度)ニューラルコンテキスト帯域に基づく,機械学習に基づく新しい手法を提案する。
実際、ueのインシデントコントローラは、一連のネットワーク測定(コンテキスト)を監視し、コンテキスト依存のqos(reward)予測に基づいてインシデント制御を決定するバンディットエージェントとして扱われる。
シミュレーションの結果,提案手法は最適に近い性能を実現でき,セルレベルのサービス信頼性と資源利用効率の面でかなりの利益が得られることがわかった。 Ultra-reliable low-latency communication (URLLC) is the cornerstone for a broad range of emerging services in next-generation wireless networks. URLLC fundamentally relies on the network's ability to proactively determine whether sufficient resources are available to support the URLLC traffic, and thus, prevent so-called cell overloads. Nonetheless, achieving accurate quality-of-service (QoS) predictions for URLLC user equipment (UEs) and preventing cell overloads are very challenging tasks. This is due to dependency of the QoS metrics (latency and reliability) on traffic and channel statistics, users' mobility, and interdependent performance across UEs. In this paper, a new QoS-aware UE admission control approach is developed to proactively estimate QoS for URLLC UEs, prior to associating them with a cell, and accordingly, admit only a subset of UEs that do not lead to a cell overload. To this end, an optimization problem is formulated to find an efficient UE admission control policy, cognizant of UEs' QoS requirements and cell-level load dynamics. To solve this problem, a new machine learning based method is proposed that builds on (deep) neural contextual bandits, a suitable framework for dealing with nonlinear bandit problems. In fact, the UE admission controller is treated as a bandit agent that observes a set of network measurements (context) and makes admission control decisions based on context-dependent QoS (reward) predictions. The simulation results show that the proposed scheme can achieve near-optimal performance and yield substantial gains in terms of cell-level service reliability and efficient resource utilization. | 翻訳日:2024-01-09 20:48:23 公開日:2024-01-05 |
# クリロフキュービック正規化ニュートン:次元自由収束率を持つ部分空間2次法 Krylov Cubic Regularized Newton: A Subspace Second-Order Method with Dimension-Free Convergence Rate ( http://arxiv.org/abs/2401.03058v1 ) ライセンス: Link先を確認 | Ruichen Jiang, Parameswaran Raman, Shoham Sabach, Aryan Mokhtari, Mingyi Hong, Volkan Cevher | (参考訳) 立方体正規化ニュートン法のような二階最適化法は、その急速な収束速度で知られているが、しかしながら、十分なメモリ要求と計算コストのために高次元の問題では実用的でない。
1つの有望なアプローチは、低次元のサブ空間内で2階更新を実行することである。
しかし、既存の部分空間二階法の大部分はランダムに部分空間を選択し、その結果、問題の次元 $d$ に依存する収束率が遅くなる。
本稿では,凸最適化問題の解法として,次元独立な大域収束率を${O}\left(\frac{1}{mk}+\frac{1}{k^2}\right)$とする,新しい部分空間正規化ニュートン法を提案する。
ここで、$m$は部分空間次元を表し、$d$よりもかなり小さい。
ランダムな部分空間を採用する代わりに、我々の主要な革新は、ヘシアンと目的関数の勾配に付随するクリロフ部分空間内で立方正則ニュートン更新を行うことである。
この結果は、部分空間の2階法に対する次元独立収束率の最初の例を示す。
さらに,Hessianのスペクトル条件が一致した場合,本手法は実次元立方正則ニュートン法の収束率を回復する。
数値実験により,本手法は既存のランダム部分空間法,特に高次元問題よりも高速に収束することを示す。 Second-order optimization methods, such as cubic regularized Newton methods, are known for their rapid convergence rates; nevertheless, they become impractical in high-dimensional problems due to their substantial memory requirements and computational costs. One promising approach is to execute second-order updates within a lower-dimensional subspace, giving rise to subspace second-order methods. However, the majority of existing subspace second-order methods randomly select subspaces, consequently resulting in slower convergence rates depending on the problem's dimension $d$. In this paper, we introduce a novel subspace cubic regularized Newton method that achieves a dimension-independent global convergence rate of ${O}\left(\frac{1}{mk}+\frac{1}{k^2}\right)$ for solving convex optimization problems. Here, $m$ represents the subspace dimension, which can be significantly smaller than $d$. Instead of adopting a random subspace, our primary innovation involves performing the cubic regularized Newton update within the Krylov subspace associated with the Hessian and the gradient of the objective function. This result marks the first instance of a dimension-independent convergence rate for a subspace second-order method. Furthermore, when specific spectral conditions of the Hessian are met, our method recovers the convergence rate of a full-dimensional cubic regularized Newton method. Numerical experiments show our method converges faster than existing random subspace methods, especially for high-dimensional problems. | 翻訳日:2024-01-09 20:47:54 公開日:2024-01-05 |
# 多部システムにおける投影マップによる遺伝子エンタングルメント検出 Genuine Entanglement detection via Projection map in multipartite system ( http://arxiv.org/abs/2401.03052v1 ) ライセンス: Link先を確認 | Bivas Mallick, Sumit Nandi | (参考訳) 正だが完全に正の写像ではない射影写像を考慮し、真の多部交絡を検出するフォーマリズムを提案する。
射影写像は、ブロッホ球面を赤道に沿って円盤に写す量子演算の存在を否定する非パンケーキ定理から動機づけられている。
射影写像の非完全肯定的特徴は、多部量子系における双分離性を証明するための信頼性について検討する。
我々は,三部体シナリオにおける二分割性を確認するために,分離性基準を導出するために投影マップを持ち上げた。
プロジェクションマップは、三部作シナリオ、すなわちW状態とGHZ状態において、真の絡み合いの非等価なSLOCCクラスの両方を検出することができることを示した。
また、プロジェクションマップはホワイトノイズに対して堅牢であることを示した。
また、射影写像を持ち上げることにより、任意のN-量子状態に対する真の多部絡み合いを証明するための一般的な枠組みを構築する。
さらに,GHZ状態を検出するために,本フレームワークの有効性について検討した。 We present a formalism to detect genuine multipartite entanglement by considering projection map which is a positive but not completely positive map. Projection map has been motivated from no-pancake theorem which repudiates the existence of a quantum operation that maps the Bloch sphere onto a disk along its equator. The not-complete positivity feature of projection map is explored to investigate its credibility for certifying bi-separability in multipartite quantum systems. We have lifted projection map to derive a separability criterion in order to ascertain bi-separability in tripartite scenario. We have shown that projection map can detect both inequivalent SLOCC classes of genuine entanglement in tripartite scenario i.e. W state and GHZ state. Also, we have shown that projection map is robust against white noise. We also construct a general framework to certify genuine multipartite entanglement for arbitrary N-qubit states by lifting projection map. The efficacy of our framework is further explored to detect quadripartite GHZ state. | 翻訳日:2024-01-09 20:47:26 公開日:2024-01-05 |
# 事前適応アルゴリズムによる半教師なし校正の収束について On the Convergence of Semi Unsupervised Calibration through Prior Adaptation Algorithm ( http://arxiv.org/abs/2401.03051v1 ) ライセンス: Link先を確認 | Lautaro Estienne, Roberta Hansen, Matias Vera, Luciana Ferrer, Pablo Piantanida | (参考訳) キャリブレーションは機械の傾きの重要な鍵である。
sucpa(semi unsupervised calibration through prior adaptation)は、一階差分方程式系によって定義される大規模言語モデルで用いられるキャリブレーションアルゴリズムである。
この系によって導かれる写像は、非双曲的(non-hyperbolic) {with a non-bounded set of non-isolated fixed points} という特異性を持つ。
本研究では,このアルゴリズムのいくつかの収束特性を力学系の観点から証明する。
二項分類問題に対して、アルゴリズムは常に収束し、より正確には、写像は全世界的に漸近的に安定であり、軌道は固定点の1つの直線に収束することを示すことができる。
最後に,実世界の応用に関する数値実験を行い,提案した結果をサポートする。
実験コードはオンラインで入手できる。 Calibration is an essential key in machine leaning. Semi Unsupervised Calibration through Prior Adaptation (SUCPA) is a calibration algorithm used in (but not limited to) large-scale language models defined by a {system of first-order difference equation. The map derived by this system} has the peculiarity of being non-hyperbolic {with a non-bounded set of non-isolated fixed points}. In this work, we prove several convergence properties of this algorithm from the perspective of dynamical systems. For a binary classification problem, it can be shown that the algorithm always converges, {more precisely, the map is globally asymptotically stable, and the orbits converge} to a single line of fixed points. Finally, we perform numerical experiments on real-world application to support the presented results. Experiment codes are available online. | 翻訳日:2024-01-09 20:47:07 公開日:2024-01-05 |
# latte: ビデオ生成のための潜拡散トランス Latte: Latent Diffusion Transformer for Video Generation ( http://arxiv.org/abs/2401.03048v1 ) ライセンス: Link先を確認 | Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, Yu Qiao | (参考訳) ビデオ生成のための新しいラテント拡散変換器Latteを提案する。
latteはまず入力ビデオから時空間トークンを抽出し、その後一連のトランスフォーマーブロックを採用して潜在空間での動画配信をモデル化した。
ビデオから抽出した大量のトークンをモデル化するために,入力ビデオの空間的次元と時間的次元を分解する観点から4つの効率的な変種を導入する。
生成ビデオの品質を向上させるために,ビデオクリップパッチ埋め込み,モデル変異,時間ステップクラスの情報注入,時間的位置埋め込み,学習戦略など,厳密な実験分析を通じてラテのベストプラクティスを決定する。
包括的評価の結果,Latteは4つの標準ビデオ生成データセット(FaceForensics,SkyTimelapse,UCF101,Taichi-HD)で最先端のパフォーマンスを実現している。
さらに、Latteをテキスト・ツー・ビデオ生成(T2V)タスクに拡張し、Latteは最近のT2Vモデルと同等の結果を得る。
ラッテはビデオ生成のための拡散モデルにトランスフォーマーを組み込む今後の研究に貴重な洞察を与えると信じている。 We propose a novel Latent Diffusion Transformer, namely Latte, for video generation. Latte first extracts spatio-temporal tokens from input videos and then adopts a series of Transformer blocks to model video distribution in the latent space. In order to model a substantial number of tokens extracted from videos, four efficient variants are introduced from the perspective of decomposing the spatial and temporal dimensions of input videos. To improve the quality of generated videos, we determine the best practices of Latte through rigorous experimental analysis, including video clip patch embedding, model variants, timestep-class information injection, temporal positional embedding, and learning strategies. Our comprehensive evaluation demonstrates that Latte achieves state-of-the-art performance across four standard video generation datasets, i.e., FaceForensics, SkyTimelapse, UCF101, and Taichi-HD. In addition, we extend Latte to text-to-video generation (T2V) task, where Latte achieves comparable results compared to recent T2V models. We strongly believe that Latte provides valuable insights for future research on incorporating Transformers into diffusion models for video generation. | 翻訳日:2024-01-09 20:46:51 公開日:2024-01-05 |
# 大規模ニューロン追跡のためのマルチモーダルボリューム特徴の学習 Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing ( http://arxiv.org/abs/2401.03043v1 ) ライセンス: Link先を確認 | Qihua Chen, Xuejin Chen, Chenxuan Wang, Yixiong Liu, Zhiwei Xiong, Feng Wu | (参考訳) 電子顕微鏡(EM)データのための現在のニューロン再構築パイプラインは、通常、自動画像セグメンテーションを含む。
本研究の目的は, 過剰な神経細胞間の接続を予測し, 顕微鏡像と3次元形態的特徴を考慮に入れて, 人間の作業負荷を削減することである。
この目的のために、我々はまずflytracingというデータセットを構築しました。それは、既存のニューロンセグメント接続用のデータセットよりも3桁大きい、fly脳全体を拡張するセグメントの数百万のペアワイズ接続を含みます。
接続アノテーションから高度な生体イメージング特徴を学習するために,密集した体積em画像埋め込みを生成するための新しい接続認識コントラスト学習法を提案する。
学習された埋め込みは、自動ニューロン追跡のための任意の点またはボクセルに基づく形態表現に容易に組み込むことができる。
フライ脳全体にわたる分割誤差の同定における画像と形態的表現の異なる組み合わせスキームの広範な比較は、特にセクション欠落や不一致などの重度の画像アーティファクトを含む場所において、提案手法が優れていることを示している。
データセットとコードはhttps://github.com/Levishery/Flywire-Neuron-Tracingで公開されている。 The current neuron reconstruction pipeline for electron microscopy (EM) data usually includes automatic image segmentation followed by extensive human expert proofreading. In this work, we aim to reduce human workload by predicting connectivity between over-segmented neuron pieces, taking both microscopy image and 3D morphology features into account, similar to human proofreading workflow. To this end, we first construct a dataset, named FlyTracing, that contains millions of pairwise connections of segments expanding the whole fly brain, which is three orders of magnitude larger than existing datasets for neuron segment connection. To learn sophisticated biological imaging features from the connectivity annotations, we propose a novel connectivity-aware contrastive learning method to generate dense volumetric EM image embedding. The learned embeddings can be easily incorporated with any point or voxel-based morphological representations for automatic neuron tracing. Extensive comparisons of different combination schemes of image and morphological representation in identifying split errors across the whole fly brain demonstrate the superiority of the proposed approach, especially for the locations that contain severe imaging artifacts, such as section missing and misalignment. The dataset and code are available at https://github.com/Levishery/Flywire-Neuron-Tracing. | 翻訳日:2024-01-09 20:46:30 公開日:2024-01-05 |
# accidentgpt: 交通事故解析のための大規模マルチモーダル基礎モデル AccidentGPT: Large Multi-Modal Foundation Model for Traffic Accident Analysis ( http://arxiv.org/abs/2401.03040v1 ) ライセンス: Link先を確認 | Kebin Wu and Wenbin Li and Xiaofei Xiao | (参考訳) 交通事故分析は公共の安全と道路規制の整備に不可欠である。
従来のアプローチは広く使われているが、しばしば手動の分析プロセス、主観的決定、一様出力、および機密データに関連するプライバシーの問題によって制約される。
本稿では、交通事故解析の基礎モデルであるAccidentGPTのアイデアを紹介し、マルチモーダル入力データを組み込んで、動的詳細で事故処理映像を自動再構成し、さらにマルチモーダル出力によるマルチタスク解析を提供する。
AccidentGPTの設計には、タスク指向の適応性に対するフィードバックと、ラベル付きおよび遅延のないデータを活用するハイブリッドトレーニングスキーマ、データプライバシのためのエッジクラウド分割構成を備えたマルチモーダルプロンプトが付与されている。
本モデルの機能を完全に実現するために,いくつかの研究機会を提案する。
本論文は,交通事故分析における従来のアプローチのギャップを埋めるための足場となり,事故の自動的・客観的・プライバシー保全的事故分析に研究コミュニティの注目を惹きつける。 Traffic accident analysis is pivotal for enhancing public safety and developing road regulations. Traditional approaches, although widely used, are often constrained by manual analysis processes, subjective decisions, uni-modal outputs, as well as privacy issues related to sensitive data. This paper introduces the idea of AccidentGPT, a foundation model of traffic accident analysis, which incorporates multi-modal input data to automatically reconstruct the accident process video with dynamics details, and furthermore provide multi-task analysis with multi-modal outputs. The design of the AccidentGPT is empowered with a multi-modality prompt with feedback for task-oriented adaptability, a hybrid training schema to leverage labelled and unlabelled data, and a edge-cloud split configuration for data privacy. To fully realize the functionalities of this model, we proposes several research opportunities. This paper serves as the stepping stone to fill the gaps in traditional approaches of traffic accident analysis and attract the research community attention for automatic, objective, and privacy-preserving traffic accident analysis. | 翻訳日:2024-01-09 20:46:09 公開日:2024-01-05 |
# ^<87}$rb原子とyb$^{+}$イオン結晶のためのチップベースのハイブリッドトラップ機構の実現 Realization of a chip-based hybrid trapping setup for $^{87}$Rb atoms and Yb$^{+}$ Ion crystals ( http://arxiv.org/abs/2401.03039v1 ) ライセンス: Link先を確認 | Abasalt Bahrami and Ferdinand Schmidt-Kaler | (参考訳) ハイブリッド量子システムは、レーザー冷却された閉じ込められたイオンと超低温の量子ガスを単一の実験構成に統合し、量子化学、ポーラロン物理学、量子情報処理、量子シミュレーションの応用に大きな可能性を提供する。
本研究では,その直下に平らな原子トラップを組み込んだイオントラップチップの開発と実験的検証について紹介する。
この革新的な設計は、原子トラップポテンシャルの深さと捕捉されたイオンの位置を独立に調整し、精密に整列し安定な成分を提供することによって、ハイブリッド原子イオントラップに関連する特定の課題に対処する。
以上の結果から,線状yb$^{+}$イオン結晶によるイオントラップの負荷と中性$^{87}$rb原子のミラー磁気光学トラップ(mmot)への負荷が得られた。 Hybrid quantum systems integrate laser-cooled trapped ions and ultracold quantum gases within a single experimental configuration, offering vast potential for applications in quantum chemistry, polaron physics, quantum information processing, and quantum simulations. In this study, we introduce the development and experimental validation of an ion trap chip that incorporates a flat atomic chip trap directly beneath it. This innovative design addresses specific challenges associated with hybrid atom-ion traps by providing precisely aligned and stable components, facilitating independent adjustments of the depth of the atomic trapping potential and the positioning of trapped ions. Our findings include successful loading of the ion trap with linear Yb$^{+}$ ion crystals and the loading of neutral $^{87}$Rb atoms into a mirror magneto-optical trap (mMOT) | 翻訳日:2024-01-09 20:45:49 公開日:2024-01-05 |
# SPADE: 大規模言語モデルパイプラインのためのアサーションの合成 SPADE: Synthesizing Assertions for Large Language Model Pipelines ( http://arxiv.org/abs/2401.03038v1 ) ライセンス: Link先を確認 | Shreya Shankar, Haotian Li, Parth Asawa, Madelon Hulsebos, Yiming Lin, J.D. Zamfirescu-Pereira, Harrison Chase, Will Fu-Hinthorn, Aditya G. Parameswaran, Eugene Wu | (参考訳) カスタムで反復的なデータパイプラインのための大規模言語モデル(llm)の運用は、特に予測不可能で破滅的な障害のために難しい。
これらのエラーの必然性を認識し、データ生成パイプラインの一部として繰り返し使用される際にllmが不正確な応答を発生させる可能性があるかを特定することに注力する。
悪質なLLM出力を識別するアサーションを自動的に合成するSPADEを提案する。
spadeはプロンプトバージョン履歴を分析して候補アサーション関数を作成し、カバレッジと精度の要件の両方を満たす最小セットを選択する。
9つの現実世界のllmパイプラインでテストする場合、spadeはアサーションの数を14%削減し、単純なベースラインと比較して21%削減する。 Operationalizing large language models (LLMs) for custom, repetitive data pipelines is challenging, particularly due to their unpredictable and potentially catastrophic failures. Acknowledging the inevitability of these errors, we focus on identifying when LLMs may be generating incorrect responses when used repeatedly as part of data generation pipelines. We present SPADE, a method for automatically synthesizing assertions that identify bad LLM outputs. SPADE analyzes prompt version histories to create candidate assertion functions and then selects a minimal set that fulfills both coverage and accuracy requirements. In testing across nine different real-world LLM pipelines, SPADE efficiently reduces the number of assertions by 14% and decreases false failures by 21% when compared to simpler baselines. | 翻訳日:2024-01-09 20:45:33 公開日:2024-01-05 |
# CATFace:低品質顔認識のための自己注意蒸留を用いたクロスアトリビュート型変換器 CATFace: Cross-Attribute-Guided Transformer with Self-Attention Distillation for Low-Quality Face Recognition ( http://arxiv.org/abs/2401.03037v1 ) ライセンス: Link先を確認 | Niloufar Alipour Talemi, Hossein Kashiani, and Nasser M. Nasrabadi | (参考訳) 近年、顔認識(FR)は大きな成功を収めているが、不明瞭な顔の詳細のため、画質の低い画像の顔を正確に認識することは依然として困難である。
それでも、低画質の画像を扱う場合でも、性別やハゲネスといった特定のソフトバイオメトリックス(SB)属性について予測することがしばしば可能である。
本稿では,SB属性情報を利用してFRの性能を向上させるマルチブランチニューラルネットワークを提案する。
この目的のために, FR と SB の特徴表現の長距離依存性と関係を効果的に捕捉するクロスアトリビュート誘導型トランスフォーマー融合 (CATF) モジュールを提案する。
提案したCATFモジュールの二重対向動作における情報の相互流れによって生じる相乗効果によりFRの性能が向上する。
さらに,低品質画像と高画質画像とを連携させることにより,ランドマークなどの重要な顔領域を効果的に強調する,新しいセルフアテンション蒸留フレームワークを提案する。
提案するセルフアテンション蒸留は, ネットワークを定式化し, 非拘束環境における品質不変な特徴表現を統一的に学習する。
品質の異なる様々なfrベンチマークについて広範な実験を行う。
実験の結果,最先端FR法と比較してFR法が優れていることが示された。 Although face recognition (FR) has achieved great success in recent years, it is still challenging to accurately recognize faces in low-quality images due to the obscured facial details. Nevertheless, it is often feasible to make predictions about specific soft biometric (SB) attributes, such as gender, and baldness even in dealing with low-quality images. In this paper, we propose a novel multi-branch neural network that leverages SB attribute information to boost the performance of FR. To this end, we propose a cross-attribute-guided transformer fusion (CATF) module that effectively captures the long-range dependencies and relationships between FR and SB feature representations. The synergy created by the reciprocal flow of information in the dual cross-attention operations of the proposed CATF module enhances the performance of FR. Furthermore, we introduce a novel self-attention distillation framework that effectively highlights crucial facial regions, such as landmarks by aligning low-quality images with those of their high-quality counterparts in the feature space. The proposed self-attention distillation regularizes our network to learn a unified quality-invariant feature representation in unconstrained environments. We conduct extensive experiments on various FR benchmarks varying in quality. Experimental results demonstrate the superiority of our FR method compared to state-of-the-art FR studies. | 翻訳日:2024-01-09 20:45:20 公開日:2024-01-05 |
# 3次元量子力学系のための解析量子フルウェーブソリューション Analytical Quantum Full-Wave Solutions for a 3D Circuit Quantum Electrodynamics System ( http://arxiv.org/abs/2401.03033v1 ) ライセンス: Link先を確認 | Soomin Moon, Dong-Yeop Na, and Thomas E. Roth | (参考訳) 超伝導回路量子情報プロセッサの性能向上には,高忠実度汎用数値法がますます必要である。
このような数値的手法を開発する上での課題は、それらを検証するための参照データの欠如である。
そこで我々は,古典的電磁理論から解析技術を用いて,量子解析に必要な電磁特性をすべて評価できる3Dシステムを開発した。
本稿では, 量子化法の基礎を概観し, これらの手法を用いて超伝導回路量子デバイスに対する解析的量子フルウェーブ解を初めて作成する。
具体的には、キャビティ内部にトランスモン量子ビットを含まない同軸導波路キャビティの解析を行う。
我々は、量子ビット制御に関連する単一光子干渉と鍵系パラメータの計算における数値計算法と比較することにより、解析解を検証する。
将来的には,数値解析手法の検証や,現実的な3Dデバイスにおける重要な量子効果に関する直観の構築に利用することができる。 High-fidelity general-purpose numerical methods are increasingly needed to improve superconducting circuit quantum information processor performance. One challenge in developing such numerical methods is the lack of reference data to validate them. To address this, we have designed a 3D system where all electromagnetic properties needed in a quantum analysis can be evaluated using analytical techniques from classical electromagnetic theory. Here, we review the basics of our field-based quantization method and then use these techniques to create the first-ever analytical quantum full-wave solution for a superconducting circuit quantum device. Specifically, we analyze a coaxial-fed 3D waveguide cavity with and without transmon quantum bits inside the cavity. We validate our analytical solutions by comparing them to numerical methods in evaluating single photon interference and computing key system parameters related to controlling quantum bits. In the future, our analytical solutions can be used to validate numerical methods, as well as build intuition about important quantum effects in realistic 3D devices. | 翻訳日:2024-01-09 20:45:01 公開日:2024-01-05 |
# AIのブラックボックス問題に対するホワイトボックスソリューション A white box solution to the black box problem of AI ( http://arxiv.org/abs/2401.03093v1 ) ライセンス: Link先を確認 | V. L. Kalmykov, L.V. Kalmykov | (参考訳) ニューラルネットワークに基づく人工知能は大きな進歩を遂げた。
しかし、透明性の欠如により、このアプローチの信頼性とセキュリティが懸念されている。
これはAIのブラックボックスの問題です。
ここでは、透明な白い箱の性質を持つシンボリックAIを用いて、この問題をどのように解決できるかを示す。
シンボリックaiの広範な使用は、数学的モデルと自然言語用語の不透明さ、統一オントロジーの欠如、検索オプションの組合せ爆発によって妨げられている。
そこで我々は,AIブラックボックス問題の解決と汎用的記号型AIの実現を目的として,関連する領域の一般理論の第一原理に基づくルール付き決定論的論理セルオートマトンを提案する。
この場合、関連する領域の一般理論は、セルオートマトン推論の知識基盤としての役割を担っている。
セルオートマトンは複雑なシステムの3つのレベルで自動並列論理推論を実行する。
いくつかの生態仮説の検証は、ホワイトボックスAIの実装における成功例となる。
最後に、知識を処理し、自動決定の信頼性と安全性を確保する汎用のシンボルAIを作成するプログラムについて論じる。 Artificial intelligence based on neural networks has made significant progress. However, there are concerns about the reliability and security of this approach due to its lack of transparency. This is the black box problem of AI. Here we show how this problem can be solved using symbolic AI, which has a transparent white box nature. The widespread use of symbolic AI is hindered by the opacity of mathematical models and natural language terms, the lack of a unified ontology, and the combinatorial explosion of search options. To solve the AI black box problem and to implement general-purpose symbolic AI, we propose to use deterministic logic cellular automata with rules based on first principles of the general theory of the relevant domain. In this case, the general theory of the relevant domain plays the role of a knowledge base for the cellular automaton inference. A cellular automaton implements automatic parallel logical inference at three levels of organization of a complex system. Our verification of several ecological hypotheses provides a successful precedent for the implementation of white-box AI. Finally, we discuss a program for creating a general-purpose symbolic AI capable of processing knowledge and ensuring the reliability and safety of automated decisions. | 翻訳日:2024-01-09 20:35:20 公開日:2024-01-05 |
# 部分代数エントロピーの一般化シュタイン補題と漸近同値性 Generalized Stein's lemma and asymptotic equipartition property for subalgebra entropies ( http://arxiv.org/abs/2401.03090v1 ) ライセンス: Link先を確認 | Li Gao and Mizanur Rahaman | (参考訳) 量子シュタインの補題は、2つの量子状態の区別という文脈における量子仮説テストの基本的な結果である。
一般化量子シュタインの補題として知られる最近の予想では、この結果は量子状態の1つが量子状態の凸集合に置き換えられる一般的な枠組みにおいて真であると主張している。
この研究において、一般化されたスティエンの補題の主張は、第2の仮説が任意の部分代数 $\mathcal{N}$ の状態空間であるような設定に対して真であることを示す。
これは、任意の固定平滑化パラメータ $\epsilon\in (0,1)$ に対して適用される滑らかな部分代数エントロピーに対する強い漸近平衡性によって得られる。
資源理論の応用として, サブアルゲブラの相対エントロピーは, 適切な操作下での漸近希釈コストであることを示す。
これは異なる量子リソース間の接続を確立するためのスコープを提供する。 The quantum Stein's lemma is a fundamental result of quantum hypothesis testing in the context of distinguishing two quantum states. A recent conjecture, known as the ``generalized quantum Stein's lemma", asserts that this result is true in a general framework where one of the states is replaced by convex sets of quantum states. In this work, we show that the assertion of the generalized Stien's lemma is true for the setting where the second hypothesis is the state space of any subalgebra $\mathcal{N}$. This is obtained through a strong asymptotic equipartition property for smooth subalgebra entropies that applies for any fixed smoothing parameter $\epsilon\in (0,1)$. As an application in resource theory, we show that the relative entropy of a subalgebra is the asymptotic dilution cost under suitable operations. This provides a scope to establish a connection between different quantum resources. | 翻訳日:2024-01-09 20:35:04 公開日:2024-01-05 |
# 畳み込みニューラルネットワーク学習表現を用いたオフライン署名検証のための合意閾値基準 Consensus-Threshold Criterion for Offline Signature Verification using Convolutional Neural Network Learned Representations ( http://arxiv.org/abs/2401.03085v1 ) ライセンス: Link先を確認 | Paul Brimoh, Chollette C. Olisah | (参考訳) 真のシグナーの署名は、短時間のインターバルでも自然に不安定であるが、専門家の偽造者は、常に本物のシグナーの署名を完璧に模倣しようとする。
これは、本物のシグナーがアクセスを拒否されるリスクを負わせ、フォージシグナーがアクセスを許可されるという課題を示す。
含意は偽受入率(far)が高く、これは本物のクラスに属すると分類されたフォージサインの割合である。
既存の作業は、誤分類エラーが高いため、シグネチャ検証の表面をひっかいただけである。
本稿では,オフライン文字依存署名検証のために,コンセンサス閾値距離に基づく分類基準を提案する。
SigNetとSigNet-Fの深部畳み込みニューラルネットワークモデルから抽出した特徴を用いて、提案した分類器はFARを最小化する。
これはGPDS-300、MCYT、CEDAR、ブラジルのPUC-PRデータセットの4つのデータセットで実証されている。
GPDS-300では、文献で記録された8.73%と17.31%と比較して1.27%のFARを達成することで、コンセンサス閾値分類器が最先端の性能を向上させる。
このパフォーマンスは、他のデータセット間で一貫性があり、インポスタが機密文書やトランザクションにアクセスするリスクは最小限である。 A genuine signer's signature is naturally unstable even at short time-intervals whereas, expert forgers always try to perfectly mimic a genuine signer's signature. This presents a challenge which puts a genuine signer at risk of being denied access, while a forge signer is granted access. The implication is a high false acceptance rate (FAR) which is the percentage of forge signature classified as belonging to a genuine class. Existing work have only scratched the surface of signature verification because the misclassification error remains high. In this paper, a consensus-threshold distance-based classifier criterion is proposed for offline writer-dependent signature verification. Using features extracted from SigNet and SigNet-F deep convolutional neural network models, the proposed classifier minimizes FAR. This is demonstrated via experiments on four datasets: GPDS-300, MCYT, CEDAR and Brazilian PUC-PR datasets. On GPDS-300, the consensus threshold classifier improves the state-of-the-art performance by achieving a 1.27% FAR compared to 8.73% and 17.31% recorded in literature. This performance is consistent across other datasets and guarantees that the risk of imposters gaining access to sensitive documents or transactions is minimal. | 翻訳日:2024-01-09 20:34:48 公開日:2024-01-05 |
# グラフスパーシフィケーションによるエネルギー効率の高い分散学習 Energy-efficient Decentralized Learning via Graph Sparsification ( http://arxiv.org/abs/2401.03083v1 ) ライセンス: Link先を確認 | Xusheng Zhang, Cho-Chun Chiu and Ting He | (参考訳) 本研究は,学習過程におけるコミュニケーション要求を制御する混合行列を最適化することで,分散学習のエネルギー効率を向上させることを目的とする。
最先端の分散学習アルゴリズムに基づく厳密な解析により、グラフスカラー化により低レベルを解き、二段階最適化として定式化される。
完全連結基底トポロジーの特殊な場合に対して性能保証の解が提案され、一般の場合では強欲なヒューリスティックが提案される。
実トポロジーとデータセットに基づくシミュレーションにより,提案手法は,学習したモデルの品質を維持しつつ,最大ノードのエネルギー消費量を54%-76%削減できることを示した。 This work aims at improving the energy efficiency of decentralized learning by optimizing the mixing matrix, which controls the communication demands during the learning process. Through rigorous analysis based on a state-of-the-art decentralized learning algorithm, the problem is formulated as a bi-level optimization, with the lower level solved by graph sparsification. A solution with guaranteed performance is proposed for the special case of fully-connected base topology and a greedy heuristic is proposed for the general case. Simulations based on real topology and dataset show that the proposed solution can lower the energy consumption at the busiest node by 54%-76% while maintaining the quality of the trained model. | 翻訳日:2024-01-09 20:34:25 公開日:2024-01-05 |
# UMIE:インストラクションチューニングによる統合マルチモーダル情報抽出 UMIE: Unified Multimodal Information Extraction with Instruction Tuning ( http://arxiv.org/abs/2401.03082v1 ) ライセンス: Link先を確認 | Lin Sun, Kai Zhang, Qingyuan Li, Renze Lou | (参考訳) マルチメディアコンテンツの普及に伴い,マルチモーダル情報抽出(MIE)が注目されている。
しかし、現在のMIE手法はタスク固有のモデル構造を使い、結果としてタスク間の一般化性が制限され、MIEタスク間の共有知識が利用できない。
これらの課題に対処するために,命令チューニングを用いて3つのMIEタスクを統合化するための統一マルチモーダル情報抽出器UMIEを提案し,テキストと視覚の両方の言及を効果的に抽出できる。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
さらに、深い分析により、UMIEのゼロショット設定における強い一般化、命令不変量に対する堅牢性、解釈可能性を示す。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
私たちのコード、データ、モデルはhttps://github.com/zucc-ai/umieで利用可能です。 Multimodal information extraction (MIE) gains significant attention as the popularity of multimedia content increases. However, current MIE methods often resort to using task-specific model structures, which results in limited generalizability across tasks and underutilizes shared knowledge across MIE tasks. To address these issues, we propose UMIE, a unified multimodal information extractor to unify three MIE tasks as a generation problem using instruction tuning, being able to effectively extract both textual and visual mentions. Extensive experiments show that our single UMIE outperforms various state-of-the-art (SoTA) methods across six MIE datasets on three tasks. Furthermore, in-depth analysis demonstrates UMIE's strong generalization in the zero-shot setting, robustness to instruction variants, and interpretability. Our research serves as an initial step towards a unified MIE model and initiates the exploration into both instruction tuning and large language models within the MIE domain. Our code, data, and model are available at https://github.com/ZUCC-AI/UMIE | 翻訳日:2024-01-09 20:34:13 公開日:2024-01-05 |
# StreamVC: リアルタイム低レイテンシ音声変換 StreamVC: Real-Time Low-Latency Voice Conversion ( http://arxiv.org/abs/2401.03078v1 ) ライセンス: Link先を確認 | Yang Yang, Yury Kartynnik, Yunpeng Li, Jiuqiang Tang, Xing Li, George Sung, Matthias Grundmann | (参考訳) 対象音声の音声音色をマッチングしながら、ソース音声の内容と韻律を保存するストリーミング音声変換ソリューションstreamvcを提案する。
従来のアプローチとは異なり、StreamVCはモバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成し、コールやビデオ会議のようなリアルタイム通信シナリオに適用し、これらのシナリオにおける音声匿名化のようなユースケースに対処する。
本設計は、軽量な高品質音声合成のためのサウンドストリームニューラルオーディオコーデックのアーキテクチャとトレーニング戦略を活用する。
音源の音色情報を漏らさずにピッチ安定性を向上させるために白色基本周波数情報の提供の有効性と,ソフト音声単位の因果的学習の可能性を示す。 We present StreamVC, a streaming voice conversion solution that preserves the content and prosody of any source speech while matching the voice timbre from any target speech. Unlike previous approaches, StreamVC produces the resulting waveform at low latency from the input signal even on a mobile platform, making it applicable to real-time communication scenarios like calls and video conferencing, and addressing use cases such as voice anonymization in these scenarios. Our design leverages the architecture and training strategy of the SoundStream neural audio codec for lightweight high-quality speech synthesis. We demonstrate the feasibility of learning soft speech units causally, as well as the effectiveness of supplying whitened fundamental frequency information to improve pitch stability without leaking the source timbre information. | 翻訳日:2024-01-09 20:33:57 公開日:2024-01-05 |
# 連続グラフ学習のためのトポロジ対応グラフ粗大化フレームワーク A Topology-aware Graph Coarsening Framework for Continual Graph Learning ( http://arxiv.org/abs/2401.03077v1 ) ライセンス: Link先を確認 | Xiaoxue Han, Zhuo Feng, Yue Ning | (参考訳) グラフに関する継続的な学習は、グラフデータがストリーミング形式で到着するグラフニューラルネットワーク(GNN)をトレーニングする問題に対処する。
Experience Replayのような従来の連続学習戦略はストリーミンググラフに適用できるが、これらの手法はグラフトポロジの保存における非効率性や、古いタスクと新しいタスクの相関を捉えることができないといった課題に直面することが多い。
これらの課題に対処するため,我々は,従来のタスクからの情報を縮小グラフとして格納する(t)オポジロロジー-(a)ウェアグラフ (co)arseningおよび(co)ntinual learningフレームワークであるta$\mathbb{co}$を提案する。
それぞれの期間に、この縮小グラフは、新しいグラフと組み合わせて共有ノードを整合させることで拡大し、縮小によって「ズームアウト」プロセスを行い、安定したサイズを維持する。
ノード表現の近似に基づくグラフ粗化アルゴリズムを設計し,グラフを効率的に削減し,位相情報を保存する。
還元グラフ上の学習過程を実証的に示すことで,元のグラフを近似することができる。
本実験は,異なるバックボーンGNNモデルを用いた実世界の3つのデータセットに対するフレームワークの有効性を検証する。 Continual learning on graphs tackles the problem of training a graph neural network (GNN) where graph data arrive in a streaming fashion and the model tends to forget knowledge from previous tasks when updating with new data. Traditional continual learning strategies such as Experience Replay can be adapted to streaming graphs, however, these methods often face challenges such as inefficiency in preserving graph topology and incapability of capturing the correlation between old and new tasks. To address these challenges, we propose TA$\mathbb{CO}$, a (t)opology-(a)ware graph (co)arsening and (co)ntinual learning framework that stores information from previous tasks as a reduced graph. At each time period, this reduced graph expands by combining with a new graph and aligning shared nodes, and then it undergoes a "zoom out" process by reduction to maintain a stable size. We design a graph coarsening algorithm based on node representation proximities to efficiently reduce a graph and preserve topological information. We empirically demonstrate the learning process on the reduced graph can approximate that of the original graph. Our experiments validate the effectiveness of the proposed framework on three real-world datasets using different backbone GNN models. | 翻訳日:2024-01-09 20:33:43 公開日:2024-01-05 |
# 内陸の沼地交通を検出する交通カメラ:機械学習の応用 Traffic Cameras to detect inland waterway barge traffic: An Application of machine learning ( http://arxiv.org/abs/2401.03070v1 ) ライセンス: Link先を確認 | Geoffery Agorku, Sarah Hernandez PhD, Maria Falquez, Subhadipto Poddar PhD, Kwadwo Amankwah-Nkyi | (参考訳) 内陸の水路は貨物輸送に重要であるが、貨物船(例えばバージ)のパフォーマンスや使用を監視するための手段は限られている。
タグボートや牽引ボートなどの船舶を追跡する方法は、自動識別システム(ais)を通じて公に利用できるが、これらの重要な海洋ハイウェイに沿って運ばれる貨物のトンナーや商品の流れを追跡する方法は、特にリアルタイム環境では存在していない。
そこで本研究では,既存の交通カメラを用いた陸路のバージトラフィック検出手法を開発した。
ディープラーニングモデル、特にYou Only Look Once (YOLO)、Single Shot MultiBox Detector (SSD)、EfficientDetが採用されている。
このモデルはビデオから船やバージの存在を検知し、分類を行う(船やバージなしの船、バージなしの船、バージ付き船、およびバージなし)。
モデル開発のために、ミシシッピ川とオハイオ川沿いの5つの交通カメラから、331枚の注釈付き画像のデータセットが収集された。
YOLOv8は96%のF1スコアを獲得し、YOLOv5、SSD、EfficientDetの各モデルでは86%、79%、77%を上回っている。
気象条件(霧と雨)と位置(ミシプピ川とオハイオ川)について感度分析を行った。
位置情報の感度解析のために,各地点にまたがる映像の正規化に背景サブトラクションを用いた。
このモデルは、匿名のバルク商品追跡と監視に使用できる河川セグメントに沿ったバージの存在を検出するのに使うことができる。
これらのデータは、アメリカ陸軍工兵隊などの連邦機関が実施した運用・保守計画に加えて、公共交通機関が行う長距離輸送計画に有用である。 Inland waterways are critical for freight movement, but limited means exist for monitoring their performance and usage by freight-carrying vessels, e.g., barges. While methods to track vessels, e.g., tug and tow boats, are publicly available through Automatic Identification Systems (AIS), ways to track freight tonnages and commodity flows carried on barges along these critical marine highways are non-existent, especially in real-time settings. This paper develops a method to detect barge traffic on inland waterways using existing traffic cameras with opportune viewing angles. Deep learning models, specifically, You Only Look Once (YOLO), Single Shot MultiBox Detector (SSD), and EfficientDet are employed. The model detects the presence of vessels and/or barges from video and performs a classification (no vessel or barge, vessel without barge, vessel with barge, and barge). A dataset of 331 annotated images was collected from five existing traffic cameras along the Mississippi and Ohio Rivers for model development. YOLOv8 achieves an F1-score of 96%, outperforming YOLOv5, SSD, and EfficientDet models with 86%, 79%, and 77% respectively. Sensitivity analysis was carried out regarding weather conditions (fog and rain) and location (Mississippi and Ohio rivers). A background subtraction technique was used to normalize video images across the various locations for the location sensitivity analysis. This model can be used to detect the presence of barges along river segments, which can be used for anonymous bulk commodity tracking and monitoring. Such data is valuable for long-range transportation planning efforts carried out by public transportation agencies, in addition to operational and maintenance planning conducted by federal agencies such as the US Army Corp of Engineers. | 翻訳日:2024-01-09 20:33:20 公開日:2024-01-05 |
# 安定的スパイクニューロン訓練 Stabilizing Spiking Neuron Training ( http://arxiv.org/abs/2202.00282v4 ) ライセンス: Link先を確認 | Luca Herranz-Celotti and Jean Rouat | (参考訳) 安定性の議論は、学習アルゴリズムが一般化を妨げる活動や重みの増大を防ぐためにしばしば用いられる。
しかし、安定性条件はスパイキングニューロンのエネルギー効率を高めるのに必要な空間と衝突することがある。
それにもかかわらず、ソリューションを提供することもできる。
実際、スパイキングニューロモルフィックコンピューティングは、人工知能のエネルギー効率を改善するためにバイナリーアクティビティを使用する。
しかし、その非滑らかさは、Deep Learningのパフォーマンスギャップを埋めるために、Surrogate Gradients (SG)と呼ばれる近似勾配を必要とする。
文献ではいくつかのSGが提案されているが、与えられたタスクやネットワークに対して最適なSGを決定する方法は不明である。
そこで我々は, 最適sgを安定性論を通じて理論的に定義し, グリッド探索の必要性を減らすことを目指す。
実際、より複雑なタスクやネットワークは、たとえ高速シグモイドの微分が、広範囲の学習率で他方よりも優れているとしても、より慎重にSGを選択する必要があることを示す。
そこで我々は、最も一般的なスパイキングニューロンである Leaky Integrate and Fire (LIF) をトレーニングする前に、初期化とSG形状を選択するための安定性に基づく理論的手法を設計する。
本手法は, 神経型文献では非標準である初期発火における高発火率の使用を示唆するものであり, 徐々に導入される疎度促進損失項と組み合わせることで, SG形状により, より一般化が期待できることを示す。
我々の安定性に基づく理論解は、SGと初期化を発見し、実験により精度が向上する。
我々は,sgの減衰,鋭さ,テールフェットネスの広範囲なグリッド探索の必要性を低減できることを示す。
また,decolle や fluctuations-driven initialization といった異なる lif 変種に適用できるように安定性の概念を拡張できることを示した。 Stability arguments are often used to prevent learning algorithms from having ever increasing activity and weights that hinder generalization. However, stability conditions can clash with the sparsity required to augment the energy efficiency of spiking neurons. Nonetheless it can also provide solutions. In fact, spiking Neuromorphic Computing uses binary activity to improve Artificial Intelligence energy efficiency. However, its non-smoothness requires approximate gradients, known as Surrogate Gradients (SG), to close the performance gap with Deep Learning. Several SG have been proposed in the literature, but it remains unclear how to determine the best SG for a given task and network. Thus, we aim at theoretically define the best SG, through stability arguments, to reduce the need for grid search. In fact, we show that more complex tasks and networks need more careful choice of SG, even if overall the derivative of the fast sigmoid tends to outperform the other, for a wide range of learning rates. We therefore design a stability based theoretical method to choose initialization and SG shape before training on the most common spiking neuron, the Leaky Integrate and Fire (LIF). Since our stability method suggests the use of high firing rates at initialization, which is non-standard in the neuromorphic literature, we show that high initial firing rates, combined with a sparsity encouraging loss term introduced gradually, can lead to better generalization, depending on the SG shape. Our stability based theoretical solution, finds a SG and initialization that experimentally result in improved accuracy. We show how it can be used to reduce the need of extensive grid-search of dampening, sharpness and tail-fatness of the SG. We also show that our stability concepts can be extended to be applicable on different LIF variants, such as DECOLLE and fluctuations-driven initializations. | 翻訳日:2024-01-08 19:09:14 公開日:2024-01-05 |
# 混合交通における連結車両と自律車両の協調車線変更のためのマルチエージェント強化学習 Multi-agent Reinforcement Learning for Cooperative Lane Changing of Connected and Autonomous Vehicles in Mixed Traffic ( http://arxiv.org/abs/2111.06318v2 ) ライセンス: Link先を確認 | Wei Zhou, Dong Chen, Jun Yan, Zhaojian Li, Huilin Yin, Wanchen Ge | (参考訳) 自動運転は過去20年で大きな研究関心を集めており、運転者の運転不足や交通渋滞の緩和など、多くの潜在的な利益を提供している。
将来性はあるものの、車線変更は自動運転車(AV)にとって大きな課題であり、特に混合および動的交通シナリオにおいてである。
近年,データ駆動型強力な制御手法である強化学習 (RL) が, AV の車線変更意思決定のために広く研究されている。
しかし、これらの研究の大半は単車種に焦点を合わせており、人間駆動車(HDV)と共存する複数のAVの文脈での車線変更は、ほとんど注目されていない。
本稿では,混在高速道路環境における複数のAVの車線変更決定をマルチエージェント強化学習(MARL)問題として定式化し,各AVが隣接するAVとHDVの両方の動きに基づいて車線変更決定を行う。
具体的には,新しい局所報酬設計とパラメータ共有方式を用いて,マルチエージェント・アドバンテージ・アクタ-クリティックネットワーク(ma2c)を開発した。
特に, 燃料効率, 運転快適性, 自律運転の安全性を考慮した多目的報酬関数を提案する。
3つの異なる交通密度と様々なレベルの人間ドライバー攻撃性の下で実施した総合的な実験結果から,提案手法は,効率,安全性,快適性において,最先端のベンチマークを一貫して上回っていることが示された。 Autonomous driving has attracted significant research interests in the past two decades as it offers many potential benefits, including releasing drivers from exhausting driving and mitigating traffic congestion, among others. Despite promising progress, lane-changing remains a great challenge for autonomous vehicles (AV), especially in mixed and dynamic traffic scenarios. Recently, reinforcement learning (RL), a powerful data-driven control method, has been widely explored for lane-changing decision makings in AVs with encouraging results demonstrated. However, the majority of those studies are focused on a single-vehicle setting, and lane-changing in the context of multiple AVs coexisting with human-driven vehicles (HDVs) have received scarce attention. In this paper, we formulate the lane-changing decision making of multiple AVs in a mixed-traffic highway environment as a multi-agent reinforcement learning (MARL) problem, where each AV makes lane-changing decisions based on the motions of both neighboring AVs and HDVs. Specifically, a multi-agent advantage actor-critic network (MA2C) is developed with a novel local reward design and a parameter sharing scheme. In particular, a multi-objective reward function is proposed to incorporate fuel efficiency, driving comfort, and safety of autonomous driving. Comprehensive experimental results, conducted under three different traffic densities and various levels of human driver aggressiveness, show that our proposed MARL framework consistently outperforms several state-of-the-art benchmarks in terms of efficiency, safety and driver comfort. | 翻訳日:2024-01-08 19:08:43 公開日:2024-01-05 |
# 敵の攻撃と防御のためのゲーム理論 Game Theory for Adversarial Attacks and Defenses ( http://arxiv.org/abs/2110.06166v4 ) ライセンス: Link先を確認 | Shorya Sharma | (参考訳) 逆攻撃は、データセットのサンプルに小さなが故意に最悪の摂動を適用することによって、逆の入力を発生させ、その結果、不正確な答えを高い信頼性で出力する最先端のディープニューラルネットワークさえも生み出す。
したがって、モデルのセキュリティと堅牢性を改善し、攻撃を避けるために、いくつかの敵対的防御技術が開発されている。
段階的に、攻撃者と守備者の間のゲームライクな競争が結成され、双方のプレイヤーはそれぞれの支払いを最大化しながら、お互いに最善を尽くそうとした。
ゲームを解決するため、各プレイヤーは、相手の戦略選択の予測に基づいて、相手に対して最適な戦略を選択する。
本研究では,攻撃に対する防御にゲーム理論的アプローチを適用するための防御的立場にある。
ランダム初期化と確率的アクティベーションプルーニングという2つのランダム化手法を用いて、ネットワークの多様性を創出する。
さらに,攻撃前の画像の事前処理によってモデルのロバスト性を改善するために,デノナイズ技術であるスーパーレゾリューションを用いる。
実験の結果,これら3つの手法は,ニューラルネットワークのロバスト性が効果的に向上することが示唆された。 Adversarial attacks can generate adversarial inputs by applying small but intentionally worst-case perturbations to samples from the dataset, which leads to even state-of-the-art deep neural networks outputting incorrect answers with high confidence. Hence, some adversarial defense techniques are developed to improve the security and robustness of the models and avoid them being attacked. Gradually, a game-like competition between attackers and defenders formed, in which both players would attempt to play their best strategies against each other while maximizing their own payoffs. To solve the game, each player would choose an optimal strategy against the opponent based on the prediction of the opponent's strategy choice. In this work, we are on the defensive side to apply game-theoretic approaches on defending against attacks. We use two randomization methods, random initialization and stochastic activation pruning, to create diversity of networks. Furthermore, we use one denoising technique, super resolution, to improve models' robustness by preprocessing images before attacks. Our experimental results indicate that those three methods can effectively improve the robustness of deep-learning neural networks. | 翻訳日:2024-01-08 19:08:15 公開日:2024-01-05 |
# AutoGL: グラフ学習を自動化するライブラリ AutoGL: A Library for Automated Graph Learning ( http://arxiv.org/abs/2104.04987v3 ) ライセンス: Link先を確認 | Ziwei Zhang, Yijian Qin, Zeyang Zhang, Chaoyu Guan, Jie Cai, Heng Chang, Jiyan Jiang, Haoyang Li, Zixin Sun, Beini Xie, Yang Yao, Yipeng Zhang, Xin Wang, Wenwu Zhu | (参考訳) 近年、グラフ上での機械学習の研究関心や応用の高まりを目撃している。
しかし、異なるグラフデータセットとタスクに対して最適な機械学習アルゴリズムを手動で設計することは、柔軟で労働集約的であり、専門家の知識を必要とし、適応性と適用性を制限する。
グラフデータセットとタスクに対して最適な機械学習アルゴリズムを自動設計することを目的とした、グラフ上の自動機械学習(AutoML)が注目されている。
しかし、既存のライブラリはグラフ上でAutoMLを完全にサポートできない。
このギャップを埋めるため,我々は,グラフ上で自動機械学習を行うための最初の専用ライブラリであるautomated graph learning(autogl)を提案する。
autoglはオープンソースであり、使いやすく、拡張も柔軟である。
具体的には,バックエンドからデバイスとのインターフェース,完全自動グラフ学習パイプライン,グラフアプリケーションをサポートする3層アーキテクチャを提案する。
自動機械学習パイプラインはさらに、オートフィーチャーエンジニアリング、ニューラルアーキテクチャ検索、ハイパーパラメータ最適化、モデルトレーニング、オートアンサンブルという、グラフ上の既存のAutoMLメソッドの大部分をカバーする5つの機能モジュールが含まれている。
各モジュールに対して、多くの最先端のメソッドとフレキシブルなベースクラスとAPIを提供しています。
さらに、AutoGLライブラリの使用例を示す実験結果も提供します。
また、パイプラインのカスタマイズやアプリケーションの強化を容易にするAutoGLの軽量バージョンであるAutoGL-lightと、グラフニューラルアーキテクチャ検索のベンチマークも提供する。
AutoGLのコードはhttps://github.com/THUMNLab/AutoGLで公開されている。 Recent years have witnessed an upsurge in research interests and applications of machine learning on graphs. However, manually designing the optimal machine learning algorithms for different graph datasets and tasks is inflexible, labor-intensive, and requires expert knowledge, limiting its adaptivity and applicability. Automated machine learning (AutoML) on graphs, aiming to automatically design the optimal machine learning algorithm for a given graph dataset and task, has received considerable attention. However, none of the existing libraries can fully support AutoML on graphs. To fill this gap, we present Automated Graph Learning (AutoGL), the first dedicated library for automated machine learning on graphs. AutoGL is open-source, easy to use, and flexible to be extended. Specifically, we propose a three-layer architecture, consisting of backends to interface with devices, a complete automated graph learning pipeline, and supported graph applications. The automated machine learning pipeline further contains five functional modules: auto feature engineering, neural architecture search, hyper-parameter optimization, model training, and auto ensemble, covering the majority of existing AutoML methods on graphs. For each module, we provide numerous state-of-the-art methods and flexible base classes and APIs, which allow easy usage and customization. We further provide experimental results to showcase the usage of our AutoGL library. We also present AutoGL-light, a lightweight version of AutoGL to facilitate customizing pipelines and enriching applications, as well as benchmarks for graph neural architecture search. The codes of AutoGL are publicly available at https://github.com/THUMNLab/AutoGL. | 翻訳日:2024-01-08 19:07:54 公開日:2024-01-05 |
# 絡み合いの不可能性の定量化 Quantifying the unextendibility of entanglement ( http://arxiv.org/abs/1911.07433v3 ) ライセンス: Link先を確認 | Kun Wang, Xin Wang, Mark M. Wilde | (参考訳) 絡み合いは量子力学の驚くべき特徴であり、拡張性(unextendibility)と呼ばれる重要な性質を持つ。
本稿では,一般二部量子状態の非拡張性を定量化し,研究するための枠組みを提案する。
まず、状態依存的な自由状態の集合の概念に基づいて、拡張不可能な絡み合い、すなわち絡み合いの族を定義する。
これらの尺度の背後にある直観は、二成分状態がより絡み合うほど、個々のシステムが互いに絡み合わなくなるというものである。
第2に, 拡張不能な絡み合いは, 局所演算や一方向古典通信など, 2つの拡張可能な量子演算の下での絡み合いモノトーンであることを示す。
正規化と忠実性は、拡張不能な絡み合いの他の2つの望ましい性質である。
さらに, 拡張不能な絡み合いは, 正確な絡み合いや秘密鍵蒸留率, 確率的絡み合いや秘密鍵蒸留のオーバーヘッドに対して, 効率的に計算可能なベンチマークを提供することを示した。 Entanglement is a striking feature of quantum mechanics, and it has a key property called unextendibility. In this paper, we present a framework for quantifying and investigating the unextendibility of general bipartite quantum states. First, we define the unextendible entanglement, a family of entanglement measures based on the concept of a state-dependent set of free states. The intuition behind these measures is that the more entangled a bipartite state is, the less entangled each of its individual systems is with a third party. Second, we demonstrate that the unextendible entanglement is an entanglement monotone under two-extendible quantum operations, including local operations and one-way classical communication as a special case. Normalization and faithfulness are two other desirable properties of unextendible entanglement, which we establish here. We further show that the unextendible entanglement provides efficiently computable benchmarks for the rate of exact entanglement or secret key distillation, as well as the overhead of probabilistic entanglement or secret key distillation. | 翻訳日:2024-01-08 19:07:30 公開日:2024-01-05 |
# Fast-iTPN:トークンマイグレーションによる統合事前学習型変圧器ピラミッドネットワーク Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration ( http://arxiv.org/abs/2211.12735v2 ) ライセンス: Link先を確認 | Yunjie Tian, Lingxi Xie, Jihao Qiu, Jianbin Jiao, Yaowei Wang, Qi Tian, Qixiang Ye | (参考訳) 本稿では,ネットワークバックボーンとネックを共同で最適化し,表現モデルと下流タスク間の伝達ギャップを最小限に抑えるために,統合的に事前学習したトランスフォーマーピラミッドネットワーク(itpn)を提案する。
iTPNは2つの精巧なデザインで生まれました。
1)視覚変換器(ViT)による最初の事前訓練型特徴ピラミッド。
2)マスク付き特徴モデリング(MFM)による特徴ピラミッドの多段階監視
iTPNはFast-iTPNに更新され、計算メモリのオーバーヘッドを減らし、2つの柔軟な設計による推論を加速する。
1) トークン移行: 注意操作なしで機能ピラミッドに補充しながら、バックボーンの冗長トークンをドロップする。
2)トークン収集:少ない収集トークンを導入することにより,グローバルな注目による計算コストを低減する。
ベース/大型のFast-iTPNはImageNet-1Kで88.75%/89.5%のTop-1精度を達成した。
DINOを使用した1xトレーニングスケジュールでは、ベースレベルのFast-iTPNはCOCOオブジェクト検出で58.4%/58.8%、ADE20Kセマンティックセグメンテーションで57.5%/58.7%のmIoUを達成した。
Fast-iTPNは推論手順を最大70%高速化し、性能損失を無視し、下流の視覚タスクの強力なバックボーンになる可能性を示す。
コードは、github.com/sunsmarterjie/iTPNで入手できる。 We propose integrally pre-trained transformer pyramid network (iTPN), towards jointly optimizing the network backbone and the neck, so that transfer gap between representation models and downstream tasks is minimal. iTPN is born with two elaborated designs: 1) The first pre-trained feature pyramid upon vision transformer (ViT). 2) Multi-stage supervision to the feature pyramid using masked feature modeling (MFM). iTPN is updated to Fast-iTPN, reducing computational memory overhead and accelerating inference through two flexible designs. 1) Token migration: dropping redundant tokens of the backbone while replenishing them in the feature pyramid without attention operations. 2) Token gathering: reducing computation cost caused by global attention by introducing few gathering tokens. The base/large-level Fast-iTPN achieve 88.75%/89.5% top-1 accuracy on ImageNet-1K. With 1x training schedule using DINO, the base/large-level Fast-iTPN achieves 58.4%/58.8% box AP on COCO object detection, and a 57.5%/58.7% mIoU on ADE20K semantic segmentation using MaskDINO. Fast-iTPN can accelerate the inference procedure by up to 70%, with negligible performance loss, demonstrating the potential to be a powerful backbone for downstream vision tasks. The code is available at: github.com/sunsmarterjie/iTPN. | 翻訳日:2024-01-08 19:04:34 公開日:2024-01-05 |
# アダプティブマージによる縦型ネットワークの効率的な推定 Efficient Estimation for Longitudinal Networks via Adaptive Merging ( http://arxiv.org/abs/2211.07866v4 ) ライセンス: Link先を確認 | Haoran Zhang and Junhui Wang | (参考訳) 縦ネットワークは複数のノード間の時間的エッジのシーケンスで構成され、時間的エッジはリアルタイムで観測される。
オンラインソーシャルプラットフォームやeコマースの台頭とともにユビキタスになってきたが、文学ではほとんど調査されていない。
本稿では,適応型ネットワークマージ,テンソル分解,点過程の強みを活用した,縦型ネットワークの効率的な推定手法を提案する。
近傍のスパースネットワークをマージし、観測されたエッジの数を増加させ、推定ばらつきを減少させるが、ネットワークマージによってもたらされる推定バイアスは、適応ネットワーク近傍の局所時間構造を利用して制御される。
各イテレーションにおける推定誤差の上限が確立されるような推定を容易にするために,投影勾配降下アルゴリズムが提案されている。
提案手法の漸近的挙動を定量化するために詳細な解析を行い,推定誤差を大幅に低減できることを示すとともに,様々なシナリオにおけるネットワークマージのガイドラインを提供する。
さらに,提案手法の利点を,合成データセットと軍国間紛争データセットに関する広範な数値実験により実証する。 Longitudinal network consists of a sequence of temporal edges among multiple nodes, where the temporal edges are observed in real time. It has become ubiquitous with the rise of online social platform and e-commerce, but largely under-investigated in literature. In this paper, we propose an efficient estimation framework for longitudinal network, leveraging strengths of adaptive network merging, tensor decomposition and point process. It merges neighboring sparse networks so as to enlarge the number of observed edges and reduce estimation variance, whereas the estimation bias introduced by network merging is controlled by exploiting local temporal structures for adaptive network neighborhood. A projected gradient descent algorithm is proposed to facilitate estimation, where the upper bound of the estimation error in each iteration is established. A thorough analysis is conducted to quantify the asymptotic behavior of the proposed method, which shows that it can significantly reduce the estimation error and also provides guideline for network merging under various scenarios. We further demonstrate the advantage of the proposed method through extensive numerical experiments on synthetic datasets and a militarized interstate dispute dataset. | 翻訳日:2024-01-08 19:03:39 公開日:2024-01-05 |
# DRKF:局所特徴マッチングにおける効率的な回転不変記述子のための蒸留カーネル核融合 DRKF: Distilled Rotated Kernel Fusion for Efficient Rotation Invariant Descriptors in Local Feature Matching ( http://arxiv.org/abs/2209.10907v3 ) ライセンス: Link先を確認 | Ranran Huang, Jiancheng Cai, Chao Li, Zhuoyuan Wu, Xinmin Liu, Zhenhua Chai | (参考訳) 局所特徴記述子の性能は、大きな回転変動の存在下で低下する。
この問題に対処するために,回転不変ディスクリプタを効率的に学習する手法を提案する。
具体的には,cnnの固有性を改善するために畳み込み核に回転を課す回転核融合(rkf)を提案する。
RKFはその後の再パラメータ化によって処理できるため、推論段階では余分な計算コストは発生しない。
さらに,複数回転した画像から抽出した特徴を集約した多目的特徴集約(MOFA)を提案し,蒸留戦略を利用してRKFの訓練に補助的知識を提供する。
蒸留されたRKFモデルをDRKFと呼ぶ。
公開データセットHPatchesの回転拡大バージョンの評価に加えて、ドローンの飛行中に収集され、大きな視点変化とカメラ回転を伴う鳥の視線画像からなるDiverseBEVという新しいデータセットも提供します。
広範な実験により,本手法は大きな回転変動に晒された場合,他の最先端技術に勝ることを示した。 The performance of local feature descriptors degrades in the presence of large rotation variations. To address this issue, we present an efficient approach to learning rotation invariant descriptors. Specifically, we propose Rotated Kernel Fusion (RKF) which imposes rotations on the convolution kernel to improve the inherent nature of CNN. Since RKF can be processed by the subsequent re-parameterization, no extra computational costs will be introduced in the inference stage. Moreover, we present Multi-oriented Feature Aggregation (MOFA) which aggregates features extracted from multiple rotated versions of the input image and can provide auxiliary knowledge for the training of RKF by leveraging the distillation strategy. We refer to the distilled RKF model as DRKF. Besides the evaluation on a rotation-augmented version of the public dataset HPatches, we also contribute a new dataset named DiverseBEV which is collected during the drone's flight and consists of bird's eye view images with large viewpoint changes and camera rotations. Extensive experiments show that our method can outperform other state-of-the-art techniques when exposed to large rotation variations. | 翻訳日:2024-01-08 19:03:20 公開日:2024-01-05 |
# 難易度とロバスト性の改善 : 逆行訓練におけるブレグマンの多様性 Lower Difficulty and Better Robustness: A Bregman Divergence Perspective for Adversarial Training ( http://arxiv.org/abs/2208.12511v3 ) ライセンス: Link先を確認 | Zihui Wu, Haichang Gao, Bingqian Zhou, Xiaoyan Guo, Shudong Zhang | (参考訳) 本稿では,最適化の難易度を低減し,adversarial training (at) で得られる対向ロバスト性の向上について検討する。
この問題をよりよく研究するために,我々は,AT を負のエントロピー曲線上のトレーニングデータのスライディング過程と見なすことのできる,新しい Bregman divergence perspective を構築した。
この観点から, PGD-AT と TRADES という2つの典型的なAT手法の学習目標を解析した結果, TRADES の最適化プロセスは PGD-AT よりも容易であることが判明した。
さらに,TRADESにおけるエントロピーの関数について考察し,高いエントロピーを持つモデルの方が頑健さを学習できることを示した。
上記の知見に触発されて,10段階のpgd攻撃下での最適化の困難さを低減できるだけでなく,堅牢性も向上できるfaitとmerの2つの手法を提案する。
提案手法は,10ステップのPGD敵の下での最適化の困難さを低減させることが,ATにおける敵の堅牢性を高めるための有望なアプローチであることを示す。 In this paper, we investigate on improving the adversarial robustness obtained in adversarial training (AT) via reducing the difficulty of optimization. To better study this problem, we build a novel Bregman divergence perspective for AT, in which AT can be viewed as the sliding process of the training data points on the negative entropy curve. Based on this perspective, we analyze the learning objectives of two typical AT methods, i.e., PGD-AT and TRADES, and we find that the optimization process of TRADES is easier than PGD-AT for that TRADES separates PGD-AT. In addition, we discuss the function of entropy in TRADES, and we find that models with high entropy can be better robustness learners. Inspired by the above findings, we propose two methods, i.e., FAIT and MER, which can both not only reduce the difficulty of optimization under the 10-step PGD adversaries, but also provide better robustness. Our work suggests that reducing the difficulty of optimization under the 10-step PGD adversaries is a promising approach for enhancing the adversarial robustness in AT. | 翻訳日:2024-01-08 19:03:01 公開日:2024-01-05 |
# 12誘導心電図信号を用いた不整脈分類へのフェデレート学習法の応用 Application of federated learning techniques for arrhythmia classification using 12-lead ECG signals ( http://arxiv.org/abs/2208.10993v3 ) ライセンス: Link先を確認 | Daniel Mauricio Jimenez Gutierrez, Hafiz Muuhammad Hassan, Lorella Landi, Andrea Vitaletti and Ioannis Chatzigiannakis | (参考訳) 大規模でキュレートされた医療データセットの人工知能ベース(AI)分析は、早期発見、診断の高速化、低出力心電図(ECG)モニタリングデバイス情報によるより効率的な治療の提供を約束している。
しかし、不適切な使用、安全でないストレージ、データの漏洩は個人のプライバシーを侵害する可能性があるため、さまざまなソースから機密な医療データにアクセスすることは極めて制限されている。
この研究は、フェデレートラーニング(FL)プライバシ保存手法を使用して、6つの異種ソースから収集された12個のリードセンサーアレイから、異種高解像度のECGセット上でAIモデルをトレーニングする。
中央集権学習(CL)方式で訓練した最先端モデルと比較して,得られたモデルの性能を同等に評価した。
さらに,独立分散IID(Independent and Identical Distributed)と非IIDフェデレーションデータ(non-IID)を比較検討した。
本手法は,深層ニューラルネットワークと長期記憶モデルに基づく機械学習手法を含む。
機能エンジニアリング、選択、データバランシング技術を備えた堅牢なデータ前処理パイプラインを備えている。
我々のAIモデルは、CL、ID、非IIDアプローチを使用してトレーニングされたモデルに匹敵する性能を示した。
彼らは複雑さを減らし、トレーニング時間を短縮し、クラウドエッジアーキテクチャに適するようにした。 Artificial Intelligence-based (AI) analysis of large, curated medical datasets is promising for providing early detection, faster diagnosis, and more effective treatment using low-power Electrocardiography (ECG) monitoring devices information. However, accessing sensitive medical data from diverse sources is highly restricted since improper use, unsafe storage, or data leakage could violate a person's privacy. This work uses a Federated Learning (FL) privacy-preserving methodology to train AI models over heterogeneous sets of high-definition ECG from 12-lead sensor arrays collected from six heterogeneous sources. We evaluated the capacity of the resulting models to achieve equivalent performance compared to state-of-the-art models trained in a Centralized Learning (CL) fashion. Moreover, we assessed the performance of our solution over Independent and Identical distributed (IID) and non-IID federated data. Our methodology involves machine learning techniques based on Deep Neural Networks and Long-Short-Term Memory models. It has a robust data preprocessing pipeline with feature engineering, selection, and data balancing techniques. Our AI models demonstrated comparable performance to models trained using CL, IID, and non-IID approaches. They showcased advantages in reduced complexity and faster training time, making them well-suited for cloud-edge architectures. | 翻訳日:2024-01-08 19:02:37 公開日:2024-01-05 |
# 製造における欠陥検出のための量子人工ビジョン Quantum artificial vision for defect detection in manufacturing ( http://arxiv.org/abs/2208.04988v2 ) ライセンス: Link先を確認 | Daniel Guijo, Victor Onofre, Gianni Del Bimbo, Samuel Mugel, Daniel Estepa, Xabier De Carlos, Ana Adell, Aizea Lojo, Josu Bilbao, Roman Orus | (参考訳) 本稿では、NISQ(Noisy Intermediate-Scale Quantum)デバイスを用いた量子コンピュータビジョンのためのいくつかのアルゴリズムについて検討し、それらを従来のコンピュータビジョンと比較した。
具体的には、普遍ゲートベースの量子コンピュータ上での量子支援ベクトルマシン(QSVM)と量子アニール上でのQBoostの2つのアプローチを検討する。
量子ビジョンシステムは、製造された車の欠陥を検出することを目的として、バランスの取れていない画像のデータセットに対してベンチマークされる。
量子アルゴリズムは古典的アルゴリズムよりもいくつかの点で優れており、QBoostは現在の量子アニールを用いてより大きな問題を解析することができる。
また、QBoostにおける超パラメータチューニングと同様に、次元削減やコントラスト強化を含むデータ前処理についても論じている。
私たちの知る限りでは、これは製造ラインにおける産業的関連性の問題に対する量子コンピュータビジョンシステムの最初の実装である。 In this paper we consider several algorithms for quantum computer vision using Noisy Intermediate-Scale Quantum (NISQ) devices, and benchmark them for a real problem against their classical counterparts. Specifically, we consider two approaches: a quantum Support Vector Machine (QSVM) on a universal gate-based quantum computer, and QBoost on a quantum annealer. The quantum vision systems are benchmarked for an unbalanced dataset of images where the aim is to detect defects in manufactured car pieces. We see that the quantum algorithms outperform their classical counterparts in several ways, with QBoost allowing for larger problems to be analyzed with present-day quantum annealers. Data preprocessing, including dimensionality reduction and contrast enhancement, is also discussed, as well as hyperparameter tuning in QBoost. To the best of our knowledge, this is the first implementation of quantum computer vision systems for a problem of industrial relevance in a manufacturing production line. | 翻訳日:2024-01-08 19:01:40 公開日:2024-01-05 |
# 非エルミート光学系における非対称dyadによる生成拡散モデルのためのマクロノイズ増幅 Macroscopic noise amplification by asymmetric dyads in non-Hermitian optical systems for generative diffusion models ( http://arxiv.org/abs/2206.12200v2 ) ライセンス: Link先を確認 | Alexander Johnston and Natalia G. Berloff | (参考訳) 新しい世代のセンサー、ハードウェア乱数発生器、量子および古典信号検出器は、システムノイズの外部摂動に対する強い応答を活用している。
本稿では,非エルミート光学系における非対称ダイナドによる雑音増幅について検討する。
加圧強度の修正はシステムのハードウェアの自然な不完全さからバイアスを和らげるが、ダイズ間のカップリングは一様でない統計分布を持つシステムへと繋がる。
この結果から,非対称な非エルミートダイアドは,効率的なセンサや超高速乱数生成装置の候補となる可能性が示唆された。
このような非対称ダイアドからの集積発光は、処理速度とエネルギー消費におけるそのようなモデルのデジタル制限を克服するために、機械学習の全光変性拡散モデルに効率的に利用できる。 A new generation of sensors, hardware random number generators, and quantum and classical signal detectors are exploiting strong responses to external perturbations of system noise. Here, we study noise amplification by asymmetric dyads in freely expanding non-Hermitian optical systems. We show that modifications of the pumping strengths can counteract bias from natural imperfections of the system's hardware, while couplings between dyads lead to systems with non-uniform statistical distributions. Our results suggest that asymmetric non-Hermitian dyads are promising candidates for efficient sensors and ultra-fast random number generators. We propose that the integrated light emission from such asymmetric dyads can be efficiently used for analog all-optical degenerative diffusion models of machine learning to overcome the digital limitations of such models in processing speed and energy consumption. | 翻訳日:2024-01-08 19:01:27 公開日:2024-01-05 |
# 変分量子と量子誘発クラスタリング Variational Quantum and Quantum-Inspired Clustering ( http://arxiv.org/abs/2206.09893v2 ) ライセンス: Link先を確認 | Pablo Bermejo, Roman Orus | (参考訳) 本稿では,変分量子回路に基づくクラスタリングのための量子アルゴリズムを提案する。
このアルゴリズムはデータを多くのクラスタに分類することができ、数量子のノイズ中間スケール量子(NISQ)デバイスで容易に実装できる。
このアルゴリズムの考え方は、クラスタリング問題を最適化に還元し、非直交量子ビット状態と組み合わせた変分量子固有解法(VQE)によって解決することに依存する。
実際には、この方法は通常の計算基底ではなくターゲットヒルベルト空間の最大直交状態を使い、少数の量子ビットでも多数のクラスタを考慮できる。
アルゴリズムを実データを用いた数値シミュレーションでベンチマークし,単一キュービットでも優れた性能を示す。
さらに、このアルゴリズムのテンソルネットワークシミュレーションは、構成上、現在の古典的ハードウェア上で実行できる量子インスパイアされたクラスタリングアルゴリズムを実装している。 Here we present a quantum algorithm for clustering data based on a variational quantum circuit. The algorithm allows to classify data into many clusters, and can easily be implemented in few-qubit Noisy Intermediate-Scale Quantum (NISQ) devices. The idea of the algorithm relies on reducing the clustering problem to an optimization, and then solving it via a Variational Quantum Eigensolver (VQE) combined with non-orthogonal qubit states. In practice, the method uses maximally-orthogonal states of the target Hilbert space instead of the usual computational basis, allowing for a large number of clusters to be considered even with few qubits. We benchmark the algorithm with numerical simulations using real datasets, showing excellent performance even with one single qubit. Moreover, a tensor network simulation of the algorithm implements, by construction, a quantum-inspired clustering algorithm that can run on current classical hardware. | 翻訳日:2024-01-08 19:01:11 公開日:2024-01-05 |
# 狭帯域およびパスバンドシーケンスを用いた三状態コヒーレント制御 Three-state coherent control using narrowband and passband sequences ( http://arxiv.org/abs/2205.14432v2 ) ライセンス: Link先を確認 | Cheng Zhang, Li-Tuo Shen, Jie Song, Yan Xia, and Zhi-Cheng Shi | (参考訳) 本研究では, 3状態系における全ての状態のダイナミクスを伴って, 狭帯域および通過帯域複合パルス列の包括的設計を提案する。
この設計は非常に普遍的であり、全てのパルスパラメータは誤り項の係数を自由に修正することができる。
2つの変調技術、強度と位相変調は、所望の励起プロファイルで任意の人口移動を達成するのに使われ、システムは第3の状態への最小リークを保持する。
さらに、現在のシーケンスは不正確な波形を許容し、誤りを除去し、回転波近似が厳密に正当化されない場合にうまく機能する。
したがって、この研究は狭帯域とパスバンドのシーケンスで様々な励起プロファイルを形作るための多用途な適応性を提供する。 In this work, we propose a comprehensive design for narrowband and passband composite pulse sequences by involving the dynamics of all states in the three-state system. The design is quite universal as all pulse parameters can be freely employed to modify the coefficients of error terms. Two modulation techniques, the strength and phase modulations, are used to achieve arbitrary population transfer with a desired excitation profile, while the system keeps minimal leakage to the third state. Furthermore, the current sequences are capable of tolerating inaccurate waveforms, detunings errors, and work well when rotating wave approximation is not strictly justified. Therefore, this work provides versatile adaptability for shaping various excitation profiles in both narrowband and passband sequences. | 翻訳日:2024-01-08 19:00:39 公開日:2024-01-05 |
# 情報理論レンズによるラップアップ効果の解析 Analyzing Wrap-Up Effects through an Information-Theoretic Lens ( http://arxiv.org/abs/2203.17213v2 ) ライセンス: Link先を確認 | Clara Meister and Tiago Pimentel and Thomas Hikaru Clark and Ryan Cotterell and Roger Levy | (参考訳) 読解時間(RT)データの多種多様な分析が実施されており、読解理解を促進する認知過程の理解を深めている。しかし、文の末尾で測定されたデータは、いわゆる「ラップアップ・エフェクト(wrap-up effect)」によって引き起こされる要因のため、しばしば省略される。これはこれらの単語に対するRTのスキュード分布として表される。
したがって、これらの包み込み効果にかかわる認知過程の理解は限られている。
本研究では,これらのプロセスについて,単語や文脈の前提など,ラップアップ効果と情報理論量との関係について検討する。
先行する文脈における情報の分布は、多くの場合、文末rtsと節末rts(文中rtsではない)の予測である。
これにより、ラップアップ効果に関わるプロセスに関するいくつかの先行仮説が支持される。 Numerous analyses of reading time (RT) data have been implemented -- all in an effort to better understand the cognitive processes driving reading comprehension. However, data measured on words at the end of a sentence -- or even at the end of a clause -- is often omitted due to the confounding factors introduced by so-called "wrap-up effects," which manifests as a skewed distribution of RTs for these words. Consequently, the understanding of the cognitive processes that might be involved in these wrap-up effects is limited. In this work, we attempt to learn more about these processes by examining the relationship between wrap-up effects and information-theoretic quantities, such as word and context surprisals. We find that the distribution of information in prior contexts is often predictive of sentence- and clause-final RTs (while not of sentence-medial RTs). This lends support to several prior hypotheses about the processes involved in wrap-up effects. | 翻訳日:2024-01-08 19:00:25 公開日:2024-01-05 |
# 連続時間量子ウォークによる多点空間探索 Multimarked Spatial Search by Continuous-Time Quantum Walk ( http://arxiv.org/abs/2203.14384v2 ) ライセンス: Link先を確認 | Pedro H. G. Lug\~ao, Renato Portugal, Mohamed Sabri, Hajime Tanaka | (参考訳) 量子ウォークに基づく空間探索問題は、マークされた頂点を持つグラフ上の量子ウォークを用いてマークされた頂点を見つけることを目的としている。
本稿では,任意のグラフ上での連続時間量子ウォークによる空間探索の計算量を決定するためのフレームワークについて,最適な実行時間とアルゴリズムの成功確率を求めるためのレシピを提供する。
量子ウォークは、マークされた頂点の存在によって修正されたグラフの隣接行列に由来するハミルトニアンによって駆動される。
我々のフレームワークの成功は、隣接行列の固有値と固有ベクトルの知識に依存する。
その後、ハミルトニアンのスペクトルは実対称行列の行列式 $m$ の根から得られ、その次元はマークされた頂点の数に依存する。
固有ベクトルは、カーネル $m$ に基づいて決定される。
ジョンソングラフ上の空間探索問題を固定された直径と2つのマークされた頂点で解くことにより,フレームワークの各ステップを示す。
我々の計算では、最適な実行時間は 1+o(1)$ の漸近確率を持つ $o(\sqrt{n})$ であり、ここで $n$ は頂点の数である。 The quantum-walk-based spatial search problem aims to find a marked vertex using a quantum walk on a graph with marked vertices. We describe a framework for determining the computational complexity of spatial search by continuous-time quantum walk on arbitrary graphs by providing a recipe for finding the optimal running time and the success probability of the algorithm. The quantum walk is driven by a Hamiltonian derived from the adjacency matrix of the graph modified by the presence of the marked vertices. The success of our framework depends on the knowledge of the eigenvalues and eigenvectors of the adjacency matrix. The spectrum of the Hamiltonian is subsequently obtained from the roots of the determinant of a real symmetric matrix $M$, the dimensions of which depend on the number of marked vertices. The eigenvectors are determined from a basis of the kernel of $M$. We show each step of the framework by solving the spatial searching problem on the Johnson graphs with a fixed diameter and with two marked vertices. Our calculations show that the optimal running time is $O(\sqrt{N})$ with an asymptotic probability of $1+o(1)$, where $N$ is the number of vertices. | 翻訳日:2024-01-08 19:00:10 公開日:2024-01-05 |
# 弱器や無効器に対するロバスト性:機械学習による非線形処理モデルの検討 Robustness Against Weak or Invalid Instruments: Exploring Nonlinear Treatment Models with Machine Learning ( http://arxiv.org/abs/2203.12808v4 ) ライセンス: Link先を確認 | Zijian Guo and Mengchu Zheng and Peter B\"uhlmann | (参考訳) 観測実験における因果推論について検討する。
本稿では,非線形処理モデルと機械学習を併用した2段階曲率同定法を提案する。
第一段階の機械学習は、機器変数の強度を改善し、機器変数の仮定に違反する様々な形態の調整を可能にする。
}TSCIの成功には,機器変数が治療に与える影響は,その違反形態と異なる。
機械学習の潜在的に高い複雑さに起因するバイアスを取り除くために、新しいバイアス補正ステップが実装されている。
提案手法は,機械学習アルゴリズムが一貫して処理モデルを推定していない場合でも,漸近的に非偏平的かつガウス的であることを示す。
さらに,複数の違反形態の中から最善を選択するためのデータ依存手法を考案する。
我々はTSCIを教育が収益に与える影響の研究に応用する。 We discuss causal inference for observational studies with possibly invalid instrumental variables. We propose a novel methodology called two-stage curvature identification (TSCI) by exploring the nonlinear treatment model with machine learning. {The first-stage machine learning enables improving the instrumental variable's strength and adjusting for different forms of violating the instrumental variable assumptions.} The success of TSCI requires the instrumental variable's effect on treatment to differ from its violation form. A novel bias correction step is implemented to remove bias resulting from the potentially high complexity of machine learning. Our proposed \texttt{TSCI} estimator is shown to be asymptotically unbiased and Gaussian even if the machine learning algorithm does not consistently estimate the treatment model. Furthermore, we design a data-dependent method to choose the best among several candidate violation forms. We apply TSCI to study the effect of education on earnings. | 翻訳日:2024-01-08 18:59:49 公開日:2024-01-05 |
# 駆動型量子ラビモデルにおける特異定常スクイーズ Unique Steady-State Squeezing in a Driven Quantum Rabi Model ( http://arxiv.org/abs/2305.14290v2 ) ライセンス: Link先を確認 | Karol Gietka, Christoph Hotter, and Helmut Ritsch | (参考訳) スクイージングは多くの量子技術と量子物理学の理解に不可欠である。
ここでは、閉および開量子ラビおよびディッケモデルで生成可能な定常スクイージングの理論を展開する。
これにより、物理的調和振動子に対して固有状態が絞られた抽象調和振動子を効果的に導くスピンダイナミクスを解消する。
生成されたスクイージングの形式は、時間に依存しない不確かさと、新しいタイプの量子行動であるスクイージングダイナミクスのユニークな性質を持つ。
このようなスクイーズ法は、連続したバックアクション回避測定に適用できる可能性があり、オプティメカル系やクーロン結晶で既に観測可能である。 Squeezing is essential to many quantum technologies and our understanding of quantum physics. Here we develop a theory of steady-state squeezing that can be generated in the closed and open quantum Rabi as well as Dicke model. To this end, we eliminate the spin dynamics which effectively leads to an abstract harmonic oscillator whose eigenstates are squeezed with respect to the physical harmonic oscillator. The generated form of squeezing has the unique property of time-independent uncertainties and squeezed dynamics, a novel type of quantum behavior. Such squeezing might find applications in continuous back-action evading measurements and should already be observable in optomechanical systems and Coulomb crystals. | 翻訳日:2024-01-08 18:51:14 公開日:2024-01-05 |
# 隣接誘導ラベルリファインメントを用いた協調学習による教師なし可視赤外人物識別 Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement ( http://arxiv.org/abs/2305.12711v3 ) ライセンス: Link先を確認 | De Cheng, Xiaojian Huang, Nannan Wang, Lingfeng He, Zhihui Li and Xinbo Gao | (参考訳) unsupervised learning visible-infrared person re-id(usl-vi-reid)は、非ラベルのクロスモダリティデータセットからモダリティ不変機能を学習することを目的としている。
usl-vi-reidタスクを本質的に解決するための鍵は、さらなる異種共同学習のためのクロスモダリティデータアソシエーション問題を解決することである。
この問題に対処するために、生成したラベルを1つのモダリティから他方のモダリティに同時に割り当てるDual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。
提案するdotla機構は相互強化と効率のよいクロスモダリティデータアソシエーションを定式化し,不充分でノイズの多いラベルアソシエーションの副作用を効果的に低減する。
さらに,不正確な教師付き信号が与える悪影響を解消するために,各サンプルの予測やラベル分布が近辺のものと類似すべきという仮定のもとに,相互モダリティ近傍の一貫性を満たしたラベル改良と正規化モジュールを提案する。
公開SYSU-MM01とRegDBデータセットの大規模な実験結果から提案手法の有効性が示され、既存の最先端手法を平均7.76%のマージンで上回り、教師付きVI-ReID法を上回ります。 Unsupervised learning visible-infrared person re-identification (USL-VI-ReID) aims at learning modality-invariant features from unlabeled cross-modality dataset, which is crucial for practical applications in video surveillance systems. The key to essentially address the USL-VI-ReID task is to solve the cross-modality data association problem for further heterogeneous joint learning. To address this issue, we propose a Dual Optimal Transport Label Assignment (DOTLA) framework to simultaneously assign the generated labels from one modality to its counterpart modality. The proposed DOTLA mechanism formulates a mutual reinforcement and efficient solution to cross-modality data association, which could effectively reduce the side-effects of some insufficient and noisy label associations. Besides, we further propose a cross-modality neighbor consistency guided label refinement and regularization module, to eliminate the negative effects brought by the inaccurate supervised signals, under the assumption that the prediction or label distribution of each example should be similar to its nearest neighbors. Extensive experimental results on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing existing state-of-the-art approach by a large margin of 7.76% mAP on average, which even surpasses some supervised VI-ReID methods. | 翻訳日:2024-01-08 18:50:45 公開日:2024-01-05 |
# 非対称ネットワークによるクロスドメイン学習の近似 Approximation by non-symmetric networks for cross-domain learning ( http://arxiv.org/abs/2305.03890v2 ) ライセンス: Link先を確認 | Hrushikesh Mhaskar | (参考訳) 過去30年ほどの間、機械学習は、浅層や深層ニューラルネットワークによる近似、ラジアル基底関数ネットワーク、様々なカーネルベースの手法など、多数のプロセスの近似能力(表現力)の研究において、多くの研究を刺激してきた。
本稿では,不変学習,転送学習,合成開口レーダイメージングなどの応用を動機とし,非対称カーネルを用いたカーネルベースネットワークの近似能力を研究するための一般的なアプローチを開始する。
特異値分解は、そのような核を研究するための自然な本能であるが、より一般的なアプローチとして、一般化された翻訳ネットワーク(ニューラルネットワークや変換不変核を含む)や回転したゾナル関数核(英語版)のようなカーネル群の使用を考える。
当然、従来のカーネルベース近似とは異なり、カーネルが正定値である必要はない。
特に、$r$が必ずしも整数ではない場合、ReLU$^r$ネットワークにより、$L^2$)-Sobolevクラスの関数の均一近似の精度の推定値を得る。
一般の結果は入力空間の次元と比較して滑らかさの小さい関数の近似に適用できる。 For the past 30 years or so, machine learning has stimulated a great deal of research in the study of approximation capabilities (expressive power) of a multitude of processes, such as approximation by shallow or deep neural networks, radial basis function networks, and a variety of kernel based methods. Motivated by applications such as invariant learning, transfer learning, and synthetic aperture radar imaging, we initiate in this paper a general approach to study the approximation capabilities of kernel based networks using non-symmetric kernels. While singular value decomposition is a natural instinct to study such kernels, we consider a more general approach to include the use of a family of kernels, such as generalized translation networks (which include neural networks and translation invariant kernels as special cases) and rotated zonal function kernels. Naturally, unlike traditional kernel based approximation, we cannot require the kernels to be positive definite. In particular, we obtain estimates on the accuracy of uniform approximation of functions in a ($L^2$)-Sobolev class by ReLU$^r$ networks when $r$ is not necessarily an integer. Our general results apply to the approximation of functions with small smoothness compared to the dimension of the input space. | 翻訳日:2024-01-08 18:49:22 公開日:2024-01-05 |
# 脳卒中診断の進歩 : 血塊起源同定のための新しい2段階アプローチ Advancing Ischemic Stroke Diagnosis: A Novel Two-Stage Approach for Blood Clot Origin Identification ( http://arxiv.org/abs/2304.13775v2 ) ライセンス: Link先を確認 | Koushik Sivarama Krishnan, P. J. Joe Nikesh, Swathi Gnanasekar, Karthik Sivarama Krishnan | (参考訳) 本稿では, 虚血性脳梗塞の診断と治療に重要な2段階の血液凝固起源の分類法について述べる。
まず、MobileNetV3に基づく背景分類器は、大きなスライディングデジタル病理画像を多数のタイルに分割し、細胞物質の存在を検出する。
その後、異なるトレーニング済み画像分類アルゴリズムが微調整され、血栓の起源が決定される。
複雑な血流動態とCT(Computed tomography)、MRI(MRI)、超音波などの従来のイメージング手法の限界のため、血栓の発生源を特定することは難しい課題である。
これらの技術は血栓の同定に有用であるが、その起源を特定するのにはあまり役に立たない。
これらの課題に対処するため,本手法では,デジタル病理画像全体から情報を得た頑健なコンピュータビジョンモデルを用いる。
テストされた全てのモデルのうち、PoolFormer \cite{yu2022metaformer} は他のモデルよりも良く、93.4\%の精度、93.4\%の精度、93.4\%のリコール、93.4\%のF1スコアを持つ。
さらに、この特定のアプリケーションでどれだけ効果的かを強調する、0.4361の優れた重み付き多重クラス対数損失(WMCLL)を達成する。
以上より, 様々な血管部位における血栓の発生源を同定し, 脳梗塞の診断・治療を進展させる可能性が示唆された。 An innovative two-stage methodology for categorizing blood clot origins is presented in this paper, which is important for the diagnosis and treatment of ischemic stroke. First, a background classifier based on MobileNetV3 segments big whole-slide digital pathology images into numerous tiles to detect the presence of cellular material. After that, different pre-trained image classification algorithms are fine-tuned to determine the origin of blood clots. Due to complex blood flow dynamics and limitations in conventional imaging methods such as computed tomography (CT), magnetic resonance imaging (MRI), and ultrasound, identifying the sources of blood clots is a challenging task. Although these techniques are useful for identifying blood clots, they are not very good at determining how they originated. To address these challenges, our method makes use of robust computer vision models that have been refined using information from whole-slide digital pathology images. Out of all the models tested, the PoolFormer \cite{yu2022metaformer} performs better than the others, with 93.4\% accuracy, 93.4\% precision, 93.4\% recall, and 93.4\% F1-score. Moreover, it achieves the good weighted multi-class logarithmic loss (WMCLL) of 0.4361, which emphasizes how effective it is in this particular application. These encouraging findings suggest that our approach can successfully identify the origin of blood clots in a variety of vascular locations, potentially advancing ischemic stroke diagnosis and treatment approaches. | 翻訳日:2024-01-08 18:48:42 公開日:2024-01-05 |
# MC-ViViT:Multi-branch Classifier-ViViTによる高齢者の軽度認知障害の検出 MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive Impairment in older adults using facial videos ( http://arxiv.org/abs/2304.05292v4 ) ライセンス: Link先を確認 | Jian Sun, Hiroko H. Dodge, and Mohammad H. Mahoor | (参考訳) 畳み込みニューラルネットワーク(cnn)を含む深層機械学習モデルは、医療画像、アンケート、ビデオを用いた軽度認知障害(mci)の検出に成功している。
本稿では,mciと正常認知を有するものを顔特徴解析により区別するマルチブランチ分類器・ビデオビジョントランスフォーマ(mc-vivit)モデルを提案する。
このデータは、頻繁なビデオチャットを提供することで認知機能を改善するための行動介入試験であるI-CONECTから得られたものだ。
MC-ViViTは1つのブランチでビデオの時空間的特徴を抽出し、MCモジュールによる表現を拡大する。
I-CONECTデータセットは、MC-ViViTのパフォーマンスを妨げるHard-EasyとPositive-Negativeのサンプルを含むデータセットの不均衡のため、難しい。
不均衡な問題に対処するために,Focal LossとAD-CORRE Lossを組み合わせたHP Loss(HP Loss)の損失関数を提案する。
i-conectデータセットを用いた実験結果から,インタビュービデオの精度90.63%の精度でmciを予測できるmc-vivitの可能性が示唆された。 Deep machine learning models including Convolutional Neural Networks (CNN) have been successful in the detection of Mild Cognitive Impairment (MCI) using medical images, questionnaires, and videos. This paper proposes a novel Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to distinguish MCI from those with normal cognition by analyzing facial features. The data comes from the I-CONECT, a behavioral intervention trial aimed at improving cognitive function by providing frequent video chats. MC-ViViT extracts spatiotemporal features of videos in one branch and augments representations by the MC module. The I-CONECT dataset is challenging as the dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE loss to address the imbalanced problem. Our experimental results on the I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a high accuracy of 90.63% accuracy on some of the interview videos. | 翻訳日:2024-01-08 18:47:59 公開日:2024-01-05 |
# インプシットニューラル表現を用いた単目的マルチコントラストMRI超解像 Single-subject Multi-contrast MRI Super-resolution via Implicit Neural Representations ( http://arxiv.org/abs/2303.15065v3 ) ライセンス: Link先を確認 | Julian McGinnis, Suprosanna Shit, Hongwei Bran Li, Vasiliki Sideri-Lampretsa, Robert Graf, Maik Dannecker, Jiazhen Pan, Nil Stolt Ans\'o, Mark M\"uhlau, Jan S. Kirschke, Daniel Rueckert, Benedikt Wiestler | (参考訳) 臨床ルーチンと振り返りコホートは一般的にマルチパラメトリック磁気共鳴イメージングを含むが、主に信号対雑音比と走査時間の制約により異方性2Dビューで取得される。
このように、獲得されたビューは、平面外解像度の低下に苦しめられ、通常等方性3dスキャンを必要とする下流のボリューム画像解析に影響を及ぼす。
マルチコントラストスキャンの異なるビューを高解像度の等方性3Dスキャンに組み合わせることは、大規模なトレーニングコホートがないために困難である。
本研究は,インプリシトニューラルネットワーク表現(INR)を利用した新しい解法を提案する。
提案したINRは,連続空間関数における相補的視点の2つの異なるコントラストを共同で学習し,それら間の解剖学的情報交換の利点を享受する。
単一のコモディティGPU上で数分でトレーニングされた私たちのモデルは、3つのデータセットによる実験において、異なるコントラストのペア間で現実的な超解像を提供する。
相互情報(MI)を指標として、我々のモデルは配列の最適MIに収束し、解剖学的に忠実な再構築を実現する。
https://github.com/jqmcginnis/multi_contrast_inr/ Clinical routine and retrospective cohorts commonly include multi-parametric Magnetic Resonance Imaging; however, they are mostly acquired in different anisotropic 2D views due to signal-to-noise-ratio and scan-time constraints. Thus acquired views suffer from poor out-of-plane resolution and affect downstream volumetric image analysis that typically requires isotropic 3D scans. Combining different views of multi-contrast scans into high-resolution isotropic 3D scans is challenging due to the lack of a large training cohort, which calls for a subject-specific framework. This work proposes a novel solution to this problem leveraging Implicit Neural Representations (INR). Our proposed INR jointly learns two different contrasts of complementary views in a continuous spatial function and benefits from exchanging anatomical information between them. Trained within minutes on a single commodity GPU, our model provides realistic super-resolution across different pairs of contrasts in our experiments with three datasets. Using Mutual Information (MI) as a metric, we find that our model converges to an optimum MI amongst sequences, achieving anatomically faithful reconstruction. Code is available at: https://github.com/jqmcginnis/multi_contrast_inr/ | 翻訳日:2024-01-08 18:47:35 公開日:2024-01-05 |
# 最適凸近似に基づく確率的状態合成 Probabilistic state synthesis based on optimal convex approximation ( http://arxiv.org/abs/2303.10860v3 ) ライセンス: Link先を確認 | Seiseki Akibue, Go Kato, Seiichiro Tani | (参考訳) 量子回路で純粋な状態を作成する場合、フォールトトレラント実装におけるコンパイルエラーによる避けられない近似誤差がある。
最近提案された確率的状態合成(probabilistic state synthesis)と呼ばれる手法では、回路が確率的にサンプル化され、従来の決定論的合成と比較して近似誤差を低減できる。
本稿では,最適確率合成が近似誤差を2次的に低減することを示す。
さらに, 決定論的合成アルゴリズムを, この二次誤差低減を実現する確率的アルゴリズムに効率的に変換できることを示す。
また、この変換が$t$-countを減少させる様子を数値的に示し、この変換が回路サイズに情報理論的な下限をもたらすことを解析的に証明する。
これらの結果を導出するために、量子状態の最適凸近似に関する一般的な定理を証明する。
さらに,この定理が絡み合い測度の解析に利用できることを示す。 When preparing a pure state with a quantum circuit, there is an unavoidable approximation error due to the compilation error in fault-tolerant implementation. A recently proposed approach called probabilistic state synthesis, where the circuit is probabilistically sampled, is able to reduce the approximation error compared to conventional deterministic synthesis. In this paper, we demonstrate that the optimal probabilistic synthesis quadratically reduces the approximation error. Moreover, we show that a deterministic synthesis algorithm can be efficiently converted into a probabilistic one that achieves this quadratic error reduction. We also numerically demonstrate how this conversion reduces the $T$-count and analytically prove that this conversion halves an information-theoretic lower bound on the circuit size. In order to derive these results, we prove general theorems about the optimal convex approximation of a quantum state. Furthermore, we demonstrate that this theorem can be used to analyze an entanglement measure. | 翻訳日:2024-01-08 18:47:03 公開日:2024-01-05 |
# 実画像デハジングの非整合監督 Non-aligned supervision for Real Image Dehazing ( http://arxiv.org/abs/2303.04940v4 ) ライセンス: Link先を確認 | Junkai Fan, Fei Guo, Jianjun Qian, Xiang Li, Jun Li and Jian Yang | (参考訳) 実際の画像からヘイズを除去することは、予測不可能な気象条件のために困難であり、その結果、ヘイズとクリアな画像のペアが不一致となる。
本稿では,非協調的監督下で機能する革新的なデハジングフレームワークを提案する。
この枠組みは大気散乱モデルに基づいており、デハジング、エアライト、トランスミッションネットワークの3つの相互接続ネットワークで構成されている。
特に、入力されたハジー画像と一致しない明確な参照画像を用いて、デハージングネットワークを監督する非アライメントシナリオを探索する。
これを実現するために,参照画像とデハズド出力の特徴表現を比較したマルチスケール参照損失を提案する。
私たちのシナリオでは、不一致やシフトビューの条件下であっても、実環境におけるhazy/clearイメージペアの収集が容易になります。
このシナリオの有効性を示すために,我々は,Phone-Hazyと呼ばれる,農村と都市の両方で携帯電話が捉えた415枚の画像ペアを含む,新しいハジーデータセットを収集した。
さらに, 位置案内に先立ち, 暗チャネルを用いて, 実無限の空気光をモデル化するための平均と分散に基づく自己追尾ネットワークを提案する。
また、チャネル注意ネットワークを用いて3チャンネル伝送を推定する。
実世界の画像デハジングタスクにおいて,既存の最先端技術よりも優れた性能を示す実験結果が得られた。
Phone-Hazyとコードはhttps://fanjunkai1.github.io/projectpage/NSDNet/index.htmlで入手できる。 Removing haze from real-world images is challenging due to unpredictable weather conditions, resulting in the misalignment of hazy and clear image pairs. In this paper, we propose an innovative dehazing framework that operates under non-aligned supervision. This framework is grounded in the atmospheric scattering model, and consists of three interconnected networks: dehazing, airlight, and transmission networks. In particular, we explore a non-alignment scenario that a clear reference image, unaligned with the input hazy image, is utilized to supervise the dehazing network. To implement this, we present a multi-scale reference loss that compares the feature representations between the referred image and the dehazed output. Our scenario makes it easier to collect hazy/clear image pairs in real-world environments, even under conditions of misalignment and shift views. To showcase the effectiveness of our scenario, we have collected a new hazy dataset including 415 image pairs captured by mobile Phone in both rural and urban areas, called "Phone-Hazy". Furthermore, we introduce a self-attention network based on mean and variance for modeling real infinite airlight, using the dark channel prior as positional guidance. Additionally, a channel attention network is employed to estimate the three-channel transmission. Experimental results demonstrate the superior performance of our framework over existing state-of-the-art techniques in the real-world image dehazing task. Phone-Hazy and code will be available at https://fanjunkai1.github.io/projectpage/NSDNet/index.html. | 翻訳日:2024-01-08 18:46:47 公開日:2024-01-05 |
# 外科的アグリゲーション:連合型クラスヘテロジェンス学習 Surgical Aggregation: Federated Class-Heterogeneous Learning ( http://arxiv.org/abs/2301.06683v5 ) ライセンス: Link先を確認 | Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh | (参考訳) 多くの胸部X線データセットのリリースは、エキスパートレベルのパフォーマンスを持つディープラーニングモデルの開発を先導している。
しかし、クラスヘテロゲニティのため相互運用性は限られており、一貫性のないラベリングスキームと部分アノテーションの結果である。
したがって、これらのデータセットを集約的に活用して、胸骨内で発生する可能性のある異常の完全な表現を持つモデルを訓練することは困難である。
本研究では,分類異種データセットから知識を集約する統合学習フレームワークである外科的アグリゲーションを提案し,データセット全体に存在するすべての疾患ラベルの存在を同時に予測できるモデルを学習する。
本手法は,独立分布と同一分布(iid)と非iid設定の両方にまたがるシミュレーションおよび実世界のクラスヘテロジェンスデータセットを用いて評価する。
以上の結果から,従来の非操作型胸部x線データを用いた臨床応用モデルの開発を促進するために,外科的アグリゲーションが現在の方法よりも優れ,汎用性が向上し,フェデレーション学習におけるクラスヘテロゲニティに取り組む上で重要な第一歩であることが示された。 The release of numerous chest x-ray datasets has spearheaded the development of deep learning models with expert-level performance. However, they have limited interoperability due to class-heterogeneity -- a result of inconsistent labeling schemes and partial annotations. Therefore, it is challenging to leverage these datasets in aggregate to train models with a complete representation of abnormalities that may occur within the thorax. In this work, we propose surgical aggregation, a federated learning framework for aggregating knowledge from class-heterogeneous datasets and learn a model that can simultaneously predict the presence of all disease labels present across the datasets. We evaluate our method using simulated and real-world class-heterogeneous datasets across both independent and identically distributed (iid) and non-iid settings. Our results show that surgical aggregation outperforms current methods, has better generalizability, and is a crucial first step towards tackling class-heterogeneity in federated learning to facilitate the development of clinically-useful models using previously non-interoperable chest x-ray datasets. | 翻訳日:2024-01-08 18:46:02 公開日:2024-01-05 |
# mFACE: Factual Consistency Evaluationを用いた多言語要約 mFACE: Multilingual Summarization with Factual Consistency Evaluation ( http://arxiv.org/abs/2212.10622v2 ) ライセンス: Link先を確認 | Roee Aharoni, Shashi Narayan, Joshua Maynez, Jonathan Herzig, Elizabeth Clark, Mirella Lapata | (参考訳) 抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルは実際には一貫性のない要約を生成するのに苦しむ。
最近のいくつかの取り組みは、マシン生成されたサマリーの事実の不一致を自動的に検出するモデルを考案することでこの問題に対処しようとしている。
しかし、それらは豊富な資源を持つ言語である英語のみに焦点を当てている。
本研究では,事実整合性評価モデルを活用し,多言語要約を改善する。
本稿では,多言語nliモデルで提供された信号に基づく幻覚緩和のための2つの直感的アプローチ,すなわちデータフィルタリングと制御生成について検討する。
xlsumデータセットから得られた45言語の実験結果は、自動評価と人間評価の両方において、強力なベースラインよりも高い値を示している。 Abstractive summarization has enjoyed renewed interest in recent years, thanks to pre-trained language models and the availability of large-scale datasets. Despite promising results, current models still suffer from generating factually inconsistent summaries, reducing their utility for real-world application. Several recent efforts attempt to address this by devising models that automatically detect factual inconsistencies in machine generated summaries. However, they focus exclusively on English, a language with abundant resources. In this work, we leverage factual consistency evaluation models to improve multilingual summarization. We explore two intuitive approaches to mitigate hallucinations based on the signal provided by a multilingual NLI model, namely data filtering and controlled generation. Experimental results in the 45 languages from the XLSum dataset show gains over strong baselines in both automatic and human evaluation. | 翻訳日:2024-01-08 18:45:42 公開日:2024-01-05 |
# 並列スペクトルクラスタリングのための分散ブロックchebyshev-davidsonアルゴリズム A Distributed Block Chebyshev-Davidson Algorithm for Parallel Spectral Clustering ( http://arxiv.org/abs/2212.04443v2 ) ライセンス: Link先を確認 | Qiyuan Pang and Haizhao Yang | (参考訳) スペクトルクラスタリングにおけるスペクトル解析のための大規模リーディング固有値問題を解くために,分散ブロックチェビシェフダビッドソンアルゴリズムを開発した。
まず、チェビシェフ・ダビッドソンアルゴリズムの効率は、推定にコストがかかる固有値スペクトルの事前の知識に依存している。
この問題は、スペクトルクラスタリングにおけるラプラシア行列や正規化ラプラシア行列の分析スペクトル推定によって低減され、提案アルゴリズムはスペクトルクラスタリングにおいて非常に効率的である。
第2に,提案手法をビッグデータ解析に活用するために,分散並列型が魅力的なスケーラビリティで開発されている。
並列計算によるスピードアップは$\sqrt{p}$とほぼ同値であり、$p$はプロセスの数を表す。
並列コンピューティング環境において,スペクトルクラスタリングの効率性と,スペクトルクラスタリングに使用される既存の固有解法に対するスケーラビリティの優位性を示すため,数値計算結果が提供される。
} We develop a distributed Block Chebyshev-Davidson algorithm to solve large-scale leading eigenvalue problems for spectral analysis in spectral clustering. First, the efficiency of the Chebyshev-Davidson algorithm relies on the prior knowledge of the eigenvalue spectrum, which could be expensive to estimate. This issue can be lessened by the analytic spectrum estimation of the Laplacian or normalized Laplacian matrices in spectral clustering, making the proposed algorithm very efficient for spectral clustering. Second, to make the proposed algorithm capable of analyzing big data, a distributed and parallel version has been developed with attractive scalability. The speedup by parallel computing is approximately equivalent to $\sqrt{p}$, where $p$ denotes the number of processes. {Numerical results will be provided to demonstrate its efficiency in spectral clustering and scalability advantage over existing eigensolvers used for spectral clustering in parallel computing environments.} | 翻訳日:2024-01-08 18:45:28 公開日:2024-01-05 |
# デカップリングによる言語フリー合成行動生成 Language-free Compositional Action Generation via Decoupling Refinement ( http://arxiv.org/abs/2307.03538v2 ) ライセンス: Link先を確認 | Xiao Liu, Guangyi Chen, Yansong Tang, Guangrun Wang, Ser-Nam Lim | (参考訳) 単純な要素を複雑な概念に組み込むことは、特に3Dアクション生成において非常に難しい。
既存の手法は主に、構成可能な潜在意味論を識別するための広範囲なニューラルネットワークアノテーションに依存している。
本研究では,言語助詞に頼らずに合成動作を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントの3つの主要コンポーネントから構成される。
アクションカップリングは、各サブアクションのアテンションマスクを抽出するためにエネルギーモデルを使用し、これらのアテンションを使用して2つのアクションを統合して擬似トレーニング例を生成する。
次に,条件付き生成モデルであるcvaeを用いて潜在空間を学習し,多様な世代を促進する。
最後に,自己教師付き事前学習モデルMAEを利用して,サブアクションと構成動作のセマンティック一貫性を確保するデカップリングリファインメントを提案する。
この改良プロセスでは、生成された3dアクションを2d空間にレンダリングし、これらのイメージを2つのサブセグメントに分離し、maeモデルを使用してサブセグメントから完全なイメージを復元する。
サブアクションとコンポジションアクションの両方を含む既存のデータセットがないため、HumanAct-CとUESTC-Cという2つの新しいデータセットを作成し、対応する評価指標を提示した。
質的・定量的評価はともに有効性を示すために行われる。 Composing simple elements into complex concepts is crucial yet challenging, especially for 3D action generation. Existing methods largely rely on extensive neural language annotations to discern composable latent semantics, a process that is often costly and labor-intensive. In this study, we introduce a novel framework to generate compositional actions without reliance on language auxiliaries. Our approach consists of three main components: Action Coupling, Conditional Action Generation, and Decoupling Refinement. Action Coupling utilizes an energy model to extract the attention masks of each sub-action, subsequently integrating two actions using these attentions to generate pseudo-training examples. Then, we employ a conditional generative model, CVAE, to learn a latent space, facilitating the diverse generation. Finally, we propose Decoupling Refinement, which leverages a self-supervised pre-trained model MAE to ensure semantic consistency between the sub-actions and compositional actions. This refinement process involves rendering generated 3D actions into 2D space, decoupling these images into two sub-segments, using the MAE model to restore the complete image from sub-segments, and constraining the recovered images to match images rendered from raw sub-actions. Due to the lack of existing datasets containing both sub-actions and compositional actions, we created two new datasets, named HumanAct-C and UESTC-C, and present a corresponding evaluation metric. Both qualitative and quantitative assessments are conducted to show our efficacy. | 翻訳日:2024-01-08 18:32:23 公開日:2024-01-05 |
# DecodingTrust: GPTモデルにおける信頼性の総合評価 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models ( http://arxiv.org/abs/2306.11698v4 ) ライセンス: Link先を確認 | Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li | (参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、その能力にエキサイティングな進歩を見せている。
しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療や金融といった繊細なアプリケーションに有能なGPTモデルを採用することを提案した。
本研究は,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し,有害性,ステレオタイプバイアス,敵対的堅牢性,アウト・オブ・ディストリビューションの堅牢性,敵的デモンストレーションに対する堅牢性,プライバシ,マシン倫理,公正性など,さまざまな観点から考察する。
評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。
例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。
また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトにより脆弱である。
我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。
私たちのベンチマークはhttps://decodingtrust.github.io/で、データセットはhttps://huggingface.co/datasets/AI-Secure/DecodingTrustでプレビューできます。
id=kaHpo8OZw2。 Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance -- where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives -- including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/; our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust; a concise version of this work is at https://openreview.net/pdf?id=kaHpo8OZw2. | 翻訳日:2024-01-08 18:31:16 公開日:2024-01-05 |
# テロウェアに対する倫理的考察 Ethical Considerations Towards Protestware ( http://arxiv.org/abs/2306.10019v2 ) ライセンス: Link先を確認 | Marc Cheong, Raula Gaikovina Kula, Christoph Treude | (参考訳) オープンソースサードパーティライブラリを使用する際の大きな欠点は、悪意のある攻撃の導入のリスクである。
近年では、メンテナがオープンソースライブラリを抗議ウェアにするなど、これらの脅威が新たな形を取っている。
これは、これらのライブラリを通じて配信される政治的メッセージを含むソフトウェアとして定義される。
開発者は自由にこれらのライブラリにソフトウェアをオープンアップしたいので、ライブラリが約束通りにすることを確実にするために、メンテナに多くの信頼と責任が与えられます。
AI倫理において一般的に使用されるさまざまなフレームワークを用いて、オープンソースメンテナの抗議決定が、異なる利害関係者(ビズ、OSSコミュニティへの参加、彼らの個人的見解、財政的モチベーション、社会的地位、道徳的視点)の影響を受け、抗議ウェアが多面的かつ複雑な問題であることを示す。 A key drawback to using a Open Source third-party library is the risk of introducing malicious attacks. In recently times, these threats have taken a new form, when maintainers turn their Open Source libraries into protestware. This is defined as software containing political messages delivered through these libraries, which can either be malicious or benign. Since developers are willing to freely open-up their software to these libraries, much trust and responsibility are placed on the maintainers to ensure that the library does what it promises to do. Using different frameworks commonly used in AI ethics, we illustrate how an open-source maintainer's decision to protest is influenced by different stakeholders (viz., their membership in the OSS community, their personal views, financial motivations, social status, and moral viewpoints), making protestware a multifaceted and intricate matter. | 翻訳日:2024-01-08 18:30:20 公開日:2024-01-05 |
# コードレビューにおける情報拡散の上限 The Upper Bound of Information Diffusion in Code Review ( http://arxiv.org/abs/2306.08980v3 ) ライセンス: Link先を確認 | Michael Dorner and Daniel Mendez and Krzysztof Wnuk and Ehsan Zabardast and Jacek Czerwonka | (参考訳) 背景: 人間間のコード変更に関する議論であるコードレビューは、参加者が情報を交換し、広めるためのコミュニケーションネットワークを形成する。
定性的な研究によって報告されているが、コードレビューのコミュニケーションネットワークとしての能力に対する理解はまだ限られている。
目的:本稿では,コードレビューにおける情報拡散の上限の上限である,コードレビューの速度と範囲を定量化することにより,通信ネットワークとしてのコードレビューの能力を評価するための第一歩を報告する。
方法:本実験では,大規模(Microsoft),中規模(Spotify),小型コードレビューシステム(Trivago)を通信ネットワークとしてモデル化し,人工的な情報拡散をシミュレーションする。
次に,参加者間の最小限のトポロジカル距離と時間的距離を測定して,コードレビューにおける情報の拡散速度を定量化します。
結果: 中小規模のコードレビューシステムにおける平均的なコードレビュー参加者は,ネットワークサイズやツーリングとは独立して4週間以内に,すべてのコードレビュー参加者の72%から85%に情報を広めることができる。
平均(中間)では、コードレビューの参加者2人の間で5ホップ未満、5日以内で情報を拡散することができる。
結論: コードレビューから生まれたコミュニケーションネットワークが十分にスケールし,情報を迅速かつ広範囲に拡散する証拠を見出した。
この研究は、コードレビューをコミュニケーションネットワークとして理解し、改善するための基礎を築いた。 Background: Code review, the discussion around a code change among humans, forms a communication network that enables its participants to exchange and spread information. Although reported by qualitative studies, our understanding of the capability of code review as a communication network is still limited. Objective: In this article, we report on a first step towards evaluating the capability of code review as a communication network by quantifying how fast and how far information can spread through code review: the upper bound of information diffusion in code review. Method: In an in-silico experiment, we simulate an artificial information diffusion within large (Microsoft), mid-sized (Spotify), and small code review systems (Trivago) modelled as communication networks. We then measure the minimal topological and temporal distances between the participants to quantify how far and how fast information can spread in code review. Results: An average code review participants in the small and mid-sized code review systems can spread information to between 72% and 85% of all code review participants within four weeks independently of network size and tooling; for the large code review systems, we found an absolute boundary of about 11000 reachable participants. On average (median), information can spread between two participants in code review in less than five hops and less than five days. Conclusion: We found evidence that the communication network emerging from code review scales well and spreads information fast and broadly, corroborating the findings of prior qualitative work. The study lays the foundation for understanding and improving code review as a communication network. | 翻訳日:2024-01-08 18:30:03 公開日:2024-01-05 |
# 深いReLUニューラルネットワークのためのNesterovのモーメントの確率的収束 Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU Neural Networks ( http://arxiv.org/abs/2306.08109v2 ) ライセンス: Link先を確認 | Fangshuo Liao, Anastasios Kyrillidis | (参考訳) ニューラルネットワークの学習における勾配降下の収束に関する最近の解析は、polyak-lojaciewicz (pl)条件や制限された強い凸性といった損失景観の特性を特徴付けることに焦点を当てている。
勾配降下はそのような条件下で線形に収束するが、ネステロフの運動量も同様の設定や仮定の下で加速収束を楽しむかどうかには疑問が残る。
この研究において、パラメータのサブセットだけが強い凸性を満たす新しい目的関数のクラスを考え、この目的クラスの理論においてネステロフの運動量が加速を達成することを示す。
我々は、問題クラスの2つの実現法を提供し、そのうちの1つはディープ ReLU ネットワークであり、それは、私たちの知る限りでは、この研究を、非自明なニューラルネットワークアーキテクチャに対する加速収束率を証明する最初のものである。 Current state-of-the-art analyses on the convergence of gradient descent for training neural networks focus on characterizing properties of the loss landscape, such as the Polyak-Lojaciewicz (PL) condition and the restricted strong convexity. While gradient descent converges linearly under such conditions, it remains an open question whether Nesterov's momentum enjoys accelerated convergence under similar settings and assumptions. In this work, we consider a new class of objective functions, where only a subset of the parameters satisfies strong convexity, and show Nesterov's momentum achieves acceleration in theory for this objective class. We provide two realizations of the problem class, one of which is deep ReLU networks, which --to the best of our knowledge--constitutes this work the first that proves accelerated convergence rate for non-trivial neural network architectures. | 翻訳日:2024-01-08 18:29:37 公開日:2024-01-05 |
# OCTにおける非一様回転歪みのリアルタイム補正を可能にするクロスアテンション学習 Cross-attention learning enables real-time nonuniform rotational distortion correction in OCT ( http://arxiv.org/abs/2306.04512v2 ) ライセンス: Link先を確認 | Haoran Zhang, Jianlong Yang, Jingqian Zhang, Shiqing Zhao, Aili Zhang | (参考訳) 非一様回転歪み(NURD)補正は、内視鏡的光コヒーレンス断層撮影(OCT)および血管造影やエラストグラフィーなどの機能拡張に不可欠である。
現在のNURD補正法は時間を要する特徴追跡や相互相関計算を必要とし、時間分解能を犠牲にする。
本稿では,OCTにおけるNURD補正のためのクロスアテンション学習手法を提案する。
本手法は,自然言語処理とコンピュータビジョンにおける自己認識機構の成功に着想を得たものである。
長距離依存をモデル化することで、任意の距離でOCT A線間の相関関係を直接得ることができ、NURD補正を高速化することができる。
終端から終端までのマルチアテンションネットワークを開発し、3種類の最適化制約を設計する。
提案手法を従来の2つの特徴ベース手法とCNNベースの手法と比較し, 市販の2つの内視鏡OCTデータセットと, 自家製の内視鏡OCTシステムで収集したプライベートデータセットを比較した。
提案手法は,実時間 (26\pm 3$ fps) に対して$\sim3\times$ speedupを達成し, 補正性能も向上した。 Nonuniform rotational distortion (NURD) correction is vital for endoscopic optical coherence tomography (OCT) imaging and its functional extensions, such as angiography and elastography. Current NURD correction methods require time-consuming feature tracking or cross-correlation calculations and thus sacrifice temporal resolution. Here we propose a cross-attention learning method for the NURD correction in OCT. Our method is inspired by the recent success of the self-attention mechanism in natural language processing and computer vision. By leveraging its ability to model long-range dependencies, we can directly obtain the correlation between OCT A-lines at any distance, thus accelerating the NURD correction. We develop an end-to-end stacked cross-attention network and design three types of optimization constraints. We compare our method with two traditional feature-based methods and a CNN-based method, on two publicly-available endoscopic OCT datasets and a private dataset collected on our home-built endoscopic OCT system. Our method achieved a $\sim3\times$ speedup to real time ($26\pm 3$ fps), and superior correction performance. | 翻訳日:2024-01-08 18:28:25 公開日:2024-01-05 |
# 合成MR画像を用いた脳腫瘍のセグメンテーション --GANと拡散モデルの比較- Brain tumor segmentation using synthetic MR images -- A comparison of GANs and diffusion models ( http://arxiv.org/abs/2306.02986v2 ) ライセンス: Link先を確認 | Muhammad Usman Akbar, M{\aa}ns Larsson, Anders Eklund | (参考訳) ディープラーニングモデルのトレーニングには大規模な注釈付きデータセットが必要であるが、医療画像データ共有は倫理、匿名化、データ保護法によって複雑になることが多い。
generative adversarial networks (gans) や diffusion models といった生成型aiモデルは、現在非常に現実的な合成画像を生成することができ、データ共有を促進する可能性がある。
しかし、合成医用画像を共有するためには、まず、許容できる性能で異なるネットワークのトレーニングに使用できることを示す必要がある。
そこで我々は4つのGAN(Progressive GAN, StyleGAN 1-3)と脳腫瘍セグメンテーション(U-NetとSwin Transformerの2つのセグメンテーションネットワーク)の課題に対する拡散モデルについて総合的に評価した。
その結果,合成画像上で訓練されたセグメント化ネットワークは,実画像でのトレーニング時のサイコロスコアの80%から90%のサイコロスコアに達するが,元のデータセットが小さすぎると拡散モデルでは,トレーニング画像の記憶が問題となる。
我々の結論は、合成医用画像の共有は実画像の共有に有効な選択肢であるが、さらなる作業が必要であるということである。
学習された生成モデルと生成した合成画像はAIDAデータハブ上で共有される Large annotated datasets are required for training deep learning models, but in medical imaging data sharing is often complicated due to ethics, anonymization and data protection legislation. Generative AI models, such as generative adversarial networks (GANs) and diffusion models, can today produce very realistic synthetic images, and can potentially facilitate data sharing. However, in order to share synthetic medical images it must first be demonstrated that they can be used for training different networks with acceptable performance. Here, we therefore comprehensively evaluate four GANs (progressive GAN, StyleGAN 1-3) and a diffusion model for the task of brain tumor segmentation (using two segmentation networks, U-Net and a Swin transformer). Our results show that segmentation networks trained on synthetic images reach Dice scores that are 80% - 90% of Dice scores when training with real images, but that memorization of the training images can be a problem for diffusion models if the original dataset is too small. Our conclusion is that sharing synthetic medical images is a viable option to sharing real images, but that further work is required. The trained generative models and the generated synthetic images are shared on AIDA data hub | 翻訳日:2024-01-08 18:28:05 公開日:2024-01-05 |
# 信頼に値する(er)自律システム開発のための再中心的勧告 RE-centric Recommendations for the Development of Trustworthy(er) Autonomous Systems ( http://arxiv.org/abs/2306.01774v2 ) ライセンス: Link先を確認 | Krishna Ronanki, Beatriz Cabrero-Daniel, Jennifer Horkoff, Christian Berger | (参考訳) EU AI Act(AIA)ガイドラインを遵守し、AIシステムの開発と実装は、間もなくEU内で必須となる。
しかし、実践者はAIシステム開発中に倫理を運用するための実行可能な指示を欠いている。
異なる倫理ガイドラインに関する文献レビューで、対処された原則とそれらを記述するのに使われる用語の不一致が明らかになった。
さらに、AI開発プロセスの信頼性を早期から向上するために特定される要件エンジニアリング(RE)は、倫理的で信頼できるAIの開発を支援する多くのフレームワークで欠落していることが観察された。
この不一致と具体的な開発プラクティスの欠如が相まって、信頼できるai開発が難しくなる。
この懸念に対処するため、我々は主要な倫理的AIガイドラインにおいて使用される用語の比較表と倫理的AI原則のカバレッジを定式化した。
次に、信頼性の高いAIシステムの開発において、効果的なREを行うための倫理的AI開発フレームワークの適用性を検討した。
倫理的AIフレームワークについて議論する文献の3次レビューとメタ分析は、信頼できるAIを開発する際の限界を明らかにした。
本研究は,信頼性の高いAIの開発において,このような制約に対処するための勧告を提案する。 Complying with the EU AI Act (AIA) guidelines while developing and implementing AI systems will soon be mandatory within the EU. However, practitioners lack actionable instructions to operationalise ethics during AI systems development. A literature review of different ethical guidelines revealed inconsistencies in the principles addressed and the terminology used to describe them. Furthermore, requirements engineering (RE), which is identified to foster trustworthiness in the AI development process from the early stages was observed to be absent in a lot of frameworks that support the development of ethical and trustworthy AI. This incongruous phrasing combined with a lack of concrete development practices makes trustworthy AI development harder. To address this concern, we formulated a comparison table for the terminology used and the coverage of the ethical AI principles in major ethical AI guidelines. We then examined the applicability of ethical AI development frameworks for performing effective RE during the development of trustworthy AI systems. A tertiary review and meta-analysis of literature discussing ethical AI frameworks revealed their limitations when developing trustworthy AI. Based on our findings, we propose recommendations to address such limitations during the development of trustworthy AI. | 翻訳日:2024-01-08 18:27:42 公開日:2024-01-05 |
# DeepMerge: 画像セグメンテーションのためのディープラーニングベースの領域マージ DeepMerge: Deep-Learning-Based Region-Merging for Image Segmentation ( http://arxiv.org/abs/2305.19787v2 ) ライセンス: Link先を確認 | Xianwei Lv and Claudio Persello and Wangbin Li and Xiao Huang and Dongping Ming and Alfred Stein | (参考訳) 画像セグメンテーションは、シーン内の物体に応じて画像を分割することを目的としており、非常に高空間分解能(VHR)リモートセンシング画像を分析するための基本的なステップである。
現在の手法では、様々な形状や大きさの土地を効果的に検討することが困難である。
さらに、セグメンテーションスケールパラメータの決定は静的かつ経験的な原理に固執し、大規模なリモートセンシング画像のセグメンテーションに制限を課し、解釈可能性に制限のあるアルゴリズムを生成する。
以上の課題に対処するため,DeepMergeと呼ばれる深層学習に基づく領域マージ手法を提案し,深部学習と領域隣接グラフ(RAG)を統合することにより,大規模なVHR画像における完全オブジェクトのセグメンテーションを処理する。
これは、ディープラーニングを用いて類似性を学習し、RAGに隣接する類似のスーパーピクセルをマージする最初の方法である。
変換器をベースとしたディープラーニングネットワークの入力として機能し,3次元相対的な位置を埋め込んだシフトスケールアテンション,手作りの特徴を持つ学習特徴を融合するための埋め込みなど,シフトスケールデータを生成するための修正されたバイナリツリーサンプリング手法を提案する。
DeepMergeは、大規模なリモートセンシング画像から教師付き方法で高いセグメンテーション精度を達成でき、5,660 km^2の領域をカバーする0.55 mのリモートセンシング画像を用いて、解釈可能な最適スケールパラメータを提供する。
実験の結果,DeepMergeは最大F値(0.9550)と最小総誤差TE(0.0895)を達成し,異なる大きさのオブジェクトを正しく分割し,競合する全セグメント法より優れていることがわかった。 Image segmentation aims to partition an image according to the objects in the scene and is a fundamental step in analysing very high spatial-resolution (VHR) remote sensing imagery. Current methods struggle to effectively consider land objects with diverse shapes and sizes. Additionally, the determination of segmentation scale parameters frequently adheres to a static and empirical doctrine, posing limitations on the segmentation of large-scale remote sensing images and yielding algorithms with limited interpretability. To address the above challenges, we propose a deep-learning-based region merging method dubbed DeepMerge to handle the segmentation of complete objects in large VHR images by integrating deep learning and region adjacency graph (RAG). This is the first method to use deep learning to learn the similarity and merge similar adjacent super-pixels in RAG. We propose a modified binary tree sampling method to generate shift-scale data, serving as inputs for transformer-based deep learning networks, a shift-scale attention with 3-Dimension relative position embedding to learn features across scales, and an embedding to fuse learned features with hand-crafted features. DeepMerge can achieve high segmentation accuracy in a supervised manner from large-scale remotely sensed images and provides an interpretable optimal scale parameter, which is validated using a remote sensing image of 0.55 m resolution covering an area of 5,660 km^2. The experimental results show that DeepMerge achieves the highest F value (0.9550) and the lowest total error TE (0.0895), correctly segmenting objects of different sizes and outperforming all competing segmentation methods. | 翻訳日:2024-01-08 18:27:26 公開日:2024-01-05 |
# 時間相関による目撃環境次元 Witnessing environment dimension through temporal correlations ( http://arxiv.org/abs/2305.19175v2 ) ライセンス: Link先を確認 | Lucas B. Vieira, Simon Milz, Giuseppe Vitagliano, Costantino Budroni | (参考訳) 本稿では,開量子系力学において達成可能な時間的相関の上限を計算するためのフレームワークを提案する。
これらの相関は、記憶資源として働く環境によって生じるため、観測された統計と互換性のある有効環境の最小次元の証人である。
これらの証人は、漸近収束が保証された半定プログラムの階層に由来する。
我々は、量子ビット系と量子ビット環境を含む様々なシーケンスの非自明な境界を計算し、その結果を同じ結果列を生成する最もよく知られた量子戦略と比較する。
本研究は,オープン量子系力学におけるマルチ時間確率分布の境界を数値的に決定し,システムのみの探索による有効環境次元の目撃を可能にする方法である。 We introduce a framework to compute upper bounds for temporal correlations achievable in open quantum system dynamics, obtained by repeated measurements on the system. As these correlations arise by virtue of the environment acting as a memory resource, such bounds are witnesses for the minimal dimension of an effective environment compatible with the observed statistics. These witnesses are derived from a hierarchy of semidefinite programs with guaranteed asymptotic convergence. We compute non-trivial bounds for various sequences involving a qubit system and a qubit environment, and compare the results to the best known quantum strategies producing the same outcome sequences. Our results provide a numerically tractable method to determine bounds on multi-time probability distributions in open quantum system dynamics and allow for the witnessing of effective environment dimensions through probing of the system alone. | 翻訳日:2024-01-08 18:26:54 公開日:2024-01-05 |
# UNOS臓器ドナー文書からの大規模データ抽出 Large-scale data extraction from the UNOS organ donor documents ( http://arxiv.org/abs/2308.15752v3 ) ライセンス: Link先を確認 | Marek Rychlik and Bekir Tanriover and Yan Han | (参考訳) 本稿では,3つの課題に焦点を当てる。
1) 本手法は, DCDフローシート, 腎灌流データ, および組織周囲の回収手術で得られたフローシートデータの一部をキャプチャする。
2) 結果の実証: 2022 optnデータから総合的な分析可能なデータベースを構築しました。
このデータセットは、この予備段階においてさえ、以前利用可能なデータセットよりもはるかに大きい。
3)過去のOPTNデータと将来のデータにメソッドを拡張できることを証明する。
本研究のスコープは,2008年以降の米国臓器提供者の臓器調達・移植ネットワーク(optn)データである。
データは「`Attachments''」と呼ばれるPDF文書に記録されていたため、過去に大規模な解析は行われず、全てのドナーの情報は異質なフォーマットで数十のPDF文書に記録された。
データを解析可能にするには、PDF内のコンテンツを標準SQLデータベースのような分析可能なデータ形式に変換する必要がある。
本稿では、数百万ページにわたる$\approx 400,000$ PDFドキュメントからなる2022 OPTNデータに焦点を当てる。
OPTNのデータ全体が15年(2008-20022)をカバーしている。
本稿では,読者がOPTNデータの内容に精通していると仮定する。 In this paper we focus on three major task: 1) discussing our methods: Our method captures a portion of the data in DCD flowsheets, kidney perfusion data, and Flowsheet data captured peri-organ recovery surgery. 2) demonstrating the result: We built a comprehensive, analyzable database from 2022 OPTN data. This dataset is by far larger than any previously available even in this preliminary phase; and 3) proving that our methods can be extended to all the past OPTN data and future data. The scope of our study is all Organ Procurement and Transplantation Network (OPTN) data of the USA organ donors since 2008. The data was not analyzable in a large scale in the past because it was captured in PDF documents known as ``Attachments'', whereby every donor's information was recorded into dozens of PDF documents in heterogeneous formats. To make the data analyzable, one needs to convert the content inside these PDFs to an analyzable data format, such as a standard SQL database. In this paper we will focus on 2022 OPTN data, which consists of $\approx 400,000$ PDF documents spanning millions of pages. The entire OPTN data covers 15 years (2008--20022). This paper assumes that readers are familiar with the content of the OPTN data. | 翻訳日:2024-01-08 18:18:43 公開日:2024-01-05 |
# ランダム量子回路を用いたランダム投影 Random Projection using Random Quantum Circuits ( http://arxiv.org/abs/2308.13919v3 ) ライセンス: Link先を確認 | Keerthi Kumaran, Manas Sajjan, Sangchul Oh, Sabre Kais | (参考訳) googleのsycamoreプロセッサによるランダムサンプリングタスクは、"quantum supremacy era"を垣間見せてくれた。
このことは、(擬似)ランダム回路からの出力をサンプリングするこの抽象的なタスクにおいて、ランダム量子回路のパワーにいくつかの注目を向けている。
本稿では,大規模低ランクデータセットの次元縮小における局所ランダム量子回路の短期的利用について検討する。
ランダム射影法という,十分に研究された次元性低減手法を応用した。
この方法は、画像処理、ロジスティック回帰、低ランク行列のエントロピー計算など、様々な用途で広く利用されている。
我々は、十分に短い深さ (\sim o(n)$) の局所ランダム量子回路の行列表現が、ランダム射影のよい候補となることを証明している。
我々は,MNISTおよびCIFAR-100画像データセットにおける計算コストの高い古典的主成分分析から,その射影能力がそれほど遠くないことを示す。
また、画像データセットの次元性低減や、大きな低ランク密度行列のノイマンエントロピーの計算において、一般的な古典的ランダム射影に対する量子ランダム射影の性能をベンチマークする。
そして最後に、変分量子特異値分解を用いて、大きな低ランク行列を低次元に投影した量子ランダムの後、支配的な特異値を持つ特異ベクトルを抽出する短期的な実装を示す。
このような数値実験はすべて、局所ランダム回路が、縮小次元における大きなデータセットの性質の頑健な保持を伴う十分短い深さで大きなヒルベルト空間をランダム化する能力を示す。 The random sampling task performed by Google's Sycamore processor gave us a glimpse of the "Quantum Supremacy era". This has definitely shed some spotlight on the power of random quantum circuits in this abstract task of sampling outputs from the (pseudo-) random circuits. In this manuscript, we explore a practical near-term use of local random quantum circuits in dimensional reduction of large low-rank data sets. We make use of the well-studied dimensionality reduction technique called the random projection method. This method has been extensively used in various applications such as image processing, logistic regression, entropy computation of low-rank matrices, etc. We prove that the matrix representations of local random quantum circuits with sufficiently shorter depths ($\sim O(n)$) serve as good candidates for random projection. We demonstrate numerically that their projection abilities are not far off from the computationally expensive classical principal components analysis on MNIST and CIFAR-100 image data sets. We also benchmark the performance of quantum random projection against the commonly used classical random projection in the tasks of dimensionality reduction of image datasets and computing Von Neumann entropies of large low-rank density matrices. And finally using variational quantum singular value decomposition, we demonstrate a near-term implementation of extracting the singular vectors with dominant singular values after quantum random projecting a large low-rank matrix to lower dimensions. All such numerical experiments unequivocally demonstrate the ability of local random circuits to randomize a large Hilbert space at sufficiently shorter depths with robust retention of properties of large datasets in reduced dimensions. | 翻訳日:2024-01-08 18:18:27 公開日:2024-01-05 |
# SCoRD:テキスト拡張データによる主観的関係検出 SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data ( http://arxiv.org/abs/2308.12910v2 ) ライセンス: Link先を確認 | Ziyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding, Vicente Ordonez | (参考訳) 本研究では,入力対象に条件を付けたSCoRDを提案する。その目的は,シーン内の他のオブジェクトとのすべての関係を,その位置とともに予測することである。
Open Imagesデータセットに基づいて、トレーニングとテストの分割が、$\langle$subject, relation, object$\rangle$三重項の発生統計量で分散シフトするように、挑戦的なOIv6-SCoRDベンチマークを提案する。
そこで本研究では,対象物の関係,オブジェクト,オブジェクトの位置をトークンの列としてキャストすることで,対象物の位置を予測する自動回帰モデルを提案する。
まず,本ベンチマークでは,先行するシーングラフ予測手法では,対象物に対する関係オブジェクト対の列挙が不十分であることを示す。
特に、最近のシーングラフ検出器によって得られた49.75%と比較して、関係対象予測に対するリコール@3は83.8%である。
そして,テキストキャプションから自動的に得られる関係オブジェクトペアをトレーニング中に利用し,オブジェクトボックスアノテーションが利用できないことにより,関係オブジェクトとオブジェクトボックスの予測の一般化が向上することを示す。
特に、訓練中にオブジェクトの位置が得られない$\langle$subject, relation, object$\rangle$ tripletsに対して、リコール@3はリレーションオブジェクト対33.80%、ボックス位置26.75%を得ることができる。 We propose Subject-Conditional Relation Detection SCoRD, where conditioned on an input subject, the goal is to predict all its relations to other objects in a scene along with their locations. Based on the Open Images dataset, we propose a challenging OIv6-SCoRD benchmark such that the training and testing splits have a distribution shift in terms of the occurrence statistics of $\langle$subject, relation, object$\rangle$ triplets. To solve this problem, we propose an auto-regressive model that given a subject, it predicts its relations, objects, and object locations by casting this output as a sequence of tokens. First, we show that previous scene-graph prediction methods fail to produce as exhaustive an enumeration of relation-object pairs when conditioned on a subject on this benchmark. Particularly, we obtain a recall@3 of 83.8% for our relation-object predictions compared to the 49.75% obtained by a recent scene graph detector. Then, we show improved generalization on both relation-object and object-box predictions by leveraging during training relation-object pairs obtained automatically from textual captions and for which no object-box annotations are available. Particularly, for $\langle$subject, relation, object$\rangle$ triplets for which no object locations are available during training, we are able to obtain a recall@3 of 33.80% for relation-object pairs and 26.75% for their box locations. | 翻訳日:2024-01-08 18:18:05 公開日:2024-01-05 |
# 異なる機械学習手法による薬物溶解度予測 -抽出化学特性とグラフ畳み込みニューラルネットワークを用いた回帰モデル- Predicting Drug Solubility Using Different Machine Learning Methods -- Linear Regression Model with Extracted Chemical Features vs Graph Convolutional Neural Network ( http://arxiv.org/abs/2308.12325v2 ) ライセンス: Link先を確認 | John Ho, Zhao-Heng Yin, Colin Zhang, Nicole Guo, Yang Ha | (参考訳) 特定の分子の溶解度を予測することは、製薬業界では依然として重要である。
本研究では,現代コンピューティング資源の能力を活用して,この幅広い研究課題を再考する。
様々な実験データセットを用いて,線形回帰モデルとグラフ畳み込みニューラルネットワーク(gcnn)モデルという2つの機械学習モデルを用いた。
どちらの手法も合理的な予測が得られ、GCNNモデルは最高の性能を示した。
しかし,現在のGCNNモデルでは解釈可能性に制限がある一方で,線形回帰モデルでは特徴重要度分析による基礎因子の詳細な分析が可能であるが,データセット全体のインプットや評価がさらに必要である。
化学の立場から, 線形回帰モデルを用いて, 個々の原子種と官能基が全体の溶解度に与える影響を解明し, 化学構造が医薬品開発過程の化学的性質に与える影響を理解することの重要性を強調した。
酸素原子の導入は有機分子の溶解度を増大させるが、酸素や窒素以外のほとんどのヘテロ原子は溶解度を低下させる傾向にある。 Predicting the solubility of given molecules remains crucial in the pharmaceutical industry. In this study, we revisited this extensively studied topic, leveraging the capabilities of contemporary computing resources. We employed two machine learning models: a linear regression model and a graph convolutional neural network (GCNN) model, using various experimental datasets. Both methods yielded reasonable predictions, with the GCNN model exhibiting the highest level of performance. However, the present GCNN model has limited interpretability while the linear regression model allows scientists for a greater in-depth analysis of the underlying factors through feature importance analysis, although more human inputs and evaluations on the overall dataset is required. From the perspective of chemistry, using the linear regression model, we elucidated the impact of individual atom species and functional groups on overall solubility, highlighting the significance of comprehending how chemical structure influences chemical properties in the drug development process. It is learned that introducing oxygen atoms can increase the solubility of organic molecules, while almost all other hetero atoms except oxygen and nitrogen tend to decrease solubility. | 翻訳日:2024-01-08 18:17:40 公開日:2024-01-05 |
# 事前学習によるRNN勾配の安定化 Stabilizing RNN Gradients through Pre-training ( http://arxiv.org/abs/2308.12075v2 ) ライセンス: Link先を確認 | Luca Herranz-Celotti, Jean Rouat | (参考訳) 学習の多くの理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
通常、これらの分析は、数学的トラクタビリティを考慮して、フィードフォワード完全連結ニューラルネットワークまたは単純な単層リカレントニューラルネットワークで実行される。
対照的に,本研究では,ネットワークを局所安定に事前学習することは,アーキテクチャが解析初期化に複雑すぎる場合に有効であることを示す。
さらに、既知の安定性理論を拡張して、より広範なディープ・リカレント・ネットワークを包含し、データとパラメータ分布の仮定を最小にし、局所安定性条件 (lsc) と呼ぶ。
本研究により, フィードフォワード完全連結ニューラルネットワークに適用した場合, 古典的なGrot, He, Orthogonal の初期化スキームが LSC を満たすことが明らかとなった。
しかし, ディープリカレントネットワークの解析により, 矩形格子内の勾配経路を深さと時間で数えることから生じる指数関数的爆発の新たな発生源を同定した。
そこで本研究では, 従来の重量ではなく, グラデーションに半分の時間と深さの寄与を与えるという, この問題を緩和するための新しいアプローチを提案する。
実験の結果,LCCを満たすために,フィードフォワードネットワークとリカレントネットワークの両方を事前学習することで,最終性能が向上することが確認された。
この研究は、あらゆる複雑性のネットワークを安定化させる手段を提供することによって、この分野に寄与する。
提案手法は,大規模なデータセットを事前学習する前に追加のステップとして実装することができる。 Numerous theories of learning propose to prevent the gradient from exponential growth with depth or time, to stabilize and improve training. Typically, these analyses are conducted on feed-forward fully-connected neural networks or simple single-layer recurrent neural networks, given their mathematical tractability. In contrast, this study demonstrates that pre-training the network to local stability can be effective whenever the architectures are too complex for an analytical initialization. Furthermore, we extend known stability theories to encompass a broader family of deep recurrent networks, requiring minimal assumptions on data and parameter distribution, a theory we call the Local Stability Condition (LSC). Our investigation reveals that the classical Glorot, He, and Orthogonal initialization schemes satisfy the LSC when applied to feed-forward fully-connected neural networks. However, analysing deep recurrent networks, we identify a new additive source of exponential explosion that emerges from counting gradient paths in a rectangular grid in depth and time. We propose a new approach to mitigate this issue, that consists on giving a weight of a half to the time and depth contributions to the gradient, instead of the classical weight of one. Our empirical results confirm that pre-training both feed-forward and recurrent networks, for differentiable, neuromorphic and state-space models to fulfill the LSC, often results in improved final performance. This study contributes to the field by providing a means to stabilize networks of any complexity. Our approach can be implemented as an additional step before pre-training on large augmented datasets, and as an alternative to finding stable initializations analytically. | 翻訳日:2024-01-08 18:17:19 公開日:2024-01-05 |
# ドメイン対応ファインチューニング:ニューラルネットワーク適応性の向上 Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability ( http://arxiv.org/abs/2308.07728v3 ) ライセンス: Link先を確認 | Seokhyeon Ha, Sunbeom Jung, Jungwoo Lee | (参考訳) 訓練済みの微調整ニューラルネットワークモデルは、さまざまな領域で広く採用されている。
しかし、既に強力な一般化能力を持つ事前訓練された特徴抽出器の歪みにつながる可能性がある。
新しいターゲット領域への適応における特徴歪みの緩和が重要である。
近年の研究では、微調整を行う前に、分布内データセット上にヘッド層をアライメントすることで、特徴歪みに対処する有望な結果が示されている。
それにもかかわらず、細調整中にバッチ正規化層の処理によって大きな制限が生じ、最適化性能が低下する。
本稿では、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチであるDomain-Aware Fine-Tuning(DAFT)を提案する。
このバッチ正規化変換手法は、微調整時のニューラルネットワークの変更を低減し、特徴歪みを効果的に軽減する。
さらに,線形探索と微調整を統合して,特徴抽出器の段階的適応を伴うヘッド層を最適化する。
バッチ正規化レイヤを活用し、線形探索と微調整を統合することにより、DAFTは特徴歪みを著しく軽減し、分布内および分布外データセットのモデル性能を向上させる。
大規模な実験により,本手法は他のベースライン法よりも優れており,性能の向上だけでなく特徴歪みの軽減にも有効であることが示された。 Fine-tuning pre-trained neural network models has become a widely adopted approach across various domains. However, it can lead to the distortion of pre-trained feature extractors that already possess strong generalization capabilities. Mitigating feature distortion during adaptation to new target domains is crucial. Recent studies have shown promising results in handling feature distortion by aligning the head layer on in-distribution datasets before performing fine-tuning. Nonetheless, a significant limitation arises from the treatment of batch normalization layers during fine-tuning, leading to suboptimal performance. In this paper, we propose Domain-Aware Fine-Tuning (DAFT), a novel approach that incorporates batch normalization conversion and the integration of linear probing and fine-tuning. Our batch normalization conversion method effectively mitigates feature distortion by reducing modifications to the neural network during fine-tuning. Additionally, we introduce the integration of linear probing and fine-tuning to optimize the head layer with gradual adaptation of the feature extractor. By leveraging batch normalization layers and integrating linear probing and fine-tuning, our DAFT significantly mitigates feature distortion and achieves improved model performance on both in-distribution and out-of-distribution datasets. Extensive experiments demonstrate that our method outperforms other baseline methods, demonstrating its effectiveness in not only improving performance but also mitigating feature distortion. | 翻訳日:2024-01-08 18:16:50 公開日:2024-01-05 |
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進 Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v4 ) ライセンス: Link先を確認 | Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung | (参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。
しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。
本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。
視覚トランスフォーマーを利用して 重みを初期化しました
(i)自然画像によるSSL事前トレーニング(DINOv2)
(ii)自然画像(画像Netデータセット)におけるSL事前学習
3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練
我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。
我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。
以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。
胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。 Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging. | 翻訳日:2024-01-08 18:16:29 公開日:2024-01-05 |
# 単眼RGBビデオにおける手指再建の空間的文脈の展開 Exploiting Spatial-Temporal Context for Interacting Hand Reconstruction on Monocular RGB Video ( http://arxiv.org/abs/2308.04074v3 ) ライセンス: Link先を確認 | Weichao Zhao, Hezhen Hu, Wengang Zhou, Li li, Houqiang Li | (参考訳) モノラルなRGBデータから相互作用する手を再構築することは難しい作業であり、例えば、自己と相互の閉塞や類似したテクスチャなど、多くの干渉要因が伴う。
それまでの作業では、物理的に妥当な関係をモデル化することなく、単一のRGB画像からの情報しか活用できなかった。
本研究は,空間的時空間情報を明示的に活用し,より優れたハンドリコンストラクションを実現することを目的としている。
一方,1つのフレームで提供される情報不足を補うために時間的文脈を活用し,手の動きの滑らかさを対話するための時間的制約を伴う新しい時間的枠組みを設計する。
また, 物理的衝突を伴わずに, 動的に再現可能な手を作るための相互浸透検出モジュールを提案する。
提案フレームワークの有効性を検証するために,公開ベンチマークで新たな最先端性能を実現するための広範囲な実験を行った。 Reconstructing interacting hands from monocular RGB data is a challenging task, as it involves many interfering factors, e.g. self- and mutual occlusion and similar textures. Previous works only leverage information from a single RGB image without modeling their physically plausible relation, which leads to inferior reconstruction results. In this work, we are dedicated to explicitly exploiting spatial-temporal information to achieve better interacting hand reconstruction. On one hand, we leverage temporal context to complement insufficient information provided by the single frame, and design a novel temporal framework with a temporal constraint for interacting hand motion smoothness. On the other hand, we further propose an interpenetration detection module to produce kinetically plausible interacting hands without physical collisions. Extensive experiments are performed to validate the effectiveness of our proposed framework, which achieves new state-of-the-art performance on public benchmarks. | 翻訳日:2024-01-08 18:16:05 公開日:2024-01-05 |
# ボストン地域50kmファイバ量子ネットワークテストベッドの開発 Development of a Boston-area 50-km fiber quantum network testbed ( http://arxiv.org/abs/2307.15696v2 ) ライセンス: Link先を確認 | Eric Bersin, Matthew Grein, Madison Sutula, Ryan Murphy, Yan Qi Huan, Mark Stevens, Aziza Suleymanzade, Catherine Lee, Ralf Riedinger, David J. Starling, Pieter-Jan Stas, Can M. Knaut, Neil Sinclair, Daniel R. Assumpcao, Yan-Cheng Wei, Erik N. Knall, Bartholomeus Machielse, Denis D. Sukachev, David S. Levonian, Mihir K. Bhaskar, Marko Lon\v{c}ar, Scott Hamilton, Mikhail Lukin, Dirk Englund, and P. Benjamin Dixon | (参考訳) リモートシステム間で量子情報を分散することは、新興の量子コンポーネントと既存の通信基盤の統合を必要とする。
これは、古典的な通信システムにおける典型的な特徴付け手法を超えて、伝送された量子信号のチャネル誘起劣化を理解する必要がある。
本稿では、送信信号に付与される飛行時間、偏波、位相雑音を測定する、ボストン地域量子ネットワーク(barqnet)通信ファイバーテストベッドの包括的特性について報告する。
我々はさらに,これらのノイズ源に耐性を持ち,デプロイされたリンク上の新たな量子メモリコンポーネントの統合と互換性のある補償システムの設計と実証を行う。
これらの結果は、BARQNETや開発中の他の量子ネットワークテストベッドにおける将来の作業に有効であり、短期的な量子ネットワークのデモンストレーションを可能にし、将来のシステム機能に最も影響を与える技術開発分野を通知する。 Distributing quantum information between remote systems will necessitate the integration of emerging quantum components with existing communication infrastructure. This requires understanding the channel-induced degradations of the transmitted quantum signals, beyond the typical characterization methods for classical communication systems. Here we report on a comprehensive characterization of a Boston-Area Quantum Network (BARQNET) telecom fiber testbed, measuring the time-of-flight, polarization, and phase noise imparted on transmitted signals. We further design and demonstrate a compensation system that is both resilient to these noise sources and compatible with integration of emerging quantum memory components on the deployed link. These results have utility for future work on the BARQNET as well as other quantum network testbeds in development, enabling near-term quantum networking demonstrations and informing what areas of technology development will be most impactful in advancing future system capabilities. | 翻訳日:2024-01-08 18:15:48 公開日:2024-01-05 |
# デジタル化カウンタダイアバティックqaoaの収束:回路深度と自由パラメータの比較 Convergence of Digitized-Counterdiabatic QAOA: circuit depth versus free parameters ( http://arxiv.org/abs/2307.14079v3 ) ライセンス: Link先を確認 | Mara Vizzuso, Gianluca Passarelli, Giovanni Cantele, and Procolo Lucignano | (参考訳) 近年,連続時間量子アニーリングにおけるトロータライズ・カウンターダイアベイト駆動に触発されて,qaoaを少ないステップで最適化問題の解に収束させるために,cd量子近似最適化アルゴリズム(qaoa)が提案されている。
本稿では,パラダイム的重み付きおよび非重み付き1次元MaxCut問題に着目して,このアプローチを批判的に再検討する。
1階と2階のCD補正を施した2種類のQAOAについて検討した。
その結果,高次cd補正は変動コスト関数の複雑性を増大させることにより,問題の厳密な解へのより迅速な収束を可能にすることがわかった。
しかし、この結果を達成するのに必要な自由パラメータの総数は、分析された特定のQAOA変種とは独立である。 Recently, Digitized-Counterdiabatic (CD) Quantum Approximate Optimization Algorithm (QAOA) has been proposed to make QAOA converge to the solution of an optimization problem in fewer steps, inspired by Trotterized counterdiabatic driving in continuous-time quantum annealing. In this paper, we critically revisit this approach by focusing on the paradigmatic weighted and unweighted one-dimensional MaxCut problem. We study two variants of QAOA with first and second-order CD corrections. Our results show that, indeed, higher order CD corrections allow for a quicker convergence to the exact solution of the problem at hand by increasing the complexity of the variational cost function. Remarkably, however, the total number of free parameters needed to achieve this result is independent of the particular QAOA variant analyzed. | 翻訳日:2024-01-08 18:15:33 公開日:2024-01-05 |
# Knapsack: 接続性、パス、最短パス Knapsack: Connectedness, Path, and Shortest-Path ( http://arxiv.org/abs/2307.12547v2 ) ライセンス: Link先を確認 | Palash Dey, Sudeshna Kolay, and Sipra Singh | (参考訳) グラフ理論の制約によりナップサック問題を研究する。
すなわち、knapsack の項目の集合上にグラフ構造が存在すると仮定し、この解は knapsack の制約の上にあるグラフ理論的性質を満たす必要がある。
特に、コネクテッド・ナップサック問題(connected knapsack problem)において、コネクテッド・ナップサック制約の大きさに対応する最大値を持つ項目の連結部分集合を計算する必要がある。
この問題は、最大次数4のグラフでもNP完全であり、スターグラフでもNP完全であることを示す。
一方、時刻 $o\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ はそれぞれグラフのツリー幅、サイズ、目標値である。
さらに、$(1-\epsilon)$ factor approximation アルゴリズムを、$o\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ ごとに実行しています。
path-knapsack や shortestpath-knapsack という問題名の下で、グラフ理論上の他のいくつかの性質について同様の結果を示す。
結果は,connected-knapsackが最も計算が難しいことを示し,path-knapsack と shortestpath-knapsack が続いた。 We study the knapsack problem with graph theoretic constraints. That is, we assume that there exists a graph structure on the set of items of knapsack and the solution also needs to satisfy certain graph theoretic properties on top of knapsack constraints. In particular, we need to compute in the connected knapsack problem a connected subset of items which has maximum value subject to the size of knapsack constraint. We show that this problem is strongly NP-complete even for graphs of maximum degree four and NP-complete even for star graphs. On the other hand, we develop an algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ are respectively treewidth of the graph, size, and target value of the knapsack. We further exhibit a $(1-\epsilon)$ factor approximation algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ for every $\epsilon>0$. We show similar results for several other graph theoretic properties, namely path and shortest-path under the problem names path-knapsack and shortestpath-knapsack. Our results seems to indicate that connected-knapsack is computationally hardest followed by path-knapsack and shortestpath-knapsack. | 翻訳日:2024-01-08 18:15:17 公開日:2024-01-05 |
# 構文誘導合成のための強化学習とデータ生成 Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis ( http://arxiv.org/abs/2307.09564v2 ) ライセンス: Link先を確認 | Julian Parsert and Elizabeth Polgreen | (参考訳) プログラム合成は、仕様に基づいてコードを自動的に生成するタスクである。
Syntax-Guided Synthesis (SyGuS)では、この仕様は構文テンプレートと論理式の組み合わせであり、その両方を満たすことが保証されている。
本稿では,モンテカルロ木探索(MCTS)を用いて候補解の空間を探索するSyGuSの強化学習指導アルゴリズムを提案する。
我々のアルゴリズムは,木に縛られた高信頼度と組み合わさって,探索と利用のバランスをとるためのポリシーと価値関数を学習する。
構文誘導合成に機械学習アプローチを適用する際の一般的な課題は、トレーニングデータの不足である。
そこで本稿では,既存の1次満足度問題に対するアンチ統一に基づいて,SyGuSのトレーニングデータを自動的に生成する手法を提案する。
この設定を実装して評価し、学習方針と価値がベースライン上での合成性能をトレーニングおよびテストセットにおいて26ポイント以上向上することを示す。
このツールは,テストセット上で解決した問題の総数(cvc5が失敗するベンチマークの23%)の観点から比較して,最先端のツールであるcvc5よりも優れています。
当社のデータセットを一般公開し、シグス問題に対する機械学習手法のさらなる適用を可能にします。 Program synthesis is the task of automatically generating code based on a specification. In Syntax-Guided Synthesis (SyGuS) this specification is a combination of a syntactic template and a logical formula, and the result is guaranteed to satisfy both. We present a reinforcement-learning guided algorithm for SyGuS which uses Monte-Carlo Tree Search (MCTS) to search the space of candidate solutions. Our algorithm learns policy and value functions which, combined with the upper confidence bound for trees, allow it to balance exploration and exploitation. A common challenge in applying machine learning approaches to syntax-guided synthesis is the scarcity of training data. To address this, we present a method for automatically generating training data for SyGuS based on anti-unification of existing first-order satisfiability problems, which we use to train our MCTS policy. We implement and evaluate this setup and demonstrate that learned policy and value improve the synthesis performance over a baseline by over 26 percentage points in the training and testing sets. Our tool outperforms state-of-the-art tool cvc5 on the training set and performs comparably in terms of the total number of problems solved on the testing set (solving 23% of the benchmarks on which cvc5 fails). We make our data set publicly available, to enable further application of machine learning methods to the SyGuS problem. | 翻訳日:2024-01-08 18:14:54 公開日:2024-01-05 |
# 大規模言語モデルによるソフトウェアテスト:サーベイ、ランドスケープ、ビジョン Software Testing with Large Language Models: Survey, Landscape, and Vision ( http://arxiv.org/abs/2307.07221v2 ) ライセンス: Link先を確認 | Junjie Wang, Yuchao Huang, Chunyang Chen, Zhe Liu, Song Wang, Qing Wang | (参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自然言語処理と人工知能のブレークスルー技術として登場し、大規模なデータセットを処理し、幅広いタスクにわたって顕著なパフォーマンスを示すことができる。
一方、ソフトウェアテストは、ソフトウェア製品の品質と信頼性を確保するための基礎となる重要な仕事である。
ソフトウェアシステムのスコープと複雑さが拡大し続ければ、より効果的なソフトウェアテスト技術の必要性がますます緊急になり、LCMの使用のような革新的なアプローチの領域が生まれます。
本稿では,ソフトウェアテストにおけるllmの利用について概観する。
ソフトウェアテストとLLMの両方の観点から、ソフトウェアテストにLLMを使用した102の関連研究を分析します。
本稿では,LLMが一般的に使用されるソフトウェアテストタスクについて,テストケースの準備とプログラムの修復が最も代表的なソフトウェアテストタスクについて,詳細な議論を行う。
また、一般的に使われているLLM、採用されるプロンプトエンジニアリングのタイプ、およびこれらLLMに付随する技術も分析する。
また、この方向性における重要な課題と潜在的な機会をまとめている。
この作業は、この領域における将来の研究のロードマップとして機能し、探究の潜在的な方法を強調し、ソフトウェアテストにおけるLLMの使用に関する現在の理解におけるギャップを特定します。 Pre-trained large language models (LLMs) have recently emerged as a breakthrough technology in natural language processing and artificial intelligence, with the ability to handle large-scale datasets and exhibit remarkable performance across a wide range of tasks. Meanwhile, software testing is a crucial undertaking that serves as a cornerstone for ensuring the quality and reliability of software products. As the scope and complexity of software systems continue to grow, the need for more effective software testing techniques becomes increasingly urgent, making it an area ripe for innovative approaches such as the use of LLMs. This paper provides a comprehensive review of the utilization of LLMs in software testing. It analyzes 102 relevant studies that have used LLMs for software testing, from both the software testing and LLMs perspectives. The paper presents a detailed discussion of the software testing tasks for which LLMs are commonly used, among which test case preparation and program repair are the most representative. It also analyzes the commonly used LLMs, the types of prompt engineering that are employed, as well as the accompanied techniques with these LLMs. It also summarizes the key challenges and potential opportunities in this direction. This work can serve as a roadmap for future research in this area, highlighting potential avenues for exploration, and identifying gaps in our current understanding of the use of LLMs in software testing. | 翻訳日:2024-01-08 18:14:33 公開日:2024-01-05 |
# FITS: 10k$パラメータによる時系列モデリング FITS: Modeling Time Series with $10k$ Parameters ( http://arxiv.org/abs/2307.03756v3 ) ライセンス: Link先を確認 | Zhijian Xu, Ailing Zeng, Qiang Xu | (参考訳) 本稿では,時系列解析のための軽量かつ強力なモデルであるFITSを紹介する。
生の時間領域データを直接処理する既存のモデルとは異なり、FITSは複雑な周波数領域の補間によって時系列を操作できるという原理に基づいている。
時系列データにほとんど影響を与えない高周波成分を廃棄することにより、FITSは、約10k$のパラメータしか持たず、時系列予測や異常検出タスクの最先端モデルに匹敵する性能を達成する。
このような軽量なモデルは、簡単にトレーニングしてエッジデバイスにデプロイでき、さまざまなアプリケーションのための機会を生み出します。
コードは: \url{https://github.com/VEWOXIC/FITS} In this paper, we introduce FITS, a lightweight yet powerful model for time series analysis. Unlike existing models that directly process raw time-domain data, FITS operates on the principle that time series can be manipulated through interpolation in the complex frequency domain. By discarding high-frequency components with negligible impact on time series data, FITS achieves performance comparable to state-of-the-art models for time series forecasting and anomaly detection tasks, while having a remarkably compact size of only approximately $10k$ parameters. Such a lightweight model can be easily trained and deployed in edge devices, creating opportunities for various applications. The code is available in: \url{https://github.com/VEWOXIC/FITS} | 翻訳日:2024-01-08 18:14:11 公開日:2024-01-05 |
# サンプリングアダプタの有効性について On the Efficacy of Sampling Adapters ( http://arxiv.org/abs/2307.03749v2 ) ライセンス: Link先を確認 | Clara Meister, Tiago Pimentel, Luca Malagutti, Ethan G. Wilcox, Ryan Cotterell | (参考訳) サンプリングは確率モデルからテキストを生成する一般的な戦略であるが、標準祖先サンプリングはしばしば一貫性のない、あるいは文法的でないテキストを生成する。
この問題を軽減するために、nucleusやtop-kサンプリングなどのモデルのサンプリング分布の様々な変更が導入され、現在では言語生成システムで広く使われている。
我々は,これらの手法を理解するための統一フレームワークを提案する。
サンプリングアダプタは、質的に優れたテキストをもたらすことが多いので、質問を提起する。 形式的な見地からすると、言語生成モデルの(サブ)単語レベルの分布をどのように変えているのか?
なぜローカルな変更が高品質なテキストに繋がるのでしょうか?
モデルが特定の文字列を生成する能力を失う一方で、望ましいテキストに対する精度が向上する。
このトレードオフは、分布品質の標準指標(パープレキシティなど)には反映されていないが、いくつかの精度強調指標は、サンプリングアダプタが真の分布に合致する確率分布をもたらすことを実際に示している。
さらに、これらの尺度は、特にMauveのような、より高いシーケンスレベルの品質スコアと相関する。 Sampling is a common strategy for generating text from probabilistic models, yet standard ancestral sampling often results in text that is incoherent or ungrammatical. To alleviate this issue, various modifications to a model's sampling distribution, such as nucleus or top-k sampling, have been introduced and are now ubiquitously used in language generation systems. We propose a unified framework for understanding these techniques, which we term sampling adapters. Sampling adapters often lead to qualitatively better text, which raises the question: From a formal perspective, how are they changing the (sub)word-level distributions of language generation models? And why do these local changes lead to higher-quality text? We argue that the shift they enforce can be viewed as a trade-off between precision and recall: while the model loses its ability to produce certain strings, its precision rate on desirable text increases. While this trade-off is not reflected in standard metrics of distribution quality (such as perplexity), we find that several precision-emphasizing measures indeed indicate that sampling adapters can lead to probability distributions more aligned with the true distribution. Further, these measures correlate with higher sequence-level quality scores, specifically, Mauve. | 翻訳日:2024-01-08 18:13:58 公開日:2024-01-05 |
# インクリメンタルローテーション平均化再訪など: 新しいローテーション平均化ベンチマーク Incremental Rotation Averaging Revisited and More: A New Rotation Averaging Benchmark ( http://arxiv.org/abs/2309.16924v3 ) ライセンス: Link先を確認 | Xiang Gao, Hainan Cui, and Shuhan Shen | (参考訳) インクリメンタルパラメータ推定に基づく回転平均化手法の精度とロバスト性をさらに向上するために,インクリメンタル回転平均化(IRA)ファミリーの新たなメンバーを導入し,IRAv4と呼ぶ。
IRAv4の最も重要な特徴として、タスク固有の連結支配集合が抽出され、より信頼性が高く正確な回転グローバルアライメントの基準となる。
In addition, to further address the limitations of the existing rotation averaging benchmark of relying on the slightly outdated Bundler camera calibration results as ground truths and focusing solely on rotation estimation accuracy, this paper presents a new COLMAP-based rotation averaging benchmark that incorporates a cross check between COLMAP and Bundler, and employ the accuracy of both rotation and downstream location estimation as evaluation metrics, which is desired to provide a more reliable and comprehensive evaluation tool for the rotation averaging research.
提案するirav4と他の主軸回転平均法との包括的比較により,提案手法の有効性が示された。 In order to further advance the accuracy and robustness of the incremental parameter estimation-based rotation averaging methods, in this paper, a new member of the Incremental Rotation Averaging (IRA) family is introduced, which is termed as IRAv4. As the most significant feature of the IRAv4, a task-specific connected dominating set is extracted to serve as a more reliable and accurate reference for rotation global alignment. In addition, to further address the limitations of the existing rotation averaging benchmark of relying on the slightly outdated Bundler camera calibration results as ground truths and focusing solely on rotation estimation accuracy, this paper presents a new COLMAP-based rotation averaging benchmark that incorporates a cross check between COLMAP and Bundler, and employ the accuracy of both rotation and downstream location estimation as evaluation metrics, which is desired to provide a more reliable and comprehensive evaluation tool for the rotation averaging research. Comprehensive comparisons between the proposed IRAv4 and other mainstream rotation averaging methods on this new benchmark demonstrate the effectiveness of our proposed approach. | 翻訳日:2024-01-08 18:07:49 公開日:2024-01-05 |
# ハニカム格子上の非エルミートフェルミオン超流動の理論:例外多様体とファンホーブ特異点の相互作用 Theory of non-Hermitian fermionic superfluidity on a honeycomb lattice: Interplay between exceptional manifolds and van Hove Singularity ( http://arxiv.org/abs/2309.16191v2 ) ライセンス: Link先を確認 | Soma Takemori, Kazuki Yamamoto, Akihisa Koga | (参考訳) ハニカム格子上のクーパー対の散逸による非エルミートフェルミオン超流動の研究を行い、複素値相互作用を持つ魅力的なハバードモデルの解析を行った。
注目すべきことに, 位相境界上のcuspにより異常に拡大した散逸誘起超流動相の出現を示す。
この非伝統的な位相遷移は、平衡に相反しないファン・ホーブ特異点と例外的な直線の間の相互作用から生じる。
さらに,無限小散逸は臨界点において非自明な超流動解を誘導することを示した。
本研究は, 量子ガス顕微鏡を用いて超低温原子を光結合法で測定し, 開量子系における例外多様体によって引き起こされるnh多体物理学の理解に繋がる。 We study the non-Hermitian fermionic superfluidity subject to dissipation of Cooper pairs on a honeycomb lattice, for which we analyze the attractive Hubbard model with a complex-valued interaction. Remarkably, we demonstrate the emergence of the dissipation-induced superfluid phase that is anomalously enlarged by a cusp on the phase boundary. We find that this unconventional phase transition originates from the interplay between exceptional lines and van Hove singularity, which has no counterpart in equilibrium. Moreover, we demonstrate that the infinitesimal dissipation induces the nontrivial superfluid solution at the critical point. Our results can be tested in ultracold atoms with photoassociation techniques by postselcting special measurement outcomes with the use of quantum-gas microscopy and can lead to understanding the NH many-body physics triggered by exceptional manifolds in open quantum systems. | 翻訳日:2024-01-08 18:07:34 公開日:2024-01-05 |
# 一般化されたブラックホールエントロピーはフォン・ノイマンエントロピーである Generalized Black Hole Entropy is von Neumann Entropy ( http://arxiv.org/abs/2309.15897v3 ) ライセンス: Link先を確認 | Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran | (参考訳) 最近、シュワルツシルト-AdSブラックホールの質量にdressした可観測物のフォン・ノイマン代数やデ・シッターの観測者がタイプIIであることが示されている。
半古典状態のフォン・ノイマンエントロピーは一般化エントロピーであることが判明した。
しかし、これらの議論は平衡状態(kms)の存在に依存しており、例えば重力崩壊によって形成されたブラックホール、カーブラックホール、あるいは漸近的にド・ジッター空間内のブラックホールには適用されない。
本稿では, キリング地平線を持つ任意の時空上の線形場に対して, 着衣可観測体の代数を求めるための一般的な枠組みを提案する。
定常状態(ただし必ずしも KMS ではない)の存在と解の適切な崩壊を仮定すると、着飾った可観測体の代数が常に地平線上に「局所化」されたタイプII因子を含むという構造定理が証明される。
これらの仮定は、ほとんどのケースで厳格に証明されている。
漸近的に平坦なケーラーブラックホールの外方での代数に応用すると、場はブラックホールの質量と角運動量にdressした状態で、地平線上のタイプII$_{\infty}$代数と過去のヌル無限大におけるタイプI$_{\infty}$代数の積が見つかる。
シュワルツシルト=ド・シッター (Schwarzschild-de Sitter) では、観測者を導入するにもかかわらず、場の可観測物はブラックホールと宇宙的地平線の摂動領域に似ており、各地平線上のタイプII$_{\infty}$代数の積である。
いずれの場合も、半古典状態に対するフォン・ノイマンのエントロピーは一般化エントロピーによって与えられる。
我々の結果は、他の「有界構造」が存在する場合(例えば、漸近境界あるいは他のキリング地平線)、可観測体の代数はタイプII$_{\infty}$であり、そのような構造が存在しない場合(例えば、デ・シッター)、代数はタイプII$_{1}$であることを示している。 It was recently shown that the von Neumann algebras of observables dressed to the mass of a Schwarzschild-AdS black hole or an observer in de Sitter are Type II, and thus admit well-defined traces. The von Neumann entropies of "semi-classical" states were found to be generalized entropies. However, these arguments relied on the existence of an equilibrium (KMS) state and thus do not apply to, e.g., black holes formed from gravitational collapse, Kerr black holes, or black holes in asymptotically de Sitter space. In this paper, we present a general framework for obtaining the algebra of dressed observables for linear fields on any spacetime with a Killing horizon. We prove, assuming the existence of a stationary (but not necessarily KMS) state and suitable decay of solutions, a structure theorem that the algebra of dressed observables always contains a Type II factor "localized" on the horizon. These assumptions have been rigorously proven in most cases of interest. Applied to the algebra in the exterior of an asymptotically flat Kerr black hole, where the fields are dressed to the black hole mass and angular momentum, we find a product of a Type II$_{\infty}$ algebra on the horizon and a Type I$_{\infty}$ algebra at past null infinity. In Schwarzschild-de Sitter, despite the fact that we introduce an observer, the quantum field observables are dressed to the perturbed areas of the black hole and cosmological horizons and is the product of Type II$_{\infty}$ algebras on each horizon. In all cases, the von Neumann entropy for semiclassical states is given by the generalized entropy. Our results suggest that in all cases where there exists another "boundary structure" (e.g., an asymptotic boundary or another Killing horizon) the algebra of observables is Type II$_{\infty}$ and in the absence of such structures (e.g., de Sitter) the algebra is Type II$_{1}$. | 翻訳日:2024-01-08 18:07:15 公開日:2024-01-05 |
# 超伝導量子におけるZZ-Interaction-free Single-Qubit-Gate Optimization ZZ-Interaction-Free Single-Qubit-Gate Optimization in Superconducting Qubits ( http://arxiv.org/abs/2309.13927v2 ) ライセンス: Link先を確認 | Shu Watanabe, Yutaka Tabuchi, Kentaro Heya, Shuhei Tamate, Yasunobu Nakamura | (参考訳) 量子ビット周波数変動の問題を克服することは、固体量子ビットを用いた安定かつ実用的な量子コンピューティングを実現するために不可欠である。
隣接する量子ビットの状態に応じて量子ビットの周波数シフトを引き起こす静的ZZ相互作用は、固定周波数のトランペット量子ビットを統合する上での大きな障害の1つである。
本稿では、摂動解析に基づく半解析最適化パルスを用いて超伝導トランスモン量子ビット上でのZZ-相互作用のない単一量子ゲート動作を実験的に実証する。
ゲートは、遅いクォービット周波数変動に対して堅牢であるように設計されている。
最適化ゲートのロバスト性は数MHzにわたっており、ZZ相互作用の悪影響を抑制するのに十分である。
私たちの結果は、追加のハードウェアオーバーヘッドなしにzzインタラクションの問題を克服する効率的なアプローチへの道を開くものです。 Overcoming the issue of qubit-frequency fluctuations is essential to realize stable and practical quantum computing with solid-state qubits. Static ZZ interaction, which causes a frequency shift of a qubit depending on the state of neighboring qubits, is one of the major obstacles to integrating fixed-frequency transmon qubits. Here we propose and experimentally demonstrate ZZ-interaction-free single-qubit-gate operations on a superconducting transmon qubit by utilizing a semi-analytically optimized pulse based on a perturbative analysis. The gate is designed to be robust against slow qubit-frequency fluctuations. The robustness of the optimized gate spans a few MHz, which is sufficient for suppressing the adverse effects of the ZZ interaction. Our result paves the way for an efficient approach to overcoming the issue of ZZ interaction without any additional hardware overhead. | 翻訳日:2024-01-08 18:06:15 公開日:2024-01-05 |
# 提案要求に対するオープンデータ駆動チーム推奨によるリサーチコラボレーションの促進 Promoting Research Collaboration with Open Data Driven Team Recommendation in Response to Call for Proposals ( http://arxiv.org/abs/2309.09404v4 ) ライセンス: Link先を確認 | Siva Likitha Valluru, Biplav Srivastava, Sai Teja Paladi, Siwen Yan, Sriraam Natarajan | (参考訳) チームの構築とコラボレーションの促進は2つの非常に一般的なビジネス活動です。
例えばteamingforfunding問題では、研究機関や研究者が、後者の提案に応じて資金提供機関に申し込む際の協力的な機会を特定することに関心を持っている。
本稿では,(1)各チームが,その機会に要求される最高のスキルカバレッジを達成し,(2)その機会を分配する作業負荷が,候補メンバー間でバランスをとるような,さまざまなAI手法を用いてチームを推薦するシステムについて述べる。
我々は,提案コール(需要)と研究者プロファイル(供給)のオープンデータに潜んでいるスキルを抽出し,分類法を用いてそれらを正規化し,供給需要にマッチする効率的なアルゴリズムを作成することで,これらの疑問に対処した。
短期と長期の目標のバランスをとる新しいメトリクスに沿って、良さを最大化するチームを作ります。
我々は,(1) アルゴリズムの成功を定量的に検証し,(1) 優れたスコアを用いて推奨チームを評価し,より情報のある手法がより少ない人数のチームの推薦につながること,(2) 大学レベルの大規模ユーザスタディを実施することによって質的に,そのツールが極めて有用かつ関連性の高いものであることを示す。
最後に,我々のアプローチの汎用性を確立するために,米国とインド(研究者と提案コール)の2つの異なる環境でシステムを評価し,日常的な使用のために米国の主要大学に展開する。 Building teams and promoting collaboration are two very common business activities. An example of these are seen in the TeamingForFunding problem, where research institutions and researchers are interested to identify collaborative opportunities when applying to funding agencies in response to latter's calls for proposals. We describe a novel system to recommend teams using a variety of AI methods, such that (1) each team achieves the highest possible skill coverage that is demanded by the opportunity, and (2) the workload of distributing the opportunities is balanced amongst the candidate members. We address these questions by extracting skills latent in open data of proposal calls (demand) and researcher profiles (supply), normalizing them using taxonomies, and creating efficient algorithms that match demand to supply. We create teams to maximize goodness along a novel metric balancing short- and long-term objectives. We validate the success of our algorithms (1) quantitatively, by evaluating the recommended teams using a goodness score and find that more informed methods lead to recommendations of smaller number of teams but higher goodness, and (2) qualitatively, by conducting a large-scale user study at a college-wide level, and demonstrate that users overall found the tool very useful and relevant. Lastly, we evaluate our system in two diverse settings in US and India (of researchers and proposal calls) to establish generality of our approach, and deploy it at a major US university for routine use. | 翻訳日:2024-01-08 18:06:00 公開日:2024-01-05 |
# TreeLearn: 地上のLiDARフォレスト点雲から個々の木を分割する総合的深層学習手法 TreeLearn: A Comprehensive Deep Learning Method for Segmenting Individual Trees from Ground-Based LiDAR Forest Point Clouds ( http://arxiv.org/abs/2309.08471v2 ) ライセンス: Link先を確認 | Jonathan Henrich, Jan van Delden, Dominik Seidel, Thomas Kneib and Alexander Ecker | (参考訳) 森林のレーザー走査点雲は森林管理に有用な情報を抽出することができる。
単一木を考えるには、フォレストポイント雲を個々のツリーポイント雲に分割する必要がある。
既存のセグメンテーション法は通常、トランクの識別や木の成長といった手作りのアルゴリズムに基づいており、樹冠が重なる密林では困難に直面している。
本研究では,森林点雲のツリーインスタンスセグメンテーションのためのディープラーニングに基づくアプローチであるTreeLearnを提案する。
従来の手法とは異なり、treelearnはデータ駆動方式で既に分割されたポイントクラウドでトレーニングされており、事前定義された機能やアルゴリズムに依存しない。
さらに、TreeLearnは完全な自動パイプラインとして実装されており、広範なハイパーパラメータチューニングに依存していないため、使いやすくなっている。
さらに,手作業で分割した156本の全木と79本の部分木を含む,手作業によるベンチマーク林のデータセットも導入した。
データはモバイルレーザースキャンによって生成され、モデル開発ときめ細かいインスタンスセグメンテーション評価のための、より大きく、より多様なデータ基盤の作成に寄与する。
我々は、Lidar360ソフトウェアを使って6665本の木の森林点雲上でTreeLearnを訓練した。
ベンチマークデータセットの評価では、treelearnはトレーニングデータを生成するのに使用されるアルゴリズムと同等かそれ以上の性能を示す。
さらに、クリーンなラベル付きベンチマークデータセットを微調整することで、メソッドのパフォーマンスを大幅に改善することができる。
TreeLearnのコードはhttps://github.com/ecker-lab/TreeLearnから入手できる。
データとトレーニングされたモデルはhttps://doi.org/10.25625/VPMPIDで見ることができる。 Laser-scanned point clouds of forests make it possible to extract valuable information for forest management. To consider single trees, a forest point cloud needs to be segmented into individual tree point clouds. Existing segmentation methods are usually based on hand-crafted algorithms, such as identifying trunks and growing trees from them, and face difficulties in dense forests with overlapping tree crowns. In this study, we propose TreeLearn, a deep learning-based approach for tree instance segmentation of forest point clouds. Unlike previous methods, TreeLearn is trained on already segmented point clouds in a data-driven manner, making it less reliant on predefined features and algorithms. Furthermore, TreeLearn is implemented as a fully automatic pipeline and does not rely on extensive hyperparameter tuning, which makes it easy to use. Additionally, we introduce a new manually segmented benchmark forest dataset containing 156 full trees, and 79 partial trees, that have been cleanly segmented by hand. The data is generated by mobile laser scanning and contributes to create a larger and more diverse data basis for model development and fine-grained instance segmentation evaluation. We trained TreeLearn on forest point clouds of 6665 trees, labeled using the Lidar360 software. An evaluation on the benchmark dataset shows that TreeLearn performs equally well or better than the algorithm used to generate its training data. Furthermore, the method's performance can be vastly improved by fine-tuning on the cleanly labeled benchmark dataset. The TreeLearn code is available from https://github.com/ecker-lab/TreeLearn. The data as well as trained models can be found at https://doi.org/10.25625/VPMPID. | 翻訳日:2024-01-08 18:05:34 公開日:2024-01-05 |
# 検索型テキスト音声生成 Retrieval-Augmented Text-to-Audio Generation ( http://arxiv.org/abs/2309.08051v2 ) ライセンス: Link先を確認 | Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang | (参考訳) 最近のtta(text-to-audio)生成の進歩にもかかわらず、audioldmのような最先端のモデルは、audiocapsのような不均衡なクラス分散を持つデータセットでトレーニングされている。
具体的には、一般的なオーディオクラスの生成に優れ、稀なクラスではパフォーマンスが低下し、全体的なパフォーマンスが低下する。
この問題を長文音声生成と呼ぶ。
そこで本研究では,TTAモデルに対する簡単な検索拡張手法を提案する。
具体的には、入力テキストプロンプトが与えられた場合、まずContrastive Language Audio Pretraining (CLAP)モデルを用いて関連するテキストとオーディオのペアを検索する。
検索された音声テキストデータの特徴は、ttaモデルの学習を導く追加条件として使用される。
提案手法によりAudioLDMを拡張し,その結果をRe-AudioLDMと表現した。
AudioCapsデータセットでは、Re-AudioLDMが1.37の最先端のFrechet Audio Distance(FAD)を達成した。
さらに、Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには見えないオーディオタイプに対して現実的なオーディオを生成し、TTAタスクの可能性を示す。 Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks. | 翻訳日:2024-01-08 18:05:04 公開日:2024-01-05 |
# ボソニック回路を用いた普遍量子計算の十分条件 Sufficient condition for universal quantum computation using bosonic circuits ( http://arxiv.org/abs/2309.07820v2 ) ライセンス: Link先を確認 | Cameron Calcluth, Nicolas Reichel, Alessandro Ferraro, Giulia Ferrini | (参考訳) 連続変数ボソニックシステムは、量子計算タスクを実装するための重要な候補である。
資源性を評価するために必要な様々な基準が確立されているが、十分な条件は解明されていない。
計算普遍性にシミュレート可能な回路の促進に焦点をあてることで、このギャップに対処する。
シミュレーション可能な非ガウス回路のクラスは、Gottesman-Kitaev-Preskill状態(GKP)、ガウス演算、ホモダイン測定からなる。
これらの回路に基づいて、まず連続変数状態を量子状態にマッピングする一般的なフレームワークを導入する。
その後、モジュラーおよび安定化サブシステム分解を含む既存のマップをこのフレームワークに投入した。
これらの結果を離散変数系の確立した結果と組み合わせることで、普遍量子計算を実現するための十分条件を定式化する。
これを利用して,ガウス状態,有限スケーシングgkp状態,猫状態など,様々な状態の計算資源性を評価する。
さらに, 安定化サブシステム分解と(位置対称状態の)モジュラーサブシステム分解の両方を, シミュレーション可能な操作で構築できることを示す。
これは、これらの技術を用いて、独立した関心を持つことのできる一般的な連続変数状態の論理的内容を評価するための堅牢な資源理論の基礎を確立する。 Continuous-variable bosonic systems stand as prominent candidates for implementing quantum computational tasks. While various necessary criteria have been established to assess their resourcefulness, sufficient conditions have remained elusive. We address this gap by focusing on promoting circuits that are otherwise simulatable to computational universality. The class of simulatable, albeit non-Gaussian, circuits that we consider is composed of Gottesman-Kitaev-Preskill (GKP) states, Gaussian operations, and homodyne measurements. Based on these circuits, we first introduce a general framework for mapping a continuous-variable state into a qubit state. Subsequently, we cast existing maps into this framework, including the modular and stabilizer subsystem decompositions. By combining these findings with established results for discrete-variable systems, we formulate a sufficient condition for achieving universal quantum computation. Leveraging this, we evaluate the computational resourcefulness of a variety of states, including Gaussian states, finite-squeezing GKP states, and cat states. Furthermore, our framework reveals that both the stabilizer subsystem decomposition and the modular subsystem decomposition (of position-symmetric states) can be constructed in terms of simulatable operations. This establishes a robust resource-theoretical foundation for employing these techniques to evaluate the logical content of a generic continuous-variable state, which can be of independent interest. | 翻訳日:2024-01-08 18:04:38 公開日:2024-01-05 |
# 歴史から学ぶ:画像復元のためのタスク非依存モデルコントラスト学習 Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration ( http://arxiv.org/abs/2309.06023v3 ) ライセンス: Link先を確認 | Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu | (参考訳) コントラスト学習は、適切な負のサンプルを導入することで、その不適切な性質を考慮に入れたコンパクトな最適化空間を実現するために、低レベルの視覚タスクにも活用されている。
しかし、既存の手法は手動で事前定義されたタスク指向のネガティブに依存しており、しばしばタスク固有のバイアスが顕著に現れる。
この課題に対処するために,本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史から学ぶ」という革新的な手法を提案する。
我々のアプローチは、画像復元のためのモデルコントラストパラダイム(MCIR)と呼ばれ、遅延モデルをネガティブモデルとして再定義し、多様な画像復元タスクと互換性を持つ。
そこで我々は,SPN(Self-Prior Guided Negative Los)を提案する。
このアプローチは、提案したモデルコントラッシブパラダイムで再訓練された場合、既存のモデルを大幅に強化する。
その結果,様々なタスクやアーキテクチャにおける画像復元の大幅な改善が示された。
例えば、SPNで再訓練されたモデルは、オリジナルのFFANetとDehazeFormerを3.41dB、0.57dBで上回っている。
同様に、SPA-Data の 0.47 dB と IDT の 0.12 dB を、Manga109 の 0.12 dB を、それぞれ軽量の SwinIR よりも 4倍の解像度で改善した。
コードと再トレーニングされたモデルはhttps://github.com/Aitical/MCIR.comで入手できる。 Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined and task-oriented negatives, which often exhibit pronounced task-specific biases. To address this challenge, our paper introduces an innovative method termed 'learning from history', which dynamically generates negative samples from the target model itself. Our approach, named Model Contrastive paradigm for Image Restoration (MCIR), rejuvenates latency models as negative models, making it compatible with diverse image restoration tasks. We propose the Self-Prior guided Negative loss (SPN) to enable it. This approach significantly enhances existing models when retrained with the proposed model contrastive paradigm. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPN outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/MCIR. | 翻訳日:2024-01-08 18:04:14 公開日:2024-01-05 |
# 多変量時系列データのための完全連結空間時間グラフ Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data ( http://arxiv.org/abs/2309.05305v2 ) ライセンス: Link先を確認 | Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen | (参考訳) 多変量時間系列(MTS)データは、様々なアプリケーション分野において重要である。
逐次的および複数ソース(複数のセンサ)特性により、MSSデータは本質的に時空間(ST)依存性を示し、タイムスタンプ間の時間的相関と各タイムスタンプ内のセンサー間の空間的相関を含む。
この情報を効果的に活用するために、グラフニューラルネットワークベースの手法(GNN)が広く採用されている。
しかし、既存のアプローチでは、空間的依存と時間的依存を別々に捉え、異なるタイムスタンプ(DEDT)における異なるsEnsors間の相関を捉えない。
このような相関関係を見渡すと、MSSデータ内のST依存の包括的モデリングが妨げられ、既存のGNNが効果的な表現を学習することを制限する。
そこで本研究では,fcグラフ構築とfcグラフ畳み込みという2つのキーコンポーネントを含む,完全連結空間-時間グラフニューラルネットワーク(fc-stgnn)と呼ばれる新しい手法を提案する。
グラフ構築のために,時間距離に基づいてすべてのタイムスタンプにセンサを接続する減衰グラフを設計し,dedt間の相関を考慮し,st依存性を完全にモデル化する。
さらに,移動プールGNN層によるFCグラフの畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。
複数のMTSデータセットに対するFC-STGNNの有効性をSOTA法と比較した。 Multivariate Time-Series (MTS) data is crucial in various application fields. With its sequential and multi-source (multiple sensors) properties, MTS data inherently exhibits Spatial-Temporal (ST) dependencies, involving temporal correlations between timestamps and spatial correlations between sensors in each timestamp. To effectively leverage this information, Graph Neural Network-based methods (GNNs) have been widely adopted. However, existing approaches separately capture spatial dependency and temporal dependency and fail to capture the correlations between Different sEnsors at Different Timestamps (DEDT). Overlooking such correlations hinders the comprehensive modelling of ST dependencies within MTS data, thus restricting existing GNNs from learning effective representations. To address this limitation, we propose a novel method called Fully-Connected Spatial-Temporal Graph Neural Network (FC-STGNN), including two key components namely FC graph construction and FC graph convolution. For graph construction, we design a decay graph to connect sensors across all timestamps based on their temporal distances, enabling us to fully model the ST dependencies by considering the correlations between DEDT. Further, we devise FC graph convolution with a moving-pooling GNN layer to effectively capture the ST dependencies for learning effective representations. Extensive experiments show the effectiveness of FC-STGNN on multiple MTS datasets compared to SOTA methods. | 翻訳日:2024-01-08 18:03:48 公開日:2024-01-05 |
# 多変量時系列分類のためのグラフ認識コントラスト Graph-Aware Contrasting for Multivariate Time-Series Classification ( http://arxiv.org/abs/2309.05202v2 ) ライセンス: Link先を確認 | Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen | (参考訳) 自己指導型学習パラダイムとしてのコントラスト学習は,多変量時間系列(MTS)分類において人気がある。
ラベルのないサンプルの異なるビューの一貫性を確保し、これらのサンプルの効果的な表現を学ぶ。
既存のコントラスト学習法は,mtsデータの摂動に対する時間パターンの保存を目的とした,時間的拡張とコントラスト手法との時間的一貫性の実現に重点を置いている。
しかし、個々のセンサの安定性と相関性を必要とする空間的一貫性を見落としている。
MTSデータは通常、複数のセンサから得られるため、MTSデータに対するコントラスト学習の全体的なパフォーマンスに空間的整合性を確保することが不可欠である。
そこで本稿では,MTSデータ間の空間整合性を考慮したグラフ認識コントラストを提案する。
具体的には,センサの安定性と相関性を保つために,ノードとエッジの強化を含むグラフ拡張を提案し,さらに,ノードレベルとグラフレベルのコントラストとグラフの対比を行い,ロバストなセンサとグローバルレベルの特徴を抽出する。
さらに,センサ毎にデータの時間的一貫性を確保するために,マルチウィンドウの時間的コントラストを導入する。
提案手法が様々なmts分類タスクにおいて最先端の性能を実現することを示す。 Contrastive learning, as a self-supervised learning paradigm, becomes popular for Multivariate Time-Series (MTS) classification. It ensures the consistency across different views of unlabeled samples and then learns effective representations for these samples. Existing contrastive learning methods mainly focus on achieving temporal consistency with temporal augmentation and contrasting techniques, aiming to preserve temporal patterns against perturbations for MTS data. However, they overlook spatial consistency that requires the stability of individual sensors and their correlations. As MTS data typically originate from multiple sensors, ensuring spatial consistency becomes essential for the overall performance of contrastive learning on MTS data. Thus, we propose Graph-Aware Contrasting for spatial consistency across MTS data. Specifically, we propose graph augmentations including node and edge augmentations to preserve the stability of sensors and their correlations, followed by graph contrasting with both node- and graph-level contrasting to extract robust sensor- and global-level features. We further introduce multi-window temporal contrasting to ensure temporal consistency in the data for each sensor. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on various MTS classification tasks. | 翻訳日:2024-01-08 18:03:24 公開日:2024-01-05 |
# 知識に基づく質問応答のためのコードスタイルインコンテキスト学習 Code-Style In-Context Learning for Knowledge-Based Question Answering ( http://arxiv.org/abs/2309.04695v2 ) ライセンス: Link先を確認 | Zhijie Nie, Richong Zhang, Zhongyuan Wang, Xudong Liu | (参考訳) 現在のKBQA(Knowledge-Based Question Answering)のメソッドは通常、複雑なトレーニング技術とモデルフレームワークに依存しており、実用的なアプリケーションには多くの制限がある。
最近、大規模言語モデル(llm)におけるin-context learning(icl)機能の出現は、kbqaのためのシンプルでトレーニング不要なセマンティック構文解析パラダイムを提供する。
しかし、現在の強力なLLMは事前学習中に論理形式にほとんど触れず、高いフォーマットエラー率をもたらす。
この問題を解決するために,KBQA のコードスタイルのインコンテキスト学習手法を提案し,この方法により,未知の論理形式の生成過程を LLM のより親しみやすいコード生成プロセスに変換する。
3つの主流データセットに対する実験結果から,WebQSP,GrailQA,GraphQ上の新しいSOTAを実現しつつ,論理形式を生成する際のフォーマットエラー問題を劇的に軽減した。
コードと補足ファイルはhttps://github.com/Arthurizijar/KB-Coder で公開されている。 Current methods for Knowledge-Based Question Answering (KBQA) usually rely on complex training techniques and model frameworks, leading to many limitations in practical applications. Recently, the emergence of In-Context Learning (ICL) capabilities in Large Language Models (LLMs) provides a simple and training-free semantic parsing paradigm for KBQA: Given a small number of questions and their labeled logical forms as demo examples, LLMs can understand the task intent and generate the logic form for a new question. However, current powerful LLMs have little exposure to logic forms during pre-training, resulting in a high format error rate. To solve this problem, we propose a code-style in-context learning method for KBQA, which converts the generation process of unfamiliar logical form into the more familiar code generation process for LLMs. Experimental results on three mainstream datasets show that our method dramatically mitigated the formatting error problem in generating logic forms while realizing a new SOTA on WebQSP, GrailQA, and GraphQ under the few-shot setting. The code and supplementary files are released at https://github.com/Arthurizijar/KB-Coder . | 翻訳日:2024-01-08 18:03:03 公開日:2024-01-05 |
# 教師なし機械学習モデル選択における主観性 Subjectivity in Unsupervised Machine Learning Model Selection ( http://arxiv.org/abs/2309.00201v2 ) ライセンス: Link先を確認 | Wanyi Chen, Mary L. Cummings | (参考訳) モデル選択は教師なし機械学習における必要なステップである。
多くの基準とメトリクスにもかかわらず、モデルの選択は主観的である。
高い主観性は、様々な機械学習研究の再現性と再現性に関する疑問と、現実世界に展開されるモデルの堅牢性に関する疑念を引き起こす可能性がある。
しかし、モデル選択結果に対するモデラーの選好の影響はほとんど未定である。
本研究では、モデル選択に関わる主観性を調べる例として、隠れマルコフモデルを用いる。
33人の参加者と3つの大規模言語モデル(llm)に3つのシナリオでモデル選択を依頼しました。
その結果, 参加者の選択とLCMの選択の相違, 特に基準と基準の相違が認められた。
主観性源には、異なる基準とメトリクスの重要性に関するさまざまな意見、モデルの特化性に関するさまざまな見解、データセットのサイズがモデル選択にどのように影響するかなどが含まれる。
結果は、モデル選択プロセスで行った主観的な選択を文書化するより標準化された方法を開発することの重要性を強調している。 Model selection is a necessary step in unsupervised machine learning. Despite numerous criteria and metrics, model selection remains subjective. A high degree of subjectivity may lead to questions about repeatability and reproducibility of various machine learning studies and doubts about the robustness of models deployed in the real world. Yet, the impact of modelers' preferences on model selection outcomes remains largely unexplored. This study uses the Hidden Markov Model as an example to investigate the subjectivity involved in model selection. We asked 33 participants and three Large Language Models (LLMs) to make model selections in three scenarios. Results revealed variability and inconsistencies in both the participants' and the LLMs' choices, especially when different criteria and metrics disagree. Sources of subjectivity include varying opinions on the importance of different criteria and metrics, differing views on how parsimonious a model should be, and how the size of a dataset should influence model selection. The results underscore the importance of developing a more standardized way to document subjective choices made in model selection processes. | 翻訳日:2024-01-08 18:02:44 公開日:2024-01-05 |
# 二重領域における拡散前処理による非教師付きCT金属アーチファクトの低減 Unsupervised CT Metal Artifact Reduction by Plugging Diffusion Priors in Dual Domains ( http://arxiv.org/abs/2308.16742v2 ) ライセンス: Link先を確認 | Xuan Liu, Yaoqin Xie, Songhui Diao, Shan Tan, and Xiaokun Liang | (参考訳) CT(Computed tomography)の過程において、金属インプラントはしばしば再構成画像に破壊的なアーティファクトを引き起こし、正確な診断を妨げる。
金属アーティファクト(MAR)を減らすための教師付きディープラーニングベースのアプローチがいくつか提案されている。
しかし、これらの手法は、臨床現場で一対の金属アーティファクトctとクリーンctデータを得ることが困難であるため、シミュレーションデータによるトレーニングに大きく依存している。
この制限は、臨床にこれらの方法を適用する際のパフォーマンスを低下させる可能性がある。
既存の教師なしのMARメソッドは、学習するかどうかに関わらず、通常、イメージドメインまたはシングラムドメインのいずれかで単一のドメイン内で動作する。
本稿では,データ分布を表現する能力の高い生成モデルである拡散モデルに基づく教師なしmar法を提案する。
具体的には,金属加工品を使わずにCT画像を用いて拡散モデルを訓練する。
次に,事前学習した拡散モデルに埋め込まれたプリエントをシンノグラムと画像領域の両方で反復的に活用し,金属アーティファクトによる劣化部分の復元を行う。
このデュアルドメイン処理により、我々は既存の教師なしmarメソッドよりも優れており、また拡散モデルに基づく他のmarメソッドは、合成データセットを用いて定性的かつ定量的に検証されている。
さらに, 臨床データを用いた教師なし, 教師なしの方法と比較して, 視覚的に優れた結果を示した。 During the process of computed tomography (CT), metallic implants often cause disruptive artifacts in the reconstructed images, impeding accurate diagnosis. Several supervised deep learning-based approaches have been proposed for reducing metal artifacts (MAR). However, these methods heavily rely on training with simulated data, as obtaining paired metal artifact CT and clean CT data in clinical settings is challenging. This limitation can lead to decreased performance when applying these methods in clinical practice. Existing unsupervised MAR methods, whether based on learning or not, typically operate within a single domain, either in the image domain or the sinogram domain. In this paper, we propose an unsupervised MAR method based on the diffusion model, a generative model with a high capacity to represent data distributions. Specifically, we first train a diffusion model using CT images without metal artifacts. Subsequently, we iteratively utilize the priors embedded within the pre-trained diffusion model in both the sinogram and image domains to restore the degraded portions caused by metal artifacts. This dual-domain processing empowers our approach to outperform existing unsupervised MAR methods, including another MAR method based on the diffusion model, which we have qualitatively and quantitatively validated using synthetic datasets. Moreover, our method demonstrates superior visual results compared to both supervised and unsupervised methods on clinical datasets. | 翻訳日:2024-01-08 18:02:26 公開日:2024-01-05 |
# GeoLocator:地理プライバシ推定のための位置積分型大規模マルチモーダルモデル GeoLocator: a location-integrated large multimodal model for inferring geo-privacy ( http://arxiv.org/abs/2311.13018v3 ) ライセンス: Link先を確認 | Yifan Yang, Siqin Wang, Daoyang Li, Yixian Zhang, Shuju Sun, Junzhou He | (参考訳) 地理的プライバシ(英: Geographic privacy)または地理的プライバシ(英: geo-privacy)とは、個人の地理的位置、特に個人の電子機器が保持する地理的データを制限することを指す。
地理的プライバシーは個人の安全の重要な側面であるが、日常的な活動では気付かないことが多い。
GPT-4のような大規模マルチモーダルモデル(LMM)のオープンソースインテリジェンス(OSINT)への利用が急増するにつれ、ジオプライバシー違反に伴う潜在的なリスクが高まっている。
本研究は,GeoLocatorという位置積分GPT-4モデルを開発し,入力画像やソーシャルメディアコンテンツの位置情報を推測する4次元実験を設計する。
実験の結果,GeoLocatorは特定の地理的詳細を高精度に生成し,地理空間情報を公開するモデルユーザのリスクを意識せずに埋め込むことで,オンラインデータ共有や情報収集技術,LLMの地理的プライバシに関するスレッドを強調した。
我々は,高度なaiとソーシャルメディアの普及の時代における,地理的プライバシーの漏えいに対する意識向上と保護対策の緊急性を強調することで,ジオロケータの広範な意味と個人やコミュニティ全体に対する我々の発見を結論づける。 Geographic privacy or geo-privacy refers to the keeping private of one's geographic location, especially the restriction of geographical data maintained by personal electronic devices. Geo-privacy is a crucial aspect of personal security; however, it often goes unnoticed in daily activities. With the surge in the use of Large Multimodal Models (LMMs), such as GPT-4, for Open Source Intelligence (OSINT), the potential risks associated with geo-privacy breaches have intensified. This study develops a location-integrated GPT-4 based model named GeoLocator and designs four-dimensional experiments to demonstrate its capability in inferring the locational information of input imageries and/or social media contents. Our experiments reveal that GeoLocator generates specific geographic details with high accuracy and consequently embeds the risk of the model users exposing geospatial information to the public unintentionally, highlighting the thread of online data sharing, information gathering technologies and LLMs on geo-privacy. We conclude with the broader implications of GeoLocator and our findings for individuals and the community at large, by emphasizing the urgency for enhanced awareness and protective measures against geo-privacy leakage in the era of advanced AI and widespread social media usage. | 翻訳日:2024-01-08 17:55:20 公開日:2024-01-05 |
# 熱力学マトリックス指数と熱力学的並列性 Thermodynamic Matrix Exponentials and Thermodynamic Parallelism ( http://arxiv.org/abs/2311.12759v2 ) ライセンス: Link先を確認 | Samuel Duffield, Maxwell Aifer, Gavin Crooks, Thomas Ahle, and Patrick J. Coles | (参考訳) 熱力学計算は物理系のゆらぎと散逸を利用して様々な数学的問題を効率的に解く。
例えば、最近、ある種の線形代数問題は熱力学的に解けることが示され、行列次元の漸近的なスピードアップスケーリングにつながった。
この「熱力学的アドバンテージ」の起源はまだ完全には説明されておらず、他の問題にどのようなメリットがあるのかは明らかではない。
本稿では,線形力学系をシミュレートする応用により,実行列を指数化する新しい熱力学アルゴリズムを提案する。
熱平衡がアルゴリズムを実装できる結合発振器を含む単純な電気回路について述べる。
また,このアルゴリズムは,次元に線形な漸近的な速度アップも提供することを示した。
最後に、この高速化を説明するために、熱力学的並列性の概念を導入し、熱力学的ノイズが計算の効果的な並列化につながるリソースを提供し、熱力学的優位を説明するメカニズムとしてこれを仮定する。 Thermodynamic computing exploits fluctuations and dissipation in physical systems to efficiently solve various mathematical problems. For example, it was recently shown that certain linear algebra problems can be solved thermodynamically, leading to an asymptotic speedup scaling with the matrix dimension. The origin of this "thermodynamic advantage" has not yet been fully explained, and it is not clear what other problems might benefit from it. Here we provide a new thermodynamic algorithm for exponentiating a real matrix, with applications in simulating linear dynamical systems. We describe a simple electrical circuit involving coupled oscillators, whose thermal equilibration can implement our algorithm. We also show that this algorithm also provides an asymptotic speedup that is linear in the dimension. Finally, we introduce the concept of thermodynamic parallelism to explain this speedup, stating that thermodynamic noise provides a resource leading to effective parallelization of computations, and we hypothesize this as a mechanism to explain thermodynamic advantage more generally. | 翻訳日:2024-01-08 17:54:56 公開日:2024-01-05 |
# 大規模基礎モデルの自律運転への適用 Applications of Large Scale Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2311.12144v7 ) ライセンス: Link先を確認 | Yu Huang, Yue Chen, Zhu Li | (参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。
近年,大規模言語モデル (LLM) を基盤として,チャットGPT や PaLM などのチャットシステムが出現し,自然言語処理 (NLP) において人工知能 (AGI) を実現するための有望な方向となった。
自動運転の改革にこれらの能力を使うことは自然な考えだ。
llmを基礎モデルと組み合わせることで、人間の知識、常識、推論を利用して、現在のロングテールのaiジレンマから自動運転システムを再構築することができる。
本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。 Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Recently powered by large language models (LLMs), chat systems, such as chatGPT and PaLM, emerge and rapidly become a promising direction to achieve artificial general intelligence (AGI) in natural language processing (NLP). There comes a natural thinking that we could employ these abilities to reformulate autonomous driving. By combining LLM with foundation models, it is possible to utilize the human knowledge, commonsense and reasoning to rebuild autonomous driving systems from the current long-tailed AI dilemma. In this paper, we investigate the techniques of foundation models and LLMs applied for autonomous driving, categorized as simulation, world model, data annotation and planning or E2E solutions etc. | 翻訳日:2024-01-08 17:54:39 公開日:2024-01-05 |
# GS-SLAM:3Dガウススプラッティングによる高解像度視力SLAM GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting ( http://arxiv.org/abs/2311.11700v3 ) ライセンス: Link先を確認 | Chi Yan, Delin Qu, Dong Wang, Dan Xu, Zhigang Wang, Bin Zhao, Xuelong Li | (参考訳) 本稿では,slamシステムにおいて,まず3次元ガウス表現を用いた$\textbf{gs-slam}$を提案する。
効率と正確さのバランスが向上します。
ニューラル暗黙表現を用いた最近のSLAM法と比較して,本手法では,マップ最適化とRGB-D再レンダリングに大幅な高速化を提供するリアルタイム微分可能なスプラッティングレンダリングパイプラインを利用する。
具体的には,新しいシーン形状を効率的に再構築し,以前に観測された領域のマッピングを改善するために,新しい,あるいはノイズの多い3次元ガウスを付加する適応展開戦略を提案する。
この戦略は、既存の手法で静的オブジェクトを合成するのではなく、3次元ガウス表現を拡張してシーン全体を再構築するために不可欠である。
さらに、ポーズトラッキングプロセスでは、カメラポーズを最適化する信頼性の高い3次元ガウス表現を選択するために、効果的な粗大化手法が設計されている。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
ソースコードはまもなくリリースされる予定だ。 In this paper, we introduce $\textbf{GS-SLAM}$ that first utilizes 3D Gaussian representation in the Simultaneous Localization and Mapping (SLAM) system. It facilitates a better balance between efficiency and accuracy. Compared to recent SLAM methods employing neural implicit representations, our method utilizes a real-time differentiable splatting rendering pipeline that offers significant speedup to map optimization and RGB-D re-rendering. Specifically, we propose an adaptive expansion strategy that adds new or deletes noisy 3D Gaussian in order to efficiently reconstruct new observed scene geometry and improve the mapping of previously observed areas. This strategy is essential to extend 3D Gaussian representation to reconstruct the whole scene rather than synthesize a static object in existing methods. Moreover, in the pose tracking process, an effective coarse-to-fine technique is designed to select reliable 3D Gaussian representations to optimize camera pose, resulting in runtime reduction and robust estimation. Our method achieves competitive performance compared with existing state-of-the-art real-time methods on the Replica, TUM-RGBD datasets. The source code will be released soon. | 翻訳日:2024-01-08 17:54:23 公開日:2024-01-05 |
# 「ジャーヴィスに似てはいないが、かなり近い!」-コンピュータサイエンスの学部生の間でのChatGPTの使用状況について "It's not like Jarvis, but it's pretty close!" -- Examining ChatGPT's Usage among Undergraduate Students in Computer Science ( http://arxiv.org/abs/2311.09651v2 ) ライセンス: Link先を確認 | Ishika Joshi, Ritvik Budhiraja, Harshal D Akolekar, Jagat Sesh Challa, Dhruv Kumar | (参考訳) ChatGPTやGoogle Bardのような大規模言語モデル(LLM)は、学術界で大きな注目を集めている。
従来の研究は、プログラミング演習やソリューションの生成など、様々な用途でこれらのLSMを評価してきた。
しかし,これらの評価は,学生のllmの利用を考慮せず,インストラクターや研究者が主に実施している。
本研究は,OpenAI がリリースした人気の LLM である ChatGPT を,学部生がどのように活用するかを包括的に理解するための,学生主導のアプローチを採用する。
学生調査とインタビューを組み合わせることで,チャットgptに関するメリットや課題,改善提案について貴重な洞察を得ることができた。
以上の結果から,ほとんどの学生(57%以上)が,ChatGPTをコースワーク関連タスクの補助として採用する上で,極めて肯定的な見通しを抱いていることが示唆された。
しかし,本研究は,ChatGPTの長期受容のために解決すべき諸課題についても強調している。
この調査の結果は幅広い意味を持ち、他のllmやコンピュータ教育におけるその役割にも当てはまる可能性がある。 Large language models (LLMs) such as ChatGPT and Google Bard have garnered significant attention in the academic community. Previous research has evaluated these LLMs for various applications such as generating programming exercises and solutions. However, these evaluations have predominantly been conducted by instructors and researchers, not considering the actual usage of LLMs by students. This study adopts a student-first approach to comprehensively understand how undergraduate computer science students utilize ChatGPT, a popular LLM, released by OpenAI. We employ a combination of student surveys and interviews to obtain valuable insights into the benefits, challenges, and suggested improvements related to ChatGPT. Our findings suggest that a majority of students (over 57%) have a convincingly positive outlook towards adopting ChatGPT as an aid in coursework-related tasks. However, our research also highlights various challenges that must be resolved for long-term acceptance of ChatGPT amongst students. The findings from this investigation have broader implications and may be applicable to other LLMs and their role in computing education. | 翻訳日:2024-01-08 17:54:02 公開日:2024-01-05 |
# スプリットフェデレーション学習におけるプライバシ・エネルギー消費トレードオフの検討 Exploring the Privacy-Energy Consumption Tradeoff for Split Federated Learning ( http://arxiv.org/abs/2311.09441v2 ) ライセンス: Link先を確認 | Joohyung Lee, Mohamed Seif, Jungchan Cho, H. Vincent Poor | (参考訳) split federated learning (sfl) は分散学習技術として最近登場し,federated learning と split learning の両方の強みを活用している。
プライバシーの懸念に対処しながら、迅速な収束の利点を強調している。
その結果、この革新は産業と学術の両方から大きな注目を集めている。
しかし、SFLのクライアント側モデルとサーバ側モデルの両方に、カット層と呼ばれる特定の層で分割されるため、SFLにおけるカット層の選択は、クライアントのエネルギー消費とプライバシに大きく影響し、クライアント側のモデルのトレーニング負荷と出力に影響を与える可能性がある。
さらに、カット層を決定する設計上の課題は、主にクライアントのコンピューティングとネットワーク能力に固有の不均一性があるため、非常に複雑である。
本稿では,sflプロセスの概要を説明し,エネルギー消費とプライバシの徹底的な分析を行う。
この解析は,カット層選択戦略における各種システムパラメータの影響を考慮に入れる。
また,削減層選択の具体例として,クライアントが要求されるエネルギー予算内でのエネルギー消費を維持しつつ,サーバで生データを再構築するリスクを最小限に抑えることを目的とした。
最後に、この分野のオープンな課題に対処します。
これらの方向は将来の研究開発に有望な道筋を示している。 Split Federated Learning (SFL) has recently emerged as a promising distributed learning technology, leveraging the strengths of both federated learning and split learning. It emphasizes the advantages of rapid convergence while addressing privacy concerns. As a result, this innovation has received significant attention from both industry and academia. However, since the model is split at a specific layer, known as a cut layer, into both client-side and server-side models for the SFL, the choice of the cut layer in SFL can have a substantial impact on the energy consumption of clients and their privacy, as it influences the training burden and the output of the client-side models. Moreover, the design challenge of determining the cut layer is highly intricate, primarily due to the inherent heterogeneity in the computing and networking capabilities of clients. In this article, we provide a comprehensive overview of the SFL process and conduct a thorough analysis of energy consumption and privacy. This analysis takes into account the influence of various system parameters on the cut layer selection strategy. Additionally, we provide an illustrative example of the cut layer selection, aiming to minimize the risk of clients from reconstructing the raw data at the server while sustaining energy consumption within the required energy budget, which involve trade-offs. Finally, we address open challenges in this field. These directions represent promising avenues for future research and development. | 翻訳日:2024-01-08 17:53:42 公開日:2024-01-05 |
# ConvNet vs Transformer, Supervised vs CLIP: イメージネットの精度を超える ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy ( http://arxiv.org/abs/2311.09215v2 ) ライセンス: Link先を確認 | Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu | (参考訳) 現代のコンピュータビジョンは実践者には様々なモデルを提供しており、特定のアプリケーションに対して複数のオプションからモデルを選択することは困難である。
従来、競合するモデルアーキテクチャとトレーニングプロトコルは、ImageNetの分類精度によって比較される。
しかし、この単一のメトリクスは、特別なタスクにとって重要なパフォーマンスニュアンスを完全に捉えていない。
本研究では,ConvNetアーキテクチャとVision Transformerアーキテクチャの両方を対象として,教師付きおよびCLIPトレーニングパラダイム間のモデル動作の詳細な比較分析を行う。
選択したモデルには、ImageNetの精度と計算要件が類似しているが、誤りの種類、出力キャリブレーション、転送可能性、特徴不変性など、多くの点で異なることが判明している。
このモデル特性の多様性は、従来のメトリクスでは捉えられていないが、異なるモデルを選択する際に、より微妙な分析の必要性を強調している。
私たちのコードはhttps://github.com/kirill-vish/beyond-inetで利用可能です。 Modern computer vision offers a great variety of models to practitioners, and selecting a model from multiple options for specific applications can be challenging. Conventionally, competing model architectures and training protocols are compared by their classification accuracy on ImageNet. However, this single metric does not fully capture performance nuances critical for specialized tasks. In this work, we conduct an in-depth comparative analysis of model behaviors beyond ImageNet accuracy, for both ConvNet and Vision Transformer architectures, each across supervised and CLIP training paradigms. Although our selected models have similar ImageNet accuracies and compute requirements, we find that they differ in many other aspects: types of mistakes, output calibration, transferability, and feature invariance, among others. This diversity in model characteristics, not captured by traditional metrics, highlights the need for more nuanced analysis when choosing among different models. Our code is available at https://github.com/kirill-vish/Beyond-INet. | 翻訳日:2024-01-08 17:53:19 公開日:2024-01-05 |
# ct肺血管造影画像における深部学習 : 肺塞栓症検出のためのデュアルプロングアプローチ Deep learning in computed tomography pulmonary angiography imaging: a dual-pronged approach for pulmonary embolism detection ( http://arxiv.org/abs/2311.05197v4 ) ライセンス: Link先を確認 | Fabiha Bushra, Muhammad E. H. Chowdhury, Rusab Sarmun, Saidul Kabir, Menatalla Said, Sohaib Bassam Zoghoul, Adam Mushtak, Israa Al-Hashimi, Abdulrahman Alqahtani, Anwarul Hasan | (参考訳) 肺塞栓症 (PE) 診断におけるCTPA (CTPA) への依存度の増加が課題となり, 診断ソリューションの改善の必要性が高まっている。
本研究の目的は,深層学習技術を活用し,PEのコンピュータ支援診断(CAD)を強化することである。
そこで本研究では,分類器の確率的推論を効果的に活用して検出予測を指示し,pe自動診断の領域における新たな貢献を示す分類器誘導検出手法を提案する。
本分類システムは、注意機構を用いて局所的文脈を用いた注意誘導畳み込みニューラルネットワーク(ag-cnn)を含む。
このアプローチは、決定する前にグローバルな外見と局所的な病変領域の両方を見ることで、人間の専門家の注意をエミュレートする。
この分類器はFUMPEデータセット上で堅牢な性能を示し、AUROCは0.927、感度は0.862、特異性は0.879、F1スコアは0.805、Inception-v3のバックボーンアーキテクチャである。
さらに、AG-CNNはベースラインのDenseNet-121モデルを上回っ、8.1%のAUROCゲインを達成した。
従来の研究は主に動脈内PEの発見に焦点が当てられていたが、最先端物体検出モデルとアンサンブル技術を用いることで、末梢動脈の小さな塞栓症を検出する精度が大幅に向上した。
最後に,提案する分類器ガイドによる検出手法により,検出指標がさらに洗練され,map$_{50}$,感度,f1-scoreが0.846,0.901,0.779となり,map$_{50}$が3.7%向上した。
本研究は,aiソリューションを臨床ワークフローに統合し,医療診断における人間-aiコラボレーションの可能性を強調し,pe患者ケアの向上を目指している。 The increasing reliance on Computed Tomography Pulmonary Angiography (CTPA) for Pulmonary Embolism (PE) diagnosis presents challenges and a pressing need for improved diagnostic solutions. The primary objective of this study is to leverage deep learning techniques to enhance the Computer Assisted Diagnosis (CAD) of PE. With this aim, we propose a classifier-guided detection approach that effectively leverages the classifier's probabilistic inference to direct the detection predictions, marking a novel contribution in the domain of automated PE diagnosis. Our classification system includes an Attention-Guided Convolutional Neural Network (AG-CNN) that uses local context by employing an attention mechanism. This approach emulates a human expert's attention by looking at both global appearances and local lesion regions before making a decision. The classifier demonstrates robust performance on the FUMPE dataset, achieving an AUROC of 0.927, sensitivity of 0.862, specificity of 0.879, and an F1-score of 0.805 with the Inception-v3 backbone architecture. Moreover, AG-CNN outperforms the baseline DenseNet-121 model, achieving an 8.1% AUROC gain. While previous research has mostly focused on finding PE in the main arteries, our use of cutting-edge object detection models and ensembling techniques greatly improves the accuracy of detecting small embolisms in the peripheral arteries. Finally, our proposed classifier-guided detection approach further refines the detection metrics, contributing new state-of-the-art to the community: mAP$_{50}$, sensitivity, and F1-score of 0.846, 0.901, and 0.779, respectively, outperforming the former benchmark with a significant 3.7% improvement in mAP$_{50}$. Our research aims to elevate PE patient care by integrating AI solutions into clinical workflows, highlighting the potential of human-AI collaboration in medical diagnostics. | 翻訳日:2024-01-08 17:53:02 公開日:2024-01-05 |
# FlashDecoding++:GPU上での高速な大規模言語モデル推論 FlashDecoding++: Faster Large Language Model Inference on GPUs ( http://arxiv.org/abs/2311.01282v4 ) ライセンス: Link先を確認 | Ke Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Yuhan Dong, Yu Wang | (参考訳) 大規模言語モデル(LLM)が様々な領域でますます重要になっている。
しかし, LLM推論の高速化には, 1) 同期部分ソフトマックス更新という課題がまだ未解決である。
ソフトマックス演算は、各部分ソフトマックス結果間の同期更新操作を必要とし、LLMにおける注意計算のオーバーヘッドはおよそ20%である。
2)フラットGEMMのアンダーユース計算
LLM推論でGEMMを行う行列の形状は平坦であり、従来の設計ではゼロをパッドした後に計算が未使用となり、50%以上の性能損失が生じる。
(3)静的データフローによるパフォーマンス損失。
LLMのカーネル性能は、様々な入力データ機能、ハードウェア構成などに依存する。
単一かつ静的なデータフローは、LLM推論において異なる形状のGEMMに対して50.25%のパフォーマンス損失をもたらす可能性がある。
メインストリームLLMとハードウェアバックエンドをサポートする高速LLM推論エンジンであるFlashDecoding++を紹介する。
上記の課題に対処するため、FlashDecoding++は次のように創造的に提案している。
flashdecoding++は、同期を避けるために、異なる部分ソフトマックス計算のための統一されたmax値技術を導入する。
2) ダブルバッファリングによるフラットGEMM最適化
FlashDecoding++は、形状の異なるフラットなGEMMがボトルネックに直面していることを指摘している。
次に,ダブルバッファリングなどの手法を導入する。
(3)ハードウェアリソース適応によるヒューリスティックデータフロー
FlashDecoding++は入力ダイナミクスを考慮して異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。
flashdecoding++の最適化が多岐にわたるため、flashdecoding++はnvidiaとamdの両方のgpuで最大4.86倍と2.18倍のスピードアップを達成できる。
FlashDecoding++は、主流のLLM上の最先端のLLM推論エンジンと比較して平均1.37倍の高速化を実現している。 As the Large Language Model (LLM) becomes increasingly important in various domains. However, the following challenges still remain unsolved in accelerating LLM inference: (1) Synchronized partial softmax update. The softmax operation requires a synchronized update operation among each partial softmax result, leading to ~20% overheads for the attention computation in LLMs. (2) Under-utilized computation of flat GEMM. The shape of matrices performing GEMM in LLM inference is flat, leading to under-utilized computation and >50% performance loss after padding zeros in previous designs. (3) Performance loss due to static dataflow. Kernel performance in LLM depends on varied input data features, hardware configurations, etc. A single and static dataflow may lead to a 50.25% performance loss for GEMMs of different shapes in LLM inference. We present FlashDecoding++, a fast LLM inference engine supporting mainstream LLMs and hardware back-ends. To tackle the above challenges, FlashDecoding++ creatively proposes: (1) Asynchronized softmax with unified max value. FlashDecoding++ introduces a unified max value technique for different partial softmax computations to avoid synchronization. (2) Flat GEMM optimization with double buffering. FlashDecoding++ points out that flat GEMMs with different shapes face varied bottlenecks. Then, techniques like double buffering are introduced. (3) Heuristic dataflow with hardware resource adaptation. FlashDecoding++ heuristically optimizes dataflow using different hardware resource considering input dynamics. Due to the versatility of optimizations in FlashDecoding++, FlashDecoding++ can achieve up to 4.86x and 2.18x speedup on both NVIDIA and AMD GPUs compared to Hugging Face implementations. FlashDecoding++ also achieves an average speedup of 1.37x compared to state-of-the-art LLM inference engines on mainstream LLMs. | 翻訳日:2024-01-08 17:52:26 公開日:2024-01-05 |
# 動的最適輸送問題のための新しいスキップ直交リスト A Novel Skip Orthogonal List for Dynamic Optimal Transport Problem ( http://arxiv.org/abs/2310.18446v4 ) ライセンス: Link先を確認 | Xiaoyang Xu, Hu Ding | (参考訳) 最適な輸送は基本的なトピックであり、過去数十年間、最適化コミュニティから多くの注目を集めてきた。
本稿では,データポイントの重みや位置が変化するとき,最適輸送計画を効率的に更新できるかという,興味深い離散的動的最適輸送問題を考える。
この問題は、機械学習のいくつかの応用によって自然に動機付けられている。
例えば、2つの異なるデータセット間の最適な転送コストを計算する必要がある。いくつかのデータポイントに何らかの変更が発生した場合、高複雑性コスト関数を再計算するか、あるいは効率的な動的データ構造によってコストを更新するべきか?
これまでいくつかの動的最大フローアルゴリズムが提案されてきたが、我々の知る限りでは、動的最小コストフロー問題の研究はまだかなり限られている。
本稿では,新しい2次元スキップ直交リストと動的木手法を提案する。
我々のアルゴリズムは従来の単純な手法に基づいているが、期待される$O(1)$時間内でピボットする変数を効率よく見つけ、期待される$O(|V|)$時間内で各ピボット操作を完了させることができる。
動的修正は通常大きな変更を起こさないため、我々のアルゴリズムは実際に数回の単純な反復しか必要としない。
したがって、アルゴリズムは、すべての$|e| = o(|v|^2)$変数に対して少なくとも1つのトラバーサルを必要とする最適な輸送コストを再計算するよりも効率的である。
実験により,本アルゴリズムが動的シナリオにおいて既存のアルゴリズムを大きく上回ることを示した。 Optimal transport is a fundamental topic that has attracted a great amount of attention from the optimization community in the past decades. In this paper, we consider an interesting discrete dynamic optimal transport problem: can we efficiently update the optimal transport plan when the weights or the locations of the data points change? This problem is naturally motivated by several applications in machine learning. For example, we often need to compute the optimal transport cost between two different data sets; if some changes happen to a few data points, should we re-compute the high complexity cost function or update the cost by some efficient dynamic data structure? We are aware that several dynamic maximum flow algorithms have been proposed before, however, the research on dynamic minimum cost flow problem is still quite limited, to the best of our knowledge. We propose a novel 2D Skip Orthogonal List together with some dynamic tree techniques. Although our algorithm is based on the conventional simplex method, it can efficiently find the variable to pivot within expected $O(1)$ time, and complete each pivoting operation within expected $O(|V|)$ time where $V$ is the set of all supply and demand nodes. Since dynamic modifications typically do not introduce significant changes, our algorithm requires only a few simplex iterations in practice. So our algorithm is more efficient than re-computing the optimal transport cost that needs at least one traversal over all $|E| = O(|V|^2)$ variables, where $|E|$ denotes the number of edges in the network. Our experiments demonstrate that our algorithm significantly outperforms existing algorithms in the dynamic scenarios. | 翻訳日:2024-01-08 17:52:02 公開日:2024-01-05 |
# 階層的ランダム化平滑化 Hierarchical Randomized Smoothing ( http://arxiv.org/abs/2310.16221v3 ) ライセンス: Link先を確認 | Yan Scholten, Jan Schuchardt, Aleksandar Bojchevski, Stephan G\"unnemann | (参考訳) 実世界のデータは複雑で、しばしば複数のエンティティ(例えば画像はピクセル、グラフは相互接続ノード)に分解できるオブジェクトで構成されている。
ランダム化平滑化(randomized smoothing)は、モデルが入力の小さな変更に対して確実に堅牢になるための強力なフレームワークである。
しかし、オブジェクト全体(例えば画像)を任意に摂動せず、エンティティのサブセット(例えばピクセル)しか持たない場合、ランダムな平滑化による複雑なデータに対するロバスト性の証明は困難である。
ランダムに選択されたエンティティのサブセットにのみランダムノイズを追加することにより、部分的にオブジェクトを平滑化します。
従来の手法よりも標的に雑音を加えることで、高い精度を維持しながら強靭性を保証する。
異なるノミージング分布を用いて階層的平滑化を初期化し,離散的および連続的領域に対する新しいロバスト性証明を導出する。
画像とノードの分類における階層的平滑化の重要性を実験的に実証し,ロバスト性・正確性に優れたトレードオフをもたらすことを示した。
全体として、階層的平滑化は、摂動に対して確実に堅牢で正確であるモデルにとって重要な貢献である。 Real-world data is complex and often consists of objects that can be decomposed into multiple entities (e.g. images into pixels, graphs into interconnected nodes). Randomized smoothing is a powerful framework for making models provably robust against small changes to their inputs - by guaranteeing robustness of the majority vote when randomly adding noise before classification. Yet, certifying robustness on such complex data via randomized smoothing is challenging when adversaries do not arbitrarily perturb entire objects (e.g. images) but only a subset of their entities (e.g. pixels). As a solution, we introduce hierarchical randomized smoothing: We partially smooth objects by adding random noise only on a randomly selected subset of their entities. By adding noise in a more targeted manner than existing methods we obtain stronger robustness guarantees while maintaining high accuracy. We initialize hierarchical smoothing using different noising distributions, yielding novel robustness certificates for discrete and continuous domains. We experimentally demonstrate the importance of hierarchical smoothing in image and node classification, where it yields superior robustness-accuracy trade-offs. Overall, hierarchical smoothing is an important contribution towards models that are both - certifiably robust to perturbations and accurate. | 翻訳日:2024-01-08 17:51:36 公開日:2024-01-05 |
# より少ないか?
Python PyPIエコシステムにおける構成問題に関する実証的研究 Less is More? An Empirical Study on Configuration Issues in Python PyPI Ecosystem ( http://arxiv.org/abs/2310.12598v2 ) ライセンス: Link先を確認 | Yun Peng, Ruida Hu, Ruoke Wang, Cuiyun Gao, Shuqing Li, Michael R. Lyu | (参考訳) pythonはオープンソースコミュニティで広く使われており、主にpypiエコシステム内のさまざまなサードパーティライブラリからの広範なサポートがある。
それにもかかわらず、サードパーティライブラリの利用は依存関係の衝突を引き起こす可能性があり、研究者は依存関係の競合検出器を開発することになる。
さらに、依存関係を自動的に推論する取り組みも行われている。
これらのアプローチは、PyPIエコシステム内のライブラリの設定が正しいという仮定に基づいて、バージョンレベルのチェックと推論に焦点を当てている。
しかし、本研究では、この仮定は普遍的に有効ではなく、バージョンレベルのチェックにのみ依存することは、互換性のある実行環境の確保に不十分であることを証明している。
本稿では,PyPIエコシステムの構成問題を包括的に研究するための実証的研究を行う。
具体的には、潜在的構成問題を検出するためのソースレベル検出器であるPyConfを提案する。
PyConfは3つの異なるチェックを採用しており、それぞれライブラリのセットアップ、パッケージング、利用ステージをターゲットにしている。
現在の自動依存関係推論手法の有効性を評価するため、PyConfの3つのチェックをすべてパスするライブラリリリースを含むVLibsというベンチマークを構築した。
15種類の構成問題を特定し、183,864のライブラリリリースが潜在的構成問題に悩まされていることを発見した。
注目すべきは、これらの問題の68%がソースレベルのチェックでのみ検出できることだ。
実験の結果,最も先進的な自動依存関係推論手法であるPyEGoは,ライブラリリリースの65%で依存性を推測できることがわかった。
主な障害は依存関係の競合と,生成されたコンフィギュレーションに必要なライブラリが存在しないことだ。
実験結果に基づき,6つの知見を導出し,オープンソース開発者に対する2つの示唆と,依存性の自動推論に関する今後の研究を導出する。 Python is widely used in the open-source community, largely owing to the extensive support from diverse third-party libraries within the PyPI ecosystem. Nevertheless, the utilization of third-party libraries can potentially lead to conflicts in dependencies, prompting researchers to develop dependency conflict detectors. Moreover, endeavors have been made to automatically infer dependencies. These approaches focus on version-level checks and inference, based on the assumption that configurations of libraries in the PyPI ecosystem are correct. However, our study reveals that this assumption is not universally valid, and relying solely on version-level checks proves inadequate in ensuring compatible run-time environments. In this paper, we conduct an empirical study to comprehensively study the configuration issues in the PyPI ecosystem. Specifically, we propose PyConf, a source-level detector, for detecting potential configuration issues. PyConf employs three distinct checks, targeting the setup, packing, and usage stages of libraries, respectively. To evaluate the effectiveness of the current automatic dependency inference approaches, we build a benchmark called VLibs, comprising library releases that pass all three checks of PyConf. We identify 15 kinds of configuration issues and find that 183,864 library releases suffer from potential configuration issues. Remarkably, 68% of these issues can only be detected via the source-level check. Our experiment results show that the most advanced automatic dependency inference approach, PyEGo, can successfully infer dependencies for only 65% of library releases. The primary failures stem from dependency conflicts and the absence of required libraries in the generated configurations. Based on the empirical results, we derive six findings and draw two implications for open-source developers and future research in automatic dependency inference. | 翻訳日:2024-01-08 17:50:36 公開日:2024-01-05 |
# 測定誘起遷移の境界伝達行列スペクトル Boundary transfer matrix spectrum of measurement-induced transitions ( http://arxiv.org/abs/2310.03078v2 ) ライセンス: Link先を確認 | Abhishek Kumar, Kemal Aziz, Ahana Chakraborty, Andreas W. W. Ludwig, Sarang Gopalakrishnan, J.H. Pixley, Romain Vasseur | (参考訳) 測定誘起相転移(MIPTs)は、正確な性質が不明な非単位共形場理論(CFTs)によって記述されることが知られている。
量子軌道の絡み合う特徴のような多くの物理的関心事は、このCFTで境界観測可能量によって記述される。
この場の理論の境界スペクトルを研究するために転送行列のアプローチを導入し、様々な境界条件を考える。
本稿では,この手法をモニタしたHaar回路とClifford回路,および境界スケーリング次元を解析的に導出可能な測定専用Isingモデルに適用する。
トランスファーマトリクスアプローチはmiptのスペクトルを研究するための体系的な数値ツールを提供する。 Measurement-induced phase transitions (MIPTs) are known to be described by non-unitary conformal field theories (CFTs) whose precise nature remains unknown. Most physical quantities of interest, such as the entanglement features of quantum trajectories, are described by boundary observables in this CFT. We introduce a transfer matrix approach to study the boundary spectrum of this field theory, and consider a variety of boundary conditions. We apply this approach numerically to monitored Haar and Clifford circuits, and to the measurement-only Ising model where the boundary scaling dimensions can be derived analytically. Our transfer matrix approach provides a systematic numerical tool to study the spectrum of MIPTs. | 翻訳日:2024-01-08 17:49:52 公開日:2024-01-05 |
# サルエント特徴に基づく水中音響信号認識 Underwater Acoustic Signal Recognition Based on Salient Feature ( http://arxiv.org/abs/2312.13143v3 ) ライセンス: Link先を確認 | Minghao Chen | (参考訳) 技術の急速な進歩により、複雑な環境における水中音響信号の認識がますます重要になっている。
現在、水中音響信号認識は主にスペクトルの特徴を抽出するために時間周波数分析に依存しており、現場で広く応用されている。
しかし、既存の認識手法はエキスパートシステムに大きく依存しており、制限された知識ベースや複雑な関係を扱う際の課題といった制限に直面している。
これらの制限は、ルールや推論エンジンに関連する複雑さとメンテナンスの困難に起因する。
複雑な関係を扱う際の深層学習の潜在的な利点を認識し,ニューラルネットワークを用いた水中音響信号認識手法を提案する。
提案手法は,水中音響信号分類のためのスペクトルから抽出された特徴の連続学習を含む。
ディープラーニングモデルは、データから抽象的な特徴を自動的に学習し、トレーニング中に重みを継続的に調整し、分類性能を向上させる。 With the rapid advancement of technology, the recognition of underwater acoustic signals in complex environments has become increasingly crucial. Currently, mainstream underwater acoustic signal recognition relies primarily on time-frequency analysis to extract spectral features, finding widespread applications in the field. However, existing recognition methods heavily depend on expert systems, facing limitations such as restricted knowledge bases and challenges in handling complex relationships. These limitations stem from the complexity and maintenance difficulties associated with rules or inference engines. Recognizing the potential advantages of deep learning in handling intricate relationships, this paper proposes a method utilizing neural networks for underwater acoustic signal recognition. The proposed approach involves continual learning of features extracted from spectra for the classification of underwater acoustic signals. Deep learning models can automatically learn abstract features from data and continually adjust weights during training to enhance classification performance. | 翻訳日:2024-01-08 17:43:39 公開日:2024-01-05 |
# 多言語自然シーンテキスト検出アルゴリズムに関する研究 Research on Multilingual Natural Scene Text Detection Algorithm ( http://arxiv.org/abs/2312.11153v2 ) ライセンス: Link先を確認 | Tao Wang | (参考訳) 自然シーンのテキスト検出はコンピュータビジョンにおいて重要な課題であり、多言語、多言語、多様、複雑なテキストシナリオに膨大な可能性を持つ。
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
複数の文字集合と様々なフォントスタイルを持つ多言語テキスト画像の課題に対応するために,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語をまたいだ文字やフォントの検出において,モデルの堅牢性を高める。
自然シーンのテキスト画像におけるテキストスケールや複雑な配置のかなりの変化に対応して,アダプティブ空間特徴融合モジュールと空間ピラミッドプールモジュールを組み込んだAS-HRFPN特徴融合ネットワークを提案する。
機能融合ネットワークの改善により、モデルがテキストサイズや方向を検出する能力が向上する。
多言語シーンのテキスト画像における多様な背景やフォントのバリエーションに対処することは、既存の手法の課題である。
限定的な局所受容場は検出性能を妨げる。
そこで本研究では,より効果的なテキスト検出のためにグローバル特徴抽出と保存を行い,包括的情報の必要性に対応するグローバルセマンティックセグメンテーションブランチを提案する。
本研究では,実世界の多言語自然シーン画像データセットを収集し,総合的な実験と分析を行った。
実験の結果,提案アルゴリズムはベースラインモデルよりも4.71\%高い85.02\%のF値が得られることがわかった。
また,MSRA-TD500, ICDAR2017MLT, ICDAR2015データセットのクロスデータセット検証を行った。
コードとデータセットはhttps://github.com/wangmelon/CEMLTで確認できる。 Natural scene text detection is a significant challenge in computer vision, with tremendous potential applications in multilingual, diverse, and complex text scenarios. We propose a multilingual text detection model to address the issues of low accuracy and high difficulty in detecting multilingual text in natural scenes. In response to the challenges posed by multilingual text images with multiple character sets and various font styles, we introduce the SFM Swin Transformer feature extraction network to enhance the model's robustness in detecting characters and fonts across different languages. Dealing with the considerable variation in text scales and complex arrangements in natural scene text images, we present the AS-HRFPN feature fusion network by incorporating an Adaptive Spatial Feature Fusion module and a Spatial Pyramid Pooling module. The feature fusion network improvements enhance the model's ability to detect text sizes and orientations. Addressing diverse backgrounds and font variations in multilingual scene text images is a challenge for existing methods. Limited local receptive fields hinder detection performance. To overcome this, we propose a Global Semantic Segmentation Branch, extracting and preserving global features for more effective text detection, aligning with the need for comprehensive information. In this study, we collected and built a real-world multilingual natural scene text image dataset and conducted comprehensive experiments and analyses. The experimental results demonstrate that the proposed algorithm achieves an F-measure of 85.02\%, which is 4.71\% higher than the baseline model. We also conducted extensive cross-dataset validation on MSRA-TD500, ICDAR2017MLT, and ICDAR2015 datasets to verify the generality of our approach. The code and dataset can be found at https://github.com/wangmelon/CEMLT. | 翻訳日:2024-01-08 17:43:01 公開日:2024-01-05 |
# 大規模言語モデルのための検索型生成:調査 Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2312.10997v4 ) ライセンス: Link先を確認 | Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Qianyu Guo, Meng Wang and Haofen Wang | (参考訳) 大きな言語モデル(LLM)は重要な能力を示すが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。
Retrieval-Augmented Generation (RAG)は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
これによってモデル、特に知識集約型タスクの正確性と信頼性が向上し、継続的な知識更新とドメイン固有情報の統合が可能になる。
RAG は LLM の本質的な知識と外部データベースの巨大な動的リポジトリを相乗的に統合する。
本稿では,RAGパラダイムの進展を概観し,Naive RAG,Advanced RAG,Modular RAGを包括的に検討する。
検索,生成,拡張技術を含むRAGフレームワークのトリパルタイト基盤を慎重に精査する。
本稿では,それぞれの重要なコンポーネントに組み込まれた最先端技術に注目し,RAGシステムの進歩を深く理解する。
さらに,RAGモデルを評価するためのメトリクスとベンチマークと,最新の評価フレームワークを紹介する。
結論として本論文は,課題の特定,マルチモダリティの拡大,ragインフラストラクチャとそのエコシステムの進展など,今後の研究の道筋を概説する。 Large Language Models (LLMs) demonstrate significant capabilities but face challenges such as hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes. Retrieval-Augmented Generation (RAG) has emerged as a promising solution by incorporating knowledge from external databases. This enhances the accuracy and credibility of the models, particularly for knowledge-intensive tasks, and allows for continuous knowledge updates and integration of domain-specific information. RAG synergistically merges LLMs' intrinsic knowledge with the vast, dynamic repositories of external databases. This comprehensive review paper offers a detailed examination of the progression of RAG paradigms, encompassing the Naive RAG, the Advanced RAG, and the Modular RAG. It meticulously scrutinizes the tripartite foundation of RAG frameworks, which includes the retrieval , the generation and the augmentation techniques. The paper highlights the state-of-the-art technologies embedded in each of these critical components, providing a profound understanding of the advancements in RAG systems. Furthermore, this paper introduces the metrics and benchmarks for assessing RAG models, along with the most up-to-date evaluation framework. In conclusion, the paper delineates prospective avenues for research, including the identification of challenges, the expansion of multi-modalities, and the progression of the RAG infrastructure and its ecosystem. | 翻訳日:2024-01-08 17:42:30 公開日:2024-01-05 |
# MatchDet: 画像マッチングとオブジェクト検出のための協調フレームワーク MatchDet: A Collaborative Framework for Image Matching and Object Detection ( http://arxiv.org/abs/2312.10983v2 ) ライセンス: Link先を確認 | Jinxiang Lai, Wenlong Wu, Bin-Bin Gao, Jun Liu, Jiawei Zhan, Congchong Nie, Yi Zeng, Chengjie Wang | (参考訳) 画像マッチングとオブジェクト検出は2つの基本的かつ困難なタスクである。
本稿では、画像マッチングとオブジェクト検出のためのMatchDet(タスク協調型)という協調フレームワークを提案し、相互改善を実現する。
本研究では,2つのタスクの協調学習を実現するために,検出器用重み付き空間注意モジュール (WSAM) と,Matcher用重み付き注意モジュール (WAM) とBox Filter の3つの新しいモジュールを提案する。
具体的には、WSAMは、次の検出器のためにターゲット画像の前景領域を強調し、WAMはペア画像の前景領域間の接続を強化して高品質なマッチングを保証し、Box Filterは偽マッチングの影響を緩和する。
Warp-COCOとminiScanNetという2つのデータセットを用いた新しいベンチマークのアプローチを評価する。
実験の結果,本手法の有効性が示され,競争性が向上した。 Image matching and object detection are two fundamental and challenging tasks, while many related applications consider them two individual tasks (i.e. task-individual). In this paper, a collaborative framework called MatchDet (i.e. task-collaborative) is proposed for image matching and object detection to obtain mutual improvements. To achieve the collaborative learning of the two tasks, we propose three novel modules, including a Weighted Spatial Attention Module (WSAM) for Detector, and Weighted Attention Module (WAM) and Box Filter for Matcher. Specifically, the WSAM highlights the foreground regions of target image to benefit the subsequent detector, the WAM enhances the connection between the foreground regions of pair images to ensure high-quality matches, and Box Filter mitigates the impact of false matches. We evaluate the approaches on a new benchmark with two datasets called Warp-COCO and miniScanNet. Experimental results show our approaches are effective and achieve competitive improvements. | 翻訳日:2024-01-08 17:42:10 公開日:2024-01-05 |
# 未知領域の管理:オープンセット認識と接点領域に関する調査 Managing the unknown: a survey on Open Set Recognition and tangential areas ( http://arxiv.org/abs/2312.08785v2 ) ライセンス: Link先を確認 | Marcos Barcina-Blanco, Jesus L. Lobo, Pablo Garcia-Bringas, Javier Del Ser | (参考訳) 実世界のシナリオでは、トレーニング段階では現れていないクラスに属するサンプルを予測する際に、分類モデルは堅牢に実行する必要があることが多い。
Open Set Recognitionは、テストフェーズに到着したサンプルから未知のクラスを検出できるモデルを考案し、既知のクラスに属するサンプルの分類において優れたパフォーマンスを維持することで、この問題に対処する。
本稿では,オープンセット認識に関する最近の文献を概観し,連続学習,分布外検出,新奇性検出,不確実性推定など他の機械学習研究分野との共通実践,限界,関連について概説する。
私たちの研究は、オープンな問題も明らかにし、より安全な人工知能手法への将来の取り組みを動機づけ、具体化するいくつかの研究方向を提案する。 In real-world scenarios classification models are often required to perform robustly when predicting samples belonging to classes that have not appeared during its training stage. Open Set Recognition addresses this issue by devising models capable of detecting unknown classes from samples arriving during the testing phase, while maintaining a good level of performance in the classification of samples belonging to known classes. This review comprehensively overviews the recent literature related to Open Set Recognition, identifying common practices, limitations, and connections of this field with other machine learning research areas, such as continual learning, out-of-distribution detection, novelty detection, and uncertainty estimation. Our work also uncovers open problems and suggests several research directions that may motivate and articulate future efforts towards more safe Artificial Intelligence methods. | 翻訳日:2024-01-08 17:41:52 公開日:2024-01-05 |
# PromptBench: 大規模言語モデル評価のための統一ライブラリ PromptBench: A Unified Library for Evaluation of Large Language Models ( http://arxiv.org/abs/2312.07910v2 ) ライセンス: Link先を確認 | Kaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie | (参考訳) 大規模言語モデル(LLM)の評価は、その性能を評価し、潜在的なセキュリティリスクを軽減するために重要である。
本稿では,LLMを評価する統一ライブラリであるPromptBenchを紹介する。
プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプト攻撃、動的評価プロトコル、分析ツールなど、研究者が容易に使用および拡張できるいくつかの重要なコンポーネントで構成されている。
PromptBenchは、研究目的のためのオープンで汎用的で柔軟なコードベースとして設計されており、新しいベンチマークの作成、下流アプリケーションのデプロイ、新しい評価プロトコルの設計において、オリジナルの研究を促進することができる。
コードはhttps://github.com/microsoft/promptbenchで入手できる。 The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported. | 翻訳日:2024-01-08 17:41:37 公開日:2024-01-05 |
# 効率的なオプティカルフロー推定のためのコンテキストアウェア・イテレーション・ポリシーネットワーク Context-Aware Iteration Policy Network for Efficient Optical Flow Estimation ( http://arxiv.org/abs/2312.07180v4 ) ライセンス: Link先を確認 | Ri Cheng, Ruian He, Xuhao Jiang, Shili Zhou, Weimin Tan, Bo Yan | (参考訳) 既存のリカレント光フロー推定ネットワークは、各サンプルのフローフィールドを更新するために固定された多数のイテレーションを使用するため、計算コストが高い。
効率的なネットワークは、フロー改善が制限されたときにイテレーションをスキップすべきである。
本稿では,サンプルあたりの最適イテレーション数を決定する効率的な光フロー推定のための文脈認識型イテレーションポリシーネットワークを開発した。
ポリシーネットワークは、コンテキスト情報を学習して、フロー改善がボトルネックになっているか、最小限であるかを認識する。
一方で、過去のイテレーション情報を含むイテレーション埋め込みと歴史的な隠れたセルを使用して、フローが以前のイテレーションからどのように変わったかを伝える。
一方で、ポリシーネットワークにインクリメンタルな損失を利用して、その後のイテレーションにおける光フロー改善の大きさを暗黙的に認識します。
さらに、我々の動的ネットワークにおける計算複雑性は制御可能であり、単一の訓練されたモデルで様々なリソースの選好を満たすことができる。
我々のポリシネットワークは、最先端の光フローネットワークに容易に統合できる。
Sintel/KITTIデータセットのFLOPを約40%/20%削減しながら,本手法が性能を維持することを示す。 Existing recurrent optical flow estimation networks are computationally expensive since they use a fixed large number of iterations to update the flow field for each sample. An efficient network should skip iterations when the flow improvement is limited. In this paper, we develop a Context-Aware Iteration Policy Network for efficient optical flow estimation, which determines the optimal number of iterations per sample. The policy network achieves this by learning contextual information to realize whether flow improvement is bottlenecked or minimal. On the one hand, we use iteration embedding and historical hidden cell, which include previous iterations information, to convey how flow has changed from previous iterations. On the other hand, we use the incremental loss to make the policy network implicitly perceive the magnitude of optical flow improvement in the subsequent iteration. Furthermore, the computational complexity in our dynamic network is controllable, allowing us to satisfy various resource preferences with a single trained model. Our policy network can be easily integrated into state-of-the-art optical flow networks. Extensive experiments show that our method maintains performance while reducing FLOPs by about 40%/20% for the Sintel/KITTI datasets. | 翻訳日:2024-01-08 17:41:24 公開日:2024-01-05 |
# AIコントロール:意図的な転倒にもかかわらず安全性を改善する AI Control: Improving Safety Despite Intentional Subversion ( http://arxiv.org/abs/2312.06942v3 ) ライセンス: Link先を確認 | Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger | (参考訳) 大きな言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になります。
研究者は、モデルを使用して他のモデルのアウトプットをレビューしたり、微妙な障害モードを表面化するための赤チーム技術など、この目的のために様々な安全技術を調査している。
しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような手法が安全を保っているかどうかを評価していない。
本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。
我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある作業へのアクセスの制限など、プログラミングの一連の問題を解決するシナリオについて検討する。
バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。
我々は、様々なプロトコルを調査し、信頼できないモデルがそれらを抑止するために使用できる戦略に対してそれぞれをテストする。
1つのプロトコルはtrusted editingと呼ばれるものです。
このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にコードの不審さを評価するよう要求する。
コードが疑わしいしきい値以下であれば、それを提出する。
そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。
もう一つのプロトコルは信頼できない監視である。
このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。
これらのプロトコルは、単純なベースラインで大幅に改善される。 As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques ("protocols") that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines. | 翻訳日:2024-01-08 17:41:05 公開日:2024-01-05 |
# KwaiAgents:大規模言語モデルを用いた汎用情報探索エージェントシステム KwaiAgents: Generalized Information-seeking Agent System with Large Language Models ( http://arxiv.org/abs/2312.04889v2 ) ライセンス: Link先を確認 | Haojie Pan, Zepeng Zhai, Hao Yuan, Yaojia Lv, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin | (参考訳) 好奇心に駆られ、人間は周囲の世界を探究し、理解し続け、この不審さを満足させる様々な道具が発明された。
大量の情報を脳に処理し記憶する能力がないにもかかわらず、人間は批判的な思考、計画、リフレクション、利用可能なツールを使って世界と対話し、解釈し、効率的に答えを見つけることができる。
近年の大規模言語モデル(LLM)の進歩は、マシンが前述の人間のような能力を持つ可能性を示し、制約されたパラメータ数でも強力な能力を発揮することを示唆している。
本稿では,llmsに基づく汎用情報検索エージェントシステムであるkwaiagentsについて紹介する。
kwaiagents内では、llmsを認知コアとして使用し、ユーザのクエリや行動ガイドラインを理解し、外部ドキュメントを参照可能なエージェントシステムを提案する。
エージェントは、内部メモリから情報を更新し、取得し、タイムアウェアな検索・バッファーツールキットを使用してアクションを計画し、実行し、最終的に包括的な応答を提供する。
さらに, GPT-4 よりも低出力の LLM を用いた場合のシステム性能について検討し, オープンソース 7B や 13B モデルでさえ,多くのエージェントシステムで良好に動作するように設計された Meta-Agent Tuning (MAT) フレームワークを導入する。
我々は、ベンチマークとヒューマン評価の両方を利用して、これらの能力を体系的に検証する。
広範囲な実験により、他の自律エージェントと比較してエージェントシステムの優位性が示され、微調整LDMの汎用エージェント能力の向上が強調された。 Driven by curiosity, humans have continually sought to explore and understand the world around them, leading to the invention of various tools to satiate this inquisitiveness. Despite not having the capacity to process and memorize vast amounts of information in their brains, humans excel in critical thinking, planning, reflection, and harnessing available tools to interact with and interpret the world, enabling them to find answers efficiently. The recent advancements in large language models (LLMs) suggest that machines might also possess the aforementioned human-like capabilities, allowing them to exhibit powerful abilities even with a constrained parameter count. In this paper, we introduce KwaiAgents, a generalized information-seeking agent system based on LLMs. Within KwaiAgents, we propose an agent system that employs LLMs as its cognitive core, which is capable of understanding a user's query, behavior guidelines, and referencing external documents. The agent can also update and retrieve information from its internal memory, plan and execute actions using a time-aware search-browse toolkit, and ultimately provide a comprehensive response. We further investigate the system's performance when powered by LLMs less advanced than GPT-4, and introduce the Meta-Agent Tuning (MAT) framework, designed to ensure even an open-sourced 7B or 13B model performs well among many agent systems. We exploit both benchmark and human evaluations to systematically validate these capabilities. Extensive experiments show the superiority of our agent system compared to other autonomous agents and highlight the enhanced generalized agent-abilities of our fine-tuned LLMs. | 翻訳日:2024-01-08 17:40:36 公開日:2024-01-05 |
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v5 ) ライセンス: Link先を確認 | Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang | (参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。
ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。
ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。
グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。
本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。
さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。
最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。 Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets. | 翻訳日:2024-01-08 17:39:36 公開日:2024-01-05 |
# controldreamer:マルチビューコントロールネットによるスタイリッシュな3d生成 ControlDreamer: Stylized 3D Generation with Multi-View ControlNet ( http://arxiv.org/abs/2312.01129v2 ) ライセンス: Link先を確認 | Yeongtak Oh, Jooyoung Choi, Yongsung Kim, Minjun Park, Chaehun Shin, and Sungroh Yoon | (参考訳) テキスト3d生成の最近の進歩は、3dコンテンツ作成の自動化と民主化に大きく貢献している。
これらの発展を踏まえ、創造的な幾何学とスタイルを持つ3dモデルの生成における、現在の方法の限界に対処することを目的としている。
テキストコーパスから生成したデータセットに基づいて学習した,深度を考慮した新しい多視点拡散モデルであるMulti-view ControlNetを導入する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
さらに,オブジェクト,動物,キャラクタなど幅広い対象を包含した3Dスタイル編集のための総合的なベンチマークを提示し,多種多様な3D生成の研究を促進する。
比較分析の結果、このパイプラインは、人間の評価やクリップスコアの指標で示されるように、既存のtext-to-3dメソッドよりも優れています。 Recent advancements in text-to-3D generation have significantly contributed to the automation and democratization of 3D content creation. Building upon these developments, we aim to address the limitations of current methods in generating 3D models with creative geometry and styles. We introduce multi-view ControlNet, a novel depth-aware multi-view diffusion model trained on generated datasets from a carefully curated text corpus. Our multi-view ControlNet is then integrated into our two-stage pipeline, ControlDreamer, enabling text-guided generation of stylized 3D models. Additionally, we present a comprehensive benchmark for 3D style editing, encompassing a broad range of subjects, including objects, animals, and characters, to further facilitate research on diverse 3D generation. Our comparative analysis reveals that this new pipeline outperforms existing text-to-3D methods as evidenced by human evaluations and CLIP score metrics. | 翻訳日:2024-01-08 17:39:08 公開日:2024-01-05 |
# アノテーション感性:訓練データ収集手法がモデル性能に与える影響 Annotation Sensitivity: Training Data Collection Methods Affect Model Performance ( http://arxiv.org/abs/2311.14212v2 ) ライセンス: Link先を確認 | Christoph Kern, Stephanie Eckman, Jacob Beck, Rob Chew, Bolei Ma, Frauke Kreuter | (参考訳) ヒューマンアノテータからトレーニングデータを収集する場合、アノテーション機器の設計、アノテータに与えられる指示、アノテータの特性、それらの相互作用はトレーニングデータに影響を与える可能性がある。
本研究は,アノテーション楽器作成時の設計選択が,結果のアノテーションに基づいてトレーニングされたモデルにも影響を与えることを実証する。
アノテーションの感度という用語を導入し、アノテーションデータ収集メソッドがアノテーション自身と下流モデルのパフォーマンスと予測に与える影響について紹介する。
アノテーション装置の5つの実験条件においてヘイトスピーチと攻撃的言語のアノテーションを収集し,アノテータを条件にランダムに割り当てる。
次に、得られた5つのデータセットのそれぞれでBERTモデルを微調整し、各条件のホールドアウト部分でモデル性能を評価する。
条件によってかなり異なることが分かりました
1)ヘイトスピーチ/違反言語アノテーションの共有
2)モデル性能
3)モデル予測,及び
4)モデル学習曲線。
本研究は,機械学習の文献にはほとんど注目されていない楽器が果たす重要な役割を強調した。
楽器設計におけるベストプラクティスの発展を知らせるために,アノテーションにどのような影響を与えるのか,またその理由について,さらなる研究を求めている。 When training data are collected from human annotators, the design of the annotation instrument, the instructions given to annotators, the characteristics of the annotators, and their interactions can impact training data. This study demonstrates that design choices made when creating an annotation instrument also impact the models trained on the resulting annotations. We introduce the term annotation sensitivity to refer to the impact of annotation data collection methods on the annotations themselves and on downstream model performance and predictions. We collect annotations of hate speech and offensive language in five experimental conditions of an annotation instrument, randomly assigning annotators to conditions. We then fine-tune BERT models on each of the five resulting datasets and evaluate model performance on a holdout portion of each condition. We find considerable differences between the conditions for 1) the share of hate speech/offensive language annotations, 2) model performance, 3) model predictions, and 4) model learning curves. Our results emphasize the crucial role played by the annotation instrument which has received little attention in the machine learning literature. We call for additional research into how and why the instrument impacts the annotations to inform the development of best practices in instrument design. | 翻訳日:2024-01-08 17:38:31 公開日:2024-01-05 |
# 非有界損失に対するPAC-Bayes-Chernoff境界 PAC-Bayes-Chernoff bounds for unbounded losses ( http://arxiv.org/abs/2401.01148v2 ) ライセンス: Link先を確認 | Ioar Casado, Luis A. Ortega, Andr\'es R. Masegosa and Aritz P\'erez | (参考訳) 非有界損失に対する新しい高確率PAC-Bayesオラクルを提案する。
この結果はチャーノフ境界のPAC-ベイズ版として理解することができる。
証明手法は、損失のCram\'er変換に基づいて、ある確率変数のテールを均一に有界化することに依存する。
主な結果の2つの応用を強調する。
まず、多くのPAC-Bayes境界上の自由パラメータを最適化するオープンな問題を解くことを示す。
最後に,本手法では損失関数を柔軟に仮定することで,従来手法を一般化し,ギブス状後肢を最小化できる新たな境界が実現可能であることを示す。 We present a new high-probability PAC-Bayes oracle bound for unbounded losses. This result can be understood as a PAC-Bayes version of the Chernoff bound. The proof technique relies on uniformly bounding the tail of certain random variable based on the Cram\'er transform of the loss. We highlight two applications of our main result. First, we show that our bound solves the open problem of optimizing the free parameter on many PAC-Bayes bounds. Finally, we show that our approach allows working with flexible assumptions on the loss function, resulting in novel bounds that generalize previous ones and can be minimized to obtain Gibbs-like posteriors. | 翻訳日:2024-01-08 17:30:47 公開日:2024-01-05 |
# 一様ランドマークサンプリングと制約付き局所線形埋め込みによるスケーラブル多様体学習 Scalable manifold learning by uniform landmark sampling and constrained locally linear embedding ( http://arxiv.org/abs/2401.01100v2 ) ライセンス: Link先を確認 | Dehua Peng, Zhipeng Gui, Wenzhang Wei, Huayi Wu | (参考訳) 機械学習とデータサイエンスにおける重要なアプローチとして、多様体学習は、高次元空間における複素非線形多様体内の固有の低次元構造を明らかにすることを目的としている。
多様体仮説を利用して, 可視化, 分類, クラスタリング, 重要な洞察を得るために, 非線形次元低減のための様々な手法を開発した。
既存の多様体学習法は顕著な成功をおさめたが、それでも大域構造に生じる広範囲の歪みに苦しめられ、基本的なパターンの理解を妨げている。
スケーラビリティの問題は、大規模なデータを扱うための適用性にも制限がある。
本稿では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習(scml)手法を提案する。
まず、データ全体の低次元スケルトンを構築するためのランドマークのセットを探し始め、制約付き局所線型埋め込み(CLLE)に基づいて非ランドマークを学習空間に組み込む。
そこで本研究では,合成データセットと実世界ベンチマークにおけるscmlの有効性を実証的に検証し,単細胞転写学の解析と心電図信号の異常の検出に応用した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
実験では, 試料速度が低下するにつれて, 埋込み品質に顕著なロバスト性を示す。 As a pivotal approach in machine learning and data science, manifold learning aims to uncover the intrinsic low-dimensional structure within complex nonlinear manifolds in high-dimensional space. By exploiting the manifold hypothesis, various techniques for nonlinear dimension reduction have been developed to facilitate visualization, classification, clustering, and gaining key insights. Although existing manifold learning methods have achieved remarkable successes, they still suffer from extensive distortions incurred in the global structure, which hinders the understanding of underlying patterns. Scalability issues also limit their applicability for handling large-scale data. Here, we propose a scalable manifold learning (scML) method that can manipulate large-scale and high-dimensional data in an efficient manner. It starts by seeking a set of landmarks to construct the low-dimensional skeleton of the entire data, and then incorporates the non-landmarks into the learned space based on the constrained locally linear embedding (CLLE). We empirically validated the effectiveness of scML on synthetic datasets and real-world benchmarks of different types, and applied it to analyze the single-cell transcriptomics and detect anomalies in electrocardiogram (ECG) signals. scML scales well with increasing data sizes and embedding dimensions, and exhibits promising performance in preserving the global structure. The experiments demonstrate notable robustness in embedding quality as the sample rate decreases. | 翻訳日:2024-01-08 17:30:34 公開日:2024-01-05 |
# サイバーセキュリティにおける説明可能な機械学習のためのテンソルネットワーク Tensor Networks for Explainable Machine Learning in Cybersecurity ( http://arxiv.org/abs/2401.00867v2 ) ライセンス: Link先を確認 | Borja Aizpurua, Roman Orus | (参考訳) 本稿では,テンソルネットワークが機械学習アルゴリズムの解法開発にどのように役立つかを示す。
具体的には,行列積状態(mps)に基づく教師なしクラスタリングアルゴリズムを開発し,敵生成脅威インテリジェンスの実際のユースケースに適用する。
我々の調査は、MPSがオートエンコーダやGANといった従来のディープラーニングモデルと性能面で競合し、よりリッチなモデル解釈能力を提供することを示した。
我々のアプローチは、機能的確率、フォン・ノイマンのエントロピー、および相互情報の抽出を自然に促進し、異常の分類のための説得力のある物語を提供し、前例のないレベルの透明性と解釈可能性を促進する。 In this paper we show how tensor networks help in developing explainability of machine learning algorithms. Specifically, we develop an unsupervised clustering algorithm based on Matrix Product States (MPS) and apply it in the context of a real use-case of adversary-generated threat intelligence. Our investigation proves that MPS rival traditional deep learning models such as autoencoders and GANs in terms of performance, while providing much richer model interpretability. Our approach naturally facilitates the extraction of feature-wise probabilities, Von Neumann Entropy, and mutual information, offering a compelling narrative for classification of anomalies and fostering an unprecedented level of transparency and interpretability, something fundamental to understand the rationale behind artificial intelligence decisions. | 翻訳日:2024-01-08 17:30:12 公開日:2024-01-05 |
# 意思決定基盤モデルのための自己指導型事前学習: 定式化, パイプライン, 課題 Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges ( http://arxiv.org/abs/2401.00031v2 ) ライセンス: Link先を確認 | Xiaoqian Liu, Jianbin Jiao, Junge Zhang | (参考訳) 意思決定(Decision-making)は、選択と最適なポリシーを見つけるために知覚、記憶、推論を必要とする動的なプロセスである。
意思決定の伝統的なアプローチはサンプルの効率と一般化に苦しむ一方で、大規模な自己教師付き事前学習は言語やビジョンにおける微調整や少数ショット学習による迅速な適応を可能にしている。
そこで我々は,大規模な自己指導型事前学習から得られる知識を下流の意思決定問題に統合する。
本稿では,事前学習と下流推定のためのデータ収集,事前学習目標,適応戦略に関する最近の研究について述べる。
最後に,総合的かつ柔軟な自己指導型事前学習の助けを借りて,意思決定基盤モデル開発における重要な課題と今後の方向性を明らかにする。 Decision-making is a dynamic process requiring perception, memory, and reasoning to make choices and find optimal policies. Traditional approaches to decision-making suffer from sample efficiency and generalization, while large-scale self-supervised pretraining has enabled fast adaptation with fine-tuning or few-shot learning in language and vision. We thus argue to integrate knowledge acquired from generic large-scale self-supervised pretraining into downstream decision-making problems. We propose Pretrain-Then-Adapt pipeline and survey recent work on data collection, pretraining objectives and adaptation strategies for decision-making pretraining and downstream inference. Finally, we identify critical challenges and future directions for developing decision foundation model with the help of generic and flexible self-supervised pretraining. | 翻訳日:2024-01-08 17:29:55 公開日:2024-01-05 |
# MRI画像翻訳のためのサイクロンGANモデル CycleGAN Models for MRI Image Translation ( http://arxiv.org/abs/2401.00023v2 ) ライセンス: Link先を確認 | Cassandra Czobit and Reza Samavi | (参考訳) 画像から画像への翻訳は、ある領域から別の領域へ画像を変換する医療分野で人気を集めている。
ドメイン変換による医用画像合成は、与えられたクラスのイメージが制限された画像データセットを拡張できることで有利である。
学習の観点からは、このプロセスはモデルのより多様な視覚データへの露出を広げ、より汎用的な特徴を学習できるようにすることで、モデルのデータ指向の堅牢性に貢献します。
追加の神経画像を生成する場合には、識別不能な医療データを取得し、より小さな注釈付きデータセットを増やすことが有利である。
本研究では,あるフィールド強度から別のフィールド強度(例えば3テスラから1.5テスラ)へのニューロイメージ変換のためのサイクガンモデルの開発を提案する。
このモデルはDCGANアーキテクチャに基づくモデルと比較された。
CycleGANは正確な精度で合成画像と再構成画像を生成することができた。
ソース(3テスラ)からターゲットドメイン(1.5テスラ)へのマッピング機能は、平均PSNR値が25.69$\pm$2.49dB、MAE値が2106.27$\pm$1218.37で最適に実行された。 Image-to-image translation has gained popularity in the medical field to transform images from one domain to another. Medical image synthesis via domain transformation is advantageous in its ability to augment an image dataset where images for a given class is limited. From the learning perspective, this process contributes to data-oriented robustness of the model by inherently broadening the model's exposure to more diverse visual data and enabling it to learn more generalized features. In the case of generating additional neuroimages, it is advantageous to obtain unidentifiable medical data and augment smaller annotated datasets. This study proposes the development of a CycleGAN model for translating neuroimages from one field strength to another (e.g., 3 Tesla to 1.5). This model was compared to a model based on DCGAN architecture. CycleGAN was able to generate the synthetic and reconstructed images with reasonable accuracy. The mapping function from the source (3 Tesla) to target domain (1.5 Tesla) performed optimally with an average PSNR value of 25.69 $\pm$ 2.49 dB and an MAE value of 2106.27 $\pm$ 1218.37. | 翻訳日:2024-01-08 17:29:42 公開日:2024-01-05 |
# 深層学習を用いたパーキンソン病の進展予測 Predicting Parkinson's disease evolution using deep learning ( http://arxiv.org/abs/2312.17290v2 ) ライセンス: Link先を確認 | Maria Frasca, Davide La Torre, Gabriella Pravettoni, Ilaria Cutica | (参考訳) パーキンソン病(perkinson's disease)は、世界の人口の1%近くで起こる神経疾患である。
この疾患は、ドパミン産生の低下によって現れ、症状は認知的および行動的であり、疾患が進行するにつれて起こりうる幅広い性格変化、抑うつ性障害、記憶障害、感情的不規則を含む。
この疾患の早期診断と正確なステージングは、認知と運動の低下を遅くする適切な治療法を適用するために不可欠である。
現在、パーキンソン病の診断に利用可能な血液検査やバイオマーカーは1つもない。
磁気共鳴イメージングは過去30年間、pdと他の神経疾患の診断と鑑別に用いられてきた。
しかし、近年、いくつかのAIアルゴリズムが開発され、早期にPDの鑑別診断の精度と精度が向上している。
我々の知る限りでは、進歩の段階を特定するためのAIツールは作られていない。
本稿ではこのギャップを埋めることを目的とする。
parkinson's progression markers initiative(パーキンソンの進歩マーカーイニシアチブ)データセットを用いて、患者のmriと疾患ステージの兆候を報告し、進行レベルを特定するモデルを開発した。
画像と関連するスコアは、異なるディープラーニングモデルのトレーニングと評価に使用された。
標準尺度 (hoehn, yah scale) に基づき, 4つの異なる疾患進展レベルを識別した。
最終アーキテクチャは、3DCNNネットワークのカスケードで構成され、連続するLSTM層の効率的なトレーニングのためにRMIの空間特性を低減・抽出するために採用され、データ間の時間的依存関係をモデル化することを目的としている。
提案する3dcnn + lstmモデルは, 91.90\%の要素をマクロ平均ovr aucとして4つのクラスで分類することにより, 最先端の結果が得られることを示す。 Parkinson's disease is a neurological condition that occurs in nearly 1% of the world's population. The disease is manifested by a drop in dopamine production, symptoms are cognitive and behavioural and include a wide range of personality changes, depressive disorders, memory problems, and emotional dysregulation, which can occur as the disease progresses. Early diagnosis and accurate staging of the disease are essential to apply the appropriate therapeutic approaches to slow cognitive and motor decline. Currently, there is not a single blood test or biomarker available to diagnose Parkinson's disease. Magnetic resonance imaging has been used for the past three decades to diagnose and distinguish between PD and other neurological conditions. However, in recent years new possibilities have arisen: several AI algorithms have been developed to increase the precision and accuracy of differential diagnosis of PD at an early stage. To our knowledge, no AI tools have been designed to identify the stage of progression. This paper aims to fill this gap. Using the "Parkinson's Progression Markers Initiative" dataset, which reports the patient's MRI and an indication of the disease stage, we developed a model to identify the level of progression. The images and the associated scores were used for training and assessing different deep-learning models. Our analysis distinguished four distinct disease progression levels based on a standard scale (Hoehn and Yah scale). The final architecture consists of the cascading of a 3DCNN network, adopted to reduce and extract the spatial characteristics of the RMI for efficient training of the successive LSTM layers, aiming at modelling the temporal dependencies among the data. Our results show that the proposed 3DCNN + LSTM model achieves state-of-the-art results by classifying the elements with 91.90\% as macro averaged OVR AUC on four classes | 翻訳日:2024-01-08 17:29:20 公開日:2024-01-05 |
# FENet:レーン検出のための拡張ネットワーク FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v3 ) ライセンス: Link先を確認 | Liman Wang, Hanyang Zhong | (参考訳) 人間の運転に着想を得たこの研究は、サンプリング、部分的な視野評価、fpnアーキテクチャの強化、指向性iou損失といった、自動運転のための正確な車線検出のための障害に対処するイノベーションをターゲットとしたネットワークの先駆者である。
実験では,一様アプローチと異なり,重要な遠方的詳細を強調する,集中的サンプリング戦略を実証し,安全に不可欠なベンチマークと実用的カーブ・ディスタント車線認識精度を著しく向上させた。
FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリックパフォーマンスを達成するが、FENetV2は提案された部分フィールド分析において最も信頼性が高いことを証明している。
したがって、標準的な全画像測定値の低下にもかかわらず、実用的なレーンナビゲーションにはv2を特に推奨する。
今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
コードはhttps://github.com/hanyangzhong/fenetで入手できる。 Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. The Code is available at https://github.com/HanyangZhong/FENet. | 翻訳日:2024-01-08 17:28:50 公開日:2024-01-05 |
# LITE: トポロジカル記述子の格子付き埋め込みのための安定フレームワーク LITE: A Stable Framework for Lattice-Integrated Embedding of Topological Descriptors ( http://arxiv.org/abs/2312.17093v2 ) ライセンス: Link先を確認 | Michael Etienne Van Huffel, Matteo Palo | (参考訳) 本稿では、永続化ダイアグラムのための新しい記述子群を紹介する。
我々のアプローチはこれらの図を、それらが誘導する離散測度に基づいて関数を用いて有限次元ベクトル空間の要素に変換する。
主にアイデンティティと周波数ベースの変換に焦点を当てていますが、この種の技術にのみアプローチを制限していません。
この変換の族を LITE (Lattice Integrated Topological Embedding) と呼び、1-$Kantorovitch$-$Rubinstein$ metric に対して、この族の一部のメンバの安定性を証明し、微妙なデータバリエーションに対する応答性を保証する。
広範な比較分析の結果,ディスクリプタはトポロジカルなデータ分析文献の現在の技術と競合し,既存の手法を上回っていることが判明した。
この研究は、データ科学者に革新的な視点を導入するだけでなく、ベクトル化ダイアグラムの方法論に関する現在の文献の軌跡を批判する。
よりシンプルで効果的なレンズの下で、データ分析と機械学習に永続性ダイアグラムを適用するための将来の進歩の基盤を確立する。 In this paper, we introduce a new family of descriptors for persistence diagrams. Our approach transforms these diagrams into elements of a finite-dimensional vector space using functionals based on the discrete measures they induce. While our focus is primarily on identity and frequency-based transformations, we do not restrict our approach exclusively to this types of techniques. We term this family of transformations as LITE (Lattice Integrated Topological Embedding) and prove stability for some members of this family against the 1-$Kantorovitch$-$Rubinstein$ metric, ensuring its responsiveness to subtle data variations. Extensive comparative analysis reveals that our descriptor performs competitively with the current state-of-art from the topological data analysis literature, and often surpasses, the existing methods. This research not only introduces an innovative perspective for data scientists but also critiques the current trajectory of literature on methodologies for vectorizing diagrams. It establishes a foundation for future progress in applying persistence diagrams to data analysis and machine learning under a more simple and effective lens. | 翻訳日:2024-01-08 17:28:31 公開日:2024-01-05 |
# 大規模量子ネットワークの絡み合いトポグラフィ Entanglement topography of large-scale quantum networks ( http://arxiv.org/abs/2312.16009v2 ) ライセンス: Link先を確認 | Md Sohel Mondal, Dov Fields, Vladimir S. Malinovsky, Siddhartha Santra | (参考訳) 分散量子情報処理に必要な大規模量子ネットワークは、遠方のネットワークノード間で量子絡み合ったシステムを持つように仮定される。
量子ネットワークにおける分散絡み合いの程度と品質は、その機能である、そのトポロジ、エッジパラメータ分布、および分布プロトコルに依存する。
大規模量子ネットワークの一般モデルにおいて,パラメトリック・エンタングルメント・トポグラフィーを明らかにするとともに,エンタングルメント対応タスクの典型的な,最大実行可能領域の概念を導入する。
このような地形解析は,有効領域の観点から量子ネットワークに関する重要な機能情報を明らかにし,エッジパラメータの実験的ターゲットを提供し,効率的な量子ネットワーク設計を導くことができることを示す。
フォトニック量子ネットワークに適用すると、半径10^3$kmsと1500ノードのネットワークでは、任意のノードのペアが、エッジ上の1ドルMHzのエンタングルメント発生源と、ネットワークパスに沿った中間ノードでの3つのエンタングルメントスワップを使用して、$R_{sec}=1$ kHzの速度で量子セキュアキーを確立することができる。 Large-scale quantum networks, necessary for distributed quantum information processing, are posited to have quantum entangled systems between distant network nodes. The extent and quality of distributed entanglement in a quantum network, that is its functionality, depends on its topology, edge-parameter distributions and the distribution protocol. We uncover the parametric entanglement topography and introduce the notion of typical and maximal viable regions for entanglement-enabled tasks in a general model of large-scale quantum networks. We show that such a topographical analysis, in terms of viability regions, reveals important functional information about quantum networks, provides experimental targets for the edge parameters and can guide efficient quantum network design. Applied to a photonic quantum network, such a topographical analysis shows that in a network with radius $10^3$ kms and 1500 nodes, arbitrary pairs of nodes can establish quantum secure keys at a rate of $R_{sec}=1$ kHz using $1$ MHz entanglement generation sources on the edges and as few as 3 entanglement swappings at intermediate nodes along network paths. | 翻訳日:2024-01-08 17:28:10 公開日:2024-01-05 |
# MoTCoder: プログラミングタスクの混在を考慮に入れた大規模言語モデル MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks ( http://arxiv.org/abs/2312.15960v2 ) ライセンス: Link先を確認 | Jingyao Li, Pengguang Chen, Jiaya Jia | (参考訳) 大規模言語モデル(llm)は、簡単なプログラミングタスクを扱う素晴らしい能力を示している。
しかし、より困難なプログラミング問題に直面した場合、パフォーマンスは悪化する傾向にある。
従来のモデルはモノリシックなコードブロックとしてソリューションを生成することが多く、複雑な問題に取り組む上での有効性を制限している。
この制限を克服するため、Modular-of-Thought Coder (MoTCoder)を提案する。
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
我々の調査によると、サブモジュールの栽培と利用を通じて、MoTCoderは生成したソリューションのモジュラリティと正しさの両方を著しく改善し、APPSでは12.9%、CodeContestsでは9.43%の大幅な相対パス@1の改善を実現した。
私たちのコードはhttps://github.com/dvlab-research/motcoderで利用可能です。 Large Language Models (LLMs) have showcased impressive capabilities in handling straightforward programming tasks. However, their performance tends to falter when confronted with more challenging programming problems. We observe that conventional models often generate solutions as monolithic code blocks, restricting their effectiveness in tackling intricate questions. To overcome this limitation, we present Modular-of-Thought Coder (MoTCoder). We introduce a pioneering framework for MoT instruction tuning, designed to promote the decomposition of tasks into logical sub-tasks and sub-modules. Our investigations reveal that, through the cultivation and utilization of sub-modules, MoTCoder significantly improves both the modularity and correctness of the generated solutions, leading to substantial relative pass@1 improvements of 12.9% on APPS and 9.43% on CodeContests. Our codes are available at https://github.com/dvlab-research/MoTCoder. | 翻訳日:2024-01-08 17:27:47 公開日:2024-01-05 |
# 足歩行ロボットロコモーションのアストロサイト制御型ニューロモルフィック中央パターンジェネレータ制御 Astrocyte Regulated Neuromorphic Central Pattern Generator Control of Legged Robotic Locomotion ( http://arxiv.org/abs/2312.15805v2 ) ライセンス: Link先を確認 | Zhuangyu Han, Abhronil Sengupta | (参考訳) 低消費電力のイベント駆動型コンピューティングが約束されているため、バイオプロファイラブルな行動電位によって情報が伝達されるニューロモルフィックコンピューティングシステムへの関心が高まっている。
ロボット運動研究におけるニューロモルフィックコンピューティングの応用は、動物運動における四肢筋の協調を管理する神経回路から着想を得たバイオニックスロボット制御アルゴリズムのための中央パターンジェネレータ(CPG)に重点を置いている。
ニューロモルフィックハードウェアプラットフォーム上での人工CGGの実装は、資源制約環境における適応的でエネルギー効率のよいエッジロボティクスの応用を可能にする可能性がある。
しかし,cpgにおける歩行発生過程のメカニズムはよく分かっていない。
この研究は、cpg可塑性に関する文献の欠如に対処し、アストロサイト(複数の脳機能において主要な役割を果たすと考えられている脳内の細胞成分)の致命的なホメオスタティック機能を強調する。
本稿では,四足歩行を学習するためのアストロサイト制御スパイキングニューラルネットワーク(SNN)を用いたCPG(Reward-Modulated STDP for quadruped Robot)を提案する。
SNNベースのCPGは、多目的物理シミュレーションプラットフォーム上でシミュレーションされ、平地でロボットを走らせながらトロッティング歩行が出現する。
23.3\times$ 計算パワーの節約は、最先端の強化学習に基づくロボット制御アルゴリズムと比較して観察される。
このような神経科学とアルゴリズムの共同設計アプローチは、グリア細胞機能を含む神経形態的システムの機能を量子的に飛躍させる可能性がある。 Neuromorphic computing systems, where information is transmitted through action potentials in a bio-plausible fashion, is gaining increasing interest due to its promise of low-power event-driven computing. Application of neuromorphic computing in robotic locomotion research have largely focused on Central Pattern Generators (CPGs) for bionics robotic control algorithms - inspired from neural circuits governing the collaboration of the limb muscles in animal movement. Implementation of artificial CPGs on neuromorphic hardware platforms can potentially enable adaptive and energy-efficient edge robotics applications in resource constrained environments. However, underlying rewiring mechanisms in CPG for gait emergence process is not well understood. This work addresses the missing gap in literature pertaining to CPG plasticity and underscores the critical homeostatic functionality of astrocytes - a cellular component in the brain that is believed to play a major role in multiple brain functions. This paper introduces an astrocyte regulated Spiking Neural Network (SNN)-based CPG for learning locomotion gait through Reward-Modulated STDP for quadruped robots, where the astrocytes help build inhibitory connections among the artificial motor neurons in different limbs. The SNN-based CPG is simulated on a multi-object physics simulation platform resulting in the emergence of a trotting gait while running the robot on flat ground. $23.3\times$ computational power savings is observed in comparison to a state-of-the-art reinforcement learning based robot control algorithm. Such a neuroscience-algorithm co-design approach can potentially enable a quantum leap in the functionality of neuromorphic systems incorporating glial cell functionality. | 翻訳日:2024-01-08 17:27:32 公開日:2024-01-05 |
# クロスコヴァリエートな歩行認識:ベンチマーク Cross-Covariate Gait Recognition: A Benchmark ( http://arxiv.org/abs/2312.14404v2 ) ライセンス: Link先を確認 | Shinan Zou, Chao Fan, Jianbo Xiong, Chuanfu Shen, Shiqi Yu, Jin Tang | (参考訳) 歩行データセットは歩行研究に不可欠である。
しかし,本研究では,従来の制約付きデータセットや新興実世界のデータセットが,共変量多様性に関して不足していることを示す。
このギャップを埋めるため、私たちは、CCGRデータセットの収集に20ヶ月の懸命な努力を払っています。
CCGRデータセットには970人の被験者と約1.6万のシーケンスがあり、ほぼすべての被験者は33のビューと53の異なる共変体を持っている。
既存のデータセットと比較すると、CCGRは個体数と個体レベルの多様性の両方を持っている。
さらに、ビューとコ変数はよくラベル付けされ、異なる要因の影響を分析することができる。
CCGRは、RGB、パース、シルエット、ポーズなど、さまざまな種類の歩行データを提供し、研究者に探索のための包括的なリソースを提供する。
本稿では,新たに提案する解析データを用いて,多変量歩行認識に深く取り組むために,解析に基づく歩行認識(parsinggait)を提案する。
我々は広範な実験を行った。
私たちの主な結果は以下のとおりです。
1) 歩行認識の実用的応用において, クロスコヴァリエートが重要な課題として出現する。
2)ParsingGaitは,さらなる進歩の可能性を示す。
3)既存のSOTA法はCCGRで43%未満の精度を達成し,クロスコバルト歩行認識の緊急性を強調した。
リンク: https://github.com/shinanzou/ccgr。 Gait datasets are essential for gait research. However, this paper observes that present benchmarks, whether conventional constrained or emerging real-world datasets, fall short regarding covariate diversity. To bridge this gap, we undertake an arduous 20-month effort to collect a cross-covariate gait recognition (CCGR) dataset. The CCGR dataset has 970 subjects and about 1.6 million sequences; almost every subject has 33 views and 53 different covariates. Compared to existing datasets, CCGR has both population and individual-level diversity. In addition, the views and covariates are well labeled, enabling the analysis of the effects of different factors. CCGR provides multiple types of gait data, including RGB, parsing, silhouette, and pose, offering researchers a comprehensive resource for exploration. In order to delve deeper into addressing cross-covariate gait recognition, we propose parsing-based gait recognition (ParsingGait) by utilizing the newly proposed parsing data. We have conducted extensive experiments. Our main results show: 1) Cross-covariate emerges as a pivotal challenge for practical applications of gait recognition. 2) ParsingGait demonstrates remarkable potential for further advancement. 3) Alarmingly, existing SOTA methods achieve less than 43% accuracy on the CCGR, highlighting the urgency of exploring cross-covariate gait recognition. Link: https://github.com/ShinanZou/CCGR. | 翻訳日:2024-01-08 17:26:32 公開日:2024-01-05 |
# ancilla qubits を伴わない多対数奥行き制御なしゲート Polylogarithmic-depth controlled-NOT gates without ancilla qubits ( http://arxiv.org/abs/2312.13206v3 ) ライセンス: Link先を確認 | Baptiste Claudon, Julien Zylberman, C\'esar Feniou, Fabrice Debbasch, Alberto Peruzzo, Jean-Philip Piquemal | (参考訳) 制御された操作は量子アルゴリズムの基本構成要素である。
n$-control-not ゲート(c^n(x)$) を任意のシングルキュービットと cnot ゲートに分解することは、重要ではあるが非自明な作業である。
本研究は、漸近的および非漸近的レジームにおいて、従来の方法に匹敵する$c^n(x)$回路を導入する。
回路深度$\Theta\left(\log(n)^{\log_2(12)}\right)$、回路深度$\mathcal O \left(\log(n)^{\log_2(12)}\log(1/\epsilon)\right)$、m\leq n$ ancilla qubitsを用いた調整可能な深度回路を持つ正確なもの。
その結果生じる指数関数的スピードアップは、量子化学から物理学、ファイナンス、量子機械学習に至るまで、無数の量子アルゴリズムの複雑さを改善することによって、フォールトトレラントな量子コンピューティングに大きな影響を与える可能性がある。 Controlled operations are fundamental building blocks of quantum algorithms. Decomposing $n$-control-NOT gates ($C^n(X)$) into arbitrary single-qubit and CNOT gates, is a crucial but non-trivial task. This study introduces $C^n(X)$ circuits outperforming previous methods in the asymptotic and non-asymptotic regimes. Three distinct decompositions are presented: an exact one using one borrowed ancilla with a circuit depth $\Theta\left(\log(n)^{\log_2(12)}\right)$, an approximating one without ancilla qubits with a circuit depth $\mathcal O \left(\log(n)^{\log_2(12)}\log(1/\epsilon)\right)$ and an exact one with an adjustable-depth circuit using $m\leq n$ ancilla qubits. The resulting exponential speedup is likely to have a substantial impact on fault-tolerant quantum computing by improving the complexities of countless quantum algorithms with applications ranging from quantum chemistry to physics, finance and quantum machine learning. | 翻訳日:2024-01-08 17:25:36 公開日:2024-01-05 |
# 空間課題に対するChatGPT-4, Bard, Claude-2, Copilotの精度比較 Correctness Comparison of ChatGPT-4, Bard, Claude-2, and Copilot for Spatial Tasks ( http://arxiv.org/abs/2401.02404v2 ) ライセンス: Link先を確認 | Hartwig H. Hochmair and Levente Juhasz and Takoda Kemp | (参考訳) 大規模言語モデル(LLM)を含む生成AIは、コーディング、空間計算、サンプルデータの生成、時系列予測、トポニム認識、画像分類など、汎用的なタスク解決機能を通じて、最近、地球科学コミュニティにおいて大きな関心を集めている。
これまでのところ、空間的タスクに対するllmの評価は、おそらく最も著名なaiチャットボットであるchatgptに重点を置いているが、他のチャットボットはあまり注目されていない。
本研究では,4つのチャットボット,すなわちChatGPT-4,Bard,Claude-2,Copilotに割り当てられた54の空間的タスクに対する応答の正当性を評価する。
全体として、チャットボットは空間リテラシー、GIS理論、プログラミングコードと与えられた関数の解釈に優れていたが、マッピング、コード生成、コード翻訳の弱点が明らかになった。
ChatGPT-4は多くのタスクカテゴリで他のチャットボットを上回った。 Generative AI including large language models (LLMs) have recently gained significant interest in the geo-science community through its versatile task-solving capabilities including coding, spatial computations, generation of sample data, time-series forecasting, toponym recognition, or image classification. So far, the assessment of LLMs for spatial tasks has primarily focused on ChatGPT, arguably the most prominent AI chatbot, whereas other chatbots received less attention. To narrow this research gap, this study evaluates the correctness of responses for a set of 54 spatial tasks assigned to four prominent chatbots, i.e., ChatGPT-4, Bard, Claude-2, and Copilot. Overall, the chatbots performed well on spatial literacy, GIS theory, and interpretation of programming code and given functions, but revealed weaknesses in mapping, code generation, and code translation. ChatGPT-4 outperformed other chatbots across most task categories. | 翻訳日:2024-01-08 17:17:11 公開日:2024-01-05 |
# オブジェクトの統一接地と検出のためのオープンで包括的なパイプライン An Open and Comprehensive Pipeline for Unified Object Grounding and Detection ( http://arxiv.org/abs/2401.02361v2 ) ライセンス: Link先を確認 | Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang, Yining Li, Haian Huang | (参考訳) Grounding-DINOは最先端のオープンセット検出モデルであり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む。
その効果は、ダウンストリームアプリケーションの主流アーキテクチャとして広く採用されている。
しかし、その重要性にもかかわらず、当初のグラウンドング・ディノモデルは訓練法が適用できないため、包括的な技術詳細を欠いている。
このギャップを埋めるため,オープンソースで包括的でユーザフレンドリなベースラインであるmm-grounding-dinoをmmdetectionツールボックスで構築した。
事前学習のための豊富なビジョンデータセットと、微調整のための様々な検出および接地データセットを採用している。
報告された各結果の包括的分析と再現のための詳細な設定を行う。
上で述べたベンチマーク実験は、MM-Grounding-DINO-Tinyがグラウンディング-DINO-Tinyベースラインを上回っていることを示している。
すべてのモデルを研究コミュニティにリリースします。
コードとトレーニングされたモデルはhttps://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dinoでリリースされる。 Grounding-DINO is a state-of-the-art open-set detection model that tackles multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness has led to its widespread adoption as a mainstream architecture for various downstream applications. However, despite its significance, the original Grounding-DINO model lacks comprehensive public technical details due to the unavailability of its training code. To bridge this gap, we present MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline, which is built with the MMDetection toolbox. It adopts abundant vision datasets for pre-training and various detection and grounding datasets for fine-tuning. We give a comprehensive analysis of each reported result and detailed settings for reproduction. The extensive experiments on the benchmarks mentioned demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny baseline. We release all our models to the research community. Codes and trained models are released at https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino. | 翻訳日:2024-01-08 17:16:54 公開日:2024-01-05 |
# TR-DETR:ジョイントモーメント検索と光検出のためのタスク逆変換器 TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2401.02309v2 ) ライセンス: Link先を確認 | Hao Sun, Mingyao Zhou, Wenjing Chen, Wei Xie | (参考訳) 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオ内の関連モーメントを取得し、各ビデオクリップのスコアをハイライトすることを目的としている。
近年,mr と hd を共同で解決するために detr ベースのネットワークを構築する手法がいくつか提案されている。
これらのメソッドは、マルチモーダルな特徴抽出と機能インタラクションの後に2つのタスクヘッドを追加するだけで、パフォーマンスが向上する。
しかしながら、これらのアプローチは2つのタスク間の相互関係を弱めている。
本稿では,mr と hd の固有相互性を検討するために,detr (tr-detr) に基づくタスク逆変換器を提案する。
具体的には、局所的な多モードアライメントモジュールが最初に構築され、様々なモダリティの機能を共有潜在空間にアライメントする。
その後、視覚的特徴改善により、視覚的特徴からクエリ非関連情報を排除し、モーダルインタラクションを実現する。
最後に、mrとhdの相互性を利用して検索パイプラインとハイライトスコア予測プロセスを洗練させるタスク協調モジュールを構築する。
QVHighlights、Charades-STA、TVSumのデータセットに関する総合的な実験は、TR-DETRが既存の最先端手法よりも優れていることを示した。
コードは \url{https://github.com/mingyao1120/TR-DETR} で公開されている。 Video moment retrieval (MR) and highlight detection (HD) based on natural language queries are two highly related tasks, which aim to obtain relevant moments within videos and highlight scores of each video clip. Recently, several methods have been devoted to building DETR-based networks to solve both MR and HD jointly. These methods simply add two separate task heads after multi-modal feature extraction and feature interaction, achieving good performance. Nevertheless, these approaches underutilize the reciprocal relationship between two tasks. In this paper, we propose a task-reciprocal transformer based on DETR (TR-DETR) that focuses on exploring the inherent reciprocity between MR and HD. Specifically, a local-global multi-modal alignment module is first built to align features from diverse modalities into a shared latent space. Subsequently, a visual feature refinement is designed to eliminate query-irrelevant information from visual features for modal interaction. Finally, a task cooperation module is constructed to refine the retrieval pipeline and the highlight score prediction process by utilizing the reciprocity between MR and HD. Comprehensive experiments on QVHighlights, Charades-STA and TVSum datasets demonstrate that TR-DETR outperforms existing state-of-the-art methods. Codes are available at \url{https://github.com/mingyao1120/TR-DETR}. | 翻訳日:2024-01-08 17:16:32 公開日:2024-01-05 |
# カドミウム亜鉛テルライド(czt)光子計数検出器を用いた軟組織イメージング Cadmium Zinc Telluride (CZT) photon counting detector Characterisation for soft tissue imaging ( http://arxiv.org/abs/2401.02106v2 ) ライセンス: Link先を確認 | K. Hameed, Rafidah Zainon and Mahbubunnabi Tamal | (参考訳) 光子計数検出技術の利用は近年、重要なx線画像研究の関心を呼んでいる。
Computed Tomography(CT)スキャナーは、従来のCT検出器の重要な限界を克服する可能性のある新しい技術である光子計数検出器の恩恵を受けることができる。
研究者は、軟組織コントラストを検出するための光子計数検出器における半導体検出器材料の有効性と感度について研究を続けている。
本研究では,種々の組織を同定するカドミウム亜鉛テルル光子計数検出器の性能を特徴付けることを目的とした。
CZT検出器の最適フレームレート(FPS)は,25keV,35keV,0.5mA,1.0mAのX線管電圧と電流をそれぞれ最適FPSを固定し,検出エネルギー閾値を15keVから35keVの小さなステップで設定し,電流を0.1mAから1.0mAの範囲のX線管に設定して,X線源の電圧と電流と秒数(CPS)の関係を調べた。
試料, 脂肪, 肝臓, 筋肉, パラフィンワックス, コントラストメディアは, プレキシガラス製階段式室に6種類の厚さで積み重ねられた。
また, 組織試料の厚さ6種類のX線透過率を, 5つの異なるエネルギー(領域)閾値(21 keV, 25 keV, 29 keV, 31 keV, 45 keV)で測定した。
本研究では、X線源のスペクトル応答に基づいて、1秒あたり12フレームを最適フレームレート(FPS)とし、CPSはX線管電流とも線形関係を持つことを示した。
また、試料の厚さが異なるエネルギー閾値でのx線透過にも影響を及ぼすことも指摘された。
検出器の感度が高く、直線性も高く、前臨床および医学の用途に適している。 The use of photon counting detection technology has resulted in significant X-ray imaging research interest in recent years. Computed Tomography (CT) scanners can benefit from photon-counting detectors, which are new technology with the potential to overcome key limitations of conventional CT detectors. Researchers are still studying the effectiveness and sensitivity of semiconductor detector materials in photon counting detectors for detecting soft tissue contrasts. This study aimed to characterize the performance of the Cadmium Zinc Telluride photon counting detector in identifying various tissues. An optimal frame rate per second (FPS) of CZT detector was evaluated by setting the X-ray tube voltage and current at 25 keV, 35 keV and 0.5 mA, 1.0 mA respectively by keeping the optimum FPS fixed, the detector energy thresholds were set in small steps from 15 keV to 35 keV and the Currents were set for X-ray tubes in ranges of 0.1 mA to 1.0 mA to find the relationship between voltage and current of the X-ray source and counts per second (CPS). The samples i.e., fat, liver, muscles, paraffin wax, and contrast media were stacked at six different thickness levels in a stair-step chamber made from Plexi-glass. X-ray transmission at six different thicknesses of tissue samples was also examined for five different energy (regions) thresholds (21 keV, 25 keV, 29 keV, 31 keV, and 45 keV) to determine the effect on count per second (CPS). In this study, 12 frames per second is found to be the optimum frame rate per second (FPS) based on the spectral response of an X-ray source and CPS has a linear relationship with X-ray tube current as well. It was also noted that A sample's thickness also affects its X-ray transmission at different energy thresholds. A high sensitivity and linearity of the detectors make them suitable for use in both preclinical and medical applications. | 翻訳日:2024-01-08 17:16:07 公開日:2024-01-05 |
# 強磁性金属との相互作用による双晶空洞モード分割と寿命 Dichroic cavity mode splitting and lifetimes from interactions with a ferromagnetic metal ( http://arxiv.org/abs/2401.01929v2 ) ライセンス: Link先を確認 | Henning G. Hugdal, Eirik Jaccheri H{\o}ydalsvik, Sol H. Jacobsen | (参考訳) 電磁キャビティの円偏極モードに対する強磁性金属 (FM) の効果について検討し, 時間反転対称性の破れがキャビティモードの双対応答をもたらすことを示す。
1つのスピン分割バンドで、FM電子とキャビティモードの間のゼーマン結合はスピン分割に匹敵するモード周波数に対する反交差を引き起こす。
しかし、これは円偏光モードの1つに過ぎず、もう1つはFMの影響を受けず、偏光依存性の伝送実験を用いてFMのスピン分割を決定することができる。
さらに, 2つのスピンスプリットバンドについても,キャビティモードの寿命が偏光依存応答を示すことを示した。
1つの偏光のみのモードの寿命を減少させることで、円偏光キャビティを設計制御できる可能性がある。 We study the effect of ferromagnetic metals (FM) on the circularly polarized modes of an electromagnetic cavity and show that broken time-reversal symmetry leads to a dichroic response of the cavity modes. With one spin-split band, the Zeeman coupling between the FM electrons and cavity modes leads to an anticrossing for mode frequencies comparable to the spin splitting. However, this is only the case for one of the circularly polarized modes, while the other is unaffected by the FM, allowing for the determination of the spin-splitting of the FM using polarization-dependent transmission experiments. Moreover, we show that for two spin-split bands, also the lifetimes of the cavity modes display a polarization-dependent response. The reduced lifetime of modes of only one polarization could potentially be used to engineer and control circularly polarized cavities. | 翻訳日:2024-01-08 17:15:27 公開日:2024-01-05 |
# AstroLLaMA-Chat:会話データセットと対話データセットによるAstroLLaMAのスケーリング AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets ( http://arxiv.org/abs/2401.01916v2 ) ライセンス: Link先を確認 | Ernest Perkowski, Rui Pan, Tuan Dung Nguyen, Yuan-Sen Ting, Sandor Kruk, Tong Zhang, Charlie O'Neill, Maja Jablonska, Zechang Sun, Michael J. Smith, Huiling Liu, Kevin Schawinski, Kartheik Iyer, Ioana Ciuc\u{a} for UniverseTBD | (参考訳) 天文学に着目した質問応答におけるLLM性能向上の可能性を検討する。
コンパクトな 7B パラメータ LLaMA-2 モデルを用いて、抽象、導入、結論を含む天文学のコーパスのキュレートセットにのみ焦点をあてることで、特殊トピックの理解において顕著な改善が達成される。
GPT-4 のような一般的な LLM は、より優れた推論能力により、より広範な質問応答シナリオに優れるが、限られたリソースによる連続事前学習は、特定のトピックにおけるモデル性能を向上させることができる。
さらに、AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
包括的な定量的ベンチマークは現在進行中であり、今後の全論文で詳述する予定である。
このモデル、astrollama-chatがhttps://huggingface.co/universetbdで利用可能になった。天文学コミュニティ向けにカスタマイズされた最初のオープンソースの会話型aiツールだ。 We explore the potential of enhancing LLM performance in astronomy-focused question-answering through targeted, continual pre-training. By employing a compact 7B-parameter LLaMA-2 model and focusing exclusively on a curated set of astronomy corpora -- comprising abstracts, introductions, and conclusions -- we achieve notable improvements in specialized topic comprehension. While general LLMs like GPT-4 excel in broader question-answering scenarios due to superior reasoning capabilities, our findings suggest that continual pre-training with limited resources can still enhance model performance on specialized topics. Additionally, we present an extension of AstroLLaMA: the fine-tuning of the 7B LLaMA model on a domain-specific conversational dataset, culminating in the release of the chat-enabled AstroLLaMA for community use. Comprehensive quantitative benchmarking is currently in progress and will be detailed in an upcoming full paper. The model, AstroLLaMA-Chat, is now available at https://huggingface.co/universeTBD, providing the first open-source conversational AI tool tailored for the astronomy community. | 翻訳日:2024-01-08 17:15:13 公開日:2024-01-05 |
# 世界の言語における持続性と拡散性のパターン Patterns of Persistence and Diffusibility across the World's Languages ( http://arxiv.org/abs/2401.01698v2 ) ライセンス: Link先を確認 | Yiyi Chen, Johannes Bjerva | (参考訳) 言語類似性は、遺伝的関連性、地域接触、普遍性、チャンスによって引き起こされる。
つまり、複数の意味を伝えるために単一の語彙形式が用いられるような類似性は、未発見である。
本研究は,言語学的安定性 (パースペンス) と接触による変化 (ディフューザビリティ) を探求することにより, 言語間類似性の言語的原因を明らかにするものである。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
次に,従来の言語学研究から得られたいくつかの確立された仮説を新たに提案し,この資源の可能性を示す。
本研究は, 言語文学における既定仮説を強く支持する一方で, 矛盾する証拠を他の文献に提示する。
我々の大規模資源は、例えば、多言語NLPと比較言語学の分野にわたるさらなる研究のために開放される。 Language similarities can be caused by genetic relatedness, areal contact, universality, or chance. Colexification, i.e. a type of similarity where a single lexical form is used to convey multiple meanings, is underexplored. In our work, we shed light on the linguistic causes of cross-lingual similarity in colexification and phonology, by exploring genealogical stability (persistence) and contact-induced change (diffusibility). We construct large-scale graphs incorporating semantic, genealogical, phonological and geographical data for 1,966 languages. We then show the potential of this resource, by investigating several established hypotheses from previous work in linguistics, while proposing new ones. Our results strongly support a previously established hypothesis in the linguistic literature, while offering contradicting evidence to another. Our large scale resource opens for further research across disciplines, e.g.~in multilingual NLP and comparative linguistics. | 翻訳日:2024-01-08 17:14:54 公開日:2024-01-05 |
# AIは人間と同じくらい創造的か? Can AI Be as Creative as Humans? ( http://arxiv.org/abs/2401.01623v2 ) ライセンス: Link先を確認 | Haonan Wang, James Zou, Michael Mozer, Anirudh Goyal, Alex Lamb, Linjun Zhang, Weijie J Su, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi | (参考訳) 創造性は社会的な進歩とイノベーションの基盤となるが、その評価は複雑でしばしば主観的な取り組みである。
人間の創造性に留まったタスクが可能な高度な生成型aiモデルの台頭に伴い、aiの創造性の研究は、その責任ある開発と応用に不可欠となる。
本稿では,Relative Creativityという新しい概念を導入することにより,創造性の定義と評価の複雑さに対処する。
創造性を普遍的に定義するのではなく、aiが仮想人間の創造能力にマッチするかどうかに焦点を移す。
この視点はチューリングテストからインスピレーションを得て、クリエイティビティの評価に固有の課題と主観性に対処するために拡張される。
この方法論シフトは、統計的に定量化されたAIの創造性の評価を促進する。
このアプローチは、AIの創造能力と特定の人間グループとの直接比較を可能にする。
この基礎を基礎として,現代の自己回帰モデルにおける統計的創造性の適用について論じる。
クリエイティビティの尺度の定義と分析に加えて,クリエイティビティの理論的定量化と実践モデルトレーニングのギャップを効果的に埋める,実行可能なトレーニングガイドラインを導入する。
これらの多面的貢献を通じて、aiモデルにおける統計的創造性の評価と育成のための結束的で継続的な進化とトランスフォーメーションの枠組みを確立した。 Creativity serves as a cornerstone for societal progress and innovation, but its assessment remains a complex and often subjective endeavor. With the rise of advanced generative AI models capable of tasks once reserved for human creativity, the study of AI's creative potential becomes imperative for its responsible development and application. This paper addresses the complexities in defining and evaluating creativity by introducing a new concept called Relative Creativity. Instead of trying to define creativity universally, we shift the focus to whether AI can match the creative abilities of a hypothetical human. This perspective draws inspiration from the Turing Test, expanding upon it to address the challenges and subjectivities inherent in evaluating creativity. This methodological shift facilitates a statistically quantifiable evaluation of AI's creativity, which we term Statistical Creativity. This approach allows for direct comparisons of AI's creative abilities with those of specific human groups. Building on this foundation, we discuss the application of statistical creativity in contemporary prompt-conditioned autoregressive models. In addition to defining and analyzing a measure of creativity, we introduce an actionable training guideline, effectively bridging the gap between theoretical quantification of creativity and practical model training. Through these multifaceted contributions, the paper establishes a cohesive, continuously evolving, and transformative framework for assessing and fostering statistical creativity in AI models. | 翻訳日:2024-01-08 17:14:39 公開日:2024-01-05 |
# 全スライド画像を用いた組織アーチファクト分割と重症度の自動診断 Tissue Artifact Segmentation and Severity Analysis for Automated Diagnosis Using Whole Slide Images ( http://arxiv.org/abs/2401.01386v2 ) ライセンス: Link先を確認 | Galib Muhammad Shahriar Himel | (参考訳) 伝統的に、病理学的解析と診断は、専門家が顕微鏡下でガラススライド標本を手動で眼球で行う。
スライド画像全体は、ガラススライドから生成されたデジタル標本である。
スライド画像全体を通して標本をコンピュータ画面で観察し、コンピュータビジョンと人工知能を自動分析と診断に利用する計算病理学へと導いた。
現在の計算の進歩により、スライド画像全体は人間の監督なしに自律的に分析できる。
しかし、この分析は、組織の折りたたみや気泡などの組織的アーティファクトによってスライド画像全体が影響を受ける場合、失敗するか、誤った診断につながる可能性がある。
既存のアーティファクト検出手法は、分析から影響のあるアーティファクトを除去するために、重症度評価の専門家に依存している。
このプロセスは、重症度を評価することなく、自動分析やアーティファクトの除去という目標を損なうことなく、時間の消費、枯渇、弱体化させ、診断上重要なデータを失う可能性がある。
したがって、アーティファクトを検出して、その重大度を自動的に評価する必要がある。
本稿では,畳み込みニューラルネットワークを用いたアーティファクト検出に重大度評価を組み込んだシステムを提案する。
提案システムはDoubleUNetを用いてアーティファクトを分割し、6つの微調整された畳み込みニューラルネットワークモデルのアンサンブルネットワークを用いて重大性を決定する。
この手法は, アーチファクトセグメンテーションの精度を9%向上させ, 重症度評価のための病理医の評価と97パーセントの強い相関を達成した。
提案したヘテロジニアスデータセットを用いてシステムのロバスト性を実証し,自動解析システムと統合することで実用性を確保した。 Traditionally, pathological analysis and diagnosis are performed by manually eyeballing glass slide specimens under a microscope by an expert. The whole slide image is the digital specimen produced from the glass slide. Whole slide image enabled specimens to be observed on a computer screen and led to computational pathology where computer vision and artificial intelligence are utilized for automated analysis and diagnosis. With the current computational advancement, the entire whole slide image can be analyzed autonomously without human supervision. However, the analysis could fail or lead to wrong diagnosis if the whole slide image is affected by tissue artifacts such as tissue fold or air bubbles depending on the severity. Existing artifact detection methods rely on experts for severity assessment to eliminate artifact affected regions from the analysis. This process is time consuming, exhausting and undermines the goal of automated analysis or removal of artifacts without evaluating their severity, which could result in the loss of diagnostically important data. Therefore, it is necessary to detect artifacts and then assess their severity automatically. In this paper, we propose a system that incorporates severity evaluation with artifact detection utilizing convolutional neural networks. The proposed system uses DoubleUNet to segment artifacts and an ensemble network of six fine tuned convolutional neural network models to determine severity. This method outperformed current state of the art in accuracy by 9 percent for artifact segmentation and achieved a strong correlation of 97 percent with the evaluation of pathologists for severity assessment. The robustness of the system was demonstrated using our proposed heterogeneous dataset and practical usability was ensured by integrating it with an automated analysis system. | 翻訳日:2024-01-08 17:14:16 公開日:2024-01-05 |
# 誤差をもつ量子クリロフアルゴリズムの解析 Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v2 ) ライセンス: Link先を確認 | William Kirby | (参考訳) この研究は、量子回路の出力における一般的なエラーを対象とする、リアルタイム進化に基づく量子クリロフアルゴリズムの誤差解析を提供する。
これらの誤差を要約するために, 集合雑音率を定式化し, 基底状態エネルギー推定結果の誤差が, その雑音率において一階線形であることを証明した。
これにより、この線形スケーリングを示す既知の数値と、正方根スケーリングしか得られない事前理論解析との間の不一致が解消される。
我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。
これらの結果は量子クライロフ誤差の主な特徴を理解するための理論的枠組みを提供する。 This work provides an error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We establish a collective noise rate to summarize those errors, and prove that the resulting errors in the ground state energy estimates are leading-order linear in that noise rate. This resolves a misalignment between known numerics, which exhibit this linear scaling, and prior theoretical analysis, which only provably obtained square-root scaling. Our main technique is expressing generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors. | 翻訳日:2024-01-08 17:13:50 公開日:2024-01-05 |
# パーティショニングに基づく3次元顔モデルの非剛性登録 Partition-based Nonrigid Registration for 3D Face Model ( http://arxiv.org/abs/2401.02607v1 ) ライセンス: Link先を確認 | Yuping Ye, Zhan Song, Juan Zhao | (参考訳) 本稿では,3d morphable model(3dmm)の分割に基づく表面登録について述べる。
3DMMでは、手作りのテンプレートモデルを異なるキャプチャーモデルにワープする必要があることが多い。
提案手法はまずランドマークを用いてテンプレートモデルを分割し,各部分を拡大し,最後に境界を滑らかにする。
この方法はテンプレートモデルとターゲットモデルとの相違が巨大である場合に特に有効である。
実験の結果, 従来のワープ法よりも性能が良く, 局所極小法に頑健であることが判明した。 This paper presents a partition-based surface registration for 3D morphable model(3DMM). In the 3DMM, it often requires to warp a handcrafted template model into different captured models. The proposed method first utilizes the landmarks to partition the template model then scale each part and finally smooth the boundaries. This method is especially effective when the disparity between the template model and the target model is huge. The experiment result shows the method perform well than the traditional warp method and robust to the local minima. | 翻訳日:2024-01-08 16:23:18 公開日:2024-01-05 |
# ロバスト車検出のための爆発性偏光材料キュー Exploiting Polarized Material Cues for Robust Car Detection ( http://arxiv.org/abs/2401.02606v1 ) ライセンス: Link先を確認 | Wen Dong, Haiyang Mei, Ziqi Wei, Ao Jin, Sen Qiu, Qiang Zhang, Xin Yang | (参考訳) 自動車検出は多くの自動運転機能にとって重要な前提条件となる重要なタスクである。
照明・ウェザー条件の大きな変化と車両の密度は、車の意味的・識別的特徴の抽出を妨げる不安定/制限された色情報のために、安全に対する高精度な認識要求を満たすために既存の車検出アルゴリズムに重大な課題をもたらす。
本研究では,三色線分極を付加的な手がかりとして活用し,これらの課題を曖昧化させる学習に基づく新しい車検出手法を提案する。
重要な観察は、光波の特徴である偏光が、様々な撮像条件下でシーンオブジェクトの本質的な物理的特性を頑健に記述し、車(金属やガラスなど)とその周囲環境(土壌や木など)の材料の性質と強く結びついており、挑戦シーンにおける堅牢な車検出のための信頼性と差別的な特徴を提供する。
偏光キューを利用するために,まず画素対応のRGB偏光車検出データセットを構築し,その後,新しいマルチモーダル融合ネットワークを訓練する。
当社のカー検出ネットワークは,rgbと偏光機能を動的に統合し,すべての学習サンプルにまたがる自動車固有の素材特性を探索する。
提案手法を広範に検証し,最先端検出法より優れていることを示す。
実験の結果,偏光は車検出の強力な手がかりであることがわかった。 Car detection is an important task that serves as a crucial prerequisite for many automated driving functions. The large variations in lighting/weather conditions and vehicle densities of the scenes pose significant challenges to existing car detection algorithms to meet the highly accurate perception demand for safety, due to the unstable/limited color information, which impedes the extraction of meaningful/discriminative features of cars. In this work, we present a novel learning-based car detection method that leverages trichromatic linear polarization as an additional cue to disambiguate such challenging cases. A key observation is that polarization, characteristic of the light wave, can robustly describe intrinsic physical properties of the scene objects in various imaging conditions and is strongly linked to the nature of materials for cars (e.g., metal and glass) and their surrounding environment (e.g., soil and trees), thereby providing reliable and discriminative features for robust car detection in challenging scenes. To exploit polarization cues, we first construct a pixel-aligned RGB-Polarization car detection dataset, which we subsequently employ to train a novel multimodal fusion network. Our car detection network dynamically integrates RGB and polarization features in a request-and-complement manner and can explore the intrinsic material properties of cars across all learning samples. We extensively validate our method and demonstrate that it outperforms state-of-the-art detection methods. Experimental results show that polarization is a powerful cue for car detection. | 翻訳日:2024-01-08 16:23:03 公開日:2024-01-05 |
# 神経因果抽象化 Neural Causal Abstractions ( http://arxiv.org/abs/2401.02602v1 ) ライセンス: Link先を確認 | Kevin Xia, Elias Bareinboim | (参考訳) 原因と効果の関係から世界を理解する能力と、情報を抽象概念に圧縮する能力は、人間の知性の2つの特徴である。
これら2つのトピックは、因果抽象理論のルーブリックの下で、文献のタンデムで研究されている。
実際には、実際の因果推論タスクにおいて、真のメカニズムが不明で限られたデータしか利用できない抽象理論を最大限に活用する方法は、未解決の問題である。
本稿では,変数とそのドメインをクラスタリングすることで,新たな因果抽象のファミリーを構築する。
このアプローチは、パールの因果階層が生み出す個々の因果分布をよりよく適応するために、従来の抽象概念を洗練・一般化する。
このような抽象化は,神経因果モデル(xia et al., 2021)を通じて実践的な環境で学習可能であることを示し,さまざまな粒度レベルにおいて,さまざまな難解な因果推論タスク - 同定,推定,サンプリング -- を解決するためのディープラーニングツールキットの利用を可能にした。
最後に,これらの結果を表現学習と統合することで,より柔軟な抽象化を実現します。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を説明する。 The abilities of humans to understand the world in terms of cause and effect relationships, as well as to compress information into abstract concepts, are two hallmark features of human intelligence. These two topics have been studied in tandem in the literature under the rubric of causal abstractions theory. In practice, it remains an open problem how to best leverage abstraction theory in real-world causal inference tasks, where the true mechanisms are unknown and only limited data is available. In this paper, we develop a new family of causal abstractions by clustering variables and their domains. This approach refines and generalizes previous notions of abstractions to better accommodate individual causal distributions that are spawned by Pearl's causal hierarchy. We show that such abstractions are learnable in practical settings through Neural Causal Models (Xia et al., 2021), enabling the use of the deep learning toolkit to solve various challenging causal inference tasks -- identification, estimation, sampling -- at different levels of granularity. Finally, we integrate these results with representation learning to create more flexible abstractions, moving these results closer to practical applications. Our experiments support the theory and illustrate how to scale causal inferences to high-dimensional settings involving image data. | 翻訳日:2024-01-08 16:22:18 公開日:2024-01-05 |
# 画像キャプションに対するオブジェクト指向バックドア攻撃 Object-oriented backdoor attack against image captioning ( http://arxiv.org/abs/2401.02600v1 ) ライセンス: Link先を確認 | Meiling Li, Nan Zhong, Xinpeng Zhang, Zhenxing Qian, Sheng Li | (参考訳) 画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されているが、視覚言語モデルに対するバックドア攻撃に関する研究はほとんどない。
本稿では,画像キャプションモデルに対する裏口攻撃を,トレーニングデータから検討する。
攻撃者がトレーニングデータセットへの完全なアクセスを持ち、モデル構築やトレーニングプロセスに介入できないと仮定する。
具体的には、良性トレーニングサンプルの一部を無作為に選択して有毒とする。
その後、画像内のオブジェクトの周りにキャプションが展開されていることを考慮し、現在の検出対象領域のスケールに比例する修正数で画素値を変更することを目的とした、毒を造るオブジェクト指向の手法をデザインする。
有毒データを訓練した後、攻撃されたモデルは正常に良性画像上で振る舞うが、有毒画像の場合、モデルは与えられた画像と無関係ないくつかの文を生成する。
攻撃は、良質なテスト画像の生成性能を犠牲にすることなく、特定のテスト画像のモデル動作を制御する。
本手法は,バックドア攻撃に対する画像キャプションモデルの弱点を証明し,画像キャプション分野におけるバックドア攻撃に対する防御意識を高めることを期待する。 Backdoor attack against image classification task has been widely studied and proven to be successful, while there exist little research on the backdoor attack against vision-language models. In this paper, we explore backdoor attack towards image captioning models by poisoning training data. Assuming the attacker has total access to the training dataset, and cannot intervene in model construction or training process. Specifically, a portion of benign training samples is randomly selected to be poisoned. Afterwards, considering that the captions are usually unfolded around objects in an image, we design an object-oriented method to craft poisons, which aims to modify pixel values by a slight range with the modification number proportional to the scale of the current detected object region. After training with the poisoned data, the attacked model behaves normally on benign images, but for poisoned images, the model will generate some sentences irrelevant to the given image. The attack controls the model behavior on specific test images without sacrificing the generation performance on benign test images. Our method proves the weakness of image captioning models to backdoor attack and we hope this work can raise the awareness of defending against backdoor attack in the image captioning field. | 翻訳日:2024-01-08 16:21:40 公開日:2024-01-05 |
# コントラスト学習のための教師なしハード負の強化 Unsupervised hard Negative Augmentation for contrastive learning ( http://arxiv.org/abs/2401.02594v1 ) ライセンス: Link先を確認 | Yuxuan Shu and Vasileios Lampos | (参考訳) 周波数逆文書周波数(TF-IDF)検索モデルに基づく合成負のインスタンスを生成する手法であるunsupervised hard Negative Augmentation (UNA)を提案する。
unaはtf-idfスコアを使用して文中の用語の重要性を判断し、それに関して用語を置き換えることで否定的なサンプルを生成する。
実験により,UNAで訓練したモデルにより,意味的テキスト類似性タスクの全体的な性能が向上することが示された。
unaとパラフレージング拡張を組み合わせることで、さらなるパフォーマンス向上が得られる。
以上の結果から,本手法は異なるバックボーンモデルと適合することが示された。
アブレーション研究は、負の増強に対するTF-IDFによる制御の選択も支持している。 We present Unsupervised hard Negative Augmentation (UNA), a method that generates synthetic negative instances based on the term frequency-inverse document frequency (TF-IDF) retrieval model. UNA uses TF-IDF scores to ascertain the perceived importance of terms in a sentence and then produces negative samples by replacing terms with respect to that. Our experiments demonstrate that models trained with UNA improve the overall performance in semantic textual similarity tasks. Additional performance gains are obtained when combining UNA with the paraphrasing augmentation. Further results show that our method is compatible with different backbone models. Ablation studies also support the choice of having a TF-IDF-driven control on negative augmentation. | 翻訳日:2024-01-08 16:21:03 公開日:2024-01-05 |
# テンソルトレイン回復のための非凸因子化法 Guaranteed Nonconvex Factorization Approach for Tensor Train Recovery ( http://arxiv.org/abs/2401.02592v1 ) ライセンス: Link先を確認 | Zhen Qin, Michael B. Wakin, and Zhihui Zhu | (参考訳) 本稿では,因子化アプローチに対する最初の収束保証を提供する。
具体的には, スケーリングの曖昧さを回避し, 理論解析を容易にするために, 主に正規直交を強制するいわゆる左直交ttフォーマットを最適化する。
正規直交構造を確保するため、リーマン勾配降下 (rgd) を用いてスティーフェル多様体上のそれらの因子を最適化する。
まず,tt因子分解問題を調べ,rgdの局所線形収束を確立する。
特に、収束速度はテンソル次数が増加すると直線的に減少するだけである。
次に,線形計測からtt形式テンソルを復元することを目的としたセンシング問題について検討する。
検出作用素が制限等尺性(RIP)を満たすと仮定すると、スペクトル初期化によって得られる適切な初期化により、RGDは線形速度で接地トラステンソルに収束する。
さらに、計測におけるガウス雑音を含むシナリオを包含するように分析を拡張した。
RGD が線形速度で基底真理を確実に回復できることを証明し、その回復誤差はテンソル次数に関して多項式成長のみを示す。
我々は理論的な発見を検証するために様々な実験を行う。 In this paper, we provide the first convergence guarantee for the factorization approach. Specifically, to avoid the scaling ambiguity and to facilitate theoretical analysis, we optimize over the so-called left-orthogonal TT format which enforces orthonormality among most of the factors. To ensure the orthonormal structure, we utilize the Riemannian gradient descent (RGD) for optimizing those factors over the Stiefel manifold. We first delve into the TT factorization problem and establish the local linear convergence of RGD. Notably, the rate of convergence only experiences a linear decline as the tensor order increases. We then study the sensing problem that aims to recover a TT format tensor from linear measurements. Assuming the sensing operator satisfies the restricted isometry property (RIP), we show that with a proper initialization, which could be obtained through spectral initialization, RGD also converges to the ground-truth tensor at a linear rate. Furthermore, we expand our analysis to encompass scenarios involving Gaussian noise in the measurements. We prove that RGD can reliably recover the ground truth at a linear rate, with the recovery error exhibiting only polynomial growth in relation to the tensor order. We conduct various experiments to validate our theoretical findings. | 翻訳日:2024-01-08 16:20:20 公開日:2024-01-05 |
# 不均衡データの深層学習のための最大後比への合成情報 Synthetic Information towards Maximum Posterior Ratio for deep learning on Imbalanced Data ( http://arxiv.org/abs/2401.02591v1 ) ライセンス: Link先を確認 | Hung Nguyen and Morris Chang | (参考訳) 本研究では,クラス不均衡がディープラーニングモデルに与える影響を検証し,マイノリティクラスのための合成データ生成によるデータバランス手法を提案する。
ランダムなオーバーサンプリングとは異なり,本手法は高いエントロピーサンプルを同定することにより情報領域のバランスを優先する。
適切に配置された合成データを生成すると、機械学習アルゴリズムの精度と効率が向上する。
本稿では,クラス後段比を最適化することにより,クラス内の正しい領域で合成サンプルを生成する確率を最大化するアルゴリズムを提案する。
さらに、データのトポロジを維持するため、各サンプルの近傍で合成データが生成される。
実験結果から,ディープラーニングモデルの改良において,提案手法の優れた性能を示す。 This study examines the impact of class-imbalanced data on deep learning models and proposes a technique for data balancing by generating synthetic data for the minority class. Unlike random-based oversampling, our method prioritizes balancing the informative regions by identifying high entropy samples. Generating well-placed synthetic data can enhance machine learning algorithms accuracy and efficiency, whereas poorly-placed ones may lead to higher misclassification rates. We introduce an algorithm that maximizes the probability of generating a synthetic sample in the correct region of its class by optimizing the class posterior ratio. Additionally, to maintain data topology, synthetic data are generated within each minority sample's neighborhood. Our experimental results on forty-one datasets demonstrate the superior performance of our technique in enhancing deep-learning models. | 翻訳日:2024-01-08 16:19:57 公開日:2024-01-05 |
# 逆離散ウェーブレット変換による高分解能4fgl不確定音源の同定 Identification of 4FGL uncertain sources at Higher Resolutions with Inverse Discrete Wavelet Transform ( http://arxiv.org/abs/2401.02589v1 ) ライセンス: Link先を確認 | Haitao Cao, Hubing Xiao, Zhijian Luo, Xiangtao Zeng, Junhui Fan | (参考訳) 今後の大型天文学データの時代において、地上望遠鏡や宇宙望遠鏡からターゲット源を見つけることは重荷である。
機械学習(ML)手法はこの問題に広く利用されてきたが、詳細なデータ分析を取り入れることで、大量の天文学的データを扱う場合のターゲットソースの同定の効率を大幅に向上させることができる。
本研究は,AGN候補の発見と4FGL DR3からBL Lac/FSRQ候補を同定することに焦点を当てた。
本研究では,4FGL DR3カタログの属性間の相関について検討し,FDIDWTという新しい手法を提案する。
変換データセットは、フラクタル次元(FD)理論と逆離散ウェーブレット変換(IDWT)による多分解能解析により相関特性を推定し、低次元および特徴強調として特徴付けられる。
Combining the FDIDWT method with an improved lightweight MatchboxConv1D model, we accomplished two missions: (1) to distinguish the Active Galactic Nuclei (AGNs) from others (Non-AGNs) in the 4FGL DR3 uncertain sources with an accuracy of 96.65%, namely, Mission A; (2) to classify blazar candidates of uncertain type (BCUs) into BL Lacertae objects (BL Lacs) or Flat Spectrum Radio Quasars (FSRQs) with an accuracy of 92.03%, namely, Mission B. There are 1354 AGN candidates in Mission A, 482 BL Lacs candidates and 128 FSRQ candidates in Mission B were found.
結果は,先行研究の結果と98%以上の高い一貫性を示した。
また,本手法は,通常の手法よりも変数が少なく,相対的に微弱な源を見つけるという利点がある。 In the forthcoming era of big astronomical data, it is a burden to find out target sources from ground-based and space-based telescopes. Although Machine Learning (ML) methods have been extensively utilized to address this issue, the incorporation of in-depth data analysis can significantly enhance the efficiency of identifying target sources when dealing with massive volumes of astronomical data. In this work, we focused on the task of finding AGN candidates and identifying BL Lac/FSRQ candidates from the 4FGL DR3 uncertain sources. We studied the correlations among the attributes of the 4FGL DR3 catalogue and proposed a novel method, named FDIDWT, to transform the original data. The transformed dataset is characterized as low-dimensional and feature-highlighted, with the estimation of correlation features by Fractal Dimension (FD) theory and the multi-resolution analysis by Inverse Discrete Wavelet Transform (IDWT). Combining the FDIDWT method with an improved lightweight MatchboxConv1D model, we accomplished two missions: (1) to distinguish the Active Galactic Nuclei (AGNs) from others (Non-AGNs) in the 4FGL DR3 uncertain sources with an accuracy of 96.65%, namely, Mission A; (2) to classify blazar candidates of uncertain type (BCUs) into BL Lacertae objects (BL Lacs) or Flat Spectrum Radio Quasars (FSRQs) with an accuracy of 92.03%, namely, Mission B. There are 1354 AGN candidates in Mission A, 482 BL Lacs candidates and 128 FSRQ candidates in Mission B were found. The results show a high consistency of greater than 98% with the results in previous works. In addition, our method has the advantage of finding less variable and relatively faint sources than ordinary methods. | 翻訳日:2024-01-08 16:19:14 公開日:2024-01-05 |
# 加速3次元ガウススメッティングによる衛星形状の特徴化 Characterizing Satellite Geometry via Accelerated 3D Gaussian Splatting ( http://arxiv.org/abs/2401.02588v1 ) ライセンス: Link先を確認 | Van Minh Nguyen and Emma Sandidge and Trupti Mahendrakar and Ryan T. White | (参考訳) 宇宙船の軌道への展開が加速し、軌道上サービス(OOS)、宇宙船の検査、アクティブデブリ除去(ADR)への関心が高まった。
このようなミッションには、非協力的で未知の、居住可能な宇宙物体の近くでの正確なランデブーと近接操作が必要である。
有人ミッションと地上制御によるラグタイムの安全性は完全な自律性を必要とする。
これはターゲットの幾何をしっかりと特徴づける必要がある。
本稿では,現在の宇宙飛行ハードウェア上で利用可能な計算資源上で動作可能な3次元ガウススプラッティングに基づく軌道上の衛星のジオメトリのマッピング手法を提案する。
いくつかの現実的な照明と動作条件下で,ループ型衛星モックアップのモデルトレーニングと3次元レンダリング性能を示す。
我々のモデルでは、未知の衛星の高品質な新しいビューを、従来のNeRFアルゴリズムよりも2桁近く高速にトレーニングし、レンダリングすることが可能であることが示されている。
このようなオンボード機能は、自律的な誘導、ナビゲーション、制御タスクに必要なダウンストリームマシンインテリジェンスタスクを可能にするために重要である。 The accelerating deployment of spacecraft in orbit have generated interest in on-orbit servicing (OOS), inspection of spacecraft, and active debris removal (ADR). Such missions require precise rendezvous and proximity operations in the vicinity of non-cooperative, possible unknown, resident space objects. Safety concerns with manned missions and lag times with ground-based control necessitate complete autonomy. This requires robust characterization of the target's geometry. In this article, we present an approach for mapping geometries of satellites on orbit based on 3D Gaussian Splatting that can run on computing resources available on current spaceflight hardware. We demonstrate model training and 3D rendering performance on a hardware-in-the-loop satellite mock-up under several realistic lighting and motion conditions. Our model is shown to be capable of training on-board and rendering higher quality novel views of an unknown satellite nearly 2 orders of magnitude faster than previous NeRF-based algorithms. Such on-board capabilities are critical to enable downstream machine intelligence tasks necessary for autonomous guidance, navigation, and control tasks. | 翻訳日:2024-01-08 16:18:45 公開日:2024-01-05 |
# サンプル重みを用いた分布歪データのフェデレート学習 Federated Learning for distribution skewed data using sample weights ( http://arxiv.org/abs/2401.02586v1 ) ライセンス: Link先を確認 | Hung Nguyen, Peiyuan Wu, Morris Chang | (参考訳) フェデレーション学習における最も難しい問題の1つは、データが独立ではなく、同じ分散(noniid)であることが多いことである。
クライアントは同じ種類のデータを提供し、単一のグローバルディストリビューションから引き出すことが期待されている。
しかし、データはしばしば異なるリソースから異なる方法で収集される。
したがって、クライアント間のデータ分散は、下層のグローバル分散とは異なるかもしれない。
これにより、重み分散問題が発生し、連合学習性能が低下する。
本研究は,クライアント間のスキューデータ分散におけるフェデレート学習性能の向上に焦点を当てた。
主な考え方は、サンプル重量を用いてグローバル分布に近いクライアント分布を調整することである。
したがって、機械学習モデルはより高精度でより高速に収束する。
実験的リスク最小化の基本的な概念から始まり,理論上,試料重みを用いた分布歪性調整の解を導出する。
サンプル重みを決定するために,ニューラルネットワークを用いた密度推定モデルを用いて,暗黙的に密度情報を交換する。
クライアントのデータ分散は、生のデータを公開することなく調整できる。
実世界の3つのデータセットに対する実験結果から,提案手法はフェデレーション学習精度を向上するだけでなく,他の実験手法と比較して通信コストを大幅に削減することが示された。 One of the most challenging issues in federated learning is that the data is often not independent and identically distributed (nonIID). Clients are expected to contribute the same type of data and drawn from one global distribution. However, data are often collected in different ways from different resources. Thus, the data distributions among clients might be different from the underlying global distribution. This creates a weight divergence issue and reduces federated learning performance. This work focuses on improving federated learning performance for skewed data distribution across clients. The main idea is to adjust the client distribution closer to the global distribution using sample weights. Thus, the machine learning model converges faster with higher accuracy. We start from the fundamental concept of empirical risk minimization and theoretically derive a solution for adjusting the distribution skewness using sample weights. To determine sample weights, we implicitly exchange density information by leveraging a neural network-based density estimation model, MADE. The clients data distribution can then be adjusted without exposing their raw data. Our experiment results on three real-world datasets show that the proposed method not only improves federated learning accuracy but also significantly reduces communication costs compared to the other experimental methods. | 翻訳日:2024-01-08 16:18:25 公開日:2024-01-05 |
# CoCoT:複数画像入力を持つ大規模マルチモーダルモデルに対するコントラシティブ・チェーン・オブ・サート・プロンプト CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs ( http://arxiv.org/abs/2401.02582v1 ) ライセンス: Link先を確認 | Daoan Zhang, Junming Yang, Hanjia Lyu, Zijian Jin, Yuan Yao, Mingkai Chen, Jiebo Luo | (参考訳) 人工知能(AGI)の開発を探求する際、これらのモデルにとって重要な課題は複数の画像入力からの情報の解釈と処理である。
しかし,大規模マルチモーダルモデル(lmms)では,(1)細粒度知覚の欠如,(2)複数の画像にまたがる情報混合傾向,の2つの問題に遭遇する。
まず、複数の入力画像を扱う際に、LMMが細かな視覚的詳細を知覚する能力について検討する。
この研究は、2つの側面に焦点を当てている。第1に、画像間マッチング(LMMが関連画像を効果的に理性化してペアリングできるかどうかを評価する)、第2に、複数画像間マッチング(LMMが詳細画像情報を正確にキャプチャして要約できるかどうかを評価する)。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
モデル性能を向上させるために,マルチインプットマルチモーダルモデルに基づくContrastive Chain-of-Thought(CoCoT)プロンプトアプローチをさらに発展させる。
本手法では,複数の画像入力の類似点と相違点をLMMで比較し,その類似点と相違点に基づいて複数の画像入力について詳細な質問に答えるようモデルに誘導する。
実験結果は,大規模マルチモーダルモデルのマルチモーダル理解能力向上におけるCoCoTの能力を示す。 When exploring the development of Artificial General Intelligence (AGI), a critical task for these models involves interpreting and processing information from multiple image inputs. However, Large Multimodal Models (LMMs) encounter two issues in such scenarios: (1) a lack of fine-grained perception, and (2) a tendency to blend information across multiple images. We first extensively investigate the capability of LMMs to perceive fine-grained visual details when dealing with multiple input images. The research focuses on two aspects: first, image-to-image matching (to evaluate whether LMMs can effectively reason and pair relevant images), and second, multi-image-to-text matching (to assess whether LMMs can accurately capture and summarize detailed image information). We conduct evaluations on a range of both open-source and closed-source large models, including GPT-4V, Gemini, OpenFlamingo, and MMICL. To enhance model performance, we further develop a Contrastive Chain-of-Thought (CoCoT) prompting approach based on multi-input multimodal models. This method requires LMMs to compare the similarities and differences among multiple image inputs, and then guide the models to answer detailed questions about multi-image inputs based on the identified similarities and differences. Our experimental results showcase CoCoT's proficiency in enhancing the multi-image comprehension capabilities of large multimodal models. | 翻訳日:2024-01-08 16:18:09 公開日:2024-01-05 |
# ディープQラーニングに基づくスマートグリッドの需要応答のためのEVのスマートスケジューリング A Deep Q-Learning based Smart Scheduling of EVs for Demand Response in Smart Grids ( http://arxiv.org/abs/2401.02653v1 ) ライセンス: Link先を確認 | Viorica Rozina Chifu, Tudor Cioara, Cristina Bianca Pop, Horia Rusu and Ionut Anghel | (参考訳) 経済と政策の要素は、電気自動車(EV)の採用と利用を継続的に増加させている。
しかし、EVは燃機関車に代わるクリーンな代替品でありながら、電力需要の増加と使用時期の増大により、マイクログリッド機器の寿命とエネルギーバランスに悪影響を及ぼす。
私たちの見解では、グリッド管理はevsスケジューリングの柔軟性を活用し、需要対応プログラムの積極的な参加を通じてローカルネットワークのバランスを支援するべきです。
本稿では,Deep Q-Learningを利用してマイクログリッド内におけるEVの充電および排出活動のスケジューリングを行い,配電系統オペレーターが提供する目標エネルギープロファイルと整合するモデルフリーソリューションを提案する。
我々は,EVスケジューリング動作に対する特定の報酬に基づいて状態の値を評価するためにベルマン方程式を適用し,ニューラルネットワークを用いて利用可能な動作に対するQ値とエプシロングレーディアルゴリズムを用いて,目標エネルギープロファイルを満たすための利用と探索のバランスをとる。
提案手法は、EVの充電および放電動作を目標プロファイルと0.99のPerson係数に整合させるために効果的にスケジュールできることを示し、EVとマイクログリッドダイナミクスの知識のないデータにのみ依存して、E-mobility機能によって与えられるダイナミック性を含む効率的なEVスケジューリング状況を処理する。 Economic and policy factors are driving the continuous increase in the adoption and usage of electrical vehicles (EVs). However, despite being a cleaner alternative to combustion engine vehicles, EVs have negative impacts on the lifespan of microgrid equipment and energy balance due to increased power demand and the timing of their usage. In our view grid management should leverage on EVs scheduling flexibility to support local network balancing through active participation in demand response programs. In this paper, we propose a model-free solution, leveraging Deep Q-Learning to schedule the charging and discharging activities of EVs within a microgrid to align with a target energy profile provided by the distribution system operator. We adapted the Bellman Equation to assess the value of a state based on specific rewards for EV scheduling actions and used a neural network to estimate Q-values for available actions and the epsilon-greedy algorithm to balance exploitation and exploration to meet the target energy profile. The results are promising showing that the proposed solution can effectively schedule the EVs charging and discharging actions to align with the target profile with a Person coefficient of 0.99, handling effective EVs scheduling situations that involve dynamicity given by the e-mobility features, relying only on data with no knowledge of EVs and microgrid dynamics. | 翻訳日:2024-01-08 16:09:30 公開日:2024-01-05 |
# 拡散を伴う単純な階層的計画 Simple Hierarchical Planning with Diffusion ( http://arxiv.org/abs/2401.02644v1 ) ライセンス: Link先を確認 | Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn | (参考訳) 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
しかし、それらはしばしば計算上の課題に直面し、特に長期的タスクの時間的抽象化を捉える際に、一般化を妨げうる。
そこで本研究では,階層型計画と拡散型計画を組み合わせた簡易かつ高速かつ驚くほど効果的な計画手法である階層型ディフューザを提案する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、より低い計算コストで -- 実験的に検証された拡散ベースの計画手法にとって重要な要素である。
さらに、jumpy sub-goalsは、低レベルのプランナーをガイドし、微調整ステージを促進し、アプローチの有効性をさらに向上します。
標準オフライン強化学習ベンチマークの実証評価を行い,非階層型ディフューザや他の階層型プランニング手法と比較して,トレーニングと計画速度の面で優れた性能と効率を示した。
さらに,本手法の一般化能力,特に構成外分布タスクにおける一般化能力の向上について検討した。 Diffusion-based generative methods have proven effective in modeling trajectories with offline datasets. However, they often face computational challenges and can falter in generalization, especially in capturing temporal abstractions for long-horizon tasks. To overcome this, we introduce the Hierarchical Diffuser, a simple, fast, yet surprisingly effective planning method combining the advantages of hierarchical and diffusion-based planning. Our model adopts a "jumpy" planning strategy at the higher level, which allows it to have a larger receptive field but at a lower computational cost -- a crucial factor for diffusion-based planning methods, as we have empirically verified. Additionally, the jumpy sub-goals guide our low-level planner, facilitating a fine-tuning stage and further improving our approach's effectiveness. We conducted empirical evaluations on standard offline reinforcement learning benchmarks, demonstrating our method's superior performance and efficiency in terms of training and planning speed compared to the non-hierarchical Diffuser as well as other hierarchical planning methods. Moreover, we explore our model's generalization capability, particularly on how our method improves generalization capabilities on compositional out-of-distribution tasks. | 翻訳日:2024-01-08 16:09:06 公開日:2024-01-05 |
# 基礎モデルの訓練・実行システム:総合的な調査 Training and Serving System of Foundation Models: A Comprehensive Survey ( http://arxiv.org/abs/2401.02643v1 ) ライセンス: Link先を確認 | Jiahang Zhou, Yanyu Chen, Zicong Hong, Wuhui Chen, Yue Yu, Tao Zhang, Hui Wang, Chuanfu Zhang, Zibin Zheng | (参考訳) 基礎モデル(例えば、chatgpt、dall-e、pengcheng mind、pangu-$\sigma$)は、自然言語処理や視覚認識といった重要な技術分野において異常な性能を示しており、人工知能の主流となっている。
これにより、多くの大手テクノロジー企業が、これらのモデルのパラメータの継続的な成長を促進する基盤モデルシステムの開発に、重要な人的および財政的資源を注力するようになった。
その結果、これらのモデルのトレーニングと提供は、かなりの計算能力、メモリ消費、帯域幅要求など、重大な課題を提起した。
そのため、効果的な訓練とサービス戦略が特に重要となる。
多くの研究者が効果的手法を積極的に研究し提案している。
したがって、システム開発者や研究者にとって、包括的な調査が不可欠である。
本稿では,様々な観点から基礎モデルを訓練・提供するための手法を幅広く検討する。
ネットワーク、コンピューティング、ストレージといったより細かい側面を含む、これらの最先端のメソッドの詳細な分類を提供する。
さらに,本稿では,その課題を要約し,基礎モデルシステムの今後の展開方向に関する展望を示す。
総合的な議論と分析を通じて、基礎モデルシステムにおける継続的な革新と開発を推進し、将来の研究と応用のための確かな理論的基礎と実践的なガイダンスを提供したいと考えている。 Foundation models (e.g., ChatGPT, DALL-E, PengCheng Mind, PanGu-$\Sigma$) have demonstrated extraordinary performance in key technological areas, such as natural language processing and visual recognition, and have become the mainstream trend of artificial general intelligence. This has led more and more major technology giants to dedicate significant human and financial resources to actively develop their foundation model systems, which drives continuous growth of these models' parameters. As a result, the training and serving of these models have posed significant challenges, including substantial computing power, memory consumption, bandwidth demands, etc. Therefore, employing efficient training and serving strategies becomes particularly crucial. Many researchers have actively explored and proposed effective methods. So, a comprehensive survey of them is essential for system developers and researchers. This paper extensively explores the methods employed in training and serving foundation models from various perspectives. It provides a detailed categorization of these state-of-the-art methods, including finer aspects such as network, computing, and storage. Additionally, the paper summarizes the challenges and presents a perspective on the future development direction of foundation model systems. Through comprehensive discussion and analysis, it hopes to provide a solid theoretical basis and practical guidance for future research and applications, promoting continuous innovation and development in foundation model systems. | 翻訳日:2024-01-08 16:08:47 公開日:2024-01-05 |
# AG-ReID.v2: 人体再識別のための航空と地上の展望 AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification ( http://arxiv.org/abs/2401.02634v1 ) ライセンス: Link先を確認 | Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes | (参考訳) 空中人物再識別(re-id)は、高高度空中カメラと地上カメラの異なる視点、ポーズ、解像度から生じる、コンピュータビジョンにおけるユニークな課題である。
既存の研究は主に地上と地上のマッチングに重点を置いており、包括的なデータセットが多数存在するため、空中マッチングの探求は少ない。
そこで我々は,航空・地上混合シナリオにおける人物識別のためのデータセット ag-reid.v2 を提案する。
このデータセットは、一致するidと15のソフト属性ラベルでアノテートされた1,615のユニークな個人100,502の画像からなる。
データは、UAV、静止CCTV、スマートグラス統合カメラを用いて様々な視点から収集され、多様なアイデンティティー内バリエーションを提供する。
さらに、このデータセットに適した説明可能な注意ネットワークを開発した。
このネットワークは、ペアワイズ画像距離を効率よく処理し、重要なトップダウン機能を強調し、高度差による外観の変化に適応する3ストリームアーキテクチャを備えている。
比較評価は,既存ベースラインよりもアプローチが優れていることを示す。
我々は、このコンピュータビジョンの専門分野の研究を進めることを目的として、データセットとアルゴリズムのソースコードを公開する計画である。
アクセスにはhttps://github.com/huynguyen792/ag-reid.v2をご覧ください。 Aerial-ground person re-identification (Re-ID) presents unique challenges in computer vision, stemming from the distinct differences in viewpoints, poses, and resolutions between high-altitude aerial and ground-based cameras. Existing research predominantly focuses on ground-to-ground matching, with aerial matching less explored due to a dearth of comprehensive datasets. To address this, we introduce AG-ReID.v2, a dataset specifically designed for person Re-ID in mixed aerial and ground scenarios. This dataset comprises 100,502 images of 1,615 unique individuals, each annotated with matching IDs and 15 soft attribute labels. Data were collected from diverse perspectives using a UAV, stationary CCTV, and smart glasses-integrated camera, providing a rich variety of intra-identity variations. Additionally, we have developed an explainable attention network tailored for this dataset. This network features a three-stream architecture that efficiently processes pairwise image distances, emphasizes key top-down features, and adapts to variations in appearance due to altitude differences. Comparative evaluations demonstrate the superiority of our approach over existing baselines. We plan to release the dataset and algorithm source code publicly, aiming to advance research in this specialized field of computer vision. For access, please visit https://github.com/huynguyen792/AG-ReID.v2. | 翻訳日:2024-01-08 16:08:27 公開日:2024-01-05 |
# 逆例に対するロバスト性を高める暗号化モデルのランダムアンサンブル A Random Ensemble of Encrypted models for Enhancing Robustness against Adversarial Examples ( http://arxiv.org/abs/2401.02633v1 ) ライセンス: Link先を確認 | Ryota Iijima, Sayaka Shiota, Hitoshi Kiya | (参考訳) ディープニューラルネットワーク(DNN)は、敵の例(AE)に弱いことがよく知られている。
さらに、AEは逆転性を持ち、つまりソースモデルのために生成されたAEは、非自明な確率で別のブラックボックスモデル(ターゲットモデル)を騙すことができる。
従来の研究では、ビジョントランスフォーマー(ViT)は、ConvMixerのような畳み込みニューラルネットワーク(CNN)モデルよりも、逆転性の性質に対してより堅牢であることが確認されており、暗号化されたViTは暗号化なしではViTよりも堅牢である。
本稿では,より堅牢なモデルを実現するために,暗号化されたViTモデルのランダムアンサンブルを提案する。
実験では,提案手法は従来手法よりもブラックボックス攻撃だけでなくホワイトボックス攻撃に対しても堅牢であることが確認された。 Deep neural networks (DNNs) are well known to be vulnerable to adversarial examples (AEs). In addition, AEs have adversarial transferability, which means AEs generated for a source model can fool another black-box model (target model) with a non-trivial probability. In previous studies, it was confirmed that the vision transformer (ViT) is more robust against the property of adversarial transferability than convolutional neural network (CNN) models such as ConvMixer, and moreover encrypted ViT is more robust than ViT without any encryption. In this article, we propose a random ensemble of encrypted ViT models to achieve much more robust models. In experiments, the proposed scheme is verified to be more robust against not only black-box attacks but also white-box ones than convention methods. | 翻訳日:2024-01-08 16:08:04 公開日:2024-01-05 |
# 機械学習におけるモデル非依存解釈フレームワーク--nbaスポーツにおける比較研究 Model-Agnostic Interpretation Framework in Machine Learning: A Comparative Study in NBA Sports ( http://arxiv.org/abs/2401.02630v1 ) ライセンス: Link先を確認 | Shun Liu | (参考訳) 近年、機械学習の分野は大きな進歩を遂げており、ディープラーニングモデルはさまざまなタスクで非常に優れたパフォーマンスを提供している。
しかし、これらのモデルは、しばしば解釈可能性のコストを伴い、不透明な「黒い箱」として動作し、彼らの決定の背後にある根拠を曖昧にする。
この透明性の欠如は、モデルの基本原則の理解を制限し、医療や財務といった機密性の高い分野への展開を妨げる可能性がある。
この課題に対処するため、我々の研究チームは、モデル性能と解釈可能性の間のトレードオフを緩和する革新的なフレームワークを提案しました。
本手法は,高次元データのモジュラー操作を中心とし,解釈性を保ちながらエンドツーエンド処理を実現する。
多様な解釈技術とモジュール化されたデータ処理を組み合わせることで、我々のフレームワークは、複雑なモデルの意思決定プロセスに、パフォーマンスを損なうことなく光を当てます。
我々はこの枠組みを広範囲に検証し,計算効率と解釈可能性の調和性を達成する上で,その優れた効果を検証した。
当社のアプローチは、複雑なモデルの内部動作に対する前例のない洞察を提供し、さまざまなドメインにまたがるデプロイメントにおける信頼、透明性、説明責任を育むことによって、現代の機械学習アプリケーションにおける重要なニーズに対処します。 The field of machine learning has seen tremendous progress in recent years, with deep learning models delivering exceptional performance across a range of tasks. However, these models often come at the cost of interpretability, as they operate as opaque "black boxes" that obscure the rationale behind their decisions. This lack of transparency can limit understanding of the models' underlying principles and impede their deployment in sensitive domains, such as healthcare or finance. To address this challenge, our research team has proposed an innovative framework designed to reconcile the trade-off between model performance and interpretability. Our approach is centered around modular operations on high-dimensional data, which enable end-to-end processing while preserving interpretability. By fusing diverse interpretability techniques and modularized data processing, our framework sheds light on the decision-making processes of complex models without compromising their performance. We have extensively tested our framework and validated its superior efficacy in achieving a harmonious balance between computational efficiency and interpretability. Our approach addresses a critical need in contemporary machine learning applications by providing unprecedented insights into the inner workings of complex models, fostering trust, transparency, and accountability in their deployment across diverse domains. | 翻訳日:2024-01-08 16:07:50 公開日:2024-01-05 |
# AI生成顔を用いた偽ソーシャルメディアプロファイルの特徴と頻度 Characteristics and prevalence of fake social media profiles with AI-generated faces ( http://arxiv.org/abs/2401.02627v1 ) ライセンス: Link先を確認 | Kai-Cheng Yang, Danishjeet Singh, Filippo Menczer | (参考訳) 生成人工知能(AI)の最近の進歩は、偽のソーシャルメディアアカウントを偽造する可能性を懸念しているが、実証的な証拠は乏しい。
本稿では,GAN(Generative Adversarial Networks)が生成した人物のプロフィール画像を用いたTwitter(X)アカウントの体系的解析を行う。
1,353件のアカウントのデータセットを提示し、詐欺、スパム、調整済みメッセージの増幅などに利用されていることを示す。
GAN生成顔の特徴(一貫した眼の配置)を活用し、それを人間のアノテーションで補うことで、野生のGAN生成顔の識別に有効な方法を考案した。
この手法をアクティブなtwitterユーザーのランダムなサンプルに適用し、ganが生成した顔によるプロフィールの有病率を0.021%から0.044%に下げる。
これらの発見は、マルチモーダル生成AIがもたらす脅威を浮き彫りにしている。
我々は,検出手法のソースコードと収集したデータを公開し,さらなる調査を行う。
また,ソーシャルメディア利用者のアカウント認識を支援する実践的ヒューリスティックスも提供する。 Recent advancements in generative artificial intelligence (AI) have raised concerns about their potential to create convincing fake social media accounts, but empirical evidence is lacking. In this paper, we present a systematic analysis of Twitter(X) accounts using human faces generated by Generative Adversarial Networks (GANs) for their profile pictures. We present a dataset of 1,353 such accounts and show that they are used to spread scams, spam, and amplify coordinated messages, among other inauthentic activities. Leveraging a feature of GAN-generated faces -- consistent eye placement -- and supplementing it with human annotation, we devise an effective method for identifying GAN-generated profiles in the wild. Applying this method to a random sample of active Twitter users, we estimate a lower bound for the prevalence of profiles using GAN-generated faces between 0.021% and 0.044% -- around 10K daily active accounts. These findings underscore the emerging threats posed by multimodal generative AI. We release the source code of our detection method and the data we collect to facilitate further investigation. Additionally, we provide practical heuristics to assist social media users in recognizing such accounts. | 翻訳日:2024-01-08 16:07:27 公開日:2024-01-05 |
# 超狭帯域干渉回路を用いた小型InGaAs/InP単光子検出器モジュール Compact InGaAs/InP single-photon detector module with ultra-narrowband interference circuits ( http://arxiv.org/abs/2401.02625v1 ) ライセンス: Link先を確認 | Yan Zhengyu, Shi Tingting, Fan Yuanbin, Zhou Lai, Yuan Zhiliang | (参考訳) ゲート型ingaas/inpアバランシェ光ダイオードは、通信用単一光子を一定間隔で検出するための最も実用的な装置である。本報告では、小型単一光子検出器(spd)モジュールの開発について報告する。このモジュールは、サイズが8.8cm×6cm×2cmで、駆動信号生成、かすかなアバランチェ読み出し、識別回路、および温度調整と補償と完全に統合されている。
読み出し回路は、これまでに報告した超狭帯域干渉回路(UNIC)を用いて、ゲーティング信号に対する容量応答を除去する。
我々は、1.25GHzのクロック入力を持つUNIC-SPDモジュールを特徴付け、その性能は離散関数ブロック上に構築されたそれと同等である。
1,550nm光子の検出効率を30%に設定すると、残脈確率は2.4%で、ゲート当たり8e-7は3nsのホールドオフ時間で得られる。
UNIC-SPDは量子鍵分布などの重要な応用に有用であると考えている。 Gated InGaAs/InP avalanche photodiodes are the most practical device for detection of telecom single photons arriving at regular intervals.Here, we report the development of a compact single-photon detector (SPD) module measured just 8.8cm * 6cm * 2cm in size and fully integrated with driving signal generation, faint avalanche readout, and discrimination circuits as well as temperature regulation and compensation. The readout circuit employs our previously reported ultra-narrowband interference circuits (UNICs) to eliminate the capacitive response to the gating signal. We characterize a UNIC-SPD module with a 1.25-GHz clock input and find its performance comparable to its counterpart built upon discrete functional blocks. Setting its detection efficiency to 30% for 1,550-nm photons, we obtain an afterpulsing probability of 2.4% and a dark count probability of 8E-7 per gate under 3-ns hold-off time. We believe that UNIC-SPDs will be useful in important applications such as quantum key distribution. | 翻訳日:2024-01-08 16:07:06 公開日:2024-01-05 |
# 3D生成AIの進歩と展望:3D人間を含む技術的概要 Progress and Prospects in 3D Generative AI: A Technical Overview including 3D human ( http://arxiv.org/abs/2401.02620v1 ) ライセンス: Link先を確認 | Song Bai, Jie Li | (参考訳) AI生成したテキストと2D画像は領域を広げ続けているが、3D生成は無視できない傾向として徐々に現れてきた。
2023年以降、3d世代の領域で大量の研究論文が登場している。
この成長は、3Dオブジェクトの生成だけでなく、3Dキャラクタとモーション生成の急速な発展も含んでいる。
この進展にはいくつかの重要な要因がある。
安定拡散における忠実度の向上と、多視点一貫性を保証する制御手法と、SMPL-Xのような現実的な人間モデルの組み合わせは、顕著な一貫性とほぼ現実的な外観を持つ3Dモデルの生成に相乗的に寄与する。
ニューラルネットワークに基づく3Dストレージおよびレンダリングモデルの進歩、例えばNeural Radiance Fields(NeRF)や3D Gaussian Splatting(3DGS)は、ニューラルレンダリングモデルの効率とリアリズムを加速した。
さらに、大規模言語モデルのマルチモーダリティ機能により、言語入力が人間の動作出力に変換できるようになった。
本稿は,2023年後半に主に刊行された関連論文の概要と概要について述べることを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。 While AI-generated text and 2D images continue to expand its territory, 3D generation has gradually emerged as a trend that cannot be ignored. Since the year 2023 an abundant amount of research papers has emerged in the domain of 3D generation. This growth encompasses not just the creation of 3D objects, but also the rapid development of 3D character and motion generation. Several key factors contribute to this progress. The enhanced fidelity in stable diffusion, coupled with control methods that ensure multi-view consistency, and realistic human models like SMPL-X, contribute synergistically to the production of 3D models with remarkable consistency and near-realistic appearances. The advancements in neural network-based 3D storing and rendering models, such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS), have accelerated the efficiency and realism of neural rendered models. Furthermore, the multimodality capabilities of large language models have enabled language inputs to transcend into human motion outputs. This paper aims to provide a comprehensive overview and summary of the relevant papers published mostly during the latter half year of 2023. It will begin by discussing the AI generated object models in 3D, followed by the generated 3D human models, and finally, the generated 3D human motions, culminating in a conclusive summary and a vision for the future. | 翻訳日:2024-01-08 16:06:43 公開日:2024-01-05 |
# マルチポートビームスプリッターの多部絡み合いクラス The multipartite entanglement classes of a multiport beam-splitter ( http://arxiv.org/abs/2401.02619v1 ) ライセンス: Link先を確認 | F. E. S. Steinhoff | (参考訳) マルチポートビームスプリッターが生成する状態は、通常、多くの空間モード間の真のマルチパートの絡み合いを示す。
本稿では,古典通信を用いた確率的局所操作のパラダイムにおける多部交絡状態の異なるクラスについて検討する。
我々は,多元的絡み合いクラスが総数階層に従う場合と,多元的絡み合いクラスが非古典次数階層に従う場合の2つのシナリオに注目した。 The states generated by a multiport beam-splitter usually display genuine multipartite entanglement between the many spatial modes. Here we investigate the different classes of multipartite entangled states within the paradigm of Stochastic Local Operations with Classical Communication. We highlight two scenarios, one where the multipartite entanglement classes follow a total number hierarchy, and the other where the various classes follow a nonclassicality degree hierarchy. | 翻訳日:2024-01-08 16:06:21 公開日:2024-01-05 |
# 配列システムの規則的抽象化 Regular Abstractions for Array Systems ( http://arxiv.org/abs/2401.02618v1 ) ライセンス: Link先を確認 | Chih-Duo Hong, Anthony W. Lin | (参考訳) 配列システムに対する安全性と生存性を検証することは、非常に難しい問題である。
配列システムは、無制限のプロセスを持つ分散プロトコルのようなパラメータ化されたシステムを自然にキャプチャする。
このような分散プロトコルは、計算中にプロセスIDを利用することが多く、その結果、要素値が無限のドメインにまたがる配列システムとなる。
本稿では,アレーシステム上での安全性と生存性を証明する新しいフレームワークを開発する。
このフレームワークの要点は、配列システムを文字列書き換えシステム(つまり有限アルファベット上の)として、いわゆるインデックス付き述語を利用する新しい述語抽象化によって過剰に近似することである。
これにより、過去数十年の間に大きく開発されてきた文字列書き換えシステム(例:正規モデルチェック)の強力な検証手法を利用できる。
本稿では,Dijkstra の自己安定化プロトコルや Chang-Roberts の指導者選挙プロトコルなど,難題に対する安全性と生活性の簡易かつ自動検証可能な証明方法を示す。 Verifying safety and liveness over array systems is a highly challenging problem. Array systems naturally capture parameterized systems such as distributed protocols with an unbounded number of processes. Such distributed protocols often exploit process IDs during their computation, resulting in array systems whose element values range over an infinite domain. In this paper, we develop a novel framework for proving safety and liveness over array systems. The crux of the framework is to overapproximate an array system as a string rewriting system (i.e. over a finite alphabet) by means of a new predicate abstraction that exploits the so-called indexed predicates. This allows us to tap into powerful verification methods for string rewriting systems that have been heavily developed in the last few decades (e.g. regular model checking). We demonstrate how our method yields simple, automatically verifiable proofs of safety and liveness properties for challenging examples, including Dijkstra's self-stabilizing protocol and the Chang-Roberts leader election protocol. | 翻訳日:2024-01-08 16:06:15 公開日:2024-01-05 |
# FED-NeRF:動的NeRFによる顔映像編集のための高3次元一貫性と時間コヒーレンスを実現する FED-NeRF: Achieve High 3D Consistency and Temporal Coherence for Face Video Editing on Dynamic NeRF ( http://arxiv.org/abs/2401.02616v1 ) ライセンス: Link先を確認 | Hao Zhang, Yu-Wing Tai, Chi-Keung Tang | (参考訳) GAN-NeRF構造の成功により、NeRF上での顔編集により、3Dビューの一貫性が維持できるようになった。
しかし、ビデオシーケンスの編集中に複数ビューの一貫性と時間的コヒーレンスを同時に達成することは、依然として困難な課題である。
本稿では,動的顔 GAN-NeRF 構造上に構築された新しい顔映像編集アーキテクチャを提案する。
遅延符号を編集することにより、動的NeRFの編集画像に対するマルチビューステレオ再構成により、顔上の複数ビュー一貫した編集を確実にすることができる。
フェースジオメトリの推定はフレーム単位で行われるため、ジッタリングの問題を引き起こす可能性がある。
連続フレームにおける表情の滑らかな変化を保存し,時間的コヒーレンスを維持する安定化器を提案する。
定量的・質的分析により,4次元映像編集の先駆的手法である本手法は,アイデンティティと動作を独立に扱う既存の2dおよび3dベースの手法と比較して,最先端のパフォーマンスを実現していることが明らかとなった。
コードはリリースされる。 The success of the GAN-NeRF structure has enabled face editing on NeRF to maintain 3D view consistency. However, achieving simultaneously multi-view consistency and temporal coherence while editing video sequences remains a formidable challenge. This paper proposes a novel face video editing architecture built upon the dynamic face GAN-NeRF structure, which effectively utilizes video sequences to restore the latent code and 3D face geometry. By editing the latent code, multi-view consistent editing on the face can be ensured, as validated by multiview stereo reconstruction on the resulting edited images in our dynamic NeRF. As the estimation of face geometries occurs on a frame-by-frame basis, this may introduce a jittering issue. We propose a stabilizer that maintains temporal coherence by preserving smooth changes of face expressions in consecutive frames. Quantitative and qualitative analyses reveal that our method, as the pioneering 4D face video editor, achieves state-of-the-art performance in comparison to existing 2D or 3D-based approaches independently addressing identity and motion. Codes will be released. | 翻訳日:2024-01-08 16:05:59 公開日:2024-01-05 |
# スケーリングとマスキング: 画像とビデオの品質評価のためのデータサンプリングの新しいパラダイム Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment ( http://arxiv.org/abs/2401.02614v1 ) ライセンス: Link先を確認 | Yongxu Liu, Yinghui Quan, Guoyao Xiao, Aobo Li, Jinjian Wu | (参考訳) 画像とビデオの品質評価は、ローカル詳細とグローバルセマンティクスの両方を強調しているが、一般的なデータサンプリング手法(リサイズ、クロッピング、グリッドベースのフラグメントなど)は同時にキャッチできない。
この欠陥に対処するためには、現在のアプローチではマルチブランチモデルを採用し、モデルの複雑さを負担するマルチ解像度データを入力する必要がある。
本研究では、モデルを積み重ねる代わりに、よりエレガントなデータサンプリング方法(sama, scaling, masking)が検討され、ローカルコンテンツとグローバルコンテンツの両方を通常の入力サイズでコンパクト化する。
基本的な考え方は、まずデータをピラミッドにスケールし、マスキング戦略でピラミッドを通常のデータ次元に縮小することだ。
画像やビデオの空間的および時間的冗長性から、処理されたデータは、通常の入力サイズでマルチスケール特性を維持でき、単一のブランチモデルで処理できる。
画像および映像品質評価におけるサンプリング手法を検証する。
実験により,本手法は,現在の単一ブランチモデルの性能を著しく向上し,余分なモデル複雑性を伴わないマルチブランチモデルに対する競合性能を実現することができることを示した。
ソースコードはhttps://github.com/Sissuire/SAMA.comで入手できる。 Quality assessment of images and videos emphasizes both local details and global semantics, whereas general data sampling methods (e.g., resizing, cropping or grid-based fragment) fail to catch them simultaneously. To address the deficiency, current approaches have to adopt multi-branch models and take as input the multi-resolution data, which burdens the model complexity. In this work, instead of stacking up models, a more elegant data sampling method (named as SAMA, scaling and masking) is explored, which compacts both the local and global content in a regular input size. The basic idea is to scale the data into a pyramid first, and reduce the pyramid into a regular data dimension with a masking strategy. Benefiting from the spatial and temporal redundancy in images and videos, the processed data maintains the multi-scale characteristics with a regular input size, thus can be processed by a single-branch model. We verify the sampling method in image and video quality assessment. Experiments show that our sampling method can improve the performance of current single-branch models significantly, and achieves competitive performance to the multi-branch models without extra model complexity. The source code will be available at https://github.com/Sissuire/SAMA. | 翻訳日:2024-01-08 16:05:36 公開日:2024-01-05 |
# moodv2: 分散検出のためのマスク画像モデリング MOODv2: Masked Image Modeling for Out-of-Distribution Detection ( http://arxiv.org/abs/2401.02611v1 ) ライセンス: Link先を確認 | Jingyao Li, Pengguang Chen, Shaozuo Yu, Shu Liu, Jiaya Jia | (参考訳) 効果的なアウト・オブ・ディストリビューション(OOD)検出の要点は、OODサンプルとは異なる堅牢なイン・ディストリビューション(ID)表現を取得することである。
従来の手法は認識に基づく手法に主に依存していたが、それらはしばしばショートカット学習をもたらし、包括的な表現が欠如していた。
本研究は総合的な分析を行い,個別の事前学習課題を探求し,様々なOODスコア関数を用いた。
その結果,再建によって事前訓練された特徴表現は,様々なスコア関数間の顕著な向上と性能ギャップを狭めることがわかった。
これは、単純なスコア関数であっても、レコンストラクションベースのプリテキストタスクを活用する場合、複雑な関数に匹敵する可能性があることを示唆している。
リコンストラクションベースのプリテキストタスクは、さまざまなスコア関数にうまく適合する。
そのため、さらなる拡大の可能性を秘めている。
OOD検出フレームワークMOODv2は、マスク付き画像モデリングプリテキストタスクを採用している。
ベルとホイッスルがなければ、MOODv2は14.30%のAUROCをImageNetで95.68%に向上し、CIFAR-10で99.98%を達成する。 The crux of effective out-of-distribution (OOD) detection lies in acquiring a robust in-distribution (ID) representation, distinct from OOD samples. While previous methods predominantly leaned on recognition-based techniques for this purpose, they often resulted in shortcut learning, lacking comprehensive representations. In our study, we conducted a comprehensive analysis, exploring distinct pretraining tasks and employing various OOD score functions. The results highlight that the feature representations pre-trained through reconstruction yield a notable enhancement and narrow the performance gap among various score functions. This suggests that even simple score functions can rival complex ones when leveraging reconstruction-based pretext tasks. Reconstruction-based pretext tasks adapt well to various score functions. As such, it holds promising potential for further expansion. Our OOD detection framework, MOODv2, employs the masked image modeling pretext task. Without bells and whistles, MOODv2 impressively enhances 14.30% AUROC to 95.68% on ImageNet and achieves 99.98% on CIFAR-10. | 翻訳日:2024-01-08 16:05:13 公開日:2024-01-05 |
# DHGCN: セルフ教師付きポイントクラウド学習のための動的ホップグラフ畳み込みネットワーク DHGCN: Dynamic Hop Graph Convolution Network for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2401.02610v1 ) ライセンス: Link先を確認 | Jincen Jiang, Lizhi Zhao, Xuequan Lu, Wei Hu, Imran Razzak, Meili Wang | (参考訳) 最近の研究は、グラフ畳み込みネットワーク(gcns)を、分類とセグメンテーションタスクのためのポイントクラウドに拡張しようと試みている。
これらの作業は、より小さな点集合を局所的に作成し、主に点集合間の関係を無視しながらGCNを通して局所的な特徴を抽出することに焦点を当てる。
本稿では,グラフノードとして扱われるボクセル化点部分間の文脈関係を明示的に学習するための動的ホップグラフ畳み込みネットワーク(dhgcn)を提案する。
グラフのホップ距離を定量的に表現できる対側隣接関係に点部間の文脈情報が存在するという直観性に動機づけられ,新しい自己教師付き部分ホップ距離再構成タスクを考案し,新しい損失関数の設計を行い,学習を容易にする。
さらに,学習したホップ距離を重み付けの入力として用いたホップグラフ注意(HGA)を提案する。
最終的に提案されたDHGCNは、ポイントベースのバックボーンネットワークと互換性のあるプラグアンドプレイモジュールである。
異なるバックボーンとタスクに関する総合的な実験は、我々の自己管理手法が最先端のパフォーマンスを達成することを示す。
ソースコードはhttps://github.com/jinec98/dhgcn。 Recent works attempt to extend Graph Convolution Networks (GCNs) to point clouds for classification and segmentation tasks. These works tend to sample and group points to create smaller point sets locally and mainly focus on extracting local features through GCNs, while ignoring the relationship between point sets. In this paper, we propose the Dynamic Hop Graph Convolution Network (DHGCN) for explicitly learning the contextual relationships between the voxelized point parts, which are treated as graph nodes. Motivated by the intuition that the contextual information between point parts lies in the pairwise adjacent relationship, which can be depicted by the hop distance of the graph quantitatively, we devise a novel self-supervised part-level hop distance reconstruction task and design a novel loss function accordingly to facilitate training. In addition, we propose the Hop Graph Attention (HGA), which takes the learned hop distance as input for producing attention weights to allow edge features to contribute distinctively in aggregation. Eventually, the proposed DHGCN is a plug-and-play module that is compatible with point-based backbone networks. Comprehensive experiments on different backbones and tasks demonstrate that our self-supervised method achieves state-of-the-art performance. Our source code is available at: https://github.com/Jinec98/DHGCN. | 翻訳日:2024-01-08 16:04:50 公開日:2024-01-05 |
# VoxelNextFusion:マルチモード3Dオブジェクト検出のためのシンプルで統一的で効果的なVoxel Fusion Framework VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2401.02702v1 ) ライセンス: Link先を確認 | Ziying Song, Guoxin Zhang, Jun Xie, Lin Liu, Caiyan Jia, Shaoqing Xu, Zhepeng Wang | (参考訳) LiDAR-カメラ融合は、深度認識のLiDAR点と意味豊かな画像との相補的な情報を利用することで、3Dオブジェクト検出の性能を向上させることができる。
既存のボクセル法では, シャープなボクセル特徴と高密度な画像特徴とを1対1で融合させる場合, セマンティクスや連続性情報を含む画像の利点が失われ, 特に遠距離での準最適検出性能が低下する。
本稿では,voxelnextfusionについて述べる。voxelベースの手法用に設計されたマルチモーダル3dオブジェクト検出フレームワークであり,疎点雲と高密度画像とのギャップを効果的に橋渡しする。
特に,画像に点群を投影して画素レベルとパッチレベルの両方の機能を得るvoxelベースの画像パイプラインを提案する。
これらの特徴は、結合表現を得るために自己注意を用いて融合される。
さらに,パッチに含まれる背景特徴の問題点に対処するために,前景と背景特徴を効果的に区別し,背景特徴の影響を最小限に抑える特徴重要モジュールを提案する。
KITTIとnuScenesの3Dオブジェクト検出ベンチマークで大規模な実験を行った。
特に、我々のvoxelnextfusionは、kittiテストデータセットのvoxel r-cnnベースラインと比較して、ap@0.7で約3.20%改善しました。 LiDAR-camera fusion can enhance the performance of 3D object detection by utilizing complementary information between depth-aware LiDAR points and semantically rich images. Existing voxel-based methods face significant challenges when fusing sparse voxel features with dense image features in a one-to-one manner, resulting in the loss of the advantages of images, including semantic and continuity information, leading to sub-optimal detection performance, especially at long distances. In this paper, we present VoxelNextFusion, a multi-modal 3D object detection framework specifically designed for voxel-based methods, which effectively bridges the gap between sparse point clouds and dense images. In particular, we propose a voxel-based image pipeline that involves projecting point clouds onto images to obtain both pixel- and patch-level features. These features are then fused using a self-attention to obtain a combined representation. Moreover, to address the issue of background features present in patches, we propose a feature importance module that effectively distinguishes between foreground and background features, thus minimizing the impact of the background features. Extensive experiments were conducted on the widely used KITTI and nuScenes 3D object detection benchmarks. Notably, our VoxelNextFusion achieved around +3.20% in AP@0.7 improvement for car detection in hard level compared to the Voxel R-CNN baseline on the KITTI test dataset | 翻訳日:2024-01-08 15:59:17 公開日:2024-01-05 |
# ジェネレーティブAIがエッジインテリジェンスと出会うときのファインチューニングと推論 Towards Integrated Fine-tuning and Inference when Generative AI meets Edge Intelligence ( http://arxiv.org/abs/2401.02668v1 ) ライセンス: Link先を確認 | Ning Chen, Zhipeng Cheng, Xuwei Fan, Xiaoyu Xia, and Lianfen Huang | (参考訳) 高性能な生成人工知能(GAI)は、コンピュータインテリジェンスの最新の発展を表し、将来の6Gネットワークの恩恵は、エッジインテリジェンス(EI)を開発可能性に満ちている。
GAIとEIの必然的な出会いは、巨大なコンピューティングリソースと大規模未ラベルコーパスに基づくGAIの事前トレーニングが、EIの強力な基礎知識を提供する一方で、EIは断片化されたコンピューティングリソースを利用して、GAIのパーソナライズされた知識を集約する新たな機会を解き放つことができる。
しかし、自然の矛盾する特徴は、直接知識共有に重大な課題をもたらす。
そこで本稿では,双方向知識フローによりgaiの多元循環モデルによる微調整とタスク推論が可能となり,シームレスな融合と協調進化によってgaiとeiの相互性を実現する,データフリー知識リレーを活用した矛盾をバッファリングするクラウドエッジエンドインテリジェンスフレームワークgai-oriented synthetical network (gaisnet)を提案する。
実験の結果,提案手法の有効性が示された。
最後に,GAIとEIの相互作用における今後の課題と方向性について論じる。 The high-performance generative artificial intelligence (GAI) represents the latest evolution of computational intelligence, while the blessing of future 6G networks also makes edge intelligence (EI) full of development potential. The inevitable encounter between GAI and EI can unleash new opportunities, where GAI's pre-training based on massive computing resources and large-scale unlabeled corpora can provide strong foundational knowledge for EI, while EI can harness fragmented computing resources to aggregate personalized knowledge for GAI. However, the natural contradictory features pose significant challenges to direct knowledge sharing. To address this, in this paper, we propose the GAI-oriented synthetical network (GaisNet), a collaborative cloud-edge-end intelligence framework that buffers contradiction leveraging data-free knowledge relay, where the bidirectional knowledge flow enables GAI's virtuous-cycle model fine-tuning and task inference, achieving mutualism between GAI and EI with seamless fusion and collaborative evolution. Experimental results demonstrate the effectiveness of the proposed mechanisms. Finally, we discuss the future challenges and directions in the interplay between GAI and EI. | 翻訳日:2024-01-08 15:58:50 公開日:2024-01-05 |
# 深層学習によるゼロショットマイクロ気候予測 Zero-shot Microclimate Prediction with Deep Learning ( http://arxiv.org/abs/2401.02665v1 ) ライセンス: Link先を確認 | Iman Deznabi, Peeyush Kumar, Madalina Fiterau | (参考訳) 気象観測所のデータは気象予報の貴重な資源であるが、その信頼性は遠隔地に限られる。
問題を複雑にするため、ローカルな予測は、これまで監視されていなかった新しい場所にはアクセスできないセンサーデータに依存することが多い。
これらの課題に応えて,新しい,監視されていない場所での様々な気候測定を予測するためのゼロショット学習手法を提案する。
本手法は, 従来の気象予報手法を超越し, 他の地域から抽出した知識を活用し, 微気候変数の予測を行う。 Weather station data is a valuable resource for climate prediction, however, its reliability can be limited in remote locations. To compound the issue, making local predictions often relies on sensor data that may not be accessible for a new, previously unmonitored location. In response to these challenges, we propose a novel zero-shot learning approach designed to forecast various climate measurements at new and unmonitored locations. Our method surpasses conventional weather forecasting techniques in predicting microclimate variables by leveraging knowledge extracted from other geographic locations. | 翻訳日:2024-01-08 15:58:25 公開日:2024-01-05 |
# swarm intelligenceベースの技術を用いたオープンソースソフトウェア信頼性のモデリング Modelling Open-Source Software Reliability Incorporating Swarm Intelligence-Based Techniques ( http://arxiv.org/abs/2401.02664v1 ) ライセンス: Link先を確認 | Omar Shatnawi | (参考訳) ソフトウェア業界では、ソフトウェアエンジニアリング開発の2つのベストプラクティスが共存している。
前者は誰でも貢献できる共有コードを持ち、後者は所有者だけがアクセスできるプロプライエタリコードを持っている。
ソフトウェア信頼性は、新製品やアップデートがリリースされるとき、業界で不可欠です。
クローズドソースソフトウェア信頼性予測のためのメタヒューリスティック最適化アルゴリズムの適用により、重要かつ正確な結果が得られた。
現在、オープンソースソフトウェアはクラウドベースのシステムの展望を支配している。
したがって、品質指標として、オープンソースソフトウェア信頼性に関する結果を提供することは、オープンソースソフトウェア信頼性の成長モデリング問題を解決するのに大いに役立つだろう。
ソフトウェア信頼性モデルのパラメータを推定することにより、信頼性を予測する。
ソフトウェア信頼性モデルは本質的に非線形であるため、従来の手法では適切なパラメータの推定が困難で非効率である。
したがって、ソフトウェア信頼性モデルは高品質なパラメータ推定技術を必要とする。
これらの目的は、メタヒューリスティックスウォームインテリジェンス最適化アルゴリズムの潜在的な応用を探求し、非均質なpoissonプロセスに基づくオープンソースソフトウェア信頼性モデリングのパラメータ推定を最適化することである。
最適化アルゴリズムはfirefly、social spider、artificial bee colony、grey wolf、 particle swarm、moth flame、h whaleである。
最適化モデリング手法の適用性と性能評価は、2つの実際のオープンソースソフトウェア信頼性データセットを通して実証される。
結果は有望だ。 In the software industry, two software engineering development best practices coexist: open-source and closed-source software. The former has a shared code that anyone can contribute, whereas the latter has a proprietary code that only the owner can access. Software reliability is crucial in the industry when a new product or update is released. Applying meta-heuristic optimization algorithms for closed-source software reliability prediction has produced significant and accurate results. Now, open-source software dominates the landscape of cloud-based systems. Therefore, providing results on open-source software reliability - as a quality indicator - would greatly help solve the open-source software reliability growth-modelling problem. The reliability is predicted by estimating the parameters of the software reliability models. As software reliability models are inherently nonlinear, traditional approaches make estimating the appropriate parameters difficult and ineffective. Consequently, software reliability models necessitate a high-quality parameter estimation technique. These objectives dictate the exploration of potential applications of meta-heuristic swarm intelligence optimization algorithms for optimizing the parameter estimation of nonhomogeneous Poisson process-based open-source software reliability modelling. The optimization algorithms are firefly, social spider, artificial bee colony, grey wolf, particle swarm, moth flame, and whale. The applicability and performance evaluation of the optimization modelling approach is demonstrated through two real open-source software reliability datasets. The results are promising. | 翻訳日:2024-01-08 15:58:15 公開日:2024-01-05 |
# グラフニューラルネットワークを用いたリンク予測タスクに対するバックドア攻撃 A backdoor attack against link prediction tasks with graph neural networks ( http://arxiv.org/abs/2401.02663v1 ) ライセンス: Link先を確認 | Jiazhu Dai, Haoyu Sun | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを処理可能なディープラーニングモデルのクラスであり、様々な現実世界のアプリケーションで顕著なパフォーマンスを示している。
近年の研究では、GNNモデルはバックドア攻撃に弱いことが判明している。
入力データに特定のパターン(バックドアトリガ(サブグラフ、ノードなど)が現れると、GNNモデルに埋め込まれたバックドアがアクティベートされ、攻撃者が指定したターゲットクラスラベルに入力データを誤分類するが、入力にバックドアトリガがない場合には、GNNモデルに埋め込まれたバックドアがアクティベートされず、モデルが正常に動作する。
バックドア攻撃は非常にステルス性が高く、GNNモデルを深刻なセキュリティリスクに晒している。
現在、GNNに対するバックドア攻撃の研究は主にグラフ分類やノード分類などのタスクに焦点を当てており、リンク予測タスクに対するバックドア攻撃はほとんど研究されていない。
本稿では,GNNに基づくリンク予測タスクに対するバックドア攻撃を提案し,GNNモデルにそのような脆弱性があることを明らかにする。
この方法は、トレーニンググラフのトリガーとして1つのノードを使用し、選択されたノードペアは、トレーニングプロセスを通じて、バックドアをgnnモデルに埋め込む。
推論段階では、入力データ中の未リンクノード対の2つの終端ノードにトリガーノードを単にリンクすることで、gnnモデルのバックドアを活性化することができ、gnnモデルがターゲットノード対に対して不正確なリンク予測結果を生成することができる。 Graph Neural Networks (GNNs) are a class of deep learning models capable of processing graph-structured data, and they have demonstrated significant performance in a variety of real-world applications. Recent studies have found that GNN models are vulnerable to backdoor attacks. When specific patterns (called backdoor triggers, e.g., subgraphs, nodes, etc.) appear in the input data, the backdoor embedded in the GNN models is activated, which misclassifies the input data into the target class label specified by the attacker, whereas when there are no backdoor triggers in the input, the backdoor embedded in the GNN models is not activated, and the models work normally. Backdoor attacks are highly stealthy and expose GNN models to serious security risks. Currently, research on backdoor attacks against GNNs mainly focus on tasks such as graph classification and node classification, and backdoor attacks against link prediction tasks are rarely studied. In this paper, we propose a backdoor attack against the link prediction tasks based on GNNs and reveal the existence of such security vulnerability in GNN models, which make the backdoored GNN models to incorrectly predict unlinked two nodes as having a link relationship when a trigger appear. The method uses a single node as the trigger and poison selected node pairs in the training graph, and then the backdoor will be embedded in the GNN models through the training process. In the inference stage, the backdoor in the GNN models can be activated by simply linking the trigger node to the two end nodes of the unlinked node pairs in the input data, causing the GNN models to produce incorrect link prediction results for the target node pairs. | 翻訳日:2024-01-08 15:57:56 公開日:2024-01-05 |
# 輸血学習型予測デジタル双生児を用いた2型糖尿病の精密管理のためのニューラルネットワーク Nurse-in-the-Loop Artificial Intelligence for Precision Management of Type 2 Diabetes in a Clinical Trial Utilizing Transfer-Learned Predictive Digital Twin ( http://arxiv.org/abs/2401.02661v1 ) ライセンス: Link先を確認 | Syed Hasib Akhter Faruqui, Adel Alaeddini, Yan Du, Shiyu Li, Kumar Sharma, Jing Wang | (参考訳) 背景: 2型糖尿病(T2D)は、重篤な合併症のリスクと生活の質に負の影響を及ぼす慢性疾患である。
個別の特徴とライフスタイルが治療計画や患者の成果に与える影響を考えると、精密でパーソナライズドな管理戦略を開発することが不可欠である。
人工知能(AI)は、さまざまなデータソースのパターンと看護師の専門知識を組み合わせることで、最適なケアを実現するという大きな約束を提供する。
方法: T2D 患者 (n = 20 歳 = 57 +-10) の6カ月間の補助研究である。
介入群(AI, n=10)にランダムに割り振られ, 過去3カ月間, 日常的なフィードバック(非AI, n=10)を受けずに, 日常的なAIによる個別のフィードバックや制御群が得られた。
本研究は, 予測デジタル双対(PDT)を利用したオンラインナース・イン・ザ・ループ予測制御(ONLC)モデルを開発した。
PDTはトランスファーラーニングに基づくニューラルネットワークを用いて開発された。
PDTは、最初の3ヶ月から参加者の自己監視データ(体重、食物ログ、身体活動、グルコース)をトレーニングし、オンライン制御アルゴリズムは、今後3ヶ月間、患者の血糖値と体重レベルを維持するための影響のある行動変化を特定するために、粒子群最適化を適用した。
ONLCは介入グループに個別のフィードバックとテキストメッセージによるレコメンデーションを提供した。
PDTは性能を改善するために毎週再訓練された。
結果: トレーニングしたONLCモデルは, オンライン調整中に全患者の80%の予測精度を達成した。
介入グループの参加者は, 日常の歩数の改善傾向を示し, 総カロリー摂取量および総炭水化物摂取量を推奨した。 Background: Type 2 diabetes (T2D) is a prevalent chronic disease with a significant risk of serious health complications and negative impacts on the quality of life. Given the impact of individual characteristics and lifestyle on the treatment plan and patient outcomes, it is crucial to develop precise and personalized management strategies. Artificial intelligence (AI) provides great promise in combining patterns from various data sources with nurses' expertise to achieve optimal care. Methods: This is a 6-month ancillary study among T2D patients (n = 20, age = 57 +- 10). Participants were randomly assigned to an intervention (AI, n=10) group to receive daily AI-generated individualized feedback or a control group without receiving the daily feedback (non-AI, n=10) in the last three months. The study developed an online nurse-in-the-loop predictive control (ONLC) model that utilizes a predictive digital twin (PDT). The PDT was developed using a transfer-learning-based Artificial Neural Network. The PDT was trained on participants self-monitoring data (weight, food logs, physical activity, glucose) from the first three months, and the online control algorithm applied particle swarm optimization to identify impactful behavioral changes for maintaining the patient's glucose and weight levels for the next three months. The ONLC provided the intervention group with individualized feedback and recommendations via text messages. The PDT was re-trained weekly to improve its performance. Findings: The trained ONLC model achieved >=80% prediction accuracy across all patients while the model was tuned online. Participants in the intervention group exhibited a trend of improved daily steps and stable or improved total caloric and total carb intake as recommended. | 翻訳日:2024-01-08 15:57:25 公開日:2024-01-05 |
# フレームワークAPIのための例外対応ライフサイクルモデル構築 Exception-aware Lifecycle Model Construction for Framework APIs ( http://arxiv.org/abs/2401.02660v1 ) ライセンス: Link先を確認 | Jiwei Yan, Jinhao Huang, Hengqin Yang, Jun Yan | (参考訳) 複雑なソフトウェアシステムの実装は通常、低レベルのフレームワークやサードパーティのライブラリに依存します。
それらの進化の間、apiの追加と削除は予期しない互換性の問題を引き起こす可能性がある。
したがって、フレームワーク/ライブラリのAPIライフサイクルモデルを正確に分析し、構築することが非常に重要です。
既存の研究は、欠陥検出のためのAPI存在変化モデルを提案しているが、APIのセマンティックな変更の影響は考慮していない。
場合によっては,apiの削除や廃止は行わないが,例外スローコードの追加や削除,あるいは変更によってセマンティクスを変更することで,上位レベルのコードに潜在的な欠陥が生じる可能性がある。
したがって、APIの存在モデルに加えて、開発者は、フレームワーク/ライブラリプロジェクトのための例外対応のAPIライフサイクルモデルを構築する必要があるAPIの例外関連コード進化に関心を持つ必要がある。
自動例外認識APIライフサイクルモデル構築を実現するため,フレームワークAPIコードから例外要約情報を抽出する静的解析手法を採用し,複数ステップマッチング戦略を採用し,例外の変更プロセスを取得する。
そして、フレームワーク/ライブラリプロジェクトの例外対応APIライフサイクルモデルを生成する。
このアプローチでは、Javaバイトコード分析に基づいたAPIライフサイクル抽出ツールであるJavaExPが実装されている。
最先端のツールと比較して、JavaExPはより高いF1スコア(+60%)と効率(+7x)を達成しており、例外マッチングと変更結果の精度は98%である。
60バージョンにおける例外無意識のAPIライフサイクルモデリングと比較して、JavaExpは18%以上のAPI変更を識別できる。
分析中の75,433のAPIの中で、20%のAPIが、少なくともAPI導入後に例外スロー動作を変更した。 The implementation of complex software systems usually depends on low-level frameworks or third-party libraries. During their evolution, the APIs adding and removing behaviors may cause unexpected compatibility problems. So, precisely analyzing and constructing the framework/ library's API lifecycle model is of great importance. Existing works have proposed the API existence-changing model for defect detection, while not considering the influence of semantic changes in APIs. In some cases, developers will not remove or deprecate APIs but modify their semantics by adding, removing, or modifying their exception-thrown code, which may bring potential defects to upper-level code. Therefore, besides the API existence model, it is also necessary for developers to be concerned with the exception-related code evolution in APIs, which requires the construction of exception-aware API lifecycle models for framework/library projects. To achieve automatic exception-aware API lifecycle model construction, this paper adopts a static analysis technique to extract exception summary information in the framework API code and adopts a multi-step matching strategy to obtain the changing process of exceptions. Then, it generates exception-aware API lifecycle models for the given framework/library project. With this approach, the API lifecycle extraction tool, JavaExP, is implemented, which is based on Java bytecode analysis. Compared to the state-of-the-art tool, JavaExP achieves both a higher F1 score (+60%) and efficiency (+7x), whose precision of exception matching and changing results is 98%. Compared to the exception-unaware API lifecycle modeling on 60 versions, JavaExp can identify 18% times more API changes. Among the 75,433 APIs under analysis, 20% of APIs have changed their exception-throwing behavior at least once after API introduction, which may bring many hidden compatibility issues. | 翻訳日:2024-01-08 15:56:53 公開日:2024-01-05 |
# GTA:オブジェクト中心表現からの空間的注意のガイド伝達 GTA: Guided Transfer of Spatial Attention from Object-Centric Representations ( http://arxiv.org/abs/2401.02656v1 ) ライセンス: Link先を確認 | SeokHyun Seo, Jinwoo Hong, JungWoo Chae, Kyungyul Kim, Sangheum Hwang | (参考訳) 転写学習においてよく訓練された表現を用いることで、スクラッチからのトレーニングに比べてパフォーマンスと収束性が向上する。
しかし、たとえそのような優れた表現が転送されたとしても、モデルは限られたトレーニングデータセットに簡単に適合し、転送された表現の貴重な特性を失うことができる。
この現象は、誘導バイアスが低いため、ViTではより深刻である。
vitにおけるアテンションマップを用いた実験解析により,小さなデータセットでトレーニングすると,リッチ表現が劣化することを確認した。
そこで本研究では,空間的注意のガイド伝達 (GTA) と呼ばれる,新規かつ簡易な ViT 正規化手法を提案する。
提案手法は,ソースモデルとターゲットモデル間の自己アテンションマップを定式化する。
対象モデルは、この明示的な正規化を通じて、オブジェクトのローカライゼーション特性に関する知識を完全に活用することができる。
実験結果から,提案したGTAは,トレーニングデータが少ない場合の5つのベンチマークデータセットの精度を常に向上することがわかった。 Utilizing well-trained representations in transfer learning often results in superior performance and faster convergence compared to training from scratch. However, even if such good representations are transferred, a model can easily overfit the limited training dataset and lose the valuable properties of the transferred representations. This phenomenon is more severe in ViT due to its low inductive bias. Through experimental analysis using attention maps in ViT, we observe that the rich representations deteriorate when trained on a small dataset. Motivated by this finding, we propose a novel and simple regularization method for ViT called Guided Transfer of spatial Attention (GTA). Our proposed method regularizes the self-attention maps between the source and target models. A target model can fully exploit the knowledge related to object localization properties through this explicit regularization. Our experimental results show that the proposed GTA consistently improves the accuracy across five benchmark datasets especially when the number of training data is small. | 翻訳日:2024-01-08 15:56:26 公開日:2024-01-05 |
# 訓練時間攻撃の適応的割引 Adaptive Discounting of Training Time Attacks ( http://arxiv.org/abs/2401.02652v1 ) ライセンス: Link先を確認 | Ridhima Bector, Abhay Aradhya, Chai Quek, Zinovi Rabinovich | (参考訳) 強化学習(RL)ソリューションに対する最も汚い攻撃は、学習行動の抜け穴やバックドアを生成する訓練時攻撃(TTA)である。
単純なディスラプションに限らず、構成的TTA(C-TTA)が利用可能となり、攻撃者はトレーニングRLエージェント(victim)に特定のターゲット動作を強制する。
しかし、最先端のC-TTAでさえ、C-TTAが悪用している環境力学の特定の特徴がなければ、被害者によって自然に採用される可能性のあるターゲットの動作に焦点を当てている。
本研究では,C-TTAが環境動態だけでなく,被害者の目的に対する非最適性から,対象行動が適応不能である場合でも可能であることを示す。
この文脈で効率的な攻撃を見つけるために、我々は、このより強力なC-TTAを学習するガンマDDPGと呼ばれるDDPGアルゴリズムの特化フレーバーを開発する。
ガンマDDPGは、被害者の現在の行動に基づいて攻撃ポリシー計画の水平線を動的に変更する。
これにより、攻撃タイムライン全体の労力分布を改善し、攻撃者が被害者に対して持つ不確実性の影響を低減する。
提案手法の特徴を実証し, 先行研究と結果をよりよく関連付けるため, 実験のために最先端C-TTAから3次元グリッドドメインを借りる。
コードは「bit.ly/github-rb-gDDPG」で入手できる。 Among the most insidious attacks on Reinforcement Learning (RL) solutions are training-time attacks (TTAs) that create loopholes and backdoors in the learned behaviour. Not limited to a simple disruption, constructive TTAs (C-TTAs) are now available, where the attacker forces a specific, target behaviour upon a training RL agent (victim). However, even state-of-the-art C-TTAs focus on target behaviours that could be naturally adopted by the victim if not for a particular feature of the environment dynamics, which C-TTAs exploit. In this work, we show that a C-TTA is possible even when the target behaviour is un-adoptable due to both environment dynamics as well as non-optimality with respect to the victim objective(s). To find efficient attacks in this context, we develop a specialised flavour of the DDPG algorithm, which we term gammaDDPG, that learns this stronger version of C-TTA. gammaDDPG dynamically alters the attack policy planning horizon based on the victim's current behaviour. This improves effort distribution throughout the attack timeline and reduces the effect of uncertainty the attacker has about the victim. To demonstrate the features of our method and better relate the results to prior research, we borrow a 3D grid domain from a state-of-the-art C-TTA for our experiments. Code is available at "bit.ly/github-rb-gDDPG". | 翻訳日:2024-01-08 15:56:11 公開日:2024-01-05 |
# 病理画像解析のためのベンチマークパスクリップ Benchmarking PathCLIP for Pathology Image Analysis ( http://arxiv.org/abs/2401.02651v1 ) ライセンス: Link先を確認 | Sunyi Zheng, Xiaonan Cui, Yuxuan Sun, Jingxiong Li, Honglin Li, Yunlong Zhang, Pingyi Chen, Xueping Jing, Zhaoxiang Ye, Lin Yang | (参考訳) 画像の正確な分類と検索は臨床診断と治療決定において重要である。
最近のコントラスト言語画像事前学習(CLIP)モデルは、自然画像の理解に顕著な能力を示している。
CLIPからインスピレーションを得たPathCLIPは、20万以上の画像とテキストペアをトレーニングに利用して、病理画像解析用に特別に設計されている。
PathCLIPのパフォーマンスは印象的だが、その頑丈さは幅広い画像の破損の下では未だに不明である。
そこで我々は,骨肉腫とWSSS4LUADのデータセットから,多彩な画像に対するPathCLIPの性能評価を行った。
実験では, 明るさ, コントラスト, ガウスのぼかし, 解像度, 彩度, 色調, マークアップの7種類の汚職を4つの重度レベルで導入した。
実験により、PathCLIPは画像の破損に対して比較的堅牢であり、ゼロショット分類ではOpenAI-CLIPとPLIPを上回ることがわかった。
7つの汚職のうち、ぼかしと解像度がPathCLIPのサーバパフォーマンスを劣化させる可能性がある。
これは、臨床検査を行う前に画像の品質を確保することが重要であることを示している。
また,画像画像検索作業におけるPathCLIPのロバスト性を評価し,骨肉腫に対するPLIPよりもPathCLIPの有効性は低いが,WSSS4LUADは多彩な腐敗下では良好であることを明らかにした。
PathCLIPは、画像に対して印象的なゼロショット分類と検索性能を示すが、それを使用するには適切な注意が必要である。
この研究がPathCLIPの質的な印象を与え、他のCLIPモデルとの違いを理解するのに役立ちたい。 Accurate image classification and retrieval are of importance for clinical diagnosis and treatment decision-making. The recent contrastive language-image pretraining (CLIP) model has shown remarkable proficiency in understanding natural images. Drawing inspiration from CLIP, PathCLIP is specifically designed for pathology image analysis, utilizing over 200,000 image and text pairs in training. While the performance the PathCLIP is impressive, its robustness under a wide range of image corruptions remains unknown. Therefore, we conduct an extensive evaluation to analyze the performance of PathCLIP on various corrupted images from the datasets of Osteosarcoma and WSSS4LUAD. In our experiments, we introduce seven corruption types including brightness, contrast, Gaussian blur, resolution, saturation, hue, and markup at four severity levels. Through experiments, we find that PathCLIP is relatively robustness to image corruptions and surpasses OpenAI-CLIP and PLIP in zero-shot classification. Among the seven corruptions, blur and resolution can cause server performance degradation of the PathCLIP. This indicates that ensuring the quality of images is crucial before conducting a clinical test. Additionally, we assess the robustness of PathCLIP in the task of image-image retrieval, revealing that PathCLIP performs less effectively than PLIP on Osteosarcoma but performs better on WSSS4LUAD under diverse corruptions. Overall, PathCLIP presents impressive zero-shot classification and retrieval performance for pathology images, but appropriate care needs to be taken when using it. We hope this study provides a qualitative impression of PathCLIP and helps understand its differences from other CLIP models. | 翻訳日:2024-01-08 15:55:30 公開日:2024-01-05 |
# MCMCを用いた高次元ベイズ最適化のサンプル効率向上 Improving sample efficiency of high dimensional Bayesian optimization with MCMC ( http://arxiv.org/abs/2401.02650v1 ) ライセンス: Link先を確認 | Zeji Yi, Yunyue Wei, Chu Xin Cheng, Kaibo He, and Yanan Sui | (参考訳) 逐次最適化法は、しばしば高次元空間における次元の呪いに直面する。
ガウス過程の枠組みの下での現在のアプローチは、ガウス過程の後部追跡の計算複雑性に悩まされ、探索や下層の低次元構造を仮定するために最適化問題を小さな領域に分割する必要がある。
候補点をより有望な位置へ移動させるというアイデアにより、マルコフ・チェイン・モンテカルロに基づく新しい手法を提案し、近似された後部から効率的にサンプリングする。
ガウス過程のトンプソンサンプリング設定における収束の理論的保証を提供する。
また,高次元逐次最適化と強化学習ベンチマークにおいて,metropolis-hastingsとlangevin dynamicsバージョンが最先端手法を上回ることを示した。 Sequential optimization methods are often confronted with the curse of dimensionality in high-dimensional spaces. Current approaches under the Gaussian process framework are still burdened by the computational complexity of tracking Gaussian process posteriors and need to partition the optimization problem into small regions to ensure exploration or assume an underlying low-dimensional structure. With the idea of transiting the candidate points towards more promising positions, we propose a new method based on Markov Chain Monte Carlo to efficiently sample from an approximated posterior. We provide theoretical guarantees of its convergence in the Gaussian process Thompson sampling setting. We also show experimentally that both the Metropolis-Hastings and the Langevin Dynamics version of our algorithm outperform state-of-the-art methods in high-dimensional sequential optimization and reinforcement learning benchmarks. | 翻訳日:2024-01-08 15:54:42 公開日:2024-01-05 |
# Pen Tip Tail Trajectory Awarenessによる3D-Airシグナチャの強化:新しい時空間CNNによるデータセットと特徴 Enhancing 3D-Air Signature by Pen Tip Tail Trajectory Awareness: Dataset and Featuring by Novel Spatio-temporal CNN ( http://arxiv.org/abs/2401.02649v1 ) ライセンス: Link先を確認 | Saurabh Atreya, Maheswar Bora, Aritra Mukherjee, Abhijit Das | (参考訳) 本研究は,ペン先端とテール3次元軌道を空気署名に用いる新しい手法を提案する。
トラジェクトリーを取得するために,新しいペンツールを開発し,ステレオカメラを用いた。
SliT-CNNは2次元空間時空間畳み込みニューラルネットワーク(CNN)で,空気シグネチャの高機能化を実現する。
さらに、45ドルの署名者から空気署名データセットも収集しました。
熟練したユーザ毎の偽造署名も収集される。
既存の手法を用いて提案したデータセットの詳細なベンチマークを行い,提案手法の有効性を示す。 This work proposes a novel process of using pen tip and tail 3D trajectory for air signature. To acquire the trajectories we developed a new pen tool and a stereo camera was used. We proposed SliT-CNN, a novel 2D spatial-temporal convolutional neural network (CNN) for better featuring of the air signature. In addition, we also collected an air signature dataset from $45$ signers. Skilled forgery signatures per user are also collected. A detailed benchmarking of the proposed dataset using existing techniques and proposed CNN on existing and proposed dataset exhibit the effectiveness of our methodology. | 翻訳日:2024-01-08 15:54:22 公開日:2024-01-05 |
# モノクロカメラを用いた生体計測の最近の進歩 Recent Advancement in 3D Biometrics using Monocular Camera ( http://arxiv.org/abs/2401.02646v1 ) ライセンス: Link先を確認 | Aritra Mukherjee, Abhijit Das | (参考訳) 近年の文献では、ロバストな認証法に単眼視を用いた3次元バイオメトリックスに大きな関心が寄せられている。
そこで本研究では,単眼視覚を用いた3次元生体計測の分野における最近の展開について考察する。
3次元単眼バイオメトリックスと古典バイオメトリックスの類似性と類似性を示し,強みと課題をリストアップした。
さらに, モノラルな視覚を持つ3次元バイオメトリックスにおける最近の技術と, 業界で採用されている応用システムについて概説する。
最後に,この領域におけるオープンな研究課題について論じる。 Recent literature has witnessed significant interest towards 3D biometrics employing monocular vision for robust authentication methods. Motivated by this, in this work we seek to provide insight on recent development in the area of 3D biometrics employing monocular vision. We present the similarity and dissimilarity of 3D monocular biometrics and classical biometrics, listing the strengths and challenges. Further, we provide an overview of recent techniques in 3D biometrics with monocular vision, as well as application systems adopted by the industry. Finally, we discuss open research problems in this area of research | 翻訳日:2024-01-08 15:53:26 公開日:2024-01-05 |
# 制限量子系における励起状態の情報エントロピー Information entropy in excited states in confined quantum systems ( http://arxiv.org/abs/2401.02645v1 ) ライセンス: Link先を確認 | Sangita Majumdar, Neetik Mukherjee, Amlan K. Roy | (参考訳) この貢献は、いくつかの代表モデルにおける情報理論解析の簡単な説明と、実際の量子力学システムを構成する。
様々な量子系でそのような方法を研究することには圧倒的な関心が寄せられ、近年では膨大な量の論文が出版されている。
しかし、そのような作品はいわゆる \emph{free} システムでは多数存在するが、制約のあるシステムでは真に欠落している。
このことを念頭に置いて、この章は、我々の研究室で目撃された最近のエキサイティングな進歩のいくつかに焦点を当てる: cite{sen06,roy14mpla,roy14mpla_manning,roy15ijqc,roy16ijqc,mukherjee15,mukherjee16,majumdar17,mukherjee18 a,mukherjee18b,mukherjee18c,mukherjee18d,majumdar20,mukherjee21,majumdar21a,majumdar21b} など。
(i)二重井戸(DW)ポテンシャル(対称および非対称)
(ii) \emph{free} と \emph{confined hydrogen atom} (CHA) を球面不透明空洞に封入する。
(iii)同様の環境下での多電子原子。 The present contribution constitutes a brief account of information theoretical analysis in several representative model as well as real quantum mechanical systems. There has been an overwhelming interest to study such measures in various quantum systems, as evidenced by a vast amount of publications in the literature that has taken place in recent years. However, while such works are numerous in so-called \emph{free} systems, there is a genuine lack of these in their constrained counterparts. With this in mind, this chapter will focus on some of the recent exciting progresses that has been witnessed in our laboratory \cite{sen06,roy14mpla,roy14mpla_manning,roy15ijqc, roy16ijqc, mukherjee15,mukherjee16,majumdar17,mukherjee18a,mukherjee18b,mukherjee18c,mukherjee18d,majumdar20,mu kherjee21,majumdar21a, majumdar21b}, and elsewhere, with special emphasis on following prototypical systems, namely, (i) double well (DW) potential (symmetric and asymmetric) (ii) \emph{free}, as well as a \emph{confined hydrogen atom} (CHA) enclosed in a spherical impenetrable cavity (iii) a many-electron atom under similar enclosed environment. | 翻訳日:2024-01-08 15:53:12 公開日:2024-01-05 |
# 3次元分子生成のための幾何差分分解拡散モデル Geometric-Facilitated Denoising Diffusion Model for 3D Molecule Generation ( http://arxiv.org/abs/2401.02683v1 ) ライセンス: Link先を確認 | Can Xu, Haosen Wang, Weigang Wang, Pengfei Zheng, Hongyang Chen | (参考訳) 拡散モデルは、複数の研究領域において大きな可能性を示している。
既存の拡散に基づくデノボ3次元分子生成法は2つの大きな課題に直面している。
分子内のほとんどの重原子は単一の結合を介して複数の原子と接続できるため、分子のジオメトリをモデル化するための対距離だけでは不十分である。
したがって、まず、複雑な多体間関係を捉えることができ、高品質な特徴を学習できるデノージングカーネルとして効果的なニューラルネットワークを提案する。
グラフの離散性のため、分子の主流拡散に基づく手法は、事前に定義された規則に強く依存し、間接的にエッジを生成する。
第2の課題は、分子生成を拡散に調節し、結合の存在を正確に予測することである。
本研究では,拡散過程における分子配座の反復的更新法は分子動力学と一致し,新しい分子生成法であるGeometric-Facilitated Molecular Diffusion(GFMDiff)を導入する。
第1の課題として,グローバル空間関係を完全排除し,特徴量やジオメトリの正確な予測に寄与する高品質表現を学習する,デュアルトラックトランスフォーマネットワーク(dtn)を提案する。
第2の課題として,潜在空間に直接エッジを埋め込むのではなく,トレーニング期間中に結合形成を阻害する幾何ファシリテート損失(gfloss)を設計した。
現在のベンチマークに関する総合的な実験はGFMDiffの優位性を示している。 Denoising diffusion models have shown great potential in multiple research areas. Existing diffusion-based generative methods on de novo 3D molecule generation face two major challenges. Since majority heavy atoms in molecules allow connections to multiple atoms through single bonds, solely using pair-wise distance to model molecule geometries is insufficient. Therefore, the first one involves proposing an effective neural network as the denoising kernel that is capable to capture complex multi-body interatomic relationships and learn high-quality features. Due to the discrete nature of graphs, mainstream diffusion-based methods for molecules heavily rely on predefined rules and generate edges in an indirect manner. The second challenge involves accommodating molecule generation to diffusion and accurately predicting the existence of bonds. In our research, we view the iterative way of updating molecule conformations in diffusion process is consistent with molecular dynamics and introduce a novel molecule generation method named Geometric-Facilitated Molecular Diffusion (GFMDiff). For the first challenge, we introduce a Dual-Track Transformer Network (DTN) to fully excevate global spatial relationships and learn high quality representations which contribute to accurate predictions of features and geometries. As for the second challenge, we design Geometric-Facilitated Loss (GFLoss) which intervenes the formation of bonds during the training period, instead of directly embedding edges into the latent space. Comprehensive experiments on current benchmarks demonstrate the superiority of GFMDiff. | 翻訳日:2024-01-08 15:47:11 公開日:2024-01-05 |
# Homophily-Related:マルチビューグラフクラスタリングのための適応型ハイブリッドグラフフィルタ Homophily-Related: Adaptive Hybrid Graph Filter for Multi-View Graph Clustering ( http://arxiv.org/abs/2401.02682v1 ) ライセンス: Link先を確認 | Zichen Wen, Yawen Ling, Yazhou Ren, Tianyi Wu, Jianpeng Chen, Xiaorong Pu, Zhifeng Hao, Lifang He | (参考訳) 近年,グラフデータへの注目が高まり,マルチビューグラフクラスタリングが研究分野として注目されている。
既存の手法のほとんどはホモフィルグラフにのみ適用できるが、より広範な実世界のグラフデータは、連結ノードは同じクラスに属する傾向にあるホモフィルの仮定をほとんど満たさない。
いくつかの研究は、不均一グラフにおける性能の低下は、本質的に低パスフィルタである従来のグラフニューラルネットワーク(gnn)が、グラフの低周波情報以外の情報を破棄していることに起因すると指摘している。
それでも、特定のグラフ、特に異質なグラフでは、高周波情報を無視し、低周波情報のみに注目することはノード表現の学習を妨げる。
この制限を破るために、我々のモチベーションは、低周波信号と高周波信号の両方を十分に活用して識別可能なノード埋め込みを学習することを目的として、与えられたグラフのホモフィリー次数と密接に関連するグラフフィルタリングを行うことである。
本研究では,マルチビューグラフクラスタリング(AHGFC)のための適応ハイブリッドグラフフィルタを提案する。
具体的には、まず、グラフ上の低周波信号と高周波信号をより区別し易い固有ノード特徴と隣接関係を用いて、グラフジョイントプロセスとグラフジョイントアグリゲーション行列を設計する。
そこで我々は,グラフ結合集約行列に基づいてノード埋め込みを学習する適応型ハイブリッドグラフフィルタをホモフィリー次数に関連づけて設計する。
その後、各ビューのノード埋め込みは重み付けされ、下流タスクのためのコンセンサス埋め込みに融合される。
実験の結果,ホモフィラスグラフとヘテロフィラスグラフを含む6つのデータセットにおいて,提案モデルの有効性が示された。 Recently there is a growing focus on graph data, and multi-view graph clustering has become a popular area of research interest. Most of the existing methods are only applicable to homophilous graphs, yet the extensive real-world graph data can hardly fulfill the homophily assumption, where the connected nodes tend to belong to the same class. Several studies have pointed out that the poor performance on heterophilous graphs is actually due to the fact that conventional graph neural networks (GNNs), which are essentially low-pass filters, discard information other than the low-frequency information on the graph. Nevertheless, on certain graphs, particularly heterophilous ones, neglecting high-frequency information and focusing solely on low-frequency information impedes the learning of node representations. To break this limitation, our motivation is to perform graph filtering that is closely related to the homophily degree of the given graph, with the aim of fully leveraging both low-frequency and high-frequency signals to learn distinguishable node embedding. In this work, we propose Adaptive Hybrid Graph Filter for Multi-View Graph Clustering (AHGFC). Specifically, a graph joint process and graph joint aggregation matrix are first designed by using the intrinsic node features and adjacency relationship, which makes the low and high-frequency signals on the graph more distinguishable. Then we design an adaptive hybrid graph filter that is related to the homophily degree, which learns the node embedding based on the graph joint aggregation matrix. After that, the node embedding of each view is weighted and fused into a consensus embedding for the downstream task. Experimental results show that our proposed model performs well on six datasets containing homophilous and heterophilous graphs. | 翻訳日:2024-01-08 15:46:46 公開日:2024-01-05 |
# 層レベル損失を利用した安定拡散xlのプログレッシブ知識蒸留 Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss ( http://arxiv.org/abs/2401.02677v1 ) ライセンス: Link先を確認 | Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul and Patrick Von Platen | (参考訳) SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。
SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。
本研究では,segmind stable diffusion (ssd-1b) と segmind-vega (ssd-1b) の2つのスケールダウン変種を導入し,それぞれ1.3b パラメータ unets と 0.74b パラメータを持つ。
これらのモデルの重みはhttps://hf.co/segmind.com/でリリースします。
本手法では,sdxlのu-net構造から残差ネットワークとトランスフォーマーブロックを除去し,パラメータとレイテンシを大幅に削減する。
我々のコンパクトモデルは,移動知識を活かし,より大きなマルチビリオンパラメータSDXLと競合する結果を得ることにより,元のSDXLを効果的にエミュレートする。
本研究は,SDXLの高品質な生成能力を保ちながら,モデルサイズの削減にともなう知識蒸留の有効性を実証し,資源制約環境への展開を容易にすることを目的とする。 Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments. | 翻訳日:2024-01-08 15:46:15 公開日:2024-01-05 |
# LMaaS: 通信サービスとしての大規模モデルの価格戦略を探る LMaaS: Exploring Pricing Strategy of Large Model as a Service for Communication ( http://arxiv.org/abs/2401.02675v1 ) ライセンス: Link先を確認 | Panlong Wu, Qi Liu, Yanjie Dong, Fangxin Wang | (参考訳) 次世代のコミュニケーションはインテリジェントなコミュニケーションであり、従来の象徴的コミュニケーションを置き換えることが可能であり、ソースとチャネルの両方を考慮した高度に凝縮された意味情報を抽出し、高効率で伝達する。
GPT4や強化学習技術といった最近の人気の高い大規模モデルは、インテリジェントなコミュニケーションの基礎を築き、近い将来その実践的な展開を促す。
このようなマルチモーダルな大規模言語モデルの「一度にトレーニングし、広く活用する」という特性を考えると、従量制のサービスモードは、この文脈では、LMaaS(Large Model as a Service)と呼ばれるのに適していると論じる。
しかし、トレーディングと価格問題は、異質で動的な顧客環境と非常に複雑であり、価格最適化の問題は、オンハンドソリューションを求める上で困難である。
本稿では,このギャップを埋め,lmaas市場取引を2つのステップでスタックルバーグゲームとして定式化することを目的とする。
最初のステップでは、販売者の価格決定を最適化し、顧客の将来的なレンタル決定を推論することで、大規模モデルの価格を反復的に最適化する反復モデル価格決定(IMP)アルゴリズムを提案する。
第2のステップでは、厳密な理論的証明で最適であることが保証されるロバストな選択とレンタル(RSR)アルゴリズムを設計することで、顧客の選択決定を最適化する。
広範な実験により,アルゴリズムの有効性と頑健性を確認した。 The next generation of communication is envisioned to be intelligent communication, that can replace traditional symbolic communication, where highly condensed semantic information considering both source and channel will be extracted and transmitted with high efficiency. The recent popular large models such as GPT4 and the boosting learning techniques lay a solid foundation for the intelligent communication, and prompt the practical deployment of it in the near future. Given the characteristics of "training once and widely use" of those multimodal large language models, we argue that a pay-as-you-go service mode will be suitable in this context, referred to as Large Model as a Service (LMaaS). However, the trading and pricing problem is quite complex with heterogeneous and dynamic customer environments, making the pricing optimization problem challenging in seeking on-hand solutions. In this paper, we aim to fill this gap and formulate the LMaaS market trading as a Stackelberg game with two steps. In the first step, we optimize the seller's pricing decision and propose an Iterative Model Pricing (IMP) algorithm that optimizes the prices of large models iteratively by reasoning customers' future rental decisions, which is able to achieve a near-optimal pricing solution. In the second step, we optimize customers' selection decisions by designing a robust selecting and renting (RSR) algorithm, which is guaranteed to be optimal with rigorous theoretical proof. Extensive experiments confirm the effectiveness and robustness of our algorithms. | 翻訳日:2024-01-08 15:45:43 公開日:2024-01-05 |
# 多チャンネル遠距離音声認識システム:ニューラルビームフォーミングと注目に基づくエンドツーエンドモデルを組み合わせる A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model ( http://arxiv.org/abs/2401.02673v1 ) ライセンス: Link先を確認 | Dongdi Zhao, Jianbo Ma, Lu Lu, Jinke Li, Xuan Ji, Lei Zhu, Fuming Fang, Ming Liu, Feijun Jiang | (参考訳) 遠方界音声認識は、従来信号処理ビームフォーミングを雑音や干渉問題に用いてきた課題である。
しかし、環境の前提に大きく依存しているため、パフォーマンスは通常制限されている。
本稿では,ニューラルビームフォーミングとトランスフォーマーに基づくリステン,スペル,アットエンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
このようなフレームワークは、関心の最終目的を最適化するために共同で訓練される。
具体的には、fCLP(Facted Complex linear projection)が神経ビーム形成に採用されている。
ルック方向を組み合わせるためのいくつかのプール戦略を、最適アプローチを見つけるために比較する。
さらに、ソース方向の情報もビームフォーミングに統合され、特にマルチモダリティシナリオで利用可能な、ソース方向の先行としての有用性を探求する。
マイクロホンアレイの間隔分散に対するロバスト性を評価するため,マイクロホンアレイ形状の異なる実験を行った。
大規模社内データベースを用いて,提案手法の有効性評価を行い,強力なベースラインと比較した場合,提案手法は19.26\%向上した。 Far-field speech recognition is a challenging task that conventionally uses signal processing beamforming to attack noise and interference problem. But the performance has been found usually limited due to heavy reliance on environmental assumption. In this paper, we propose a unified multichannel far-field speech recognition system that combines the neural beamforming and transformer-based Listen, Spell, Attend (LAS) speech recognition system, which extends the end-to-end speech recognition system further to include speech enhancement. Such framework is then jointly trained to optimize the final objective of interest. Specifically, factored complex linear projection (fCLP) has been adopted to form the neural beamforming. Several pooling strategies to combine look directions are then compared in order to find the optimal approach. Moreover, information of the source direction is also integrated in the beamforming to explore the usefulness of source direction as a prior, which is usually available especially in multi-modality scenario. Experiments on different microphone array geometry are conducted to evaluate the robustness against spacing variance of microphone array. Large in-house databases are used to evaluate the effectiveness of the proposed framework and the proposed method achieve 19.26\% improvement when compared with a strong baseline. | 翻訳日:2024-01-08 15:45:14 公開日:2024-01-05 |
# 特徴空間の微調整による移動性の向上 Enhancing targeted transferability via feature space fine-tuning ( http://arxiv.org/abs/2401.02727v1 ) ライセンス: Link先を確認 | Hui Zeng, Biwei Chen, and Anjie Peng | (参考訳) aes(adversarial examples)は、プライバシ保護と堅牢なニューラルネットワークを刺激する可能性から、広く研究されている。
しかし、ターゲットのAEを未知のモデル間で転送することは依然として困難である。
本稿では,既存の単純な反復攻撃によるAEの過度なジレンマを軽減するため,特徴空間における微調整を提案する。
具体的には、ベースラインアタックによって生成されたAEから始め、ターゲットクラスにコントリビュートする機能を奨励し、ソースモデルの中間層で元のクラスにコントリビュートする機能を回避します。
大規模な実験では、微調整を数回行するだけで、標的の移動可能性に関して非自明かつ普遍的に既存の攻撃を加速させることができる。
また,単純な反復攻撃は,ターゲット固有の分類器やジェネレータを訓練し,追加データを付加することで,リソース集約型メソッドと同等あるいはそれ以上の転送性が得られることを検証した。
コードはgithub.com/zengh5/ta_feature_ftで入手できる。 Adversarial examples (AEs) have been extensively studied due to their potential for privacy protection and inspiring robust neural networks. However, making a targeted AE transferable across unknown models remains challenging. In this paper, to alleviate the overfitting dilemma common in an AE crafted by existing simple iterative attacks, we propose fine-tuning it in the feature space. Specifically, starting with an AE generated by a baseline attack, we encourage the features that contribute to the target class and discourage the features that contribute to the original class in a middle layer of the source model. Extensive experiments demonstrate that only a few iterations of fine-tuning can boost existing attacks in terms of targeted transferability nontrivially and universally. Our results also verify that the simple iterative attacks can yield comparable or even better transferability than the resource-intensive methods, which rely on training target-specific classifiers or generators with additional data. The code is available at: github.com/zengh5/TA_feature_FT. | 翻訳日:2024-01-08 15:43:35 公開日:2024-01-05 |
# TripleSurv: 生存分析のためのトリプルト時間適応コーディネート損失 TripleSurv: Triplet Time-adaptive Coordinate Loss for Survival Analysis ( http://arxiv.org/abs/2401.02708v1 ) ライセンス: Link先を確認 | Liwen Zhang, Lianzhen Zhong, Fan Yang, Di Dong, Hui Hui, Jie Tian | (参考訳) 生存分析における中核的な課題は、興味のある事象が特定の事象の死亡、失敗、または発生である可能性のある検閲された時間対イベントデータの分布をモデル化することである。
これまでの研究では、生存分析のためにランク付けと最大推定(MLE)損失関数が広く用いられていることが示されている。
しかし、ランキングの損失は生存時間のランキングのみに焦点をあて、正確な生存時間の値に対するサンプルの潜在的な効果を考慮しない。
さらに、MLEは非有界で容易に外れ値(例えば、検閲データ)を被り、モデリングの性能が低下する可能性がある。
学習過程の複雑さを処理し、貴重な生存時間値を活用するために、サンプルペア間の生存時間の差をランキングに導入して適応調整を行い、ペアの相対的リスクを定量的にランク付けし、最終的に予測精度を向上させる時間適応型座標損失関数triplesurvを提案する。
最も重要なことに、triplesurvはペアの順序付けによってサンプル間の相対的なリスクを定量化し、その時間間隔をサンプル分布よりもモデルの頑健さを校正するためのトレードオフと考える。
我々のTripleSurvは3つの実世界の生存データセットと公開合成データセットで評価されている。
その結果,本手法は最先端手法よりも優れており,異なる検閲率で様々な洗練されたデータ分布をモデル化する上で,優れたモデル性能とロバスト性を示す。
私たちのコードは受け入れ次第利用可能です。 A core challenge in survival analysis is to model the distribution of censored time-to-event data, where the event of interest may be a death, failure, or occurrence of a specific event. Previous studies have showed that ranking and maximum likelihood estimation (MLE)loss functions are widely-used for survival analysis. However, ranking loss only focus on the ranking of survival time and does not consider potential effect of samples for exact survival time values. Furthermore, the MLE is unbounded and easily subject to outliers (e.g., censored data), which may cause poor performance of modeling. To handle the complexities of learning process and exploit valuable survival time values, we propose a time-adaptive coordinate loss function, TripleSurv, to achieve adaptive adjustments by introducing the differences in the survival time between sample pairs into the ranking, which can encourage the model to quantitatively rank relative risk of pairs, ultimately enhancing the accuracy of predictions. Most importantly, the TripleSurv is proficient in quantifying the relative risk between samples by ranking ordering of pairs, and consider the time interval as a trade-off to calibrate the robustness of model over sample distribution. Our TripleSurv is evaluated on three real-world survival datasets and a public synthetic dataset. The results show that our method outperforms the state-of-the-art methods and exhibits good model performance and robustness on modeling various sophisticated data distributions with different censor rates. Our code will be available upon acceptance. | 翻訳日:2024-01-08 15:43:20 公開日:2024-01-05 |
# 対称性を保護したBICの向こう側:一次元導波路における非対称クロスバー接合の伝達 Beyond symmetry-protected BICs: transmission through asymmetric crossbar junctions in one-dimensional waveguides ( http://arxiv.org/abs/2401.02707v1 ) ライセンス: Link先を確認 | Sof\'ia Pinto, Rafael A. Molina, Pedro A. Orellana | (参考訳) 過去数十年間、連続体における境界状態の研究、その形成、特性は、特に光学やフォトニクスにおいて多くの注目を集めてきた。
これらの研究のほとんどが対称系の研究に基づいていることは特に顕著である。
本稿では,1次元導波路で形成されるクロスバー接合からなる電子・フォトニック輸送系における連続体における境界状態の形成について,上腕と下腕のコンメンサブル長の非対称接合を考慮した検討を行う。
また, 線形接合配列におけるBICの連続接合間距離と, 上腕と下腕とのコンメンサビリティの関係について検討した。
クロスバー接合に対するヘルムホルツ方程式を解き、伝送確率、交差点における確率密度、および品質係数を計算する。
準BICの存在は、ディラックのデルタ関数とともに対称ファノ共鳴の真ん中の鋭い共鳴として、確率密度と品質係数のばらつきによって伝達確率に反映される。 Over the last few decades, the study of Bound States in the Continuum, their formation, and properties has attracted lots of attention, especially in optics and photonics. It is particularly noticeable that most of these investigations base their studies on symmetric systems. In this article, we study the formation of bound states in the continuum in electronic and photonic transport systems consisting of crossbar junctions formed by one-dimensional waveguides, considering asymmetric junctions with commensurable lengths for the upper and lower arms. We also study how BICs form in linear junction arrays as a function of the distance between consecutive junctions and their commensurability with the upper and lower arms. We solve the Helmholtz equation for the crossbar junctions and calculate the transmission probability, probability density in the intersections, and quality factor. The presence of quasi-BICs is reflected in the transmission probability as a sharp resonance in the middle of a symmetric Fano resonance along with Dirac's delta functions in the probability density and divergence in the quality factors. | 翻訳日:2024-01-08 15:42:52 公開日:2024-01-05 |
# XUAT-Copilot:大規模言語モデルを用いたユーザ受け入れ自動テストのためのマルチエージェント協調システム XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model ( http://arxiv.org/abs/2401.02705v1 ) ライセンス: Link先を確認 | Zhitao Wang, Wei Wang, Zirao Li, Long Wang, Can Yi, Xinjie Xu, Luyang Cao, Hanjing Su, Shouzhi Chen, Jun Zhou | (参考訳) ここ数年,中国で最も影響力のあるモバイル決済アプリケーションのひとつであるWeChat Payのユーザ受け入れテスト(UAT)プロセスの自動化に注力してきました。
この目的のためにXUATというシステムを開発した。
しかし、現在のシステムでは、テストスクリプト生成という、人間の作業集約的な段階がまだ残っている。
そこで本研究では,現在のシステム,特にテストスクリプト生成の段階において,自動化レベルを向上する手法に焦点を当てる。
近年の顕著な成功により、大きな言語モデル(LLM)は人間のような知性を達成する上で大きな可能性を示しており、LLMを自律的なエージェントとして活用して人間のような意思決定能力を得る研究領域が増えている。
これらの成果に触発されて,自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
エージェントはテストデバイスと対話し、人間のような意思決定を行い、協調的にアクションコマンドを生成する。
提案するマルチエージェントシステムは,実験において人間のテスタに密接な効果をもたらし,単一エージェントアーキテクチャと比較してpass@1精度を大幅に向上させる。
さらに重要なのは、WeChat Payモバイルアプリの正式なテスト環境で提案されたシステムがローンチされたことだ。 In past years, we have been dedicated to automating user acceptance testing (UAT) process of WeChat Pay, one of the most influential mobile payment applications in China. A system titled XUAT has been developed for this purpose. However, there is still a human-labor-intensive stage, i.e, test scripts generation, in the current system. Therefore, in this paper, we concentrate on methods of boosting the automation level of the current system, particularly the stage of test scripts generation. With recent notable successes, large language models (LLMs) demonstrate significant potential in attaining human-like intelligence and there has been a growing research area that employs LLMs as autonomous agents to obtain human-like decision-making capabilities. Inspired by these works, we propose an LLM-powered multi-agent collaborative system, named XUAT-Copilot, for automated UAT. The proposed system mainly consists of three LLM-based agents responsible for action planning, state checking and parameter selecting, respectively, and two additional modules for state sensing and case rewriting. The agents interact with testing device, make human-like decision and generate action command in a collaborative way. The proposed multi-agent system achieves a close effectiveness to human testers in our experimental studies and gains a significant improvement of Pass@1 accuracy compared with single-agent architecture. More importantly, the proposed system has launched in the formal testing environment of WeChat Pay mobile app, which saves a considerable amount of manpower in the daily development work. | 翻訳日:2024-01-08 15:42:33 公開日:2024-01-05 |
# 関係説明の検証:確率的アプローチ Verifying Relational Explanations: A Probabilistic Approach ( http://arxiv.org/abs/2401.02703v1 ) ライセンス: Link先を確認 | Abisha Thapa Magar, Anup Shakya, Somdeb Sarkhel, Deepak Venugopal | (参考訳) 関係データに関する説明は、説明構造がより複雑である(グラフなど)ため、検証が難しい。
解釈可能な説明(画像、テキスト等による予測の説明など)を検証するため、人間は必ずしも専門知識を多く必要としないため、一般的に使用される。
しかし、関係説明の品質を検証するには専門知識が必要であり、スケールアップが難しい。
gnnexplainerはおそらくグラフニューラルネットワークの最も一般的な説明方法の1つである。
本稿では,GNNExplainerによる説明の不確実性を評価する手法を開発する。
具体的には,いくつかの実例について説明を依頼する。
これらの例を元のデータの関係構造の対称近似として生成する。
これらの説明から、説明において不確実性を定量化する因子グラフモデルを学ぶ。
いくつかのデータセットから得られた結果から,GNNExplainerによる説明の不確かさを確実に推定することにより,GNNExplainerによる説明の検証に有効であることが示唆された。 Explanations on relational data are hard to verify since the explanation structures are more complex (e.g. graphs). To verify interpretable explanations (e.g. explanations of predictions made in images, text, etc.), typically human subjects are used since it does not necessarily require a lot of expertise. However, to verify the quality of a relational explanation requires expertise and is hard to scale-up. GNNExplainer is arguably one of the most popular explanation methods for Graph Neural Networks. In this paper, we develop an approach where we assess the uncertainty in explanations generated by GNNExplainer. Specifically, we ask the explainer to generate explanations for several counterfactual examples. We generate these examples as symmetric approximations of the relational structure in the original data. From these explanations, we learn a factor graph model to quantify uncertainty in an explanation. Our results on several datasets show that our approach can help verify explanations from GNNExplainer by reliably estimating the uncertainty of a relation specified in the explanation. | 翻訳日:2024-01-08 15:42:06 公開日:2024-01-05 |
# Sambe空間定式化による時間周期ハミルトニアンの準エネルギー推定と固有状態生成 Nearly optimal quasienergy estimation and eigenstate preparation of time-periodic Hamiltonians by Sambe space formalism ( http://arxiv.org/abs/2401.02700v1 ) ライセンス: Link先を確認 | Kaoru Mizuta | (参考訳) 時間周期系(フロケ系)は最も興味深い非平衡系の1つである。
時間に依存しないハミルトニアンのエネルギー固有値と固有状態の計算は古典的および量子的計算において中心的な問題であるので、準エネルギーとフロケ固有状態が重要な対象である。
しかし、それらの計算には時間依存の難しさがあり、問題はSambe空間形式により時間非依存の固有値問題にマッピングできるが、代わりに無限次元空間が必要であり、時間非依存の場合よりも計算コストが高いようである。
時間に依存しないケースと同じくらい効率的に精度を保証できるかどうかはまだ不明である。
我々は、sambe空間のカットオフを厳密に導出して所望の精度を達成し、そのカットオフに基づいて準エネルギーとフロッケ固有状態を計算する量子アルゴリズムを整理することでこの問題に対処する。
量子アルゴリズムは、時間に依存しないハミルトニアンのエネルギー固有値と固有値を出力する最適なアルゴリズムである量子位相推定(qpe)のような保証された精度で準エネルギーとフロッケ固有状態を返す。
時間周期性はsambe空間の追加次元を提供し、固有状態の分岐を与えるが、アルゴリズムのクエリの複雑さは、アワー可能なエラーの最適化に近いスケーリングを達成する。
さらに,これらのアルゴリズムの副産物として,適切なガッピングフロッケ固有状態が,そのギャップ内でほぼ最適なクエリ複雑性で決定論的に実装できるフロッケ固有状態生成のための量子アルゴリズムも構成する。
これらの結果は、時間依存の難しさにもかかわらず、準エネルギーとフロケ固有状態は時間に依存しない場合と同じくらい効率的に計算できることを示し、量子コンピュータ上の非平衡系の正確かつ高速なシミュレーションに光を当てている。 Time-periodic (Floquet) systems are one of the most interesting nonequilibrium systems. As the computation of energy eigenvalues and eigenstates of time-independent Hamiltonians is a central problem in both classical and quantum computation, quasienergy and Floquet eigenstates are the important targets. However, their computation has difficulty of time dependence; the problem can be mapped to a time-independent eigenvalue problem by the Sambe space formalism, but it instead requires additional infinite dimensional space and seems to yield higher computational cost than the time-independent cases. It is still unclear whether they can be computed with guaranteed accuracy as efficiently as the time-independent cases. We address this issue by rigorously deriving the cutoff of the Sambe space to achieve the desired accuracy and organizing quantum algorithms for computing quasienergy and Floquet eigenstates based on the cutoff. The quantum algorithms return quasienergy and Floquet eigenstates with guaranteed accuracy like Quantum Phase Estimation (QPE), which is the optimal algorithm for outputting energy eigenvalues and eigenstates of time-independent Hamiltonians. While the time periodicity provides the additional dimension for the Sambe space and ramifies the eigenstates, the query complexity of the algorithms achieves the near-optimal scaling in allwable errors. In addition, as a by-product of these algorithms, we also organize a quantum algorithm for Floquet eigenstate preparation, in which a preferred gapped Floquet eigenstate can be deterministically implemented with nearly optimal query complexity in the gap. These results show that, despite the difficulty of time-dependence, quasienergy and Floquet eigenstates can be computed almost as efficiently as time-independent cases, shedding light on the accurate and fast simulation of nonequilibrium systems on quantum computers. | 翻訳日:2024-01-08 15:41:52 公開日:2024-01-05 |
# voronav:voronoiベースの大きな言語モデルによるゼロショットオブジェクトナビゲーション VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model ( http://arxiv.org/abs/2401.02695v1 ) ライセンス: Link先を確認 | Pengying Wu, Yao Mu, Bingxian Wu, Yi Hou, Ji Ma, Shanghang Zhang, Chang Liu | (参考訳) 家庭用ロボティクスの領域では、ゼロショットオブジェクトナビゲーション(ZSON)タスクは、エージェントが不慣れな環境を巧みに横切り、前もって明示的な訓練をせずに新しいカテゴリーからオブジェクトを見つけることを可能にする。
本稿では,新しい意味探索フレームワークvoronavについて紹介する。voronoiグラフを縮小し,探索経路と計画ノードをリアルタイムで構築した意味マップから抽出する。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデル(LLM)で容易に解釈できるパスとイメージのテキストベースの記述を設計する。
提案手法は,環境コンテキストを表現するための経路記述と遠近法記述の相乗効果を示し,LLMがナビゲーションに最適な経路を求めるための常識推論を適用できるようにする。
HM3DとHSSDデータセットの大規模な評価では、VoroNavは既存のZSONベンチマークを成功率と探索効率の両方で上回っている(HM3Dでは+2.8%、HSSDでは+3.7%、HM3Dでは+2.6%、+3.8%)。
さらに,障害物回避能力と知覚効率を評価する指標を導入し,ZSON計画における我々の手法による改善をさらに裏付けた。 In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). Our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling the LLM to apply commonsense reasoning to ascertain the optimal waypoints for navigation. Extensive evaluation on the HM3D and HSSD datasets validates that VoroNav surpasses existing ZSON benchmarks in both success rates and exploration efficiency (+2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning. | 翻訳日:2024-01-08 15:41:18 公開日:2024-01-05 |
# PAHD:SAR画像上の説明可能なグラフニューラルネットワークを用いた知覚行動に基づく人間の意思決定 PAHD: Perception-Action based Human Decision Making using Explainable Graph Neural Networks on SAR Images ( http://arxiv.org/abs/2401.02687v1 ) ライセンス: Link先を確認 | Sasindu Wijeratne, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart | (参考訳) 合成開口レーダ(SAR)画像は、自動目標認識(ATR)のための軍事用途で一般的に使用される。
畳み込みニューラルネットワーク(CNN)やグラフニューラルネットワーク(GNN)のような機械学習(ML)の手法は、戦闘戦車、人力キャリア、ミサイルランチャーなど、地上の物体を識別するために頻繁に用いられる。
BRDM2タンク、BMP2タンク、BTR60タンク、BTR70タンクなどの車両のクラスを決定することは、対象物が味方であるか敵であるかを判断するのに役立つため重要である。
MLアルゴリズムは認識された目標に対するフィードバックを提供するが、最終的な決定は指揮官に委ねられる。
したがって、特定されたターゲットと一緒に詳細な情報を提供することは、彼らの行動に大きな影響を与える。
この詳細情報には、分類、分類信頼度、識別対象が異なるオブジェクトタイプまたはクラスに分類される確率に寄与するSAR画像の特徴が含まれている。
本稿では,最終的な分類クラスを提供し,上述の詳細な情報を出力するgnnベースのatrフレームワークを提案する。
これは分類クラスの詳細な分析を提供し、最終的な決定をより簡単にする最初の研究である。
さらに、我々のGNNフレームワークは、MSTARデータセットで評価した場合、全体の99.2\%の精度を達成し、従来の最先端のGNN手法よりも改善した。 Synthetic Aperture Radar (SAR) images are commonly utilized in military applications for automatic target recognition (ATR). Machine learning (ML) methods, such as Convolutional Neural Networks (CNN) and Graph Neural Networks (GNN), are frequently used to identify ground-based objects, including battle tanks, personnel carriers, and missile launchers. Determining the vehicle class, such as the BRDM2 tank, BMP2 tank, BTR60 tank, and BTR70 tank, is crucial, as it can help determine whether the target object is an ally or an enemy. While the ML algorithm provides feedback on the recognized target, the final decision is left to the commanding officers. Therefore, providing detailed information alongside the identified target can significantly impact their actions. This detailed information includes the SAR image features that contributed to the classification, the classification confidence, and the probability of the identified object being classified as a different object type or class. We propose a GNN-based ATR framework that provides the final classified class and outputs the detailed information mentioned above. This is the first study to provide a detailed analysis of the classification class, making final decisions more straightforward. Moreover, our GNN framework achieves an overall accuracy of 99.2\% when evaluated on the MSTAR dataset, improving over previous state-of-the-art GNN methods. | 翻訳日:2024-01-08 15:40:51 公開日:2024-01-05 |
# Beyond Fidelity: 学習ベース検出器の脆弱性ローカライゼーションについて Beyond Fidelity: Explaining Vulnerability Localization of Learning-based Detectors ( http://arxiv.org/abs/2401.02686v1 ) ライセンス: Link先を確認 | Baijun Cheng, Shengming Zhao, Kailong Wang, Meizhen Wang, Guangdong Bai, Ruitao Feng, Yao Guo, Lei Ma, Haoyu Wang | (参考訳) 近年,ディープラーニング(DL)モデルに基づく脆弱性検出装置の有効性が証明されている。
しかし、これらの検出器の意思決定プロセスを取り巻く不透明さは、セキュリティアナリストの理解を困難にしている。
これに対処するために,コンピュータビジョンや自然言語処理といった他の領域で有効な重要な特徴を強調することにより,予測を説明するための様々な説明手法が提案されている。
残念ながら、詳細な脆弱性関連コード行などの脆弱性クリティカルな機能の詳細な評価は、これらの説明によって学習され、理解されている。
本研究では,まず,グラフおよびシーケンス表現に基づく脆弱性検出のための10個の説明手法の性能を,忠実度と脆弱性線カバレッジ率を含む2つの定量的指標を用いて評価した。
その結果、忠実性だけではこれらのアプローチを評価するには不十分であり、忠実性は異なるデータセットや検出器にまたがる大きな変動を引き起こすことが分かった。
その後,説明手法によって報告された脆弱性関連コード行の精度を確認し,そのタスクの精度の低下を確認した。
これは、重要な特徴の選択における説明者の非効率性と、dlベースの検出器によって学習された無関係なアーティファクトの存在に起因する。 Vulnerability detectors based on deep learning (DL) models have proven their effectiveness in recent years. However, the shroud of opacity surrounding the decision-making process of these detectors makes it difficult for security analysts to comprehend. To address this, various explanation approaches have been proposed to explain the predictions by highlighting important features, which have been demonstrated effective in other domains such as computer vision and natural language processing. Unfortunately, an in-depth evaluation of vulnerability-critical features, such as fine-grained vulnerability-related code lines, learned and understood by these explanation approaches remains lacking. In this study, we first evaluate the performance of ten explanation approaches for vulnerability detectors based on graph and sequence representations, measured by two quantitative metrics including fidelity and vulnerability line coverage rate. Our results show that fidelity alone is not sufficient for evaluating these approaches, as fidelity incurs significant fluctuations across different datasets and detectors. We subsequently check the precision of the vulnerability-related code lines reported by the explanation approaches, and find poor accuracy in this task among all of them. This can be attributed to the inefficiency of explainers in selecting important features and the presence of irrelevant artifacts learned by DL-based detectors. | 翻訳日:2024-01-08 15:40:29 公開日:2024-01-05 |
# 複雑ネットワークを用いた画像分割の系統的検討 Systematic review of image segmentation using complex networks ( http://arxiv.org/abs/2401.02758v1 ) ライセンス: Link先を確認 | Amin Rezaei, Fatemeh Asadi | (参考訳) 本稿では,複雑なネットワークを用いた画像分割手法を提案する。
画像分割は画像解析の重要なステップの1つであり、複雑な画像の分析と理解を支援する。
当初、画像分割にどのように使われるかに基づいて複雑なネットワークを分類しようと試みられた。
コンピュータビジョンや画像処理アプリケーションでは、画像分割は不規則な形状、テクスチャ、あるいは重なり合う境界を持つ複雑な画像を分析するのに不可欠である。
高度なアルゴリズムは、機械学習、クラスタリング、エッジ検出、および領域拡大技術を利用する。
グラフ理論の原理とコミュニティ検出に基づく手法を組み合わせることで、複雑な画像のより正確な分析と解釈が可能になる。
ハイブリッドアプローチは、包括的で堅牢なセグメンテーションのための複数のテクニックを組み合わせて、コンピュータビジョンと画像処理タスクの結果を改善する。 This review presents various image segmentation methods using complex networks. Image segmentation is one of the important steps in image analysis as it helps analyze and understand complex images. At first, it has been tried to classify complex networks based on how it being used in image segmentation. In computer vision and image processing applications, image segmentation is essential for analyzing complex images with irregular shapes, textures, or overlapping boundaries. Advanced algorithms make use of machine learning, clustering, edge detection, and region-growing techniques. Graph theory principles combined with community detection-based methods allow for more precise analysis and interpretation of complex images. Hybrid approaches combine multiple techniques for comprehensive, robust segmentation, improving results in computer vision and image processing tasks. | 翻訳日:2024-01-08 15:33:09 公開日:2024-01-05 |
# FedNS:フェデレーションラーニングのための高速スケッチニュートン型アルゴリズム FedNS: A Fast Sketching Newton-Type Algorithm for Federated Learning ( http://arxiv.org/abs/2401.02734v1 ) ライセンス: Link先を確認 | Jian Li, Yong Liu, Wei Wang, Haoran Wu, Weiping Wang | (参考訳) 最近のニュートン型フェデレーション学習アルゴリズムは,通信ラウンドに対して線形収束を示した。
しかし、ヘッセン行列の通信は2次通信の複雑さのため、しばしば不可能である。
本稿では,高速な収束速度を保ちながら,この問題に取り組むための新しい手法を提案する。
提案手法はFedNS (Federated Newton Sketch Method) と名付けられ, 正確なヘシアンではなく, スケッチした平方根ヘシアンを通信することにより, ニュートンの手法を近似する。
通信効率を向上させるため,ヘシアン行列の有効次元に合うようにスケッチサイズを縮小する。
フェデレーション・ニュートン・スケッチ・アプローチのための統計的学習に基づく収束解析を提供する。
具体的には,通信ラウンドの超線形収束率を初めて達成する。
理論的な結果と一致する様々な実験により,アルゴリズムの有効性を検証する。 Recent Newton-type federated learning algorithms have demonstrated linear convergence with respect to the communication rounds. However, communicating Hessian matrices is often unfeasible due to their quadratic communication complexity. In this paper, we introduce a novel approach to tackle this issue while still achieving fast convergence rates. Our proposed method, named as Federated Newton Sketch methods (FedNS), approximates the centralized Newton's method by communicating the sketched square-root Hessian instead of the exact Hessian. To enhance communication efficiency, we reduce the sketch size to match the effective dimension of the Hessian matrix. We provide convergence analysis based on statistical learning for the federated Newton sketch approaches. Specifically, our approaches reach super-linear convergence rates w.r.t. the communication rounds for the first time. We validate the effectiveness of our algorithms through various experiments, which coincide with our theoretical findings. | 翻訳日:2024-01-08 15:32:58 公開日:2024-01-05 |
# CERNにおけるAEgIS実験の制御システム The control system of the AEgIS experiment at CERN ( http://arxiv.org/abs/2401.02732v1 ) ライセンス: Link先を確認 | Georgy Kornakov, Jakub Zieli\'nski, Grzegorz Kasprowicz | (参考訳) CERNのAEgIS実験は先頃,Sinara/ARTIQのオープンハードウェアとソフトウェアインフラストラクチャに基づくコントロールシステムソリューションの採用を決定した。
この決定は、実験装置を制御するためのカスタムメイドの電子機器とソフトウェアのパラダイムから外れることを意味した。
代わりに、長期的サポートと多くの量子物理学実験で使用されるソリューションを採用することで、同様のインフラを用いた活発なコミュニティが保証される。
この移行により、新しい機器をシームレスにセットアップに統合するリスクと開発スケジュールが削減される。
この研究は、モチベーション、セットアップ、選択したハードウェアをレビューし、制御システムを開発するためのさらなるステップをいくつか提示する。 The AEgIS experiment at CERN recently decided to adopt a control system solution based on the Sinara/ARTIQ open hardware and software infrastructure. This decision meant to depart from the previously used paradigm of custom-made electronics and software to control the experiment's equipment. Instead, adopting a solution with long-term support and used in many quantum physics experiments guarantees a vivid community using similar infrastructures. This transition reduces the risks and development timeline for integrating new equipment seamlessly within the setup. This work reviews the motivation, the setup, and the chosen hardware and presents several planned further steps in developing the control system. | 翻訳日:2024-01-08 15:32:43 公開日:2024-01-05 |
# 一般的なタスクにおける命令チューニングのためのパラメータ効率の高いスパルシティ製作法 Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks ( http://arxiv.org/abs/2401.02731v1 ) ライセンス: Link先を確認 | Haoyuan Wu, Haisheng Zheng, Bei Yu | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)のタスクにおいて、かなり熟練している。
成功しているパラダイムであるインストラクションチューニングは、LLMが自然言語命令に従う能力を高め、幅広いタスクにまたがる堅牢な一般化を示す。
しかしながら、モデルキャパシティの制約により、これらのモデルは複数のタスクにまたがるパフォーマンスの制限に直面することが多い。
命令チューニングフェーズでこの能力を拡張することは、大きな課題となる。
この問題に対処するために,パラメータ効率のよいスパシティ・クラフト (PESC) という新しい手法を導入し,Mixture of Experts (MoE) アーキテクチャを用いて高密度モデルからスパースモデルへ変換する。
PESCはアダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。
この方法は計算コストとGPUメモリの要求を大幅に削減し、挿入アダプタによるパラメータの最小増加によるモデルの容量拡張を容易にする。
実験によりPESC法の有効性が示された。
インストラクションチューニングにおいてPESCを用いて,Camelidaeと称されるスパースモデルは,他のすべてのオープンソーススパースモデルより優れ,GPT3.5と比較して優れた汎用性を示す。 Large Language Models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across a wide range of tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce a novel approach, Parameter-Efficient Sparsity Crafting (PESC), which transitions dense models to sparse models using a Mixture of Experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal increase in parameters via the inserted adapters. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our sparse models, dubbed Camelidae outperform all other opensource sparse models and exhibit superior general capabilities compared to GPT3.5. | 翻訳日:2024-01-08 15:32:32 公開日:2024-01-05 |
# マルチエイジェント・アンbiants dans les villes intelligentes Une ontologie pour les syst{\`e}mes multi-agents ambiants dans les villes intelligentes ( http://arxiv.org/abs/2401.02726v1 ) ライセンス: Link先を確認 | Nathan Aky (LIM), Denis Payet (LIM), Sylvain Giroux (UdeS), R\'emy Courdier (LIM) | (参考訳) 町や都市は現在、インターネットに接続されたデバイスを多数備えており、自らを「スマートな都市」へと変えようとしている。
このようなコネクテッドオブジェクトを管理するために、エージェントとして知られる自律的なソフトウェアエンティティをアタッチして、これらのデバイスを使ってパーソナライズされたサービスを提供する。
しかし、このオブジェクトインフラストラクチャを悪用するには、意味的に構造化する必要がある。
この記事の提案はOWLでフォーマットされたオントロジーであり、オブジェクトインフラストラクチャ、マルチエージェントシステムの組織とのリンク、システムのユーザに応じて配信されるサービスを記述する。
このオントロジーは、移動性の低い人々のためのスマートモビリティに適用され、他のスマートシティ軸に適応することができる。 Towns and cities are currently equipping themselves with a host of connected devices, with a view to transforming themselves into ''smart cities''. To manage this mass of connected objects, autonomous software entities, known as agents, can be attached to them to cooperate and use these devices to offer personalized services. However, this object infrastructure needs to be semantically structured in order to be exploited. This is why the proposal of this article is an ontology, formatted in OWL, describing the object infrastructures, their links with the organization of the multi-agent system and the services to be delivered according to the users of the system. The ontology is applied to smart mobility for people with reduced mobility, and could be adapted to other smart city axes. | 翻訳日:2024-01-08 15:32:12 公開日:2024-01-05 |
# 非同期計算ネットワークを用いたフェデレーション学習とグラフニューラルによる交通流予測 Predicting Traffic Flow with Federated Learning and Graph Neural with Asynchronous Computations Network ( http://arxiv.org/abs/2401.02723v1 ) ライセンス: Link先を確認 | Muhammad Yaqub, Shahzad Ahmad, Malik Abdul Manan, Imran Shabir Chuhan | (参考訳) リアルタイム交通流予測は知能輸送システム(ITS)の領域において重要な意味を持つ。
予測精度と計算効率のバランスをとるという課題は重要な課題である。
本稿では,FLAGCN(Federated Learning and Asynchronous Graph Convolutional Network)と呼ばれる新しいディープラーニング手法を提案する。
本フレームワークでは,リアルタイムトラフィックフロー予測の精度と効率を高めるために,非同期グラフ畳み込みネットワークとフェデレーション学習の原理を取り入れている。
FLAGCNモデルは、空間時間グラフ畳み込み技術を用いて、トラフィックデータ内の時空間依存性を非同期に処理する。
この深層学習モデルに関連する計算要求を効率的に処理するために,グラフFLと呼ばれるグラフフェデレーション学習技術を用いた。
このアプローチはトレーニングプロセスを容易にするように設計されている。
2つの異なるトラヒックデータセットをテストした結果,flagcnの利用は,高い予測精度を維持しながら,トレーニングと推論の両方の継続時間の最適化に繋がることが示された。
FLAGCNは、RMSEの最大6.85%、MAPEの20.45%の削減を達成し、既存のモデルよりも大幅に改善された。 Real-time traffic flow prediction holds significant importance within the domain of Intelligent Transportation Systems (ITS). The task of achieving a balance between prediction precision and computational efficiency presents a significant challenge. In this article, we present a novel deep-learning method called Federated Learning and Asynchronous Graph Convolutional Network (FLAGCN). Our framework incorporates the principles of asynchronous graph convolutional networks with federated learning to enhance the accuracy and efficiency of real-time traffic flow prediction. The FLAGCN model employs a spatial-temporal graph convolution technique to asynchronously address spatio-temporal dependencies within traffic data effectively. To efficiently handle the computational requirements associated with this deep learning model, this study used a graph federated learning technique known as GraphFL. This approach is designed to facilitate the training process. The experimental results obtained from conducting tests on two distinct traffic datasets demonstrate that the utilization of FLAGCN leads to the optimization of both training and inference durations while maintaining a high level of prediction accuracy. FLAGCN outperforms existing models with significant improvements by achieving up to approximately 6.85% reduction in RMSE, 20.45% reduction in MAPE, compared to the best-performing existing models. | 翻訳日:2024-01-08 15:31:58 公開日:2024-01-05 |
# ニューラルネットワークを用いたTiny Transformerモデルの低コストFPGA実装 A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE ( http://arxiv.org/abs/2401.02721v1 ) ライセンス: Link先を確認 | Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani | (参考訳) Transformerは、注目メカニズムを備えた新興ニューラルネットワークモデルである。
様々なタスクに採用され、CNNやRNNに比べて精度が良い。
アテンション機構は汎用コンポーネントとして認識されているが、多くのトランスフォーマーモデルはcnnベースのものに比べてかなりの数のパラメータを必要とする。
計算複雑性を軽減するため、最近ではResNetをバックボーンアーキテクチャとして使用し、その畳み込み層の一部をMHSA(Multi-Head Self-Attention)メカニズムで置き換えるハイブリッドアプローチが提案されている。
本稿では,resnetではなく,バックボーンアーキテクチャとしてneural ode(ordinary differential equation)を用いることで,これらのモデルのパラメータサイズを大幅に削減する。
提案するハイブリッドモデルは,精度を低下させることなくパラメータサイズを94.6%削減する。
次に、エッジコンピューティングのための控えめなサイズFPGAデバイスに提案したモデルをデプロイする。
FPGAリソースの利用をさらに削減するため、PTQ(Post Training Quantization)の代わりにQAT(Quantization Aware Training)スキームに基づくモデルを定量化し、精度損失を抑制する。
その結果、リソース限定FPGA上で非常に軽量なTransformerベースのモデルを実現することができる。
特徴抽出ネットワークの重みはチップ上に格納され、メモリ転送オーバーヘッドを最小限に抑え、高速な推論を可能にする。
メモリ転送のオーバーヘッドをなくすことで、推論をシームレスに実行できるため、推論が加速される。
提案したFPGA実装はARM Cortex-A53 CPUと比較して12.8倍の高速化と9.21倍のエネルギー効率を実現している。 Transformer is an emerging neural network model with attention mechanism. It has been adopted to various tasks and achieved a favorable accuracy compared to CNNs and RNNs. While the attention mechanism is recognized as a general-purpose component, many of the Transformer models require a significant number of parameters compared to the CNN-based ones. To mitigate the computational complexity, recently, a hybrid approach has been proposed, which uses ResNet as a backbone architecture and replaces a part of its convolution layers with an MHSA (Multi-Head Self-Attention) mechanism. In this paper, we significantly reduce the parameter size of such models by using Neural ODE (Ordinary Differential Equation) as a backbone architecture instead of ResNet. The proposed hybrid model reduces the parameter size by 94.6% compared to the CNN-based ones without degrading the accuracy. We then deploy the proposed model on a modest-sized FPGA device for edge computing. To further reduce FPGA resource utilization, we quantize the model following QAT (Quantization Aware Training) scheme instead of PTQ (Post Training Quantization) to suppress the accuracy loss. As a result, an extremely lightweight Transformer-based model can be implemented on resource-limited FPGAs. The weights of the feature extraction network are stored on-chip to minimize the memory transfer overhead, allowing faster inference. By eliminating the overhead of memory transfers, inference can be executed seamlessly, leading to accelerated inference. The proposed FPGA implementation achieves 12.8x speedup and 9.21x energy efficiency compared to ARM Cortex-A53 CPU. | 翻訳日:2024-01-08 15:31:39 公開日:2024-01-05 |
# 非ペア実データによる画像復調の学習 Learning Image Demoireing from Unpaired Real Data ( http://arxiv.org/abs/2401.02719v1 ) ライセンス: Link先を確認 | Yunshan Zhong, Yuyao Zhou, Yuxin Zhang, Fei Chao, Rongrong Ji | (参考訳) 本稿では,画像復調の課題に焦点をあてる。
ペア化された実データから学ぶことに依存する既存の研究と異なり、未ペアの実データ、すなわち無関係なクリーンな画像に関連付けられたモアレ画像から復調モデルを学習しようとする。
提案手法はUnpaired Demoireing (UnDeM) と呼ばれ、未知のデータセットから擬似モアレ画像を合成し、クリーンな画像とペアを生成して復調モデルを訓練する。
これを実現するため、実際のmoireイメージをパッチに分割し、moireの複雑さに従ってグループ化します。
本稿では,実際のmoireパッチに類似した,多様なmoire特徴を有するmoireイメージを合成する新しいmoire生成フレームワークを提案する。
さらに,復調モデルの学習に悪影響を及ぼす低品質擬似モイア画像を除去する適応デノワーズ法を提案する。
一般的に使われているFHDMiとUHDMデータセットについて広範な実験を行った。
その結果、MBCNNやESDNet-Lといった既存のデシリアライズモデルを使用する場合、UnDeMは既存のメソッドよりも優れていることが判明した。
コード: https://github.com/zysxmu/undem This paper focuses on addressing the issue of image demoireing. Unlike the large volume of existing studies that rely on learning from paired real data, we attempt to learn a demoireing model from unpaired real data, i.e., moire images associated with irrelevant clean images. The proposed method, referred to as Unpaired Demoireing (UnDeM), synthesizes pseudo moire images from unpaired datasets, generating pairs with clean images for training demoireing models. To achieve this, we divide real moire images into patches and group them in compliance with their moire complexity. We introduce a novel moire generation framework to synthesize moire images with diverse moire features, resembling real moire patches, and details akin to real moire-free images. Additionally, we introduce an adaptive denoise method to eliminate the low-quality pseudo moire images that adversely impact the learning of demoireing models. We conduct extensive experiments on the commonly-used FHDMi and UHDM datasets. Results manifest that our UnDeM performs better than existing methods when using existing demoireing models such as MBCNN and ESDNet-L. Code: https://github.com/zysxmu/UnDeM | 翻訳日:2024-01-08 15:31:14 公開日:2024-01-05 |
# キャリブレーション攻撃: キャリブレーションを狙う敵攻撃のためのフレームワーク Calibration Attack: A Framework For Adversarial Attacks Targeting Calibration ( http://arxiv.org/abs/2401.02718v1 ) ライセンス: Link先を確認 | Stephen Obadinma, Xiaodan Zhu, Hongyu Guo | (参考訳) そこで我々は,攻撃を発生・組織化して,元の精度を変えることなく,被害者モデルの誤判定を防止し,モデルの信頼性と意思決定の信頼性を著しく損なうような,新たな敵攻撃の枠組みを導入する。
具体的には,ブラックボックスとホワイトボックスのいずれにおいても,自信不足攻撃,自信過剰攻撃,最大不均衡攻撃,ランダム信頼攻撃という4つの新しい形態のキャリブレーション攻撃を識別する。
次に、これらの新しい攻撃を一般的な被害者モデルに対して包括的なデータセットでテストし、比較的少ないクエリでも、攻撃が重大な校正ミスを引き起こすことを証明します。
さらに,キャリブレーション攻撃のさまざまな側面を理解するための詳細な分析を行う。
そこで本研究では,このような攻撃に対して広く使用される敵防御とキャリブレーション手法の有効性について検討し,キャリブレーション攻撃に対する2つの新しい防御方法を考案する。 We introduce a new framework of adversarial attacks, named calibration attacks, in which the attacks are generated and organized to trap victim models to be miscalibrated without altering their original accuracy, hence seriously endangering the trustworthiness of the models and any decision-making based on their confidence scores. Specifically, we identify four novel forms of calibration attacks: underconfidence attacks, overconfidence attacks, maximum miscalibration attacks, and random confidence attacks, in both the black-box and white-box setups. We then test these new attacks on typical victim models with comprehensive datasets, demonstrating that even with a relatively low number of queries, the attacks can create significant calibration mistakes. We further provide detailed analyses to understand different aspects of calibration attacks. Building on that, we investigate the effectiveness of widely used adversarial defences and calibration methods against these types of attacks, which then inspires us to devise two novel defences against such calibration attacks. | 翻訳日:2024-01-08 15:30:55 公開日:2024-01-05 |
# 多要素医用画像分割のための補完情報相互学習 Complementary Information Mutual Learning for Multimodality Medical Image Segmentation ( http://arxiv.org/abs/2401.02717v1 ) ライセンス: Link先を確認 | Chuyun Shen and Wenhao Li and Haoqing Chen and Xiaoling Wang and Fengping Zhu and Yuxin Li and Xiangfeng Wang and Bo Jin | (参考訳) 放射線科医は、医用画像の限界と腫瘍信号の多様性のために、腫瘍の分割と診断に複数のモード画像を使用する必要がある。
これはセグメンテーションにおけるマルチモーダル学習の発展に繋がる。
しかし、モダリティ間の冗長性は、モダリティの重要性を誤認し、特定のモダリティ情報を無視し、認知負荷を増加させるなど、既存の減算に基づく共同学習方法の課題を生み出している。
これらの厄介な問題は最終的にセグメンテーションの精度を低下させ、オーバーフィッティングのリスクを増大させる。
本稿では,モーダル間冗長情報の負の影響を数学的にモデル化し,対処する相補的情報相互学習(CIML)フレームワークを提案する。
CIMLは追加の概念を採用し、帰納的バイアス駆動型タスク分解とメッセージパッシングに基づく冗長性フィルタリングを通じて、モーダル間冗長情報を除去する。
CIMLはまず、専門知識に基づいてマルチモーダルセグメンテーションタスクを複数のサブタスクに分解し、モダリティ間の情報依存を最小限にする。
さらに、CIMLはメッセージパッシングを通じて、各モダリティが他のモダリティから情報を付加的に抽出できるスキームを導入する。
抽出された情報の非冗長性を達成するために、冗長なフィルタリングを変動情報ボトルネックにインスパイアされた相補的な情報学習に変換する。
相補的な情報学習手順は、変分推論とクロスモーダル空間的注意によって効率よく解決できる。
検証タスクと標準ベンチマークによる数値的な結果から,cimlはモダリティ間の冗長な情報を効率的に除去し,検証精度とセグメンテーション効果に関するsoma法を上回った。 Radiologists must utilize multiple modal images for tumor segmentation and diagnosis due to the limitations of medical imaging and the diversity of tumor signals. This leads to the development of multimodal learning in segmentation. However, the redundancy among modalities creates challenges for existing subtraction-based joint learning methods, such as misjudging the importance of modalities, ignoring specific modal information, and increasing cognitive load. These thorny issues ultimately decrease segmentation accuracy and increase the risk of overfitting. This paper presents the complementary information mutual learning (CIML) framework, which can mathematically model and address the negative impact of inter-modal redundant information. CIML adopts the idea of addition and removes inter-modal redundant information through inductive bias-driven task decomposition and message passing-based redundancy filtering. CIML first decomposes the multimodal segmentation task into multiple subtasks based on expert prior knowledge, minimizing the information dependence between modalities. Furthermore, CIML introduces a scheme in which each modality can extract information from other modalities additively through message passing. To achieve non-redundancy of extracted information, the redundant filtering is transformed into complementary information learning inspired by the variational information bottleneck. The complementary information learning procedure can be efficiently solved by variational inference and cross-modal spatial attention. Numerical results from the verification task and standard benchmarks indicate that CIML efficiently removes redundant information between modalities, outperforming SOTA methods regarding validation accuracy and segmentation effect. | 翻訳日:2024-01-08 15:30:37 公開日:2024-01-05 |
# 構造非線形フォトニック導波路における長距離四体相互作用 Long-Range Four-body Interactions in Structured Nonlinear Photonic Waveguides ( http://arxiv.org/abs/2401.02714v1 ) ライセンス: Link先を確認 | Xin Wang, Jia-Qi Li, Tao Liu, Adam Miranowicz and Franco Nori | (参考訳) 線形光学材料を超えた多光子力学は、量子情報処理において重要な基礎的および技術的重要性を持つ。
しかし、非線形導波路QEDではほとんど探索されていない。
本研究では,ダボロンのギャップバンドの2つの分枝(すなわち空間的に結合された光子ペア状態)をサポートするスタガー光子-光子相互作用の存在下での非線形導波路を理論的に提案する。
線形導波管QEDシステムとは対照的に、その動的進化、すなわち単光子束縛状態(SPBS)と二重子束縛状態(DBS)の2つの重要な寄与を同定する。
最も驚くべきことに、非線形導波路は、2つのエミッタ対の間の長距離4体相互作用を仲介することができる。
システムのパラメータを適切に設計することにより,DBSの仮想ダビロンのみを介する高忠実度4体ラビ発振を実現することができる。
本研究は,多体量子情報処理および遠隔地における量子シミュレーションにおける構造化非線形導波路QEDの適用方法である。 Multi-photon dynamics beyond linear optical materials are of significant fundamental and technological importance in quantum information processing. However, it remains largely unexplored in nonlinear waveguide QED. In this work, we theoretically propose a structured nonlinear waveguide in the presence of staggered photon-photon interactions, which supports two branches of gaped bands for doublons (i.e., spatially bound-photon-pair states). In contrast to linear waveguide QED systems, we identify two important contributions to its dynamical evolution, i.e., single-photon bound states (SPBSs) and doublon bound states (DBSs). Most remarkably, the nonlinear waveguide can mediate the long-range four-body interactions between two emitter pairs, even in the presence of disturbance from SPBS. By appropriately designing system's parameters, we can achieve high-fidelity four-body Rabi oscillations mediated only by virtual doublons in DBSs. Our findings pave the way for applying structured nonlinear waveguide QED in multi-body quantum information processing and quantum simulations among remote sites. | 翻訳日:2024-01-08 15:30:08 公開日:2024-01-05 |
# 構造知識リファインメントによるグラフレベルのタンパク質表現学習 Graph-level Protein Representation Learning by Structure Knowledge Refinement ( http://arxiv.org/abs/2401.02713v1 ) ライセンス: Link先を確認 | Ge Wang, Zelin Zang, Jiangbin Zheng, Jun Xia, Stan Z. Li | (参考訳) 本稿では,教師なしの方法でグラフ全体の表現を学習することに焦点を当てる。
グラフレベルの表現の学習は、分子特性予測、タンパク質構造の特徴抽出、ソーシャルネットワーク分析など、現実世界の様々な問題において重要な役割を果たす。
主な方法は、グラフコントラスト学習(gcl)と呼ばれるグラフ特徴抽出を容易にするために、コントラスト学習を活用することである。
gclは有効ではあるが、偽陰性ペアの効果など、対照的な学習においていくつかの合併症に苦しむ。
さらに、GCLの拡張戦略は、多様なグラフデータセットに弱い適応性を持つ。
これらの問題に触発されて、データ構造を用いて、ペアが正か負かの確率を決定する新しいフレームワーク、Structure Knowledge Refinement (SKR)を提案する。
一方,本研究では,原データの意味的意味を自然に保持し,scrフレームワークと互換性のある拡張戦略を提案する。
さらに,直観と実験によるSKRフレームワークの有効性について述べる。
グラフレベル分類の課題に対する実験結果から,SKRフレームワークは最先端のベースラインよりも優れていることが示された。 This paper focuses on learning representation on the whole graph level in an unsupervised manner. Learning graph-level representation plays an important role in a variety of real-world issues such as molecule property prediction, protein structure feature extraction, and social network analysis. The mainstream method is utilizing contrastive learning to facilitate graph feature extraction, known as Graph Contrastive Learning (GCL). GCL, although effective, suffers from some complications in contrastive learning, such as the effect of false negative pairs. Moreover, augmentation strategies in GCL are weakly adaptive to diverse graph datasets. Motivated by these problems, we propose a novel framework called Structure Knowledge Refinement (SKR) which uses data structure to determine the probability of whether a pair is positive or negative. Meanwhile, we propose an augmentation strategy that naturally preserves the semantic meaning of the original data and is compatible with our SKR framework. Furthermore, we illustrate the effectiveness of our SKR framework through intuition and experiments. The experimental results on the tasks of graph-level classification demonstrate that our SKR framework is superior to most state-of-the-art baselines. | 翻訳日:2024-01-08 15:29:49 公開日:2024-01-05 |
# 強化学習に基づく量的トレーディングのための相乗的公式アルファ生成 Synergistic Formulaic Alpha Generation for Quantitative Trading based on Reinforcement Learning ( http://arxiv.org/abs/2401.02710v1 ) ライセンス: Link先を確認 | Hong-Gi Shin, Sukhyun Jeong, Eui-Yeon Kim, Sungho Hong, Young-Jin Cho, Yong-Hoon Choi | (参考訳) 公式アルファファクターの採掘(英: formulaic alpha factors)とは、株式市場における量的取引のための特定の要因や指標(アルファファクターと呼ばれる)を発見し開発する過程である。
探索空間のアルファ因子を効率的に発見するために、強化学習(RL)が一般的である。
本稿では,探索空間を拡張し,事前学習した公式αセットを初期シード値として利用し,相乗的な公式αを生成することにより,既存のアルファファクターマイニング手法を強化する手法を提案する。
モデルの性能評価指標として,情報係数 (IC) とランク情報係数 (Rank IC) を用いる。
csi300市場データを用いて実際の投資シミュレーションを行い,既存の手法と比較して有意な性能改善が見られた。 Mining of formulaic alpha factors refers to the process of discovering and developing specific factors or indicators (referred to as alpha factors) for quantitative trading in stock market. To efficiently discover alpha factors in vast search space, reinforcement learning (RL) is commonly employed. This paper proposes a method to enhance existing alpha factor mining approaches by expanding a search space and utilizing pretrained formulaic alpha set as initial seed values to generate synergistic formulaic alpha. We employ information coefficient (IC) and rank information coefficient (Rank IC) as performance evaluation metrics for the model. Using CSI300 market data, we conducted real investment simulations and observed significant performance improvement compared to existing techniques. | 翻訳日:2024-01-08 15:29:18 公開日:2024-01-05 |
# ドイツのテキスト埋め込みクラスタリングベンチマーク German Text Embedding Clustering Benchmark ( http://arxiv.org/abs/2401.02709v1 ) ライセンス: Link先を確認 | Silvan Wehrli, Bert Arnrich, Christopher Irrgang | (参考訳) この研究は、異なるドメインにドイツのテキスト埋め込みをクラスタリングするパフォーマンスを評価するベンチマークを導入する。
このベンチマークは、(トピックモデリングのような)テキストのグループ化を必要とするタスクへのニューラルネットワーク埋め込みのクラスタリングの利用の増加と、既存のベンチマークにおけるドイツのリソースの必要性によって推進されている。
本稿では,様々なクラスタリングアルゴリズムの結果に基づいて,事前学習した単言語および多言語モデルの初期解析を行う。
結果は、強い単言語モデルと多言語モデルを含む。
埋め込みの次元を減らすことで、クラスタリングをさらに改善できる。
さらに、この追加訓練の利点を推定するために、ドイツのBERTモデルの事前訓練を継続して実施する。
我々の実験は、短いテキストで大幅なパフォーマンス改善が可能であることを示唆する。
すべてのコードとデータセットが公開されている。 This work introduces a benchmark assessing the performance of clustering German text embeddings in different domains. This benchmark is driven by the increasing use of clustering neural text embeddings in tasks that require the grouping of texts (such as topic modeling) and the need for German resources in existing benchmarks. We provide an initial analysis for a range of pre-trained mono- and multilingual models evaluated on the outcome of different clustering algorithms. Results include strong performing mono- and multilingual models. Reducing the dimensions of embeddings can further improve clustering. Additionally, we conduct experiments with continued pre-training for German BERT models to estimate the benefits of this additional training. Our experiments suggest that significant performance improvements are possible for short text. All code and datasets are publicly available. | 翻訳日:2024-01-08 15:28:54 公開日:2024-01-05 |
# 生成型aiガバナンス中国におけるバリューチェーンの欠如 Missing Value Chain in Generative AI Governance China as an example ( http://arxiv.org/abs/2401.02799v1 ) ライセンス: Link先を確認 | Yulu Pi | (参考訳) 我々は,2023年8月に施行された,中国の生成人工知能臨時行政措置である生成AIに関する世界最初の規制について検討した。
本評価では,生成型aiの技術的進歩を認識し,そのライフサイクル全体を支配しようとする一方で,上流のファウンデーションモデルプロバイダや下流の展開者を含む生成型aiのバリューチェーンにおける役割の相違を明らかにする。
AIバリューチェーン内の異なるプレイヤー間の区別と明確な法的地位の欠如は、重大な結果をもたらす可能性がある。
説明責任の曖昧さを招き、AIサービスのガバナンスと全体的な成功を損なう可能性がある。 We examined the world's first regulation on Generative AI, China's Provisional Administrative Measures of Generative Artificial Intelligence Services, which came into effect in August 2023. Our assessment reveals that the Measures, while recognizing the technical advances of generative AI and seeking to govern its full life cycle, presents unclear distinctions regarding different roles in the value chain of Generative AI including upstream foundation model providers and downstream deployers. The lack of distinction and clear legal status between different players in the AI value chain can have profound consequences. It can lead to ambiguity in accountability, potentially undermining the governance and overall success of AI services. | 翻訳日:2024-01-08 15:19:48 公開日:2024-01-05 |
# Powerformer: パワーフロー調整のためのセクション適応トランス Powerformer: A Section-adaptive Transformer for Power Flow Adjustment ( http://arxiv.org/abs/2401.02771v1 ) ライセンス: Link先を確認 | Kaixuan Chen and Wei Luo and Shunyu Liu and Yaoquan Wei and Yihe Zhou and Yunpeng Qing and Quan Zhang and Jie Song and Mingli Song | (参考訳) 本稿では,送電区間間の電力流量調整のための電力配分の最適化を目的とした,ロバストな電力系統状態表現を学習するための新しい変圧器アーキテクチャを提案する。
特に, 提案手法であるpowerformerは, 従来の変圧器の自己着脱と分離して, 専用の部分適応型注意機構を開発した。
この機構は、電力系統状態と送信部情報とを効果的に統合し、ロバストな状態表現の開発を容易にする。
さらに,電力系統のグラフトポロジーとバスノードの電気特性を考慮することで,グラフニューラルネットワークの伝搬と多要素注意機構の表現性をさらに高めるための2つのカスタマイズ戦略を提案する。
IEEE 118バスシステム、中国の現実的な300バスシステム、9241バスを備えた大規模ヨーロッパシステムを含む3つのパワーシステムシナリオにおいて、Powerformerは複数のベースライン方式よりも優れた性能を示す。 In this paper, we present a novel transformer architecture tailored for learning robust power system state representations, which strives to optimize power dispatch for the power flow adjustment across different transmission sections. Specifically, our proposed approach, named Powerformer, develops a dedicated section-adaptive attention mechanism, separating itself from the self-attention used in conventional transformers. This mechanism effectively integrates power system states with transmission section information, which facilitates the development of robust state representations. Furthermore, by considering the graph topology of power system and the electrical attributes of bus nodes, we introduce two customized strategies to further enhance the expressiveness: graph neural network propagation and multi-factor attention mechanism. Extensive evaluations are conducted on three power system scenarios, including the IEEE 118-bus system, a realistic 300-bus system in China, and a large-scale European system with 9241 buses, where Powerformer demonstrates its superior performance over several baseline methods. | 翻訳日:2024-01-08 15:19:36 公開日:2024-01-05 |
# Fus-MAE:リモートセンシングにおけるマスクオートエンコーダのクロスアテンションに基づくデータ融合手法 Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing ( http://arxiv.org/abs/2401.02764v1 ) ライセンス: Link先を確認 | Hugo Chan-To-Hing, Bharadwaj Veeravalli | (参考訳) 大規模な衛星画像データセットのキュレーションに伴うラベル付けコストを軽減できる可能性から、表現学習のための自己監督型フレームワークは、最近リモートセンシングコミュニティの関心を喚起している。
マルチモーダルデータ融合の領域では、しばしば使用される対照的な学習手法は、異なるセンサータイプ間のドメインギャップを埋めるのに役立つが、専門知識と注意深い設計を必要とするデータ拡張技術、特にマルチスペクトルリモートセンシングデータに頼っている。
これらの制限を回避する方法として、マスク付き画像モデリングに基づく事前訓練戦略が考えられるが、ほとんど研究されていない。
本稿では,クロスアテンションを用いて合成開口レーダとマルチスペクトル光データとの早期および機能レベルのデータ融合を行うマスク型オートエンコーダに基づく自己教師あり学習フレームワークfus-maeを提案する。
実験結果から,fus-maeはsar-opticalデータ融合に適したコントラスト学習戦略と効果的に競合し,より大きなコーパスでトレーニングされた他のマスキングオートエンコーダフレームワークよりも優れていることが示された。 Self-supervised frameworks for representation learning have recently stirred up interest among the remote sensing community, given their potential to mitigate the high labeling costs associated with curating large satellite image datasets. In the realm of multimodal data fusion, while the often used contrastive learning methods can help bridging the domain gap between different sensor types, they rely on data augmentations techniques that require expertise and careful design, especially for multispectral remote sensing data. A possible but rather scarcely studied way to circumvent these limitations is to use a masked image modelling based pretraining strategy. In this paper, we introduce Fus-MAE, a self-supervised learning framework based on masked autoencoders that uses cross-attention to perform early and feature-level data fusion between synthetic aperture radar and multispectral optical data - two modalities with a significant domain gap. Our empirical findings demonstrate that Fus-MAE can effectively compete with contrastive learning strategies tailored for SAR-optical data fusion and outperforms other masked-autoencoders frameworks trained on a larger corpus. | 翻訳日:2024-01-08 15:19:17 公開日:2024-01-05 |
# 深層学習アルゴリズムを用いた糖尿病網膜症の診断と分類 : 検査・治療予測のためのレファラーレコメンデーションを容易にするためのセグメンテーション Detection and Classification of Diabetic Retinopathy using Deep Learning Algorithms for Segmentation to Facilitate Referral Recommendation for Test and Treatment Prediction ( http://arxiv.org/abs/2401.02759v1 ) ライセンス: Link先を確認 | Manoj S H, Arya A Bosale | (参考訳) 糖尿病網膜症 (dr) は, 糖尿病の重篤な合併症であり, 失明の可能性を秘めている。
提案手法は, APTOS 2019 Blindness Detection Competitionにおいて, 2次重み付きカッパスコア0.92546で高い有効性を示すために, 畳み込みニューラルネットワーク(CNN)を用いた伝達学習を活用している。
本稿では,古典的コンピュータビジョン手法から深層学習へのアプローチ,特にcnnに着目したdr検出に関する既存の文献を概説する。
It identifies gaps in the research, emphasizing the lack of exploration in integrating pretrained large language models with segmented image inputs for generating recommendations and understanding dynamic interactions within a web application context.Objectives include developing a comprehensive DR detection methodology, exploring model integration, evaluating performance through competition ranking, contributing significantly to DR detection methodologies, and identifying research gaps.The methodology involves data preprocessing, data augmentation, and the use of a U-Net neural network architecture for segmentation.
U-Netモデルは、血管、硬質および軟質の排出物、出血、微小動脈瘤、光学ディスクを含む網膜構造を効率的に分割する。
jaccard, f1, recall, precision, and accuracyの評価スコアは, 網膜病理評価における診断能力向上のためのモデルの潜在能力を裏付けるものである。本研究の結果は, 糖尿病網膜症との闘いにおいて, 適度な診断と介入を通じて患者の予後を改善することが期待されている。 This research paper addresses the critical challenge of diabetic retinopathy (DR), a severe complication of diabetes leading to potential blindness. The proposed methodology leverages transfer learning with convolutional neural networks (CNNs) for automatic DR detection using a single fundus photograph, demonstrating high effectiveness with a quadratic weighted kappa score of 0.92546 in the APTOS 2019 Blindness Detection Competition. The paper reviews existing literature on DR detection, spanning classical computer vision methods to deep learning approaches, particularly focusing on CNNs. It identifies gaps in the research, emphasizing the lack of exploration in integrating pretrained large language models with segmented image inputs for generating recommendations and understanding dynamic interactions within a web application context.Objectives include developing a comprehensive DR detection methodology, exploring model integration, evaluating performance through competition ranking, contributing significantly to DR detection methodologies, and identifying research gaps.The methodology involves data preprocessing, data augmentation, and the use of a U-Net neural network architecture for segmentation. The U-Net model efficiently segments retinal structures, including blood vessels, hard and soft exudates, haemorrhages, microaneurysms, and the optical disc. High evaluation scores in Jaccard, F1, recall, precision, and accuracy underscore the model's potential for enhancing diagnostic capabilities in retinal pathology assessment.The outcomes of this research hold promise for improving patient outcomes through timely diagnosis and intervention in the fight against diabetic retinopathy, marking a significant contribution to the field of medical image analysis. | 翻訳日:2024-01-08 15:18:55 公開日:2024-01-05 |
# 『GitHub Sponsors profile is live!
twitter/x mentionsのgithubスポンサーへの影響調査 "My GitHub Sponsors profile is live!" Investigating the Impact of Twitter/X Mentions on GitHub Sponsors ( http://arxiv.org/abs/2401.02755v1 ) ライセンス: Link先を確認 | Youmei Fan, Tao Xiao, Hideaki Hata, Christoph Treude, Kenichi Matsumoto | (参考訳) GitHub Sponsorsは2019年にローンチされ、GitHubのスローガンである"Invest in the projects depend on"のように、オープンソースソフトウェア開発者に資金提供を可能にする。
しかし、GitHub Sponsorsに関する2022年の調査では、スポンサーを求める開発者の5分の2だけが寄付を受けていた。
調査によると、内部アクション(スポンサーにパークを提供するなど)以外に、開発者はTwitter(別名X)のようなソーシャルメディア上でGitHub Sponsorsプロファイルを宣伝していた。
そこで本研究では,GitHub Sponsorsのプロフィールへのリンクを含むツイートがスポンサーシップやTwitter/Xでのレセプションに与える影響について検討する。
我々はさらに,これらのツイートの状況を理解するために,(1)このようなツイートが獲得したスポンサー数の増加に影響を及ぼすこと,(2)open collectiveやpatreonといった他の寄付プラットフォームと比較して,githubのスポンサーはインタラクションが著しく少ないがtwitter/xでより見えること,(3)ツイートを投稿する週内にオープンソースソフトウェアにより多くの貢献をする傾向があること,などを見出した。
私たちの発見は、ソーシャルメディアがオープンソースソフトウェアを維持するための資金獲得に与える影響を調査する第一歩です。 GitHub Sponsors was launched in 2019, enabling donations to open-source software developers to provide financial support, as per GitHub's slogan: "Invest in the projects you depend on". However, a 2022 study on GitHub Sponsors found that only two-fifths of developers who were seeking sponsorship received a donation. The study found that, other than internal actions (such as offering perks to sponsors), developers had advertised their GitHub Sponsors profiles on social media, such as Twitter (also known as X). Therefore, in this work, we investigate the impact of tweets that contain links to GitHub Sponsors profiles on sponsorship, as well as their reception on Twitter/X. We further characterize these tweets to understand their context and find that (1) such tweets have the impact of increasing the number of sponsors acquired, (2) compared to other donation platforms such as Open Collective and Patreon, GitHub Sponsors has significantly fewer interactions but is more visible on Twitter/X, and (3) developers tend to contribute more to open-source software during the week of posting such tweets. Our findings are the first step toward investigating the impact of social media on obtaining funding to sustain open-source software. | 翻訳日:2024-01-08 15:18:25 公開日:2024-01-05 |
# 最短ベイズリスク復号のためのハイパーパラメータフリー手法 Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2401.02749v1 ) ライセンス: Link先を確認 | Yuu Jinnai and Kaito Ariu | (参考訳) 最小ベイズリスクデコーディング(MBR)は、幅広いテキスト生成タスクに対するビームサーチデコーディングの強力な代替手段であることが示されている。
しかし、mbrはmbrの目的を計算するのに膨大な時間を必要とするため、応答時間が重要となる多くの状況でメソッドが実行不可能となる。
CBP (Cheng and Vlachos, 2023) は近年, 機械翻訳作業における推論時間を削減するために提案されている。
計算量を大幅に削減することが示されているが、効率的な開発セットを使用するハイパーパラメータチューニングが必要である。
そこで本研究では,MBRデコードを実行するハイパーパラメータフリーな手法であるAMBRデコードを提案する。
AMBRはサンプルベースMBR目標の計算がメドイド識別問題であることから導かれる。
ambrは、サンプルベースのmbrの目的を計算するために、メドロイドの識別問題に最も近い近似アルゴリズムであるcorrelationd sequential halving (csh)アルゴリズム(baharav and tse, 2019)を使用している。
機械翻訳,テキスト要約,画像キャプションタスクにおけるAMBRの評価を行った。
その結果, AMBR は CBP と同等であり, CBP は計算予算ごとに Oracle を介してハイパーパラメータを選択する。 Minimum Bayes-Risk (MBR) decoding is shown to be a powerful alternative to beam search decoding for a wide range of text generation tasks. However, MBR requires a huge amount of time for inference to compute the MBR objective, which makes the method infeasible in many situations where response time is critical. Confidence-based pruning (CBP) (Cheng and Vlachos, 2023) has recently been proposed to reduce the inference time in machine translation tasks. Although it is shown to significantly reduce the amount of computation, it requires hyperparameter tuning using a development set to be effective. To this end, we propose Approximate Minimum Bayes-Risk (AMBR) decoding, a hyperparameter-free method to run MBR decoding approximately. AMBR is derived from the observation that the problem of computing the sample-based MBR objective is the medoid identification problem. AMBR uses the Correlated Sequential Halving (CSH) algorithm (Baharav and Tse, 2019), the best approximation algorithm to date for the medoid identification problem, to compute the sample-based MBR objective. We evaluate AMBR on machine translation, text summarization, and image captioning tasks. The results show that AMBR achieves on par with CBP, with CBP selecting hyperparameters through an Oracle for each given computation budget. | 翻訳日:2024-01-08 15:18:01 公開日:2024-01-05 |
# フレーム間の読み上げ:ノンバーバルキューからのビデオにおけるマルチモーダルデプレッション検出 Reading Between the Frames: Multi-Modal Depression Detection in Videos from Non-Verbal Cues ( http://arxiv.org/abs/2401.02746v1 ) ライセンス: Link先を確認 | David Gimeno-G\'omez, Ana-Maria Bucur, Adrian Cosma, Carlos-David Mart\'inez-Hinarejos, Paolo Rosso | (参考訳) 世界的障害の顕著な貢献者であるうつ病は、人口のかなりの部分に影響する。
ソーシャルメディアのテキストからうつ病を検知する試みは広く行われているが、ユーザー生成ビデオコンテンツからうつ病を検出する研究はごくわずかである。
本研究では,非言語的抑うつの手がかりを,ノイズの多い実世界のビデオの様々なモードから識別できる,シンプルで柔軟なマルチモーダル時間モデルを提案することで,この研究ギャップに対処する。
実写ビデオでは,ハイレベルな非言語的手がかりを付加して高いパフォーマンスを実現することが重要であり,音声音声の埋め込み,表情感情の埋め込み,顔・身体・手のランドマーク,視線・点滅情報などが抽出・処理されている。
広範にわたる実験により,ビデオからの抑うつ検出のための3つの重要なベンチマークデータセットにおいて,本モデルが最先端の結果を得ることを示す。
私たちのコードはgithubで公開されている。 Depression, a prominent contributor to global disability, affects a substantial portion of the population. Efforts to detect depression from social media texts have been prevalent, yet only a few works explored depression detection from user-generated video content. In this work, we address this research gap by proposing a simple and flexible multi-modal temporal model capable of discerning non-verbal depression cues from diverse modalities in noisy, real-world videos. We show that, for in-the-wild videos, using additional high-level non-verbal cues is crucial to achieving good performance, and we extracted and processed audio speech embeddings, face emotion embeddings, face, body and hand landmarks, and gaze and blinking information. Through extensive experiments, we show that our model achieves state-of-the-art results on three key benchmark datasets for depression detection from video by a substantial margin. Our code is publicly available on GitHub. | 翻訳日:2024-01-08 15:17:36 公開日:2024-01-05 |
# MAMI:長周期ニューロンキャプションのためのマルチアテンショナル・ミューチュアル・インフォーム MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron Captioning ( http://arxiv.org/abs/2401.02744v1 ) ライセンス: Link先を確認 | Alfirsa Damasyifa Fauzulhaq, Wahyu Parwitayasa, Joseph Ananda Sugihdharma, M. Fadli Ridhani, Novanto Yudistira | (参考訳) ニューロンラベリング(neural labeling)は、あるニューロンの行動を可視化し、ニューロンを活性化する特定のパターンに応答するアプローチである。
ニューロンラベリングは、エンコーダ-デコーダ画像キャプションアプローチを使用するディープニューラルネットワークにおいて、特定のニューロンがキャプチャした特徴に関する情報を抽出する。
使用するエンコーダは事前訓練されたCNNベースのモデルであり、デコーダはテキスト生成のためのRNNベースのモデルである。
以前の研究、すなわちミラノ (mutual information-guided language annotation of neuron) は、エンコーダの修正されたshow, attend, tell (sat)モデルを用いてニューロンの挙動を可視化しようと試み、lstmはバーダナウの注意をデコーダに加えた。
短周期ニューロンキャプションではMILANは大きな効果を示すが,長周期ニューロンキャプションでは大きな効果は得られないため,本研究では,異なる種類の注意機構を利用してMILANの性能をさらに向上させ,また,複数の注意機構から得られるすべての利点を組み合わさるために,いくつかの注意結果を加えることで,MILANの性能をさらに向上したい。
複合データセットを用いて,提案モデルのbleuとf1-scoreをそれぞれ17.742と0.4811とした。
モデルがピークに収束するある時点で、我々のモデルはBLEU 21.2262 と BERTScore F1-Score 0.4870 を得た。 Neuron labeling is an approach to visualize the behaviour and respond of a certain neuron to a certain pattern that activates the neuron. Neuron labeling extract information about the features captured by certain neurons in a deep neural network, one of which uses the encoder-decoder image captioning approach. The encoder used can be a pretrained CNN-based model and the decoder is an RNN-based model for text generation. Previous work, namely MILAN (Mutual Information-guided Linguistic Annotation of Neuron), has tried to visualize the neuron behaviour using modified Show, Attend, and Tell (SAT) model in the encoder, and LSTM added with Bahdanau attention in the decoder. MILAN can show great result on short sequence neuron captioning, but it does not show great result on long sequence neuron captioning, so in this work, we would like to improve the performance of MILAN even more by utilizing different kind of attention mechanism and additionally adding several attention result into one, in order to combine all the advantages from several attention mechanism. Using our compound dataset, we obtained higher BLEU and F1-Score on our proposed model, achieving 17.742 and 0.4811 respectively. At some point where the model converges at the peak, our model obtained BLEU of 21.2262 and BERTScore F1-Score of 0.4870. | 翻訳日:2024-01-08 15:17:20 公開日:2024-01-05 |
# マルチジョブフェデレーション学習のためのフェアネスを考慮したジョブスケジューリング Fairness-Aware Job Scheduling for Multi-Job Federated Learning ( http://arxiv.org/abs/2401.02740v1 ) ライセンス: Link先を確認 | Yuxin Shi, Han Yu | (参考訳) フェデレートラーニング(FL)は、複数のデータ所有者(FLクライアント)が機密性の高いプライベートデータを開示することなく、協調的に機械学習モデルをトレーニングすることを可能にする。
既存のFL研究は主に、1つのFLサーバがFLクライアントのサブセットを選択して各トレーニングラウンドでローカルモデルを更新する独占シナリオに焦点を当てている。
実際には、複数のFLサーバが同時に同じプールからクライアントを選ぼうとしています。
本稿では,このギャップを埋めるためのFairFedJS(Federated Job Scheduling)アプローチを提案する。
lyapunov最適化に基づき、待ち時間が長くなるのを防ぐために、現在の需要と求職入札を共同で考慮し、要求の高いflクライアントデータセットをflジョブに公平に割り当てることを保証する。
FairFedJSと2つのデータセットに対する4つの最先端アプローチを比較した大規模な実験は、その大きな利点を示している。
これは、スケジューリングの公平さと収束時間に関して、平均で31.9%と1.0%という最高のベースラインを上回り、比較試験の正確さを実現している。 Federated learning (FL) enables multiple data owners (a.k.a. FL clients) to collaboratively train machine learning models without disclosing sensitive private data. Existing FL research mostly focuses on the monopoly scenario in which a single FL server selects a subset of FL clients to update their local models in each round of training. In practice, there can be multiple FL servers simultaneously trying to select clients from the same pool. In this paper, we propose a first-of-its-kind Fairness-aware Federated Job Scheduling (FairFedJS) approach to bridge this gap. Based on Lyapunov optimization, it ensures fair allocation of high-demand FL client datasets to FL jobs in need of them, by jointly considering the current demand and the job payment bids, in order to prevent prolonged waiting. Extensive experiments comparing FairFedJS against four state-of-the-art approaches on two datasets demonstrate its significant advantages. It outperforms the best baseline by 31.9% and 1.0% on average in terms of scheduling fairness and convergence time, respectively, while achieving comparable test accuracy. | 翻訳日:2024-01-08 15:16:52 公開日:2024-01-05 |
# 拡散変分推論:表現的変分後流としての拡散モデル Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors ( http://arxiv.org/abs/2401.02739v1 ) ライセンス: Link先を確認 | Top Piriyakulkij, Yingheng Wang, Volodymyr Kuleshov | (参考訳) 本研究では,拡散モデルを表現的変動後方として依存する潜在変数モデルの近似推論アルゴリズムであるdenoising diffusion variational inference (ddvi)を提案する。
本手法は,ユーザが特定したノージング過程を逆転させることにより,潜在空間で拡散するモデル群を表現的に生成する。
我々は、ウェイク・スリープアルゴリズムに触発された限界確率の新たな下限を最適化することで、これらのモデルに適合する。
本手法は実装が容易であり(elboの正規化拡張に適合する)、ブラックボックス変分推論と互換性があり、流れの正規化や逆ネットワークに基づく近似後流の代替クラスを上回る。
深層潜伏変数モデルに適用すると, DD-VAE (denoising diffusion VAE) アルゴリズムが生成される。
我々はこのアルゴリズムを、ヒトゲノムから潜伏する祖先を推定する生物学の動機づけタスクに利用し、数千のゲノムデータセットの強いベースラインを上回ります。 We propose denoising diffusion variational inference (DDVI), an approximate inference algorithm for latent variable models which relies on diffusion models as expressive variational posteriors. Our method augments variational posteriors with auxiliary latents, which yields an expressive class of models that perform diffusion in latent space by reversing a user-specified noising process. We fit these models by optimizing a novel lower bound on the marginal likelihood inspired by the wake-sleep algorithm. Our method is easy to implement (it fits a regularized extension of the ELBO), is compatible with black-box variational inference, and outperforms alternative classes of approximate posteriors based on normalizing flows or adversarial networks. When applied to deep latent variable models, our method yields the denoising diffusion VAE (DD-VAE) algorithm. We use this algorithm on a motivating task in biology -- inferring latent ancestry from human genomes -- outperforming strong baselines on the Thousand Genomes dataset. | 翻訳日:2024-01-08 15:16:33 公開日:2024-01-05 |
# 単一光子対と光子対の強い結合 Strong coupling between a single photon and a photon pair ( http://arxiv.org/abs/2401.02738v1 ) ライセンス: Link先を確認 | Shuai-Peng Wang, Alberto Mercurio, Alessandro Ridolfo, Yuqing Wang, Mo Chen, Tiefu Li, Franco Nori, Salvatore Savasta, and J. Q. You | (参考訳) 単一光子間の強い非線形結合の実現は、量子光学および量子情報科学における長年の目標であり、全光学決定論的量子論理や単一光子周波数変換といった幅広い応用を約束している。
本稿では, 単一光子対と光子対との強い結合を, 超強結合回路-QED系で実験的に観察する。
この強い非線形相互作用は、超伝導コプラナー導波路共振器の2モード間の有効カプラとして機能する変形束量子ビットを導入することで実現される。
超強光子相互作用は励起数保存を損ね、外部磁束バイアスはパリティ保存を損ねる。この2つの効果は強い1-2光子結合を可能にする。
第1モードの2光子共鳴周波数を第2モードの1光子共鳴周波数に合わせた場合、量子ラビ様の交差を回避する。
この新たなフォトニック状態の中では、平均光子数が1以下の2番目の調和生成を観測する。
この結果は、量子非線形光学の新展開に向けた重要な一歩であり、個々の光子は刺激場がなければ決定論的かつコヒーレントに相互に相互作用することができる。 The realization of strong nonlinear coupling between single photons has been a long-standing goal in quantum optics and quantum information science, promising wide impact applications, such as all-optical deterministic quantum logic and single-photon frequency conversion. Here, we report an experimental observation of the strong coupling between a single photon and a photon pair in an ultrastrongly-coupled circuit-QED system. This strong nonlinear interaction is realized by introducing a detuned flux qubit working as an effective coupler between two modes of a superconducting coplanar waveguide resonator. The ultrastrong light--matter interaction breaks the excitation number conservation, and an external flux bias breaks the parity conservation. The combined effect of the two enables the strong one--two-photon coupling. Quantum Rabi-like avoided crossing is resolved when tuning the two-photon resonance frequency of the first mode across the single-photon resonance frequency of the second mode. Within this new photonic regime, we observe the second harmonic generation for a mean photon number below one. Our results represent a key step towards a new regime of quantum nonlinear optics, where individual photons can deterministically and coherently interact with each other in the absence of any stimulating fields. | 翻訳日:2024-01-08 15:16:16 公開日:2024-01-05 |
# 脆弱性の詳細:グラフベースの検出器で識別された脆弱性コードのきめ細かい情報を見つける The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors ( http://arxiv.org/abs/2401.02737v1 ) ライセンス: Link先を確認 | Baijun Cheng, Kailong Wang, Cuiyun Gao, Xiapu Luo, Yulei Sui, Li Li, Yao Guo, Xiangqun Chen, Haoyu Wang | (参考訳) 脆弱性検出はソフトウェア開発ライフサイクルにおいて重要なコンポーネントです。
既存の脆弱性検出装置、特にディープラーニング(DL)モデルに基づく検出は、高い有効性を実現している。
Despite their capability of detecting vulnerable code snippets from given code fragments, the detectors are typically unable to further locate the fine-grained information pertaining to the vulnerability, such as the precise vulnerability triggering locations.In this paper, we propose VULEXPLAINER, a tool for automatically locating vulnerability-critical code lines from coarse-level vulnerable code snippets reported by DL-based detectors.Our approach takes advantage of the code structure and the semantics of the vulnerabilities.
具体的には、プログラムスライシングを利用して脆弱性トリガーと脆弱性依存のステートメントを含む重要なプログラムパスのセットを取得し、脆弱性に関連するデータフローとして最も重要なもの(サブグラフ)をランク付けします。
vulexplainerは、最先端のグラフ表現(gp)ベースの脆弱性検出器4つ、つまり、脆弱性をトリガーするコードステートメントを8つの一般的なc/c++脆弱性に対して90%の精度でフラグ付けし、広く使用されている5つのgnnベースの説明アプローチよりも優れていることを実証する。
vulexplainerは、プログラムスライシングとディープラーニングを統合することで、脆弱なコードフラグメントの解釈を可能にするという、有望な研究ラインへの洞察を提供するものだ。 Vulnerability detection is a crucial component in the software development lifecycle. Existing vulnerability detectors, especially those based on deep learning (DL) models, have achieved high effectiveness. Despite their capability of detecting vulnerable code snippets from given code fragments, the detectors are typically unable to further locate the fine-grained information pertaining to the vulnerability, such as the precise vulnerability triggering locations.In this paper, we propose VULEXPLAINER, a tool for automatically locating vulnerability-critical code lines from coarse-level vulnerable code snippets reported by DL-based detectors.Our approach takes advantage of the code structure and the semantics of the vulnerabilities. Specifically, we leverage program slicing to get a set of critical program paths containing vulnerability-triggering and vulnerability-dependent statements and rank them to pinpoint the most important one (i.e., sub-graph) as the data flow associated with the vulnerability. We demonstrate that VULEXPLAINER performs consistently well on four state-of-the-art graph-representation(GP)-based vulnerability detectors, i.e., it can flag the vulnerability-triggering code statements with an accuracy of around 90% against eight common C/C++ vulnerabilities, outperforming five widely used GNN-based explanation approaches. The experimental results demonstrate the effectiveness of VULEXPLAINER, which provides insights into a promising research line: integrating program slicing and deep learning for the interpretation of vulnerable code fragments. | 翻訳日:2024-01-08 15:15:56 公開日:2024-01-05 |
# nonsmooth autodiffの数値的信頼性について:maxpoolのケーススタディ On the numerical reliability of nonsmooth autodiff: a MaxPool case study ( http://arxiv.org/abs/2401.02736v1 ) ライセンス: Link先を確認 | Ryan Boustany (TSE-R) | (参考訳) 本稿では,非滑らかなMaxPool演算を含むニューラルネットワークにおける自動微分(AD)の信頼性について考察する。
我々は,様々なデータセット(MNIST, CIFAR10, SVHN, ImageNet)における,様々な精度レベル(16, 32, 64ビット)および畳み込みアーキテクチャ(LeNet, VGG, ResNet)におけるADの挙動について検討した。
AD は正しくないが、最近の研究では、非滑らかな操作(MaxPool や ReLU など)が存在する場合でも、ほとんどどこでも微分と一致することが示されている。
一方、実際にはADは浮動小数点数(実数ではない)で動くので、ADが数値的に正しくない部分集合を探索する必要がある。
これらのサブセットには、分岐ゾーン(実数ではadが正しくない)と補償ゾーン(浮動小数点数ではadが正しくないが実数では正しい)が含まれる。
sgdをトレーニングプロセスに用いて,maxpool関数に対する非スムースヤコビアンの異なる選択が16ビットと32ビットの精度に及ぼす影響について検討した。
これらの結果は,非平滑なマックスプールジャコビアンが安定かつ効率的なテスト精度を維持するのに有効であるのに対し,高ノルムのヤコビアンでは安定性が低下し,性能が低下することが示唆された。
また,maxpoolの非スムースジャコビアンが学習に与える影響を,バッチ正規化やadamライクオプティマイザ,あるいは精度向上によって低減できることを示した。 This paper considers the reliability of automatic differentiation (AD) for neural networks involving the nonsmooth MaxPool operation. We investigate the behavior of AD across different precision levels (16, 32, 64 bits) and convolutional architectures (LeNet, VGG, and ResNet) on various datasets (MNIST, CIFAR10, SVHN, and ImageNet). Although AD can be incorrect, recent research has shown that it coincides with the derivative almost everywhere, even in the presence of nonsmooth operations (such as MaxPool and ReLU). On the other hand, in practice, AD operates with floating-point numbers (not real numbers), and there is, therefore, a need to explore subsets on which AD can be numerically incorrect. These subsets include a bifurcation zone (where AD is incorrect over reals) and a compensation zone (where AD is incorrect over floating-point numbers but correct over reals). Using SGD for the training process, we study the impact of different choices of the nonsmooth Jacobian for the MaxPool function on the precision of 16 and 32 bits. These findings suggest that nonsmooth MaxPool Jacobians with lower norms help maintain stable and efficient test accuracy, whereas those with higher norms can result in instability and decreased performance. We also observe that the influence of MaxPool's nonsmooth Jacobians on learning can be reduced by using batch normalization, Adam-like optimizers, or increasing the precision level. | 翻訳日:2024-01-08 15:15:29 公開日:2024-01-05 |
# 多変量ベクトル値関数に対する共有アクティブ部分空間 Shared active subspace for multivariate vector-valued functions ( http://arxiv.org/abs/2401.02735v1 ) ライセンス: Link先を確認 | Khadija Musayeva (CRISAM), Mickael Binois (ACUMES) | (参考訳) 本稿では,多変量ベクトル値関数に対する共有アクティブ部分空間の基底線としていくつかのアプローチを提案する。
その目的は、元の空間における機能評価と再構成された空間における機能評価の偏差を最小化することである。
これは、各成分関数の勾配から計算された対称正(セミ)行列または対称正(spd)行列を操作して、すべての成分関数に共通な単一の構造を得ることにより行われる。
これらのアプローチは、正規分布に制約された既存のベクトル値法とは異なり、基礎となる分布に関係なく任意のデータに適用することができる。
これらの手法の有効性を5つの最適化問題で検証した。
実験により、一般に、spdレベル法は勾配レベルよりも優れており、正規分布の場合のベクトル値のアプローチに近いことが示されている。
興味深いことに、ほとんどの場合、最高の共有アクティブ部分空間を特定するためにSPD行列の和を取るだけで十分である。 This paper proposes several approaches as baselines to compute a shared active subspace for multivariate vector-valued functions. The goal is to minimize the deviation between the function evaluations on the original space and those on the reconstructed one. This is done either by manipulating the gradients or the symmetric positive (semi-)definite (SPD) matrices computed from the gradients of each component function so as to get a single structure common to all component functions. These approaches can be applied to any data irrespective of the underlying distribution unlike the existing vector-valued approach that is constrained to a normal distribution. We test the effectiveness of these methods on five optimization problems. The experiments show that, in general, the SPD-level methods are superior to the gradient-level ones, and are close to the vector-valued approach in the case of a normal distribution. Interestingly, in most cases it suffices to take the sum of the SPD matrices to identify the best shared active subspace. | 翻訳日:2024-01-08 15:14:58 公開日:2024-01-05 |
# ロボット操作のためのオブジェクト中心命令拡張 Object-Centric Instruction Augmentation for Robotic Manipulation ( http://arxiv.org/abs/2401.02814v1 ) ライセンス: Link先を確認 | Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, and Jian Tang | (参考訳) 人間は観察における物体のアイデンティティと位置の両方を認識することによって、シーンを解釈する。
ロボットが<enquote{pick and place}のようなタスクを実行するためには、対象と場所の両方を理解することが重要です。
前者は大きな言語モデルを用いて文章の記述を豊かにする文献で広く議論されてきたが、後者は未解明のままである。
本稿では,高度に意味的かつ情報に富む言語インストラクションを位置手がかりで拡張する, \textit{object-centric instruction augmentedation (oci)} フレームワークを提案する。
我々はMLLM(Multi-modal Large Language Model)を用いて、オブジェクト位置の知識を自然言語指導に織り込むことにより、多目的操作のためのアクションをマスターするポリシーネットワークを支援する。
さらに、市販のMLLMからポリシーネットワークに視覚言語機能を統合するための機能再利用機構を提案する。
シミュレーションされた実世界のロボットタスクを通じて、強化された指示で訓練されたロボットマニピュレータの模倣ポリシーが、従来の言語命令にのみ依存する人よりも優れていることを示す。 Humans interpret scenes by recognizing both the identities and positions of objects in their observations. For a robot to perform tasks such as \enquote{pick and place}, understanding both what the objects are and where they are located is crucial. While the former has been extensively discussed in the literature that uses the large language model to enrich the text descriptions, the latter remains underexplored. In this work, we introduce the \textit{Object-Centric Instruction Augmentation (OCI)} framework to augment highly semantic and information-dense language instruction with position cues. We utilize a Multi-modal Large Language Model (MLLM) to weave knowledge of object locations into natural language instruction, thus aiding the policy network in mastering actions for versatile manipulation. Additionally, we present a feature reuse mechanism to integrate the vision-language features from off-the-shelf pre-trained MLLM into policy networks. Through a series of simulated and real-world robotic tasks, we demonstrate that robotic manipulator imitation policies trained with our enhanced instructions outperform those relying solely on traditional language instructions. | 翻訳日:2024-01-08 15:07:09 公開日:2024-01-05 |
# 熱方程式の高速進化:断熱状態における可変熱輸送 Fast forward evolution in heat equation:Tunable heat transport in adiabatic regime ( http://arxiv.org/abs/2401.02812v1 ) ライセンス: Link先を確認 | J. Matrasulov, J.R. Yusupov and A.A. Saidov | (参考訳) 熱方程式を用いて記述したプロセスの高速進行進化の問題を考察する。
この問題は、拡張時間依存のボックス上で検討されている。
伝熱過程の加速に注意が払われている。
いわゆる断熱性へのショートカットは、断熱状態の高速転送を意味する。
熱流束と温度プロファイルは標準および高速に進行する領域で分析される。 We consider the problem of fast forward evolution of the processes described in terms of the heat equation. The matter is considered on an adiabatically expanding time-dependent box. Attention is paid to acceleration of heat transfer processes. So called shortcuts to adiabaticity, implying fast forwarding of the adiabatic states are studied. Heat flux and temperature profiles are analyzed for standard and fast forwarded regimes. | 翻訳日:2024-01-08 15:06:47 公開日:2024-01-05 |
# 移動学習を用いた高周波・マルチスケール問題に対する物理インフォームニューラルネットワーク Physics-Informed Neural Networks for High-Frequency and Multi-Scale Problems using Transfer Learning ( http://arxiv.org/abs/2401.02810v1 ) ライセンス: Link先を確認 | Abdul Hannan Mustajab, Hao Lyu, Zarghaam Rizvi, Frank Wuttke | (参考訳) physics-informed neural network (pinn) は、偏微分方程式(odes/pdes)のためのデータ駆動型解法である。
前方および逆問題に対処するための統一されたフレームワークを提供する。
しかし、目的関数の複雑さは、しばしばトレーニングの失敗につながる。
この問題は、高周波およびマルチスケールの問題を解決する際に特に顕著である。
我々は,低周波問題からトレーニングを開始し,徐々に高周波問題にアプローチし,PINNの堅牢性と収束性を高めるために伝達学習を用いた。
その結果,ネットワークパラメータを増加させることなく,低周波問題から高周波問題への近似解としてpinnを効果的に学習できることが判明した。
さらに、データポイントの削減とトレーニング時間の短縮も必要だ。
我々は、オプティマイザの選択を含むトレーニング戦略を詳しく説明し、トランスファーラーニングを使用してより複雑な問題を解決するためにニューラルネットワークをトレーニングするためのガイドラインを提案した。 Physics-informed neural network (PINN) is a data-driven solver for partial and ordinary differential equations(ODEs/PDEs). It provides a unified framework to address both forward and inverse problems. However, the complexity of the objective function often leads to training failures. This issue is particularly prominent when solving high-frequency and multi-scale problems. We proposed using transfer learning to boost the robustness and convergence of training PINN, starting training from low-frequency problems and gradually approaching high-frequency problems. Through two case studies, we discovered that transfer learning can effectively train PINN to approximate solutions from low-frequency problems to high-frequency problems without increasing network parameters. Furthermore, it requires fewer data points and less training time. We elaborately described our training strategy, including optimizer selection, and suggested guidelines for using transfer learning to train neural networks for solving more complex problems. | 翻訳日:2024-01-08 15:06:43 公開日:2024-01-05 |
# diffbody:拡散ベースのポーズと人間の画像の形状編集 Diffbody: Diffusion-based Pose and Shape Editing of Human Images ( http://arxiv.org/abs/2401.02804v1 ) ライセンス: Link先を確認 | Yuta Okuyama, Yuki Endo, Yoshihiro Kanamori | (参考訳) 人間の画像における姿勢と身体形状の編集に注目が集まっている。
しかし、現在の手法は、ユーザーが大規模な編集を行うとき、しばしばデータセットバイアスと現実主義を悪化させる。
本稿では,アイデンティティを保存した大規模な編集を可能にするワンショットアプローチを提案する。
大きな編集を可能にするため、3Dボディモデルに適合し、入力画像を3Dモデルに投影し、身体のポーズと形状を変更する。
この初期テクスチャボディーモデルは、閉塞や不正確な体形によるアーティファクトを有するため、強いノイズが体の構造やアイデンティティを損なうが、不十分なノイズは役に立たない拡散ベースの精細化を行う。
そこで我々は,まず体全体に適用し,次に顔に適応する,ノイズの少ない反復的な改良を提案する。
自己教師付き学習によるテキスト埋め込みの微調整により、リアリズムをさらに強化する。
定量的および定性的な評価は,本手法が他の既存手法よりも優れていることを示す。 Pose and body shape editing in a human image has received increasing attention. However, current methods often struggle with dataset biases and deteriorate realism and the person's identity when users make large edits. We propose a one-shot approach that enables large edits with identity preservation. To enable large edits, we fit a 3D body model, project the input image onto the 3D model, and change the body's pose and shape. Because this initial textured body model has artifacts due to occlusion and the inaccurate body shape, the rendered image undergoes a diffusion-based refinement, in which strong noise destroys body structure and identity whereas insufficient noise does not help. We thus propose an iterative refinement with weak noise, applied first for the whole body and then for the face. We further enhance the realism by fine-tuning text embeddings via self-supervised learning. Our quantitative and qualitative evaluations demonstrate that our method outperforms other existing methods across various datasets. | 翻訳日:2024-01-08 15:06:27 公開日:2024-01-05 |
# Credence: ML予測によるデータセンタスイッチバッファ共有の強化 Credence: Augmenting Datacenter Switch Buffer Sharing with ML Predictions ( http://arxiv.org/abs/2401.02801v1 ) ライセンス: Link先を確認 | Vamsi Addanki, Maciej Pacut and Stefan Schmid | (参考訳) データセンタスイッチのパケットバッファは、全体のスループットを改善するために、すべてのスイッチポートで共有される。
データセンタースイッチのバッファサイズを縮小する傾向は、バッファ共有を非常に困難にし、重要なパフォーマンス問題となっている。
文献によると、プッシュアウトバッファ共有アルゴリズムはドロップテールアルゴリズムよりも性能保証がはるかに優れている。
残念ながら、ハードウェアでのプッシュアウト操作のサポートがないため、スイッチはこれらのアルゴリズムの恩恵を受けることができない。
私たちのキーとなる観察は、将来のパケット到着が事前に分かっている場合、ドロップテールバッファはプッシュアウトバッファをエミュレートできるということです。
これは、将来的な到着予測を伴うドロップテールアルゴリズムの強化が、パフォーマンスを大幅に改善する可能性を示唆している。
本稿は,本研究の最初の試みである。
機械学習予測を付加したドロップテールバッファ共有アルゴリズムであるCredenceを提案する。
Credenceは、これまでプッシュアウトアルゴリズムでしか達成できなかったパフォーマンスをアンロックできる。
その性能は予測の正確さにかかっている。
具体的には,最もよく知られたプッシュアウトアルゴリズムであるLQD(Longest Queue Drop)の最適性能を完璧に予測するが,予測誤差が任意に悪くなると,最も単純なドロップテールアルゴリズムであるComplete Sharingの性能に優しく低下する。
評価の結果,従来の手法に比べてスループットが1.5ドル向上した。
フローコンプリート時間の観点からは、Credenceは、現在のハードウェアでも実用的な既製の機械学習技術を使用して、最先端のアプローチを最大9,5\%改善することを示す。
本稿の最後に論じるシステムと理論の両方において、この研究がいくつかの興味深い将来的な仕事の機会を開くと信じている。 Packet buffers in datacenter switches are shared across all the switch ports in order to improve the overall throughput. The trend of shrinking buffer sizes in datacenter switches makes buffer sharing extremely challenging and a critical performance issue. Literature suggests that push-out buffer sharing algorithms have significantly better performance guarantees compared to drop-tail algorithms. Unfortunately, switches are unable to benefit from these algorithms due to lack of support for push-out operations in hardware. Our key observation is that drop-tail buffers can emulate push-out buffers if the future packet arrivals are known ahead of time. This suggests that augmenting drop-tail algorithms with predictions about the future arrivals has the potential to significantly improve performance. This paper is the first research attempt in this direction. We propose Credence, a drop-tail buffer sharing algorithm augmented with machine-learned predictions. Credence can unlock the performance only attainable by push-out algorithms so far. Its performance hinges on the accuracy of predictions. Specifically, Credence achieves near-optimal performance of the best known push-out algorithm LQD (Longest Queue Drop) with perfect predictions, but gracefully degrades to the performance of the simplest drop-tail algorithm Complete Sharing when the prediction error gets arbitrarily worse. Our evaluations show that Credence improves throughput by $1.5$x compared to traditional approaches. In terms of flow completion times, we show that Credence improves upon the state-of-the-art approaches by up to $95\%$ using off-the-shelf machine learning techniques that are also practical in today's hardware. We believe this work opens several interesting future work opportunities both in systems and theory that we discuss at the end of this paper. | 翻訳日:2024-01-08 15:06:10 公開日:2024-01-05 |
# PeFoMed: 医用視覚質問応答のための多モーダル大言語モデルのパラメータ最適化 PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering ( http://arxiv.org/abs/2401.02797v1 ) ライセンス: Link先を確認 | Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong | (参考訳) MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表すもので、純粋にテキストベースのアプリケーションの範囲を超えた課題に取り組むことができる。
以前はこれらの言語モデルにエンコードされていた知識を活用し、マルチモーダルな文脈における適用性と機能を向上させる。
近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。
本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。
性能を正確に測定するために,人間による評価を行い,本モデルが全体の精度81.9%を達成し,クローズドエンドの質問に対して,gpt-4vモデルに26%の絶対精度のかなりのマージンで勝ることを示した。
コードは、https://github.com/jinlHe/PeFoMed.comで入手できる。 Multimodal large language models (MLLMs) represent an evolutionary expansion in the capabilities of traditional large language models, enabling them to tackle challenges that surpass the scope of purely text-based applications. It leverages the knowledge previously encoded within these language models, thereby enhancing their applicability and functionality in the reign of multimodal contexts. Recent works investigate the adaptation of MLLMs to predict free-form answers as a generative task to solve medical visual question answering (Med-VQA) tasks. In this paper, we propose a parameter efficient framework for fine-tuning MLLM specifically tailored to Med-VQA applications, and empirically validate it on a public benchmark dataset. To accurately measure the performance, we employ human evaluation and the results reveal that our model achieves an overall accuracy of 81.9%, and outperforms the GPT-4v model by a significant margin of 26% absolute accuracy on closed-ended questions. The code will be available here: https://github.com/jinlHe/PeFoMed. | 翻訳日:2024-01-08 15:05:45 公開日:2024-01-05 |
# インドのソーシャルメディア映像品質の主観的・客観的分析 Subjective and Objective Analysis of Indian Social Media Video Quality ( http://arxiv.org/abs/2401.02794v1 ) ライセンス: Link先を確認 | Sandeep Mishra, Mukul Jha, Alan C. Bovik | (参考訳) インドのソーシャルメディアプラットフォームsharechatから取得したモバイル動画群において,ユーザ生成モバイルビデオコンテンツの知覚的品質に関する大規模主観的研究を行った。
コントロールされた実験室条件下で被験者が見るコンテンツは、既存のUGCビデオ品質データセットを文化的に多様化する利点がある。
ビジュアルインターネットとソーシャルメディアプラットフォームの爆発的なグローバルな成長を考えると、大規模で多様なUGC-VQAデータセットには大きなニーズがあります。
これは特に、スマートフォンが入手したビデオ、特にインドのような急速に発展する経済において、当てはまる。
sharechatは、ユーザーが好みのインドの言語や方言でコンテンツを作成、共有できる、安全で文化的コミュニティ指向のスペースを提供する。
このデータに基づく主観的品質研究は,映像品質研究コミュニティに文化的,視覚的,言語的多様化の促進をもたらす。
この新たなデータリソースにより、インドのソーシャルメディアビデオの視覚的品質を予測し、ストリーミングのスケーリングと圧縮プロトコルを制御し、より良いユーザレコメンデーションを提供し、コンテンツ分析と処理をガイドするシステムの開発も可能になると期待している。
本研究では,映像品質予測のための専門家の混合を展開するmoeva(moeva)という新しいモデルを含む,視覚障害者向け映像品質モデルの研究を通じて,新たなデータ資源の価値を実証する。
新しいLIVE-ShareChatデータセットとMoEVAのサンプルソースコードは、https://github.com/sandeep-sm/LIVE-SCで研究コミュニティに無料で提供される。 We conducted a large-scale subjective study of the perceptual quality of User-Generated Mobile Video Content on a set of mobile-originated videos obtained from the Indian social media platform ShareChat. The content viewed by volunteer human subjects under controlled laboratory conditions has the benefit of culturally diversifying the existing corpus of User-Generated Content (UGC) video quality datasets. There is a great need for large and diverse UGC-VQA datasets, given the explosive global growth of the visual internet and social media platforms. This is particularly true in regard to videos obtained by smartphones, especially in rapidly emerging economies like India. ShareChat provides a safe and cultural community oriented space for users to generate and share content in their preferred Indian languages and dialects. Our subjective quality study, which is based on this data, offers a boost of cultural, visual, and language diversification to the video quality research community. We expect that this new data resource will also allow for the development of systems that can predict the perceived visual quality of Indian social media videos, to control scaling and compression protocols for streaming, provide better user recommendations, and guide content analysis and processing. We demonstrate the value of the new data resource by conducting a study of leading blind video quality models on it, including a new model, called MoEVA, which deploys a mixture of experts to predict video quality. Both the new LIVE-ShareChat dataset and sample source code for MoEVA are being made freely available to the research community at https://github.com/sandeep-sm/LIVE-SC | 翻訳日:2024-01-08 15:05:23 公開日:2024-01-05 |
# 低侵襲手術ビデオにおける弱半教師付きツール検出 Weakly Semi-supervised Tool Detection in Minimally Invasive Surgery Videos ( http://arxiv.org/abs/2401.02791v1 ) ライセンス: Link先を確認 | Ryo Fujii and Ryo Hachiuma and Hideo Saito | (参考訳) 外科的ツール検出は、最小侵襲の手術ビデオの分析と評価に不可欠である。
現在のアプローチは、主に大きなインスタンスレベルのラベル(すなわちバウンディングボックス)を必要とする教師付きメソッドに基づいている。
しかし、アノテーションの負担のため、インスタンスレベルのラベルを持つ大きな画像データセットは制限されることが多い。
したがって、画像レベルのアノテーションはインスタンスレベルのアノテーションよりもはるかに時間効率がよいため、インスタンスレベルのラベルの代わりに画像レベルのラベルを提供する場合、手術用ツールの検出が重要である。
本研究では,非常にコストのかかるアノテーション負荷と検出性能のバランスをとることを提案する。
さらに,画像レベルのラベルを活用するために,複数のツールペアが画像内で共起する特性を考慮した共起損失を提案する。
共起損失を用いた共起知識のカプセル化は、いくつかのツールが類似した形状やテクスチャを持っているという事実から生じる分類の難しさを克服するのに役立つ。
各種データ設定におけるEndovis2018データセットの大規模な実験により,本手法の有効性が示された。 Surgical tool detection is essential for analyzing and evaluating minimally invasive surgery videos. Current approaches are mostly based on supervised methods that require large, fully instance-level labels (i.e., bounding boxes). However, large image datasets with instance-level labels are often limited because of the burden of annotation. Thus, surgical tool detection is important when providing image-level labels instead of instance-level labels since image-level annotations are considerably more time-efficient than instance-level annotations. In this work, we propose to strike a balance between the extremely costly annotation burden and detection performance. We further propose a co-occurrence loss, which considers a characteristic that some tool pairs often co-occur together in an image to leverage image-level labels. Encapsulating the knowledge of co-occurrence using the co-occurrence loss helps to overcome the difficulty in classification that originates from the fact that some tools have similar shapes and textures. Extensive experiments conducted on the Endovis2018 dataset in various data settings show the effectiveness of our method. | 翻訳日:2024-01-08 15:04:58 公開日:2024-01-05 |
# 植物生物学における大規模言語モデル Large Language Models in Plant Biology ( http://arxiv.org/abs/2401.02789v1 ) ライセンス: Link先を確認 | Hilbert Yuen In Lam, Xing Er Ong, Marek Mutwil | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、嵐によって世界を席巻し、チューリングテストのある種の形式をパスした。
しかし、LLMは人間の言語に限らず、DNA、タンパク質、遺伝子発現などのシーケンシャルなデータを解析する。
得られた基礎モデルはデータ内の複雑なパターンを識別するために再利用することができ、これにより細胞システムを説明する強力な多目的予測ツールが得られる。
本稿では,様々なタイプのllmの概要と,その最近の生物学利用について概説する。
LLMは、まだ植物コミュニティに受け入れられていないので、これらのモデルがどのように植物王国に展開できるかについても取り上げる。 Large Language Models (LLMs), such as ChatGPT, have taken the world by storm and have passed certain forms of the Turing test. However, LLMs are not limited to human language and analyze sequential data, such as DNA, protein, and gene expression. The resulting foundation models can be repurposed to identify the complex patterns within the data, resulting in powerful, multi-purpose prediction tools able to explain cellular systems. This review outlines the different types of LLMs and showcases their recent uses in biology. Since LLMs have not yet been embraced by the plant community, we also cover how these models can be deployed for the plant kingdom. | 翻訳日:2024-01-08 15:04:42 公開日:2024-01-05 |
# 圧倒的なソフトウェア開発者: 解釈的表現論的分析 Overwhelmed software developers: An Interpretative Phenomenological Analysis ( http://arxiv.org/abs/2401.02780v1 ) ライセンス: Link先を確認 | Lisa-Marie Michels, Aleksandra Petkova, Marcel Richter, Andreas Farley, Daniel Graziotin, Stefan Wagner | (参考訳) 本稿では,ソフトウェア開発における過圧経験に関する解釈現象分析(IPA)研究について報告する。
したがって、この研究の目的は、開発者が圧倒されたときの経験、それが生産性にどのように影響し、プロセスでどの役割のストレスが働くかを理解することです。
この目的のために、最近圧倒された経験のある2人のソフトウェアエンジニアにインタビューした。
共有経験の質的分析を通じて,コミュニケーション,障害,組織,多様性,技術的,時間的,肯定的な圧倒の7つのカテゴリを明らかにする。
最初の6つのテーマはすべて生産性やストレスの低下を含むネガティブな結果に関連しているが、参加者はオーバーヘルムは時としてポジティブで心地よいと経験でき、精神的集中力、自己野心、生産性を高めることができると報告した。
ストレスは圧倒されたときに最も言及された感覚だった。
私たちの発見は、概して、他の分野や他の参加者による同様の研究の方向性に沿っています。
しかし、オーバーヘルムのネガティブな経験を緩和するソフトウェア開発者には、ユニークな特性があるかもしれない。 In this paper, we report on an Interpretive Phenomenological Analysis (IPA) study on experiencing overwhelm in a software development context. The objectives of our study are, hence, to understand the experiences developers have when being overwhelmed, how this impacts their productivity and which role stress plays in the process. To this end, we interviewed two software developers who have experienced overwhelm recently. Throughout a qualitative analysis of the shared experiences, we uncover seven categories of overwhelm (communication, disturbance, organizational, variety, technical, temporal, and positive overwhelm). While the first six themes all are related to negative outcomes, including low productivity and stress, the participants reported that overwhelm can sometimes be experienced to be positive and pleasant, and it can increase their mental focus, self ambition, and productivity. Stress was the most mentioned feeling experienced when overwhelmed. Our findings, for the most, are along the same direction of similar studies from other disciplines and with other participants. However, there may be unique attributes to software developers that mitigate the negative experiences of overwhelm. | 翻訳日:2024-01-08 15:04:31 公開日:2024-01-05 |
# 重力波による量子バレエ--量子系におけるリバイバル崩壊と記憶の絡み合いのダンスの生成 Quantum ballet by gravitational waves: Generating entanglement's dance of revival-collapse and memory within the quantum system ( http://arxiv.org/abs/2401.02778v1 ) ライセンス: Link先を確認 | Partha Nandi, Bibhas Ranjan Majhi, Nandita Debnath, Subhajit Kala | (参考訳) 近年、古典的な重力によって媒介される絡み合いを実験的に検出する手法が提案されている。
実際、LIGOにおける重力波(GW)の検出は、様々な重力関連特性をテストするための代替実験室を提供する。
LIGOの腕を重力波(GW)と相互作用する振動子として利用することにより、単純な高調波振動子の2つの直交モード間の量子絡みを発生させる可能性を示す。
本研究は,GW発振による周期的「崩壊と回復」や,異なる「量子記憶効果」を含む,ユニークな絡み合いのダイナミクスを明らかにする。
我々は、これらの予測が重力波の量子性を検証する理論的および実験的の両方に有益であると信じている。 Recent proposals are emerging for the experimental detection of entanglement mediated by classical gravity, carrying significant theoretical and observational implications. In fact, the detection of gravitational waves (GWs) in LIGO provides an alternative laboratory for testing various gravity-related properties. By employing LIGO's arms as oscillators interacting with gravitational waves (GWs), our study demonstrates the potential for generating quantum entanglement between two mutually orthogonal modes of simple harmonic oscillators. Our findings reveal unique entanglement dynamics, including periodic ``collapse and revival" influenced by GW oscillations, alongside a distinct ``quantum memory effect." We believe that these forecasts may hold significance for both theoretically probing and experimentally verifying the quantumness of gravitational waves. | 翻訳日:2024-01-08 15:04:15 公開日:2024-01-05 |
# LLMから会話エージェントへ:大規模言語モデルの微調整によるメモリ拡張アーキテクチャ From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2401.02777v1 ) ライセンス: Link先を確認 | Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui | (参考訳) 本稿では,GPT-4のような大規模言語モデル(LLM)を対話エージェントに統合する高度なアーキテクチャであるRAISE(Reasoning and Acting through Scratchpad and Examples)を紹介する。
ReActフレームワークの強化であるRAISEは、会話におけるコンテキストと連続性を維持するために、人間の短期記憶と長期記憶をミラーするデュアルコンポーネントメモリシステムを備えている。
会話の選択、シーン抽出、CoT補完、Scene Augmentationなどのフェーズを含む包括的なエージェント構築シナリオが含まれており、LLMsトレーニングフェーズにつながっている。
このアプローチは複雑なマルチターン対話におけるエージェント制御性と適応性を高める。
不動産販売のコンテキストにおける当社の予備的な評価は、augmentが従来のエージェントよりもいくつかの利点があることを示唆している。
この研究は、よりコンテキスト対応で多用途な会話エージェントを開発するための堅牢なフレームワークを提供することで、ai分野に貢献する。 This paper introduces RAISE (Reasoning and Acting through Scratchpad and Examples), an advanced architecture enhancing the integration of Large Language Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of the ReAct framework, incorporates a dual-component memory system, mirroring human short-term and long-term memory, to maintain context and continuity in conversations. It entails a comprehensive agent construction scenario, including phases like Conversation Selection, Scene Extraction, CoT Completion, and Scene Augmentation, leading to the LLMs Training phase. This approach appears to enhance agent controllability and adaptability in complex, multi-turn dialogues. Our preliminary evaluations in a real estate sales context suggest that RAISE has some advantages over traditional agents, indicating its potential for broader applications. This work contributes to the AI field by providing a robust framework for developing more context-aware and versatile conversational agents. | 翻訳日:2024-01-08 15:04:00 公開日:2024-01-05 |
# HD-EMG電極サブセットを用いたジェスチャー認識におけるタグリング電極シフト Tackling Electrode Shift In Gesture Recognition with HD-EMG Electrode Subsets ( http://arxiv.org/abs/2401.02773v1 ) ライセンス: Link先を確認 | Joao Pereira, Dimitrios Chalatsis, Balint Hodossy and Dario Farina | (参考訳) sEMGパターン認識アルゴリズムは、運動意図の復号化において広範囲に研究されてきたが、記録条件の変化に弱いことが知られており、被験者、さらにはセッション間のパフォーマンスが著しく低下している。
高密度sEMG(HD-sEMG)システムとも呼ばれる多チャネル表面EMGは、追加電極を用いて収集した情報により性能を向上させるために用いられている。
しかし、限られたデータセットと電極配置のような可変性源に対処する困難さのため、堅牢性の欠如はかつてない。
本研究では,入力チャネルサブセットの収集と異なる電極位置のデータによるトレーニング分布の増大について,同時に電極シフトを目標とし,入力次元を低減することを提案する。
本手法は電極シフトに対するロバスト性を高め,対象と分類アルゴリズムの相互セッション性能を著しく向上させる。 sEMG pattern recognition algorithms have been explored extensively in decoding movement intent, yet are known to be vulnerable to changing recording conditions, exhibiting significant drops in performance across subjects, and even across sessions. Multi-channel surface EMG, also referred to as high-density sEMG (HD-sEMG) systems, have been used to improve performance with the information collected through the use of additional electrodes. However, a lack of robustness is ever present due to limited datasets and the difficulties in addressing sources of variability, such as electrode placement. In this study, we propose training on a collection of input channel subsets and augmenting our training distribution with data from different electrode locations, simultaneously targeting electrode shift and reducing input dimensionality. Our method increases robustness against electrode shift and results in significantly higher intersession performance across subjects and classification algorithms. | 翻訳日:2024-01-08 15:03:43 公開日:2024-01-05 |
# 自然言語への複雑システムアプローチ Complex systems approach to natural language ( http://arxiv.org/abs/2401.02772v1 ) ライセンス: Link先を確認 | Tomasz Stanisz, Stanis{\l}aw Dro\.zd\.z, Jaros{\l}aw Kwapie\'n | (参考訳) 本総説では,複雑性科学の観点からの自然言語研究における主要な方法論的概念を要約し,自然言語の普遍的特徴と体系的特徴の両方をその表現で識別する適用性について述べる。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
第1部はテキスト中の単語頻度の問題に対処し、句読点を考慮に入れれば、Zipfの法則違反が頻繁に見られるスケールが回復することを示した。
第2部では, 時系列解析にインスパイアされた手法を導入し, テキストの相互関係について検討する。
関連時系列は、テキストを文に分割したり、連続した句読点間のフレーズに分割して生成される。
これらの系列は、長距離相関や(多重)フラクタル構造のような複雑な系によって生成される信号にしばしば現れる特徴を発達させることが判明した。
また,句読点間の距離はワイブル分布の離散的変種に適合していると考えられる。
第3部では、自然言語へのネットワーク形式化の適用について、特にいわゆるワード・アジャクシー・ネットワークの文脈で検討する。
このようなネットワークのトポロジーを特徴付けるパラメータは、例えば、スタイロメトリの観点から、テキストの分類に使用できる。
ネットワークアプローチは、ワードアソシエーションの組織を表現するためにも適用できる。
単語連想ネットワークの構造は、ランダムネットワークで観測されたものとは大きく異なり、言語の真の特性が明らかにされる。
最後に、句読点は言語の情報伝達能力だけでなく、その重要な統計特性にも大きな影響を与えているようで、句読点を単語と同等に考えることが推奨されている。 The review summarizes the main methodological concepts used in studying natural language from the perspective of complexity science and documents their applicability in identifying both universal and system-specific features of language in its written representation. Three main complexity-related research trends in quantitative linguistics are covered. The first part addresses the issue of word frequencies in texts and demonstrates that taking punctuation into consideration restores scaling whose violation in the Zipf's law is often observed for the most frequent words. The second part introduces methods inspired by time series analysis, used in studying various kinds of correlations in written texts. The related time series are generated on the basis of text partition into sentences or into phrases between consecutive punctuation marks. It turns out that these series develop features often found in signals generated by complex systems, like long-range correlations or (multi)fractal structures. Moreover, it appears that the distances between punctuation marks comply with the discrete variant of the Weibull distribution. In the third part, the application of the network formalism to natural language is reviewed, particularly in the context of the so-called word-adjacency networks. Parameters characterizing topology of such networks can be used for classification of texts, for example, from a stylometric perspective. Network approach can also be applied to represent the organization of word associations. Structure of word-association networks turns out to be significantly different from that observed in random networks, revealing genuine properties of language. Finally, punctuation seems to have a significant impact not only on the language's information-carrying ability but also on its key statistical properties, hence it is recommended to consider punctuation marks on a par with words. | 翻訳日:2024-01-08 15:03:27 公開日:2024-01-05 |
# 核埋め込み型関数型ディープニューラルネットワークによる非線形関数回帰 Nonlinear functional regression by functional deep neural network with kernel embedding ( http://arxiv.org/abs/2401.02890v1 ) ライセンス: Link先を確認 | Zhongjie Shi, Jun Fan, Linhao Song, Ding-Xuan Zhou, Johan A.K. Suykens | (参考訳) 近年, 音声認識, 画像分類, 自然言語処理などの科学・技術分野におけるディープラーニングの急速な発展に伴い, 機能的データ分析 (FDA) にも応用され, 実証的な成功を収めている。
しかし、無限次元入力のため、特に非線形機能回帰において、関数型学習タスクに強力な次元還元法が必要である。
本稿では,スムースなカーネル積分変換の考え方に基づいて,効率良くデータ依存次元低減手法を備えた関数型深層ニューラルネットワークを提案する。
機能ネットのアーキテクチャは、データ依存の滑らかなカーネルによる積分変換、投影ステップ、埋め込みカーネルに基づく固有関数に基づく投影による次元縮小、そして最後に予測のための表現豊かな深部ReLUニューラルネットワークからなる。
このスムーズなカーネル埋め込みの利用により、我々の関数ネットは離散化不変であり、効率的で、ノイズの多い観測が可能であり、入力関数と応答データの両方の情報を活用でき、未経験の一般化性能の離散点数に対する要求が低い。
近似誤差や一般化誤差解析を含む理論的解析を行い,関数ネットの利点を検証するために数値シミュレーションを行う。 With the rapid development of deep learning in various fields of science and technology, such as speech recognition, image classification, and natural language processing, recently it is also widely applied in the functional data analysis (FDA) with some empirical success. However, due to the infinite dimensional input, we need a powerful dimension reduction method for functional learning tasks, especially for the nonlinear functional regression. In this paper, based on the idea of smooth kernel integral transformation, we propose a functional deep neural network with an efficient and fully data-dependent dimension reduction method. The architecture of our functional net consists of a kernel embedding step: an integral transformation with a data-dependent smooth kernel; a projection step: a dimension reduction by projection with eigenfunction basis based on the embedding kernel; and finally an expressive deep ReLU neural network for the prediction. The utilization of smooth kernel embedding enables our functional net to be discretization invariant, efficient, and robust to noisy observations, capable of utilizing information in both input functions and responses data, and have a low requirement on the number of discrete points for an unimpaired generalization performance. We conduct theoretical analysis including approximation error and generalization error analysis, and numerical simulations to verify these advantages of our functional net. | 翻訳日:2024-01-08 14:54:33 公開日:2024-01-05 |
# 行列プロファイル解析を用いた時系列関係推論による可変ラグモチーフの枠組み Framework for Variable-lag Motif Following Relation Inference In Time Series using Matrix Profile analysis ( http://arxiv.org/abs/2401.02860v1 ) ライセンス: Link先を確認 | Naaek Chinpattanakarn and Chainarong Amornbunchornvej | (参考訳) 誰がどのパターンに従っているかを知ることは、集団行動を理解する上で重要なステップである(例えば、人間のグループ、魚のグループ、あるいは株式市場など)。
時系列は、以下の関係についての洞察を得るために使用できるリソースの1つです。
しかし、後続のパターンやモチーフの概念と、それらを時系列で見つける解決策は明確ではない。
本研究では,2つの時系列間の後続モチーフの概念を定式化し,2つの時系列間の後続パターンを推測する枠組みを提案する。
このフレームワークは効率的でスケーラブルな方法の1つを利用して、行列プロファイルメソッドと呼ばれる時系列からモチーフを取得する。
提案するフレームワークをいくつかのベースラインと比較する。
フレームワークはシミュレーションデータセットのベースラインよりもパフォーマンスがよい。
音声録音のデータセットでは、2人の歌手が互いに続けて歌う一対の時系列の中で、以下のモチーフを検索することができる。
暗号通貨データセットでは、このフレームワークは2つのデジタル通貨から1対の時系列内で次のモチーフをキャプチャすることができる。
我々のフレームワークは時系列のあらゆる分野で利用でき、時系列間の後続パターンについての洞察を得ることができる。 Knowing who follows whom and what patterns they are following are crucial steps to understand collective behaviors (e.g. a group of human, a school of fish, or a stock market). Time series is one of resources that can be used to get insight regarding following relations. However, the concept of following patterns or motifs and the solution to find them in time series are not obvious. In this work, we formalize a concept of following motifs between two time series and present a framework to infer following patterns between two time series. The framework utilizes one of efficient and scalable methods to retrieve motifs from time series called the Matrix Profile Method. We compare our proposed framework with several baselines. The framework performs better than baselines in the simulation datasets. In the dataset of sound recording, the framework is able to retrieve the following motifs within a pair of time series that two singers sing following each other. In the cryptocurrency dataset, the framework is capable of capturing the following motifs within a pair of time series from two digital currencies, which implies that the values of one currency follow the values of another currency patterns. Our framework can be utilized in any field of time series to get insight regarding following patterns between time series. | 翻訳日:2024-01-08 14:54:10 公開日:2024-01-05 |
# not-all-equal sat の量子近似最適化 Quantum Approximate Optimisation for Not-All-Equal SAT ( http://arxiv.org/abs/2401.02852v1 ) ライセンス: Link先を確認 | Andrew El-Kadi, Roberto Bondesan | (参考訳) 変分量子アルゴリズムの量子アドバンテージを確立することは、量子コンピューティングにおいて重要な方向である。
本研究では、一般的な組合せ最適化問題に対する一般的な変分量子アルゴリズムである量子近似最適化アルゴリズム(QAOA)を、満足度問題(SAT)の変種(NAE-SAT)に適用する。
我々は,低確率解が知られているレジームに着目し,既存の解法よりも優れた新しい古典的解法を導入する。
これに対し,QAOAの大規模ベンチマークでは,両解決器のランタイムは問題サイズに比例して指数関数的にスケールするが,QAOAのスケーリング指数は回路深さが大きいほど小さくなることを示す。
これはNAE-SATを解くための多項式量子スピードアップを意味する。 Establishing quantum advantage for variational quantum algorithms is an important direction in quantum computing. In this work, we apply the Quantum Approximate Optimisation Algorithm (QAOA) -- a popular variational quantum algorithm for general combinatorial optimisation problems -- to a variant of the satisfiability problem (SAT): Not-All-Equal SAT (NAE-SAT). We focus on regimes where the problems are known to have solutions with low probability and introduce a novel classical solver that outperforms existing solvers. Extensively benchmarking QAOA against this, we show that while the runtime of both solvers scales exponentially with the problem size, the scaling exponent for QAOA is smaller for large enough circuit depths. This implies a polynomial quantum speedup for solving NAE-SAT. | 翻訳日:2024-01-08 14:53:51 公開日:2024-01-05 |
# 生成型大規模言語モデルはエビデンスベースの医療の自律的実践者である Generative Large Language Models are autonomous practitioners of evidence-based medicine ( http://arxiv.org/abs/2401.02851v1 ) ライセンス: Link先を確認 | Akhil Vaid, Joshua Lampert, Juhee Lee, Ashwin Sawant, Donald Apakama, Ankit Sakhuja, Ali Soroush, Denise Lee, Isotta Landi, Nicole Bussola, Ismail Nabeel, Robbie Freeman, Patricia Kovatch, Brendan Carr, Benjamin Glicksberg, Edgar Argulian, Stamatios Lerakis, Monica Kraft, Alexander Charney, Girish Nadkarni | (参考訳) 背景: Evidence-based Medicine (EBM) は現代の臨床実践の基本であり、臨床医は継続的に知識を更新し、患者に最良の臨床証拠を適用する必要がある。
EBMの実践は、医学研究の急速な進歩による課題に直面し、臨床医に情報過負荷をもたらす。
人工知能(AI)の統合、特にジェネレーティブ大型言語モデル(LLM)は、この複雑さを管理するための有望なソリューションを提供する。
方法: 本研究は, 各種専門分野における実地臨床症例のキュレーションにかかわって, それらを.
分析用のjsonファイル。
LLMはChatGPT 3.5や4、Gemini Pro、LLaMA v2やMixtral-8x7Bといったオープンソースのモデルを含む。
これらのモデルには、ケースファイルから情報を取得し、臨床医が現実世界で行うべき方法と同様の臨床判断を行うためのツールが備わっていた。
モデル性能は最終回答の正確性,ツールの公平な使用,ガイドラインへの適合性,幻覚に対する抵抗などに基づいて評価された。
結果: GPT-4は, 臨床現場での自律的な手術が可能で, 関連調査の発注や臨床ガイドラインの遵守に有効であった。
複雑なガイドラインや診断ニュアンスを扱うモデル能力の観点から,限界が認められた。
Retrieval Augmented Generationは、患者や医療システムに合わせた推奨を行った。
結論: LLMはエビデンスベースの医療の自律的な実践者として機能させることができる。
ツールを活用する能力は、現実世界の医療システムのインフラと相互作用し、ガイドラインに指示された方法で患者管理のタスクを実行するために利用することができる。
プロンプトエンジニアリングは、この可能性をさらに強化し、臨床医と患者の医療を変えるのに役立つかもしれない。 Background: Evidence-based medicine (EBM) is fundamental to modern clinical practice, requiring clinicians to continually update their knowledge and apply the best clinical evidence in patient care. The practice of EBM faces challenges due to rapid advancements in medical research, leading to information overload for clinicians. The integration of artificial intelligence (AI), specifically Generative Large Language Models (LLMs), offers a promising solution towards managing this complexity. Methods: This study involved the curation of real-world clinical cases across various specialties, converting them into .json files for analysis. LLMs, including proprietary models like ChatGPT 3.5 and 4, Gemini Pro, and open-source models like LLaMA v2 and Mixtral-8x7B, were employed. These models were equipped with tools to retrieve information from case files and make clinical decisions similar to how clinicians must operate in the real world. Model performance was evaluated based on correctness of final answer, judicious use of tools, conformity to guidelines, and resistance to hallucinations. Results: GPT-4 was most capable of autonomous operation in a clinical setting, being generally more effective in ordering relevant investigations and conforming to clinical guidelines. Limitations were observed in terms of model ability to handle complex guidelines and diagnostic nuances. Retrieval Augmented Generation made recommendations more tailored to patients and healthcare systems. Conclusions: LLMs can be made to function as autonomous practitioners of evidence-based medicine. Their ability to utilize tooling can be harnessed to interact with the infrastructure of a real-world healthcare system and perform the tasks of patient management in a guideline directed manner. Prompt engineering may help to further enhance this potential and transform healthcare for the clinician and the patient. | 翻訳日:2024-01-08 14:53:38 公開日:2024-01-05 |
# 自己再現による非定常テクスチャの生成 Generating Non-Stationary Textures using Self-Rectification ( http://arxiv.org/abs/2401.02847v1 ) ライセンス: Link先を確認 | Yang Zhou, Rongjun Xiao, Dani Lischinski, Daniel Cohen-Or, Hui Huang | (参考訳) 本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正し,合成の初期目標を達成できる新しい2段階アプローチを提案する。
その後,提案手法は「自己再現化」と呼ばれ,その対象をコヒーレントでシームレスなテクスチャに自動精製し,参照例の視覚的特徴を忠実に保存する。
提案手法は,事前学習した拡散ネットワークを活用し,自己保持機構を用いて,合成したテクスチャを基準に徐々に整列させ,得られた対象構造を確実に保持する。
実験的な検証により,非定常テクスチャの処理に優れた技術を示し,既存の最先端技術と比較してテクスチャ合成の著しい進歩を示す。
コードはhttps://github.com/xiaorongjun000/Self-Rectificationで入手できる。 This paper addresses the challenge of example-based non-stationary texture synthesis. We introduce a novel twostep approach wherein users first modify a reference texture using standard image editing tools, yielding an initial rough target for the synthesis. Subsequently, our proposed method, termed "self-rectification", automatically refines this target into a coherent, seamless texture, while faithfully preserving the distinct visual characteristics of the reference exemplar. Our method leverages a pre-trained diffusion network, and uses self-attention mechanisms, to gradually align the synthesized texture with the reference, ensuring the retention of the structures in the provided target. Through experimental validation, our approach exhibits exceptional proficiency in handling non-stationary textures, demonstrating significant advancements in texture synthesis when compared to existing state-of-the-art techniques. Code is available at https://github.com/xiaorongjun000/Self-Rectification | 翻訳日:2024-01-08 14:53:08 公開日:2024-01-05 |
# AIの未来について、何千人ものAI著者が語る Thousands of AI Authors on the Future of AI ( http://arxiv.org/abs/2401.02843v1 ) ライセンス: Link先を確認 | Katja Grace, Harlan Stewart, Julia Fabienne Sandk\"uhler, Stephen Thomas, Ben Weinstein-Raun, Jan Brauner | (参考訳) In the largest survey of its kind, 2,778 researchers who had published in top-tier artificial intelligence (AI) venues gave predictions on the pace of AI progress and the nature and impacts of advanced AI systems The aggregate forecasts give at least a 50% chance of AI systems achieving several milestones by 2028, including autonomously constructing a payment processing site from scratch, creating a song indistinguishable from a new song by a popular musician, and autonomously downloading and fine-tuning a large language model.
科学が崩壊し続ければ、あらゆるタスクにおいて人間より優れた機械が生まれる確率は2027年までに10%、2047年には50%と見積もられた。
後者の見積もりは、私たちが1年前に行った同様の調査(Grace et al., 2022)より13年早い。
しかし、完全な自動化が可能となる確率は、2037年までに10%、2116年までに50%に達すると予測された(2022年の調査では2164人)。
68.3%は、超人的AIによる良い結果の方が、より悪いと考えるが、これらのネット楽観主義者の48%は、少なくとも、人間の絶滅のような非常に悪い結果の確率を5%以上与え、ネット悲観主義者の59%は、非常に良い結果に5%以上与えた。
回答者の38%から51%は、AIの進歩に少なくとも10%の確率を与え、人間の絶滅ほど悪い結果をもたらした。
半数以上が「実質的」あるいは「極端」な懸念は、誤情報、権威主義的制御、不平等を含む6つの異なるAI関連シナリオについて保証されていると示唆している。
AIの進歩が人類の未来に良いかどうかについては意見の相違があった。
しかし、aiシステムからの潜在的なリスクを最小化するための研究を優先すべきとする幅広い合意があった。 In the largest survey of its kind, 2,778 researchers who had published in top-tier artificial intelligence (AI) venues gave predictions on the pace of AI progress and the nature and impacts of advanced AI systems The aggregate forecasts give at least a 50% chance of AI systems achieving several milestones by 2028, including autonomously constructing a payment processing site from scratch, creating a song indistinguishable from a new song by a popular musician, and autonomously downloading and fine-tuning a large language model. If science continues undisrupted, the chance of unaided machines outperforming humans in every possible task was estimated at 10% by 2027, and 50% by 2047. The latter estimate is 13 years earlier than that reached in a similar survey we conducted only one year earlier [Grace et al., 2022]. However, the chance of all human occupations becoming fully automatable was forecast to reach 10% by 2037, and 50% as late as 2116 (compared to 2164 in the 2022 survey). Most respondents expressed substantial uncertainty about the long-term value of AI progress: While 68.3% thought good outcomes from superhuman AI are more likely than bad, of these net optimists 48% gave at least a 5% chance of extremely bad outcomes such as human extinction, and 59% of net pessimists gave 5% or more to extremely good outcomes. Between 38% and 51% of respondents gave at least a 10% chance to advanced AI leading to outcomes as bad as human extinction. More than half suggested that "substantial" or "extreme" concern is warranted about six different AI-related scenarios, including misinformation, authoritarian control, and inequality. There was disagreement about whether faster or slower AI progress would be better for the future of humanity. However, there was broad agreement that research aimed at minimizing potential risks from AI systems ought to be prioritized more. | 翻訳日:2024-01-08 14:52:52 公開日:2024-01-05 |
# 行動品質評価のための多段階コントラスト回帰 Multi-Stage Contrastive Regression for Action Quality Assessment ( http://arxiv.org/abs/2401.02841v1 ) ライセンス: Link先を確認 | Qi An, Mengshi Qi, Huadong Ma | (参考訳) 近年,ビデオベースの行動品質評価(AQA)への関心が高まっている。
既存のほとんどの手法は、アクションのステージレベルの特性を見落としながらビデオ全体を考慮し、AQA問題を解決するのが一般的である。
この問題に対処するため、我々はAQAタスクのための新しいMCoRe(Multi-stage Contrastive Regression)フレームワークを設計する。
この手法により,入力映像を複数のステージや手順に分割して計算コストを削減しつつ,空間的時間的情報抽出を効率的に行うことができる。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
その結果、MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。 In recent years, there has been growing interest in the video-based action quality assessment (AQA). Most existing methods typically solve AQA problem by considering the entire video yet overlooking the inherent stage-level characteristics of actions. To address this issue, we design a novel Multi-stage Contrastive Regression (MCoRe) framework for the AQA task. This approach allows us to efficiently extract spatial-temporal information, while simultaneously reducing computational costs by segmenting the input video into multiple stages or procedures. Inspired by the graph contrastive learning, we propose a new stage-wise contrastive learning loss function to enhance performance. As a result, MCoRe demonstrates the state-of-the-art result so far on the widely-adopted fine-grained AQA dataset. | 翻訳日:2024-01-08 14:52:21 公開日:2024-01-05 |
# Pheme: 効率的かつ会話型音声生成 Pheme: Efficient and Conversational Speech Generation ( http://arxiv.org/abs/2401.02839v1 ) ライセンス: Link先を確認 | Pawe{\l} Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vuli\'c | (参考訳) 近年、音声生成は目覚ましい進歩を遂げており、実際の人間の声とほぼ区別できないワンショット生成能力を実現している。
このような音声生成と大規模言語モデルの統合は、幅広い応用に革命をもたらす可能性がある。
しかし、補助的な会話システムのような特定の応用には、リアルタイムに効率的に機能する自然言語および会話音声生成ツールが必要である。
階層型ニューラルオーディオコーデックを使用したVALL-EやSoundStormのような現在の最先端モデルでは、大きなニューラルネットワークコンポーネントと広範なトレーニングデータが必要である。
対照的にmqttsでは,よりコンパクトな会話型ttsモデルの構築と,小規模のリアルタイム会話型音声データの利用を目指している。
しかし、自己回帰的な性質は高い推論遅延をもたらし、したがってリアルタイムの使用を制限する。
最先端TSモデルの現在の限界を緩和し、その強みを活かすため、本研究では、Phemeモデルシリーズを紹介する。
1)コンパクトでハイパフォーマンスなモデルを提供する。
2)並列音声生成を可能にする
3)自然な会話のスピーチ、そして
4)小規模の会話データ上で効率的にトレーニングすることができ、データ要求を10倍以上削減できるが、自己回帰型ttsモデルの品質に適合する。
また, 教師のスチューデント蒸留により, 教師モデルで生成した合成音声のみに頼り, 事前学習したフェムチェックポイントの上に, 単一話者設定の音声品質が大幅に向上することを示す。
オーディオサンプルと事前訓練されたモデルはオンラインで入手できる。 In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online. | 翻訳日:2024-01-08 14:52:08 公開日:2024-01-05 |
# crisisvit: 危機画像分類のためのロバストな視覚トランスフォーマー CrisisViT: A Robust Vision Transformer for Crisis Image Classification ( http://arxiv.org/abs/2401.02838v1 ) ライセンス: Link先を確認 | Zijun Long and Richard McCreadie and Muhammad Imran | (参考訳) 緊急時には、危機対応機関は、関連サービスやリソースを配備するために、地上の状況を迅速かつ正確に評価する必要がある。
しかし、当局は限られた情報に基づいて意思決定をしなければならないことが多く、地域対応サービスが直接報告できるまで、影響のある地域に関するデータは不足する可能性がある。
幸いなことに、高品質カメラを備えたスマートフォンが普及したことで、ソーシャルメディアを通じて市民ジャーナリズムは危機対応者にとって貴重な情報源となった。
しかし、市民が投稿する大量の画像を分析するには、通常より多くの時間と労力が必要となる。
本稿では,危機画像分類(crisisvit)にトランスフォーマベースのアーキテクチャを適用することにより,最先端のディープニューラルモデルを用いた画像分類・タグ付け手法を提案する。
我々は、新しいインシデント1M危機画像データセットを活用し、新しいトランスフォーマーベースの画像分類モデルを開発する。
標準危機画像ベンチマークデータセットに関する実験を通じて,危機度モデルが,緊急型,画像関連性,人道的カテゴリー,損傷損傷分類における従来のアプローチを大きく上回ることを実証した。
さらに,新しいインシデントs1mデータセットは,さらに1.25%の絶対精度向上をもたらす危機モデルをさらに強化できることを示す。 In times of emergency, crisis response agencies need to quickly and accurately assess the situation on the ground in order to deploy relevant services and resources. However, authorities often have to make decisions based on limited information, as data on affected regions can be scarce until local response services can provide first-hand reports. Fortunately, the widespread availability of smartphones with high-quality cameras has made citizen journalism through social media a valuable source of information for crisis responders. However, analyzing the large volume of images posted by citizens requires more time and effort than is typically available. To address this issue, this paper proposes the use of state-of-the-art deep neural models for automatic image classification/tagging, specifically by adapting transformer-based architectures for crisis image classification (CrisisViT). We leverage the new Incidents1M crisis image dataset to develop a range of new transformer-based image classification models. Through experimentation over the standard Crisis image benchmark dataset, we demonstrate that the CrisisViT models significantly outperform previous approaches in emergency type, image relevance, humanitarian category, and damage severity classification. Additionally, we show that the new Incidents1M dataset can further augment the CrisisViT models resulting in an additional 1.25% absolute accuracy gain. | 翻訳日:2024-01-08 14:51:41 公開日:2024-01-05 |
# 動的閉じ込め下におけるディラック粒子:フェルミ加速、振動運動、量子力 Dirac particle under dynamical confinement: Fermi acceleration, trembling motion and quantum force ( http://arxiv.org/abs/2401.02837v1 ) ライセンス: Link先を確認 | J. Dittrich, S. Rakhmanov and D. Matrasulov | (参考訳) 移動壁を有する1Dボックスにおけるディラック粒子の量子力学について検討した。
時間依存境界条件を持つディラック方程式は、時間依存質量を持つ静的な方程式にマッピングされる。
このような修正ディラック方程式の厳密な解析解は無質量粒子に対して得られる。
大粒子の場合、この問題は数値的に解決される。
平均運動エネルギーや量子力といった動的閉じ込めの主特性の時間依存性を解析した。
平均運動エネルギーは下方から区切られた区間の長さ、特に周期的に振動する壁に対して区切られたままであることがわかった。 Quantum dynamics of a Dirac particle in a 1D box with moving wall is studied. Dirac equation with time-dependent boundary condition is mapped onto that with static one, but with time-dependent mass. Exact analytical solution of such modified Dirac equation is obtained for massless particle. For massive particle the problem is solved numerically. Time-dependences of the main characteristics of the dynamical confinement, such as average kinetic energy and quantum force are analyzed. It is found that the average kinetic energy remains bounded for the interval length bounded from below, in particular for the periodically oscillating wall. | 翻訳日:2024-01-08 14:51:18 公開日:2024-01-05 |
# 画像復調のための2段階進行残差注意ネットワーク Two-stage Progressive Residual Dense Attention Network for Image Denoising ( http://arxiv.org/abs/2401.02831v1 ) ライセンス: Link先を確認 | Wencong Wu, An Ge, Guannan Lv, Yuelong Xia, Yungang Zhang, Wen Xiong | (参考訳) 画像デノイジングのための深層畳み込みニューラルネットワーク(cnns)は、リッチな階層的特徴を効果的に活用し、大きな成功を収めている。
しかし、多くの深層cnnベースのデノイジングモデルは、より重要で有用な特徴に注意を払わずに、ノイズ画像の階層的特徴を等しく利用し、比較的低い性能をもたらす。
この問題に対処するために,画像デノイジングのための2段階プログレッシブ残差集中型ネットワーク(tsp-rdanet)を新たに設計し,ノイズを徐々に除去するために,デノイジングのプロセス全体を2つのサブタスクに分割する。
2つの異なるアテンション機構に基づくデノナイジングネットワークが2つのシーケンシャルなサブタスクのために設計されており、第1段階ではResent dense attention Module (RDAM)、第2段にはHybrid Dilated residual dense attention Module (HDRDAM)が提案されている。
提案する注意モジュールは、異なる畳み込み層間の密接な接続を通じて適切な局所特徴を学習することができ、無関係な特徴も抑制できる。
2つのサブネットワークは長いスキップ接続で接続され、浅い特徴を保持し、ノイズ性能を向上させる。
7つのベンチマークデータセットの実験では、多くの最先端手法と比較して、提案したTSP-RDANetは、合成画像と実雑音画像の両方で良好な結果が得られることが検証されている。
TSP-RDANetのコードはhttps://github.com/WenCongWu/TSP-RDANetで公開されている。 Deep convolutional neural networks (CNNs) for image denoising can effectively exploit rich hierarchical features and have achieved great success. However, many deep CNN-based denoising models equally utilize the hierarchical features of noisy images without paying attention to the more important and useful features, leading to relatively low performance. To address the issue, we design a new Two-stage Progressive Residual Dense Attention Network (TSP-RDANet) for image denoising, which divides the whole process of denoising into two sub-tasks to remove noise progressively. Two different attention mechanism-based denoising networks are designed for the two sequential sub-tasks: the residual dense attention module (RDAM) is designed for the first stage, and the hybrid dilated residual dense attention module (HDRDAM) is proposed for the second stage. The proposed attention modules are able to learn appropriate local features through dense connection between different convolutional layers, and the irrelevant features can also be suppressed. The two sub-networks are then connected by a long skip connection to retain the shallow feature to enhance the denoising performance. The experiments on seven benchmark datasets have verified that compared with many state-of-the-art methods, the proposed TSP-RDANet can obtain favorable results both on synthetic and real noisy image denoising. The code of our TSP-RDANet is available at https://github.com/WenCongWu/TSP-RDANet. | 翻訳日:2024-01-08 14:51:08 公開日:2024-01-05 |
# 始めよう:Deezerで新しいリリースの発見可能性を高める Let's Get It Started: Fostering the Discoverability of New Releases on Deezer ( http://arxiv.org/abs/2401.02827v1 ) ライセンス: Link先を確認 | L\'ea Briand and Th\'eo Bontempelli and Walid Bendada and Mathieu Morlon and Fran\c{c}ois Rigaud and Benjamin Chapus and Thomas Bouab\c{c}a and Guillaume Salha-Galvan | (参考訳) 本稿では,音楽ストリーミングサービスDeezerの新しいリリースの発見可能性を高めるための最近の取り組みについて述べる。
新たなリリース専用の検索とレコメンデーション機能を導入した後、コールドスタート埋め込みとコンテキストブレイトを使って、編集からパーソナライズされたリリース提案へのシフトを概説した。
オンライン実験によって支援され、推奨品質と新リリースのサービスへの露出の観点から、このシフトの利点について論じる。 This paper presents our recent initiatives to foster the discoverability of new releases on the music streaming service Deezer. After introducing our search and recommendation features dedicated to new releases, we outline our shift from editorial to personalized release suggestions using cold start embeddings and contextual bandits. Backed by online experiments, we discuss the advantages of this shift in terms of recommendation quality and exposure of new releases on the service. | 翻訳日:2024-01-08 14:50:38 公開日:2024-01-05 |
# CRSOT:不整列フレームとイベントカメラを用いたクロスリゾリューションオブジェクトトラッキング CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event Cameras ( http://arxiv.org/abs/2401.02826v1 ) ライセンス: Link先を確認 | Yabin Zhu, Xiao Wang, Chenglong Li, Bo Jiang, Lin Zhu, Zhixiang Huang, Yonghong Tian, Jin Tang | (参考訳) 既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集され、その解像度(346 \times 260$)は実用アプリケーションでは低い。
実際、可視カメラのみが多くの実用システムに配備されており、新しく設計されたニューロモルフィックカメラは解像度が異なる可能性がある。
最新のニューロモルフィックセンサーは高精細なイベントストリームを出力できるが、空間的および時間的ビューの両方でイベントとフレームの厳密なアライメントを達成することは極めて困難である。
したがって、非整合型および可視性センサーによる正確な追跡を実現するには、価値があるが研究されていない問題である。
本研究では,非整合型ニューロモルフィックカメラと可視カメラを用いた物体追跡タスクを正式に提案する。
我々は,1030の高精細RGB-Eventビデオペア,304,974の動画フレームを含む特別に構築されたデータ取得システムを用いて収集された,最初の不整合フレームイベントデータセットCRSOTを構築した。
さらに,ゆるやかなRGBイベントデータを用いてもロバストなトラッキングを実現することのできる,非整列オブジェクト追跡フレームワークを提案する。
具体的には、RGBデータとイベントデータのテンプレートと検索領域を抽出し、機能埋め込みのための統合ViTバックボーンにフィードする。
そして,RGBとイベントの特徴を符号化する不確実性認識モジュールを提案し,その2つのモダリティを集約するモダリティ不確実性融合モジュールを提案する。
これら3つのブランチは、トレーニングフェーズで共同最適化される。
広汎な実験により, 時間的・空間的アライメントを厳密に行わずとも, トラッカーが協調して高性能な追跡を行うことができた。
ソースコード、データセット、事前トレーニングされたモデルはhttps://github.com/Event-AHU/Cross_Resolution_SOTでリリースされる。 Existing datasets for RGB-DVS tracking are collected with DVS346 camera and their resolution ($346 \times 260$) is low for practical applications. Actually, only visible cameras are deployed in many practical systems, and the newly designed neuromorphic cameras may have different resolutions. The latest neuromorphic sensors can output high-definition event streams, but it is very difficult to achieve strict alignment between events and frames on both spatial and temporal views. Therefore, how to achieve accurate tracking with unaligned neuromorphic and visible sensors is a valuable but unresearched problem. In this work, we formally propose the task of object tracking using unaligned neuromorphic and visible cameras. We build the first unaligned frame-event dataset CRSOT collected with a specially built data acquisition system, which contains 1,030 high-definition RGB-Event video pairs, 304,974 video frames. In addition, we propose a novel unaligned object tracking framework that can realize robust tracking even using the loosely aligned RGB-Event data. Specifically, we extract the template and search regions of RGB and Event data and feed them into a unified ViT backbone for feature embedding. Then, we propose uncertainty perception modules to encode the RGB and Event features, respectively, then, we propose a modality uncertainty fusion module to aggregate the two modalities. These three branches are jointly optimized in the training phase. Extensive experiments demonstrate that our tracker can collaborate the dual modalities for high-performance tracking even without strictly temporal and spatial alignment. The source code, dataset, and pre-trained models will be released at https://github.com/Event-AHU/Cross_Resolution_SOT. | 翻訳日:2024-01-08 14:50:28 公開日:2024-01-05 |
# DocGraphLM:情報抽出のための文書グラフ言語モデル DocGraphLM: Documental Graph Language Model for Information Extraction ( http://arxiv.org/abs/2401.02823v1 ) ライセンス: Link先を確認 | Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah | (参考訳) Visually Rich Document Understanding (VrDU)の進歩により、複雑なレイアウトを持つドキュメント上の情報抽出と質問応答が可能になった。
LLMにインスパイアされたトランスフォーマーベースのモデルと、グラフニューラルネットワークという、2つのアーキテクチャのトポロジが現れている。
本稿では,事前学習した言語モデルとグラフ意味論を組み合わせた新しいフレームワークDocGraphLMを紹介する。
これを達成するために
1)文書を表す共同エンコーダアーキテクチャ、及び
2)文書グラフの再構成のための新しいリンク予測手法
DocGraphLMは、近傍の復元を優先し、遠隔ノード検出を下方修正する収束継手損失関数を用いて、ノード間の方向と距離を予測する。
3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
さらに,このグラフ機能の採用は,リンク予測のみによって構築されたにもかかわらず,学習過程の収束を加速する。 Advances in Visually Rich Document Understanding (VrDU) have enabled information extraction and question answering over documents with complex layouts. Two tropes of architectures have emerged -- transformer-based models inspired by LLMs, and Graph Neural Networks. In this paper, we introduce DocGraphLM, a novel framework that combines pre-trained language models with graph semantics. To achieve this, we propose 1) a joint encoder architecture to represent documents, and 2) a novel link prediction approach to reconstruct document graphs. DocGraphLM predicts both directions and distances between nodes using a convergent joint loss function that prioritizes neighborhood restoration and downweighs distant node detection. Our experiments on three SotA datasets show consistent improvement on IE and QA tasks with the adoption of graph features. Moreover, we report that adopting the graph features accelerates convergence in the learning process during training, despite being solely constructed through link prediction. | 翻訳日:2024-01-08 14:49:56 公開日:2024-01-05 |
# 共鳴媒質中における高調波発生時の巨大絡み合った光の発生 Generation of massively entangled bright states of light during harmonic generation in resonant media ( http://arxiv.org/abs/2401.02817v1 ) ライセンス: Link先を確認 | Sili Yi, Ihar Babushkin, Olga Smirnova, Misha Ivanov | (参考訳) 基本レベルでは、光間相互作用の完全な説明は物質と光の両方を量子的に扱う必要がある。
しかし、光子四重項をコヒーレント状態で担持する高出力レーザーパルスを発生させる標準的な光源では、高出力レーザーマッター相互作用中の光の古典的な記述が適当と期待されている。
ここでは、多くのオクターブに絡み合った入射レーザー光の多重高調波の発生を含む、この標準像からの劇的な偏差を生成するために、物質の非線形光学応答をいかに制御できるかを示す。
特に、高調波の非自明な量子状態は、高調波の1つが物質系の異なるレーザーアドレス状態間の遷移を引き起こすとすぐに生成される。
このような遷移は、量子駆動場や物質相関がなくても十分な調和性の量子状態を生成するための鍵条件として現れる、絡み合った光マター波動関数を生成する。
逆に、単一の高調波を持つ材料系の絡み合いは、異なる高調波間の絡み合いを生成し、制御する。
したがって、高調波の少なくとも1つと共鳴に近い非線形メディアは、巨大に絡み合った量子状態を生成するのに最も魅力的である。
我々の分析は、attosecond physicsとquantum opticsのインターフェイスにおいて、量子情報科学に重要な可能性を開く。 At the fundamental level, full description of light-matter interaction requires quantum treatment of both matter and light. However, for standard light sources generating intense laser pulses carrying quadrillions of photons in a coherent state, classical description of light during intense laser-matter interaction has been expected to be adequate. Here we show how nonlinear optical response of matter can be controlled to generate dramatic deviations from this standard picture, including generation of multiple harmonics of the incident laser light entangled across many octaves. In particular, non-trivial quantum states of harmonics are generated as soon as one of the harmonics induces a transition between different laser-dressed states of the material system. Such transitions generate an entangled light-matter wavefunction, which emerges as the key condition for generating quantum states of harmonics, sufficient even in the absence of a quantum driving field or material correlations. In turn, entanglement of the material system with a single harmonic generates and controls entanglement between different harmonics. Hence, nonlinear media that are near-resonant with at least one of the harmonics appear to be most attractive for controlled generation of massively entangled quantum states of light. Our analysis opens remarkable opportunities at the interface of attosecond physics and quantum optics, with implications for quantum information science. | 翻訳日:2024-01-08 14:49:41 公開日:2024-01-05 |
# Bode: ポルトガル語のpromptベースのタスクのための微調整された大規模言語モデル Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task ( http://arxiv.org/abs/2401.02909v1 ) ライセンス: Link先を確認 | Gabriel Lino Garcia, Pedro Henrique Paiola, Luis Henrique Morelli, Giovani Candido, Arnaldo C\^andido J\'unior, Danilo Samuel Jodas, Luis C. S. Afonso, Ivan Rizzo Guilherme, Bruno Elias Penteado, Jo\~ao Paulo Papa | (参考訳) 大規模言語モデル(llm)は自然言語処理に進歩をもたらしつつある。
しかし、低リソース言語、様々なnlpタスクのためのデータセットの広範な隆起を欠く言語、あるいはポルトガルのような既存のデータセットがそれほど重要でない言語は、既にllmからいくつかの利点を得ているが、同じ程度ではない。
多言語データセットでトレーニングされたllmは通常、ポルトガル語のプロンプトに対する応答に苦労し、例えば、応答でコードスイッチを提示する。
本研究は7Bと13Bの2つのバージョンで、ポルトガルのプロンプトのための微調整LLaMA 2ベースのモデルを提案する。
ゼロショットとインコンテキスト学習を用いて分類タスクにおけるこのモデルの性能を評価し,他のLLMと比較した。
私たちの主な貢献は、ポルトガル語に十分な結果のllmを提供することと、研究目的や商業目的に無償のモデルを提供することです。 Large Language Models (LLMs) are increasingly bringing advances to Natural Language Processing. However, low-resource languages, those lacking extensive prominence in datasets for various NLP tasks, or where existing datasets are not as substantial, such as Portuguese, already obtain several benefits from LLMs, but not to the same extent. LLMs trained on multilingual datasets normally struggle to respond to prompts in Portuguese satisfactorily, presenting, for example, code switching in their responses. This work proposes a fine-tuned LLaMA 2-based model for Portuguese prompts named Bode in two versions: 7B and 13B. We evaluate the performance of this model in classification tasks using the zero-shot approach with in-context learning, and compare it with other LLMs. Our main contribution is to bring an LLM with satisfactory results in the Portuguese language, as well as to provide a model that is free for research or commercial purposes. | 翻訳日:2024-01-08 14:42:03 公開日:2024-01-05 |
# MLLM-Protector:HurtingパフォーマンスのないMLLMの安全性を保証する MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance ( http://arxiv.org/abs/2401.02906v1 ) ライセンス: Link先を確認 | Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang | (参考訳) マルチモーダルな大規模言語モデル(MLLM)の展開は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を生み出した。
我々はこのような攻撃に対してMLLMを防衛するという新しい挑戦を掘り下げる。
画像はアライメント中に考慮されない「外国語」として機能し,mllmが有害な反応を生じやすいことを発見した。
残念なことに、テキストベースのLLMで考慮された離散トークンとは異なり、画像信号の連続的な性質は重要なアライメント課題を示しており、起こりうるシナリオを完全にカバーすることが困難である。
この脆弱性は、オープンソースのMLLMが、広範囲のテキストベースの事前学習コーパスよりもはるかに少ない制限された画像テキストペアに対して、主に微調整されているという事実によって悪化する。
これらの課題に対処するために,軽量なハーモ検出器と応答除毒器を組み合わせたプラグアンドプレイ戦略であるMLLM-Protectorを導入する。
害検知器の役割は、MLLMから潜在的に有害な出力を識別することであり、一方、除毒剤はこれらの出力を補正し、その応答が安全基準に規定されていることを保証する。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
MLLM-Protectorは,MLLMセキュリティの未適応な側面に対して,堅牢なソリューションを提供することを示す。 The deployment of multimodal large language models (MLLMs) has brought forth a unique vulnerability: susceptibility to malicious attacks through visual inputs. We delve into the novel challenge of defending MLLMs against such attacks. We discovered that images act as a "foreign language" that is not considered during alignment, which can make MLLMs prone to producing harmful responses. Unfortunately, unlike the discrete tokens considered in text-based LLMs, the continuous nature of image signals presents significant alignment challenges, which poses difficulty to thoroughly cover the possible scenarios. This vulnerability is exacerbated by the fact that open-source MLLMs are predominantly fine-tuned on limited image-text pairs that is much less than the extensive text-based pretraining corpus, which makes the MLLMs more prone to catastrophic forgetting of their original abilities during explicit alignment tuning. To tackle these challenges, we introduce MLLM-Protector, a plug-and-play strategy combining a lightweight harm detector and a response detoxifier. The harm detector's role is to identify potentially harmful outputs from the MLLM, while the detoxifier corrects these outputs to ensure the response stipulates to the safety standards. This approach effectively mitigates the risks posed by malicious visual inputs without compromising the model's overall performance. Our results demonstrate that MLLM-Protector offers a robust solution to a previously unaddressed aspect of MLLM security. | 翻訳日:2024-01-08 14:41:48 公開日:2024-01-05 |
# H2G2-Net:マルチモーダル生理応答の発見のための階層的不均一グラフ生成ネットワークフレームワーク H2G2-Net: A Hierarchical Heterogeneous Graph Generative Network Framework for Discovery of Multi-Modal Physiological Responses ( http://arxiv.org/abs/2401.02905v1 ) ライセンス: Link先を確認 | Haidong Gu, Nathan Gaw, Yinan Wang, Chancellor Johnstone, Christine Beauchene, Sophia Yuditskaya, Hrishikesh Rao, Chun-An Chou | (参考訳) マルチモーダルな生理的信号を用いた人間の認知状態と感情状態の発見は、様々な研究応用に注意を向ける。
人体の生理的反応は人間の認知に影響され、一般に認知状態の分析に用いられる。
ネットワーク科学の観点からは、グラフ構造におけるこれらの不均一な生理的様相の相互作用は、認知状態の予測を支援する洞察的な情報を提供するかもしれない。
しかし、不均一なモダリティ間の正確な接続を導出する手掛かりはなく、サブモダリティの階層構造が存在する。
既存のグラフニューラルネットワークは、事前定義されたグラフ構造を持つ非階層的等質グラフを学習するように設計されている。
この目的のために、ドメイン知識のないグラフ構造を自動的に学習する階層的不均一グラフ生成ネットワーク(H2G2-Net)と、階層的不均一グラフをエンドツーエンドに表現する強力な表現を提案する。
提案手法をマルチモーダルな生理学的信号からなるCagPilotデータセット上で検証する。
実験の結果,提案手法は予測精度を5%~20%向上させることがわかった。 Discovering human cognitive and emotional states using multi-modal physiological signals draws attention across various research applications. Physiological responses of the human body are influenced by human cognition and commonly used to analyze cognitive states. From a network science perspective, the interactions of these heterogeneous physiological modalities in a graph structure may provide insightful information to support prediction of cognitive states. However, there is no clue to derive exact connectivity between heterogeneous modalities and there exists a hierarchical structure of sub-modalities. Existing graph neural networks are designed to learn on non-hierarchical homogeneous graphs with pre-defined graph structures; they failed to learn from hierarchical, multi-modal physiological data without a pre-defined graph structure. To this end, we propose a hierarchical heterogeneous graph generative network (H2G2-Net) that automatically learns a graph structure without domain knowledge, as well as a powerful representation on the hierarchical heterogeneous graph in an end-to-end fashion. We validate the proposed method on the CogPilot dataset that consists of multi-modal physiological signals. Extensive experiments demonstrate that our proposed method outperforms the state-of-the-art GNNs by 5%-20% in prediction accuracy. | 翻訳日:2024-01-08 14:41:22 公開日:2024-01-05 |
# クラス別一般化誤差:情報理論解析 Class-wise Generalization Error: an Information-Theoretic Analysis ( http://arxiv.org/abs/2401.02904v1 ) ライセンス: Link先を確認 | Firas Laakom, Yuheng Bu, Moncef Gabbouj | (参考訳) 教師付き学習の既存の一般化理論は一般に全体論的アプローチを採り、データ分布全体に対する期待された一般化の境界を提供する。
しかし、実際には、既存の一般化境界では捉えられない、異なるクラス間での一般化性能には大きなバリエーションがある。
本研究では,各クラスの一般化性能を定量化するクラス一般化誤差を理論的に検討し,この問題に取り組む。
我々は,KL分散を用いたクラス一般化誤差に対する新しい情報理論境界を導出し,さらに条件付き相互情報(CMI)を用いてより厳密な境界を求める。
我々は,提案する境界を異なるニューラルネットワークで実験的に検証し,複雑なクラス一般化誤り挙動を正確に捉えていることを示す。
さらに,本論文で開発された理論ツールは,この文脈を超えたいくつかの応用に適用可能であることを示す。 Existing generalization theories of supervised learning typically take a holistic approach and provide bounds for the expected generalization over the whole data distribution, which implicitly assumes that the model generalizes similarly for all the classes. In practice, however, there are significant variations in generalization performance among different classes, which cannot be captured by the existing generalization bounds. In this work, we tackle this problem by theoretically studying the class-generalization error, which quantifies the generalization performance of each individual class. We derive a novel information-theoretic bound for class-generalization error using the KL divergence, and we further obtain several tighter bounds using the conditional mutual information (CMI), which are significantly easier to estimate in practice. We empirically validate our proposed bounds in different neural networks and show that they accurately capture the complex class-generalization error behavior. Moreover, we show that the theoretical tools developed in this paper can be applied in several applications beyond this context. | 翻訳日:2024-01-08 14:41:02 公開日:2024-01-05 |
# 自律型フォーミュラSAE車両の局所経路追従のための深部強化学習 Deep Reinforcement Learning for Local Path Following of an Autonomous Formula SAE Vehicle ( http://arxiv.org/abs/2401.02903v1 ) ライセンス: Link先を確認 | Harvey Merton, Thomas Delamore, Karl Stol and Henry Williams | (参考訳) 世界中の自動車技術者の社会(f:sae)コンペティションにおいて、チームは自動運転車スタックのあらゆる側面を調査している。
本稿では, ディープ強化学習(DRL)と逆強化学習(IRL)を用いて, ローカルに観測されたコーンの位置を, レーストラック追従のための所望の操舵角度にマッピングする。
ソフトアクター評論家 (SAC) と逆逆強化学習 (AIRL) の2つの最先端アルゴリズムは、代表シミュレーションでモデルを訓練するために使用される。
自律走行環境でrlアルゴリズムが使用する3つの新しい報酬関数についても論じる。
シミュレーションと実世界のテストは、どちらのアルゴリズムもローカルパス追従のモデルをうまくトレーニングできることを示唆している。
これらのモデルがフルF:SAE車両にスケールできるようにするため、今後の研究が提案されている。 With the continued introduction of driverless events to Formula:Society of Automotive Engineers (F:SAE) competitions around the world, teams are investigating all aspects of the autonomous vehicle stack. This paper presents the use of Deep Reinforcement Learning (DRL) and Inverse Reinforcement Learning (IRL) to map locally-observed cone positions to a desired steering angle for race track following. Two state-of-the-art algorithms not previously tested in this context: soft actor critic (SAC) and adversarial inverse reinforcement learning (AIRL), are used to train models in a representative simulation. Three novel reward functions for use by RL algorithms in an autonomous racing context are also discussed. Tests performed in simulation and the real world suggest that both algorithms can successfully train models for local path following. Suggestions for future work are presented to allow these models to scale to a full F:SAE vehicle. | 翻訳日:2024-01-08 14:40:46 公開日:2024-01-05 |
# 連続時間深部ニューラルネットワークの状態導出正規化 State Derivative Normalization for Continuous-Time Deep Neural Networks ( http://arxiv.org/abs/2401.02902v1 ) ライセンス: Link先を確認 | Jonas Weigand, Gerben I. Beintema, Jonas Ulmen, Daniel G\"orges, Roland T\'oth, Maarten Schoukens and Martin Ruskowski | (参考訳) ディープニューラルネットワークにおける適切なデータ正規化の重要性はよく知られている。
しかし, 連続時間状態空間モデル推定では, モデル推定の隠蔽状態あるいは隠蔽状態微分の不適切な正規化, あるいは時間間隔においても, 深層学習に基づく手法による数値的および最適化的課題が生じることが観察されている。
これにより、モデルの品質が低下する。
本稿では,これら3つの正規化タスクが本質的に結合していることを示す。
この結合の存在から, 状態微分レベルでの正規化定数を導入することにより, 3つの正規化問題すべてに対する解を提案する。
正規化定数の適切な選択は、to-be-identified systemのダイナミクスと関連しており、有効な正規化定数を得る複数の方法が導かれる。
ケースドタンクシステムからの実験データをもとに,ベンチマーク問題における正規化戦略をすべて比較検討し,本手法と他の同定文献との比較を行った。 The importance of proper data normalization for deep neural networks is well known. However, in continuous-time state-space model estimation, it has been observed that improper normalization of either the hidden state or hidden state derivative of the model estimate, or even of the time interval can lead to numerical and optimization challenges with deep learning based methods. This results in a reduced model quality. In this contribution, we show that these three normalization tasks are inherently coupled. Due to the existence of this coupling, we propose a solution to all three normalization challenges by introducing a normalization constant at the state derivative level. We show that the appropriate choice of the normalization constant is related to the dynamics of the to-be-identified system and we derive multiple methods of obtaining an effective normalization constant. We compare and discuss all the normalization strategies on a benchmark problem based on experimental data from a cascaded tanks system and compare our results with other methods of the identification literature. | 翻訳日:2024-01-08 14:40:29 公開日:2024-01-05 |
# 効率的な設計・制御のための省エネ化演算子推論 Energy-Preserving Reduced Operator Inference for Efficient Design and Control ( http://arxiv.org/abs/2401.02889v1 ) ライセンス: Link先を確認 | Tomoki Koike, Elizabeth Qian | (参考訳) 工学系の計算モデルを何度も評価しなければならない多項計算は設計と制御において重要である。
偏微分方程式(PDE)によって支配されるシステムでは、典型的な高忠実度数値モデルは高次元であり、多値な設定には計算コストがかかりすぎる。
したがって、設計と制御において低コストな計算を可能にするために効率的な代理モデルが必要である。
この研究は、多くの流体問題における方程式の生成など、二次作用素がエネルギーを保存するPDEをターゲットにした物理保存型モデル学習手法を提案する。
このアプローチは、最小二乗法で状態スナップショットと時間微分データに縮小されたモデル演算子を適合させる演算子推論法に基づいている。
しかし、演算子推論は、元のPDEのエネルギー保存性を持つ還元二次作用素を一般的に学ばない。
そこで我々は,この構造を制約付き最適化により学習された縮小モデルに課す新しいエネルギー保存演算子推論(EP-OpInf)手法を提案する。
粘性バーガース方程式と倉本-シヴァシンキー方程式(KSE)を用いて計算した結果、EP-OpInfはこのエネルギー保存構造を保持する効率的で正確な還元モデルを学ぶことを示した。 Many-query computations, in which a computational model for an engineering system must be evaluated many times, are crucial in design and control. For systems governed by partial differential equations (PDEs), typical high-fidelity numerical models are high-dimensional and too computationally expensive for the many-query setting. Thus, efficient surrogate models are required to enable low-cost computations in design and control. This work presents a physics-preserving reduced model learning approach that targets PDEs whose quadratic operators preserve energy, such as those arising in governing equations in many fluids problems. The approach is based on the Operator Inference method, which fits reduced model operators to state snapshot and time derivative data in a least-squares sense. However, Operator Inference does not generally learn a reduced quadratic operator with the energy-preserving property of the original PDE. Thus, we propose a new energy-preserving Operator Inference (EP-OpInf) approach, which imposes this structure on the learned reduced model via constrained optimization. Numerical results using the viscous Burgers' and Kuramoto-Sivashinksy equation (KSE) demonstrate that EP-OpInf learns efficient and accurate reduced models that retain this energy-preserving structure. | 翻訳日:2024-01-08 14:40:12 公開日:2024-01-05 |
# 双極子相互作用を持つ平面ロータ鎖の量子臨界性 Quantum criticality in chains of planar rotors with dipolar interactions ( http://arxiv.org/abs/2401.02887v1 ) ライセンス: Link先を確認 | Tobias Serwatka and Pierre-Nicholas Roy | (参考訳) この貢献により、双極子相互作用を介して相互作用する平面回転子鎖の密度行列再正規化群の研究を行う。
弱い状態から強い相互作用を持つローターへの基底状態の探索により、不安定な状態と双極子秩序の量子状態の間の量子相転移が発生する。
ロータ面の相対配向が変化すると、順序状態の性質が強誘電体から反強誘電体へと変化し、この変化が全体対称性の変更を必要としないことを示す。
観測された量子相転移は、(1+1)Dイジングモデルから2D古典的XYモデルまで、異なる普遍性クラスを示す臨界指数と中心電荷によって特徴づけられる。 In this contribution we perform a density matrix renormalization group study of chains of planar rotors interacting via dipolar interactions. By exploring the ground state from weakly to strongly interacting rotors, we find the occurrence of a quantum phase transition between a disordered and a dipole-ordered quantum state. We show that the nature of the ordered state changes from ferroelectric to antiferroelectric when the relative orientation of the rotor planes varies and that this change requires no modification of the overall symmetry. The observed quantum phase transitions are characterized by critical exponents and central charges which reveal different universality classes ranging from that of the (1+1)D Ising model to the 2D classical XY model. | 翻訳日:2024-01-08 14:39:46 公開日:2024-01-05 |
# NO$\nu$A および T2K 異常光における LGtI の不等式の振動 Violation of LGtI inequalities in the light of NO$\nu$A and T2K anomaly ( http://arxiv.org/abs/2401.02886v1 ) ライセンス: Link先を確認 | Lekhashri Konwar, Juhi Vardani, Bhavna Yadav | (参考訳) no$\nu$a と t2k の実験で観測された最近の異常は、標準の3フレバーニュートリノ振動が標準模型(sm)を超えて広がる可能性を示す可能性がある。
この異常に適応できるNSIパラメータについて、3つのフレアニュートリノ振動の文脈におけるレゲット・ガルグ型不等式(LGtI)の違反について検討する。
本解析では,正規および反転質量順序付けのためのロングベースライン加速器実験において,複素nsiと$\epsilon_{e\mu}$または$\epsilon_{e\tau}$結合を含む場合のlgti違反に着目した。
LGtI違反は、通常の順序付け(NO)において$\epsilon_{e\tau}$のシナリオで大幅に強化されるが、T2K、NO$\nu$A、DUNE実験セットでは$\epsilon_{e\mu}$のシナリオで抑制される。
Inverted ordering (IO) の場合、DUNE の実験セットが 6$ GeV 以上の場合、LGtI 違反は $\epsilon_{e\tau}$ 新しい物理シナリオを示す可能性がある。 The recent anomaly observed in NO$\nu$A and T2K experiments, in standard three-flavor neutrino oscillation could potentially signal physics extending beyond the standard model (SM). For the NSI parameters that can accommodate this anomaly, we explore the violation of Leggett-Garg type inequalities (LGtI) within the context of three-flavor neutrino oscillations. Our analysis focuses on LGtI violations in scenarios involving complex NSI with $\epsilon_{e\mu}$ or $\epsilon_{e\tau}$ coupling in long baseline accelerator experiments for normal and inverted mass ordering. LGtI violation is significantly enhanced in normal ordering (NO) for $\epsilon_{e\tau}$ scenario, whereas it suppresses for $\epsilon_{e\mu}$ scenario for T2K, NO$\nu$A, and DUNE experiment set-up. We find that for inverted ordering (IO), in the DUNE experimental set-up above $6$ GeV, the LGtI violation can be an indication of $\epsilon_{e\tau}$ new physics scenario. | 翻訳日:2024-01-08 14:39:34 公開日:2024-01-05 |
# msdc-deq-net:画像圧縮センシング(cs)のためのマルチスケール拡張畳み込みを用いた深部平衡モデル(deq) MsDC-DEQ-Net: Deep Equilibrium Model (DEQ) with Multi-scale Dilated Convolution for Image Compressive Sensing (CS) ( http://arxiv.org/abs/2401.02884v1 ) ライセンス: Link先を確認 | Youhao Yu and Richard M. Dansereau | (参考訳) 圧縮センシング(CS)は、従来のサンプリング法よりも少ない測定値を用いてスパース信号の回復を可能にする技術である。
CS再構成の計算課題に対処するために,CSを用いた自然画像再構成のための解釈可能かつ簡潔なニューラルネットワークモデルを開発することを目的とする。
繰り返し収縮しきい値アルゴリズム(ISTA)の1ステップを、ISTAの1イテレーションを表すディープネットワークブロックにマッピングすることで、これを実現する。
学習能力を高め,構造多様性を組み込むため,ISTAブロックに集積残差変換(ResNeXt)とSE機構を統合する。
このブロックは深い平衡層として機能し、セミテンソル製品ネットワーク(STP-Net)に接続して便利なサンプリングを行い、初期再構成を提供する。
MsDC-DEQ-Netと呼ばれる結果のモデルは、最先端のネットワークベースの手法と比較して、競争力のある性能を示す。
複数のイテレーションではなく、1つのイテレーションブロックだけを使用して、深いアンロールメソッドと比較して、ストレージ要件を大幅に削減する。
ディープアンローリングモデルとは異なり、MsDC-DEQ-Netは反復的に使用することができ、計算トレードオフを考慮して、徐々に再構成精度を向上する。
さらに、モデルはマルチスケールの拡張畳み込みの恩恵を受け、パフォーマンスをさらに向上させる。 Compressive sensing (CS) is a technique that enables the recovery of sparse signals using fewer measurements than traditional sampling methods. To address the computational challenges of CS reconstruction, our objective is to develop an interpretable and concise neural network model for reconstructing natural images using CS. We achieve this by mapping one step of the iterative shrinkage thresholding algorithm (ISTA) to a deep network block, representing one iteration of ISTA. To enhance learning ability and incorporate structural diversity, we integrate aggregated residual transformations (ResNeXt) and squeeze-and-excitation (SE) mechanisms into the ISTA block. This block serves as a deep equilibrium layer, connected to a semi-tensor product network (STP-Net) for convenient sampling and providing an initial reconstruction. The resulting model, called MsDC-DEQ-Net, exhibits competitive performance compared to state-of-the-art network-based methods. It significantly reduces storage requirements compared to deep unrolling methods, using only one iteration block instead of multiple iterations. Unlike deep unrolling models, MsDC-DEQ-Net can be iteratively used, gradually improving reconstruction accuracy while considering computation trade-offs. Additionally, the model benefits from multi-scale dilated convolutions, further enhancing performance. | 翻訳日:2024-01-08 14:39:10 公開日:2024-01-05 |
# 量子カーネルアライメントの効率的なパラメータ最適化:変分学習におけるサブサンプリングアプローチ Efficient Parameter Optimisation for Quantum Kernel Alignment: A Sub-sampling Approach in Variational Training ( http://arxiv.org/abs/2401.02879v1 ) ライセンス: Link先を確認 | M. Emre Sahin, Benjamin C. B. Symons, Pushpak Pati, Fayyaz Minhas, Declan Millar, Maria Gabrani, Jan Lukas Robertus, Stefano Mensa | (参考訳) 分類問題に対する量子カーネルを用いた量子機械学習は、研究の領域が増えている。
近年、カーネルをパラメータ化する量子カーネルアライメント技術が開発され、カーネルをトレーニングし、そのため特定のデータセットにアライメントできるようになった。
量子カーネルアライメントは有望な技術であるが、すべてのトレーニングイテレーションで完全なカーネルマトリックスを構築する必要があるため、かなりのトレーニングコストがかかっている。
この課題に対処するため,効率と性能のバランスをとる新しい手法を提案する。
本稿では,カーネル行列のサブセットをトレーニングの各ステップで使用するサブサンプリングトレーニング手法を提案する。
本研究では,合成データセットと実世界の乳がんデータセットにサブサンプリング法を適用し,分類精度を維持しつつ量子カーネルの訓練に必要な回路数を大幅に削減することを示す。 Quantum machine learning with quantum kernels for classification problems is a growing area of research. Recently, quantum kernel alignment techniques that parameterise the kernel have been developed, allowing the kernel to be trained and therefore aligned with a specific dataset. While quantum kernel alignment is a promising technique, it has been hampered by considerable training costs because the full kernel matrix must be constructed at every training iteration. Addressing this challenge, we introduce a novel method that seeks to balance efficiency and performance. We present a sub-sampling training approach that uses a subset of the kernel matrix at each training step, thereby reducing the overall computational cost of the training. In this work, we apply the sub-sampling method to synthetic datasets and a real-world breast cancer dataset and demonstrate considerable reductions in the number of circuits required to train the quantum kernel while maintaining classification accuracy. | 翻訳日:2024-01-08 14:38:46 公開日:2024-01-05 |
# タイムウインドウを用いた車両計画の最適チェーン化 Optimal Chaining of Vehicle Plans with Time Windows ( http://arxiv.org/abs/2401.02873v1 ) ライセンス: Link先を確認 | David Fiedler, Fabio V. Difonzo and Jan Mrkos | (参考訳) 時間窓のある車両ルーティングの領域から問題を解決するためには、長い時間帯にまたがるシーケンスに車両計画を接続するか、あるいはプランチェーンを実行する必要がある。
近年,フリートサイズ問題を解決するためのネットワークベースのソリューションが提案されている。
しかし、この方法は計画の時間的柔軟性を考慮せず、タイムウインドウを持つ全ての車両のルーティング問題の本質的特性である。
代わりに、計画は固定され、遅れることはできない。
本研究は、与えられた時間ウィンドウに一致した遅延を考慮した新しい問題定式化と、それを解決する方法を提案する。
さらに,本手法が最適であることを証明し,その複雑さを解析する。
最後に,静的ダイヤル・ア・ライド問題の解法という実用的応用例をリストアップし,その1つを実演する。
実演の結果,提案手法は,計算時間要件が最大であるにもかかわらず,我々が評価した他の2つのヒューリスティックベースライン法よりも優れた解を提供することが示された。 For solving problems from the domain of vehicle routing with time windows, we often need to connect vehicle plans into sequences spanning a longer time horizon or, in other words, we need to perform a plan chaining. Recently, a network-based solution has been proposed to solve the fleet-sizing problem. The method, however, does not consider the time flexibility of the plans, an essential property of all vehicle routing problems with time windows. Instead, plans have fixed times and cannot be delayed. This work presents a new problem formulation that considers delays in line with the given time windows and a method that can be used to solve it. Moreover, we prove that the method is optimal, and we analyze its complexity. Finally, we list some practical applications and perform a demonstration for one of them: the method for solving the static Dial-a-ride problem. The demonstration results show that for a significant number of instances, the proposed method provides a better solution than the other two heuristic baseline methods we have evaluated, while not having the largest computational time requirements. | 翻訳日:2024-01-08 14:38:31 公開日:2024-01-05 |
# AFSPP:大規模言語モデルによる嗜好とパーソナリティ形成のためのエージェントフレームワーク AFSPP: Agent Framework for Shaping Preference and Personality with Large Language Models ( http://arxiv.org/abs/2401.02870v1 ) ライセンス: Link先を確認 | Zihong He, Changwang Zhang | (参考訳) 大規模言語モデル(LLM)の進化は、人間の行動エミュレーションを研究するための新しいパラダイムを導入した。
近年、LLMベースのエージェントを用いて、エージェントが大きな言語モデルの未フィルタリング特性に基づいて行動を示す社会学的研究環境を構築している。
しかし、これらの研究は、人間の嗜好と個性は複雑であり、様々な要因によって形作られ、環境や主観的な影響によって継続的な変化の対象となる。
そこで本研究では,LLMに基づくエージェントの嗜好とパーソナリティ形成に対する,ソーシャルネットワークの多面的影響と主観的意識を探求するエージェント・フレームワーク(AFSPP)を提案する。
AFSPPでは、人間の個性実験から得られたいくつかの重要な発見を初めて再現しました。
AFSPPに基づく他の実験結果は、計画作成、知覚知覚、主観的情報によるソーシャルネットワーキングが、嗜好形成に最も顕著な影響を及ぼしたことを示している。
AFSPPは心理的実験の効率とスコープを大幅に向上させると同時に、好ましくない嗜好やパーソナリティの発達を防ぐための戦略として、信頼できる人工知能研究に貴重な洞察を与える。 The evolution of Large Language Models (LLMs) has introduced a new paradigm for investigating human behavior emulation. Recent research has employed LLM-based Agents to create a sociological research environment, in which agents exhibit behavior based on the unfiltered characteristics of large language models. However, these studies overlook the iterative development within a human-like setting - Human preferences and personalities are complex, shaped by various factors and subject to ongoing change as a result of environmental and subjective influences. In light of this observation, we propose Agent Framework for Shaping Preference and Personality (AFSPP), exploring the multifaceted impact of social networks and subjective consciousness on LLM-based Agents' preference and personality formation. With AFSPP, we have, for the first time, successfully replicated several key findings from human personality experiments. And other AFSPP-based experimental results indicate that plan making, sensory perceptions and social networking with subjective information, wield the most pronounced influence on preference shaping. AFSPP can significantly enhance the efficiency and scope of psychological experiments, while yielding valuable insights for Trustworthy Artificial Intelligence research for strategies to prevent undesirable preference and personality development. | 翻訳日:2024-01-08 14:38:14 公開日:2024-01-05 |
# 可逆性逆転:逆バイオメトリックスに関する調査 Reversing the Irreversible: A Survey on Inverse Biometrics ( http://arxiv.org/abs/2401.02861v1 ) ライセンス: Link先を確認 | Marta Gomez-Barrero, Javier Galbally | (参考訳) 生体認証の普及に伴い、この技術が提供するプライバシーとセキュリティに関するいくつかの問題が最近提起され、分析されている。
その結果,テンプレートの不可逆性に関するバイオメトリックスコミュニティの初期の共通信条は誤りであることが証明された。
現在では、無防備なテンプレートから、ボナフィデのものと一致する合成サンプルを再構築できるという事実が受け入れられている。
このリバースエンジニアリングプロセスは、一般的には \textit{inverse biometrics} と呼ばれ、2つの異なる角度から生体認証システムの深刻な脅威を構成する。
その重要な意味から、バイオメトリックの利害関係者は過去15年間に、逆バイオメトリックスに関する様々な側面を分析してきた: 異なる特徴のための再構成アルゴリズムの開発、上記のアルゴリズムに対する生体メトリックシステムの脆弱性を評価する方法論の提案、攻撃の可能性を減らすための対策の開発。
本稿は,問題そのもの,問題の評価,問題の緩和という1つの包括的なレビューにおいて,これらの情報を集約する試みである。
本稿は,問題そのもの,問題の評価,問題の緩和という1つの包括的なレビューにおいて,これらの情報を集約する試みである。 With the widespread use of biometric recognition, several issues related to the privacy and security provided by this technology have been recently raised and analysed. As a result, the early common belief among the biometrics community of templates irreversibility has been proven wrong. It is now an accepted fact that it is possible to reconstruct from an unprotected template a synthetic sample that matches the bona fide one. This reverse engineering process, commonly referred to as \textit{inverse biometrics}, constitutes a severe threat for biometric systems from two different angles: on the one hand, sensitive personal data (i.e., biometric data) can be derived from compromised unprotected templates; on the other hand, other powerful attacks can be launched building upon these reconstructed samples. Given its important implications, biometric stakeholders have produced over the last fifteen years numerous works analysing the different aspects related to inverse biometrics: development of reconstruction algorithms for different characteristics; proposal of methodologies to assess the vulnerabilities of biometric systems to the aforementioned algorithms; development of countermeasures to reduce the possible effects of attacks. The present article is an effort to condense all this information in one comprehensive review of: the problem itself, the evaluation of the problem, and the mitigation of the problem. The present article is an effort to condense all this information in one comprehensive review of: the problem itself, the evaluation of the problem, and the mitigation of the problem. | 翻訳日:2024-01-08 14:37:52 公開日:2024-01-05 |
# 視覚変換器のノイズ化 Denoising Vision Transformers ( http://arxiv.org/abs/2401.02957v1 ) ライセンス: Link先を確認 | Jiawei Yang and Katie Z Luo and Jiefeng Li and Kilian Q Weinberger and Yonglong Tian and Yue Wang | (参考訳) これらのモデルのフィーチャーマップにはグリッドのようなアーティファクトがあり、下流タスクにおけるViTのパフォーマンスが著しく損なわれます。
我々の調査は、この根本的な問題を入力段階の位置埋め込みまで追跡する。
そこで本研究では,すべてのViTに適用可能な新しいノイズモデルを提案する。
具体的には、ノイズモデルはvit出力を3つのコンポーネントに分類する: ノイズアーティファクトのないセマンティクス用語と、ピクセル位置を条件とする2つのアーティファクト関連用語である。
このような分解は、画像ごとにニューラルネットワークとのクロスビュー特徴整合を強制することで達成される。
このイメージごとの最適化プロセスは、生のViT出力からアーティファクトフリーの機能を抽出し、オフラインアプリケーションにクリーンな機能を提供する。
オンライン機能をサポートするためのソリューションの範囲を広げ、未処理のViT出力から直接アーチファクトフリーの機能を予測する学習可能なデノイザを導入します。
Denoising Vision Transformers (DVT)と呼ばれる2段階のアプローチでは、既存のトレーニング済みのViTを再トレーニングする必要はなく、Transformerベースのアーキテクチャにも即座に適用できます。
本手法は,様々な代表的ビタミンVT(DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg)について検討した。
大規模な評価では、DVTは複数のデータセット(例えば+3.84 mIoU)にわたる意味的および幾何学的タスクにおける既存の最先端の汎用モデルを大幅に改善している。
本研究は,vit設計の再評価,特に位置埋め込みのナイーブな利用を促進することを期待する。 We delve into a nuanced but significant challenge inherent to Vision Transformers (ViTs): feature maps of these models exhibit grid-like artifacts, which detrimentally hurt the performance of ViTs in downstream tasks. Our investigations trace this fundamental issue down to the positional embeddings at the input stage. To address this, we propose a novel noise model, which is universally applicable to all ViTs. Specifically, the noise model dissects ViT outputs into three components: a semantics term free from noise artifacts and two artifact-related terms that are conditioned on pixel locations. Such a decomposition is achieved by enforcing cross-view feature consistency with neural fields in a per-image basis. This per-image optimization process extracts artifact-free features from raw ViT outputs, providing clean features for offline applications. Expanding the scope of our solution to support online functionality, we introduce a learnable denoiser to predict artifact-free features directly from unprocessed ViT outputs, which shows remarkable generalization capabilities to novel data without the need for per-image optimization. Our two-stage approach, termed Denoising Vision Transformers (DVT), does not require re-training existing pre-trained ViTs and is immediately applicable to any Transformer-based architecture. We evaluate our method on a variety of representative ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Extensive evaluations demonstrate that our DVT consistently and significantly improves existing state-of-the-art general-purpose models in semantic and geometric tasks across multiple datasets (e.g., +3.84 mIoU). We hope our study will encourage a re-evaluation of ViT design, especially regarding the naive use of positional embeddings. | 翻訳日:2024-01-08 14:29:57 公開日:2024-01-05 |
# オープン語彙SAM:20のクラスを対話的にセグメンテーションと認識 Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively ( http://arxiv.org/abs/2401.02955v1 ) ライセンス: Link先を確認 | Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, Chen Change Loy | (参考訳) CLIPとSegment Anything Model(SAM)は目覚しいビジョン基盤モデル(VFM)である。
SAMはさまざまなドメインにまたがるセグメンテーションタスクに優れており、CLIPはそのゼロショット認識機能で有名である。
本稿では,これら2つのモデルを統一フレームワークに統合する詳細な検討を行う。
具体的には、SAM2CLIPとCLIP2SAMの2つのユニークな知識伝達モジュールを活用し、同時的セグメンテーションと認識のためのSAMに着想を得たモデルであるOpen-Vocabulary SAMを紹介する。
前者は蒸留と学習可能なトランスフォーマーアダプターを通じてSAMの知識をCLIPに適応させ、後者はCLIPの知識をSAMに転送し、認識能力を高める。
各種データセットおよび検出器の広範囲にわたる実験により、セグメンテーションと認識タスクの両方において、オープン語彙SAMの有効性が示され、SAMとCLIPを単純に組み合わせることの単純さを著しく上回っている。
さらに,画像分類データトレーニングの支援により,約22,000クラスを分割認識できる。 The CLIP and Segment Anything Model (SAM) are remarkable vision foundation models (VFMs). SAM excels in segmentation tasks across diverse domains, while CLIP is renowned for its zero-shot recognition capabilities. This paper presents an in-depth exploration of integrating these two models into a unified framework. Specifically, we introduce the Open-Vocabulary SAM, a SAM-inspired model designed for simultaneous interactive segmentation and recognition, leveraging two unique knowledge transfer modules: SAM2CLIP and CLIP2SAM. The former adapts SAM's knowledge into the CLIP via distillation and learnable transformer adapters, while the latter transfers CLIP knowledge into SAM, enhancing its recognition capabilities. Extensive experiments on various datasets and detectors show the effectiveness of Open-Vocabulary SAM in both segmentation and recognition tasks, significantly outperforming the naive baselines of simply combining SAM and CLIP. Furthermore, aided with image classification data training, our method can segment and recognize approximately 22,000 classes. | 翻訳日:2024-01-08 14:29:27 公開日:2024-01-05 |
# DeepSeek LLM: 長期化によるオープンソースの言語モデルのスケーリング DeepSeek LLM: Scaling Open-Source Language Models with Longtermism ( http://arxiv.org/abs/2401.02954v1 ) ライセンス: Link先を確認 | DeepSeek-AI: Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y.K. Li, Wenfeng Liang, Fangyun Lin, A.X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R.X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, Yuheng Zou | (参考訳) オープンソースの大規模言語モデル(LLM)の急速な開発は、実に目覚ましい。
しかし、以前の文献で述べられているスケーリング法則は様々な結論を示し、LSMをスケーリングする上で暗い雲を生じさせる。
我々は、スケーリング法則の研究を掘り下げ、広く使われている2つのオープンソース構成である7Bと67Bにおける大規模モデルのスケーリングを容易にする特徴的な知見を提示する。
スケーリング法則によってガイドされたDeepSeek LLMは、長期的視点でオープンソースの言語モデルを進化させるためのプロジェクトです。
事前学習フェーズをサポートするため,現在2兆トークンからなるデータセットを開発し,継続的に拡張している。
さらに、DeepSeek LLMベースモデル上で、教師付き微調整(SFT)と直接優先度最適化(DPO)を行い、DeepSeek Chatモデルを作成する。
評価結果から,DeepSeek LLM 67B は LLaMA-2 70B を超えていることが明らかとなった。
さらに,DeepSeek LLM 67B ChatはGPT-3.5に比べて優れた性能を示した。 The rapid development of open-source large language models (LLMs) has been truly remarkable. However, the scaling law described in previous literature presents varying conclusions, which casts a dark cloud over scaling LLMs. We delve into the study of scaling laws and present our distinctive findings that facilitate scaling of large scale models in two commonly used open-source configurations, 7B and 67B. Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective. To support the pre-training phase, we have developed a dataset that currently consists of 2 trillion tokens and is continuously expanding. We further conduct supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) on DeepSeek LLM Base models, resulting in the creation of DeepSeek Chat models. Our evaluation results demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on various benchmarks, particularly in the domains of code, mathematics, and reasoning. Furthermore, open-ended evaluations reveal that DeepSeek LLM 67B Chat exhibits superior performance compared to GPT-3.5. | 翻訳日:2024-01-08 14:29:07 公開日:2024-01-05 |
# 戦術家による大規模形式知識のWeb The Tactician's Web of Large-Scale Formal Knowledge ( http://arxiv.org/abs/2401.02950v1 ) ライセンス: Link先を確認 | Lasse Blaauwbroek | (参考訳) Tactician's Webは、強力な相互接続、マシンチェック、フォーマルな数学的知識を備えた大規模なWebを提供するプラットフォームで、機械学習、分析、証明エンジニアリングに便利にパッケージされている。
coq proof assistant上に構築されたこのプラットフォームは、定義、定理、証明項、戦術、証明状態のwebとして提示される、さまざまな形式理論を含むデータセットをエクスポートする。
理論は、意味グラフ(下記参照)と人間の読みやすいテキストの両方で符号化され、それぞれに独自の利点と欠点がある。
証明エージェントは同じリッチデータ表現を通じてCoqと相互作用し、定理のセットで自動的にベンチマークすることができる。
Coqとの密接な統合は、実証エンジニアを実用的なツールとして利用できるようにするユニークな可能性を提供する。 The Tactician's Web is a platform offering a large web of strongly interconnected, machine-checked, formal mathematical knowledge conveniently packaged for machine learning, analytics, and proof engineering. Built on top of the Coq proof assistant, the platform exports a dataset containing a wide variety of formal theories, presented as a web of definitions, theorems, proof terms, tactics, and proof states. Theories are encoded both as a semantic graph (rendered below) and as human-readable text, each with a unique set of advantages and disadvantages. Proving agents may interact with Coq through the same rich data representation and can be automatically benchmarked on a set of theorems. Tight integration with Coq provides the unique possibility to make agents available to proof engineers as practical tools. | 翻訳日:2024-01-08 14:28:46 公開日:2024-01-05 |
# Graph2Tac: 定理証明における数学概念の階層的表現学習 Graph2Tac: Learning Hierarchical Representations of Math Concepts in Theorem proving ( http://arxiv.org/abs/2401.02949v1 ) ライセンス: Link先を確認 | Jason Rute, Miroslav Ol\v{s}\'ak, Lasse Blaauwbroek, Fidel Ivan Schaposnik Massolo, Jelle Piepenbrock, Vasily Pestun | (参考訳) 数学における概念とその応用。
対象分野によって大きく異なり、各数学論文や応用に新しいものが導入される。
形式理論は、互いに参照する定義、定理、証明の階層を構築する。
AIエージェントが新しい定理を証明しているとき、その定理に関連する数学的概念や補題のほとんどは、トレーニング中に見たことがないかもしれない。
これは、Coqプロジェクトの多種多様なライブラリを持ち、それぞれ独自の定義、補題、さらにはそれらの補題を証明するために使用されるカスタム戦術の手順を持つCoq証明アシスタントに特に当てはまる。
エージェントは、そのような新しい情報をオンザフライで知識ベースに組み込むことが不可欠である。
私たちは、coqの機械学習のために、新しい大規模グラフベースのデータセットを利用することで、この目標に向かって取り組んでいる。
我々は、定義間の依存関係の有向グラフを誘導するCoq用語の忠実なグラフ表現を活用して、現在の目標だけでなく、現在の目標に繋がった定義の階層全体も考慮に入れた、新しいグラフニューラルネットワークGraph2Tac(G2T)を作成します。
G2Tは、ユーザのワークフローに深く統合され、新しいCoqプロジェクトとその定義にリアルタイムで適応できるオンラインモデルである。
新しい証明スクリプトからリアルタイムで学習する他のオンラインモデルとも相性がいい。
我々の新しい定義埋め込みタスクは、トレーニング中に見えない数学的概念の表現を計算するために訓練され、ニューラルネットワークの性能を、最先端のkアレスト近傍予測器に向上させる。 Concepts abound in mathematics and its applications. They vary greatly between subject areas, and new ones are introduced in each mathematical paper or application. A formal theory builds a hierarchy of definitions, theorems and proofs that reference each other. When an AI agent is proving a new theorem, most of the mathematical concepts and lemmas relevant to that theorem may have never been seen during training. This is especially true in the Coq proof assistant, which has a diverse library of Coq projects, each with its own definitions, lemmas, and even custom tactic procedures used to prove those lemmas. It is essential for agents to incorporate such new information into their knowledge base on the fly. We work towards this goal by utilizing a new, large-scale, graph-based dataset for machine learning in Coq. We leverage a faithful graph-representation of Coq terms that induces a directed graph of dependencies between definitions to create a novel graph neural network, Graph2Tac (G2T), that takes into account not only the current goal, but also the entire hierarchy of definitions that led to the current goal. G2T is an online model that is deeply integrated into the users' workflow and can adapt in real time to new Coq projects and their definitions. It complements well with other online models that learn in real time from new proof scripts. Our novel definition embedding task, which is trained to compute representations of mathematical concepts not seen during training, boosts the performance of the neural network to rival state-of-the-art k-nearest neighbor predictors. | 翻訳日:2024-01-08 14:28:32 公開日:2024-01-05 |
# Rydberg原子配列上のデジタルアナログ量子学習 Digital-analog quantum learning on Rydberg atom arrays ( http://arxiv.org/abs/2401.02940v1 ) ライセンス: Link先を確認 | Jonathan Z. Lu, Lucy Jiao, Kristina Wolinski, Milan Kornja\v{c}a, Hong-Ye Hu, Sergio Cantu, Fangli Liu, Susanne F. Yelin, Sheng-Tao Wang | (参考訳) 我々はRydberg原子配列上のハイブリッドデジタルアナログ学習アルゴリズムを提案し、量子学習の潜在的実用性と短期実現可能性と中性原子の高速スケーリングアーキテクチャを組み合わせた。
我々の構成は、アナログ設定におけるRydberg Hamiltonianによれば、デジタル設定における単一量子演算と大域駆動のみを必要とする。
我々は、手書き桁分類と教師なし量子位相境界学習により、古典的データと量子的データの両方に対するアルゴリズムの総合的な数値的研究を行う。
デジタルアナログ学習は,短期的に実現可能であるだけでなく,回路深度も短く,現実的な誤りモデルに対してより堅牢であることを示す。
この結果から,デジタルアナログ学習は,短期的に変動量子学習実験を改善するための有望な道を開くことが示唆された。 We propose hybrid digital-analog learning algorithms on Rydberg atom arrays, combining the potentially practical utility and near-term realizability of quantum learning with the rapidly scaling architectures of neutral atoms. Our construction requires only single-qubit operations in the digital setting and global driving according to the Rydberg Hamiltonian in the analog setting. We perform a comprehensive numerical study of our algorithm on both classical and quantum data, given respectively by handwritten digit classification and unsupervised quantum phase boundary learning. We show in the two representative problems that digital-analog learning is not only feasible in the near term, but also requires shorter circuit depths and is more robust to realistic error models as compared to digital learning schemes. Our results suggest that digital-analog learning opens a promising path towards improved variational quantum learning experiments in the near term. | 翻訳日:2024-01-08 14:28:05 公開日:2024-01-05 |
# 局所適応型ニューラル3次元モーファブルモデル Locally Adaptive Neural 3D Morphable Models ( http://arxiv.org/abs/2401.02937v1 ) ライセンス: Link先を確認 | Michail Tarasiou, Rolandos Alexandros Potamias, Eimear O'Sullivan, Stylianos Ploumpis, Stefanos Zafeiriou | (参考訳) 本稿では3Dメッシュの生成と操作を学習するための,高度に柔軟な自動エンコーダ(AE)フレームワークであるLocally Adaptive Morphable Model(LAMM)を提案する。
我々は,スパース制御頂点のセット上の入力変位を利用して符号化幾何を上書きし,一方のトレーニングサンプルを他方に変換する,単純な自己教師付きトレーニングスキームに従って,アーキテクチャをトレーニングする。
推論中,本モデルは,符号化対象の全体像を維持しつつ,特定スパース形状に局所的に付着する高密度出力を生成する。
このアプローチは,3次元メッシュ再構成と切り離された操作された幾何学の両面での最先端性能をもたらす。
私たちの知る限りでは、lammは1回のフォワードパスで3d頂点幾何を直接ローカルに制御できる最初のエンドツーエンドフレームワークです。
非常に効率的な計算グラフによって、以前のメソッドに必要なメモリのほんの一部でネットワークをトレーニングでき、推論中に高速に実行でき、1つのcpuスレッドで1kの頂点メッシュを$>60fpsで生成できます。
さらに,より高レベルな編集操作のためのプリミティブとして局所幾何制御を活用し,オブジェクト部品のスワップやサンプリングといった派生的な機能を提示する。
コードと事前訓練されたモデルはhttps://github.com/michaeltrs/LAMMで見ることができる。 We present the Locally Adaptive Morphable Model (LAMM), a highly flexible Auto-Encoder (AE) framework for learning to generate and manipulate 3D meshes. We train our architecture following a simple self-supervised training scheme in which input displacements over a set of sparse control vertices are used to overwrite the encoded geometry in order to transform one training sample into another. During inference, our model produces a dense output that adheres locally to the specified sparse geometry while maintaining the overall appearance of the encoded object. This approach results in state-of-the-art performance in both disentangling manipulated geometry and 3D mesh reconstruction. To the best of our knowledge LAMM is the first end-to-end framework that enables direct local control of 3D vertex geometry in a single forward pass. A very efficient computational graph allows our network to train with only a fraction of the memory required by previous methods and run faster during inference, generating 12k vertex meshes at $>$60fps on a single CPU thread. We further leverage local geometry control as a primitive for higher level editing operations and present a set of derivative capabilities such as swapping and sampling object parts. Code and pretrained models can be found at https://github.com/michaeltrs/LAMM. | 翻訳日:2024-01-08 14:27:50 公開日:2024-01-05 |
# SPFormer:スーパーピクセル表現によるビジョントランスの強化 SPFormer: Enhancing Vision Transformer with Superpixel Representation ( http://arxiv.org/abs/2401.02931v1 ) ライセンス: Link先を確認 | Jieru Mei, Liang-Chieh Chen, Alan Yuille, Cihang Xie | (参考訳) 本稿では,超ピクセル表現による新しい視覚トランスフォーマであるspformerを紹介する。
従来のビジョントランスフォーマーの固定サイズの非適応パッチパーティショニングの限界に対処するために、spformerは画像の内容に適応するスーパーピクセルを使用している。
このアプローチは、イメージを不規則でセマンティックな一貫性のある領域に分割し、複雑な詳細を効果的に捉え、初期特徴レベルと中間特徴レベルの両方に適用する。
トレーニング可能なエンドツーエンドのSPFormerは、さまざまなベンチマークで優れたパフォーマンスを示している。
特に、ImageNetベンチマークでは、DeiT-Tよりも1.4%、DeiT-Sより1.1%向上している。
SPFormerの特長は、その固有の説明性である。
スーパーピクセル構造はモデルの内部プロセスのウィンドウを提供し、モデルの解釈可能性を高める貴重な洞察を提供する。
このレベルの明確さは、SPFormerの堅牢性、特に画像回転や閉塞といった困難なシナリオにおいて、その適応性とレジリエンスを示している。 In this work, we introduce SPFormer, a novel Vision Transformer enhanced by superpixel representation. Addressing the limitations of traditional Vision Transformers' fixed-size, non-adaptive patch partitioning, SPFormer employs superpixels that adapt to the image's content. This approach divides the image into irregular, semantically coherent regions, effectively capturing intricate details and applicable at both initial and intermediate feature levels. SPFormer, trainable end-to-end, exhibits superior performance across various benchmarks. Notably, it exhibits significant improvements on the challenging ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S respectively. A standout feature of SPFormer is its inherent explainability. The superpixel structure offers a window into the model's internal processes, providing valuable insights that enhance the model's interpretability. This level of clarity significantly improves SPFormer's robustness, particularly in challenging scenarios such as image rotations and occlusions, demonstrating its adaptability and resilience. | 翻訳日:2024-01-08 14:27:28 公開日:2024-01-05 |
# Dagma-DCE: 解釈可能な非パラメータ微分因果発見 Dagma-DCE: Interpretable, Non-Parametric Differentiable Causal Discovery ( http://arxiv.org/abs/2401.02930v1 ) ライセンス: Link先を確認 | Daniel Waxman and Kurt Butler and Petar M. Djuric | (参考訳) dagma-dceは分化可能な因果発見のための解釈可能かつモデル非依存なスキームである。
因果発見における現在の非あるいは過度パラメトリックな手法は、因果関係の包含または排除を正当化するために 'independence'' の不透明なプロキシを使用する。
これらのプロキシが実際の因果強度と任意に異なる可能性があることを理論的および実証的に示す。
既存の微分可能な因果発見アルゴリズムに従えば、 \textsc{Dagma-DCE} は因果強度の解釈可能な尺度を用いて重み付き隣接行列を定義する。
多くのシミュレーションデータセットにおいて,本手法が最先端性能を実現することを示す。
さらに, <textsc{Dagma-DCE} は, ドメインエキスパートによる原則的しきい値とスパース性ペナルティを許容できることを示す。
本手法のコードはhttps://github.com/DanWaxman/DAGMA-DCEで公開されている。 We introduce Dagma-DCE, an interpretable and model-agnostic scheme for differentiable causal discovery. Current non- or over-parametric methods in differentiable causal discovery use opaque proxies of ``independence'' to justify the inclusion or exclusion of a causal relationship. We show theoretically and empirically that these proxies may be arbitrarily different than the actual causal strength. Juxtaposed to existing differentiable causal discovery algorithms, \textsc{Dagma-DCE} uses an interpretable measure of causal strength to define weighted adjacency matrices. In a number of simulated datasets, we show our method achieves state-of-the-art level performance. We additionally show that \textsc{Dagma-DCE} allows for principled thresholding and sparsity penalties by domain-experts. The code for our method is available open-source at https://github.com/DanWaxman/DAGMA-DCE, and can easily be adapted to arbitrary differentiable models. | 翻訳日:2024-01-08 14:27:09 公開日:2024-01-05 |
# ラジカル対量子コンパスの最適性について On the optimality of the radical-pair quantum compass ( http://arxiv.org/abs/2401.02923v1 ) ライセンス: Link先を確認 | Luke D. Smith, Jonas Glatthard, Farhan T. Chowdhury, Daniel R. Kattnig | (参考訳) 量子センシングにより、パラメータ推定において最終的な精度が得られる。
状況証拠は、特定の生物、特に渡り鳥は、弱い地磁気の正確な検出のために、ラジカルペアベースの化学コンパスを介して量子エンハンシングされた磁場センシングを利用することを示唆している。
しかし、そのような羅針盤が、生理的な温度で、うるさい生物学的な環境で動作していることは、まだ明らかな疑問である。
本稿では,ラジカルペアスピンダイナミクスから地磁気方向を推定する基本的な限界について述べる。
具体的には, 定常状態下でのスピン系の量子測定によって実現可能な究極の精度と, ラジカルペア再結合収率の方向依存性から導出されるコンパス精度を比較した。
この目的のために, 量子フィッシャー情報と関連するCram\'er--Rao境界を, 複雑なラジカル間相互作用, 多数の超微細結合, および非対称組換え運動学を, 磁化タンパク質クロマトクロームの特徴として考慮し, 現実的複雑性のスピンモデルで探索する。
クリプトクロム磁気受容に関わる複数のモデルを比較し,その最適性を明らかにする。
概して、この比較は、ただの反応収率で操作に制約されながら、最適性を実現するために自然に磨かれたプロセスに対する洞察を与える。
一般に、組み換えによるコンパス配向の推論は、複雑性の限界において最適性にアプローチするが、理論上の最適精度境界を最大で1~2桁まで下回っているため、自然システムに固有の設計原理を改善する可能性を示している。 Quantum sensing enables the ultimate precision attainable in parameter estimation. Circumstantial evidence suggests that certain organisms, most notably migratory songbirds, also harness quantum-enhanced magnetic field sensing via a radical-pair-based chemical compass for the precise detection of the weak geomagnetic field. However, what underpins the acuity of such a compass operating in a noisy biological setting, at physiological temperatures, remains an open question. Here, we address the fundamental limits of inferring geomagnetic field directions from radical-pair spin dynamics. Specifically, we compare the compass precision, as derived from the directional dependence of the radical-pair recombination yield, to the ultimate precision potentially realisable by a quantum measurement on the spin system under steady-state conditions. To this end, we probe the quantum Fisher information and associated Cram\'er--Rao bound in spin models of realistic complexity, accounting for complex inter-radical interactions, a multitude of hyperfine couplings, and asymmetric recombination kinetics, as characteristic for the magnetosensory protein cryptochrome. We compare several models implicated in cryptochrome magnetoreception and unveil their optimality through the precision of measurements ostensibly accessible to nature. Overall, the comparison provides insight into processes honed by nature to realise optimality whilst constrained to operating with mere reaction yields. Generally, the inference of compass orientation from recombination yields approaches optimality in the limits of complexity, yet plateaus short of the theoretical optimal precision bounds by up to one or two orders of magnitude, thus underscoring the potential for improving on design principles inherent to natural systems. | 翻訳日:2024-01-08 14:26:51 公開日:2024-01-05 |
# 単語融合ネットワークを用いた文脈学習によるASRロバスト音声言語理解に向けて Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks ( http://arxiv.org/abs/2401.02921v1 ) ライセンス: Link先を確認 | Kevin Everson, Yile Gu, Huck Yang, Prashanth Gurunath Shivakumar, Guan-Ting Lin, Jari Kolehmainen, Ivan Bulyko, Ankur Gandhe, Shalini Ghosh, Wael Hamza, Hung-yi Lee, Ariya Rastrow, Andreas Stolcke | (参考訳) 音声言語理解(SLU)の分野では、多くの自然言語理解(NLU)手法が、従来のテキストではなく、大きな言語モデル(LLM)に書き起こされた音声を供給することによって適用されている。
LLMに入力される前の実世界のシナリオでは、自動音声認識(ASR)システムは出力転写仮説を生成し、そこでは固有のエラーがその後のSLUタスクを劣化させる。
本稿では,音声のあいまいさをカプセル化し,SLU結果を向上させることを目的とした,トップ仮説のみに依存するのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験では,格子からの単語混乱ネットワークの助けを借りて,LLMの音声書き起こしに対するレジリエンスを下記し,上位ASR仮説とオラクル上界とのSLU性能ギャップを埋める。
さらに,LLMの頑健さを探求して,ASRの性能条件の変動を解明し,最も影響力のあるテキスト内学習の側面を精査する。 In the realm of spoken language understanding (SLU), numerous natural language understanding (NLU) methodologies have been adapted by supplying large language models (LLMs) with transcribed speech instead of conventional written text. In real-world scenarios, prior to input into an LLM, an automated speech recognition (ASR) system generates an output transcript hypothesis, where inherent errors can degrade subsequent SLU tasks. Here we introduce a method that utilizes the ASR system's lattice output instead of relying solely on the top hypothesis, aiming to encapsulate speech ambiguities and enhance SLU outcomes. Our in-context learning experiments, covering spoken question answering and intent classification, underline the LLM's resilience to noisy speech transcripts with the help of word confusion networks from lattices, bridging the SLU performance gap between using the top ASR hypothesis and an oracle upper bound. Additionally, we delve into the LLM's robustness to varying ASR performance conditions and scrutinize the aspects of in-context learning which prove the most influential. | 翻訳日:2024-01-08 14:25:57 公開日:2024-01-05 |
# クラウドネイティブマイクロサービスのための分析駆動型リソース管理 Analytically-Driven Resource Management for Cloud-Native Microservices ( http://arxiv.org/abs/2401.02920v1 ) ライセンス: Link先を確認 | Yanqi Zhang and Zhuangzhuang Zhou and Sameh Elnikety and Christina Delimitrou | (参考訳) クラウドネイティブなマイクロサービスのためのリソース管理は、最近多くの注目を集めている。
これまでの研究によると、機械学習(ML)によるアプローチは、SLAのメンテナンスとリソース効率の両方の観点から、オートスケーリングのような従来のテクニックよりも優れている。
しかし、ML駆動のアプローチは、長いデータ収集プロセスや限られたスケーラビリティといった課題にも直面する。
このような課題に対処する,クラウドネイティブマイクロサービス用の軽量リソース管理システムであるursaを提案する。
Ursaは分析モデルを使用して、エンドツーエンドのSLAをサービス毎のSLAに分解し、サービス毎のSLAをマイクロサービス層毎のリソース割り当てにマップする。
探索プロセスをスピードアップし、長期にわたるSLA違反を回避するため、Ursaは個々のマイクロサービスを個別に探索し、レイテンシがSLAを超えた場合、素早く探索を停止する。
我々はUrsaを、ソーシャルネットワーク、メディアサービス、ビデオ処理パイプラインを含む代表的およびエンドツーエンドのマイクロサービストポロジのセットで評価し、それぞれ異なるSLAで複数のクラスとリクエストの優先順位で構成され、それを2つの代表的ML駆動システムであるSinanとFirmと比較した。
ml駆動のアプローチと比較して、ursaには大きなメリットがある。 データ収集プロセスを128倍以上に短縮し、そのコントロールプレーンはml駆動のアプローチよりも43倍高速である。
同時に、Ursaはリソース効率やSLAを犠牲にしません。
オンラインデプロイメント中、UrsaはSLA違反率を9.0%から49.9%に下げ、ML駆動のアプローチと比較してCPU割り当てを86.2%削減する。 Resource management for cloud-native microservices has attracted a lot of recent attention. Previous work has shown that machine learning (ML)-driven approaches outperform traditional techniques, such as autoscaling, in terms of both SLA maintenance and resource efficiency. However, ML-driven approaches also face challenges including lengthy data collection processes and limited scalability. We present Ursa, a lightweight resource management system for cloud-native microservices that addresses these challenges. Ursa uses an analytical model that decomposes the end-to-end SLA into per-service SLA, and maps per-service SLA to individual resource allocations per microservice tier. To speed up the exploration process and avoid prolonged SLA violations, Ursa explores each microservice individually, and swiftly stops exploration if latency exceeds its SLA. We evaluate Ursa on a set of representative and end-to-end microservice topologies, including a social network, media service and video processing pipeline, each consisting of multiple classes and priorities of requests with different SLAs, and compare it against two representative ML-driven systems, Sinan and Firm. Compared to these ML-driven approaches, Ursa provides significant advantages: It shortens the data collection process by more than 128x, and its control plane is 43x faster than ML-driven approaches. At the same time, Ursa does not sacrifice resource efficiency or SLAs. During online deployment, Ursa reduces the SLA violation rate by 9.0% up to 49.9%, and reduces CPU allocation by up to 86.2% compared to ML-driven approaches. | 翻訳日:2024-01-08 14:25:35 公開日:2024-01-05 |
# 運動パターンの解明--軌道予測のためのパターン記憶に基づく拡散モデル Uncovering the human motion pattern: Pattern Memory-based Diffusion Model for Trajectory Prediction ( http://arxiv.org/abs/2401.02916v1 ) ライセンス: Link先を確認 | Yuxin Yang, Pengfei Zhu, Mengshi Qi, Huadong Ma | (参考訳) 人間の軌道予測はロボット工学や自動運転といった分野において重要な課題である。
現実のシナリオにおける人間の行動や意図に固有の不確実性があるため、様々な予期せぬ出来事が起こる可能性がある。
本稿では,人間の行動における潜在運動パターンを明らかにするために,新しいメモリベース手法であるモーションパターンプリエンスメモリネットワークを提案する。
本手法は,訓練セットの軌跡で観測された動きパターンの事前知識をクラスタ化したメモリバンクを構築することを含む。
本稿では,エージェントが提示する自然動作パターンの識別と検索を可能にするメモリバンクからの予測毎にマッチングされたパターンと潜在的なターゲット分布を検索するアドレッシング機構を導入し,ターゲットプリエントメモリトークンを用いて拡散モデルをガイドし,予測を生成する。
広範な実験により,提案手法の有効性が検証され,最新の軌道予測精度が得られた。
コードは公開される予定だ。 Human trajectory forecasting is a critical challenge in fields such as robotics and autonomous driving. Due to the inherent uncertainty of human actions and intentions in real-world scenarios, various unexpected occurrences may arise. To uncover latent motion patterns in human behavior, we introduce a novel memory-based method, named Motion Pattern Priors Memory Network. Our method involves constructing a memory bank derived from clustered prior knowledge of motion patterns observed in the training set trajectories. We introduce an addressing mechanism to retrieve the matched pattern and the potential target distributions for each prediction from the memory bank, which enables the identification and retrieval of natural motion patterns exhibited by agents, subsequently using the target priors memory token to guide the diffusion model to generate predictions. Extensive experiments validate the effectiveness of our approach, achieving state-of-the-art trajectory prediction accuracy. The code will be made publicly available. | 翻訳日:2024-01-08 14:25:09 公開日:2024-01-05 |
# 統一的不確実性認識探索 : てんかんとてんかんの併用 A unified uncertainty-aware exploration: Combining epistemic and aleatory uncertainty ( http://arxiv.org/abs/2401.02914v1 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Ming Hou, Konstantinos N. Plataniotis | (参考訳) 探索は実践的強化学習 (RL) において重要な課題であり, てんかんの定量化を取り入れた不確実性を考慮した探索が有効な探索戦略として認識されている。
しかし, 気道およびてんかんの併用による意思決定効果の把握は困難である。
既存の研究では, それぞれ別々に気道およびてんかんの不確かさを推定し, 複合不確かさを両者の付加的な組み合わせと考える。
それにもかかわらず、添加剤は過剰なリスクテイク行動を引き起こし、不安定を引き起こす。
本稿では,両不確実性の理論的関係を解明し,不確実性推定と認識的不確実性推定を統一し,リスクに敏感な探索のための両不確実性の組み合わせ効果を定量化するアルゴリズムを提案する。
本手法は, エピステマ性不確かさをコードするパラメータがランダム変数であるパラメータ化された回帰分布を推定する分布RLの新たな拡張に基づく。
探索とリスク課題を伴う課題に関する実験結果から,本手法が代替手法よりも優れていることが示された。 Exploration is a significant challenge in practical reinforcement learning (RL), and uncertainty-aware exploration that incorporates the quantification of epistemic and aleatory uncertainty has been recognized as an effective exploration strategy. However, capturing the combined effect of aleatory and epistemic uncertainty for decision-making is difficult. Existing works estimate aleatory and epistemic uncertainty separately and consider the composite uncertainty as an additive combination of the two. Nevertheless, the additive formulation leads to excessive risk-taking behavior, causing instability. In this paper, we propose an algorithm that clarifies the theoretical connection between aleatory and epistemic uncertainty, unifies aleatory and epistemic uncertainty estimation, and quantifies the combined effect of both uncertainties for a risk-sensitive exploration. Our method builds on a novel extension of distributional RL that estimates a parameterized return distribution whose parameters are random variables encoding epistemic uncertainty. Experimental results on tasks with exploration and risk challenges show that our method outperforms alternative approaches. | 翻訳日:2024-01-08 14:24:55 公開日:2024-01-05 |
# リフト接続面符号 Lift-Connected Surface Codes ( http://arxiv.org/abs/2401.02911v1 ) ライセンス: Link先を確認 | Josias Old, Manuel Rispler and Markus M\"uller | (参考訳) 最近導入されたリフト製品を使用して、量子低密度パリティチェックコード(QLDPCコード)のファミリーを構築します。
私たちが取得したコードは、相互接続された表面符号のスタックと見なすことができ、リフト接続面(lcs)コードという名称に繋がる。
lcs符号は幅広いパラメーターを提供しており、特に興味深い特徴は、すでに適度な数の物理キュービットで使われている標準的なサーフェスコードと比較すると、興味深い特性を示すことである。
本稿では,コードキャパシティと現象ノイズを考慮した論理誤差率の数値シミュレーションを行い,その構成と解析を行った。
これらの結果は、lcs符号が対応する(非接続)表面符号のコピーに相当するしきい値に達することを示し、一方論理誤差率は同じパラメータを持つ代表者であっても桁違いに低い値となることを示した。
これは、既に小さなキュービット数で近代的な製品構築の可能性を示すコードファミリーを提供する。
その3Dローカル接続性は、特に短期的な実装に関係している。 We use the recently introduced lifted product to construct a family of Quantum Low Density Parity Check Codes (QLDPC codes). The codes we obtain can be viewed as stacks of surface codes that are interconnected, leading to the name lift-connected surface (LCS) codes. LCS codes offer a wide range of parameters - a particularly striking feature is that they show interesting properties that are favorable compared to the standard surface code already at moderate numbers of physical qubits in the order of tens. We present and analyze the construction and provide numerical simulation results for the logical error rate under code capacity and phenomenological noise. These results show that LCS codes attain thresholds that are comparable to corresponding (non-connected) copies of surface codes, while the logical error rate can be orders of magnitude lower, even for representatives with the same parameters. This provides a code family showing the potential of modern product constructions at already small qubit numbers. Their amenability to 3D-local connectivity renders them particularly relevant for near-term implementations. | 翻訳日:2024-01-08 14:24:40 公開日:2024-01-05 |