このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230910となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# スペクトル時間グラフニューラルネットワークによる大規模mimo csi予測 Spectral Temporal Graph Neural Network for massive MIMO CSI Prediction ( http://arxiv.org/abs/2312.02159v1 ) ライセンス: Link先を確認 | Sharan Mourya, Pavan Reddy, SaiDhiraj Amuru, Kiran Kumar Kuchi | (参考訳) 5G通信システムでは,チャネル状態情報(CSI)予測の精度が性能の最適化に不可欠である。
グラフフーリエ変換を用いて、無線チャネルの空間的関係と時間的ダイナミクスを融合するスペクトル-テンポラルグラフニューラルネットワーク(STEM GNN)の先駆的なアプローチを紹介する。
csi予測のためのstem gnnアプローチと従来のrecurrent neural network(rnn)およびlong short-term memory(lstm)モデルを比較した。
本研究は,STEM GNNによる通信システム全体の性能向上を示すものである。
例えば、1つのシナリオでは、STEM GNNは5.009 bps/Hzの和率を達成しており、LSTMよりも11.9 %、RNNよりは35 %高い。
STEM GNNのスペクトル時間解析機能は、しばしば従来のモデルで見落とされ、ビームフォーミング、干渉緩和、超信頼性の低レイテンシ通信(URLLC)の改善を提供する。 In the realm of 5G communication systems, the accuracy of Channel State Information (CSI) prediction is vital for optimizing performance. This letter introduces a pioneering approach: the Spectral-Temporal Graph Neural Network (STEM GNN), which fuses spatial relationships and temporal dynamics of the wireless channel using the Graph Fourier Transform. We compare the STEM GNN approach with conventional Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) models for CSI prediction. Our findings reveal a significant enhancement in overall communication system performance through STEM GNNs. For instance, in one scenario, STEM GNN achieves a sum rate of 5.009 bps/Hz which is $11.9\%$ higher than that of LSTM and $35\%$ higher than that of RNN. The spectral-temporal analysis capabilities of STEM GNNs capture intricate patterns often overlooked by traditional models, offering improvements in beamforming, interference mitigation, and ultra-reliable low-latency communication (URLLC). | 翻訳日:2024-01-15 15:11:26 公開日:2023-09-10 |
# 機械学習による化合物の活性予測 Predicting the activity of chemical compounds based on machine learning approaches ( http://arxiv.org/abs/2401.01004v1 ) ライセンス: Link先を確認 | Do Hoang Tu, Tran Van Lang, Pham Cong Xuyen, Le Mau Long | (参考訳) さまざまな分野における特定の課題に対処するための機械学習(ML)の手法と手法の探索が不可欠である。
本研究では, 化学情報学の領域における問題, すなわち, 化学物質の活性を可能な限り予測するための適切な解を提供する。
この問題に対処するため,本研究は既存の手法を100種類の組み合わせて実験を行う。
これらの解は、G平均、F1スコア、AUCメトリクスを含む一連の基準に基づいて選択される。
その結果はPubChemの約1万の化学物質のデータセットでテストされ、その活性に応じて分類された。 Exploring methods and techniques of machine learning (ML) to address specific challenges in various fields is essential. In this work, we tackle a problem in the domain of Cheminformatics; that is, providing a suitable solution to aid in predicting the activity of a chemical compound to the best extent possible. To address the problem at hand, this study conducts experiments on 100 different combinations of existing techniques. These solutions are then selected based on a set of criteria that includes the G-means, F1-score, and AUC metrics. The results have been tested on a dataset of about 10,000 chemical compounds from PubChem that have been classified according to their activity | 翻訳日:2024-01-15 12:19:51 公開日:2023-09-10 |
# ソフトウェアコミュニティにおける重複質問検索と確認時間予測 Duplicate Question Retrieval and Confirmation Time Prediction in Software Communities ( http://arxiv.org/abs/2309.05035v1 ) ライセンス: Link先を確認 | Rima Hazra, Debanjan Saha, Amruit Sahoo, Somnath Banerjee, Animesh Mukherjee | (参考訳) 異なるドメインにおけるコミュニティ質問回答(CQA)は、複数のプラットフォームが利用可能であり、ユーザ間で大きな共有情報があるため、大規模に成長している。
このようなオンラインプラットフォームの急速な成長に伴い、大量のアーカイブデータによって、モデレーターは新しい質問に対して可能な重複を検索し、既存の質問ペアを正しいタイミングで重複として識別し確認することが困難になる。
この問題はaskubuntuのような大規模ソフトウェアシステムに対応するcqaにおいてさらに重要であり、モデレーターは何かを重複として理解するには専門家である必要がある。
このようなCQAプラットフォームの最大の課題は、モデレーター自身が専門家であり、そのため非常に高価な時間で非常に忙しいことである。
本研究では,モデレーターの作業を容易にするため,askubuntu cqaプラットフォームにおいて,(1)新たな質問に対する重複質問の検索,(2)重複質問確認時間予測という2つの重要な課題に取り組んでいる。
最初のタスクでは、新たに投稿された質問に対して、質問プールから重複した質問を検索することに焦点を当てる。
第2のタスクでは、重複として確認されるのに長い時間がかかる可能性のある2つの質問をランク付けするために回帰問題を解く。
重ね合わせ質問検索では,テキストとネットワークに基づく特徴を併用し,最先端のベースライン技術に勝るシアームニューラルネット方式を提案する。
DupPredictor と DUPE をそれぞれ5%, 7% で比較した。
重複した確認時間予測には、標準機械学習モデルとニューラルネットワークと、テキストとグラフベースの機能の両方を使用しました。
テキストとグラフでそれぞれ0.20と0.213(統計的に有意)のスピアマンのランク相関を求める。 Community Question Answering (CQA) in different domains is growing at a large scale because of the availability of several platforms and huge shareable information among users. With the rapid growth of such online platforms, a massive amount of archived data makes it difficult for moderators to retrieve possible duplicates for a new question and identify and confirm existing question pairs as duplicates at the right time. This problem is even more critical in CQAs corresponding to large software systems like askubuntu where moderators need to be experts to comprehend something as a duplicate. Note that the prime challenge in such CQA platforms is that the moderators are themselves experts and are therefore usually extremely busy with their time being extraordinarily expensive. To facilitate the task of the moderators, in this work, we have tackled two significant issues for the askubuntu CQA platform: (1) retrieval of duplicate questions given a new question and (2) duplicate question confirmation time prediction. In the first task, we focus on retrieving duplicate questions from a question pool for a particular newly posted question. In the second task, we solve a regression problem to rank a pair of questions that could potentially take a long time to get confirmed as duplicates. For duplicate question retrieval, we propose a Siamese neural network based approach by exploiting both text and network-based features, which outperforms several state-of-the-art baseline techniques. Our method outperforms DupPredictor and DUPE by 5% and 7% respectively. For duplicate confirmation time prediction, we have used both the standard machine learning models and neural network along with the text and graph-based features. We obtain Spearman's rank correlation of 0.20 and 0.213 (statistically significant) for text and graph based features respectively. | 翻訳日:2023-10-23 08:11:47 公開日:2023-09-10 |
# 1ペニー関数: コスト透明なクラウドプログラミングを目指して A Penny a Function: Towards Cost Transparent Cloud Programming ( http://arxiv.org/abs/2309.04954v1 ) ライセンス: Link先を確認 | Lukas B\"ohme, Tom Beckmann, Sebastian Baltes, Robert Hirschfeld | (参考訳) クラウドアプリケーションの開発には、金銭的コスト要因の理解と管理が不可欠である。
しかし、クラウドアプリケーションにおける計算、ストレージ、ネットワークのコストに影響を与えるさまざまな要因は、コストを積極的に管理し最小化したい開発者にとっては課題となる。
コスト要因を理解するための既存のツールはしばしばソースコードから切り離され、コストの起源に関する不透明さを引き起こす。
さらに、クラウドアプリケーションの既存のコストモデルでは、計算リソースや手作業によるモデル作成といった特定の要素に焦点を当てている。
本稿では,静的解析を用いたコードから直接金銭的コスト推定を導出する有向グラフに基づくコストモデルに向けた初期研究について述べる。
コストモデルを活用することで、コードエディタに埋め込まれた視覚化を調査し、それらを引き起こすコードに近いコストを表示する。
これにより、コスト探索は開発者エクスペリエンスの一部として統合され、開発時にクラウドアプリケーションのコスト見積のための外部ツールのオーバーヘッドを取り除きます。 Understanding and managing monetary cost factors is crucial when developing cloud applications. However, the diverse range of factors influencing costs for computation, storage, and networking in cloud applications poses a challenge for developers who want to manage and minimize costs proactively. Existing tools for understanding cost factors are often detached from source code, causing opaqueness regarding the origin of costs. Moreover, existing cost models for cloud applications focus on specific factors such as compute resources and necessitate manual effort to create the models. This paper presents initial work toward a cost model based on a directed graph that allows deriving monetary cost estimations directly from code using static analysis. Leveraging the cost model, we explore visualizations embedded in a code editor that display costs close to the code causing them. This makes cost exploration an integrated part of the developer experience, thereby removing the overhead of external tooling for cost estimation of cloud applications at development time. | 翻訳日:2023-10-23 08:11:18 公開日:2023-09-10 |
# O2ATH: Sunwayの異種多コアプラットフォーム用のOpenMPオフロードツールキット O2ATH: An OpenMP Offloading Toolkit for the Sunway Heterogeneous Manycore Platform ( http://arxiv.org/abs/2309.04945v1 ) ライセンス: Link先を確認 | Haoran Lin and Lifeng Yan and Qixin Chang and Haitian Lu and Chenlin Li and Quanjie He and Zeyu Song and Xiaohui Duan and Zekun Yin and Yuxuan Li and Zhao Liu and Wei Xue and Haohuan Fu and Lin Gan and Guangwen Yang and Weiguo Liu | (参考訳) 次世代のサンウェイスーパーコンピュータはSW26010proプロセッサを採用しており、チップ上の異種アーキテクチャを特化している。
重要なホットスポットを持つアプリケーションは、手動の多コア並列化を慎重に行うことで、Sunwayの多コアアーキテクチャの計算能力を大幅に向上する利点がある。
しかし、cesm、rom、wrfのような大きなコードベースを持つレガシープロジェクトには、多くのコード行が含まれており、大きなホットスポットを持っていない。
このようなアプリケーションをSunwayアーキテクチャに手動で移植するコストは、ほとんど計り知れない。
このような課題を克服するため,我々はO2ATHというツールキットを開発した。
O2ATHは、GNU OpenMPランタイムライブラリの呼び出しをSunwayのAthreadライブラリに転送する。これは、Sunwayアーキテクチャの並列化作業を大幅に単純化し、ユーザが単一のファイルでMPPとCPEのコードを書けるようにし、OpenMPディレクティブと属性を活用することで並列化を実現する。
実際にO2ATHは、OpenMPオフロード方式で次世代のSunwayスーパーコンピュータのCPEにCESMとROMSという2つの大きなプロジェクトを移植するのに役立ちました。
実験では、カーネルのスピードアップは3倍から15倍で、アプリケーション全体のスピードアップは3倍から6倍になるが、一方で、O2ATHは手動でCPE関数を作るよりもコード修正をはるかに少なくする必要がある。 The next generation Sunway supercomputer employs the SW26010pro processor, which features a specialized on-chip heterogeneous architecture. Applications with significant hotspots can benefit from the great computation capacity improvement of Sunway many-core architectures by carefully making intensive manual many-core parallelization efforts. However, some legacy projects with large codebases, such as CESM, ROMS and WRF, contain numerous lines of code and do not have significant hotspots. The cost of manually porting such applications to the Sunway architecture is almost unaffordable. To overcome such a challenge, we have developed a toolkit named O2ATH. O2ATH forwards GNU OpenMP runtime library calls to Sunway's Athread library, which greatly simplifies the parallelization work on the Sunway architecture.O2ATH enables users to write both MPE and CPE code in a single file, and parallelization can be achieved by utilizing OpenMP directives and attributes. In practice, O2ATH has helped us to port two large projects, CESM and ROMS, to the CPEs of the next generation Sunway supercomputers via the OpenMP offload method. In the experiments, kernel speedups range from 3 to 15 times, resulting in 3 to 6 times whole application speedups.Furthermore, O2ATH requires significantly fewer code modifications compared to manually crafting CPE functions.This indicates that O2ATH can greatly enhance development efficiency when porting or optimizing large software projects on Sunway supercomputers. | 翻訳日:2023-10-23 08:11:04 公開日:2023-09-10 |
# 分散Kafkaクラスタ: グローバルメッセージ順序付けへの新たなアプローチ Distributed Kafka Clusters: A Novel Approach to Global Message Ordering ( http://arxiv.org/abs/2309.04918v1 ) ライセンス: Link先を確認 | Shashank Kumar and Sachin Sharma and Aryan Jadon | (参考訳) 現代の分散システムでは、ログは驚くべき速度で生成され、わずか数秒でテラバイトのデータを生成する。
これらのログには、システムメトリクスやユーザアクション、さまざまなイベントといった重要な詳細が含まれており、システムの一貫性と正確な操作の基礎となっている。
正確なログ順序付けは、システム機能における潜在的な曖昧さや不一致を回避するために不可欠である。
一般的な分散メッセージキューであるapache kafkaは、さまざまな分散ログ処理の課題に対する重要なソリューションを提供する。
しかしながら、Kafkaは単一のパーティション内のメッセージの順番配信をコンシューマに保証する一方で、複数のパーティションにまたがるメッセージのグローバルな順序を保証するには不足している。
本研究は、分散システムにおけるログ処理の整合性と一貫性を強化することを目的として、kafkaトピック内のメッセージのグローバル順序付けを実現するための革新的な手法を考案する。
コードはgithubから入手できます。 In contemporary distributed systems, logs are produced at an astounding rate, generating terabytes of data within mere seconds. These logs, containing pivotal details like system metrics, user actions, and diverse events, are foundational to the system's consistent and accurate operations. Precise log ordering becomes indispensable to avert potential ambiguities and discordances in system functionalities. Apache Kafka, a prevalent distributed message queue, offers significant solutions to various distributed log processing challenges. However, it presents an inherent limitation while Kafka ensures the in-order delivery of messages within a single partition to the consumer, it falls short in guaranteeing a global order for messages spanning multiple partitions. This research delves into innovative methodologies to achieve global ordering of messages within a Kafka topic, aiming to bolster the integrity and consistency of log processing in distributed systems. Our code is available on GitHub. | 翻訳日:2023-10-23 08:10:37 公開日:2023-09-10 |
# 機械学習を用いたスパムURLの分類 Classification of Spam URLs Using Machine Learning Approaches ( http://arxiv.org/abs/2310.05953v1 ) ライセンス: Link先を確認 | Omar Husni Odeh, Anas Arram, and Murad Njoum | (参考訳) インターネットは、高速で無料のコミュニケーションツールとプラットフォームを提供するため、毎日何十億ものユーザーが使っている。
それにもかかわらず、この使用量が大幅に増加すると、大量のスパムが毎秒発生し、インターネットリソースを浪費し、さらに重要なのはユーザ時間だ。
本研究では,機械学習モデルを用いてurlをスパムまたは非スパムとして分類する。
まず、1つの機能しか持たないurlから特徴を抽出する。次に、k-nearestの隣人、袋詰め、ランダムフォレスト、ロジスティック回帰など、いくつかのモデルのパフォーマンスを比較する。
我々は、バッグングが96.5%の精度で最高の精度を達成することを発見した。
これは、urlをスパムまたはノンスパムに分類する有望なアプローチであることを示唆している。 The Internet is used by billions of users daily because it offers fast and free communication tools and platforms. Nevertheless, with this significant increase in usage, huge amounts of spam are generated every second, which wastes internet resources and, more importantly, users time. This study investigates using machine learning models to classify URLs as spam or non-spam. We first extract the features from the URL as it has only one feature, and then we compare the performance of several models, including k-nearest neighbors, bagging, random forest, logistic regression, and others. We find that bagging achieves the best accuracy, with an accuracy of 96.5%. This suggests that bagging is a promising approach for classifying URLs as spam or nonspam. | 翻訳日:2023-10-23 03:53:43 公開日:2023-09-10 |
# 機械学習を用いたフォグベース無線センサネットワークにおけるサービスアタックの否定 Mitigating Denial of Service Attacks in Fog-Based Wireless Sensor Networks Using Machine Learning Techniques ( http://arxiv.org/abs/2310.05952v1 ) ライセンス: Link先を確認 | Ademola Abidoye, Ibidun Obagbuwa, Nureni Azeez | (参考訳) 無線センサネットワークは、その幅広い産業応用により、21世紀で最も重要かつ革新的な技術であると考えられている。
これらのネットワーク内のセンサノードは、その特別な品質と展開方法のため、さまざまな攻撃を受けやすい。
WSNでは、サービスアタックの否定はセンサーネットワークにおける一般的な攻撃である。
これらの攻撃がwsnに与える影響を効果的に低減する検出・防止システムを設計することは困難である。
この研究は、WSNに対する攻撃を特定するために、決定木とXGBoostという2つの機械学習モデルを使用することを提案する。
WSNsデータセットは、サービスアタックの否定を特定するための広範なテストの対象でした。
実験の結果、XGBoostモデルがデータセット全体に適用された場合、決定木アプローチ (97.3%) よりも真正率 (98.3%) が高く、決定木手法 (2.7%) よりも偽陽性率 (1.7%) が低いことが示された。
このように、選択されたデータセット攻撃では、XGBoostアプローチは決定木法(97.50%)よりも真正率(99.01%)が高く、決定木法(2.50%)より偽正率(0.99%)低い。 Wireless sensor networks are considered to be among the most significant and innovative technologies in the 21st century due to their wide range of industrial applications. Sensor nodes in these networks are susceptible to a variety of assaults due to their special qualities and method of deployment. In WSNs, denial of service attacks are common attacks in sensor networks. It is difficult to design a detection and prevention system that would effectively reduce the impact of these attacks on WSNs. In order to identify assaults on WSNs, this study suggests using two machine learning models: decision trees and XGBoost. The WSNs dataset was the subject of extensive tests to identify denial of service attacks. The experimental findings demonstrate that the XGBoost model, when applied to the entire dataset, has a higher true positive rate (98.3%) than the Decision tree approach (97.3%) and a lower false positive rate (1.7%) than the Decision tree technique (2.7%). Like this, with selected dataset assaults, the XGBoost approach has a higher true positive rate (99.01%) than the Decision tree technique (97.50%) and a lower false positive rate (0.99%) than the Decision tree technique (2.50%). | 翻訳日:2023-10-23 03:53:31 公開日:2023-09-10 |
# 球面上の演算子フリー平衡 Operator-free Equilibrium on the Sphere ( http://arxiv.org/abs/2310.00012v1 ) ライセンス: Link先を確認 | Xiongming Dai and Gerald Baumgartner | (参考訳) 球面上の等分散点集合の新しい基準を与えるために、ルジャンドルのodeと球面調和理論から導かれる一般化された最小偏差を提案する。
基本関数の観点から連続かつ微分カーネルを構築し、一般化された最小誤差の計算を単純化する。
Pycke の統計から生成される決定論的な点は、球面に対するフランク関数を統合するために考慮し、異なるカーネルに埋め込まれた点系の相違について検討する。
定量実験を行い、その結果を分析した。
導出されたモデルは、微分作用素やベルトラミ作用素の関与なしに最小差を持つ潜在点系を微分を用いて探索することができる。
モンテカルロ法で生成したランダム点と比較すると,任意の次元で目標を近似するためには,本法で生成する点はわずかである。 We propose a generalized minimum discrepancy, which derives from Legendre's ODE and spherical harmonic theoretics to provide a new criterion of equidistributed pointsets on the sphere. A continuous and derivative kernel in terms of elementary functions is established to simplify the computation of the generalized minimum discrepancy. We consider the deterministic point generated from Pycke's statistics to integrate a Franke function for the sphere and investigate the discrepancies of points systems embedding with different kernels. Quantitive experiments are conducted and the results are analyzed. Our deduced model can explore latent point systems, that have the minimum discrepancy without the involvement of pseudodifferential operators and Beltrami operators, by the use of derivatives. Compared to the random point generated from the Monte Carlo method, only a few points generated by our method are required to approximate the target in arbitrary dimensions. | 翻訳日:2023-10-08 11:06:20 公開日:2023-09-10 |
# パーソナルAIチュータによる学習原理の実装 : 事例研究 Implementing Learning Principles with a Personal AI Tutor: A Case Study ( http://arxiv.org/abs/2309.13060v1 ) ライセンス: Link先を確認 | Ambroise Baillifard, Maxime Gabella, Pamela Banta Lavenex, Corinna S. Martarelli | (参考訳) パーソナライゼーションや検索プラクティス,空間的反復といった原則に基づいた効果的な学習戦略は,実用上の制約から実施が難しい場合が多い。
ここでは,学習科学に基づく学習プログラムを補完するai教材の統合について検討する。
片距離スイスで1学期にわたる研究が行われ、心理学の学生が神経科学のコースを受講する(n=51)ためのaiチューターアプリが提供された。
GPT-3を用いて既存の教材からマイクロラーニング質問を自動的に生成した後、AIチューターは各学生が鍵概念を把握した動的ニューラルネットワークモデルを開発した。
これにより,各生徒の個人レベルと能力に合わせた分散検索の実践が可能となった。
その結果,ai指導員に積極的に携わる学生の成績は有意に高かった。
さらに、アクティブなエンゲージメントは、AI教師なしの並列コースと比較して、最大15%の改善につながった。
さらに,知能は試験成績と強く相関し,ニューラルネットワーク予測の妥当性を検証した。
本研究は,人間の学習過程をモデル化し,学術的性能を効果的に向上するパーソナルAIチューターの能力を示す。
aiの教師をプログラムに統合することで、教育者は学習科学の原則に基づくパーソナライズされた学習体験を学生に提供することができる。
これらの発見は、教育におけるAIの変革的ポテンシャルに関する知識の増大に寄与する。 Effective learning strategies based on principles like personalization, retrieval practice, and spaced repetition are often challenging to implement due to practical constraints. Here we explore the integration of AI tutors to complement learning programs in accordance with learning sciences. A semester-long study was conducted at UniDistance Suisse, where an AI tutor app was provided to psychology students taking a neuroscience course (N=51). After automatically generating microlearning questions from existing course materials using GPT-3, the AI tutor developed a dynamic neural-network model of each student's grasp of key concepts. This enabled the implementation of distributed retrieval practice, personalized to each student's individual level and abilities. The results indicate that students who actively engaged with the AI tutor achieved significantly higher grades. Moreover, active engagement led to an average improvement of up to 15 percentile points compared to a parallel course without AI tutor. Additionally, the grasp strongly correlated with the exam grade, thus validating the relevance of neural-network predictions. This research demonstrates the ability of personal AI tutors to model human learning processes and effectively enhance academic performance. By integrating AI tutors into their programs, educators can offer students personalized learning experiences grounded in the principles of learning sciences, thereby addressing the challenges associated with implementing effective learning strategies. These findings contribute to the growing body of knowledge on the transformative potential of AI in education. | 翻訳日:2023-10-01 12:25:18 公開日:2023-09-10 |
# scrufにおけるレコメンデーションフェアネスのための社会的選択メカニズムの検討 Exploring Social Choice Mechanisms for Recommendation Fairness in SCRUF ( http://arxiv.org/abs/2309.08621v1 ) ライセンス: Link先を確認 | Amanda Aird, Cassidy All, Paresha Farastu, Elena Stefancova, Joshua Sun, Nicholas Mattei, Robin Burke | (参考訳) レコメンダシステムにおける公平性問題は、しばしば単純化された研究の定式化では不十分な複雑さを持っている。
フェアネスに関するマルチエージェントアーキテクチャ内で機能するフェアネス問題の社会的選択形式は、フェアネスを意識した推奨アプローチに代わる、柔軟で多アスペクトなアプローチを提供する。
社会的選択の活用は、一般性の向上と、複数の競合する公正な関心事の間の緊張を解決するための、よく研究された社会的選択アルゴリズムの活用を可能にする。
本稿では,実データと合成データの両方を用いてマルチスペクトル・フェアネス・アプリケーションにおける選択機構の選択肢を探究し,選択機構と割り当て機構の異なるクラスは異なるが一貫性のあるフェアネス/精度のトレードオフをもたらすことを示した。
また,マルチエージェントの定式化により,ユーザ人口動態に適応できることを示す。 Fairness problems in recommender systems often have a complexity in practice that is not adequately captured in simplified research formulations. A social choice formulation of the fairness problem, operating within a multi-agent architecture of fairness concerns, offers a flexible and multi-aspect alternative to fairness-aware recommendation approaches. Leveraging social choice allows for increased generality and the possibility of tapping into well-studied social choice algorithms for resolving the tension between multiple, competing fairness concerns. This paper explores a range of options for choice mechanisms in multi-aspect fairness applications using both real and synthetic data and shows that different classes of choice and allocation mechanisms yield different but consistent fairness / accuracy tradeoffs. We also show that a multi-agent formulation offers flexibility in adapting to user population dynamics. | 翻訳日:2023-09-24 04:15:16 公開日:2023-09-10 |
# 連続モンテカルロにおけるリサンプリングのばらつき低減 Variance Reduction of Resampling for Sequential Monte Carlo ( http://arxiv.org/abs/2309.08620v1 ) ライセンス: Link先を確認 | Xiongming Dai and Gerald Baumgartner | (参考訳) 再サンプリング方式は、シーケンシャルモンテカルロの低重量粒子を目標分布を表す高重量粒子に切り替える方法を提供する。
重量分布のばらつきが小さいほど、有効粒子がより集中しやすくなり、特に非線形の場合において隠れマルコフモデルを近似することがより速くより正確になる。
本研究では, 反復的決定性ドメインを, 平均的エルゴディシティで再サンプリングし, 他の再サンプリング法と比較して, 最小の分散を達成した。
決定論的領域である$M\ll N$(集団の大きさ)の粒子の大きさが与えられた場合、我々のアルゴリズムは、理論的な推論と線形および非線型のケースにおける隠れマルコフモデルの実験により検証される技術の状態よりも高速である。 A resampling scheme provides a way to switch low-weight particles for sequential Monte Carlo with higher-weight particles representing the objective distribution. The less the variance of the weight distribution is, the more concentrated the effective particles are, and the quicker and more accurate it is to approximate the hidden Markov model, especially for the nonlinear case. We propose a repetitive deterministic domain with median ergodicity for resampling and have achieved the lowest variances compared to the other resampling methods. As the size of the deterministic domain $M\ll N$ (the size of population), given a feasible size of particles, our algorithm is faster than the state of the art, which is verified by theoretical deduction and experiments of a hidden Markov model in both the linear and non-linear cases. | 翻訳日:2023-09-24 04:14:58 公開日:2023-09-10 |
# 深層睡眠:モデル解釈可能性を考慮した単一チャンネル脳波に基づく睡眠段階分類 A Deep Dive into Sleep: Single-Channel EEG-Based Sleep Stage Classification with Model Interpretability ( http://arxiv.org/abs/2309.07156v1 ) ライセンス: Link先を確認 | Shivam Sharma, Suvadeep Maiti, S.Mythirayee, Srijithesh Rajendran, Bapi Raju | (参考訳) 睡眠は基本的な生理的プロセスであり、私たちの生活の大部分を占めている。
睡眠ステージの正確な分類は、睡眠の質を評価し、起こりうる睡眠障害を特定する重要なツールとなる。
本研究では,SE-Resnet-Bi-LSTMアーキテクチャを用いて睡眠を5つの段階に分類する手法を提案する。
分類過程は、単一チャネル脳波(EEG)の解析に基づく。
se-resnetを利用する機能抽出器とbi-lstmユニットのスタックを使用する時間的コンテキストエンコーダという2つの基本的な要素からなるフレームワークが提案されている。このアプローチの有効性は、sleepedf-20、sleepedf-78、shsの3つの異なるデータセットで実施した徹底的な評価によって検証される。
特に87.5\%,83.9\%,87.8\%,マクロF1スコアは82.5,78.9,81.9である。
特に,1D-GradCAM視覚化を用いて,睡眠段階分類の領域におけるモデルの決定過程を明らかにする。
この視覚化手法は、モデルの分類の根拠に関する貴重な洞察を提供するだけでなく、その成果を睡眠専門家の注釈と整合させる。
私たちの研究の特筆すべき点は、モデルのレジリエンスをパフォーマンスの観点から効果的に維持する、迅速なトレーニングアプローチの統合です。
実験評価の結果,既存の手法と比較して提案モデルの有効性を包括的に評価し,実用化の可能性を強調した。 Sleep, a fundamental physiological process, occupies a significant portion of our lives. Accurate classification of sleep stages serves as a crucial tool for evaluating sleep quality and identifying probable sleep disorders. This work introduces a novel methodology that utilises a SE-Resnet-Bi-LSTM architecture to classify sleep into five separate stages. The classification process is based on the analysis of single-channel electroencephalograms (EEGs). The framework that has been suggested consists of two fundamental elements: a feature extractor that utilises SE-ResNet, and a temporal context encoder that use stacks of Bi-LSTM units.The effectiveness of our approach is substantiated by thorough assessments conducted on three different datasets, namely SLeepEDF-20, SleepEDF-78, and SHHS. Significantly, our methodology attains notable levels of accuracy, specifically 87.5\%, 83.9\%, and 87.8\%, along with macro-F1 scores of 82.5, 78.9, and 81.9 for the corresponding datasets. Notably, we introduce the utilization of 1D-GradCAM visualization to shed light on the decision-making process of our model in the realm of sleep stage classification. This visualization method not only provides valuable insights into the model's classification rationale but also aligns its outcomes with the annotations made by sleep experts. One notable feature of our research is the integration of an expedited training approach, which effectively preserves the model's resilience in terms of performance. The experimental evaluations conducted provide a comprehensive evaluation of the effectiveness of our proposed model in comparison to existing approaches, highlighting its potential for practical applications. | 翻訳日:2023-09-15 17:50:56 公開日:2023-09-10 |
# 未知パターンと性能保証を用いた配電系統の故障同定 Distribution Grid Line Outage Identification with Unknown Pattern and Performance Guarantee ( http://arxiv.org/abs/2309.07157v1 ) ライセンス: Link先を確認 | Chenhan Xiao, Yizheng Liao, Yang Weng | (参考訳) 配電網におけるライン停止同定は, 持続可能なグリッド運用に不可欠である。
本研究では,容易に利用可能な電圧等級のみを利用する実用的かつロバストな検出手法を提案し,コストのかかる位相角やパワーフローデータの必要性を解消する。
センサデータを考えると、変更点検出に基づく既存の検出方法は、実際の停止シナリオでは未知の停止パターンの事前知識を必要とする。
この非現実的要件を解消するために、勾配降下による後分布のパラメータを学習するデータ駆動手法を提案する。
しかし、勾配降下を用いると実現可能性の問題が生じる。
この問題に対処するために,パラメータ更新の軌跡を制御するために,Bregman分散制約を追加することで,実現可能性の問題を排除する。
近年,タイムリー動作が鍵となるため,電圧データの統計的・物理的特性を活用し,コンバージェンス保証により最適パラメータを学習できることを実証する。
我々は17の障害構成で,多数の分散グリッドと実負荷プロファイルを用いてアプローチを評価した。
その結果,停止パターンの事前の知識を前提とせず,電圧のマグニチュードのみをタイムリーに検出し,ローカライズできることが判明した。 Line outage identification in distribution grids is essential for sustainable grid operation. In this work, we propose a practical yet robust detection approach that utilizes only readily available voltage magnitudes, eliminating the need for costly phase angles or power flow data. Given the sensor data, many existing detection methods based on change-point detection require prior knowledge of outage patterns, which are unknown for real-world outage scenarios. To remove this impractical requirement, we propose a data-driven method to learn the parameters of the post-outage distribution through gradient descent. However, directly using gradient descent presents feasibility issues. To address this, we modify our approach by adding a Bregman divergence constraint to control the trajectory of the parameter updates, which eliminates the feasibility problems. As timely operation is the key nowadays, we prove that the optimal parameters can be learned with convergence guarantees via leveraging the statistical and physical properties of voltage data. We evaluate our approach using many representative distribution grids and real load profiles with 17 outage configurations. The results show that we can detect and localize the outage in a timely manner with only voltage magnitudes and without assuming a prior knowledge of outage patterns. | 翻訳日:2023-09-15 17:38:04 公開日:2023-09-10 |
# 拡散型データ拡張を用いた教師なしコントラスト学習の高速化 Boosting Unsupervised Contrastive Learning Using Diffusion-Based Data Augmentation From Scratch ( http://arxiv.org/abs/2309.07909v1 ) ライセンス: Link先を確認 | Zelin Zang, Hao Luo, Kai Wang, Panpan Zhang, Fan Wang, Stan.Z Li, Yang You | (参考訳) 教師なしのコントラスト学習手法は、特に堅牢で一般化可能な表現の生成を目的としたデータ拡張戦略によって、最近大幅に改善されている。
しかしながら、手動設計や基礎モデルに基づくデータ拡張手法は、事前の知識や外部データに大きく依存する傾向にある。
この依存はしばしばその効果と効率を損なう。
さらに、既存のデータ拡張戦略の適用性は他の研究領域、特に科学関連のデータに移行する際に制限される。
この制限は、これらの領域で利用可能な事前の知識とラベル付きデータのあいまいさに起因している。
これらの課題に対処するために、DiffAug-a novel and efficient Diffusion-based data Augmentation techniqueを紹介する。
DiffAugは、拡張されたデータとオリジナルのデータがスムーズな潜在空間を共有し、拡散ステップを通じて達成することを目指している。
伝統的手法とは異なり、DiffAugはまず近隣に関する十分な事前の知識を掘り下げる。
これは拡散ステップを導くための制約を提供し、ラベル、外部データ/モデル、事前知識の必要性をなくす。
アーキテクチャに依存しないフレームワークとして設計されたDiffAugは、一貫した改善を提供する。
具体的には、画像分類とクラスタリングの精度を1.6%から4.5%向上させる。
生物学的データに適用すると、DiffAugはパフォーマンスを最大10.1%改善し、平均5.8%改善する。
DiffAugは視覚と生体の両方で優れたパフォーマンスを示している。 Unsupervised contrastive learning methods have recently seen significant improvements, particularly through data augmentation strategies that aim to produce robust and generalizable representations. However, prevailing data augmentation methods, whether hand designed or based on foundation models, tend to rely heavily on prior knowledge or external data. This dependence often compromises their effectiveness and efficiency. Furthermore, the applicability of most existing data augmentation strategies is limited when transitioning to other research domains, especially science-related data. This limitation stems from the paucity of prior knowledge and labeled data available in these domains. To address these challenges, we introduce DiffAug-a novel and efficient Diffusion-based data Augmentation technique. DiffAug aims to ensure that the augmented and original data share a smoothed latent space, which is achieved through diffusion steps. Uniquely, unlike traditional methods, DiffAug first mines sufficient prior semantic knowledge about the neighborhood. This provides a constraint to guide the diffusion steps, eliminating the need for labels, external data/models, or prior knowledge. Designed as an architecture-agnostic framework, DiffAug provides consistent improvements. Specifically, it improves image classification and clustering accuracy by 1.6%~4.5%. When applied to biological data, DiffAug improves performance by up to 10.1%, with an average improvement of 5.8%. DiffAug shows good performance in both vision and biological domains. | 翻訳日:2023-09-15 11:43:05 公開日:2023-09-10 |
# 確率的ビデオ予測のための深変分ルエンベルガー型観測者 Deep Variational Luenberger-type Observer for Stochastic Video Prediction ( http://arxiv.org/abs/2003.00835v2 ) ライセンス: Link先を確認 | Dong Wang, Feng Zhou, Zheng Yan, Guang Yao, Zongxuan Liu, Wennan Ma and Cewu Lu | (参考訳) 固有の確率性と不確実性を考えると、将来のビデオフレームの予測は極めて困難である。
本研究では,確率的状態空間モデルの解釈可能性と深層ニューラルネットワークの表現学習を組み合わせることで,映像予測の問題を検討する。
我々のモデルは,入力映像を潜時特徴空間に変換する変分エンコーダと,潜時特徴の動的進化を捉えるルエンベルガー型オブザーバの上に構築されている。
これにより、ビデオの静的な特徴とダイナミクスを教師なしの方法で分解することができる。
非線形ルンベルガー型観測者の安定性理論を導出することにより、特徴空間の隠れた状態は初期値に対して無感になり、モデル全体のロバスト性が向上する。
さらに、データログ類似度における変動下限を導出して、変動原理に基づく移動可能な後続予測分布を得ることができる。
最後に,ボールバウンシングデータセットや振り子データセットなどの実験を行い,提案モデルが並列処理よりも優れていることを示す。 Considering the inherent stochasticity and uncertainty, predicting future video frames is exceptionally challenging. In this work, we study the problem of video prediction by combining interpretability of stochastic state space models and representation learning of deep neural networks. Our model builds upon an variational encoder which transforms the input video into a latent feature space and a Luenberger-type observer which captures the dynamic evolution of the latent features. This enables the decomposition of videos into static features and dynamics in an unsupervised manner. By deriving the stability theory of the nonlinear Luenberger-type observer, the hidden states in the feature space become insensitive with respect to the initial values, which improves the robustness of the overall model. Furthermore, the variational lower bound on the data log-likelihood can be derived to obtain the tractable posterior prediction distribution based on the variational principle. Finally, the experiments such as the Bouncing Balls dataset and the Pendulum dataset are provided to demonstrate the proposed model outperforms concurrent works. | 翻訳日:2023-09-14 19:01:26 公開日:2023-09-10 |
# バイリニアLSTMの統一フレームワーク A Unifying Framework of Bilinear LSTMs ( http://arxiv.org/abs/1910.10294v2 ) ライセンス: Link先を確認 | Mohit Rajpal and Bryan Kian Hsiang Low | (参考訳) 本稿では、線形LSTMよりも優れた性能を実現するために、シーケンスデータセットに存在する入力特徴の非線形相互作用を表現・活用できる双線形LSTMの統一フレームワークを提案する。
これを実現するため、線形対双線形項の表現性は、二線形項における重み行列の隠れ状態ベクトルサイズと近似品質の間で相応にトレードオフすることでバランスし、より多くのパラメータを学習することなく、双線形LSTMの性能を最適化する。
いくつかの言語に基づくシーケンス学習タスクにおいて,両線形LSTMの性能を実証的に評価し,その汎用性を実証した。 This paper presents a novel unifying framework of bilinear LSTMs that can represent and utilize the nonlinear interaction of the input features present in sequence datasets for achieving superior performance over a linear LSTM and yet not incur more parameters to be learned. To realize this, our unifying framework allows the expressivity of the linear vs. bilinear terms to be balanced by correspondingly trading off between the hidden state vector size vs. approximation quality of the weight matrix in the bilinear term so as to optimize the performance of our bilinear LSTM, while not incurring more parameters to be learned. We empirically evaluate the performance of our bilinear LSTM in several language-based sequence learning tasks to demonstrate its general applicability. | 翻訳日:2023-09-14 19:00:59 公開日:2023-09-10 |
# マルチサンプリングによるCNN特徴マップの高分解能化 Improving the Resolution of CNN Feature Maps Efficiently with Multisampling ( http://arxiv.org/abs/1805.10766v2 ) ライセンス: Link先を確認 | Shayan Sadigh, Pradeep Sen | (参考訳) 本稿では,CNNのサブサンプリング手法について述べる。マルチサンプリングと呼ばれ,サブサンプリング層を通じて特徴マップが保持する情報量を大幅に増加させる。
DenseNet や ResNet などの最先端アーキテクチャでは,追加のパラメータを使わずに精度を大幅に向上し,トレーニングや微調整を行なわず,特定の事前訓練済み ImageNet モデルの精度を著しく向上させる。
データ拡張の性質について可能な洞察を与え、粗い特徴マップが画像分類におけるニューラルネットワークのパフォーマンスをボトルネックにしていることを実験的に実証する。 We describe a new class of subsampling techniques for CNNs, termed multisampling, that significantly increases the amount of information kept by feature maps through subsampling layers. One version of our method, which we call checkered subsampling, significantly improves the accuracy of state-of-the-art architectures such as DenseNet and ResNet without any additional parameters and, remarkably, improves the accuracy of certain pretrained ImageNet models without any training or fine-tuning. We glean possible insight into the nature of data augmentations and demonstrate experimentally that coarse feature maps are bottlenecking the performance of neural networks in image classification. | 翻訳日:2023-09-14 19:00:28 公開日:2023-09-10 |
# 機械翻訳モデルは、敵対的な攻撃に直面して強く立つ Machine Translation Models Stand Strong in the Face of Adversarial Attacks ( http://arxiv.org/abs/2309.06527v1 ) ライセンス: Link先を確認 | Pavel Burnyshev, Elizaveta Kostenok, Alexey Zaytsev | (参考訳) 敵対的攻撃は、入力に小さな摂動を導入することによってディープラーニングモデルの脆弱性を露呈し、出力にかなりの変化をもたらす。
本研究では,このような攻撃がsequence-to-sequence(seq2seq)モデル,特に機械翻訳モデルに与える影響に注目した。
本稿では, 基本文摂動ヒューリスティックと, 微分不可能な翻訳計量の微分可能近似を利用する勾配攻撃のような, より高度な戦略を取り入れたアルゴリズムを提案する。
本研究により,機械翻訳モデルでは,入力中の摂動の程度が直接的に入力の摂動に比例するので,最もよく実行される敵攻撃に対して堅牢性を示すことを示す。
しかし、アンダードッグの間では、我々の攻撃は代替品よりも優れており、最高の相対的パフォーマンスを提供する。
もうひとつの強い候補は、個々の文字の混合に基づく攻撃である。 Adversarial attacks expose vulnerabilities of deep learning models by introducing minor perturbations to the input, which lead to substantial alterations in the output. Our research focuses on the impact of such adversarial attacks on sequence-to-sequence (seq2seq) models, specifically machine translation models. We introduce algorithms that incorporate basic text perturbation heuristics and more advanced strategies, such as the gradient-based attack, which utilizes a differentiable approximation of the inherently non-differentiable translation metric. Through our investigation, we provide evidence that machine translation models display robustness displayed robustness against best performed known adversarial attacks, as the degree of perturbation in the output is directly proportional to the perturbation in the input. However, among underdogs, our attacks outperform alternatives, providing the best relative performance. Another strong candidate is an attack based on mixing of individual characters. | 翻訳日:2023-09-14 16:30:12 公開日:2023-09-10 |
# 植物(hil-hip)系におけるループヒトの高忠実度高速シミュレーション High Fidelity Fast Simulation of Human in the Loop Human in the Plant (HIL-HIP) Systems ( http://arxiv.org/abs/2309.06558v1 ) ライセンス: Link先を確認 | Ayan Banerjee, Payal Kamboj, Aranyak Maity, Riya Sudhakar Salian, Sandeep K.S. Gupta | (参考訳) シミュレーションにおける非線形性は、ループ内で人間と統合された場合の無線移動ネットワークの時間ばらつきや、動的コンテキスト下でのHIL-HIP(Human in the Plant)物理システムから生じ、シミュレーションの減速につながる。
時間分散は、時間領域で連結された一連のピースワイド線形時間不変シミュレーション (PLIS) を間隔で導出することで処理される。
本稿では,無線ネットワーク制御HIL-HIPシステムにおける時間変化成分の離散化がシミュレーション精度と高速化に与える影響を形式解析し,信頼性の高いトレードオフ評価を行う。
1型糖尿病患者の血糖値を、心理的ストレスや食事パターンに伴う生理的変化などの時間的特性で制御する人工膵臓無線ネットワークシステムのための正確なシミュレーションフレームワークを開発した。
plisアプローチは、与えられたデータセットの非線形システムシミュレーションよりも2.1倍のスピードアップで正確なシミュレーションを実現する。 Non-linearities in simulation arise from the time variance in wireless mobile networks when integrated with human in the loop, human in the plant (HIL-HIP) physical systems under dynamic contexts, leading to simulation slowdown. Time variance is handled by deriving a series of piece wise linear time invariant simulations (PLIS) in intervals, which are then concatenated in time domain. In this paper, we conduct a formal analysis of the impact of discretizing time-varying components in wireless network-controlled HIL-HIP systems on simulation accuracy and speedup, and evaluate trade-offs with reliable guarantees. We develop an accurate simulation framework for an artificial pancreas wireless network system that controls blood glucose in Type 1 Diabetes patients with time varying properties such as physiological changes associated with psychological stress and meal patterns. PLIS approach achieves accurate simulation with greater than 2.1 times speedup than a non-linear system simulation for the given dataset. | 翻訳日:2023-09-14 16:19:21 公開日:2023-09-10 |
# データサイエンス、機械学習、人工知能のためのデータソースのコンペディション A compendium of data sources for data science, machine learning, and artificial intelligence ( http://arxiv.org/abs/2309.05682v1 ) ライセンス: Link先を確認 | Paul Bilokon and Oleksandr Bilokon and Saeed Amen | (参考訳) 大規模言語モデルの出現など、データサイエンス、機械学習、人工知能の最近の進歩は、そのようなモデルによって処理可能なデータの需要の増加につながっている。
データソースはアプリケーション固有のものであり、そのようなデータソースの完全なリストを作成することは不可能である。
この出版の目的は、金融と経済、法(法律と規制)、生命科学(医療と薬物の発見)、ニュースの感情とソーシャルメディア、小売とeコマース、衛星画像、輸送と物流、スポーツなど、さまざまな分野の応用分野にまたがるデータソースの(故意に未完成な)リストを提供することである。 Recent advances in data science, machine learning, and artificial intelligence, such as the emergence of large language models, are leading to an increasing demand for data that can be processed by such models. While data sources are application-specific, and it is impossible to produce an exhaustive list of such data sources, it seems that a comprehensive, rather than complete, list would still benefit data scientists and machine learning experts of all levels of seniority. The goal of this publication is to provide just such an (inevitably incomplete) list -- or compendium -- of data sources across multiple areas of applications, including finance and economics, legal (laws and regulations), life sciences (medicine and drug discovery), news sentiment and social media, retail and ecommerce, satellite imagery, and shipping and logistics, and sports. | 翻訳日:2023-09-13 15:51:09 公開日:2023-09-10 |
# 知識に基づく学術出版知識グラフの洗練 Knowledge-based Refinement of Scientific Publication Knowledge Graphs ( http://arxiv.org/abs/2309.05681v1 ) ライセンス: Link先を確認 | Siwen Yan (1), Phillip Odom (2), Sriraam Natarajan (1) ((1) The University of Texas at Dallas, USA, (2) Georgia Institute of Technology, USA) | (参考訳) 著者を知識グラフ構築と改良のふりをして著者を識別する問題を考察する。
そこで本研究では,人間の指導(知識に基づく学習)の存在下での確率論的論理モデル学習としてこの問題をモデル化する。
具体的には,説明可能なルールを出力する関数勾配ブースティングを用いて関係回帰木を学習する。
人間の知識を取り入れるために、一階の節の形でアドバイスを注入して木を磨く。
7つの著者ドメインにおいて,定量的かつ質的に人間の知識の有用性を示す。 We consider the problem of identifying authorship by posing it as a knowledge graph construction and refinement. To this effect, we model this problem as learning a probabilistic logic model in the presence of human guidance (knowledge-based learning). Specifically, we learn relational regression trees using functional gradient boosting that outputs explainable rules. To incorporate human knowledge, advice in the form of first-order clauses is injected to refine the trees. We demonstrate the usefulness of human knowledge both quantitatively and qualitatively in seven authorship domains. | 翻訳日:2023-09-13 15:50:52 公開日:2023-09-10 |
# チェビシェフ粒子 Chebyshev Particles ( http://arxiv.org/abs/2309.06373v1 ) ライセンス: Link先を確認 | Xiongming Dai and Gerald Baumgartner | (参考訳) マルコフ連鎖モンテカルロ (mcmc) は隠れマルコフモデルを推定するための実現可能な方法であるが、モンテカルロ標本がパラメータ空間内の不確定な領域内でランダムに小さなステップを踏むため、特に次元の呪いによって、計算的に禁止されることが多い。
目的の後方分布を、決定論的部分多様体が埋め込まれた無限次元ユークリッド空間における標本の写像として初めて考慮し、重み付きリース分極量最大化による新しい基準を提案し、ペアワイズ相互作用を通じて直交可能な部分多様体を識別する。
チェビシェフ粒子の特性を解析し, 高い受け入れ率を有する新しい試料試料であるシーケンシャルMCMCに埋め込み, 少数の評価のみを提案する。
本研究では,合成データを用いた線形ガウス状態空間モデルと実世界データを用いた非線形確率ボラティリティモデルにおけるパラメータ推定実験から,高い性能を得た。 Markov chain Monte Carlo (MCMC) provides a feasible method for inferring Hidden Markov models, however, it is often computationally prohibitive, especially constrained by the curse of dimensionality, as the Monte Carlo sampler traverses randomly taking small steps within uncertain regions in the parameter space. We are the first to consider the posterior distribution of the objective as a mapping of samples in an infinite-dimensional Euclidean space where deterministic submanifolds are embedded and propose a new criterion by maximizing the weighted Riesz polarization quantity, to discretize rectifiable submanifolds via pairwise interaction. We study the characteristics of Chebyshev particles and embed them into sequential MCMC, a novel sampler with a high acceptance ratio that proposes only a few evaluations. We have achieved high performance from the experiments for parameter inference in a linear Gaussian state-space model with synthetic data and a non-linear stochastic volatility model with real-world data. | 翻訳日:2023-09-13 12:14:32 公開日:2023-09-10 |
# 医薬品協会予測のための計算的アプローチ:総括的考察 Computational Approaches for Predicting Drug-Disease Associations: A Comprehensive Review ( http://arxiv.org/abs/2309.06388v1 ) ライセンス: Link先を確認 | Chunyan Ao, Zhichao Xiao, Lixin Guan, Liang Yu | (参考訳) 近年、従来の薬物研究と開発は、高いコスト、長いタイムライン、高いリスクなどの課題に直面している。
これらの問題に対処するため、新薬開発に伴うコスト、開発サイクル、リスクの低減を目的として、薬物再配置による薬物と疾患の関係を予測するための多くの計算手法が提案されている。
研究者は、薬物副作用関連協会、薬物標的関連協会、miRNA障害関連など、薬物障害関連を予測するための様々な計算方法を模索してきた。
本総説では, 薬物再配置における薬物放出関連法の予測における最近の進歩に注目した。
まず、ニューラルネットワークベースのアルゴリズム、行列ベースのアルゴリズム、レコメンデーションアルゴリズム、リンクベースの推論アルゴリズム、テキストマイニングとセマンティック推論を含むいくつかのグループに分類する。
次に,既存の薬剤・病原体関連予測アルゴリズムの予測性能を比較する。
最後に,創薬協会の現状と今後の課題について考察する。 In recent decades, traditional drug research and development have been facing challenges such as high cost, long timelines, and high risks. To address these issues, many computational approaches have been suggested for predicting the relationship between drugs and diseases through drug repositioning, aiming to reduce the cost, development cycle, and risks associated with developing new drugs. Researchers have explored different computational methods to predict drug-disease associations, including drug side effects-disease associations, drug-target associations, and miRNAdisease associations. In this comprehensive review, we focus on recent advances in predicting drug-disease association methods for drug repositioning. We first categorize these methods into several groups, including neural network-based algorithms, matrixbased algorithms, recommendation algorithms, link-based reasoning algorithms, and text mining and semantic reasoning. Then, we compare the prediction performance of existing drug-disease association prediction algorithms. Lastly, we delve into the present challenges and future prospects concerning drug-disease associations. | 翻訳日:2023-09-13 12:01:35 公開日:2023-09-10 |
# 高速r-cnnsを用いた肺疾患画像分割 Lung Diseases Image Segmentation using Faster R-CNNs ( http://arxiv.org/abs/2309.06386v1 ) ライセンス: Link先を確認 | Mihir Jain | (参考訳) インドでは2016年に世界の肺炎死者の約半数(370,000人)が死亡している。
死亡率の低下にはタイムリーな診断が不可欠である。
本稿では,深層ネットワークにおけるトポロジ的課題を軽減するために,低密度ニューラルネットワーク構造を提案する。
このネットワークはパラメータをフィーチャーピラミッドに組み込み、データ抽出を強化し、情報損失を最小化する。
ソフト非最大抑圧は、地域提案ネットワークによって生成される地域提案を最適化する。
胸部X線画像のモデルを評価し, 精度, 精度, 感度, 特異性を決定するために, 混乱行列を計算した。
損失関数を分析し、トレーニング中の傾向を明らかにする。
地域提案損失と分類損失は、訓練および分類段階におけるモデル性能を評価する。
本稿では肺疾患の検出とニューラルネットワーク構造について分析する。 Lung diseases are a leading cause of child mortality in the developing world, with India accounting for approximately half of global pneumonia deaths (370,000) in 2016. Timely diagnosis is crucial for reducing mortality rates. This paper introduces a low-density neural network structure to mitigate topological challenges in deep networks. The network incorporates parameters into a feature pyramid, enhancing data extraction and minimizing information loss. Soft Non-Maximal Suppression optimizes regional proposals generated by the Region Proposal Network. The study evaluates the model on chest X-ray images, computing a confusion matrix to determine accuracy, precision, sensitivity, and specificity. We analyze loss functions, highlighting their trends during training. The regional proposal loss and classification loss assess model performance during training and classification phases. This paper analysis lung disease detection and neural network structures. | 翻訳日:2023-09-13 12:01:17 公開日:2023-09-10 |
# やっぱり、resnet?
ニューラルネットワークとその数値解法 ResNet After All? Neural ODEs and Their Numerical Solution ( http://arxiv.org/abs/2007.15386v2 ) ライセンス: Link先を確認 | Katharina Ott, Prateek Katiyar, Philipp Hennig, Michael Tiemann | (参考訳) 最近提案されたNeural Ordinary Differential Equation (ODE)フレームワークの重要な魅力は、離散的残差ニューラルネットワークの連続的な拡張を提供することである。
しかし、ここで示すように、訓練されたNeural ODEモデルは、実際にトレーニング中に使用される特定の数値法に依存している。
訓練されたモデルがODEから生成されたフローであるはずなら、性能を損なうことなく、同じまたはより小さい数値誤差で別の数値解法を選択することができる。
過大な離散化を伴う解法をトレーニングが頼りにすると、等値あるいは小値の数値誤差を持つ解法を用いてテストすると、精度は急落する。
このような場合、ベクトル場と数値法の組み合わせはODEから生成されたフローと解釈することはできず、これは明らかにNeural ODEの概念の致命的な崩壊をもたらす。
しかしながら、トレーニングが有効な ODE ベクトル場が得られるような重要なステップサイズが存在することを観察する。
本稿では,学習中のodeソルバの動作を監視し,そのステップサイズを適応させ,計算コストを不要に増加させることなく有効なodeを保証する手法を提案する。
我々は,この適応アルゴリズムを,一般的なベンチマークデータセットと合成データセットで検証する。 A key appeal of the recently proposed Neural Ordinary Differential Equation (ODE) framework is that it seems to provide a continuous-time extension of discrete residual neural networks. As we show herein, though, trained Neural ODE models actually depend on the specific numerical method used during training. If the trained model is supposed to be a flow generated from an ODE, it should be possible to choose another numerical solver with equal or smaller numerical error without loss of performance. We observe that if training relies on a solver with overly coarse discretization, then testing with another solver of equal or smaller numerical error results in a sharp drop in accuracy. In such cases, the combination of vector field and numerical method cannot be interpreted as a flow generated from an ODE, which arguably poses a fatal breakdown of the Neural ODE concept. We observe, however, that there exists a critical step size beyond which the training yields a valid ODE vector field. We propose a method that monitors the behavior of the ODE solver during training to adapt its step size, aiming to ensure a valid ODE without unnecessarily increasing computational cost. We verify this adaptation algorithm on a common bench mark dataset as well as a synthetic dataset. | 翻訳日:2023-09-12 23:58:33 公開日:2023-09-10 |
# $k$-fold Aggregations の脂肪散乱次元 Fat-Shattering Dimension of $k$-fold Aggregations ( http://arxiv.org/abs/2110.04763v2 ) ライセンス: Link先を確認 | Idan Attias, Aryeh Kontorovich | (参考訳) 実数値関数クラスのアグリゲーションルールの脂肪散乱次元を推定する。
後者は、すべての方法で$k$関数を選択し、$k$クラスから1つを選び、中央値、平均値、最大値といったポイントワイズ関数を計算する。
境界は成分クラスの脂肪散乱次元の観点から記述される。
線型およびアフィン函数クラスに対しては、よりシャープな上界と一致する下界を提供し、特に$k$への最適依存を実現する。
その過程で,文献における誤った主張を指摘・訂正することに加えて,いくつかの既知の結果を改善する。 We provide estimates on the fat-shattering dimension of aggregation rules of real-valued function classes. The latter consists of all ways of choosing $k$ functions, one from each of the $k$ classes, and computing a pointwise function of them, such as the median, mean, and maximum. The bound is stated in terms of the fat-shattering dimensions of the component classes. For linear and affine function classes, we provide a considerably sharper upper bound and a matching lower bound, achieving, in particular, an optimal dependence on $k$. Along the way, we improve several known results in addition to pointing out and correcting a number of erroneous claims in the literature. | 翻訳日:2023-09-12 23:51:36 公開日:2023-09-10 |
# 事前学習モデルの知識向上に関する調査 A Survey of Knowledge Enhanced Pre-trained Models ( http://arxiv.org/abs/2110.00269v4 ) ライセンス: Link先を確認 | Jian Yang, Xinyu Hu, Gang Xiao, Yulong Shen | (参考訳) 事前学習された言語モデルは,自然言語処理(nlp)の分野で有望な性能を達成した自己教師あり学習を通じて,大規模テキストコーパスで情報表現を学習する。
しかし、これらのモデルは頑健さと解釈性の欠如に苦しむ。
我々は知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(keplm)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
本調査では,NLPにおけるKEPLMの概要について概説する。
まず,事前学習言語モデルと知識表現学習の進歩について議論する。
次に,既存のKEPLMを3つの異なる視点から分類する。
最後に,KEPLMの今後の方向性について概説する。 Pre-trained language models learn informative word representations on a large-scale text corpus through self-supervised learning, which has achieved promising performance in fields of natural language processing (NLP) after fine-tuning. These models, however, suffer from poor robustness and lack of interpretability. We refer to pre-trained language models with knowledge injection as knowledge-enhanced pre-trained language models (KEPLMs). These models demonstrate deep understanding and logical reasoning and introduce interpretability. In this survey, we provide a comprehensive overview of KEPLMs in NLP. We first discuss the advancements in pre-trained language models and knowledge representation learning. Then we systematically categorize existing KEPLMs from three different perspectives. Finally, we outline some potential directions of KEPLMs for future research. | 翻訳日:2023-09-12 23:50:41 公開日:2023-09-10 |
# Swin-Conv-UNetによるブラインド画像の実用化とデータ合成 Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis ( http://arxiv.org/abs/2203.13278v3 ) ライセンス: Link先を確認 | Kai Zhang, Yawei Li, Jingyun Liang, Jiezhang Cao, Yulun Zhang, Hao Tang, Deng-Ping Fan, Radu Timofte, Luc Van Gool | (参考訳) 近年、深層ニューラルネットワークを画像デノイジング(画像デノイジング)に活用する劇的な進歩が見られたが、既存の手法は主に、加算白色ガウスノイズ(awgn)、jpeg圧縮ノイズ、カメラセンサノイズ、実画像の汎用ブラインドデノイジング法などの単純なノイズ仮定に依存している。
本稿では,ネットワークアーキテクチャ設計とデータ合成のトレーニングの観点から,この問題を解決しようとする。
具体的には,ネットワークアーキテクチャ設計のために,残畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング機能を組み込んだswin-convブロックを提案する。
トレーニングデータ合成のために,ガウス,ポアソン,スペックル,JPEG圧縮,処理されたカメラセンサノイズなど,様々な種類のノイズを考慮した実用的なノイズ劣化モデルの設計と縮小を行い,ランダムシャッフル戦略と二重劣化戦略を伴う。
AGWN除去と実画像復号化に関する大規模な実験により、新しいネットワークアーキテクチャ設計が最先端の性能を実現し、新しい劣化モデルが実用性を大幅に向上することを示した。
私たちの研究は、現在の分別研究に有用な洞察を与えることができると考えています。 While recent years have witnessed a dramatic upsurge of exploiting deep neural networks toward solving image denoising, existing methods mostly rely on simple noise assumptions, such as additive white Gaussian noise (AWGN), JPEG compression noise and camera sensor noise, and a general-purpose blind denoising method for real images remains unsolved. In this paper, we attempt to solve this problem from the perspective of network architecture design and training data synthesis. Specifically, for the network architecture design, we propose a swin-conv block to incorporate the local modeling ability of residual convolutional layer and non-local modeling ability of swin transformer block, and then plug it as the main building block into the widely-used image-to-image translation UNet architecture. For the training data synthesis, we design a practical noise degradation model which takes into consideration different kinds of noise (including Gaussian, Poisson, speckle, JPEG compression, and processed camera sensor noises) and resizing, and also involves a random shuffle strategy and a double degradation strategy. Extensive experiments on AGWN removal and real image denoising demonstrate that the new network architecture design achieves state-of-the-art performance and the new degradation model can help to significantly improve the practicability. We believe our work can provide useful insights into current denoising research. | 翻訳日:2023-09-12 23:43:43 公開日:2023-09-10 |
# c-MARLをより効果的に攻撃する: データ駆動アプローチ Attacking c-MARL More Effectively: A Data Driven Approach ( http://arxiv.org/abs/2202.03558v2 ) ライセンス: Link先を確認 | Nhan H. Pham, Lam M. Nguyen, Jie Chen, Hoang Thanh Lam, Subhro Das, Tsui-Wei Weng | (参考訳) 近年,協調型マルチエージェント強化学習(c-marl)のための手法が開発されている。
しかし、敵攻撃に対するc-MARL剤の堅牢性はめったに調査されていない。
本稿では,モデルベースアプローチであるc-MBAを用いて,c-MARLエージェントの堅牢性を評価する。
提案手法は,c-MARLエージェントの対向状態摂動により,既存のモデルフリーアプローチよりもチーム報酬を低減できる。
さらに,本論文では,本研究の基盤となる環境に対する知識を必要とせずに,より強力な敵攻撃を実現できるような,最初の被害者・エージェント選択戦略と,目標とする障害状態を定義するためのデータ駆動型アプローチを提案する。
2つの代表的なMARLベンチマークに関する数値実験は、我々のアプローチが他のベースラインよりも優れていることを示している。 In recent years, a proliferation of methods were developed for cooperative multi-agent reinforcement learning (c-MARL). However, the robustness of c-MARL agents against adversarial attacks has been rarely explored. In this paper, we propose to evaluate the robustness of c-MARL agents via a model-based approach, named c-MBA. Our proposed formulation can craft much stronger adversarial state perturbations of c-MARL agents to lower total team rewards than existing model-free approaches. In addition, we propose the first victim-agent selection strategy and the first data-driven approach to define targeted failure states where each of them allows us to develop even stronger adversarial attack without the expert knowledge to the underlying environment. Our numerical experiments on two representative MARL benchmarks illustrate the advantage of our approach over other baselines: our model-based attack consistently outperforms other baselines in all tested environments. | 翻訳日:2023-09-12 23:42:13 公開日:2023-09-10 |
# ニューラルネットワーク改善のための簡易かつ効果的なフィルタリング手法 A Simple And Effective Filtering Scheme For Improving Neural Fields ( http://arxiv.org/abs/2201.13013v5 ) ライセンス: Link先を確認 | Yixin Zhuang | (参考訳) 近年、座標ベースのMLPとしても知られるニューラルフィールドは、低次元データの表現において顕著な成果を上げている。
CNNとは異なり、MPPはグローバルに接続されており、ローカルコントロールが欠如している。
したがって、局所的なニューラルネットワークの改善は、通常ジレンマにつながる: 局所的なアーティファクトをフィルタリングすることは、望まれる詳細を同時にスムーズに除去することができる。
提案手法は,2つの反アクティブ作用素からなる新しいフィルタリング手法である。スムージング演算子は汎化を改善するためにグローバルスムージングを提供し,逆に局所調整の制御性を向上させる回復演算子である。
いずれのオペレータも使用すれば,ノイズの多いアーティファクトや過度にスムーズな領域の増加につながることが判明した。
これら2つの演算子を組み合わせることにより、スムーズ化とシャープ化を調整し、まず全領域をスムーズにした後、過度にスムーズな領域のきめ細かい詳細を復元する。
このようにして、我々のフィルターは、詳細性を高めながら、多くのノイズを取り除くのに役立つ。
我々は,様々なタスクにおけるフィルタの利点を実証し,最先端手法に対する大幅な改善を示す。
さらに,コンバージェンス速度とネットワーク安定性の観点から,フィルタの性能も向上する。 Recently, neural fields, also known as coordinate-based MLPs, have achieved impressive results in representing low-dimensional data. Unlike CNN, MLPs are globally connected and lack local control; adjusting a local region leads to global changes. Therefore, improving local neural fields usually leads to a dilemma: filtering out local artifacts can simultaneously smooth away desired details. Our solution is a new filtering technique that consists of two counteractive operators: a smoothing operator that provides global smoothing for better generalization, and conversely a recovering operator that provides better controllability for local adjustments. We have found that using either operator alone can lead to an increase in noisy artifacts or oversmoothed regions. By combining the two operators, smoothing and sharpening can be adjusted to first smooth the entire region and then recover fine-grained details in regions overly smoothed. In this way, our filter helps neural fields remove much noise while enhancing details. We demonstrate the benefits of our filter on various tasks and show significant improvements over state-of-the-art methods. Moreover, our filter also provides better performance in terms of convergence speed and network stability. | 翻訳日:2023-09-12 23:41:40 公開日:2023-09-10 |
# jnmr:ビデオフレーム補間のための非線形運動回帰 JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation ( http://arxiv.org/abs/2206.04231v3 ) ライセンス: Link先を確認 | Meiqin Liu, Chenming Xu, Chao Yao, Chunyu Lin, and Yao Zhao | (参考訳) ビデオフレーム補間(VFI)は、双方向の履歴参照から学習可能な動きを歪曲することで予測フレームを生成することを目的としている。
既存の作品の多くは時空間的意味情報抽出器を用いて動き推定と補間モデルを実現している。
しかし、彼らは生成する中間運動の真の機械論的合理性を十分に考慮していない。
本稿では,フレーム間の複雑な動きをモデル化するために,VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
具体的には、ターゲットフレームと多重参照フレーム間の運動軌跡は、多段階二次モデルの時間的連結により回帰される。
ConvLSTMは、時間次元における完全運動のこの結合分布を構築するために用いられる。
さらに、特徴学習ネットワークは、共同回帰モデリングのために最適化されるように設計されている。
繰り返し回帰と補間によって異なる解像度で視覚力学を学習するために、粗大な合成拡張モジュールも実行される。
VFIによる実験結果から, 関節運動の退行効果は最先端法と比較して有意に向上した。
コードはhttps://github.com/ruhig6/jnmrで入手できる。 Video frame interpolation (VFI) aims to generate predictive frames by warping learnable motions from the bidirectional historical references. Most existing works utilize spatio-temporal semantic information extractor to realize motion estimation and interpolation modeling. However, they insufficiently consider the real mechanistic rationality of generated middle motions. In this paper, we reformulate VFI as a Joint Non-linear Motion Regression (JNMR) strategy to model the complicated motions of inter-frame. Specifically, the motion trajectory between the target frame and the multiple reference frames is regressed by a temporal concatenation of multi-stage quadratic models. ConvLSTM is adopted to construct this joint distribution of complete motions in temporal dimension. Moreover, the feature learning network is designed to optimize for the joint regression modeling. A coarse-to-fine synthesis enhancement module is also conducted to learn visual dynamics at different resolutions through repetitive regression and interpolation. Experimental results on VFI show that the effectiveness and significant improvement of joint motion regression compared with the state-of-the-art methods. The code is available at https://github.com/ruhig6/JNMR. | 翻訳日:2023-09-12 23:32:40 公開日:2023-09-10 |
# 非線形トウレスポンプにおける量子化の崩壊 Breakdown of quantization in nonlinear Thouless pumping ( http://arxiv.org/abs/2205.10978v2 ) ライセンス: Link先を確認 | Thomas Tuloup, Raditya Weda Bomantara, and Jiangbin Gong | (参考訳) 非線形thoulessポンプで駆動されるソリトンのダイナミクスとシステムのトポロジーとの関係は、最近、弱い非線形強度と強い非線形強度の両方について研究された。
この研究は、中間非線形性の状態での非線形ポンピングの運命を明らかにし、非ゼロの観測から弱い非線形性での量子ポンピングから強い非線形性におけるゼロポンピングへの興味深い交差を確立する。
我々は,ソリトンの量子ポンピングがプロトコルの時間スケールによらず破壊する臨界非線形強度の存在を同定する。
このようなポンプ量子化の障害は、非線形トポロジカルバンドのループ構造の存在に起因する。
我々の結果は非線形Thoulessポンプにおける物理の欠落だけでなく、実空間で調査された非線形システムのループ構造を検出する手段も提供する。 The dynamics of solitons driven in a nonlinear Thouless pump and its connection with the system's topology were recently explored for both weak and strong nonlinear strength. This work uncovers the fate of nonlinear Thouless pumping in the regime of intermediate nonlinearity, thus establishing a fascinating crossover from the observation of nonzero and quantized pumping at weak nonlinearity to zero pumping at strong nonlinearity. We identify the presence of critical nonlinearity strength at which quantized pumping of solitons breaks down regardless of the protocol time scale. Such an obstruction to pumping quantization is attributed to the presence of loop structures of nonlinear topological bands. Our results not only unveil a missing piece of physics in nonlinear Thouless pumping, but also provide a means to detect loop structures of nonlinear systems investigated in real space. | 翻訳日:2023-09-12 23:32:07 公開日:2023-09-10 |
# テンソルネットワーク状態の効率的な断熱処理 Efficient Adiabatic Preparation of Tensor Network States ( http://arxiv.org/abs/2209.01230v3 ) ライセンス: Link先を確認 | Zhi-Yuan Wei, Daniel Malz, J. Ignacio Cirac | (参考訳) 正規テンソルネットワーク状態を含む有限格子内の有限体親ハミルトニアンの特異な基底状態であるテンソルネットワーク状態および他の関連する非正規状態を作成するための、特定の断熱経路を提案し、研究する。
この経路は有限系のギャップを保証し、効率的な数値シミュレーションを可能にする。
一次元では, 相関長の異なる状態の族と, 1次元のAffleck-Kennedy-Lieb-Tasaki状態(AKLT)を数値的に検討し, 逐次的準備に基づいて, 断熱処理が標準法よりもはるかに高速であることを示す。
また, 本手法を六角格子上の2次元aklt状態に適用し, シーケンシャルな調製法が知られていない場合, 比較的大きな格子に対して非常に効率的に調製できることを示す。 We propose and study a specific adiabatic path to prepare those tensor network states that are unique ground states of few-body parent Hamiltonians in finite lattices, which include normal tensor network states, as well as other relevant nonnormal states. This path guarantees a gap for finite systems and allows for efficient numerical simulation. In one dimension, we numerically investigate the preparation of a family of states with varying correlation lengths and the one-dimensional Affleck-Kennedy-Lieb-Tasaki (AKLT) state and show that adiabatic preparation can be much faster than standard methods based on sequential preparation. We also apply the method to the two-dimensional AKLT state on the hexagonal lattice, for which no method based on sequential preparation is known, and show that it can be prepared very efficiently for relatively large lattices. | 翻訳日:2023-09-12 23:24:09 公開日:2023-09-10 |
# 心エコー画像の自己教師付きコントラスト学習による心筋疾患診断 Self-supervised contrastive learning of echocardiogram videos enables label-efficient cardiac disease diagnosis ( http://arxiv.org/abs/2207.11581v2 ) ライセンス: Link先を確認 | Gregory Holste, Evangelos K. Oikonomou, Bobak J. Mortazavi, Zhangyang Wang, Rohan Khera | (参考訳) 自己教師付き学習(ssl)の進歩は、医療画像データに対する自己教師付き事前訓練が下流教師付き分類とセグメント化の強力な初期化をもたらすことを示した。
医用画像認識タスクのエキスパートラベル取得が困難であるため、標準転送学習よりもラベル効率が向上するため、"ドメイン内"ssl初期化が望ましいことが多い。
しかし,医療画像データのSSL化への取り組みの大部分は,ビデオベースの医療画像モダリティに適応していない。
この進歩を念頭に、下流心疾患の診断を効率的に微調整するための強力な表現を学習することを目的として、心エコービデオに対応した自己教師付きコントラスト学習手法、EchoCLRを開発した。
EchoCLRが活用
(i)コントラスト学習のための正のペアと同一患者の異なるビデオ
(ii)時間的コヒーレンスを強制するプレテキストタスクをフレームで並べ替える。
ラベル付きデータの一部(51試験まで)を微調整すると,エコーCLRプレトレーニングにより,左室肥大 (LVH) と大動脈狭窄 (AS) の分類性能が,他の移行学習およびSSLアプローチよりも有意に向上した。
例えば、利用可能なトレーニングデータ(519の研究)の10%を微調整すると、EchoCLRが事前訓練したモデルは、標準転送学習アプローチによる0.61 AUROC (95% CI: [0.57, 0.64])と比較して、LVH分類において0.72 AUROC (95% CI: [0.69, 0.75])を達成した。
同様に、利用可能なトレーニングデータ(53研究)の1%を使用して、EchoCLRプレトレーニングは、厳密なAS分類において 0.82 AUROC (95% CI: [0.79, 0.84])を達成し、転送学習では 0.61 AUROC (95% CI: [0.58, 0.65]) を達成した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。 Advances in self-supervised learning (SSL) have shown that self-supervised pretraining on medical imaging data can provide a strong initialization for downstream supervised classification and segmentation. Given the difficulty of obtaining expert labels for medical image recognition tasks, such an "in-domain" SSL initialization is often desirable due to its improved label efficiency over standard transfer learning. However, most efforts toward SSL of medical imaging data are not adapted to video-based medical imaging modalities. With this progress in mind, we developed a self-supervised contrastive learning approach, EchoCLR, catered to echocardiogram videos with the goal of learning strong representations for efficient fine-tuning on downstream cardiac disease diagnosis. EchoCLR leverages (i) distinct videos of the same patient as positive pairs for contrastive learning and (ii) a frame re-ordering pretext task to enforce temporal coherence. When fine-tuned on small portions of labeled data (as few as 51 exams), EchoCLR pretraining significantly improved classification performance for left ventricular hypertrophy (LVH) and aortic stenosis (AS) over other transfer learning and SSL approaches across internal and external test sets. For example, when fine-tuning on 10% of available training data (519 studies), an EchoCLR-pretrained model achieved 0.72 AUROC (95% CI: [0.69, 0.75]) on LVH classification, compared to 0.61 AUROC (95% CI: [0.57, 0.64]) with a standard transfer learning approach. Similarly, using 1% of available training data (53 studies), EchoCLR pretraining achieved 0.82 AUROC (95% CI: [0.79, 0.84]) on severe AS classification, compared to 0.61 AUROC (95% CI: [0.58, 0.65]) with transfer learning. EchoCLR is unique in its ability to learn representations of medical videos and demonstrates that SSL can enable label-efficient disease classification from small, labeled datasets. | 翻訳日:2023-09-12 23:22:36 公開日:2023-09-10 |
# AI推論を行う際の異種機器の消費電力推定 Estimating the Power Consumption of Heterogeneous Devices when performing AI Inference ( http://arxiv.org/abs/2207.06150v2 ) ライセンス: Link先を確認 | Pedro Machado, Ivica Matic, Francisco de Lemos, Isibor Kennedy Ihianle, David Ada Adama | (参考訳) 現代の生活はインターネットに接続された電子機器によって駆動される。
IoT(Internet-of-Things)の新たな研究分野は、コネクテッドデバイスの増加が着実に進んでいるのと同じように、人気が高まっている。
これらのデバイスの多くはcvタスクの実行に利用されるため、性能に対する消費電力を理解することが不可欠である。
物体分類を行いながらNVIDIA Jetson Nanoボードの消費電力分布と解析を行った。
筆者らは, YOLOv5モデルを用いて, フレーム毎の消費電力とフレーム毎の出力を広範囲に分析した。
その結果、YOLOv5nはスループット(12.34 fps)と低消費電力(0.154 mWh/frame)で他のYOLOV5よりも優れていた。 Modern-day life is driven by electronic devices connected to the internet. The emerging research field of the Internet-of-Things (IoT) has become popular, just as there has been a steady increase in the number of connected devices. Since many of these devices are utilised to perform CV tasks, it is essential to understand their power consumption against performance. We report the power consumption profile and analysis of the NVIDIA Jetson Nano board while performing object classification. The authors present an extensive analysis regarding power consumption per frame and the output in frames per second using YOLOv5 models. The results show that the YOLOv5n outperforms other YOLOV5 variants in terms of throughput (i.e. 12.34 fps) and low power consumption (i.e. 0.154 mWh/frame). | 翻訳日:2023-09-12 23:21:43 公開日:2023-09-10 |
# jsdp: javaの確率的dpライブラリ jsdp: a Java Stochastic DP Library ( http://arxiv.org/abs/2209.09979v3 ) ライセンス: Link先を確認 | Roberto Rossi | (参考訳) 確率的プログラミングは不確実性の下で意思決定の問題をモデル化し解決するためのフレームワークである。
確率動的プログラミング(Stochastic Dynamic Programming)は、最適ポリシーの発見に「関数型方程式」アプローチを採用する確率的プログラミングの一分野である。
MapReduceフレームワークを運用するためにJavaで実装されたコンストラクト(ラムダ式、関数インターフェイス、コレクション、集約演算子)を活用することで、jsdpは確率動的プログラムのモデリングと解決のための汎用ライブラリを提供する。 Stochastic Programming is a framework for modelling and solving problems of decision making under uncertainty. Stochastic Dynamic Programming is a branch of Stochastic Programming that takes a "functional equation" approach to the discovery of optimal policies. By leveraging constructs - lambda expressions, functional interfaces, collections and aggregate operators - implemented in Java to operationalise the MapReduce framework, jsdp provides a general purpose library for modelling and solving Stochastic Dynamic Programs. | 翻訳日:2023-09-12 23:09:51 公開日:2023-09-10 |
# 高速3次元せん断復元のためのバッチベースモデルレジストレーション Batch-based Model Registration for Fast 3D Sherd Reconstruction ( http://arxiv.org/abs/2211.06897v2 ) ライセンス: Link先を確認 | Jiepeng Wang, Congyi Zhang, Peng Wang, Xin Li, Peter J. Cobb, Christian Theobalt, Wenping Wang | (参考訳) 3次元復元技術は考古学的断片のデジタル文書化に広く利用されている。
しかし、フラグメントの効率的なデジタルキャプチャは依然として課題である。
本研究では,考古学遺跡から出土した断片の効率的なデジタル化のための携帯型,高スループット,高精度な復元システムを開発することを目的とする。
多数のオブジェクトの高スループットディジタル化を実現するため,バッチでスキャンと再構築を行うことが効果的である。
しかしながら、効果的なバッチベースのスキャンと再構築には、2つの大きな課題がある。
1)複数のバッチスキャンから同一オブジェクトの部分的スキャンを相関させる方法、及び
2)小さな重複のみを示す部分スキャンから完全モデルを登録・再構築する方法。
これら2つの課題に取り組むため,我々は,断片の前面と背面を組むバッチマッチングアルゴリズムと,非常に狭い重複領域を共有する部分スキャンを登録する新たなバイラテラルバウンダリicpアルゴリズムを開発した。
ラボでの広範な検証と発掘現場での試験は、これらの設計が断片の効率的なバッチベースのスキャンを可能にすることを証明している。
このようなバッチベースのスキャニング・レコンストラクション・パイプラインは、考古学的発掘におけるシェルドのデジタル化に直ちに応用できることを示す。
プロジェクトページ:https://jiepengwang.github.io/FIRES/。 3D reconstruction techniques have widely been used for digital documentation of archaeological fragments. However, efficient digital capture of fragments remains as a challenge. In this work, we aim to develop a portable, high-throughput, and accurate reconstruction system for efficient digitization of fragments excavated in archaeological sites. To realize high-throughput digitization of large numbers of objects, an effective strategy is to perform scanning and reconstruction in batches. However, effective batch-based scanning and reconstruction face two key challenges: 1) how to correlate partial scans of the same object from multiple batch scans, and 2) how to register and reconstruct complete models from partial scans that exhibit only small overlaps. To tackle these two challenges, we develop a new batch-based matching algorithm that pairs the front and back sides of the fragments, and a new Bilateral Boundary ICP algorithm that can register partial scans sharing very narrow overlapping regions. Extensive validation in labs and testing in excavation sites demonstrate that these designs enable efficient batch-based scanning for fragments. We show that such a batch-based scanning and reconstruction pipeline can have immediate applications on digitizing sherds in archaeological excavations. Our project page: https://jiepengwang.github.io/FIRES/. | 翻訳日:2023-09-12 23:03:22 公開日:2023-09-10 |
# 満足度マシン比モデリングによる機械の知覚映像符号化 Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling ( http://arxiv.org/abs/2211.06797v2 ) ライセンス: Link先を確認 | Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Zhao Wang, Siwei Ma, Wen Gao | (参考訳) Video Coding for Machines (VCM) は、機械分析のための視覚信号を圧縮することを目的としている。
しかし、既存のメソッドは少数のマシンのみを考慮し、大多数を無視する。
さらに,機械の知覚特性は有効に活用されず,最適下圧縮効率が向上する。
本稿では,これらの問題に対処するためにSMR(Satisfied Machine Ratio)を提案する。
SMRは、圧縮画像とビデオの品質を統計的に測定し、それらから満足度スコアを収集する。
各スコアは、原画像と圧縮画像の機械知覚の差に基づいて算出される。
画像分類とオブジェクト検出タスクを目標とし、SMRアノテーションのための2つの代表的なマシンライブラリを構築し、SMR研究を容易にする大規模なSMRデータセットを構築する。
次に,深部特徴差とSMRとの相関に基づくSMR予測モデルを提案する。
さらに,画質の異なる2つの画像間のsmr差を予測し,予測精度を向上させる補助タスクを提案する。
大規模な実験では、SMRモデルを使用することで、VCMの圧縮性能が大幅に向上し、SMRモデルは見えないマシン、従来型およびニューラルコーデック、データセットによく一般化されている。
要約すると、SMRは機械の知覚的コーディングを可能にし、VCMを特異性から一般性へと進化させる。
コードは \url{https://github.com/ywwynm/SMR} で入手できる。 Video Coding for Machines (VCM) aims to compress visual signals for machine analysis. However, existing methods only consider a few machines, neglecting the majority. Moreover, the machine perceptual characteristics are not effectively leveraged, leading to suboptimal compression efficiency. In this paper, we introduce Satisfied Machine Ratio (SMR) to address these issues. SMR statistically measures the quality of compressed images and videos for machines by aggregating satisfaction scores from them. Each score is calculated based on the difference in machine perceptions between original and compressed images. Targeting image classification and object detection tasks, we build two representative machine libraries for SMR annotation and construct a large-scale SMR dataset to facilitate SMR studies. We then propose an SMR prediction model based on the correlation between deep features differences and SMR. Furthermore, we introduce an auxiliary task to increase the prediction accuracy by predicting the SMR difference between two images in different quality levels. Extensive experiments demonstrate that using the SMR models significantly improves compression performance for VCM, and the SMR models generalize well to unseen machines, traditional and neural codecs, and datasets. In summary, SMR enables perceptual coding for machines and advances VCM from specificity to generality. Code is available at \url{https://github.com/ywwynm/SMR}. | 翻訳日:2023-09-12 23:03:02 公開日:2023-09-10 |
# 自然言語処理のための自動スライス検出フレームワークの発見, 説明, 改善 Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing ( http://arxiv.org/abs/2211.04476v2 ) ライセンス: Link先を確認 | Wenyue Hua, Lifeng Jin, Linfeng Song, Haitao Mi, Yongfeng Zhang, Dong Yu | (参考訳) 事前訓練された自然言語処理(NLP)モデルは全体的な性能は高いが、それでも体系的な誤りを犯す。
手動エラー解析の代わりに、データポイントの低パフォーマンスなグループを自動的に識別するスライス検出モデル(SDM)の研究が、モデル動作の理解と将来のモデルトレーニングと設計のための洞察を提供するために、コンピュータビジョンにおいて注目されている。
しかし,NLPタスクにおいて,SDMの定量的評価や定量的評価はほとんど行われていない。
本稿では,新たなSDM Edisaとともに,NLPタスクの分類のための"Discover, Explain, Improve (DEIM)"というベンチマークを提案し,そのギャップを埋める。
Edisaはデータポイントの一貫性と性能の低いグループを発見し、DEIMはそれらを人間の理解可能な概念の下で統一し、包括的な評価タスクとそれに対応する定量的メトリクスを提供する。
DEIMの評価は、Edisaがエラーパターンを要約する情報的セマンティック特徴を用いて、正確にエラー発生データポイントを選択することができることを示している。
難しいデータポイントの検出は、オリジナルのモデルパラメータをチューニングすることなく、モデルパフォーマンスを直接的に向上させる。 Pretrained natural language processing (NLP) models have achieved high overall performance, but they still make systematic errors. Instead of manual error analysis, research on slice detection models (SDM), which automatically identify underperforming groups of datapoints, has caught escalated attention in Computer Vision for both understanding model behaviors and providing insights for future model training and designing. However, little research on SDM and quantitative evaluation of their effectiveness have been conducted on NLP tasks. Our paper fills the gap by proposing a benchmark named "Discover, Explain, Improve (DEIM)" for classification NLP tasks along with a new SDM Edisa. Edisa discovers coherent and underperforming groups of datapoints; DEIM then unites them under human-understandable concepts and provides comprehensive evaluation tasks and corresponding quantitative metrics. The evaluation in DEIM shows that Edisa can accurately select error-prone datapoints with informative semantic features that summarize error patterns. Detecting difficult datapoints directly boosts model performance without tuning any original model parameters, showing that discovered slices are actionable for users. | 翻訳日:2023-09-12 23:02:43 公開日:2023-09-10 |
# 逆ダイナミクスの確率的学習のための変分階層混合 Variational Hierarchical Mixtures for Probabilistic Learning of Inverse Dynamics ( http://arxiv.org/abs/2211.01120v2 ) ライセンス: Link先を確認 | Hany Abdulsamad, Peter Nickl, Pascal Klink, Jan Peters | (参考訳) 適切に調整された確率的回帰モデルは、データセットが急速に成長し、タスクがより複雑になるにつれて、ロボットアプリケーションにおいて重要な学習要素となる。
残念なことに、古典回帰モデルは通常、データに優雅にスケールしない柔軟な構造を持つ確率論的カーネルマシンか、決定論的で拡張性の高いオートマトンである。
本稿では,計算効率の高い表現と固有複雑性の正規化を両世界の利点と組み合わせた,確率的階層的モデリングパラダイムについて考察する。
提案手法は局所線型あるいは多項式単位の集合を通して非線形関数を近似する局所回帰手法の確率論的解釈である。
重要なことは、ベイズ非パラメトリックの原理に頼って、データの複雑さに適応し、無限個のコンポーネントを包含できるフレキシブルなモデルを定式化します。
これらの表現を学習するための2つの効率的な変分推論手法を導出し、非スムース関数の扱い、破滅的な忘れることの緩和、パラメータ共有と高速な予測を可能にするなど、階層的な無限局所回帰モデルの利点を強調する。
最後に,このアプローチを大規模逆ダイナミクスデータセット上で検証し,実世界の制御シナリオで学習モデルをテストする。 Well-calibrated probabilistic regression models are a crucial learning component in robotics applications as datasets grow rapidly and tasks become more complex. Unfortunately, classical regression models are usually either probabilistic kernel machines with a flexible structure that does not scale gracefully with data or deterministic and vastly scalable automata, albeit with a restrictive parametric form and poor regularization. In this paper, we consider a probabilistic hierarchical modeling paradigm that combines the benefits of both worlds to deliver computationally efficient representations with inherent complexity regularization. The presented approaches are probabilistic interpretations of local regression techniques that approximate nonlinear functions through a set of local linear or polynomial units. Importantly, we rely on principles from Bayesian nonparametrics to formulate flexible models that adapt their complexity to the data and can potentially encompass an infinite number of components. We derive two efficient variational inference techniques to learn these representations and highlight the advantages of hierarchical infinite local regression models, such as dealing with non-smooth functions, mitigating catastrophic forgetting, and enabling parameter sharing and fast predictions. Finally, we validate this approach on large inverse dynamics datasets and test the learned models in real-world control scenarios. | 翻訳日:2023-09-12 23:02:05 公開日:2023-09-10 |
# 教師なし発話スタイル転送による音声感情認識の改善 Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer ( http://arxiv.org/abs/2211.08843v2 ) ライセンス: Link先を確認 | Leyuan Qu, Wei Wang, Cornelius Weber, Pengcheng Yue, Taihao Li and Stefan Wermter | (参考訳) 人間はストレスの配置や感情の強さといった様々な韻律的属性を無力に修正し、一貫した言語的内容を維持しながら特定の感情を伝達することができる。
そこで本研究では,感情表現の向上と音声感情認識タスクにおけるデータ不足問題への対処を目的とした,新しいスタイル伝達モデルであるEmoAugを提案する。
EmoAugは意味エンコーダとパラ言語エンコーダで構成され、それぞれ言語情報と非言語情報を表す。
さらに、デコーダは、前述の2つの情報の流れを教師なしで条件付けして音声信号を再構成する。
訓練が完了すると、エモーグはパラ言語エンコーダに異なるスタイルを与えることで、ストレス、リズム、強度といった異なる韻律的特徴を持つ感情的なスピーチの表現を豊かにする。
EmoAugを使うことで、各クラスに対して同様の数のサンプルを生成して、データ不均衡の問題にも対処できます。
IEMOCAPデータセットの実験結果は、EmoAugが話者のアイデンティティとセマンティックコンテンツを保持しながら、異なる話しスタイルを転送できることを示した。
さらに,emoaugによって拡張されたデータを用いてserモデルを訓練し,その拡張モデルが最先端の教師あり・自己教師あり手法を超えるだけでなく,データ不均衡に起因する過剰フィット問題を克服することを示す。
いくつかのオーディオサンプルは、私たちのデモwebサイトにある。 Humans can effortlessly modify various prosodic attributes, such as the placement of stress and the intensity of sentiment, to convey a specific emotion while maintaining consistent linguistic content. Motivated by this capability, we propose EmoAug, a novel style transfer model designed to enhance emotional expression and tackle the data scarcity issue in speech emotion recognition tasks. EmoAug consists of a semantic encoder and a paralinguistic encoder that represent verbal and non-verbal information respectively. Additionally, a decoder reconstructs speech signals by conditioning on the aforementioned two information flows in an unsupervised fashion. Once training is completed, EmoAug enriches expressions of emotional speech with different prosodic attributes, such as stress, rhythm and intensity, by feeding different styles into the paralinguistic encoder. EmoAug enables us to generate similar numbers of samples for each class to tackle the data imbalance issue as well. Experimental results on the IEMOCAP dataset demonstrate that EmoAug can successfully transfer different speaking styles while retaining the speaker identity and semantic content. Furthermore, we train a SER model with data augmented by EmoAug and show that the augmented model not only surpasses the state-of-the-art supervised and self-supervised methods but also overcomes overfitting problems caused by data imbalance. Some audio samples can be found on our demo website. | 翻訳日:2023-09-12 22:49:39 公開日:2023-09-10 |
# 言語モデル間インタラクションの評価 Evaluating Human-Language Model Interaction ( http://arxiv.org/abs/2212.09746v4 ) ライセンス: Link先を確認 | Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang | (参考訳) 言語モデル(LM)の現実的な応用は、筆記補助やコードオートコンプリートなど、人間とLMの相互作用を含む。
しかしながら、ほとんどのベンチマークは、モデルが人間の関与なしに出力を生成するという点で非インタラクティブである。
HALIE(Human-AI Language-based Interaction Evaluation)と呼ばれる,対話型システムのコンポーネントと,評価指標を設計する際に考慮すべき次元を定義するフレームワークを開発した。
HALIE の標準的非対話的評価との比較
(i)最終的な出力だけでなく、対話的なプロセス
(ii)第三者のアセスメントに限らず、一人称主観的な経験
(iii)品質を超えた選好の概念(楽しさ及び所有権など)
次に,ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,インタラクションのさまざまな形式をカバーする5つのタスクを設計した。
最先端の4つのLM(OpenAIのGPT-3とAI21 LabsのJurassic-1の3つの変種)では、より優れた非インタラクティブ性能は、必ずしもより良い人間とLMの相互作用に変換されない。
特に,非対話的,インタラクティブな指標から得られた結果が,LM評価における人間とLMの相互作用の重要性を浮き彫りにした3つの事例を強調した。 Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation. | 翻訳日:2023-09-12 22:41:06 公開日:2023-09-10 |
# インテンショナルファーストオーダー論理に基づく強AIオートエポステミックロボット Strong-AI Autoepistemic Robots Build on Intensional First Order Logic ( http://arxiv.org/abs/2212.07935v3 ) ライセンス: Link先を確認 | Zoran Majkic | (参考訳) ニューロシンボリックAIは、推論、学習、認知モデリングが可能な強力なAIをサポートするために、それぞれの強みと弱みに補完的な方法で対処する方法で、ニューラルアーキテクチャとシンボルアーキテクチャを統合する。
本稿では,人間とのコミュニケーションに自然言語を活用し,自己参照と抽象言語特性を用いて自身の知識を推論できる,現代ロボットの象徴的アーキテクチャとしてifol(intensional first order logic)を考える。
我々は,ロボット言語の基礎を,その神経アーキテクチャの使用経験から得ることを目的としており,この経験をIFOLのPRP(Properties/Relations/Propositions)理論(Properties/Relations/Propositions)理論における非定義言語概念(特に個人・普遍性)のマイニング(センス)と結び付ける。
ロボットの4段階の知識構造: 特定の自然言語(イタリア語、フランス語など)の構文レベル、意味論理構造(FOLの仮想述語に基づく)、それに対応する概念的PRP構造レベル。
最後に、IFOLにおける(抽象項を用いて)異なる種類のモーダル論理演算子とその導出公理を用いて、その実装方法を提案する: 特殊時相$Konow$述語と導出公理を導入することで、ロボットの自律的推論能力の特別な例を示す: 反射的、正のイントロスペクション、分布公理。 Neuro-symbolic AI attempts to integrate neural and symbolic architectures in a manner that addresses strengths and weaknesses of each, in a complementary fashion, in order to support robust strong AI capable of reasoning, learning, and cognitive modeling. In this paper we consider the intensional First Order Logic (IFOL) as a symbolic architecture of modern robots, able to use natural languages to communicate with humans and to reason about their own knowledge with self-reference and abstraction language property. We intend to obtain the grounding of robot's language by experience of how it uses its neuronal architectures and hence by associating this experience with the mining (sense) of non-defined language concepts (particulars/individuals and universals) in PRP (Properties/Relations/Propositions) theory of IFOL.\\ We consider the robot's four-levels knowledge structure: The syntax level of particular natural language (Italian, French, etc..), two universal language levels: its semantic logic structure (based on virtual predicates of FOL and logic connectives), and its corresponding conceptual PRP structure level which universally represents the composite mining of FOL formulae grounded on the last robot's neuro-system level. Finally, we provide the general method how to implement in IFOL (by using the abstracted terms) different kinds of modal logic operators and their deductive axioms: we present a particular example of robots autoepistemic deduction capabilities by introduction of the special temporal $Konow$ predicate and deductive axioms for it: reflexive, positive introspection and distributive axiom. | 翻訳日:2023-09-12 22:40:45 公開日:2023-09-10 |
# ドメイン適応学習と模倣: DRL for Power Arbitrage Domain-adapted Learning and Imitation: DRL for Power Arbitrage ( http://arxiv.org/abs/2301.08360v3 ) ライセンス: Link先を確認 | Yuanrong Wang, Vignesh Raja Swaminathan, Nikita P. Granger, Carlos Ros Perez, Christian Michler | (参考訳) 本稿では,日頭市場と,オークションのように運営される日内バランス市場からなるオランダの電力市場について論じる。
電力供給と需要の変動のため、2つの市場で異なる価格に繋がる不均衡がしばしばあり、仲裁の機会を提供している。
この問題に対処するため,我々はこの問題を再構成し,欧州電力仲裁取引の2段階シミュレーションと最適化のための協調的二重エージェント強化学習手法を提案する。
また、電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装も導入する。
ドメインの専門知識を模倣するために報酬工学を活用することにより、トレーニング中の収束を改善し、全体的なパフォーマンスを向上させるRLエージェントの報酬体系を再構築することができる。
さらに、注文の受け渡しは、入札成功率を高め、利益と損失(P&L)を大幅に増加させる。
本研究は,一般学習問題におけるドメイン専門知識の活用により,性能が大幅に向上し,最終的な統合アプローチは,従来のエージェントと比較して累積p&lが3倍向上することを示す。
さらに,提案手法は,効率的な計算性能を維持しつつ,最高のベンチマークポリシを約50%上回っている。 In this paper, we discuss the Dutch power market, which is comprised of a day-ahead market and an intraday balancing market that operates like an auction. Due to fluctuations in power supply and demand, there is often an imbalance that leads to different prices in the two markets, providing an opportunity for arbitrage. To address this issue, we restructure the problem and propose a collaborative dual-agent reinforcement learning approach for this bi-level simulation and optimization of European power arbitrage trading. We also introduce two new implementations designed to incorporate domain-specific knowledge by imitating the trading behaviours of power traders. By utilizing reward engineering to imitate domain expertise, we are able to reform the reward system for the RL agent, which improves convergence during training and enhances overall performance. Additionally, the tranching of orders increases bidding success rates and significantly boosts profit and loss (P&L). Our study demonstrates that by leveraging domain expertise in a general learning problem, the performance can be improved substantially, and the final integrated approach leads to a three-fold improvement in cumulative P&L compared to the original agent. Furthermore, our methodology outperforms the highest benchmark policy by around 50% while maintaining efficient computational performance. | 翻訳日:2023-09-12 22:30:19 公開日:2023-09-10 |
# ディープフェイク検出における敵対的攻撃の軽減:摂動とAI技術の探索 Mitigating Adversarial Attacks in Deepfake Detection: An Exploration of Perturbation and AI Techniques ( http://arxiv.org/abs/2302.11704v2 ) ライセンス: Link先を確認 | Saminder Dhesi, Laura Fontes, Pedro Machado, Isibor Kennedy Ihianle, Farhad Fassihi Tash, David Ada Adama | (参考訳) ディープラーニングは機械学習の領域において重要な要素であり、画像認識から自然言語処理まで、タスクにおいて顕著な機能を提供する。
しかし、この非常に強みは、様々なアプリケーションにまたがる現象である、敵対的な例に影響を受けやすいディープラーニングモデルも引き起こす。
これらの敵対的な例は、クリーンな画像やビデオに巧妙に注入された微妙な摂動によって特徴づけられ、ディープラーニングアルゴリズムが誤った分類や誤った出力を生成する。
この感受性はデジタルドメインの制限を超えて拡張され、敵対的な例は人間の認知を狙うために戦略的に設計することもできる。
特にディープフェイクは世論を操る強力なツールとして登場しており、敵の例に関連した安全と倫理的な影響に対処する緊急の必要性を強調している。
この記事では、多面的な敵の例の世界を掘り下げ、ディープラーニングアルゴリズムを騙す能力の背後にある原則を解明する。
我々は,モデルの信頼性を損なう上での自明な役割から,偽情報や誤情報の現代的景観形成への影響まで,この現象の様々な現象について考察する。
敵の例との戦いの進展を説明するために,我々は,ディープフェイクを明示的に検出するために設計された,カスタマイズされた畳み込みニューラルネットワーク(cnn)の開発を紹介する。
驚くべきことに、このカスタムCNNはDFDCデータセットで76.2%の精度を達成した。 Deep learning constitutes a pivotal component within the realm of machine learning, offering remarkable capabilities in tasks ranging from image recognition to natural language processing. However, this very strength also renders deep learning models susceptible to adversarial examples, a phenomenon pervasive across a diverse array of applications. These adversarial examples are characterized by subtle perturbations artfully injected into clean images or videos, thereby causing deep learning algorithms to misclassify or produce erroneous outputs. This susceptibility extends beyond the confines of digital domains, as adversarial examples can also be strategically designed to target human cognition, leading to the creation of deceptive media, such as deepfakes. Deepfakes, in particular, have emerged as a potent tool to manipulate public opinion and tarnish the reputations of public figures, underscoring the urgent need to address the security and ethical implications associated with adversarial examples. This article delves into the multifaceted world of adversarial examples, elucidating the underlying principles behind their capacity to deceive deep learning algorithms. We explore the various manifestations of this phenomenon, from their insidious role in compromising model reliability to their impact in shaping the contemporary landscape of disinformation and misinformation. To illustrate progress in combating adversarial examples, we showcase the development of a tailored Convolutional Neural Network (CNN) designed explicitly to detect deepfakes, a pivotal step towards enhancing model robustness in the face of adversarial threats. Impressively, this custom CNN has achieved a precision rate of 76.2% on the DFDC dataset. | 翻訳日:2023-09-12 22:24:12 公開日:2023-09-10 |
# 記号回帰のための効率的な数式生成法 Efficient Generator of Mathematical Expressions for Symbolic Regression ( http://arxiv.org/abs/2302.09893v2 ) ライセンス: Link先を確認 | Sebastian Me\v{z}nar, Sa\v{s}o D\v{z}eroski, Ljup\v{c}o Todorovski | (参考訳) 本稿では,階層構造を生成するための新しい変分オートエンコーダに基づく記号回帰手法を提案する。
単純な原子単位と共有重み付けを組み合わせることで、階層内の個々のノードを再帰的にエンコードし、デコードする。
エンコーディングはボトムアップで行われ、トップダウンでデコードされる。
実験により,hvaeは少ないコーパス数式で効率的に学習でき,表現を滑らかな低次元潜在空間に正確にエンコードできることを示した。
後者は記号回帰の課題に対処する様々な最適化手法で効率的に探索することができる。
実際、HVAEの潜伏空間におけるランダム探索は、数学的表現のための手作業による確率的文法によって生成される表現によるランダム探索よりも優れている。
最後に、HVAEの潜在空間に進化的アルゴリズムを適用するEDHiEシステムは、ディープラーニングと進化的アルゴリズムの類似した組み合わせに基づく最先端のシステムよりも、標準的な記号的回帰ベンチマークから方程式を再構築する。
\v{z} We propose an approach to symbolic regression based on a novel variational autoencoder for generating hierarchical structures, HVAE. It combines simple atomic units with shared weights to recursively encode and decode the individual nodes in the hierarchy. Encoding is performed bottom-up and decoding top-down. We empirically show that HVAE can be trained efficiently with small corpora of mathematical expressions and can accurately encode expressions into a smooth low-dimensional latent space. The latter can be efficiently explored with various optimization methods to address the task of symbolic regression. Indeed, random search through the latent space of HVAE performs better than random search through expressions generated by manually crafted probabilistic grammars for mathematical expressions. Finally, EDHiE system for symbolic regression, which applies an evolutionary algorithm to the latent space of HVAE, reconstructs equations from a standard symbolic regression benchmark better than a state-of-the-art system based on a similar combination of deep learning and evolutionary algorithms.\v{z} | 翻訳日:2023-09-12 22:23:44 公開日:2023-09-10 |
# 電荷保存を持つ非エルミートハミルトニアンの絡み合い相転移に関する全計数統計 Full Counting Statistics across the Entanglement Phase Transition of Non-Hermitian Hamiltonians with Charge Conservations ( http://arxiv.org/abs/2302.09470v3 ) ライセンス: Link先を確認 | Tian-Gang Zhou, Yi-Neng Zhou and Pengfei Zhang | (参考訳) 量子測定を行うと、物理観測可能な$o$の期待値だけでなく、可能なすべての結果の確率分布$p(o)$が生成される。
フルカウント統計 (fcs) $z(\phi, o)\equiv \sum_o e^{i\phi o}p(o)$ はこの分布のフーリエ変換であり、測定結果の完全な情報を含んでいる。
本研究では,非エルミート系syk系モデルによって記述される1次元系に対して,サブシステムである$a$のチャージ演算子である$q_a$のfcについて検討する。
相互作用系に対する体積法的な絡み合った位相と非相互作用系に対する臨界位相の両方において、共形対称性が出現し、$F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$となる。
短距離の絡み合った位相において、FCSは相互作用の有無にかかわらず、$F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$ for $\zeta \gg J$ と近似できる領域法的な振舞いを示す。
以上の結果から,FCSは非エルミート系におけるエンタングルメント相転移の普遍的なプローブであり,複数のレプリカの導入を必要としないことが示唆された。
また、離散対称性、長距離ホッピング、高次元への一般化の結果についても論じる。 Performing quantum measurements produces not only the expectation value of a physical observable $O$ but also the probability distribution $P(o)$ of all possible outcomes $o$. The full counting statistics (FCS) $Z(\phi, O)\equiv \sum_o e^{i\phi o}P(o)$, a Fourier transform of this distribution, contains the complete information of the measurement outcome. In this work, we study the FCS of $Q_A$, the charge operator in subsystem $A$, for 1D systems described by non-Hermitian SYK-like models, which are solvable in the large-$N$ limit. In both the volume-law entangled phase for interacting systems and the critical phase for non-interacting systems, the conformal symmetry emerges, which gives $F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$. In short-range entangled phases, the FCS shows area-law behavior which can be approximated as $F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$ for $\zeta \gg J$, regardless of the presence of interactions. Our results suggest the FCS is a universal probe of entanglement phase transitions in non-Hermitian systems with conserved charges, which does not require the introduction of multiple replicas. We also discuss the consequence of discrete symmetry, long-range hopping, and generalizations to higher dimensions. | 翻訳日:2023-09-12 22:22:34 公開日:2023-09-10 |
# PSO-ConvNet変換器を用いた動画像認識協調学習 Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer ( http://arxiv.org/abs/2302.09187v2 ) ライセンス: Link先を確認 | Nguyen Huu Phong, Bernardete Ribeiro | (参考訳) human action recognition(har)と呼ばれるビデオシーケンスにおけるヒューマンアクションの認識は、パターン認識において難しい課題である。
畳み込みニューラルネットワーク(convnets)は画像認識に著しく成功したが、時間的特徴が正確な分類に不可欠であるため、常にharに当てはまるとは限らない。
本稿では,映像認識における最近の研究に基づいて,映像中の動作を学習するための動的PSO-ConvNetモデルを提案する。
提案手法では,各ニューラルネットワークの重みベクトルが位相空間における粒子の位置を表し,粒子が現在の重みベクトルと損失関数の勾配推定を共有する枠組みを利用する。
ビデオへのアプローチを拡張するために、ConvNetsとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られ,提案手法の有効性が確認された。
さらに, Kinetics-400 や HMDB-51 など多種多様なデータセットの実験を行い,非協調学習(Individual Learning)と比較して協調学習を好んだ。
全体として、我々の動的PSO-ConvNetモデルは、ビデオ中の人間の行動の時空間的ダイナミクスをよりよく捉え、HARを改善するための有望な方向を提供する。
コードはhttps://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformerで公開されている。 Recognizing human actions in video sequences, known as Human Action Recognition (HAR), is a challenging task in pattern recognition. While Convolutional Neural Networks (ConvNets) have shown remarkable success in image recognition, they are not always directly applicable to HAR, as temporal features are critical for accurate classification. In this paper, we propose a novel dynamic PSO-ConvNet model for learning actions in videos, building on our recent work in image recognition. Our approach leverages a framework where the weight vector of each neural network represents the position of a particle in phase space, and particles share their current weight vectors and gradient estimates of the Loss function. To extend our approach to video, we integrate ConvNets with state-of-the-art temporal methods such as Transformer and Recurrent Neural Networks. Our experimental results on the UCF-101 dataset demonstrate substantial improvements of up to 9% in accuracy, which confirms the effectiveness of our proposed method. In addition, we conducted experiments on larger and more variety of datasets including Kinetics-400 and HMDB-51 and obtained preference for Collaborative Learning in comparison with Non-Collaborative Learning (Individual Learning). Overall, our dynamic PSO-ConvNet model provides a promising direction for improving HAR by better capturing the spatio-temporal dynamics of human actions in videos. The code is available at https://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformer. | 翻訳日:2023-09-12 22:22:00 公開日:2023-09-10 |
# 液体状態機械の動的訓練 Dynamic Training of Liquid State Machines ( http://arxiv.org/abs/2302.03506v2 ) ライセンス: Link先を確認 | Pavithra Koralalage, Ireoluwa Fakeye, Pedro Machado, Jason Smith, Isibor Kennedy Ihianle, Salisu Wada Yahaya, Andreas Oikonomou, Ahmad Lotfi | (参考訳) Spiking Neural Networks(SNN)は、人工知能ニューラルネットワーク(ANN)の分野で有望なソリューションとして登場し、人間の脳を模倣し、驚くほどのスピードと精度で複雑な情報を処理する能力によって、研究者の注目を集めた。
本研究は,snnに割り当てられる最も効果的な重量範囲を特定し,所望の出力と実出力の差を最小にすることで,snsのリカレントアーキテクチャである液体状態機械(lsms)の訓練プロセスを最適化することを目的とした。
実験結果から, スパイク測定値と重量範囲を用いることで, スパイクニューロンの所望の出力と実際の出力を効果的に最適化し, SNNの性能を向上させることができた。
結果は3つの異なる重み初期化手法を用いて検証され,最もよい結果はバラバシ・アルベルトランダムグラフ法を用いて得られた。 Spiking Neural Networks (SNNs) emerged as a promising solution in the field of Artificial Neural Networks (ANNs), attracting the attention of researchers due to their ability to mimic the human brain and process complex information with remarkable speed and accuracy. This research aimed to optimise the training process of Liquid State Machines (LSMs), a recurrent architecture of SNNs, by identifying the most effective weight range to be assigned in SNN to achieve the least difference between desired and actual output. The experimental results showed that by using spike metrics and a range of weights, the desired output and the actual output of spiking neurons could be effectively optimised, leading to improved performance of SNNs. The results were tested and confirmed using three different weight initialisation approaches, with the best results obtained using the Barabasi-Albert random graph method. | 翻訳日:2023-09-12 22:21:07 公開日:2023-09-10 |
# 分散シフトを伴う財務時間表表データセットの深層学習モデル Deep incremental learning models for financial temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v8 ) ライセンス: Link先を確認 | Thomas Wong, Mauricio Barahona | (参考訳) 金融データセットに典型的な分布シフトに対応するために,一般利用可能な表型および時系列予測モデルの漸進的利用に基づく,金融時間表型データセットの回帰タスクのための強固な深層学習フレームワークを提案する。
このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築し、レジームの変化、ファットテール分布、低信号対ノイズ比などの悪い状況下で堅牢なパフォーマンスを提供する。
本研究では,Numeraiデータセットを用いて学習したXGBoostモデルを用いて,異なるモデルスナップショット上のXGBoostモデルの2層深層アンサンブルが,異なる市場状況下で高品質な予測を提供することを示す。
また, 3つのシナリオ(小, 標準, 大規模)において, ブーイングラウンド数が異なるXGBoostモデルの性能は, モデルサイズに対して単調に増加し, 一般化上限に向かって収束することを示した。
また,モデル複雑性やデータサンプリング設定など,異なるハイパーパラメータの可変性の下でモデルのロバスト性を評価する。
我々のモデルは、特別なニューラルネットワークを使用しず、それぞれのベースモデルを独立して並列にトレーニングできるため、ハードウェア要件が低い。 We present a robust deep incremental learning framework for regression tasks on financial temporal tabular datasets which is built upon the incremental use of commonly available tabular and time series prediction models to adapt to distributional shifts typical of financial datasets. The framework uses a simple basic building block (decision trees) to build self-similar models of any required complexity to deliver robust performance under adverse situations such as regime changes, fat-tailed distributions, and low signal-to-noise ratios. As a detailed study, we demonstrate our scheme using XGBoost models trained on the Numerai dataset and show that a two layer deep ensemble of XGBoost models over different model snapshots delivers high quality predictions under different market regimes. We also show that the performance of XGBoost models with different number of boosting rounds in three scenarios (small, standard and large) is monotonically increasing with respect to model size and converges towards the generalisation upper bound. We also evaluate the robustness of the model under variability of different hyperparameters, such as model complexity and data sampling settings. Our model has low hardware requirements as no specialised neural architectures are used and each base model can be independently trained in parallel. | 翻訳日:2023-09-12 22:12:26 公開日:2023-09-10 |
# 好奇性クロスエントロピー法によるサンプル効率実時間計画とコントラスト学習 Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method and Contrastive Learning ( http://arxiv.org/abs/2303.03787v2 ) ライセンス: Link先を確認 | Mostafa Kotb, Cornelius Weber, Stefan Wermter | (参考訳) 実時間計画を伴うモデルベース強化学習(MBRL)は、移動および操作制御タスクにおいて大きな可能性を示している。
しかし、CEM(Cross-Entropy Method)のような既存の計画手法は、複雑な高次元環境に対してうまくスケールしない。
これらの計画手法は、計画の地平線に対する累積的外因的な報酬を最大化することだけを目的としている。
さらに、観測のないコンパクトな潜伏空間内での計画は好奇心に基づく本質的な動機付けの使用を困難にしている。
CEMアルゴリズムの改良版であるCuriosity CEM (CCEM)を提案する。
提案手法は,計画地平線上の状態行動q値の総和を最大化し,これらのq値が将来の外因的および内因的報酬を推定する。
さらに,本モデルではコントラスト表現学習を用いて遅延表現を効率的に学習する。
DeepMind Control スイートによる画像ベース連続制御タスクの実験では、CCEM は以前の MBRL アルゴリズムよりも広いマージンでサンプリング効率が良く、最良のモデルレス RL 法と比較できる。 Model-based reinforcement learning (MBRL) with real-time planning has shown great potential in locomotion and manipulation control tasks. However, the existing planning methods, such as the Cross-Entropy Method (CEM), do not scale well to complex high-dimensional environments. One of the key reasons for underperformance is the lack of exploration, as these planning methods only aim to maximize the cumulative extrinsic reward over the planning horizon. Furthermore, planning inside the compact latent space in the absence of observations makes it challenging to use curiosity-based intrinsic motivation. We propose Curiosity CEM (CCEM), an improved version of the CEM algorithm for encouraging exploration via curiosity. Our proposed method maximizes the sum of state-action Q values over the planning horizon, in which these Q values estimate the future extrinsic and intrinsic reward, hence encouraging reaching novel observations. In addition, our model uses contrastive representation learning to efficiently learn latent representations. Experiments on image-based continuous control tasks from the DeepMind Control suite show that CCEM is by a large margin more sample-efficient than previous MBRL algorithms and compares favorably with the best model-free RL methods. | 翻訳日:2023-09-12 22:10:30 公開日:2023-09-10 |
# なぜ顔のディープフェイク検知器が故障するのか? Why Do Facial Deepfake Detectors Fail? ( http://arxiv.org/abs/2302.13156v2 ) ライセンス: Link先を確認 | Binh Le, Shahroz Tariq, Alsharif Abuadbba, Kristen Moore, Simon Woo | (参考訳) 近年のディープフェイク技術の急速な進歩により、ビデオ、画像、オーディオといった極めて現実的な偽メディアが作成できるようになった。
これらの資料は、偽装、誤情報、さらには国家の安全保障に対する脅威など、人間の認証に重大な課題をもたらす。
これらの急速な進歩に対応するために、いくつかのディープフェイク検出アルゴリズムが提案され、ディープフェイク作成者とディープフェイク検出装置との間の武器競争が進行中である。
しかし、これらの検出器はしばしば信頼できず、しばしばディープフェイクの検出に失敗する。
本研究は,(1)人工物の前処理パイプライン,(2)防衛モデルの構築において,新しい未確認深度サンプルの生成が考慮されていないことなど,深度データの検出において直面する課題を明らかにする。
私たちの研究は、この分野におけるさらなる研究と開発の必要性を浮き彫りにしています。 Recent rapid advancements in deepfake technology have allowed the creation of highly realistic fake media, such as video, image, and audio. These materials pose significant challenges to human authentication, such as impersonation, misinformation, or even a threat to national security. To keep pace with these rapid advancements, several deepfake detection algorithms have been proposed, leading to an ongoing arms race between deepfake creators and deepfake detectors. Nevertheless, these detectors are often unreliable and frequently fail to detect deepfakes. This study highlights the challenges they face in detecting deepfakes, including (1) the pre-processing pipeline of artifacts and (2) the fact that generators of new, unseen deepfake samples have not been considered when building the defense models. Our work sheds light on the need for further research and development in this field to create more robust and reliable detectors. | 翻訳日:2023-09-12 22:09:10 公開日:2023-09-10 |
# テキスト・画像拡散モデルのための識別クラストークン Discriminative Class Tokens for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.17155v3 ) ライセンス: Link先を確認 | Idan Schwartz, V\'esteinn Sn{\ae}bjarnarson, Hila Chefer, Ryan Cotterell, Serge Belongie, Lior Wolf, Sagie Benaim | (参考訳) 近年のテキスト・画像拡散モデルの進歩により、多様で高品質な画像が生成できるようになった。
印象的ではあるが、画像は微妙な細部を描写するに足りず、入力テキストの曖昧さによる誤りに悩まされることが多い。
これらの問題を緩和する一つの方法は、クラスラベルデータセット上で拡散モデルをトレーニングすることである。
このアプローチには2つの欠点があります
(i)教師付きデータセットは、テキストから画像へのモデルを訓練した大規模スクレイピングテキスト画像データセットに比べて一般的に小さく、生成された画像の品質や多様性に影響します。
(ii)入力は自由形式のテキストとは対照的にハードコードされたラベルであり、生成された画像の制御を制限する。
本研究では,事前学習された分類器からの識別信号による高精度化を図りつつ,自由形式テキストの表現電位を生かした非侵襲的微調整手法を提案する。
これは、テキスト間拡散モデルの追加入力トークンの埋め込みを反復的に修正し、分類器に従って生成された画像を所定のターゲットクラスに向けて操ることによって行われる。
本手法は,従来の微調整法と比較して高速で,クラス内画像の収集や雑音耐性分類器の再学習は不要である。
提案手法を広範囲に評価し,生成した画像が次の通りであることを示す。
(i)標準拡散モデルよりも正確で高品質である。
(ii)低リソース環境でのトレーニングデータ強化に使用できる。
(iii)案内分類器の訓練に用いるデータに関する情報を明らかにする。
コードは \url{https://github.com/idansc/discriminative_class_tokens} で入手できる。 Recent advances in text-to-image diffusion models have enabled the generation of diverse and high-quality images. While impressive, the images often fall short of depicting subtle details and are susceptible to errors due to ambiguity in the input text. One way of alleviating these issues is to train diffusion models on class-labeled datasets. This approach has two disadvantages: (i) supervised datasets are generally small compared to large-scale scraped text-image datasets on which text-to-image models are trained, affecting the quality and diversity of the generated images, or (ii) the input is a hard-coded label, as opposed to free-form text, limiting the control over the generated images. In this work, we propose a non-invasive fine-tuning technique that capitalizes on the expressive potential of free-form text while achieving high accuracy through discriminative signals from a pretrained classifier. This is done by iteratively modifying the embedding of an added input token of a text-to-image diffusion model, by steering generated images toward a given target class according to a classifier. Our method is fast compared to prior fine-tuning methods and does not require a collection of in-class images or retraining of a noise-tolerant classifier. We evaluate our method extensively, showing that the generated images are: (i) more accurate and of higher quality than standard diffusion models, (ii) can be used to augment training data in a low-resource setting, and (iii) reveal information about the data used to train the guiding classifier. The code is available at \url{https://github.com/idansc/discriminative_class_tokens}. | 翻訳日:2023-09-12 22:03:37 公開日:2023-09-10 |
# deepfake in the metaverse: バーチャルゲーム、ミーティング、オフィスのセキュリティへの影響 Deepfake in the Metaverse: Security Implications for Virtual Gaming, Meetings, and Offices ( http://arxiv.org/abs/2303.14612v2 ) ライセンス: Link先を確認 | Shahroz Tariq, Alsharif Abuadbba, Kristen Moore | (参考訳) metaverseは、没入型でインタラクティブな仮想世界を作る可能性から、さまざまな業界から大きな注目を集めている。
しかし、メタバースにおけるディープフェイクの統合は、特に偽造に関して深刻なセキュリティ上の影響をもたらす。
本稿では,ゲーム,オンライン会議,仮想オフィスなど,メタバースにおけるディープフェイクのセキュリティへの影響について検討する。
この論文は、ゲームシナリオにおけるディープフェイクの擬人化、メタバースにおけるオンラインミーティングの擬人化、メタバースにおける仮想オフィスの物理的認証の欠如、アタッカーによる偽人化の容易化などについて論じている。
これらのセキュリティ上の懸念の意義は、cia(secretity, integrity, and availability)トライアドに関連して議論されている。
この論文では、ダークバースやデジタルクローンといった関連する問題や、仮想世界のセキュリティ脅威に対処する規制やプライバシーに関する懸念についても検討している。 The metaverse has gained significant attention from various industries due to its potential to create a fully immersive and interactive virtual world. However, the integration of deepfakes in the metaverse brings serious security implications, particularly with regard to impersonation. This paper examines the security implications of deepfakes in the metaverse, specifically in the context of gaming, online meetings, and virtual offices. The paper discusses how deepfakes can be used to impersonate in gaming scenarios, how online meetings in the metaverse open the door for impersonation, and how virtual offices in the metaverse lack physical authentication, making it easier for attackers to impersonate someone. The implications of these security concerns are discussed in relation to the confidentiality, integrity, and availability (CIA) triad. The paper further explores related issues such as the darkverse, and digital cloning, as well as regulatory and privacy concerns associated with addressing security threats in the virtual world. | 翻訳日:2023-09-12 22:02:55 公開日:2023-09-10 |
# Text2Room:2次元テキスト・画像モデルからテクスチャ付き3Dメッシュを抽出する Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models ( http://arxiv.org/abs/2303.11989v2 ) ライセンス: Link先を確認 | Lukas H\"ollein, Ang Cao, Andrew Owens, Justin Johnson, Matthias Nie{\ss}ner | (参考訳) 入力としてテキストプロンプトから部屋規模のテクスチャ3Dメッシュを生成するText2Roomを提案する。
この目的のために,事前学習した2次元テキスト対画像モデルを用いて,ポーズの異なる画像のシーケンスを合成する。
これらの出力を一貫した3次元シーン表現に持ち上げるために,単眼深度推定とテキスト条件付きインペインティングモデルを組み合わせた。
このアプローチの核となる考え方は、各画像の内容がシームレスでテクスチャのついた3dメッシュに融合できるように、視点選択をカスタマイズすることです。
具体的には、シーンフレームを既存の幾何学と反復的に融合させてシームレスなメッシュを作成する継続的アライメント戦略を提案する。
テキストから1つのオブジェクトやズームアウトトラジェクトリを生成する既存の作業とは異なり、本手法は複数のオブジェクトと明示的な3D形状を持つ完全な3Dシーンを生成する。
本手法を質的・定量的な指標を用いて評価し,テキストのみを入力とし,部屋スケールの3次元形状を生成する最初の手法として実証した。 We present Text2Room, a method for generating room-scale textured 3D meshes from a given text prompt as input. To this end, we leverage pre-trained 2D text-to-image models to synthesize a sequence of images from different poses. In order to lift these outputs into a consistent 3D scene representation, we combine monocular depth estimation with a text-conditioned inpainting model. The core idea of our approach is a tailored viewpoint selection such that the content of each image can be fused into a seamless, textured 3D mesh. More specifically, we propose a continuous alignment strategy that iteratively fuses scene frames with the existing geometry to create a seamless mesh. Unlike existing works that focus on generating single objects or zoom-out trajectories from text, our method generates complete 3D scenes with multiple objects and explicit 3D geometry. We evaluate our approach using qualitative and quantitative metrics, demonstrating it as the first method to generate room-scale 3D geometry with compelling textures from only text as input. | 翻訳日:2023-09-12 22:01:52 公開日:2023-09-10 |
# 単眼映像からのリアルタイム3次元視覚知覚のためのクロス次元精密学習 Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception from Monocular Video ( http://arxiv.org/abs/2303.09248v2 ) ライセンス: Link先を確認 | Ziyang Hong, C. Patrick Yue | (参考訳) 本稿では,3次元シーンの幾何学的構造と意味的ラベルを共同で知覚する,新しいリアルタイム学習手法を提案する。
近年のリアルタイム3次元シーン再構築へのアプローチは,Trncated Signed Distance Function(TSDF)を直接回帰するボリュームスキームが主流となっている。
しかしながら、これらのボリューム的アプローチは、その再構築のグローバルなコヒーレンスに焦点を当てる傾向にあり、局所的な幾何学的詳細が欠如している。
そこで本研究では,2次元画像特徴量における潜在幾何学的事前知識を,鮮明な深度予測とアンカー付き特徴生成により活用し,TSDFボリュームにおける占有学習を洗練することを提案する。
また,このクロス次元特徴の精細化手法は,セマンティクスプリエントを利用することで,セマンティクスセグメンテーションタスクにも適用できることがわかった。
そこで我々は,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムで抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
実験の結果,本手法は複数のデータセット上での最先端の3次元知覚効率を実現し,本手法の工業的応用の可能性を示している。 We present a novel real-time capable learning method that jointly perceives a 3D scene's geometry structure and semantic labels. Recent approaches to real-time 3D scene reconstruction mostly adopt a volumetric scheme, where a Truncated Signed Distance Function (TSDF) is directly regressed. However, these volumetric approaches tend to focus on the global coherence of their reconstructions, which leads to a lack of local geometric detail. To overcome this issue, we propose to leverage the latent geometric prior knowledge in 2D image features by explicit depth prediction and anchored feature generation, to refine the occupancy learning in TSDF volume. Besides, we find that this cross-dimensional feature refinement methodology can also be adopted for the semantic segmentation task by utilizing semantic priors. Hence, we proposed an end-to-end cross-dimensional refinement neural network (CDRNet) to extract both 3D mesh and 3D semantic labeling in real time. The experiment results show that this method achieves a state-of-the-art 3D perception efficiency on multiple datasets, which indicates the great potential of our method for industrial applications. | 翻訳日:2023-09-12 22:01:09 公開日:2023-09-10 |
# 反復計画におけるグループユーティリティの最適化:戦略的・集団的アプローチ Optimizing Group Utility in Itinerary Planning: A Strategic and Crowd-Aware Approach ( http://arxiv.org/abs/2304.08495v4 ) ライセンス: Link先を確認 | Junhua Liu, Kwan Hui Lim, Kristin L. Wood, Menglin Li | (参考訳) イテナリーレコメンデーションは複雑なシーケンス予測問題であり、多くの実世界のアプリケーションがある。
このタスクは、複数のユーザーキューイング時間や群衆レベルの最適化、アトラクションの人気、キューイング時間、歩行時間、営業時間といった多くのパラメータを考慮するとさらに困難になる。
既存のソリューションは通常、一人称視点にフォーカスし、利己的なルーティング問題のような自然な群衆の振る舞いによって生じる現実世界の問題に対処できない。
本稿では,実環境におけるグループユーティリティを最適化するStrategic and Crowd-Aware Itinerary Recommendation (SCAIR)アルゴリズムを提案する。
経路推薦戦略をマルコフ決定プロセスとしてモデル化し,線形時間におけるリアルタイム計画と割り当てを可能にする状態符号化機構を提案する。
提案手法は,テーマパークのデータセットを用いて,様々な競合ベースラインに対する評価を行い,4つのテーマパークを横断する利己的なルーティング問題に対して,スカアがこれらのベースラインよりも優れていることを示す。 Itinerary recommendation is a complex sequence prediction problem with numerous real-world applications. This task becomes even more challenging when considering the optimization of multiple user queuing times and crowd levels, as well as numerous involved parameters, such as attraction popularity, queuing time, walking time, and operating hours. Existing solutions typically focus on single-person perspectives and fail to address real-world issues resulting from natural crowd behavior, like the Selfish Routing problem. In this paper, we introduce the Strategic and Crowd-Aware Itinerary Recommendation (SCAIR) algorithm, which optimizes group utility in real-world settings. We model the route recommendation strategy as a Markov Decision Process and propose a State Encoding mechanism that enables real-time planning and allocation in linear time. We evaluate our algorithm against various competitive and realistic baselines using a theme park dataset, demonstrating that SCAIR outperforms these baselines in addressing the Selfish Routing problem across four theme parks. | 翻訳日:2023-09-12 21:52:07 公開日:2023-09-10 |
# 量子コンピューティングにテンソルネットワーク法を統合するアンダーソン不純物解法 Anderson impurity solver integrating tensor network methods with quantum computing ( http://arxiv.org/abs/2304.06587v2 ) ライセンス: Link先を確認 | Francois Jamet, Connor Lenihan, Lachlan P. Lindoy, Abhishek Agarwal, Enrico Fontana, Baptiste Anselme Martin and Ivan Rungger | (参考訳) アンダーソンの不純物モデルの解法は典型的には2段階の過程を伴い、まずハミルトニアン基底状態を計算し、次にその力学特性を計算してグリーン関数を得る。
本稿では,古典的計算機を用いて第1ステップを実行してテンソルネットワーク基底状態と量子回路表現を取得し,第2ステップを量子コンピュータ上で実行してグリーン関数を得るハイブリッド古典量子アルゴリズムを提案する。
提案アルゴリズムは,従来のコンピュータ上での基底状態作成のためのテンソルネットワークの効率を生かし,量子プロセッサを活用して,従来のコンピュータでは難易度の高い時間進化の評価を行う。
我々は,SrVO3の量子計算エミュレータ上で20量子ビットを用いたアルゴリズムを,力学平均場理論におけるマルチオービタルアンダーソン不純物モデルを用いて実証した。
テンソルネットワークに基づく基底状態量子回路準備アルゴリズムは、我々の利用可能な計算資源で最大40キュービットまで実行することができるが、時間進化のための量子アルゴリズムの状態ベクトルエミュレーションは、そのような資源でアクセス可能なものを超えている。
テンソルネットワーク計算が基底状態エネルギーを正確に得ることができれば、量子回路上での基底状態波動関数の完全再現を必要とせず、正確なグリーン関数を与えることができることを示す。
このハイブリッドアプローチは、基底状態が古典的に計算できるが、動的性質ができない材料シミュレーションにおいて、量子上の優位性をもたらす可能性がある。 Solving the Anderson impurity model typically involves a two-step process, where one first calculates the ground state of the Hamiltonian, and then computes its dynamical properties to obtain the Green's function. Here we propose a hybrid classical/quantum algorithm where the first step is performed using a classical computer to obtain the tensor network ground state as well as its quantum circuit representation, and the second step is executed on the quantum computer to obtain the Green's function. Our algorithm exploits the efficiency of tensor networks for preparing ground states on classical computers, and takes advantage of quantum processors for the evaluation of the time evolution, which can become intractable on classical computers. We demonstrate the algorithm using 20 qubits on a quantum computing emulator for SrVO3 with a multi-orbital Anderson impurity model within the dynamical mean field theory. The tensor network based ground state quantum circuit preparation algorithm can also be performed for up to 40 qubits with our available computing resources, while the state vector emulation of the quantum algorithm for time evolution is beyond what is accessible with such resources. We show that, provided the tensor network calculation is able to accurately obtain the ground state energy, this scheme does not require a perfect reproduction of the ground state wave function on the quantum circuit to give an accurate Green's function. This hybrid approach may lead to quantum advantage in materials simulations where the ground state can be computed classically, but where the dynamical properties cannot. | 翻訳日:2023-09-12 21:50:23 公開日:2023-09-10 |
# 確率的時系列インプテーションへの応用による有理収束型schr\"odinger橋 Provably Convergent Schr\"odinger Bridge with Applications to Probabilistic Time Series Imputation ( http://arxiv.org/abs/2305.07247v4 ) ライセンス: Link先を確認 | Yu Chen and Wei Deng and Shikai Fang and Fengpei Li and Nicole Tianjiao Yang and Yikai Zhang and Kashif Rasul and Shandian Zhe and Anderson Schneider and Yuriy Nevmyvaka | (参考訳) Schr\"odinger bridge problem (SBP) は、スコアベース生成モデル (SGM) と比較して、生成モデルにおいて注目され、有望な可能性を示している。
SBPはエントロピー規則化された最適輸送問題と解釈され、他のすべての辺縁への射影を交互に行う。
しかし、実際には近似射影のみがアクセス可能であり、それらの収束はよく理解されていない。
このギャップを埋めるために、近似射影に基づくSchr\"odinger Bridgeアルゴリズムの第一収束解析を提案する。
実例として,観測データに条件付き欠落値を生成することにより,確率的時系列計算にSBPを適用した。
トランスポートコストの最適化は性能を向上し,提案手法は医療データと環境データにおいて最先端の成果を達成し,確率的時系列インプテーションにおける時間的・特徴的パターンを探索する利点を示す。 The Schr\"odinger bridge problem (SBP) is gaining increasing attention in generative modeling and showing promising potential even in comparison with the score-based generative models (SGMs). SBP can be interpreted as an entropy-regularized optimal transport problem, which conducts projections onto every other marginal alternatingly. However, in practice, only approximated projections are accessible and their convergence is not well understood. To fill this gap, we present a first convergence analysis of the Schr\"odinger bridge algorithm based on approximated projections. As for its practical applications, we apply SBP to probabilistic time series imputation by generating missing values conditioned on observed data. We show that optimizing the transport cost improves the performance and the proposed algorithm achieves the state-of-the-art result in healthcare and environmental data while exhibiting the advantage of exploring both temporal and feature patterns in probabilistic time series imputation. | 翻訳日:2023-09-12 21:43:17 公開日:2023-09-10 |
# 宇宙から何か分離する? Segment anything, from space? ( http://arxiv.org/abs/2304.13000v3 ) ライセンス: Link先を確認 | Simiao Ren, Francesco Luzi, Saad Lahrichi, Kaleb Kassaw, Leslie M. Collins, Kyle Bradbury, Jordan M. Malof | (参考訳) 近年,イメージセグメンテーションタスク用に開発された最初の基礎モデルが開発され,SAM (Segment Anything Model) と呼ばれる。
SAMは、1つ(またはそれ以上)のポイント、バウンディングボックス、マスクなどの安価な入力プロンプトに基づいて、入力画像にオブジェクトを分割することができる。
著者らは、SAMの画像分割精度を多数の視覚ベンチマークタスクで検証し、SAMは通常、目標タスクで訓練された視覚モデルと似ているか、あるいはそれ以上の認識精度を達成していることを示した。
セグメンテーションのためのSAMの印象的な一般化は、自然画像の研究に重要な意味を持つ。
本研究では,SAMの性能が画像上の問題にまで及んでいるかどうかを考察し,その開発に対するコミュニティの反応を導くのに役立てる。
SAMの性能を多様で広く研究されているベンチマークタスクのセットで検証する。
SAMはオーバヘッド画像によく当てはまるが、オーバヘッド画像の独特の特徴と、その共通のターゲットオブジェクトのため、いくつかのケースでは失敗する。
リモートセンシング画像に対するこれらのユニークな系統的障害事例について報告する。 Recently, the first foundation model developed specifically for image segmentation tasks was developed, termed the "Segment Anything Model" (SAM). SAM can segment objects in input imagery based on cheap input prompts, such as one (or more) points, a bounding box, or a mask. The authors examined the \textit{zero-shot} image segmentation accuracy of SAM on a large number of vision benchmark tasks and found that SAM usually achieved recognition accuracy similar to, or sometimes exceeding, vision models that had been trained on the target tasks. The impressive generalization of SAM for segmentation has major implications for vision researchers working on natural imagery. In this work, we examine whether SAM's performance extends to overhead imagery problems and help guide the community's response to its development. We examine SAM's performance on a set of diverse and widely studied benchmark tasks. We find that SAM does often generalize well to overhead imagery, although it fails in some cases due to the unique characteristics of overhead imagery and its common target objects. We report on these unique systematic failure cases for remote sensing imagery that may comprise useful future research for the community. | 翻訳日:2023-09-12 21:40:51 公開日:2023-09-10 |
# 大規模言語モデルは化学で何ができるか?
8つのタスクに関する包括的なベンチマーク What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks ( http://arxiv.org/abs/2305.18365v2 ) ライセンス: Link先を確認 | Taicheng Guo, Kehan Guo, Bozhao Nan, Zhenwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang | (参考訳) 自然言語処理タスクにおいて強力な能力を持つ大規模言語モデル(LLM)が登場し、科学、金融、ソフトウェア工学など様々な分野に適用されてきた。
しかし、LSMが化学分野を前進させる能力は未だ不明である。
本稿では, 最先端性能を追求する代わりに, 化学領域にまたがる幅広いタスクにおいて, LLMの能力を評価することを目的とする。
LLMの理解、推論、説明を含む3つの重要な化学関連機能を同定し、8つの化学タスクを含むベンチマークを確立する。
本分析は, 実用化学の文脈におけるllmの容量の広範な探索を容易にする, 広く認識されたデータセットを取り上げている。
5つのLCM(GPT-4, GPT-3.5, Davinci-003, Llama, Galactica)をゼロショットおよび少数ショットのインコンテクスト学習環境において, 慎重に選択した実演例と特別なプロンプトを用いて評価した。
我々は, GPT-4が他のモデルより優れており, LLMは8つの化学タスクにおいて異なる競合レベルを示すことを示した。
総合的なベンチマーク分析から得られた重要な知見に加えて、我々の研究は、現在のLLMの制限と、様々な化学タスクにおけるLLMのパフォーマンスに対する文脈内学習設定の影響に関する洞察を提供する。
この研究で使用されたコードとデータセットはhttps://github.com/ChemFoundationModels/ChemLLMBench.comで公開されている。 Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper, rather than pursuing state-of-the-art performance, we aim to evaluate capabilities of LLMs in a wide range of tasks across the chemistry domain. We identify three key chemistry-related capabilities including understanding, reasoning and explaining to explore in LLMs and establish a benchmark containing eight chemistry tasks. Our analysis draws on widely recognized datasets facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama and Galactica) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. Our investigation found that GPT-4 outperformed other models and LLMs exhibit different competitive levels in eight chemistry tasks. In addition to the key findings from the comprehensive benchmark analysis, our work provides insights into the limitation of current LLMs and the impact of in-context learning settings on LLMs' performance across various chemistry tasks. The code and datasets used in this study are available at https://github.com/ChemFoundationModels/ChemLLMBench. | 翻訳日:2023-09-12 21:32:05 公開日:2023-09-10 |
# ニューラルネットワークによるベイジアン数値積分 Bayesian Numerical Integration with Neural Networks ( http://arxiv.org/abs/2305.13248v2 ) ライセンス: Link先を確認 | Katharina Ott, Michael Tiemann, Philipp Hennig, Fran\c{c}ois-Xavier Briol | (参考訳) ベイズ確率的数値積分法は、積分に関する事前情報を符号化し、積分の推定に対する不確かさを定量化することができる。
しかし、このクラスで最も人気のあるアルゴリズムであるベイズ二次アルゴリズムはガウス過程モデルに基づいており、高い計算コストに関連している。
スケーラビリティを向上させるために,ベイジアン・スタインネットワークと呼ぶベイジアンニューラルネットワークに基づく代替手法を提案する。
鍵となる要素は、スタイン演算子に基づくニューラルネットワークアーキテクチャと、ラプラス近似に基づくベイズ後部の近似である。
このことは、人気のあるGenz関数ベンチマークの桁違いのスピードアップや、力学系のベイズ解析による問題、大規模風力発電所におけるエネルギー生産の予測につながっていることを示す。 Bayesian probabilistic numerical methods for numerical integration offer significant advantages over their non-Bayesian counterparts: they can encode prior information about the integrand, and can quantify uncertainty over estimates of an integral. However, the most popular algorithm in this class, Bayesian quadrature, is based on Gaussian process models and is therefore associated with a high computational cost. To improve scalability, we propose an alternative approach based on Bayesian neural networks which we call Bayesian Stein networks. The key ingredients are a neural network architecture based on Stein operators, and an approximation of the Bayesian posterior based on the Laplace approximation. We show that this leads to orders of magnitude speed-ups on the popular Genz functions benchmark, and on challenging problems arising in the Bayesian analysis of dynamical systems, and the prediction of energy production for a large-scale wind farm. | 翻訳日:2023-09-12 21:29:30 公開日:2023-09-10 |
# Google Mapsにおける超スケーラブルな逆強化学習 Massively Scalable Inverse Reinforcement Learning in Google Maps ( http://arxiv.org/abs/2305.11290v3 ) ライセンス: Link先を確認 | Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion | (参考訳) 人間の潜在性好みに対する最適化は、ルートレコメンデーションにおける大きな課題である。
従来の研究は、逆強化学習(IRL)に基づく一般的な技術を提供してきたが、数億の州や実証軌道で世界規模のルーティング問題に拡張されたアプローチは成功していない。
本稿では,主要な固有ベクトルに基づくグラフ圧縮,空間並列化,問題初期化を用いたIRLのスケーリング手法を提案する。
従来のアルゴリズムを再検討し,大規模に検討し,安価で決定論的なプランナーの使用と,高価かつ堅牢な確率的政策との間にはトレードオフが存在することを重要視する。
我々は、従来のIRLアルゴリズムの新たな一般化であるReceding Horizon Inverse Planning(RHIP)におけるこの知見を活用し、その計画地平線を介してパフォーマンストレードオフのきめ細かい制御を提供する。
我々の貢献は、世界のルート品質を16~24%向上させる政策と、私たちの知る限り、現在までの現実世界におけるIRLの最大の事例である。
ベンチマークの結果は、旅行時間を超えた要因が重要な役割を果たす、より持続可能な交通手段に対する重要な利点を示している。
結論として,キーコンポーネントのアブレーション研究を行い,代替固有値ソルバからの負の結果を示し,irl特有のバッチ戦略によるスケーラビリティ向上の機会を見出した。 Optimizing for humans' latent preferences remains a grand challenge in route recommendation. Prior research has provided increasingly general techniques based on inverse reinforcement learning (IRL), yet no approach has been successfully scaled to world-sized routing problems with hundreds of millions of states and demonstration trajectories. In this paper, we provide methods for scaling IRL using graph compression, spatial parallelization, and problem initialization based on dominant eigenvectors. We revisit classic algorithms and study them in a large-scale setting, and make the key observation that there exists a trade-off between the use of cheap, deterministic planners and expensive yet robust stochastic policies. We leverage this insight in Receding Horizon Inverse Planning (RHIP), a new generalization of classic IRL algorithms that provides fine-grained control over performance trade-offs via its planning horizon. Our contributions culminate in a policy that achieves a 16-24% improvement in global route quality, and to the best of our knowledge, represents the largest instance of IRL in a real-world setting to date. Benchmark results show critical benefits to more sustainable modes of transportation, where factors beyond journey time play a substantial role. We conclude by conducting an ablation study of key components, presenting negative results from alternative eigenvalue solvers, and identifying opportunities to further improve scalability via IRL-specific batching strategies. | 翻訳日:2023-09-12 21:29:15 公開日:2023-09-10 |
# 計量学習による航空機環境影響セグメンテーションの改善 Improved Aircraft Environmental Impact Segmentation via Metric Learning ( http://arxiv.org/abs/2306.13830v2 ) ライセンス: Link先を確認 | Zhenyu Gao, Dimitri N. Mavris | (参考訳) 航空機の環境影響の正確なモデリングは、負の航空環境影響を軽減するための運用手順と政策の設計に重要である。
航空機環境影響セグメンテーション(英語: aircraft environmental impact segmentation)は、航空機の特徴に基づいて同様の環境影響特性を持つ航空機を集合させるプロセスである。
このプラクティスは、航空機の騒音と性能モデルが不十分な多くの航空機をモデル化し、航空環境への影響をよりよく理解するのに役立つ。
航空機間の類似度を測定することで、距離メートル法は航空機のセグメンテーションの核となる。
航空機のセグメンテーションの伝統的な方法はプレーン距離メトリクスを使用し、教師なしのクラスタリングプロセスで全ての特徴に等しい重みを割り当てる。
本研究では,航空機の燃料燃焼,排出,騒音に関する弱教師付きメトリック学習と部分情報を用いて,航空機の環境影響分節化のための重み付け距離メトリクスを学習する。
本研究は, 航空機の環境影響をよりよく反映させるため, 距離測定値の調整により, 航空機のセグメンテーションの精度を向上できることを示す。
計量学習アプローチは、航空における同様のデータ駆動分析研究を洗練させるのに役立つ。 Accurate modeling of aircraft environmental impact is pivotal to the design of operational procedures and policies to mitigate negative aviation environmental impact. Aircraft environmental impact segmentation is a process which clusters aircraft types that have similar environmental impact characteristics based on a set of aircraft features. This practice helps model a large population of aircraft types with insufficient aircraft noise and performance models and contributes to better understanding of aviation environmental impact. Through measuring the similarity between aircraft types, distance metric is the kernel of aircraft segmentation. Traditional ways of aircraft segmentation use plain distance metrics and assign equal weight to all features in an unsupervised clustering process. In this work, we utilize weakly-supervised metric learning and partial information on aircraft fuel burn, emissions, and noise to learn weighted distance metrics for aircraft environmental impact segmentation. We show in a comprehensive case study that the tailored distance metrics can indeed make aircraft segmentation better reflect the actual environmental impact of aircraft. The metric learning approach can help refine a number of similar data-driven analytical studies in aviation. | 翻訳日:2023-09-12 19:37:15 公開日:2023-09-10 |
# QNNRepair: 量子ニューラルネットワークの修復 QNNRepair: Quantized Neural Network Repair ( http://arxiv.org/abs/2306.13793v3 ) ライセンス: Link先を確認 | Xidan Song, Youcheng Sun, Mustafa A. Mustafa, and Lucas C. Cordeiro | (参考訳) 本稿では,量子化ニューラルネットワーク (QNN) の修復手法であるQNNRepairを提案する。
QNNRepairは、量子化後のニューラルネットワークモデルの精度向上を目的としている。
完全な精度と重み付けのニューラルネットワークと、合格テストと失敗テストの修復データセットを受け入れる。
はじめに、QNNRepairは、ニューラルネットワーク量子化時にパフォーマンス劣化を引き起こすニューロンを特定するために、ソフトウェア障害ローカライズ手法を適用した。
そして、修復問題をニューロン重みパラメータを解く線形計画問題に定式化し、合格テストにおける性能を損なうことなく、故障テストにおけるqnnの性能を補正する。
我々は、高解像度画像を含む一般的なデータセット上で、MobileNetV2、ResNet、VGGNetなどの広く使われているニューラルネットワークアーキテクチャを用いて、QNNRepairを評価する。
また,QNNRepairと最先端データ自由量子化手法SQuantを比較した。
実験の結果,QNNRepairは,ほとんどの場合において量子化モデルの性能向上に有効であることがわかった。
修復されたモデルは、独立した検証セット、特にImageNetデータセットにおいて、SQuantよりも24%高い精度を持つ。 We present QNNRepair, the first method in the literature for repairing quantized neural networks (QNNs). QNNRepair aims to improve the accuracy of a neural network model after quantization. It accepts the full-precision and weight-quantized neural networks and a repair dataset of passing and failing tests. At first, QNNRepair applies a software fault localization method to identify the neurons that cause performance degradation during neural network quantization. Then, it formulates the repair problem into a linear programming problem of solving neuron weights parameters, which corrects the QNN's performance on failing tests while not compromising its performance on passing tests. We evaluate QNNRepair with widely used neural network architectures such as MobileNetV2, ResNet, and VGGNet on popular datasets, including high-resolution images. We also compare QNNRepair with the state-of-the-art data-free quantization method SQuant. According to the experiment results, we conclude that QNNRepair is effective in improving the quantized model's performance in most cases. Its repaired models have 24% higher accuracy than SQuant's in the independent validation set, especially for the ImageNet dataset. | 翻訳日:2023-09-12 19:36:55 公開日:2023-09-10 |
# CamChoice: 複数の選択質問と候補応答分布のコーパス CamChoice: A Corpus of Multiple Choice Questions and Candidate Response Distributions ( http://arxiv.org/abs/2306.13047v2 ) ライセンス: Link先を確認 | Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F. Gales | (参考訳) 複数の選択試験が様々な分野やタスクの候補者を評価するために広く使われている。
質問の品質を低下させるため、新しく提案された質問は、実世界の試験に配備される前に、テスト前の評価段階を通過することが多い。
現在、この評価プロセスは手動で集中しており、質問開発サイクルの遅延につながる可能性がある。
このプロセスの自動化による合理化は効率を大幅に向上させるが、十分な事前テスト分析情報を備えたデータセットが現在不足している。
本稿では,異なる対象レベルの質問を複数選択するデータセットであるCamChoiceを紹介し,その候補選択分布について述べる。
候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。
さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。
今後の研究のためにデータを公開します。 Multiple choice exams are widely used to assess candidates across a diverse range of domains and tasks. To moderate question quality, newly proposed questions often pass through pre-test evaluation stages before being deployed into real-world exams. Currently, this evaluation process is manually intensive, which can lead to time lags in the question development cycle. Streamlining this process via automation can significantly enhance efficiency, however, there's a current lack of datasets with adequate pre-test analysis information. In this paper we introduce CamChoice; a multiple-choice comprehension dataset of questions at different target levels, with corresponding candidate selection distributions. We introduce the task of candidate distribution matching, propose several evaluation metrics for the task, and demonstrate that automatic systems trained on RACE++ can be leveraged as baselines for our task. We further demonstrate that these automatic systems can be used for practical pre-test evaluation tasks such as detecting underperforming distractors, where our detection systems can automatically identify poor distractors that few candidates select. We release the data publicly for future research. | 翻訳日:2023-09-12 19:36:19 公開日:2023-09-10 |
# 精神疲労モニタリングのためのセンサとシステム--体系的レビュー Sensors and Systems for Monitoring Mental Fatigue: A systematic review ( http://arxiv.org/abs/2307.01666v2 ) ライセンス: Link先を確認 | Prabin Sharma, Joanna C. Justus, Megha Thapa, Govinda R. Poudel | (参考訳) 精神疲労は、自動車事故、医療ミス、職場での生産性の低下、およびeラーニング環境における学生の離職の主な原因である。
精神的な疲労を確実に追跡できるセンサーやシステムの開発は、事故を防止し、エラーを低減し、職場の生産性を向上させる。
本稿では,心的疲労の理論モデルに関する批判的概要,センサ技術の鍵となる説明,およびバイオセンサーを用いた人間の心的疲労追跡システムを用いた最近の研究の体系的レビューについて述べる。
ヒトの精神疲労の検出と追跡に焦点をあてた最近の文献を体系的に調査・レビューした。
調査の結果、57の研究(n=1082)が行われ、その大半は心的疲労を追跡するために脳波(eeg)ベースのセンサーを用いた。
脳波センサは疲労検出に適度から良好な感度を提供することがわかった。
特に,高濃度脳波センサを用いた心的疲労検出の漸進的効果は認められなかった。
この結果を踏まえて,ウェアラブル脳波と環境センサの統合について,実世界のモニタリングを実現するための重要な議論を行う。
半自律型・自律型産業におけるウェアラブルセンサと疲労監視システムの普及に向けての技術の進歩と適応に必要な今後の課題について検討する。 Mental fatigue is a leading cause of motor vehicle accidents, medical errors, loss of workplace productivity, and student disengagements in e-learning environment. Development of sensors and systems that can reliably track mental fatigue can prevent accidents, reduce errors, and help increase workplace productivity. This review provides a critical summary of theoretical models of mental fatigue, a description of key enabling sensor technologies, and a systematic review of recent studies using biosensor-based systems for tracking mental fatigue in humans. We conducted a systematic search and review of recent literature which focused on detection and tracking of mental fatigue in humans. The search yielded 57 studies (N=1082), majority of which used electroencephalography (EEG) based sensors for tracking mental fatigue. We found that EEG-based sensors can provide a moderate to good sensitivity for fatigue detection. Notably, we found no incremental benefit of using high-density EEG sensors for application in mental fatigue detection. Given the findings, we provide a critical discussion on the integration of wearable EEG and ambient sensors in the context of achieving real-world monitoring. Future work required to advance and adapt the technologies toward widespread deployment of wearable sensors and systems for fatigue monitoring in semi-autonomous and autonomous industries is examined. | 翻訳日:2023-09-12 19:27:48 公開日:2023-09-10 |
# 計測専用量子回路における位相遷移と高速スクランブル位相の証拠 Phase transition and evidence of fast-scrambling phase in measurement-only quantum circuit ( http://arxiv.org/abs/2307.07170v2 ) ライセンス: Link先を確認 | Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose | (参考訳) 情報スクランブルは、現在様々な研究分野において最も重要なトピックの1つである。
測定専用回路(MoC)は、射影測定の種類と相互の反共性度に応じて、特定の情報スクランブルダイナミックスを示す。
MoCsにおける射影測定の空間範囲は、回路力学に大きな影響を及ぼす。
本研究では,長距離MOCを紹介し,その力学に興味深い挙動を示す。
特に、長距離測定は、長距離 MoC に特有の測定の反可換的フラストレーションから生じる、単位時間進化のない MoC の体積-法則位相を誘導することができる。
この現象は、2体測定のみからなるmocにおいても起こり、絡み合い相転移を伴う。
重要なことに、我々の数字は、MoCsが高速スクランブラになりうる証拠を見つける。
測定値間の高い反可換性の相互作用とその長距離特性は、線形光円錐拡散を超えて系全体の高速な絡み合い成長をもたらす。 Information scrambling is nowadays one of the most important topics in various fields of research. Measurement-only circuit (MoC) exhibits specific information scrambling dynamics, depending on the types of projective measurements and their mutual anti-commutativity. The spatial range of the projective measurements in MoCs gives significant influences on circuit dynamics. In this work, we introduce and study long-range MoCs, which exhibit an interesting behavior in their dynamics. In particular, the long-range measurements can induce volume-law phases in MoCs without unitary time evolution, which come from anti-commutative frustration of measurements specific to the long-range MoCs. This phenomenon occurs even in MoCs composed of solely two-body measurements, and it accompanies an entanglement phase transition. Crucially, our numerics find evidences that MoCs can be a fast scrambler. Interplay of high anti-commutativity among measurements and their long-range properties generates fast entanglement growth in the whole system beyond linear-light-cone spreading. | 翻訳日:2023-09-12 19:15:13 公開日:2023-09-10 |
# 心電図信号を用いた血行動態推定のための深部メトリック学習 Deep Metric Learning for the Hemodynamics Inference with Electrocardiogram Signals ( http://arxiv.org/abs/2308.04650v2 ) ライセンス: Link先を確認 | Hyewon Jeong, Collin M. Stultz, Marzyeh Ghassemi | (参考訳) 心不全は世界中の何百万人もの人々に影響を与え、生活の質や死亡率に大きな影響を与えている。
心不全患者の診断・治療における心圧の客観的評価は重要な方法である。
心臓カテーテル化は中心血行動態圧を推定するための金の基準であるが、本態性リスクを伴い、一部の患者にとって潜在的に危険な処置である。
心電図(ECG)のような非侵襲的な信号を活用するアプローチは、患者と外来の両方で心臓圧の定期的な推定を可能にすることを約束する。
心内圧(例えば、平均肺毛細血管圧(mPCWP))を教師付きで推定するために訓練された以前のモデルは、優れた識別能力を示したが、心不全コホートからのラベル付きデータセットに限られていた。
この問題に対処し、堅牢な表現を構築するために、ディープ・メトリック・ラーニング(DML)を適用し、限られたラベルを持つモデルの性能を向上させるための距離ベースマイニングによる新しい自己教師付きDMLを提案する。
我々は,自己教師付きコントラストベースラインと比較して高いmpcwpの分類を改善した自己教師付きdmlモデルを事前学習するために,総圧ラベルを伴わない540万以上の心電図を含むデータセットを用いた。
さらに,8,172mPCWPラベルを持つECGを用いた教師付きDMLモデルでは,教師付きベースラインと比較して,mPCWP回帰タスクの性能が有意に向上した。
さらに,DMLは,患者サブグループがデータセットに不足している場合でも,患者サブグループ間でパフォーマンスのよいモデルを生成することを示唆している。
私たちのコードはhttps://github.com/mandiehyewon/ssldmlで利用可能です。 Heart failure is a debilitating condition that affects millions of people worldwide and has a significant impact on their quality of life and mortality rates. An objective assessment of cardiac pressures remains an important method for the diagnosis and treatment prognostication for patients with heart failure. Although cardiac catheterization is the gold standard for estimating central hemodynamic pressures, it is an invasive procedure that carries inherent risks, making it a potentially dangerous procedure for some patients. Approaches that leverage non-invasive signals - such as electrocardiogram (ECG) - have the promise to make the routine estimation of cardiac pressures feasible in both inpatient and outpatient settings. Prior models trained to estimate intracardiac pressures (e.g., mean pulmonary capillary wedge pressure (mPCWP)) in a supervised fashion have shown good discriminatory ability but have been limited to the labeled dataset from the heart failure cohort. To address this issue and build a robust representation, we apply deep metric learning (DML) and propose a novel self-supervised DML with distance-based mining that improves the performance of a model with limited labels. We use a dataset that contains over 5.4 million ECGs without concomitant central pressure labels to pre-train a self-supervised DML model which showed improved classification of elevated mPCWP compared to self-supervised contrastive baselines. Additionally, the supervised DML model that uses ECGs with access to 8,172 mPCWP labels demonstrated significantly better performance on the mPCWP regression task compared to the supervised baseline. Moreover, our data suggest that DML yields models that are performant across patient subgroups, even when some patient subgroups are under-represented in the dataset. Our code is available at https://github.com/mandiehyewon/ssldml | 翻訳日:2023-09-12 19:10:07 公開日:2023-09-10 |
# Fact-Checkingによる生成AIの機械化 - オントロジー駆動型生物グラフによるヒト疾患と遺伝子リンクの検証 Challenging the Machinery of Generative AI with Fact-Checking: Ontology-Driven Biological Graphs for Verifying Human Disease-Gene Links ( http://arxiv.org/abs/2308.03929v2 ) ライセンス: Link先を確認 | Ahmed Abdeen Hamed and Byung Suk Lee and Alessandro Crimi and Magdalena M. Misiak | (参考訳) 方法:我々はChatGPTの関連エンティティの系統的尋問を可能にする生物学的ネットワークアプローチを採用した。
特に,約20万のPubMed抽象グラフから構築した生物グラフとChatGPT-3.5ターボモデルを用いて生成したデータセットから構築した生物グラフを比較する,オントロジー駆動の事実チェックアルゴリズムを設計した。
ノードは、テキスト中に発生する生物学的実体(遺伝子と疾患)を指す。
エッジは、同じ文書で言及されている2つのエンティティの共起関係を表し、これら2つのエンティティ間の近接距離によって重み付けられる。
本研究は,「クローズドワールド仮定」を前提として,文献データセットのみを用いて事実確認を行う。
結果:1000 `simulated' 記事のChatGPTデータセットからランダムに選択された250レコードの10サンプルにおいて,ファクトチェックリンク精度は70%から86%であったが,残りのリンクは未検証のままであった。
クローズドワールドの仮定を考えると、事実チェックの精度は重要である。
文献グラフのエッジとChatGPTグラフとの近接距離を測定・比較したところ,ChatGPT距離は90~153文字距離よりも有意に短かった。
対照的に、文献で同定された生体の近接距離は、236から765文字の距離であった。
このパターンは10サンプルの生物学的実体間のすべての関係に当てはまる。
結論: 本研究は, ChatGPT 生成テキストに見られる疾患遺伝子関係の集合的事実検査において, 合理的に高い精度を示した。
すべてのサンプルの短い近接距離の驚くほど一貫したパターンは、今日の文献で私たちが持つ生物学的知識に光り輝くフィードバックを与えてくれる。 Methods: we adopted a biological networks approach that enables the systematic interrogation of ChatGPT's linked entities. In particular, we designed an ontology-driven fact-checking algorithm that compares biological graphs constructed from approximately 200,000 PubMed abstracts with counterparts constructed from a dataset generated using the ChatGPT-3.5 Turbo model. The nodes refer to biological entities (genes and diseases) that occur in the text. The edges represent the co-occurrence relationships of two entities mentioned in the same document, weighted by the proximity distance between these two entities. This research assumes a ``closed-world assumption'', meaning that fact-checking is performed only using the literature dataset as our ground truth. Results: in ten samples of 250 randomly selected records from the ChatGPT dataset of 1000 ``simulated'' articles , the fact-checking link accuracy ranged from 70% to 86%, while the remainder of the links remained unverified. Given the closed world assumption, the fact-checking precision is significant. When measuring and comparing the proximity distances of the edges of literature graphs against ChatGPT graphs we found that the ChatGPT distances were significantly shorter (ranging from 90 to 153) character distance. In contrast, the proximity distance of biological entities identified in the literature ranged from 236 to 765 character distance. This pattern held true for all the relationships among biological entities in the ten samples. Conclusion: this study demonstrated a reasonably high percentage accuracy of aggregate fact-checking of disease-gene relationships found in ChatGPT-generated texts. The strikingly consistent pattern of short proximity distances across all samples offers an illuminating feedback to the biological knowledge we possess in the literature today. | 翻訳日:2023-09-12 19:09:21 公開日:2023-09-10 |
# E-CLIP: CLIPによるラベル効率の高いイベントベースのオープンワールド理解を目指して E-CLIP: Towards Label-efficient Event-based Open-world Understanding by CLIP ( http://arxiv.org/abs/2308.03135v2 ) ライセンス: Link先を確認 | Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang | (参考訳) CLIP(Contrasting Language-image relateding)は近年,2次元画像認識タスクにおいて,オープンワールドと少数ショットのパフォーマンスを約束している。
しかし、CLIPの新たなイベントカメラデータへの転送能力はまだ未調査のままである。
特に、画像テキストデータとのモダリティギャップと大規模データセットの欠如のため、この目標達成は自明ではなく、重要な研究革新を必要とする。
本稿では、大規模イベントベースデータセットの欠如を補うために、イベントベース認識のためのCLIPの可能性を明らかにする、新しく効果的なフレームワークであるE-CLIPを提案する。
私たちの仕事は2つの重要な課題に対処します
1)クリップのビジュアルエンコーダをイベントデータに一般化する方法,例えばスパーシティや時間分解能の高いイベントのユニークな特性を十分に活用する。
2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。
この目的のために,まずイベントエンコーダを導入し,イベントからの時間情報を微妙にモデル化し,同時にイベントプロンプトを生成し,モダリティブリッジングを促進する。
次に、コンテンツプロンプトを生成し、ハイブリッドテキストプロンプトを利用するテキストエンコーダを設計し、多様なデータセットにまたがるE-CLIPの一般化能力を向上する。
提案するイベントエンコーダ,テキストエンコーダ,および原画像エンコーダにより,新しい階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関性を最適化し,3つのモード間の効率的な知識伝達を実現する。
我々は2つの認識ベンチマークで広範な実験を行い、その結果、我々のE-CLIPは、N-Caltechデータセットでそれぞれ3.94%と+4.62%という大きなマージンで既存の手法より優れていることを示した。
さらに,E-CLIPはテキストクエリと画像クエリの両方を用いてイベント検索タスクに柔軟に拡張でき,高い性能を示すことができる。 Contrasting Language-image pertaining (CLIP) has recently shown promising open-world and few-shot performance on 2D image-based recognition tasks. However, the transferred capability of CLIP to the novel event camera data still remains under-explored. In particular, due to the modality gap with the image-text data and the lack of large-scale datasets, achieving this goal is non-trivial and thus requires significant research innovation. In this paper, we propose E-CLIP, a novel and effective framework that unleashes the potential of CLIP for event-based recognition to compensate for the lack of large-scale event-based datasets. Our work addresses two crucial challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. To this end, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile generates event prompts to promote the modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance the E-CLIP's generalization ability across diverse datasets. With the proposed event encoder, text encoder, and original image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We conduct extensive experiments on two recognition benchmarks, and the results demonstrate that our E-CLIP outperforms existing methods by a large margin of +3.94% and +4.62% on the N-Caltech dataset, respectively, in both fine-tuning and few-shot settings. Moreover, our E-CLIP can be flexibly extended to the event retrieval task using both text or image queries, showing plausible performance. | 翻訳日:2023-09-12 19:08:50 公開日:2023-09-10 |
# 低光画像強調のための自己参照深部適応曲線推定 Self-Reference Deep Adaptive Curve Estimation for Low-Light Image Enhancement ( http://arxiv.org/abs/2308.08197v4 ) ライセンス: Link先を確認 | Jianyu Wen, Chenhao Wu, Tong Zhang, Yixuan Yu, Piotr Swierczynski | (参考訳) 本稿では,自己参照深度適応曲線推定(Self-DACE)と呼ばれる2段階の低照度画像強調手法を提案する。
第1段階では,直感的,軽量,高速,教師なしの輝度強調アルゴリズムを提案する。
このアルゴリズムは、画像の輝度を局所的に増やすために使用できる新しい低光度強調曲線に基づいている。
また,自然画像の色,構造,忠実度を保存するために,物理モデルを単純化した新たな損失関数を提案する。
バニラCNNを用いて各画素を局所的な画像構造を保ちながら、AAC(Adaptive Adjustment Curves)の深部をマッピングする。
第2に,暗黒の潜在雑音を除去すべく,対応する消音方式を導入する。
暗黒環境でのノイズを概ねモデル化し,第1段階以降のノイズを推定および除去するためにDenoising-Netをデプロイする。
探索的定性的および定量的分析により,本手法は複数の実世界のデータセット上で,既存の最先端アルゴリズムよりも優れていることが示された。 In this paper, we propose a 2-stage low-light image enhancement method called Self-Reference Deep Adaptive Curve Estimation (Self-DACE). In the first stage, we present an intuitive, lightweight, fast, and unsupervised luminance enhancement algorithm. The algorithm is based on a novel low-light enhancement curve that can be used to locally boost image brightness. We also propose a new loss function with a simplified physical model designed to preserve natural images' color, structure, and fidelity. We use a vanilla CNN to map each pixel through deep Adaptive Adjustment Curves (AAC) while preserving the local image structure. Secondly, we introduce the corresponding denoising scheme to remove the latent noise in the darkness. We approximately model the noise in the dark and deploy a Denoising-Net to estimate and remove the noise after the first stage. Exhaustive qualitative and quantitative analysis shows that our method outperforms existing state-of-the-art algorithms on multiple real-world datasets. | 翻訳日:2023-09-12 18:57:47 公開日:2023-09-10 |
# PokerKit: 細粒度多変数ポーカーゲームシミュレーションのための総合Pythonライブラリ PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations ( http://arxiv.org/abs/2308.07327v2 ) ライセンス: Link先を確認 | Juho Kim | (参考訳) PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。
対照的に、ポーカーキットはポーカーの多種多様なバリエーションをサポートし、ユーザーが独自のゲームを定義するための柔軟なアーキテクチャを提供する。
本稿では,ポーカーキットの設計と実装について詳述する。ポーカーキットは,直感的なプログラムapi,多変量ゲームサポート,さまざまな手のタイプにわたる統一的なハンド評価スイートなどである。
PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。
PokerKitの信頼性は静的型チェック、広範なドクテスト、ユニットテストを通じて確立され、99%のコードカバレッジを達成した。
PokerKitの導入は、コンピュータポーカーの分野への重要な貢献であり、様々なポーカーゲームのための将来の研究と高度なAI開発を促進する。
ソースコードはhttps://github.com/uoftcprg/pokerkitで入手できる。 PokerKit is an open-source Python library designed to overcome the restrictions of existing poker game simulation and hand evaluation tools, which typically support only a handful of poker variants and lack flexibility in game state control. In contrast, PokerKit significantly expands this scope by supporting an extensive array of poker variants and it provides a flexible architecture for users to define their custom games. This paper details the design and implementation of PokerKit, including its intuitive programmatic API, multi-variant game support, and a unified hand evaluation suite across different hand types. The flexibility of PokerKit allows for applications in diverse areas, such as poker AI development, tool creation, and online poker casino implementation. PokerKit's reliability has been established through static type checking, extensive doctests, and unit tests, achieving 99% code coverage. The introduction of PokerKit represents a significant contribution to the field of computer poker, fostering future research and advanced AI development for a wide variety of poker games. The source code is available at https://github.com/uoftcprg/pokerkit | 翻訳日:2023-09-12 18:56:29 公開日:2023-09-10 |
# 多段VAEによる分子特性の客観的向上 Objective-Agnostic Enhancement of Molecule Properties via Multi-Stage VAE ( http://arxiv.org/abs/2308.13066v2 ) ライセンス: Link先を確認 | Chenghui Zhou, Barnabas Poczos | (参考訳) 変異オートエンコーダ(VAE)は医薬品発見の一般的な方法であり、その性能を改善するために様々なアーキテクチャやパイプラインが提案されている。
しかし,高次元空間に埋め込まれた低次元多様体(Dai and Wipf, 2019)上にデータを埋め込んだ場合,VAE法は粗悪な多様体回復に悩まされることが知られている。
薬物発見におけるその影響は、幾らか未発見である。
本稿では,合成データセット上の多様体の回復を改善する多段階的VAEアプローチを創薬分野に適用することを検討する。
我々は,chemblデータセットを用いた多段階vae手法を実験的に評価し,その特性予測器をトレーニングパイプラインに組み込むことなく,既存の手法から実質的に生成分子の性質統計を改善する能力を示す。
我々はさらに、異なるタンパク質をターゲットとした2つのキュレートされた、はるかに小さな分子データセットでモデルを微調整する。
実験の結果, 多段階のVAEが生成する活性分子数は, 1段階の等価分子に比べて増加した。
これら2つの課題のそれぞれに対して,学習対象の指標を直接学習対象に組み込むための学習特性予測器を用いた手法が基本となる。 Variational autoencoder (VAE) is a popular method for drug discovery and various architectures and pipelines have been proposed to improve its performance. However, VAE approaches are known to suffer from poor manifold recovery when the data lie on a low-dimensional manifold embedded in a higher dimensional ambient space [Dai and Wipf, 2019]. The consequences of it in drug discovery are somewhat under-explored. In this paper, we explore applying a multi-stage VAE approach, that can improve manifold recovery on a synthetic dataset, to the field of drug discovery. We experimentally evaluate our multi-stage VAE approach using the ChEMBL dataset and demonstrate its ability to improve the property statistics of generated molecules substantially from pre-existing methods without incorporating property predictors into the training pipeline. We further fine-tune our models on two curated and much smaller molecule datasets that target different proteins. Our experiments show an increase in the number of active molecules generated by the multi-stage VAE in comparison to their one-stage equivalent. For each of the two tasks, our baselines include methods that use learned property predictors to incorporate target metrics directly into the training objective and we discuss complications that arise with this methodology. | 翻訳日:2023-09-12 18:50:21 公開日:2023-09-10 |
# 超強光子-光子結合 Ultrastrong photon-photon coupling ( http://arxiv.org/abs/2308.12427v2 ) ライセンス: Link先を確認 | Fuyang Tay, Ali Mojibpour, Stephen Sanders, Shuang Liang, Hongjing Xu, Geoff C. Gardner, Andrey Baydin, Michael J. Manfra, Alessandro Alabastri, David Hagenm\"uller, Junichiro Kono | (参考訳) 最近の研究では、物質はフォトニックキャビティ内の量子真空場と非常に強く結合し、有限個の光子を含む非古典的基底状態を生成することが示されている。
本稿では,超強結合光子を含む多モードフォトニックキャビティにおける新しい物質-真空ハイブリッドについて述べる。
この一意な光子-光子カップリングは、3次元テラヘルツフォトニック結晶キャビティにおいて実現され、2つの隣接キャビティモードと2次元電子ガスのサイクロトロン共鳴とを混合し、モード間周波数を超える結合強度を持つ。
我々の顕微鏡理論は、光子-光子-超強結合の鍵となる手段として、モードプロファイルの空間的重なりが強調され、実験観察の健全な特徴をうまく説明できた。
本研究は,光子-光子相関を利用した真空吸着物質の物理と真空量子技術開発のためのガイドラインを提供する。 Recent studies have shown that matter can ultrastrongly couple with the quantum vacuum field inside a photonic cavity, producing a nonclassical ground state that contains a finite number of photons. Here, we present a novel matter-vacuum hybrid in a multimode photonic cavity whose ground state contains ultrastrongly coupled photons. This unique photon-photon coupling was realized in a three-dimensional terahertz photonic-crystal cavity, where two adjacent cavity modes mixed together through simultaneous coupling with the cyclotron resonance of a two-dimensional electron gas with a coupling strength exceeding the intermode frequency. Our microscopic theory successfully explains the salient features of our experimental observations, highlighting the spatial overlap of mode profiles as a key enabler of photon-photon ultrastrong coupling. Our findings provide guidelines for harnessing photon-photon correlations for furthering the physics of vacuum-dressed matter as well as for developing vacuum-enabled quantum technology. | 翻訳日:2023-09-12 18:49:17 公開日:2023-09-10 |
# 量子多体スカー状態の非線形応答におけるファントムエネルギー Phantom energy in the nonlinear response of a quantum many-body scar state ( http://arxiv.org/abs/2308.11615v2 ) ライセンス: Link先を確認 | Kangning Yang, Yicheng Zhang, Kuan-Yu Li, Kuan-Yu Lin, Sarang Gopalakrishnan, Marcos Rigol, Benjamin L. Lev | (参考訳) 量子多体傷は高エネルギーに存在する非熱状態として注目される。
ここでは、魅力的な相互作用を持つジスプロシウムガスを用いて、その特性を維持しながら強い非線形状態に駆動されるほど安定な傷痕状態を生成する。
非線形多体現象を創発的に発見し、魅力的な相互作用を反発的相互作用に効果的に変換する。
我々は, 収縮電位を加熱した後, 運動エネルギーと総エネルギーがどのように進化するかを測定する。
素の相互作用は魅力的であるが、低エネルギーの自由度は互いに反発するように進化し、気体が圧縮されると運動エネルギーはパラドックス的に減少する。
ファントム' エネルギーの不足は、一般化された流体力学計算に対する実験結果のベンチマークによって定量化される。
運動エネルギーの不足が非常に高モメンタムモードで保存されていることを示す。 Quantum many-body scars are notable as nonthermal states that exist at high energies. Here, we use attractively interacting dysprosium gases to create scar states that are stable enough be driven into a strongly nonlinear regime while retaining their character. We uncover an emergent nonlinear many-body phenomenon, the effective transmutation of attractive interactions into repulsive interactions. We measure how the kinetic and total energies evolve after quenching the confining potential. Although the bare interactions are attractive, the low-energy degrees of freedom evolve as if they repel each other: Thus, their kinetic energy paradoxically decreases as the gas is compressed. The missing ``phantom'' energy is quantified by benchmarking our experimental results against generalized hydrodynamics calculations. We present evidence that the missing kinetic energy is stored in very high-momentum modes. | 翻訳日:2023-09-12 18:47:39 公開日:2023-09-10 |
# HopPG:不均一な知識を問うマルチホップ質問に対する自己判断型プログラム生成 HopPG: Self-Iterative Program Generation for Multi-Hop Question Answering over Heterogeneous Knowledge ( http://arxiv.org/abs/2308.11257v2 ) ライセンス: Link先を確認 | Yingyao Wang, Yongwei Zhou, Chaoqun Duan, Junwei Bao, Tiejun Zhao | (参考訳) 意味解析に基づく手法は知識に基づく質問応答の重要な研究分野である。
通常は、質問に頼って実行可能なプログラムを生成し、知識ベース上で答えを推論する。
このメカニズムの利点は、パフォーマンスと解釈可能性に利点があることです。
しかし、従来の意味解析手法は、実行前に完全なプログラムを生成し、不均一な知識に答えるマルチホップ問題に苦慮する。
一方、完全マルチホッププログラムの生成は、複数の異種な支援事実に依存しており、生成者がこれらの事実を同時に理解することは困難である。
一方、この方法は各ホップにおける中間回答の意味情報を無視するものであり、これはその後の世代にとって有益である。
これらの課題を緩和するため,我々は,前回の実行結果を利用して支援事実を検索し,その後のプログラムホップをホップで生成するヘテロジニアス知識を用いたマルチホッププログラム生成(hoppg)のための自己イテレーティブフレームワークを提案する。
我々は,MMQA-T^2上でのモデル評価を行い,実験結果から,HopPGが既存のセマンティックパーシングベースライン,特にマルチホップ質問よりも優れていることが示された。 The semantic parsing-based method is an important research branch for knowledge-based question answering. It usually generates executable programs lean upon the question and then conduct them to reason answers over a knowledge base. Benefit from this inherent mechanism, it has advantages in the performance and the interpretability. However, traditional semantic parsing methods usually generate a complete program before executing it, which struggles with multi-hop question answering over heterogeneous knowledge. On one hand, generating a complete multi-hop program relies on multiple heterogeneous supporting facts, and it is difficult for generators to understand these facts simultaneously. On the other hand, this way ignores the semantic information of the intermediate answers at each hop, which is beneficial for subsequent generation. To alleviate these challenges, we propose a self-iterative framework for multi-hop program generation (HopPG) over heterogeneous knowledge, which leverages the previous execution results to retrieve supporting facts and generate subsequent programs hop by hop. We evaluate our model on MMQA-T^2, and the experimental results show that HopPG outperforms existing semantic-parsing-based baselines, especially on the multi-hop questions. | 翻訳日:2023-09-12 18:47:27 公開日:2023-09-10 |
# 話者識別のための効果的な変圧器型文脈モデルと時間ゲートプーリング An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification ( http://arxiv.org/abs/2308.11241v2 ) ライセンス: Link先を確認 | Harunori Kawano and Sota Shimizu | (参考訳) Wav2vec2はトランスフォーマーアーキテクチャと自己教師型学習を音声認識に適用することに成功した。
近年,これらは音声認識だけでなく,音声処理全般にも利用されるようになった。
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
実効モデルの構造を明らかにするために,超パラメータと性能の関係について検討した。
さらに,話者識別のための強力な学習能力を有するプール方式であるtemporal gate poolingを提案する。
コーダとしてconformerを適用し,事前学習にbest-rqを適用し,voxceleb1の話者識別を用いた評価を行った。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
コードはhttps://github.com/HarunoriKawano/speaker-identification-with-tgpで入手できる。 Wav2vec2 has achieved success in applying Transformer architecture and self-supervised learning to speech recognition. Recently, these have come to be used not only for speech recognition but also for the entire speech processing. This paper introduces an effective end-to-end speaker identification model applied Transformer-based contextual model. We explored the relationship between the hyper-parameters and the performance in order to discern the structure of an effective model. Furthermore, we propose a pooling method, Temporal Gate Pooling, with powerful learning ability for speaker identification. We applied Conformer as encoder and BEST-RQ for pre-training and conducted an evaluation utilizing the speaker identification of VoxCeleb1. The proposed method has achieved an accuracy of 87.1% with 28.5M parameters, demonstrating comparable precision to wav2vec2 with 317.7M parameters. Code is available at https://github.com/HarunoriKawano/speaker-identification-with-tgp. | 翻訳日:2023-09-12 18:46:53 公開日:2023-09-10 |
# 知識グラフ補完のための大規模言語モデル探索 Exploring Large Language Models for Knowledge Graph Completion ( http://arxiv.org/abs/2308.13916v3 ) ライセンス: Link先を確認 | Liang Yao, Jiazhen Peng, Chengsheng Mao, Yuan Luo | (参考訳) 知識グラフは多くの人工知能タスクにおいて重要な役割を果たすが、不完全性の問題にしばしば直面する。
本研究では,Large Language Models (LLM) を用いて知識グラフの補完を行う。
我々は知識グラフのトリプルをテキストシーケンスとみなし、これらのトリプルをモデル化するための知識グラフ LLM (KG-LLM) と呼ばれる革新的なフレームワークを導入する。
提案手法では,三重項の実体記述と関係記述を用いて,その応答を予測に利用する。
ベンチマークナレッジグラフを用いた実験により,トリプル分類や関係予測などのタスクにおいて,最先端の性能が得られることが示された。
また、微調整モデル(LLaMA-7B、ChatGLM-6B)が最近のChatGPTおよびGPT-4より優れていることも見出した。 Knowledge graphs play a vital role in numerous artificial intelligence tasks, yet they frequently face the issue of incompleteness. In this study, we explore utilizing Large Language Models (LLM) for knowledge graph completion. We consider triples in knowledge graphs as text sequences and introduce an innovative framework called Knowledge Graph LLM (KG-LLM) to model these triples. Our technique employs entity and relation descriptions of a triple as prompts and utilizes the response for predictions. Experiments on various benchmark knowledge graphs demonstrate that our method attains state-of-the-art performance in tasks such as triple classification and relation prediction. We also find that fine-tuning relatively smaller models (e.g., LLaMA-7B, ChatGLM-6B) outperforms recent ChatGPT and GPT-4. | 翻訳日:2023-09-12 18:36:48 公開日:2023-09-10 |
# BreaKHisデータセットを用いた乳癌診断のためのディープラーニングアーキテクチャの比較解析 Comparative Analysis of Deep Learning Architectures for Breast Cancer Diagnosis Using the BreaKHis Dataset ( http://arxiv.org/abs/2309.01007v2 ) ライセンス: Link先を確認 | \.Irem Say{\i}n, Muhammed Ali Soyda\c{s}, Yunus Emre Mert, Arda Yarkata\c{s}, Berk Ergun, Selma S\"ozen Yeh, H\"useyin \"Uvet | (参考訳) ガンは多くの異なる方法で現れ、多くの異なる臓器や組織に影響を与えるため、非常に困難で危険な健康問題である。
本研究の主な目的は,BreakHisデータセットを用いて乳がん患者を正しく同定する深層学習モデルの能力を評価することである。
breakhisデータセットは、病理組織学的画像の膨大なコレクションを通じて、幅広い種類の乳癌サブタイプをカバーしている。
本研究では,VGG,ResNet,Xception,Inception,InceptionResNetの5つのよく知られたディープラーニングモデルの性能を比較した。
その結果、Xceptionモデルがトップに上がり、F1スコアは0.9、精度は89%となった。
同時に、inceptionresnetモデルとinceptionresnetモデルの両方が87%の精度でヒットした。
しかし、インセプションモデルのf1スコアは87であり、インセプションresnetモデルは86であった。
これらの結果から,乳癌の診断における深層学習法の重要性が示唆された。
これは、患者により良い診断サービスを提供する可能性を強調している。
本研究の知見は, 癌診断の現在の方法を改善するだけでなく, 新規で改良されたがん治療戦略の作成にも大きな貢献をした。
一言で言えば、この研究の結果は、これらの重要な医療目標を達成する方向への大きな前進を示している。 Cancer is an extremely difficult and dangerous health problem because it manifests in so many different ways and affects so many different organs and tissues. The primary goal of this research was to evaluate deep learning models' ability to correctly identify breast cancer cases using the BreakHis dataset. The BreakHis dataset covers a wide range of breast cancer subtypes through its huge collection of histopathological pictures. In this study, we use and compare the performance of five well-known deep learning models for cancer classification: VGG, ResNet, Xception, Inception, and InceptionResNet. The results placed the Xception model at the top, with an F1 score of 0.9 and an accuracy of 89%. At the same time, the Inception and InceptionResNet models both hit accuracy of 87% . However, the F1 score for the Inception model was 87, while that for the InceptionResNet model was 86. These results demonstrate the importance of deep learning methods in making correct breast cancer diagnoses. This highlights the potential to provide improved diagnostic services to patients. The findings of this study not only improve current methods of cancer diagnosis, but also make significant contributions to the creation of new and improved cancer treatment strategies. In a nutshell, the results of this study represent a major advancement in the direction of achieving these vital healthcare goals. | 翻訳日:2023-09-12 18:28:58 公開日:2023-09-10 |
# CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2309.01940v3 ) ライセンス: Link先を確認 | Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu | (参考訳) 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。
我々は,LLMのプログラミング理解とコード生成能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。
codeapexは、概念理解、コモンセンス推論、マルチホップ推論という、プログラミング理解タスクのllmを評価するための3つのタイプのマルチチョイス質問を含んでいる。
さらに、CodeApexはアルゴリズムによる質問とそれに対応するテストケースを使用して、LLMが生成するコード品質を評価する。
汎用モデルと特殊モデルの両方を含む14の最先端LCMを評価した。
GPTは最高のプログラミング能力を示し、2つのタスクでそれぞれ50%と56%の近似精度を達成する。
プログラミングタスクの改善の余地は依然として大きい。
CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。
データセットはhttps://github.com/APEXLAB/CodeApex.gitで公開されている。
codeapexの投稿サイトはhttps://apex.sjtu.edu.cn/codeapex/である。 With the emergence of Large Language Models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. We propose CodeApex, a bilingual benchmark dataset focusing on the programming comprehension and code generation abilities of LLMs. CodeApex comprises three types of multiple-choice questions: conceptual understanding, commonsense reasoning, and multi-hop reasoning, designed to evaluate LLMs on programming comprehension tasks. Additionally, CodeApex utilizes algorithmic questions and corresponding test cases to assess the code quality generated by LLMs. We evaluate 14 state-of-the-art LLMs, including both general-purpose and specialized models. GPT exhibits the best programming capabilities, achieving approximate accuracies of 50% and 56% on the two tasks, respectively. There is still significant room for improvement in programming tasks. We hope that CodeApex can serve as a reference for evaluating the coding capabilities of LLMs, further promoting their development and growth. Datasets are released at https://github.com/APEXLAB/CodeApex.git. CodeApex submission website is https://apex.sjtu.edu.cn/codeapex/. | 翻訳日:2023-09-12 18:17:03 公開日:2023-09-10 |
# スペクトル法によるランクアグリゲーションの理論的保証の改善 Improved theoretical guarantee for rank aggregation via spectral method ( http://arxiv.org/abs/2309.03808v2 ) ライセンス: Link先を確認 | Ziliang Samuel Zhong, Shuyang Ling | (参考訳) 複数の項目間のペアワイズ比較を与えられた場合、ランキングが観測値と一致するようにランク付けする方法?
この問題はランクアグリゲーションと呼ばれ、スポーツ、レコメンデーションシステム、その他のウェブアプリケーションで多くの応用が見られた。
ミスマッチを最小化するグローバルランキング(ケメニー最適化として知られる)を見つけるのは通常np困難であるため、このランキング問題に対するerd\"os-r\'enyi outliers (ero)モデルに焦点を当てる。
ここで、各ペア比較は真のスコア差の破損したコピーである。
非正規化および正規化データ行列に基づくスペクトルランキングアルゴリズムについて検討する。
重要なのは,観測データから各項目の下位スコアを回復する上で,そのパフォーマンスを理解することだ。
これにより、非正規化/正規化データ行列の最上位固有ベクトルとその集団行列との間の入射摂動誤差が導かれる。
leave-one-out技術を用いることで、固有ベクトルのよりシャープな$\ell_{\infty}$-norm摂動境界を提供し、各アイテムの最大変位にバインドされた誤差を導出し、わずか$\omega(n\log n)$のサンプルだけを得る。
我々の理論解析は, 試料の複雑さの観点から, 最先端の結果を改良し, 数値実験によりこれらの理論的知見が裏付けられる。 Given pairwise comparisons between multiple items, how to rank them so that the ranking matches the observations? This problem, known as rank aggregation, has found many applications in sports, recommendation systems, and other web applications. As it is generally NP-hard to find a global ranking that minimizes the mismatch (known as the Kemeny optimization), we focus on the Erd\"os-R\'enyi outliers (ERO) model for this ranking problem. Here, each pairwise comparison is a corrupted copy of the true score difference. We investigate spectral ranking algorithms that are based on unnormalized and normalized data matrices. The key is to understand their performance in recovering the underlying scores of each item from the observed data. This reduces to deriving an entry-wise perturbation error bound between the top eigenvectors of the unnormalized/normalized data matrix and its population counterpart. By using the leave-one-out technique, we provide a sharper $\ell_{\infty}$-norm perturbation bound of the eigenvectors and also derive an error bound on the maximum displacement for each item, with only $\Omega(n\log n)$ samples. Our theoretical analysis improves upon the state-of-the-art results in terms of sample complexity, and our numerical experiments confirm these theoretical findings. | 翻訳日:2023-09-12 18:07:27 公開日:2023-09-10 |
# 階層的RNNを用いた教師なしチャンキング Unsupervised Chunking with Hierarchical RNN ( http://arxiv.org/abs/2309.04919v1 ) ライセンス: Link先を確認 | Zijun Wu, Anup Anand Deshmukh, Yongkang Wu, Jimmy Lin, Lili Mou | (参考訳) 自然言語処理(NLP)では、構文構造の手動アノテーションに大きく依存し、構文解析やチャンキングなどの言語構造を予測する。
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
提案手法は,教師なしのパーサによる事前学習と,下流のNLPタスクの微調整という2段階の訓練プロセスを含む。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
さらに、下流タスクによる微調整は、さらなるパフォーマンス向上をもたらす。
興味深いことに、ニューラルネットワークの下流タスクトレーニング中にチャンキング構造の出現が過渡的である。
本研究は,教師なし構文構造発見の進展に寄与し,言語理論のさらなる研究の道を開く。 In Natural Language Processing (NLP), predicting linguistic structures, such as parsing and chunking, has mostly relied on manual annotations of syntactic structures. This paper introduces an unsupervised approach to chunking, a syntactic task that involves grouping words in a non-hierarchical manner. We present a two-layer Hierarchical Recurrent Neural Network (HRNN) designed to model word-to-chunk and chunk-to-sentence compositions. Our approach involves a two-stage training process: pretraining with an unsupervised parser and finetuning on downstream NLP tasks. Experiments on the CoNLL-2000 dataset reveal a notable improvement over existing unsupervised methods, enhancing phrase F1 score by up to 6 percentage points. Further, finetuning with downstream tasks results in an additional performance improvement. Interestingly, we observe that the emergence of the chunking structure is transient during the neural model's downstream-task training. This study contributes to the advancement of unsupervised syntactic structure discovery and opens avenues for further research in linguistic theory. | 翻訳日:2023-09-12 15:39:20 公開日:2023-09-10 |
# 再現性のない3次元シーンのテキスト駆動編集 Text-driven Editing of 3D Scenes without Retraining ( http://arxiv.org/abs/2309.04917v1 ) ライセンス: Link先を確認 | Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding, Ming-Hsuan Yang, Shuchang Zhou | (参考訳) 近年,画像合成と編集に多くの拡散モデルが適用されている。
しかし、3Dシーンの編集はまだ初期段階にある。
例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。
そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。
本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。
次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。
さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。
テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。
実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。
本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。
プロジェクトのwebサイトはhttp://sk-fun.fun/dn2nで入手できる。 Numerous diffusion models have recently been applied to image synthesis and editing. However, editing 3D scenes is still in its early stages. It poses various challenges, such as the requirement to design specific methods for different editing types, retraining new models for various 3D scenes, and the absence of convenient human interaction during editing. To tackle these issues, we introduce a text-driven editing method, termed DN2N, which allows for the direct acquisition of a NeRF model with universal editing capabilities, eliminating the requirement for retraining. Our method employs off-the-shelf text-based editing models of 2D images to modify the 3D scene images, followed by a filtering process to discard poorly edited images that disrupt 3D consistency. We then consider the remaining inconsistency as a problem of removing noise perturbation, which can be solved by generating training data with similar perturbation characteristics for training. We further propose cross-view regularization terms to help the generalized NeRF model mitigate these perturbations. Our text-driven method allows users to edit a 3D scene with their desired description, which is more friendly, intuitive, and practical than prior works. Empirical results show that our method achieves multiple editing types, including but not limited to appearance editing, weather transition, material changing, and style transfer. Most importantly, our method generalizes well with editing abilities shared among a set of model parameters without requiring a customized editing model for some specific scenes, thus inferring novel views with editing effects directly from user input. The project website is available at http://sk-fun.fun/DN2N | 翻訳日:2023-09-12 15:39:02 公開日:2023-09-10 |
# mfpnet: 軽量セマンティックセグメンテーションのためのマルチスケール特徴伝達nwtwork MFPNet: Multi-scale Feature Propagation Nwtwork For Lightweight Semantic Segmentation ( http://arxiv.org/abs/2309.04914v1 ) ライセンス: Link先を確認 | Guoan Xu, Wenjing Jia, Tao Wu, Ligeng Chen | (参考訳) 大規模モデルに焦点を当てた豊富な研究とは対照的に、軽量セマンティックセグメンテーションの進歩は比較的遅いペースで進んでいるようである。
しかし、既存のコンパクトメソッドは、ネットワークの浅さのため、機能表現能力が限られることが多い。
本稿では,マルチスケール特徴伝達ネットワーク (MFPNet) と呼ばれる,このジレンマに対処するための軽量セグメンテーションアーキテクチャを提案する。
具体的には,フレキシブル・ボトルネック残差モジュール(brm)からなる対称残差ブロックを特徴とするロバストなエンコーダ・デコーダ構造を設計し,深く,かつリッチなミューティスケール意味コンテキストを探索する。
さらに,潜在的な長期的文脈関係をモデル化する能力から,グラフ畳み込みネットワーク(gcns)を活用して,brmブロック間のマルチスケール特徴伝達を容易にする。
ベンチマークデータセットを用いて評価すると,提案手法はより優れたセグメンテーション結果を示す。 In contrast to the abundant research focusing on large-scale models, the progress in lightweight semantic segmentation appears to be advancing at a comparatively slower pace. However, existing compact methods often suffer from limited feature representation capability due to the shallowness of their networks. In this paper, we propose a novel lightweight segmentation architecture, called Multi-scale Feature Propagation Network (MFPNet), to address the dilemma. Specifically, we design a robust Encoder-Decoder structure featuring symmetrical residual blocks that consist of flexible bottleneck residual modules (BRMs) to explore deep and rich muti-scale semantic context. Furthermore, taking benefit from their capacity to model latent long-range contextual relationships, we leverage Graph Convolutional Networks (GCNs) to facilitate multi-scale feature propagation between the BRM blocks. When evaluated on benchmark datasets, our proposed approach shows superior segmentation results. | 翻訳日:2023-09-12 15:38:35 公開日:2023-09-10 |
# クラウドコンピューティングにおける機械学習ベースのセキュリティのレビュー A Review of Machine Learning-based Security in Cloud Computing ( http://arxiv.org/abs/2309.04911v1 ) ライセンス: Link先を確認 | Aptin Babaei, Parham M. Kebria, Mohsen Moradi Dalvand, and Saeid Nahavandi | (参考訳) クラウドコンピューティング(cc)は、itリソースをユーザに届ける方法に革命をもたらし、コスト効率を高め、インフラを単純化することで、システムへのアクセスと管理を可能にしている。
しかし、ccの成長に伴い、可用性、完全性、機密性に対する脅威など、多くのセキュリティリスクが伴う。
これらの課題に対処するため、機械学習(ML)は、セキュリティ問題の特定と解決における人間の介入を減らすために、クラウドサービスプロバイダ(CSP)によってますます利用されている。
大量のデータを分析し、高精度な予測を行う能力によって、MLはCSPがセキュリティにアプローチする方法を変えることができる。
本稿では、クラウドコンピューティングにおけるMLベースのセキュリティ分野における最新の研究について紹介する。
MLアルゴリズムの特徴と有効性について検討し、その特異な強みと潜在的な制限を強調します。
私たちの目標は、クラウドセキュリティにおけるmlの現状を包括的に概観し、この新興分野が提供するエキサイティングな可能性に光を当てることです。 Cloud Computing (CC) is revolutionizing the way IT resources are delivered to users, allowing them to access and manage their systems with increased cost-effectiveness and simplified infrastructure. However, with the growth of CC comes a host of security risks, including threats to availability, integrity, and confidentiality. To address these challenges, Machine Learning (ML) is increasingly being used by Cloud Service Providers (CSPs) to reduce the need for human intervention in identifying and resolving security issues. With the ability to analyze vast amounts of data, and make high-accuracy predictions, ML can transform the way CSPs approach security. In this paper, we will explore some of the most recent research in the field of ML-based security in Cloud Computing. We will examine the features and effectiveness of a range of ML algorithms, highlighting their unique strengths and potential limitations. Our goal is to provide a comprehensive overview of the current state of ML in cloud security and to shed light on the exciting possibilities that this emerging field has to offer. | 翻訳日:2023-09-12 15:38:17 公開日:2023-09-10 |
# 2dbeyond qubitsにおける局所ハミルトニアン問題の可換化 Commuting Local Hamiltonian Problem on 2D beyond qubits ( http://arxiv.org/abs/2309.04910v1 ) ライセンス: Link先を確認 | Sandy Irani, Jiaqing Jiang | (参考訳) 両項が可換である局所ハミルトン群の複雑性について検討する。
通勤局所ハミルトニアン (CLHs) は、量子系の複雑性における非可換性の役割を研究し、量子コンピューティングおよび量子PCP予想や領域法則のような多体系における多くの基本的な側面に触れる方法を提供する。
20年前にBravyiとVyalyiがCLH問題を導入して以来の激しい研究活動にもかかわらず、その複雑さはほとんど解決されていない。
最近の研究の多くは2dグリッドの頂点に粒子が配置され、各項が格子内の1つの正方形(またはプラーペット)上の粒子にのみ自明に作用する物理的動機付けの2dケースに焦点を当てている。
特に、Schuch [Sch11] は、量子ビットを持つ 2D 上の CLH 問題は NP であることを示した。
Aharonov, Kenneth and Vigdorovich~[AKV18] はこの結果の構成バージョンを与え、基底状態を構築するための明示的なアルゴリズムを示した。
高次元粒子による2次元CLH問題の複雑性の解法が提案されている。
2D における CLH 問題に対する 2 つの結果が証明される: 1) 立方体を持つ 2D における CLH 問題が NP であることを示す。
われわれが知る限り、これは立方体を超えて 2D 上の可換な局所ハミルトン問題の最初の結果である。
我々の重要な補題は一般のキューディットに当てはまり、一般的なケースに取り組むための新しい洞察を与えるかもしれない。
2) 各項が単粒子エルミート作用素のテンソル積である[bv03]でも研究されている因子化の場合を考える。
任意の有限次元の粒子上でも 2D における分解された CLH は、立方体ハミルトニアンの直和に等しいことを示す。
これは、分解された2D CLH問題はNPにあることを意味する。
このCLHのクラスはToricのコードを例として含んでいる。 We study the complexity of local Hamiltonians in which the terms pairwise commute. Commuting local Hamiltonians (CLHs) provide a way to study the role of non-commutativity in the complexity of quantum systems and touch on many fundamental aspects of quantum computing and many-body systems, such as the quantum PCP conjecture and the area law. Despite intense research activity since Bravyi and Vyalyi introduced the CLH problem two decades ago [BV03], its complexity remains largely unresolved; it is only known to lie in NP for a few special cases. Much of the recent research has focused on the physically motivated 2D case, where particles are located on vertices of a 2D grid and each term acts non-trivially only on the particles on a single square (or plaquette) in the lattice. In particular, Schuch [Sch11] showed that the CLH problem on 2D with qubits is in NP. Aharonov, Kenneth and Vigdorovich~[AKV18] then gave a constructive version of this result, showing an explicit algorithm to construct a ground state. Resolving the complexity of the 2D CLH problem with higher dimensional particles has been elusive. We prove two results for the CLH problem in 2D: (1) We give a non-constructive proof that the CLH problem in 2D with qutrits is in NP. As far as we know, this is the first result for the commuting local Hamiltonian problem on 2D beyond qubits. Our key lemma works for general qudits and might give new insights for tackling the general case. (2) We consider the factorized case, also studied in [BV03], where each term is a tensor product of single-particle Hermitian operators. We show that a factorized CLH in 2D, even on particles of arbitrary finite dimension, is equivalent to a direct sum of qubit stabilizer Hamiltonians. This implies that the factorized 2D CLH problem is in NP. This class of CLHs contains the Toric code as an example. | 翻訳日:2023-09-12 15:38:00 公開日:2023-09-10 |
# 反復拡散インバージョンによる効率的な実画像編集 Effective Real Image Editing with Accelerated Iterative Diffusion Inversion ( http://arxiv.org/abs/2309.04907v1 ) ライセンス: Link先を確認 | Zhihong Pan, Riccardo Gherardi, Xiufeng Xie, Stephen Huang | (参考訳) 最近の進歩にもかかわらず、現代の生成モデルで自然画像の編集と操作は依然として困難である。
GAN(Generative Adversarial Network)を使用する場合、画像の再構成や内容の編集を行う必要があるため、現実の画像を対応するノイズベクトルにマッピングするインバージョンプロセスにおいて大きなハードルとなる。
同様に拡散暗黙モデル(ddim)は、各反転ステップにおける線形化仮定は、決定論的反転過程全体を信頼できない。
反転安定性の問題に取り組む既存のアプローチは、しばしば計算効率に大きなトレードオフをもたらす。
本研究では,AIDIと呼ばれる高速化反復拡散インバージョン手法を提案し,空間および時間のオーバーヘッドを最小限に抑えて再構成精度を大幅に向上させる。
新たな混合指導手法を用いることで,インバージョンにおける大きな分類子なし指導を伴わずに,幅広い画像編集作業において有効な結果が得られることを示す。
さらに,他の拡散反転系作品と比較した場合,提案手法は10および20の拡散ステップの高速画像編集においてより頑健であることが判明した。 Despite all recent progress, it is still challenging to edit and manipulate natural images with modern generative models. When using Generative Adversarial Network (GAN), one major hurdle is in the inversion process mapping a real image to its corresponding noise vector in the latent space, since its necessary to be able to reconstruct an image to edit its contents. Likewise for Denoising Diffusion Implicit Models (DDIM), the linearization assumption in each inversion step makes the whole deterministic inversion process unreliable. Existing approaches that have tackled the problem of inversion stability often incur in significant trade-offs in computational efficiency. In this work we propose an Accelerated Iterative Diffusion Inversion method, dubbed AIDI, that significantly improves reconstruction accuracy with minimal additional overhead in space and time complexity. By using a novel blended guidance technique, we show that effective results can be obtained on a large range of image editing tasks without large classifier-free guidance in inversion. Furthermore, when compared with other diffusion inversion based works, our proposed process is shown to be more robust for fast image editing in the 10 and 20 diffusion steps' regimes. | 翻訳日:2023-09-12 15:37:24 公開日:2023-09-10 |
# 一般化されたパウリ強調チャネルの混合を越えて Beyond the mixture of generalized Pauli dephasing channels ( http://arxiv.org/abs/2309.04903v1 ) ライセンス: Link先を確認 | Mao-Sheng Li, Wen Xu, Yan-Ling Wang, Zhu-Jun Zheng | (参考訳) 近年、量子チャネル混合の複雑さについて研究する研究が盛んに行われている。
文献の直観に基づいて、次元$d$の任意の一般化されたパウリチャネルは、$(d+1)$の凸結合として表現できると一般に信じられている(参照として、[Phys. Rev. A 103, 022605 (2021)]を参照)。
意外なことに,この直感的視点の不正確さが示唆された。
これは、一般化されたパウリチャネルの凸結合の性質を探求することに対する我々の関心を刺激し、単に$(d+1)$で一般化パウリを強調するチャネルへの制限を超えた。
我々は、以前に確立された多くのプロパティがこの広いコンテキスト内に存在することを実証する。
例えば、任意の可逆一般化パウリチャネルの混合は可逆性を保持する。
なお、weylチャネルの設定を考えると、このプロパティは保持されない。
さらに、すべてのパウリチャネル($d=2$の場合)が$(d+1)$ Pauli dephasingチャネルの混合として表現できることを示したが、この一般化は高次元には適用されない。
これは qubit と一般的な qudit のケースの基本的な違いを浮き彫りにしている。
先行理解とは対照的に,混合チャネルの非可逆性はマルコフ半群を構成する写像の前提条件ではないことを示す。 In recent times, there has been a growing scholarly focus on investigating the intricacies of quantum channel mixing. It has been commonly believed, based on intuition in the literature, that every generalized Pauli channel with dimensionality $d$ could be represented as a convex combination of $(d+1)$ generalized Pauli dephasing channels (see [Phys. Rev. A 103, 022605 (2021)] as a reference). To our surprise, our findings indicate the inaccuracy of this intuitive perspective. This has stimulated our interest in exploring the properties of convex combinations of generalized Pauli channels, beyond the restriction to just $(d+1)$ generalized Pauli dephasing channels. We demonstrate that many previously established properties still hold within this broader context. For instance, any mixture of invertible generalized Pauli channels retains its invertibility. It's worth noting that this property doesn't hold when considering the Weyl channels setting. Additionally, we demonstrate that every Pauli channel (for the case of $d=2$) can be represented as a mixture of $(d+1)$ Pauli dephasing channels, but this generalization doesn't apply to higher dimensions. This highlights a fundamental distinction between qubit and general qudit cases. In contrast to prior understanding, we show that non-invertibility of mixed channels is not a prerequisite for the resulting mapping to constitute a Markovian semigroup. | 翻訳日:2023-09-12 15:37:05 公開日:2023-09-10 |
# 小型物体検出における変圧器:現状のベンチマークと調査 Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art ( http://arxiv.org/abs/2309.04902v1 ) ライセンス: Link先を確認 | Aref Miri Rekavandi, Shima Rashidi, Farid Boussaid, Stephen Hoefs, Emre Akbas, Mohammed bennamoun | (参考訳) トランスフォーマーはコンピュータビジョン、特に物体認識と検出の分野で急速に人気を集めている。
最先端の物体検出手法の結果を調べると、ほぼすべてのビデオや画像データセットにおいて、トランスフォーマーが常に確立されたcnnベースの検出器を上回っていることに気付きました。
トランスフォーマーに基づくアプローチは, 小型物体検出(SOD)技術の最前線に留まっているが, このような広範囲なネットワークがもたらすパフォーマンスのメリットを探求し, SODの優位性に対する潜在的な理由を明らかにすることを目的としている。
小さなオブジェクトは、可視性が低いため、検出フレームワークで最も難しいオブジェクトタイプのひとつとして認識されています。
我々は,SODにおけるトランスフォーマーの性能を高める潜在的戦略を検討することを目的とする。
本調査は,2020年から2023年までのSODタスクにおいて,開発トランスフォーマーに関する60以上の研究成果を報告した。
これらの研究には、一般的な画像の小さな物体検出、航空画像、医療画像、アクティブミリ画像、水中画像、ビデオなど、さまざまな検出応用が含まれている。
また,先行研究で見落とされたsodに適した12の大規模データセットの一覧をコンパイルして提示し,平均精度(map),フレーム毎秒(fps),パラメータ数など,一般的なメトリクスを用いたレビュー研究の性能比較を行った。
研究者は私たちのwebページで新しい研究を追跡することができ、これは \url{https://github.com/arekavandi/transformer-sod}で見ることができる。 Transformers have rapidly gained popularity in computer vision, especially in the field of object recognition and detection. Upon examining the outcomes of state-of-the-art object detection methods, we noticed that transformers consistently outperformed well-established CNN-based detectors in almost every video or image dataset. While transformer-based approaches remain at the forefront of small object detection (SOD) techniques, this paper aims to explore the performance benefits offered by such extensive networks and identify potential reasons for their SOD superiority. Small objects have been identified as one of the most challenging object types in detection frameworks due to their low visibility. We aim to investigate potential strategies that could enhance transformers' performance in SOD. This survey presents a taxonomy of over 60 research studies on developed transformers for the task of SOD, spanning the years 2020 to 2023. These studies encompass a variety of detection applications, including small object detection in generic images, aerial images, medical images, active millimeter images, underwater images, and videos. We also compile and present a list of 12 large-scale datasets suitable for SOD that were overlooked in previous studies and compare the performance of the reviewed studies using popular metrics such as mean Average Precision (mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can keep track of newer studies on our web page, which is available at \url{https://github.com/arekavandi/Transformer-SOD}. | 翻訳日:2023-09-12 15:36:38 公開日:2023-09-10 |
# マルチモーダルエクストリーム分類 Multi-modal Extreme Classification ( http://arxiv.org/abs/2309.04961v1 ) ライセンス: Link先を確認 | Anshul Mittal, Kunal Dahiya, Shreya Malani, Janani Ramaswamy, Seba Kuruvilla, Jitendra Ajmera, Keng-hao Chang, Sumeet Agarwal, Purushottam Kar, Manik Varma | (参考訳) 本稿では,データポイントとラベルに視覚的およびテキスト的記述子を付与した,数百万のラベルを用いた超過度分類(XC)タスクのためのMUFIN技術を開発した。
MUFINの製品間レコメンデーションおよび数百万の製品に対する入札クエリ予測への応用について述べる。
現代のマルチモーダル法は、しばしば純粋に埋め込みベースの方法に依存する。
一方、XC法は分類器アーキテクチャを利用して、メソッドのみを埋め込むよりも優れた精度を提供するが、主にテキストベースの分類タスクにフォーカスする。
MUFINはこのギャップを、数百万のラベルでXC問題としてマルチモーダル分類を再構成することで埋める。
これは、何百万ものラベルに対して正確な分類を可能にするために十分に表現力のある埋め込みを提供するマルチモーダルアーキテクチャを開発するという2つの課題を示す。
MUFINは、クロスモーダルな注意に基づくアーキテクチャを開発し、事前学習と肯定的、否定的なマイニングを用いてモジュール方式でトレーニングする。
300万以上の製品を含む新しい製品間レコメンデーションデータセットMM-AmazonTitles-300Kは、タイトルと複数のイメージが与えられた各製品で公開されているAmazon.comのリストからキュレートされた。
すべてのデータセットに対してMUFINは、主要なテキストベース、画像ベース、マルチモーダル技術よりも少なくとも3%高い精度を提供している。
MUFINのコードはhttps://github.com/Extreme-classification/MUFINで入手できる。 This paper develops the MUFIN technique for extreme classification (XC) tasks with millions of labels where datapoints and labels are endowed with visual and textual descriptors. Applications of MUFIN to product-to-product recommendation and bid query prediction over several millions of products are presented. Contemporary multi-modal methods frequently rely on purely embedding-based methods. On the other hand, XC methods utilize classifier architectures to offer superior accuracies than embedding only methods but mostly focus on text-based categorization tasks. MUFIN bridges this gap by reformulating multi-modal categorization as an XC problem with several millions of labels. This presents the twin challenges of developing multi-modal architectures that can offer embeddings sufficiently expressive to allow accurate categorization over millions of labels; and training and inference routines that scale logarithmically in the number of labels. MUFIN develops an architecture based on cross-modal attention and trains it in a modular fashion using pre-training and positive and negative mining. A novel product-to-product recommendation dataset MM-AmazonTitles-300K containing over 300K products was curated from publicly available amazon.com listings with each product endowed with a title and multiple images. On the all datasets MUFIN offered at least 3% higher accuracy than leading text-based, image-based and multi-modal techniques. Code for MUFIN is available at https://github.com/Extreme-classification/MUFIN | 翻訳日:2023-09-12 15:30:49 公開日:2023-09-10 |
# SdCT-GAN: 自己駆動型生成対向ネットワークを用いたバイプレナーX線からのCT再構成 SdCT-GAN: Reconstructing CT from Biplanar X-Rays with Self-driven Generative Adversarial Networks ( http://arxiv.org/abs/2309.04960v1 ) ライセンス: Link先を確認 | Shuangqin Cheng, Qingliang Chen, Qiyi Zhang, Ming Li, Yamuhanmode Alike, Kaile Su and Pengcheng Wen | (参考訳) CT(Computerd Tomography)は、2次元X線よりも情報的な3D画像を生成する医療画像モダリティである。
しかし、この利点は、より多くの放射線被曝、高いコスト、より長い取得時間を犠牲にしている。
そのため, 限られた2次元X線を用いた3次元CT画像の再構成は, 経済的代替物として重要視されている。
それにもかかわらず、既存の手法は主に画素/ボクセルレベルの強度差の最小化を優先し、合成画像におけるテクスチャの詳細の保存を無視する。
この監視は再建画像の品質に直接影響を与え、臨床診断に影響を及ぼす。
そこで本研究では,識別器に新たな自己エンコーダ構造を導入することにより,画像の詳細により多くの注意を払うことを目的とした,自己駆動型生成対向ネットワークモデル(SdCT-GAN)を提案する。
さらに、入力時の2次元X線画像からのエッジ情報を統合できるSGG(Sobel Gradient Guider)の概念をモデル全体に適用する。
さらに, LPIPS (Learned Perceptual Image Patch similarity) 評価指標を採用し, 既存の画像よりも微細な輪郭やテクスチャを定量的に評価する。
最後に、実証研究の質的かつ定量的な結果は、提案されたモデルのパワーを、主流の最先端のベースラインと比較して正当化する。 Computed Tomography (CT) is a medical imaging modality that can generate more informative 3D images than 2D X-rays. However, this advantage comes at the expense of more radiation exposure, higher costs, and longer acquisition time. Hence, the reconstruction of 3D CT images using a limited number of 2D X-rays has gained significant importance as an economical alternative. Nevertheless, existing methods primarily prioritize minimizing pixel/voxel-level intensity discrepancies, often neglecting the preservation of textural details in the synthesized images. This oversight directly impacts the quality of the reconstructed images and thus affects the clinical diagnosis. To address the deficits, this paper presents a new self-driven generative adversarial network model (SdCT-GAN), which is motivated to pay more attention to image details by introducing a novel auto-encoder structure in the discriminator. In addition, a Sobel Gradient Guider (SGG) idea is applied throughout the model, where the edge information from the 2D X-ray image at the input can be integrated. Moreover, LPIPS (Learned Perceptual Image Patch Similarity) evaluation metric is adopted that can quantitatively evaluate the fine contours and textures of reconstructed images better than the existing ones. Finally, the qualitative and quantitative results of the empirical studies justify the power of the proposed model compared to mainstream state-of-the-art baselines. | 翻訳日:2023-09-12 15:30:27 公開日:2023-09-10 |
# Apex フレームを用いた対面防止のための半教師付き学習 Semi-Supervised learning for Face Anti-Spoofing using Apex frame ( http://arxiv.org/abs/2309.04958v1 ) ライセンス: Link先を確認 | Usman Muhammad, Mourad Oussalah and Jorma Laaksonen | (参考訳) 対面防止領域における従来の特徴抽出技術は、ビデオシーケンス全体を解析するか、特定のセグメントに集中してモデル性能を向上させる。
しかし、顔に最も価値のある入力を提供する最適なフレームを特定することは難しい課題である。
本稿では,gaussian weightingを用いてビデオ用apexフレームを作成することで,この課題を解決する。
特に、頂点フレームは、ビデオの中央フレームを中心にしたガウス分布を用いて重み付けされたフレームの和を計算することによって、ビデオから導出される。
さらに,様々な時間長を探索し,畳み込みを必要とせず,ガウス関数を用いて複数の頂点フレームを生成する。
これにより、ラベル付きおよびラベルなしの頂点フレームの両方を考慮した半教師付き学習の利点を活用し、ライブクラスとスプーフクラスを効果的に識別する。
我々の重要な貢献は、ビデオの最も重要な瞬間を表現するための頂点フレームの能力を強調し、ラベルなしの頂点フレームは、時間長の異なるビデオから学習できるように、効率的な半教師付き学習を促進する。
CASIA, REPLAY-ATTACK, OULU-NPU, MSU-MFSDの4つの顔アンチスプーフィングデータベースを用いた実験結果から, 顔アンチスプーフィング技術の進歩における頂点フレームの有効性が示された。 Conventional feature extraction techniques in the face anti-spoofing domain either analyze the entire video sequence or focus on a specific segment to improve model performance. However, identifying the optimal frames that provide the most valuable input for the face anti-spoofing remains a challenging task. In this paper, we address this challenge by employing Gaussian weighting to create apex frames for videos. Specifically, an apex frame is derived from a video by computing a weighted sum of its frames, where the weights are determined using a Gaussian distribution centered around the video's central frame. Furthermore, we explore various temporal lengths to produce multiple unlabeled apex frames using a Gaussian function, without the need for convolution. By doing so, we leverage the benefits of semi-supervised learning, which considers both labeled and unlabeled apex frames to effectively discriminate between live and spoof classes. Our key contribution emphasizes the apex frame's capacity to represent the most significant moments in the video, while unlabeled apex frames facilitate efficient semi-supervised learning, as they enable the model to learn from videos of varying temporal lengths. Experimental results using four face anti-spoofing databases: CASIA, REPLAY-ATTACK, OULU-NPU, and MSU-MFSD demonstrate the apex frame's efficacy in advancing face anti-spoofing techniques. | 翻訳日:2023-09-12 15:30:01 公開日:2023-09-10 |
# 3次元解剖再構成のための多クラス補完フレームワークAnatomy Completor Anatomy Completor: A Multi-class Completion Framework for 3D Anatomy Reconstruction ( http://arxiv.org/abs/2309.04956v1 ) ライセンス: Link先を確認 | Jianning Li, Antonio Pepe, Gijs Luijten, Christina Schwarz-Gsaxner, Jens Kleesiek, Jan Egger | (参考訳) 本稿では,臓器,血管,筋肉など各種解剖の幾何学的形状を再構築するための補完枠組みを提案する。
私たちの研究は、外科的、病理的、または外傷的要因によって、画像データに1つまたは複数の解剖が欠落しているシナリオをターゲットにしています。
欠損した解剖の再構築は、臓器3Dバイオプリンティング、全身分割、アニメーションリアリズム、古生物学、法医学的イメージングなど、多くの応用に有用である。
解剖学的再構成問題を解くために,3次元デノイジングオートエンコーダ(dae)に基づく2つのパラダイムを提案する。
(i)DAEは不完全および完全インスタンス間の多対一マッピングを学習する。
(II)DAEは不完全なインスタンスと対象解剖の間の1対1の残差写像を直接学習する。
我々は,daeが多対一マッピングをより効果的に学習できるロスアグリゲーションスキームを適用し,残差マッピングの学習をさらに強化する。
これに加えて、DAEは、関連する各解剖学に固有のラベルを割り当てることで、マルチクラスコンプリタに拡張する。
本手法は全身分割によるCTデータセットを用いて評価する。
その結果,不完全性の異なるインスタンス(例えば1つまたは複数のランダム解剖が欠落している)に対して,合理的な解剖学的再構築を行うことができた。
コードと事前訓練されたモデルはhttps://github.com/Jianningli/medshapenet-feedback/tree/main/anatomy-completorで公開されている。 In this paper, we introduce a completion framework to reconstruct the geometric shapes of various anatomies, including organs, vessels and muscles. Our work targets a scenario where one or multiple anatomies are missing in the imaging data due to surgical, pathological or traumatic factors, or simply because these anatomies are not covered by image acquisition. Automatic reconstruction of the missing anatomies benefits many applications, such as organ 3D bio-printing, whole-body segmentation, animation realism, paleoradiology and forensic imaging. We propose two paradigms based on a 3D denoising auto-encoder (DAE) to solve the anatomy reconstruction problem: (i) the DAE learns a many-to-one mapping between incomplete and complete instances; (ii) the DAE learns directly a one-to-one residual mapping between the incomplete instances and the target anatomies. We apply a loss aggregation scheme that enables the DAE to learn the many-to-one mapping more effectively and further enhances the learning of the residual mapping. On top of this, we extend the DAE to a multiclass completor by assigning a unique label to each anatomy involved. We evaluate our method using a CT dataset with whole-body segmentations. Results show that our method produces reasonable anatomy reconstructions given instances with different levels of incompleteness (i.e., one or multiple random anatomies are missing). Codes and pretrained models are publicly available at https://github.com/Jianningli/medshapenet-feedback/ tree/main/anatomy-completor | 翻訳日:2023-09-12 15:29:34 公開日:2023-09-10 |
# 多文書要約:比較評価 Multi-document Summarization: A Comparative Evaluation ( http://arxiv.org/abs/2309.04951v1 ) ライセンス: Link先を確認 | Kushan Hewapathirana (1 and 2), Nisansa de Silva (1), C.D. Athuraliya (2) ((1) Department of Computer Science & Engineering, University of Moratuwa, Sri Lanka, (2) ConscientAI, Sri Lanka) | (参考訳) 本論文は,多文書要約(MDS)のさまざまな分野のデータセットに対する最先端モデルの評価と,今後の研究方向を決定するための既存モデルの限界について検討することを目的とする。
このギャップに対処するため、我々は最先端のモデルとデータセットを特定するための広範な文献レビューを行った。
我々は,BigSurvey-MDSおよびMS$^2$データセット上でのPRIMERAおよびPEGASUSモデルの性能を解析した。
以上の結果から,汎用事前学習型LEDは,MS$^2$データセット上でPRIMERAとPEGASUSより優れていた。
我々は、ROUGEスコアをパフォーマンス指標として、異なるデータセット上で識別されたモデルを評価する。
本研究は,モデルの強みと弱み,および異なる領域における適用性に関する貴重な知見を提供する。
この研究は将来のMDS研究の参考として機能し、学術的および科学的に複雑なデータと一般化された比較的単純なデータセットの要求されたデータセットに利用できる正確で堅牢なモデルの開発に貢献する。 This paper is aimed at evaluating state-of-the-art models for Multi-document Summarization (MDS) on different types of datasets in various domains and investigating the limitations of existing models to determine future research directions. To address this gap, we conducted an extensive literature review to identify state-of-the-art models and datasets. We analyzed the performance of PRIMERA and PEGASUS models on BigSurvey-MDS and MS$^2$ datasets, which posed unique challenges due to their varied domains. Our findings show that the General-Purpose Pre-trained Model LED outperforms PRIMERA and PEGASUS on the MS$^2$ dataset. We used the ROUGE score as a performance metric to evaluate the identified models on different datasets. Our study provides valuable insights into the models' strengths and weaknesses, as well as their applicability in different domains. This work serves as a reference for future MDS research and contributes to the development of accurate and robust models which can be utilized on demanding datasets with academically and/or scientifically complex data as well as generalized, relatively simple datasets. | 翻訳日:2023-09-12 15:29:09 公開日:2023-09-10 |
# 複数k-meansクラスタアンサンブルによる引用軌跡のクラスタリング A multiple k-means cluster ensemble framework for clustering citation trajectories ( http://arxiv.org/abs/2309.04949v1 ) ライセンス: Link先を確認 | Joyita Chakraborty, Dinesh K. Pradhan, Subrata Nandi | (参考訳) 熟成期間は記事によって異なる。
しかし、すべての物品の影響は固定窓内で測定される。
引用軌道のクラスタ化は、知識拡散プロセスの理解に役立ち、全ての記事が出版後すぐに成功するわけではないことを明らかにする。
また,紙衝撃推薦アルゴリズムにはクラスタリングトラジェクトリが必要である。
非線型および非定常特性により、励起時系列が大きな変動を示すため、これは難しい問題である。
先行研究は任意のしきい値と一定の規則に基づくアプローチを提案する。
すべてのメソッドはパラメータ依存である。
その結果、類似の軌跡やその具体的な数に関する曖昧さを定義しながら、矛盾につながる。
ほとんどの研究は極端な軌道のみを捉えている。
したがって、一般化されたクラスタリングフレームワークが必要である。
本稿では,マルチk平均クラスタアンサンブルフレームワークを提案する。
microsoftのアカデミックグラフデータから引用された1,95,783 と 41,732 は、それぞれ短期(10年)と長期(30年)のトラジェクタをクラスタリングするために考慮される。
ランニングタイムは線形である。
4つの異なる軌道は、早期の上昇速度低下(2.2%)、早期の上昇速度低下(45%)、遅延速度低下(53%)、遅延速度低下(0.8%)である。
2つの異なるスパンの個々の軌道差について検討した。
ほとんどの論文では、早期上昇は緩やかに減少し、遅い上昇は減少パターンを示さない。
個々の軌道の成長と崩壊時間,累積励起分布,ピーク特性を経験的に再定義する。
詳細な比較研究により,提案手法がすべての軌跡クラスを検出できることが判明した。 Citation maturity time varies for different articles. However, the impact of all articles is measured in a fixed window. Clustering their citation trajectories helps understand the knowledge diffusion process and reveals that not all articles gain immediate success after publication. Moreover, clustering trajectories is necessary for paper impact recommendation algorithms. It is a challenging problem because citation time series exhibit significant variability due to non linear and non stationary characteristics. Prior works propose a set of arbitrary thresholds and a fixed rule based approach. All methods are primarily parameter dependent. Consequently, it leads to inconsistencies while defining similar trajectories and ambiguities regarding their specific number. Most studies only capture extreme trajectories. Thus, a generalised clustering framework is required. This paper proposes a feature based multiple k means cluster ensemble framework. 1,95,783 and 41,732 well cited articles from the Microsoft Academic Graph data are considered for clustering short term (10 year) and long term (30 year) trajectories, respectively. It has linear run time. Four distinct trajectories are obtained Early Rise Rapid Decline (2.2%), Early Rise Slow Decline (45%), Delayed Rise No Decline (53%), and Delayed Rise Slow Decline (0.8%). Individual trajectory differences for two different spans are studied. Most papers exhibit Early Rise Slow Decline and Delayed Rise No Decline patterns. The growth and decay times, cumulative citation distribution, and peak characteristics of individual trajectories are redefined empirically. A detailed comparative study reveals our proposed methodology can detect all distinct trajectory classes. | 翻訳日:2023-09-12 15:28:44 公開日:2023-09-10 |
# 音声駆動対話ヘッド生成のための効率的な感情適応 Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation ( http://arxiv.org/abs/2309.04946v1 ) ライセンス: Link先を確認 | Yuan Gan, Zongxin Yang, Xihang Yue, Lingyun Sun, Yi Yang | (参考訳) 音声駆動対話頭合成は、仮想人間関連アプリケーションにおいて一般的な研究テーマである。
しかし、ガイダンスビデオから話頭予測への感情伝達に高価なエンドツーエンドトレーニングを必要とする既存の手法の柔軟性と非効率性は、重大な制限である。
本研究では,感情に依存しないトーキングヘッドモデルを,パラメータ効率のよい適応により,コスト効率よく感情制御可能なものに変換する音声駆動トーキングヘッド(EAT)手法を提案する。
本手法は,事前学習された感情非依存型音声ヘッドトランスフォーマを使用して,異なる視点から3つの軽量適応(深い感情プロンプト,感情変形ネットワーク,感情適応モジュール)を導入することで,正確かつ現実的な感情制御を実現する。
本研究では, LRW や MEAD など, 広く使用されているベンチマークにおいて, 最新の性能を実現する方法を示す。
さらに,感情訓練ビデオが乏しい場合や,存在しない場合においても,パラメータ効率の適応は顕著な一般化能力を示す。
プロジェクトウェブサイト: https://yuangan.github.io/eat/ Audio-driven talking-head synthesis is a popular research topic for virtual human-related applications. However, the inflexibility and inefficiency of existing methods, which necessitate expensive end-to-end training to transfer emotions from guidance videos to talking-head predictions, are significant limitations. In this work, we propose the Emotional Adaptation for Audio-driven Talking-head (EAT) method, which transforms emotion-agnostic talking-head models into emotion-controllable ones in a cost-effective and efficient manner through parameter-efficient adaptations. Our approach utilizes a pretrained emotion-agnostic talking-head transformer and introduces three lightweight adaptations (the Deep Emotional Prompts, Emotional Deformation Network, and Emotional Adaptation Module) from different perspectives to enable precise and realistic emotion controls. Our experiments demonstrate that our approach achieves state-of-the-art performance on widely-used benchmarks, including LRW and MEAD. Additionally, our parameter-efficient adaptations exhibit remarkable generalization ability, even in scenarios where emotional training videos are scarce or nonexistent. Project website: https://yuangan.github.io/eat/ | 翻訳日:2023-09-12 15:28:12 公開日:2023-09-10 |
# 確率サイクルカウントパワーを有する距離制限型エルクローヤ・レスファイラー・リーマンGNN Distance-Restricted Folklore Weisfeiler-Leman GNNs with Provable Cycle Counting Power ( http://arxiv.org/abs/2309.04941v1 ) ライセンス: Link先を確認 | Junru Zhou, Jiarui Feng, Xiyuan Wang, Muhan Zhang | (参考訳) グラフニューラルネットワーク(GNN)が特定のグラフサブ構造、特にサイクルをカウントする能力は、幅広いタスクにおいてGNNの成功にとって重要である。
GNNの表現力を評価するための一般的な指標として最近使用されている。
証明可能なサイクルカウント能力を持つ多くのGNNモデルは、入力グラフからサブグラフの袋を抽出し、各サブグラフの表現を生成し、それらを使用して入力グラフの表現を増強する。
しかし、これらの手法は重い前処理を必要とし、高い時間とメモリコストに悩まされる。
本稿では,GNNの新たなクラスである$d$-Distance-Restricted FWL(2) GNN,あるいは$d$-DRFWL(2) GNNを提案することによって,前述のGNNの制限を克服する。
$d$-DRFWL(2) GNNは、表現力と複雑性のバランスをとるためにメッセージパッシングの単位として、互いに距離が最大$d$のノードペアを使用する。
元のグラフで距離制限ノードペア間でメッセージパッシングを行うことで、$d$-DRFWL(2) GNNはグラフGNNにおける高価なサブグラフ抽出操作を避け、時間と空間の複雑さを下げる。
理論的には、$d$-DRFWL(2) GNNの判別力は、$d$の増加とともに厳密に増加する。
さらに重要なのは、$d$-DRFWL(2) GNNは、$d=2$であっても、確実に強力なサイクルカウント能力を持つことだ。
6-サイクル(例えばベンゼン環)は有機分子中でユビキタスであるため、分子のタスクにおいて堅牢で一般化可能な性能を達成するためには、それらを検出して数えることができる。
合成データセットと分子データセットの両方の実験は、この理論を検証する。
我々の知る限りでは、我々のモデルは6サイクルまで数えられる最も効率的なGNNモデルである(理論的にも経験的にも)。 The ability of graph neural networks (GNNs) to count certain graph substructures, especially cycles, is important for the success of GNNs on a wide range of tasks. It has been recently used as a popular metric for evaluating the expressive power of GNNs. Many of the proposed GNN models with provable cycle counting power are based on subgraph GNNs, i.e., extracting a bag of subgraphs from the input graph, generating representations for each subgraph, and using them to augment the representation of the input graph. However, those methods require heavy preprocessing, and suffer from high time and memory costs. In this paper, we overcome the aforementioned limitations of subgraph GNNs by proposing a novel class of GNNs -- $d$-Distance-Restricted FWL(2) GNNs, or $d$-DRFWL(2) GNNs. $d$-DRFWL(2) GNNs use node pairs whose mutual distances are at most $d$ as the units for message passing to balance the expressive power and complexity. By performing message passing among distance-restricted node pairs in the original graph, $d$-DRFWL(2) GNNs avoid the expensive subgraph extraction operations in subgraph GNNs, making both the time and space complexity lower. We theoretically show that the discriminative power of $d$-DRFWL(2) GNNs strictly increases as $d$ increases. More importantly, $d$-DRFWL(2) GNNs have provably strong cycle counting power even with $d=2$: they can count all 3, 4, 5, 6-cycles. Since 6-cycles (e.g., benzene rings) are ubiquitous in organic molecules, being able to detect and count them is crucial for achieving robust and generalizable performance on molecular tasks. Experiments on both synthetic datasets and molecular datasets verify our theory. To the best of our knowledge, our model is the most efficient GNN model to date (both theoretically and empirically) that can count up to 6-cycles. | 翻訳日:2023-09-12 15:27:50 公開日:2023-09-10 |
# 英語のRSTパーシングで何が難しいのか?
誤差解析のための予測モデル What's Hard in English RST Parsing? Predictive Models for Error Analysis ( http://arxiv.org/abs/2309.04940v1 ) ライセンス: Link先を確認 | Yang Janet Liu and Tatsuya Aoyama and Amir Zeldes | (参考訳) 近年の自然言語処理(nlp)の進歩にもかかわらず、修辞的構造理論の枠組みにおける階層的談話解析はいまだに困難であり、そのための理解はまだ限られている。
本稿では,先行研究における分析困難に関連する要因として,暗黙の談話関係の存在,長距離関係の特定における課題,語彙外項目などについて検討・モデル化する。
これらの変数の相対的重要性を評価するために、金標準rst関係に関連づけられた明示的な正解と注意をそそる談話マーカーを含む2つの注釈付き英語テストセットをリリースする。
その結果, 浅い談話解析では, 明示的/単純化的な区別が役割を担っているが, 長距離依存が主な課題であり, 語彙重複の欠如は問題ではなく, 少なくともドメイン内解析では問題ではないことがわかった。
最終モデルは、ボトムアップパーサーで76.3%、トップダウンパーサーで76.6%の精度でエラーが発生するかを予測できる。 Despite recent advances in Natural Language Processing (NLP), hierarchical discourse parsing in the framework of Rhetorical Structure Theory remains challenging, and our understanding of the reasons for this are as yet limited. In this paper, we examine and model some of the factors associated with parsing difficulties in previous work: the existence of implicit discourse relations, challenges in identifying long-distance relations, out-of-vocabulary items, and more. In order to assess the relative importance of these variables, we also release two annotated English test-sets with explicit correct and distracting discourse markers associated with gold standard RST relations. Our results show that as in shallow discourse parsing, the explicit/implicit distinction plays a role, but that long-distance dependencies are the main challenge, while lack of lexical overlap is less of a problem, at least for in-domain parsing. Our final model is able to predict where errors will occur with an accuracy of 76.3% for the bottom-up parser and 76.6% for the top-down parser. | 翻訳日:2023-09-12 15:27:12 公開日:2023-09-10 |
# 古典的エミュレート量子シミュレーションによるハミルトニアンのエネルギー固有状態の簡易生成法 A Simple Procedure to Produce Energy Eigenstates of a Hamiltonian by Classically Emulated Quantum Simulation ( http://arxiv.org/abs/2309.04933v1 ) ライセンス: Link先を確認 | Kazuto Oshima | (参考訳) 離散固有値を持つハミルトニアンのエネルギー固有状態を生成するための簡単な手順を提案する。
我々は、アンシラ量子ビットと量子エンタングルメントを用いて、エネルギー固有状態と他のエネルギー固有状態とを分離する。
原理的には、有限次元ヒルベルト空間と非生成的離散エネルギー固有状態を持つハミルトニアンに対して適用できる。
初期状態を選択すると、原理的にはハミルトニアンの任意のエネルギー固有状態を生成することができる。 We propose a simple procedure to produce energy eigenstates of a Hamiltonian with discrete eigenvalues. We use ancilla qubits and quantum entanglement to separate an energy eigenstate from the other energy eigenstates. Our procedure in principle will be applicable for a Hamiltonian with a finite dimensional Hilbert space and with non-generate discrete energy eigenstates. Choosing an initial state properly, we can in principle produce any energy eigenstate of the Hamiltonian. | 翻訳日:2023-09-12 15:26:52 公開日:2023-09-10 |
# ゼロショットプロンプト型分類器における単語バイアスの軽減 Mitigating Word Bias in Zero-shot Prompt-based Classifiers ( http://arxiv.org/abs/2309.04992v1 ) ライセンス: Link先を確認 | Adian Liusie, Potsawee Manakul, Mark J. F. Gales | (参考訳) プロンプトベースの分類器はゼロショット分類の魅力的なアプローチである。
しかし、プロンプトテンプレートとラベルワードの正確な選択はパフォーマンスに大きく影響し、意味的に等価な設定はしばしば顕著な性能差を示す。
この違いは部分的には単語バイアスによるもので、分類器はクラスに偏っている可能性がある。
この問題を解決するためにラベル付きデータセットの分類しきい値の最適化が可能であるが、プロンプトベースの分類器の利点を緩和する。
本論文は, クラスに期待される限界確率を調べることにより, この問題にアプローチする。
ここで、確率は教師なしの方法でクラスよりも前に一様になるように再重み付けされる。
さらに、クラス先行語と言語モデル先行語の理論的関係を描き、ゼロリソース方式でしきい値を設定する能力を提供する。
一致したクラス前処理はオラクル上界性能と強く相関し,NLPタスクの範囲内でのプロンプト設定において大きな一貫した性能向上を示す。 Prompt-based classifiers are an attractive approach for zero-shot classification. However, the precise choice of the prompt template and label words can largely influence performance, with semantically equivalent settings often showing notable performance difference. This discrepancy can be partly attributed to word biases, where the classifier may be biased towards classes. To address this problem, it is possible to optimise classification thresholds on a labelled data set, however, this mitigates some of the advantages of prompt-based classifiers. This paper instead approaches this problem by examining the expected marginal probabilities of the classes. Here, probabilities are reweighted to have a uniform prior over classes, in an unsupervised fashion. Further, we draw a theoretical connection between the class priors and the language models' word prior, and offer the ability to set a threshold in a zero-resource fashion. We show that matching class priors correlates strongly with the oracle upper bound performance and demonstrate large consistent performance gains for prompt settings over a range of NLP tasks. | 翻訳日:2023-09-12 15:19:29 公開日:2023-09-10 |
# ストリーミングデータにおける増分集約勾配法の線形高速化 Linear Speedup of Incremental Aggregated Gradient Methods on Streaming Data ( http://arxiv.org/abs/2309.04980v1 ) ライセンス: Link先を確認 | Xiaolu Wang, Cheng Jin, Hoi-To Wai, Yuantao Gu | (参考訳) 本稿では,大規模分散最適化のためのインクリメンタル集約勾配法について考察する。
IAG法はパラメータサーバアーキテクチャに適しており、後者はワーカが提供した潜在的に不安定な勾配を簡単に集約することができる。
決定論的勾配の場合, IAGの収束はよく知られているが, ストリーミングデータに基づく確率的変動の場合, わずかな結果しか得られない。
本稿では, 労働者間のデータサンプル分布が不均一であっても, 労働者が頻繁に更新する場合に, ストリーミングIAG法が線形高速化を実現することを示す。
最適解への期待される二乗距離は o((1+t)/(nt)) で崩壊し、ここでは $n$ はワーカーの数、t はイテレーション数、t/n はワーカーの更新周波数である。
本分析では, 定常勾配による条件予測を慎重に処理し, 遅延項と雑音項の両方で再帰的に処理し, IAG型アルゴリズムを新たに解析する。
結果の検証に数値的な結果が得られた。 This paper considers a type of incremental aggregated gradient (IAG) method for large-scale distributed optimization. The IAG method is well suited for the parameter server architecture as the latter can easily aggregate potentially staled gradients contributed by workers. Although the convergence of IAG in the case of deterministic gradient is well known, there are only a few results for the case of its stochastic variant based on streaming data. Considering strongly convex optimization, this paper shows that the streaming IAG method achieves linear speedup when the workers are updating frequently enough, even if the data sample distribution across workers are heterogeneous. We show that the expected squared distance to optimal solution decays at O((1+T)/(nt)), where $n$ is the number of workers, t is the iteration number, and T/n is the update frequency of workers. Our analysis involves careful treatments of the conditional expectations with staled gradients and a recursive system with both delayed and noise terms, which are new to the analysis of IAG-type algorithms. Numerical results are presented to verify our findings. | 翻訳日:2023-09-12 15:19:12 公開日:2023-09-10 |
# 低リソーステキスト分類のための検索メタ学習 Retrieval-Augmented Meta Learning for Low-Resource Text Classification ( http://arxiv.org/abs/2309.04979v1 ) ライセンス: Link先を確認 | Rongsheng Li, Yangning Li, Yinghui Li, Chaiyut Luoyiching, Hai-Tao Zheng, Nannan Zhou, Hanjing Su | (参考訳) メタラーニングは低リソーステキスト分類において有望な性能を達成しており、ターゲットクラスを識別することを目的としている。
しかしながら、メタラーニングシナリオにおける限られたトレーニングデータとパラメータ化されたニューラルネットワークの固有の特性から、一般化性能の低下は対処すべき課題となっている。
この問題に対処するために,検索型メタ学習(RAML)と呼ばれるメタ学習手法を提案する。
推論にパラメータ化を用いるだけでなく、外部のコーパスから非パラメトリック知識を抽出して推論し、メタラーニングにおける多様なトレーニングデータ不足による一般化性能の低下の問題を大幅に軽減する。
この方法は、パラメータ化されたニューラルネットワークと非パラメトリック知識のバランスをとることを目的として、パラメータのみに依存する従来のモデルとは異なる。
モデルは、推論中にどの知識にアクセスして利用するかを決定する必要がある。
さらに,マルチビューパス融合ネットワークモジュールは,検索した情報を低リソースの分類タスクに効果的かつ効率的に統合することができる。
大規模な実験により、RAMLは現在のSOTA低リソーステキスト分類モデルよりも大幅に優れていることが示された。 Meta learning have achieved promising performance in low-resource text classification which aims to identify target classes with knowledge transferred from source classes with sets of small tasks named episodes. However, due to the limited training data in the meta-learning scenario and the inherent properties of parameterized neural networks, poor generalization performance has become a pressing problem that needs to be addressed. To deal with this issue, we propose a meta-learning based method called Retrieval-Augmented Meta Learning(RAML). It not only uses parameterization for inference but also retrieves non-parametric knowledge from an external corpus to make inferences, which greatly alleviates the problem of poor generalization performance caused by the lack of diverse training data in meta-learning. This method differs from previous models that solely rely on parameters, as it explicitly emphasizes the importance of non-parametric knowledge, aiming to strike a balance between parameterized neural networks and non-parametric knowledge. The model is required to determine which knowledge to access and utilize during inference. Additionally, our multi-view passages fusion network module can effectively and efficiently integrate the retrieved information into low-resource classification task. The extensive experiments demonstrate that RAML significantly outperforms current SOTA low-resource text classification models. | 翻訳日:2023-09-12 15:18:53 公開日:2023-09-10 |
# rgat:コリファレンス解決のための構文依存情報についてより深く検討する RGAT: A Deeper Look into Syntactic Dependency Information for Coreference Resolution ( http://arxiv.org/abs/2309.04977v1 ) ライセンス: Link先を確認 | Yuan Meng, Xuhao Pan, Jun Chang and Yue Wang | (参考訳) 多くのnlpタスクでは構文情報は有益であるが、コリファレンス解決問題を解決するために単語間の文脈情報と組み合わせる必要がある。
本稿では,事前学習したBERTとSyntactic Relation Graph Attention Network(RGAT)を組み合わせたエンドツーエンドパーサを提案する。
特に、RGATモデルが最初に提案され、次に、構文依存グラフを理解し、より優れたタスク固有の構文埋め込みを学ぶために使用される。
BERT埋め込みと構文埋め込みを組み合わせた統合アーキテクチャを構築し、下流タスクのブレンディング表現を生成する。
gap(public gendered ambiguous pronouns)データセットを用いた実験では、構文依存グラフの監督学習とbert全体を微調整することなく、以前のベストモデル(rgcn-with-bert)のf1-scoreを80.3%から82.5%に増加させ、単一のbert埋め込みによるf1-scoreを78.5%から82.5%に増加させた。
別のパブリックデータセットでの実験的結果 - ontonotes 5.0は、rgatから学習した構文依存情報を組み込むことで、モデルのパフォーマンスも改善されていることを証明している。 Although syntactic information is beneficial for many NLP tasks, combining it with contextual information between words to solve the coreference resolution problem needs to be further explored. In this paper, we propose an end-to-end parser that combines pre-trained BERT with a Syntactic Relation Graph Attention Network (RGAT) to take a deeper look into the role of syntactic dependency information for the coreference resolution task. In particular, the RGAT model is first proposed, then used to understand the syntactic dependency graph and learn better task-specific syntactic embeddings. An integrated architecture incorporating BERT embeddings and syntactic embeddings is constructed to generate blending representations for the downstream task. Our experiments on a public Gendered Ambiguous Pronouns (GAP) dataset show that with the supervision learning of the syntactic dependency graph and without fine-tuning the entire BERT, we increased the F1-score of the previous best model (RGCN-with-BERT) from 80.3% to 82.5%, compared to the F1-score by single BERT embeddings from 78.5% to 82.5%. Experimental results on another public dataset - OntoNotes 5.0 demonstrate that the performance of the model is also improved by incorporating syntactic dependency information learned from RGAT. | 翻訳日:2023-09-12 15:18:34 公開日:2023-09-10 |
# AVARS --UAVを用いた都市交通渋滞の軽減 AVARS -- Alleviating Unexpected Urban Road Traffic Congestion using UAVs ( http://arxiv.org/abs/2309.04976v1 ) ライセンス: Link先を確認 | Jiaying Guo, Michael R. Jones, Soufiene Djahel, and Shen Wang | (参考訳) ルート内イベント(道路閉鎖、自動車事故など)による予期せぬ都市交通渋滞の低減には、最適な交通信号を選択するために、迅速かつ正確な反応を必要とすることが多い。
scatsやscootのような従来の交通光制御システムは、誘導ループによって提供される交通データは更新頻度(つまり1分以上)が低いため、効率が良くない。
さらに、これらのシステムで使用される交通信号計画は、予期しない事象が発生する前に事前にプログラムされた限られた候補計画の中から選択される。
近年の研究では、深部強化学習(DRL)アルゴリズムによって制御されるカメラベースの交通信号システムの方が、高頻度の高分解能交通データを提供できる交通渋滞の低減に有効であることが示されている。
しかし、これらのシステムは道路インフラの過度なアップグレードのために大都市に展開するのに費用がかかる。
本稿では,無人航空機 (UAV) が予期せぬ交通渋滞に対処する上で重要な役割を担っていることを論じる。
そこで,本研究では,DRLを用いた交通信号制御を用いた都市交通渋滞低減のためのUAVの利用の可能性を探る「AVARS」システムを提案する。
このアプローチは、交通監視範囲やバッテリー寿命を含む実用的なUAV設定を備えた、広く使用されているオープンソースの交通シミュレータ上で検証されている。
シミュレーションの結果,AVARSはアイルランドのダブリンで発生した予期せぬ交通渋滞を,UAVの典型的なバッテリー持続時間内に元の非混雑レベルに戻すことができることがわかった。 Reducing unexpected urban traffic congestion caused by en-route events (e.g., road closures, car crashes, etc.) often requires fast and accurate reactions to choose the best-fit traffic signals. Traditional traffic light control systems, such as SCATS and SCOOT, are not efficient as their traffic data provided by induction loops has a low update frequency (i.e., longer than 1 minute). Moreover, the traffic light signal plans used by these systems are selected from a limited set of candidate plans pre-programmed prior to unexpected events' occurrence. Recent research demonstrates that camera-based traffic light systems controlled by deep reinforcement learning (DRL) algorithms are more effective in reducing traffic congestion, in which the cameras can provide high-frequency high-resolution traffic data. However, these systems are costly to deploy in big cities due to the excessive potential upgrades required to road infrastructure. In this paper, we argue that Unmanned Aerial Vehicles (UAVs) can play a crucial role in dealing with unexpected traffic congestion because UAVs with onboard cameras can be economically deployed when and where unexpected congestion occurs. Then, we propose a system called "AVARS" that explores the potential of using UAVs to reduce unexpected urban traffic congestion using DRL-based traffic light signal control. This approach is validated on a widely used open-source traffic simulator with practical UAV settings, including its traffic monitoring ranges and battery lifetime. Our simulation results show that AVARS can effectively recover the unexpected traffic congestion in Dublin, Ireland, back to its original un-congested level within the typical battery life duration of a UAV. | 翻訳日:2023-09-12 15:18:09 公開日:2023-09-10 |
# 自己教師付きタスク推論を用いた連続ロボット学習 Continual Robot Learning using Self-Supervised Task Inference ( http://arxiv.org/abs/2309.04974v1 ) ライセンス: Link先を確認 | Muhammad Burhan Hafez, Stefan Wermter | (参考訳) 1つのタスクをマスターするのとは対照的に、人間のスキルを生涯にわたって習得する能力を持つ内在するロボットは、ロボット学習においてオープンな問題である。
この問題に対処するためにマルチタスク学習アプローチが提案されているが、タスク推論にはほとんど注意を払わない。
新しいタスクを継続的に学習するために、ロボットは事前に定義されたタスク表現を必要とせずに、手元のタスクを推測する必要がある。
本稿では,自己教師付きタスク推論手法を提案する。
提案手法は,観察された運動の自己組織化から行動と意図の埋め込みを学び,ラベルなしデモンストレーションの効果部分と,共同行動意図埋め込みの自己組織化から高レベルな行動の埋め込みを学習する。
我々は,新しいタスク推論ネットワーク(tinet)を訓練し,ラベルなしのデモを最寄りの動作埋め込みにマッピングし,タスク表現として使用する行動マッチング自己教師付き学習目標を構築する。
tinet上にマルチタスクポリシが構築され、タスクよりもパフォーマンスを最適化するために強化学習でトレーニングされる。
我々は,ヒューマノイドロボットを用いて,固定セットおよび連続マルチタスク学習設定におけるアプローチを評価し,異なるマルチタスク学習ベースラインと比較した。
その結果,我々のアプローチは他のベースラインよりも優れており,その違いは継続的な学習環境においてより顕著であり,不完全な実演からタスクを推測できることがわかった。
また,本手法は,単発タスク一般化実験における1つの実演に基づく未確認タスクを一般化する。 Endowing robots with the human ability to learn a growing set of skills over the course of a lifetime as opposed to mastering single tasks is an open problem in robot learning. While multi-task learning approaches have been proposed to address this problem, they pay little attention to task inference. In order to continually learn new tasks, the robot first needs to infer the task at hand without requiring predefined task representations. In this paper, we propose a self-supervised task inference approach. Our approach learns action and intention embeddings from self-organization of the observed movement and effect parts of unlabeled demonstrations and a higher-level behavior embedding from self-organization of the joint action-intention embeddings. We construct a behavior-matching self-supervised learning objective to train a novel Task Inference Network (TINet) to map an unlabeled demonstration to its nearest behavior embedding, which we use as the task representation. A multi-task policy is built on top of the TINet and trained with reinforcement learning to optimize performance over tasks. We evaluate our approach in the fixed-set and continual multi-task learning settings with a humanoid robot and compare it to different multi-task learning baselines. The results show that our approach outperforms the other baselines, with the difference being more pronounced in the challenging continual learning setting, and can infer tasks from incomplete demonstrations. Our approach is also shown to generalize to unseen tasks based on a single demonstration in one-shot task generalization experiments. | 翻訳日:2023-09-12 15:17:43 公開日:2023-09-10 |
# 一般化Few-Shotインテント検出のための知識記憶プロトタイプによるプロンプト学習 Prompt Learning With Knowledge Memorizing Prototypes For Generalized Few-Shot Intent Detection ( http://arxiv.org/abs/2309.04971v1 ) ライセンス: Link先を確認 | Chaiyut Luoyiching, Yangning Li, Yinghui Li, Rongsheng Li, Hai-Tao Zheng, Nannan Zhou, Hanjing Su | (参考訳) 汎用Few-Shot Intent Detection (GFSID) は、目に見える意図と新しい意図の両方を同時に分類する必要があるため、困難かつ現実的である。
従来の GFSID の手法はエピソード学習パラダイムに依存していたため,目に見えるカテゴリの分類や目に見える意図の知識を明示的に学ばないため,一般的な設定に拡張することは困難であった。
このジレンマに対処するために,GFSIDタスクをクラスインクリメンタル学習パラダイムに変換することを提案する。
具体的には,様々な期間における異なる意図の知識を逐次学習する2段階学習フレームワークを提案する。
そしてプロトタイプを利用して、目に見えるインテントと新しいインテントの両方を分類します。
さらに,異なる段階における意図の伝達知識を達成するために,現実的な応用に近い2つの知識保存手法を設計する。
広く使われている2つのデータセットに関する広範な実験と詳細な分析は、クラスインクリメンタル学習パラダイムに基づいたフレームワークが有望なパフォーマンスを達成していることを示している。 Generalized Few-Shot Intent Detection (GFSID) is challenging and realistic because it needs to categorize both seen and novel intents simultaneously. Previous GFSID methods rely on the episodic learning paradigm, which makes it hard to extend to a generalized setup as they do not explicitly learn the classification of seen categories and the knowledge of seen intents. To address the dilemma, we propose to convert the GFSID task into the class incremental learning paradigm. Specifically, we propose a two-stage learning framework, which sequentially learns the knowledge of different intents in various periods via prompt learning. And then we exploit prototypes for categorizing both seen and novel intents. Furthermore, to achieve the transfer knowledge of intents in different stages, for different scenarios we design two knowledge preservation methods which close to realistic applications. Extensive experiments and detailed analyses on two widely used datasets show that our framework based on the class incremental learning paradigm achieves promising performance. | 翻訳日:2023-09-12 15:17:16 公開日:2023-09-10 |
# LMBiS-Net:網膜血管セグメンテーションのための軽量マルチパス双方向スキップ接続CNN LMBiS-Net: A Lightweight Multipath Bidirectional Skip Connection based CNN for Retinal Blood Vessel Segmentation ( http://arxiv.org/abs/2309.04968v1 ) ライセンス: Link先を確認 | Mufassir M. Abbasi, Shahzaib Iqbal, Asim Naveed, Tariq M. Khan, Syed S. Naqvi, Wajeeha Khalid | (参考訳) 目隠し眼疾患は、眼底画像の網膜構造を分割することで臨床で識別される網膜形態の変化としばしば相関する。
しかし、現在の手法は繊細な船体を正確に分断するには不十分であることが多い。
深層学習は医用画像のセグメンテーションに有望であるが、繰り返し畳み込みやプール操作に依存することはエッジ情報の表現を阻害し、最終的には全体的なセグメンテーション精度を制限している。
本稿では,極めて少ない学習パラメータである \textbf{( 0.172 m) を持つ網膜血管のセグメンテーションのための,lmbis-netという,軽量なピクセルレベルcnnを提案する。
ネットワークはマルチパス特徴抽出ブロックを使用し、エンコーダとデコーダ間の情報フローに双方向のスキップ接続を組み込んでいる。
さらに,フィルタ重複を回避するため,フィルタ数を慎重に選択することでモデルの効率を最適化した。
この最適化によりトレーニング時間が大幅に短縮され、計算効率が向上する。
LMBiS-Netの堅牢性と一般化性を評価するため,網膜画像の様々な側面について総合的な評価を行った。
特に、このモデルは眼科診断と治療において重要な役割を果たす網膜血管を正確に分割する厳密な検査を受けた。
網膜血管に焦点を合わせることで,lmbis-netモデルの性能と効果を徹底的に解析することができた。
実験の結果,LMBiS-Netは頑健で一般化可能であるだけでなく,高いセグメンテーション精度を維持することができることがわかった。
これらの特徴は、様々な臨床応用において、網膜画像の高速かつ正確なセグメンテーションのための効率的なツールとしてのLMBiS-Netの可能性を強調している。 Blinding eye diseases are often correlated with altered retinal morphology, which can be clinically identified by segmenting retinal structures in fundus images. However, current methodologies often fall short in accurately segmenting delicate vessels. Although deep learning has shown promise in medical image segmentation, its reliance on repeated convolution and pooling operations can hinder the representation of edge information, ultimately limiting overall segmentation accuracy. In this paper, we propose a lightweight pixel-level CNN named LMBiS-Net for the segmentation of retinal vessels with an exceptionally low number of learnable parameters \textbf{(only 0.172 M)}. The network used multipath feature extraction blocks and incorporates bidirectional skip connections for the information flow between the encoder and decoder. Additionally, we have optimized the efficiency of the model by carefully selecting the number of filters to avoid filter overlap. This optimization significantly reduces training time and enhances computational efficiency. To assess the robustness and generalizability of LMBiS-Net, we performed comprehensive evaluations on various aspects of retinal images. Specifically, the model was subjected to rigorous tests to accurately segment retinal vessels, which play a vital role in ophthalmological diagnosis and treatment. By focusing on the retinal blood vessels, we were able to thoroughly analyze the performance and effectiveness of the LMBiS-Net model. The results of our tests demonstrate that LMBiS-Net is not only robust and generalizable but also capable of maintaining high levels of segmentation accuracy. These characteristics highlight the potential of LMBiS-Net as an efficient tool for high-speed and accurate segmentation of retinal images in various clinical applications. | 翻訳日:2023-09-12 15:16:57 公開日:2023-09-10 |
# 完全分離型エンドツーエンド検索を目指して Towards Fully Decoupled End-to-End Person Search ( http://arxiv.org/abs/2309.04967v1 ) ライセンス: Link先を確認 | Pengcheng Zhang, Xiao Bai, Jin Zheng, Xin Ning | (参考訳) エンド・ツー・エンドの人物探索は、原シーン画像中の対象者を統一モデルで共同で検出し、再同定することを目的としている。
検出タスクは、re-idタスクが異なるアイデンティティを識別している間に、すべての人を統一する。
このような対立を緩和するために、エンドツーエンドの検索を分離する既存の作業が提案されている。
しかし、これらの手法は部分的に分離されたモデルであるため、サブタスクの1つか2つの部分最適である。
本稿では,最適な人物探索に向けた人物探索を完全に分離することを提案する。
2つのサブタスクのモデルアーキテクチャを分離する、検出および再識別するサブタスクのエンドツーエンドモデルを構築するために、タスクインクリメンタルなパーソンサーチネットワークを提案する。
提案するtask-incremental networkは、2つの競合するタスクのtask-incrementalトレーニングを可能にする。
これにより、異なる目的に対して独立した学習が可能となり、それによって、人的階層のモデルを完全に分離する。
包括的実験評価により,完全分離モデルの有効性が実証された。 End-to-end person search aims to jointly detect and re-identify a target person in raw scene images with a unified model. The detection task unifies all persons while the re-id task discriminates different identities, resulting in conflict optimal objectives. Existing works proposed to decouple end-to-end person search to alleviate such conflict. Yet these methods are still sub-optimal on one or two of the sub-tasks due to their partially decoupled models, which limits the overall person search performance. In this paper, we propose to fully decouple person search towards optimal person search. A task-incremental person search network is proposed to incrementally construct an end-to-end model for the detection and re-id sub-task, which decouples the model architecture for the two sub-tasks. The proposed task-incremental network allows task-incremental training for the two conflicting tasks. This enables independent learning for different objectives thus fully decoupled the model for persons earch. Comprehensive experimental evaluations demonstrate the effectiveness of the proposed fully decoupled models for end-to-end person search. | 翻訳日:2023-09-12 15:16:28 公開日:2023-09-10 |
# Prefix-Diffusion: 横画像キャプションのための軽量拡散モデル Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image Captioning ( http://arxiv.org/abs/2309.04965v1 ) ライセンス: Link先を確認 | Guisheng Liu, Yi Li, Zhengcong Fei, Haiyan Fu, Xiangyang Luo, Yanqing Guo | (参考訳) 画像キャプションにおける印象的な性能は達成されているが、生成したキャプションの多様性と大きなパラメータスケールは、これらのシステムの実単語適用の大きな障壁である。
本研究では,連続拡散と組み合わせた軽量画像キャプションネットワークであるプレフィックス拡散を提案する。
多様性を達成するために, 拡散モデルの分母化プロセスにプレフィックス画像埋め込みを注入する効率的な手法を考案する。
トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。
プレフィックス拡散は、拡散モデルの生成能力から恩恵を受けるキャプションの流速と関連性を保ちながら、パラメータが比較的少ない多様なキャプションを生成することができる。
本研究は,画像キャプションの拡散モデルのスケールアップを図り,近年のアプローチと比較して有望な性能を実現している。 While impressive performance has been achieved in image captioning, the limited diversity of the generated captions and the large parameter scale remain major barriers to the real-word application of these systems. In this work, we propose a lightweight image captioning network in combination with continuous diffusion, called Prefix-diffusion. To achieve diversity, we design an efficient method that injects prefix image embeddings into the denoising process of the diffusion model. In order to reduce trainable parameters, we employ a pre-trained model to extract image features and further design an extra mapping network. Prefix-diffusion is able to generate diverse captions with relatively less parameters, while maintaining the fluency and relevance of the captions benefiting from the generative capabilities of the diffusion model. Our work paves the way for scaling up diffusion models for image captioning, and achieves promising performance compared with recent approaches. | 翻訳日:2023-09-12 15:16:11 公開日:2023-09-10 |
# VoiceFlow: 正規化フローマッチングによるテキスト音声合成の効率化 VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching ( http://arxiv.org/abs/2309.05027v1 ) ライセンス: Link先を確認 | Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu | (参考訳) テキストから音声への拡散モデルは、その強力な生成能力から人気があるが、拡散モデルからのサンプリングの本質的な複雑さは、その効率を損なう。
また, サンプリングステップ数を限定して高い合成品質を実現するために, 整流フローマッチングアルゴリズムを用いた音響モデルであるvoiceflowを提案する。
VoiceFlowは、ベクトル場を推定するテキスト入力に基づいて通常の微分方程式にメルスペクトルを生成する過程を定式化する。
整流流法は効率的な合成のためにサンプリング軌道を効果的に整列する。
単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。
さらに,VoiceFlowにおける正流法の妥当性を検証した。 Although diffusion models in text-to-speech have become a popular choice due to their strong generative ability, the intrinsic complexity of sampling from diffusion models harms their efficiency. Alternatively, we propose VoiceFlow, an acoustic model that utilizes a rectified flow matching algorithm to achieve high synthesis quality with a limited number of sampling steps. VoiceFlow formulates the process of generating mel-spectrograms into an ordinary differential equation conditional on text inputs, whose vector field is then estimated. The rectified flow technique then effectively straightens its sampling trajectory for efficient synthesis. Subjective and objective evaluations on both single and multi-speaker corpora showed the superior synthesis quality of VoiceFlow compared to the diffusion counterpart. Ablation studies further verified the validity of the rectified flow technique in VoiceFlow. | 翻訳日:2023-09-12 15:10:06 公開日:2023-09-10 |
# chat2brain: オープンな意味クエリを脳の活性化マップにマッピングする方法 Chat2Brain: A Method for Mapping Open-Ended Semantic Queries to Brain Activation Maps ( http://arxiv.org/abs/2309.05021v1 ) ライセンス: Link先を確認 | Yaonai Wei, Tuo Zhang, Han Zhang, Tianyang Zhong, Lin Zhao, Zhengliang Liu, Chong Ma, Songyao Zhang, Muheng Shang, Lei Du, Xiao Li, Tianming Liu and Junwei Han | (参考訳) 何十年もの間、神経科学は、認知過程の探索に使えるテキストモダリティに多くの研究成果を蓄積してきた。
メタ分析は、これらの研究結果を用いてテキストクエリから脳活性化マップへのリンクを確立する典型的な手法であるが、それでも理想的なクエリ環境に依存している。
実践的な応用では、メタ分析に使われるテキストクエリは意味的冗長性や曖昧さといった問題に遭遇し、脳画像への不正確なマッピングをもたらす。
一方、ChatGPTのような大規模言語モデル(LLM)は、文脈理解や推論といったタスクにおいて大きな可能性を示し、人間の自然言語と高い一貫性を示す。
したがって、LLMはテキストモダリティと神経科学の関連性を改善し、メタ分析の既存の課題を解決することができる。
本研究では,LLMをText2Brainとして知られる基本テキスト2画像モデルと組み合わせたChat2Brainという手法を提案する。
LLMの理解と推論機能を利用することで、テキストクエリをセマンティッククエリに転送することで、マッピングモデルの性能を最適化する。
chat2brainは、テキストクエリのより複雑なタスクのために解剖学的に妥当な神経活性化パターンを合成できることを実証する。 Over decades, neuroscience has accumulated a wealth of research results in the text modality that can be used to explore cognitive processes. Meta-analysis is a typical method that successfully establishes a link from text queries to brain activation maps using these research results, but it still relies on an ideal query environment. In practical applications, text queries used for meta-analyses may encounter issues such as semantic redundancy and ambiguity, resulting in an inaccurate mapping to brain images. On the other hand, large language models (LLMs) like ChatGPT have shown great potential in tasks such as context understanding and reasoning, displaying a high degree of consistency with human natural language. Hence, LLMs could improve the connection between text modality and neuroscience, resolving existing challenges of meta-analyses. In this study, we propose a method called Chat2Brain that combines LLMs to basic text-2-image model, known as Text2Brain, to map open-ended semantic queries to brain activation maps in data-scarce and complex query environments. By utilizing the understanding and reasoning capabilities of LLMs, the performance of the mapping model is optimized by transferring text queries to semantic queries. We demonstrate that Chat2Brain can synthesize anatomically plausible neural activation patterns for more complex tasks of text queries. | 翻訳日:2023-09-12 15:09:54 公開日:2023-09-10 |
# SAソルバー:拡散モデルの高速サンプリングのための確率アダムズソルバー SA-Solver: Stochastic Adams Solver for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2309.05019v1 ) ライセンス: Link先を確認 | Shuchen Xue, Mingyang Yi, Weijian Luo, Shifeng Zhang, Jiacheng Sun, Zhenguo Li, Zhi-Ming Ma | (参考訳) 拡散確率モデル(DPM)は生成タスクでかなりの成功を収めた。
DPM からのサンプリングは、時間を要する拡散 SDE や ODE の解法と等価であるため、改良された微分方程式解法に基づく多数の高速サンプリング手法が提案されている。
このような手法の多くは、その優れた効率性から拡散 ode の解法を考える。
しかし、確率的サンプリングは、多様で高品質なデータを生成する上で、さらなる利点をもたらす可能性がある。
本研究では、分散制御拡散SDEと線形多重ステップSDEソルバの2つの側面から確率的サンプリングを包括的に分析する。
そこで本研究では, 拡散SDEを解き, 高品質なデータを生成するための効率的な確率アダムズ法である SA-Solver を提案する。
実験の結果, SA-Solverは以下の結果を得た。
1) 従来の数段サンプリング法と比較して改善又は同等の性能を有する。
2) 適切な関数評価 (NFE) の下で, かなりのベンチマークデータセットのSOTA FIDスコアが得られた。 Diffusion Probabilistic Models (DPMs) have achieved considerable success in generation tasks. As sampling from DPMs is equivalent to solving diffusion SDE or ODE which is time-consuming, numerous fast sampling methods built upon improved differential equation solvers are proposed. The majority of such techniques consider solving the diffusion ODE due to its superior efficiency. However, stochastic sampling could offer additional advantages in generating diverse and high-quality data. In this work, we engage in a comprehensive analysis of stochastic sampling from two aspects: variance-controlled diffusion SDE and linear multi-step SDE solver. Based on our analysis, we propose SA-Solver, which is an improved efficient stochastic Adams method for solving diffusion SDE to generate data with high quality. Our experiments show that SA-Solver achieves: 1) improved or comparable performance compared with the existing state-of-the-art sampling methods for few-step sampling; 2) SOTA FID scores on substantial benchmark datasets under a suitable number of function evaluations (NFEs). | 翻訳日:2023-09-12 15:09:32 公開日:2023-09-10 |
# devit: エッジデバイスにおける協調推論のためのビジョントランスフォーマーの分解 DeViT: Decomposing Vision Transformers for Collaborative Inference in Edge Devices ( http://arxiv.org/abs/2309.05015v1 ) ライセンス: Link先を確認 | Guanyu Xu, Zhiwei Hao, Yong Luo, Han Hu, Jianping An, Shiwen Mao | (参考訳) 近年では、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成したビジョントランスフォーマー(ViT)が大きな成功を収めている。
しかし、ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約のエッジデバイスへの展開が困難になる。
既存のソリューションは主にViTモデルをコンパクトなモデルに圧縮するが、リアルタイム推論はできない。
そこで本研究では, 変圧器構造の違いを解明し, 大規模ViTを複数の小さなモデルに分解し, エッジデバイスでの協調推論を提案する。
本研究の目的は,大規模vitと同等の精度を維持しつつ,高速かつエネルギー効率の高い協調推論を実現することにある。
そこで我々はまず,大規模なViTを分解してエッジ展開を容易にする,DeViTと呼ばれる協調推論フレームワークを提案する。
続いて,コミュニケーションオーバーヘッドを劇的に低減しつつ,複数の小さな分解モデルを融合させ,大きなvitから分解モデルの模倣を促進するために特徴マッチングモジュールを開発し,異種モデルを扱う,知識蒸留に基づく分解・センスアルゴリズムを設計・設計する。
4つの広範に使用されるデータセットにおける3つのvitバックボーンの広範な実験により、vitの効率的な協調推論が可能となり、既存の軽量vitよりも優れており、効率と精度のトレードオフとなる。
例えば、当社のDeViTsは、GPUサーバ上の大きなViTであるViT-L/16と比較して、CIFAR-100を使用した精度が1.65%しか犠牲にすることなく、エンドツーエンドのレイテンシを2.89$\times$に改善しています。
DeDeiTsは、最新の効率的なViTであるMobileViT-Sを、ImageNet-1Kで3.54%の精度で上回り、1.72$\times$高速で、エッジデバイスで55.28%のエネルギー消費を必要とする。 Recent years have witnessed the great success of vision transformer (ViT), which has achieved state-of-the-art performance on multiple computer vision benchmarks. However, ViT models suffer from vast amounts of parameters and high computation cost, leading to difficult deployment on resource-constrained edge devices. Existing solutions mostly compress ViT models to a compact model but still cannot achieve real-time inference. To tackle this issue, we propose to explore the divisibility of transformer structure, and decompose the large ViT into multiple small models for collaborative inference at edge devices. Our objective is to achieve fast and energy-efficient collaborative inference while maintaining comparable accuracy compared with large ViTs. To this end, we first propose a collaborative inference framework termed DeViT to facilitate edge deployment by decomposing large ViTs. Subsequently, we design a decomposition-and-ensemble algorithm based on knowledge distillation, termed DEKD, to fuse multiple small decomposed models while dramatically reducing communication overheads, and handle heterogeneous models by developing a feature matching module to promote the imitations of decomposed models from the large ViT. Extensive experiments for three representative ViT backbones on four widely-used datasets demonstrate our method achieves efficient collaborative inference for ViTs and outperforms existing lightweight ViTs, striking a good trade-off between efficiency and accuracy. For example, our DeViTs improves end-to-end latency by 2.89$\times$ with only 1.65% accuracy sacrifice using CIFAR-100 compared to the large ViT, ViT-L/16, on the GPU server. DeDeiTs surpasses the recent efficient ViT, MobileViT-S, by 3.54% in accuracy on ImageNet-1K, while running 1.72$\times$ faster and requiring 55.28% lower energy consumption on the edge device. | 翻訳日:2023-09-12 15:09:16 公開日:2023-09-10 |
# 古典量子ハイブリッドモデル Classical-Quantum Hybrid Models ( http://arxiv.org/abs/2309.05014v1 ) ライセンス: Link先を確認 | Daniel R. Terno | (参考訳) ハイブリッド古典量子モデル(hybrid classical-quantum model)は、ある自由度が古典的に扱われる系の時間発展を研究する計算スキームである。
このようなモデルのモチベーションを示し、それらが満たさなければならない要件を概説し、開発に必要な説明を提供する。
さらに, 様々な非相対論的スキームとそれに関連する制限について, 特に可逆的ダイナミクスに着目して検討する。 Hybrid classical-quantum models are computational schemes that investigate the time evolution of systems in which some degrees of freedom are treated classically while others are described quantum-mechanically. We present the motivation for such models, outline the requirements they must satisfy, and provide explanations for their development. Additionally, we review various popular non-relativistic schemes and their associated limitations, with a particular emphasis on reversible dynamics. | 翻訳日:2023-09-12 15:08:42 公開日:2023-09-10 |
# 幾何学的に一貫した部分形状マッチング Geometrically Consistent Partial Shape Matching ( http://arxiv.org/abs/2309.05013v1 ) ライセンス: Link先を確認 | Viktoria Ehm, Paul Roetzer, Marvin Eisenberger, Maolin Gao, Florian Bernard, Daniel Cremers | (参考訳) 3次元形状の対応を見つけることはコンピュータビジョンとグラフィックスにおいて重要な問題であり、例えば形状補間、ポーズ転送、テクスチャ転送といったタスクに関係している。
マッチングのしばしば無視されるが本質的な性質は幾何学的一貫性であり、一方の形状の隣接する三角形は他方の形状の隣接する三角形と一貫して一致することを意味する。
さらに、実際には3次元形状の部分的な観察(例えば、閉塞や走査的アーティファクト)にしかアクセスできないことが多いが、幾何学的に一貫した部分的な形状マッチングを直接扱う方法は存在しない。
本研究では、このギャップを、最先端の深部形状特徴を新しい整数計画部分形状整合式に組み込むことによって埋める。
この最適化により,低分解能形状のグローバル最適解が得られ,粗面から細部までのスキームを用いて精錬した。
提案手法は,既存の幾何学的一貫したアルゴリズム(ダミー幾何で欠落部分を埋めるアルゴリズム)と比較して,より信頼性の高い部分形状の結果が得られることを示す。
さらに,我々のマッチングは,学習に基づく最先端形状マッチング手法よりもかなりスムーズである。 Finding correspondences between 3D shapes is a crucial problem in computer vision and graphics, which is for example relevant for tasks like shape interpolation, pose transfer, or texture transfer. An often neglected but essential property of matchings is geometric consistency, which means that neighboring triangles in one shape are consistently matched to neighboring triangles in the other shape. Moreover, while in practice one often has only access to partial observations of a 3D shape (e.g. due to occlusion, or scanning artifacts), there do not exist any methods that directly address geometrically consistent partial shape matching. In this work we fill this gap by proposing to integrate state-of-the-art deep shape features into a novel integer linear programming partial shape matching formulation. Our optimization yields a globally optimal solution on low resolution shapes, which we then refine using a coarse-to-fine scheme. We show that our method can find more reliable results on partial shapes in comparison to existing geometrically consistent algorithms (for which one first has to fill missing parts with a dummy geometry). Moreover, our matchings are substantially smoother than learning-based state-of-the-art shape matching methods. | 翻訳日:2023-09-12 15:08:32 公開日:2023-09-10 |
# 高調波発生における光位相とコヒーレンスの役割について On the role of the optical phase and coherence in high harmonic generation ( http://arxiv.org/abs/2309.05010v1 ) ライセンス: Link先を確認 | Philipp Stammer | (参考訳) 本研究では,高調波発生過程における光位相と駆動場のコヒーレンスについて解析する。
我々は、非コヒーレントな古典的および非古典的な強光場による高調波発生の過程の駆動を考察し、駆動場の位相が完全に未決定である場合においても、平均電界値が消滅することを示す。
これは、駆動場における量子光コヒーレンスが高調波放射を生成するために必要ではないことを意味し、その結果、これらの場合の放射光コヒーレンスも同様に量子光コヒーレンスを示さない。
さらに、各高調波の最終量子状態が光子数基底において対角的であることを示す。 In this work we analyze the role of the optical phase and coherence of the driving field in the process of high harmonic generation. We consider driving the process of high harmonic generation with incoherent classical and non-classical intense light fields, and show that harmonic radiation can be generated even in cases where the phase of the driving field is completely undetermined leading to vanishing mean electric field values. This implies that quantum optical coherence in the driving field is not necessary for generating high harmonic radiation, with the consequence that the emitted harmonic radiation in those cases do likewise not exhibit quantum optical coherence. We further show that the final quantum state of each harmonic is diagonal in the photon number basis. | 翻訳日:2023-09-12 15:08:14 公開日:2023-09-10 |
# FOLLOWUPQG:情報探索型フォローアップ質問生成に向けて FOLLOWUPQG: Towards Information-Seeking Follow-up Question Generation ( http://arxiv.org/abs/2309.05007v1 ) ライセンス: Link先を確認 | Yan Meng, Liangming Pan, Yixin Cao, Min-Yen Kan | (参考訳) 人間は、創造的な人間の認知過程を反映した好奇心によって駆動されるフォローアップ質問を問う。
本稿では,初期質問と回答のより深い理解を求めるフォローアップ質問を生成することを目的とした,実世界の情報検索フォローアップ質問生成(FQG)の課題を紹介する。
FOLLOWUPQGは3K以上の実世界のデータセット(初期質問、回答、フォローアップ質問)をRedditのフォーラムから収集し、オープンエンドの質問に対してレイマンフレンドリーな説明を提供する。
既存のデータセットとは対照的に、FOLLOWUPQGの質問は情報を求めるためにより多様な実用的戦略を使用し、より高次の認知能力(適用や関連性など)を示す。
フォローアップ質問の生成に有効な質問生成モデルを評価し,ステップバイステップのデモンストレーションに基づいて,フォローアップ質問の特定のタイプを生成する方法について検討する。
結果,FOLLOWUPQGはモデル生成質問が適切であるが,情報量や複雑性の観点からは人為的な質問には程遠いため,評価が難しい。 Humans ask follow-up questions driven by curiosity, which reflects a creative human cognitive process. We introduce the task of real-world information-seeking follow-up question generation (FQG), which aims to generate follow-up questions seeking a more in-depth understanding of an initial question and answer. We construct FOLLOWUPQG, a dataset of over 3K real-world (initial question, answer, follow-up question) tuples collected from a Reddit forum providing layman-friendly explanations for open-ended questions. In contrast to existing datasets, questions in FOLLOWUPQG use more diverse pragmatic strategies to seek information, and they also show higher-order cognitive skills (such as applying and relating). We evaluate current question generation models on their efficacy for generating follow-up questions, exploring how to generate specific types of follow-up questions based on step-by-step demonstrations. Our results validate FOLLOWUPQG as a challenging benchmark, as model-generated questions are adequate but far from human-raised questions in terms of informativeness and complexity. | 翻訳日:2023-09-12 15:08:00 公開日:2023-09-10 |
# マルチモーダルモデルにおけるジェンダーバイアス:地理的地域と文化を考慮したトランスナショナルフェミニストアプローチ Gender Bias in Multimodal Models: A Transnational Feminist Approach Considering Geographical Region and Culture ( http://arxiv.org/abs/2309.04997v1 ) ライセンス: Link先を確認 | Abhishek Mandal, Suzanne Little and Susan Leavy | (参考訳) Contrastive Language Image Pre-Training (CLIP) のような深層学習に基づく視覚言語型マルチモーダルモデルが最近普及し、DALL-EやStable Diffusionといったテキストから画像への生成モデルで使用されている。
しかし、性別やその他の社会的バイアスがこれらのモデルで発見されており、これはAIシステムを通じて増幅され、永続される可能性がある。
本稿では,地域・文化的側面を含む超国家的フェミニズムの概念に基づくジェンダーを考慮したマルチモーダルモデルの監査手法を提案する。
CLIPに焦点をあてて、世界各地の様々なパターンで有意な性別バイアスの証拠を見出した。
有害なステレオタイプ・アソシエーションは、視覚文化の手がかりやテロリズムなどのラベルに関連しても発見された。
クリップ内で発見された性別バイアスのレベルは、社会性平等のグローバル指標と一致し、世界南部のものは性別バイアスの最高レベルを反映している。 Deep learning based visual-linguistic multimodal models such as Contrastive Language Image Pre-training (CLIP) have become increasingly popular recently and are used within text-to-image generative models such as DALL-E and Stable Diffusion. However, gender and other social biases have been uncovered in these models, and this has the potential to be amplified and perpetuated through AI systems. In this paper, we present a methodology for auditing multimodal models that consider gender, informed by concepts from transnational feminism, including regional and cultural dimensions. Focusing on CLIP, we found evidence of significant gender bias with varying patterns across global regions. Harmful stereotypical associations were also uncovered related to visual cultural cues and labels such as terrorism. Levels of gender bias uncovered within CLIP for different regions aligned with global indices of societal gender equality, with those from the Global South reflecting the highest levels of gender bias. | 翻訳日:2023-09-12 15:07:40 公開日:2023-09-10 |
# 一般量子過程における量子非マルコフ性、量子コヒーレンス、抽出可能な仕事 Quantum non-Markovianity, quantum coherence and extractable work in a general quantum process ( http://arxiv.org/abs/2309.04996v1 ) ライセンス: Link先を確認 | Amin Mohammadi and Afshin Shafiee | (参考訳) 量子熱力学における鍵となる概念は、量子システムから抽出できる最大作業量を指定する抽出可能作業である。
抽出可能な仕事を測定するために異なる量を用いるが、その中で最も多く用いられるのはエルゴトロピーであり、非平衡と平衡量子自由エネルギーの違いである。
前者を用いて、開量子系が完全正のトレース保存力学写像によって記述された一般量子過程を通過するとき、抽出可能な仕事の進化を調べる。
熱力学の第一法則と第二法則が組み合わさった方法で、異なる種類のエネルギー変化の関係として、そのような過程に対する熱力学の基本方程式を導出する。
次に,この方程式における可逆過程と不可逆過程の寄与を同定し,その過程における熱の流れと抽出可能な作業の変化にそれぞれ責任があることを実証する。
さらに、量子効果が抽出可能な作業の進化に与える影響を明確に説明するために、この課題の潜在的な利点について論じる。
具体的には、抽出可能な仕事と量子非マルコフ性および量子コヒーレンスの標準量子化子を直接結びつけることで、これを確立する。
これらの結果を2つの例で示します。 A key concept in quantum thermodynamics is extractable work, which specifies the maximum amount of work that can be extracted from a quantum system. Different quantities are used to measure extractable work, the most prevalent of which are ergotropy and the difference between the non-equilibrium and equilibrium quantum free energy. Using the former, we investigate the evolution of extractable work when an open quantum system goes through a general quantum process described by a completely-positive and trace-preserving dynamical map. We derive a fundamental equation of thermodynamics for such processes as a relation between the distinct sorts of energy change in such a way the first and second laws of thermodynamics are combined. We then identify the contributions made by the reversible and irreversible processes in this equation and demonstrate that they are respectively responsible for the heat flow and change in the extractable work during the process. Furthermore, we discuss the potential benefit of this assignment in favor of a clear explanation of the impact of quantum effects on the evolution of extractable work. Specifically, we establish this by directly connecting the extractable work with standard quantifiers of quantum non-Markovianity and quantum coherence during the process. We illustrate these results with two examples. | 翻訳日:2023-09-12 15:07:21 公開日:2023-09-10 |
# 買い手オークション市場におけるフェデレーション学習のインセンティブメカニズム Federated Learning Incentive Mechanism under Buyers' Auction Market ( http://arxiv.org/abs/2309.05063v1 ) ライセンス: Link先を確認 | Jiaxi Yang, Zihao Guo, Sheng Cao, Cuifang Zhao, Li-Chuan Tsai | (参考訳) オークションベースのフェデレートラーニング(AFL)は、利己的なデータ消費者とデータ所有者のオープンなコラボレーションを可能にする。
既存のAFLアプローチは、売り手としてのサービスクライアントが不足するリソースとして扱われ、アグリゲーションサーバが買い手として競う必要があるという、販売者の市場を前提としているのが一般的である。
しかし、技術が進歩するにつれて、より多くの資格を持つクライアントがフェデレーション学習タスクを実行できるようになり、売り手市場から買い手市場への移行に繋がる。
本稿では,購入者市場における価格動向を説明するため,調達オークションの枠組みを適応させることで,角度をシフトする。
我々のモデリングは、完全な情報の下で基本的な設定から始まり、売り手の情報が完全に観察できないシナリオへと進む。
信頼性とデータ品質の高いクライアントを選択し、外部からの攻撃を防ぐために、ブロックチェーンベースの評判メカニズムを利用する。
実験の結果,本手法の有効性が検証された。 Auction-based Federated Learning (AFL) enables open collaboration among self-interested data consumers and data owners. Existing AFL approaches are commonly under the assumption of sellers' market in that the service clients as sellers are treated as scarce resources so that the aggregation servers as buyers need to compete the bids. Yet, as the technology progresses, an increasing number of qualified clients are now capable of performing federated learning tasks, leading to shift from sellers' market to a buyers' market. In this paper, we shift the angle by adapting the procurement auction framework, aiming to explain the pricing behavior under buyers' market. Our modeling starts with basic setting under complete information, then move further to the scenario where sellers' information are not fully observable. In order to select clients with high reliability and data quality, and to prevent from external attacks, we utilize a blockchain-based reputation mechanism. The experimental results validate the effectiveness of our approach. | 翻訳日:2023-09-12 15:00:09 公開日:2023-09-10 |
# 単一および結合量子memristorのmemristivityを最大化するための機械学習 Machine Learning for maximizing the memristivity of single and coupled quantum memristors ( http://arxiv.org/abs/2309.05062v1 ) ライセンス: Link先を確認 | Carlos Hernani-Morales, Gabriel Alvarado, Francisco Albarr\'an-Arriagada, Yolanda Vives-Gilabert, Enrique Solano, Jos\'e D. Mart\'in-Guerrero | (参考訳) 本稿では,単一および結合量子メムリスタの記憶特性を特徴付ける機械学習(ML)手法を提案する。
メムリスティビティを最大化すると、2つの量子メムリスタの絡み合いの度合いが大きくなり、量子相関とメモリの密接な関係が明らかにされる。
本研究は,ニューロモルフィック量子コンピューティングの重要な構成要素として量子メmristorを用いる可能性を強化する。 We propose machine learning (ML) methods to characterize the memristive properties of single and coupled quantum memristors. We show that maximizing the memristivity leads to large values in the degree of entanglement of two quantum memristors, unveiling the close relationship between quantum correlations and memory. Our results strengthen the possibility of using quantum memristors as key components of neuromorphic quantum computing. | 翻訳日:2023-09-12 14:59:53 公開日:2023-09-10 |
# lihof4における強ハイブリダイゼーション電子核スピン励起のキャビティ・マグノン・ポーラリトン分光 Cavity-Magnon-Polariton spectroscopy of strongly hybridized electro-nuclear spin excitations in LiHoF4 ( http://arxiv.org/abs/2309.05051v1 ) ライセンス: Link先を確認 | Yikai Yang, Peter Babkevich, Richard Gaal, Ivica Zivkovic, Henrik M. Ronnow | (参考訳) まず, 入力-出力形式と線形応答理論を組み込んだ形式論を提示し, 空洞-マグノン-ポーラリトンカップリングを強いハイブリダイゼーションされた電子核スピン励起を調べるための分光ツールとして用いる。
強ハイブリダイゼーションキャビティ-マグノン-ポーラリトン系における一般感受性と散乱パラメータ |s11| の微視的関係は、半古典的近似に頼らずに導かれた。
フォーマリズムは、モデル量子イジング磁石(LiHoF4)と高精細3D共振器からなる特定の系を解析およびシミュレートするために適用される。
lihof4の電子-核スピン状態の定量的な情報を抽出するとともに、量子臨界点を横断する外部磁場を含む広いパラメータ領域での実験的観測を数値的に再現した。
この手法は、LiHoF4の量子相転移のさらなる研究だけでなく、幅広い複雑な磁気システムにも新たな道を開く可能性がある。 We first present a formalism that incorporates the input-output formalism and the linear response theory to employ cavity-magnon-polariton coupling as a spectroscopic tool for investigating strongly hybridized electro-nuclear spin excitations. A microscopic relation between the generalized susceptibility and the scattering parameter |S11| in strongly hybridized cavity-magnon-polariton systems has been derived without resorting to semi-classical approximations. The formalism is then applied to both analyze and simulate a specific systems comprising a model quantum Ising magnet (LiHoF4) and a high-finesse 3D re-entrant cavity resonator. Quantitative information on the electro-nuclear spin states in LiHoF4 is extracted, and the experimental observations across a broad parameter range were numerically reproduced, including an external magnetic field titraversing a quantum critical point. The method potentially opens a new avenue not only for further studies on the quantum phase transition in LiHoF4 but also for a wide range of complex magnetic systems. | 翻訳日:2023-09-12 14:59:43 公開日:2023-09-10 |
# 一般画像における多視点自己教師付き乱れ Multi-view Self-supervised Disentanglement for General Image Denoising ( http://arxiv.org/abs/2309.05049v1 ) ライセンス: Link先を確認 | Hao Chen, Chenyuan Qu, Yu Zhang, Chen Chen, Jianbo Jiao | (参考訳) 性能が大幅に向上したことにより、ディープラーニングパラダイムは、現代の画像認識ツールの標準ツールとなった。
ノイズ分布に有望な性能が示されてきたが、既存の手法は、目に見えないノイズタイプや一般および実雑音への一般化に悩まされることが多い。
モデルはペアのマッピング(ノイズの多い画像からクリーンなバージョンまで)を学ぶように設計されているので理解できる。
そこで本稿では,同画像の異なる劣化バージョンが共通の潜伏空間を共有しているという直感的な仮定の下で,ノイズを解消する学習を提案する。
潜在クリーンなイメージを見ることなく、目標を達成するために、自己教師付き学習フレームワークが提案されている。
入力と同じ画像の2つの異なる劣化バージョンを取ることで、提案されたMulti-view Self-supervised Disentanglement (MeD)アプローチは、潜伏したクリーンな特徴を破損から切り離し、クリーンなイメージを復元する。
合成ノイズと実雑音の両方に対する広範囲な実験解析により,従来の自己監督手法よりも提案手法の方が優れていることが示された。
実雑音では,提案手法は3dB以上の教師付きノイズよりも優れている。 With its significant performance improvements, the deep learning paradigm has become a standard tool for modern image denoisers. While promising performance has been shown on seen noise distributions, existing approaches often suffer from generalisation to unseen noise types or general and real noise. It is understandable as the model is designed to learn paired mapping (e.g. from a noisy image to its clean version). In this paper, we instead propose to learn to disentangle the noisy image, under the intuitive assumption that different corrupted versions of the same clean image share a common latent space. A self-supervised learning framework is proposed to achieve the goal, without looking at the latent clean image. By taking two different corrupted versions of the same image as input, the proposed Multi-view Self-supervised Disentanglement (MeD) approach learns to disentangle the latent clean features from the corruptions and recover the clean image consequently. Extensive experimental analysis on both synthetic and real noise shows the superiority of the proposed method over prior self-supervised approaches, especially on unseen novel noise types. On real noise, the proposed method even outperforms its supervised counterparts by over 3 dB. | 翻訳日:2023-09-12 14:59:11 公開日:2023-09-10 |
# コードスイッチング翻訳におけるアライメント対象の影響 The Effect of Alignment Objectives on Code-Switching Translation ( http://arxiv.org/abs/2309.05044v1 ) ライセンス: Link先を確認 | Mohamed Anwar | (参考訳) 機械翻訳に関して変更が必要なことの1つは、特にソーシャルメディアやユーザー生成コンテンツの台頭によって、コードスイッチングされたコンテンツを翻訳するモデルの能力である。
本稿では,ある言語から別の言語への単言語文の翻訳が可能な単一機械翻訳モデルの学習方法を提案する。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
並列データの利用性を向上させるため,言語間の表現を整合させるエンコーダのアライメント損失とともに,合成符号切り換え(csw)データを生成する。
WMT14の英語/フランス語(En-Fr)データセットを使用して、トレーニングされたモデルは、コード変更なし(モノリンガル)データの品質を維持しながら、コードスイッチ付き翻訳の双方向ベースラインを強く上回る。 One of the things that need to change when it comes to machine translation is the models' ability to translate code-switching content, especially with the rise of social media and user-generated content. In this paper, we are proposing a way of training a single machine translation model that is able to translate monolingual sentences from one language to another, along with translating code-switched sentences to either language. This model can be considered a bilingual model in the human sense. For better use of parallel data, we generated synthetic code-switched (CSW) data along with an alignment loss on the encoder to align representations across languages. Using the WMT14 English-French (En-Fr) dataset, the trained model strongly outperforms bidirectional baselines on code-switched translation while maintaining quality for non-code-switched (monolingual) data. | 翻訳日:2023-09-12 14:58:34 公開日:2023-09-10 |
# 何が近いのか?
室内環境におけるロボット視覚言語学習のための室内局所学習 What Is Near?: Room Locality Learning for Enhanced Robot Vision-Language-Navigation in Indoor Living Environments ( http://arxiv.org/abs/2309.05036v1 ) ライセンス: Link先を確認 | Muraleekrishna Gopinathan, Jumana Abu-Khalaf, David Suter, Sidike Paheding and Nathir A. Rawashdeh | (参考訳) 人間は、以前の経験から得られた共通の家のレイアウトに関する知識を使って、新しい環境をナビゲートしながら近くの部屋を予測する。
これにより、これまで見えない環境をナビゲートし、ターゲットの部屋を見つけるのに大いに役立ちます。
視覚言語ナビゲーション(VLN)タスクのための共通知識学習モデルであるWIN(\textit{W}hat \textit{I}s \textit{N}ear)を提案する。
VLNは、記述的なナビゲーション命令に基づいて屋内環境を横断するエージェントを必要とする。
既存のレイアウト学習作業とは異なり、WINは生活空間の事前の知識と現在の観察に基づいて、環境全体の想像上のグローバルマップに基づいて、局所的な近隣マップを予測する。
このモデルは、現在の観測、航法史、レイアウト常識の視覚的手がかりに基づいて、周辺地域を推論する。
本研究は,局所的知識に基づく局所的グローバル計画と屋内レイアウト予測により,エージェントが効率的に適切な行動を選択できることを示す。
具体的には,視覚的な入力や指示に加えて,意思決定に先立ってこの局所性を利用するクロスモーダルトランスフォーマーを考案した。
実験の結果,winを用いた局所性学習は従来のvlnエージェントよりも優れた一般化性をもたらすことがわかった。
我々のモデルは標準的なVLN測定値で良好に動作し、成功率68\%、成功率63\%は見当たらない環境でのパス長63\%である。 Humans use their knowledge of common house layouts obtained from previous experiences to predict nearby rooms while navigating in new environments. This greatly helps them navigate previously unseen environments and locate their target room. To provide layout prior knowledge to navigational agents based on common human living spaces, we propose WIN (\textit{W}hat \textit{I}s \textit{N}ear), a commonsense learning model for Vision Language Navigation (VLN) tasks. VLN requires an agent to traverse indoor environments based on descriptive navigational instructions. Unlike existing layout learning works, WIN predicts the local neighborhood map based on prior knowledge of living spaces and current observation, operating on an imagined global map of the entire environment. The model infers neighborhood regions based on visual cues of current observations, navigational history, and layout common sense. We show that local-global planning based on locality knowledge and predicting the indoor layout allows the agent to efficiently select the appropriate action. Specifically, we devised a cross-modal transformer that utilizes this locality prior for decision-making in addition to visual inputs and instructions. Experimental results show that locality learning using WIN provides better generalizability compared to classical VLN agents in unseen environments. Our model performs favorably on standard VLN metrics, with Success Rate 68\% and Success weighted by Path Length 63\% in unseen environments. | 翻訳日:2023-09-12 14:57:50 公開日:2023-09-10 |
# 米国と中国の科学協力の展開:収束と多様化 Evolving landscape of US-China science collaboration: Convergence and divergence ( http://arxiv.org/abs/2309.05033v1 ) ライセンス: Link先を確認 | Kensei Kitajima and Keisuke Okamura | (参考訳) 世界規模の科学機関間の国際共同研究は、ここ数十年で明らかに収束傾向を示している。
特に、米国と中国は様々な科学分野にまたがる協力関係を著しく強化し、グローバルな科学知識生産における国家レベルの双極体としての地位を固めてきた。
しかし、最近の報告は、この2つの巨人間の協力関係が減少する可能性を示唆している。
米国と中国の関係における協力と格差の間の複雑な相互作用を理解することは、学界と政策指導者の両方にとって不可欠である。
その重要性にも拘わらず、時間とともにダイナミズムを適切にカプセル化する定量的な証拠が目立って残っている。
この知識ギャップを埋めるために、この研究は、ここ数十年にわたって米国と中国の間の相互作用の進化の風景に展開してきた。
本研究は,OpenAlexから得られた文献データから得られた論文識別子と研究者識別子に基づく2つのアプローチを用いる。
いずれのアプローチも,米国と中国の関係の特異かつダイナミックな性質を明らかにしており,その特徴は,当初は急速な収束を特徴とするコラボレーションパターンと,近年の分岐相である。 International research collaboration among global scientific powerhouses has exhibited a discernible trend towards convergence in recent decades. Notably, the US and China have significantly fortified their collaboration across diverse scientific disciplines, solidifying their status as a national-level duopoly in global scientific knowledge production. However, recent reports hint at a potential decline in collaboration between these two giants, even amidst the backdrop of advancing global convergence. Understanding the intricate interplay between cooperation and disparity within the US-China relationship is vital for both academia and policy leaders, as it provides invaluable insights into the potential future trajectory of global science collaboration. Despite its significance, there remains a noticeable dearth of quantitative evidence that adequately encapsulates the dynamism across disciplines and over time. To bridge this knowledge gap, this study delves into the evolving landscape of interaction between the US and China over recent decades. This investigation employs two approaches, one based on paper identifiers and the other on researcher identifiers, both obtained from bibliometric data sourced from OpenAlex. From both approaches, our findings unveil the unique and dynamic nature of the US-China relationship, characterised by a collaboration pattern initially marked by rapid convergence, followed by a recent phase of divergence. | 翻訳日:2023-09-12 14:57:10 公開日:2023-09-10 |
# マルチモーダルな人間行動認識のための統一コントラスト融合変換器 Unified Contrastive Fusion Transformer for Multimodal Human Action Recognition ( http://arxiv.org/abs/2309.05032v1 ) ライセンス: Link先を確認 | Kyoung Ok Yang, Junho Koh, Jun Won Choi | (参考訳) 様々な種類のセンサーが人間の行動認識(HAR)モデルを開発すると考えられている。
異なるセンサが取得したマルチモーダルデータを融合することにより、ロバストなHAR性能を実現することができる。
本稿では,HAR性能を向上させるために,多様な分布にデータを統合するために設計された,Unified Contrastive Fusion Transformer (UCFFormer) と呼ばれる新しいマルチモーダル融合アーキテクチャを提案する。
それぞれのモダリティから抽出された埋め込み機能に基づいて、UCFFormerはUnified Transformerを使用して、時間とモダリティの両方のドメインにおける埋め込み間の依存性をキャプチャする。
本稿では,統一トランスの自己着脱を効率的に行うために,因子化時間モダリティに着目した。
UCFFormerはまた、コントラスト学習を取り入れて、様々なモダリティにまたがる特徴分布の差を減らし、情報融合のための意味的に整合した特徴を生成する。
2つの一般的なデータセット(UTD-MHADとNTU RGB+D)で実施された性能評価は、UCFFormerが最先端のパフォーマンスを達成し、競合する手法よりもかなり優れていることを示す。 Various types of sensors have been considered to develop human action recognition (HAR) models. Robust HAR performance can be achieved by fusing multimodal data acquired by different sensors. In this paper, we introduce a new multimodal fusion architecture, referred to as Unified Contrastive Fusion Transformer (UCFFormer) designed to integrate data with diverse distributions to enhance HAR performance. Based on the embedding features extracted from each modality, UCFFormer employs the Unified Transformer to capture the inter-dependency among embeddings in both time and modality domains. We present the Factorized Time-Modality Attention to perform self-attention efficiently for the Unified Transformer. UCFFormer also incorporates contrastive learning to reduce the discrepancy in feature distributions across various modalities, thus generating semantically aligned features for information fusion. Performance evaluation conducted on two popular datasets, UTD-MHAD and NTU RGB+D, demonstrates that UCFFormer achieves state-of-the-art performance, outperforming competing methods by considerable margins. | 翻訳日:2023-09-12 14:56:48 公開日:2023-09-10 |
# デコロニアルaiアライメント:vi\'{s}esadharma, argument, and artistic expression Decolonial AI Alignment: Vi\'{s}esadharma, Argument, and Artistic Expression ( http://arxiv.org/abs/2309.05030v1 ) ライセンス: Link先を確認 | Kush R. Varshney | (参考訳) それまでの作業は、人工知能(AI)の開発と展開の植民地性に関するものだった。
大きな言語モデル(llm)の動作を、きめ細かい人間のフィードバックに基づいて、望ましい値に合わせるように調整する。
他の慣習に加えて、植民地主義は植民地化された人々の信念と価値観を変える歴史があり、この歴史は現在のLLMアライメントの慣行で再カプセル化されている。
私たちは、aiアライメントを3つの提案を使ってデコロニゼーションすることを提案します。
(a)道徳哲学の基礎を西洋哲学からダルマに変更。
b)アライメント技術における議論や多元論の伝統を許し、
(c) 自然言語の指示又は命令を越えて価値の認識を拡大すること。 Prior work has explicated the coloniality of artificial intelligence (AI) development and deployment. One process that that work has not engaged with much is alignment: the tuning of large language model (LLM) behavior to be in line with desired values based on fine-grained human feedback. In addition to other practices, colonialism has a history of altering the beliefs and values of colonized peoples; this history is recapitulated in current LLM alignment practices. We suggest that AI alignment be decolonialized using three proposals: (a) changing the base moral philosophy from Western philosophy to dharma, (b) permitting traditions of argument and pluralism in alignment technologies, and (c) expanding the epistemology of values beyond instructions or commandments given in natural language. | 翻訳日:2023-09-12 14:56:27 公開日:2023-09-10 |
# SC-NeRF:スパースビューによる自己補正型ニューラル放射場 SC-NeRF: Self-Correcting Neural Radiance Field with Sparse Views ( http://arxiv.org/abs/2309.05028v1 ) ライセンス: Link先を確認 | Liang Song, Guangming Wang, Jiuming Liu, Zhenyang Fu, Yanzi Miao, and Hesheng | (参考訳) 近年の研究では、新しい視点合成タスクのための神経放射野の一般化が広く研究されている。
しかし、既存の方法は室内や物体に限られている。
本研究では,オブジェクトレベルのデータセットにのみトレーニングされた屋外シーンに一般化タスクを拡張する。
このアプローチには2つの課題がある。
まず、トレーニングとテストのシーン間の大きな分散シフトは、レンダリング結果に黒のアーティファクトをもたらします。
第二に、屋外シーンの視点の変化は、レンダリング画像のゴーストや欠落の原因となる。
これらの課題に対処するため,マルチヘッドアテンション機構に基づく幾何補正モジュールと外観修正モジュールを提案する。
我々は描画深度を正規化し、注意機構のクエリとして光方向と組み合わせる。
本ネットワークは,屋外シーンにおける様々なシーン構造や幾何学的特徴を効果的に補正し,オブジェクトレベルから見えない屋外シーンまでを一般化する。
さらに,外観補正モジュールを用いて外観特徴を補正し,視点変化による空白境界やゴーストなどのレンダリングアーティファクトを防止した。
これらのモジュールを組み合わせることで、屋外シーンの一般化の課題に対処し、高品質なレンダリング結果が得られる。
4つのデータセット(Blender, DTU, LLFF, Spaces)で評価すると,ネットワークは従来の手法よりも優れていた。
特にMVSNeRFと比較して、当社のネットワークは平均PSNRを19.369から25.989、SSIMを0.838から0.889、LPIPSを0.265から0.224に削減している。 In recent studies, the generalization of neural radiance fields for novel view synthesis task has been widely explored. However, existing methods are limited to objects and indoor scenes. In this work, we extend the generalization task to outdoor scenes, trained only on object-level datasets. This approach presents two challenges. Firstly, the significant distributional shift between training and testing scenes leads to black artifacts in rendering results. Secondly, viewpoint changes in outdoor scenes cause ghosting or missing regions in rendered images. To address these challenges, we propose a geometric correction module and an appearance correction module based on multi-head attention mechanisms. We normalize rendered depth and combine it with light direction as query in the attention mechanism. Our network effectively corrects varying scene structures and geometric features in outdoor scenes, generalizing well from object-level to unseen outdoor scenes. Additionally, we use appearance correction module to correct appearance features, preventing rendering artifacts like blank borders and ghosting due to viewpoint changes. By combining these modules, our approach successfully tackles the challenges of outdoor scene generalization, producing high-quality rendering results. When evaluated on four datasets (Blender, DTU, LLFF, Spaces), our network outperforms previous methods. Notably, compared to MVSNeRF, our network improves average PSNR from 19.369 to 25.989, SSIM from 0.838 to 0.889, and reduces LPIPS from 0.265 to 0.224 on Spaces outdoor scenes. | 翻訳日:2023-09-12 14:56:17 公開日:2023-09-10 |
# トランスモンキュービットのデコヒーレンス時間に関する事例研究 Case Study of Decoherence Times of Transmon Qubit ( http://arxiv.org/abs/2309.05081v1 ) ライセンス: Link先を確認 | H. Zarrabi, S. Hajihosseini, M. Fardmanesh, S.I. Mirzaei | (参考訳) 過去20年間、量子物理学における興味深いテーマの1つは量子ビット(qubits)である。
重ね合わせ原理のおかげで、量子ビットは同時に多くの計算を実行できるため、計算の速度と容量が大幅に増加する。
クビットが励起状態にある時間はデコヒーレンス時間(decoherence time)と呼ばれる。
デコヒーレンス時間はキュービットの種類や材料によって大きく異なる。
今日、短いデコヒーレンス時間は超伝導量子ビットに基づく量子コンピュータの実装におけるボトルネックの1つである。
本研究では,トランスモン量子ビットのトポロジーについて検討し,数値計算によりノイズ,フラックス,臨界電流によるデコヒーレンス時間を算出する。 In the past two decades, one of the fascinating subjects in quantum physics has been quantum bits (qubits). Thanks to the superposition principle, the qubits can perform many calculations simultaneously, which will significantly increase the speed and capacity of the calculations. The time when a qubit lives in an excited state is called decoherence time. The decoherence time varies considerably depending on the qubit type and materials. Today, short decoherence times are one of the bottlenecks in implementing quantum computers based on superconducting qubits. In this research, the topology of the transmon qubit is investigated, and the decoherence time caused by noise, flux, and critical current noise is calculated by numerical method. | 翻訳日:2023-09-12 14:49:51 公開日:2023-09-10 |
# 表データに対する教師付き生成最適化手法 A supervised generative optimization approach for tabular data ( http://arxiv.org/abs/2309.05079v1 ) ライセンス: Link先を確認 | Fadi Hamad, Shinpei Nakamura-Sakai, Saheed Obitayo, Vamsi K. Potluru | (参考訳) 合成データ生成は、プライバシー保護やデータ拡張など、複数の要因によって駆動される金融機関にとって重要なトピックとして浮上している。
合成データ生成のために多くのアルゴリズムが提案されているが、特定のデータセットやユースケースで使用するべき方法のコンセンサスに達するのは困難である。
さらに、既存のアプローチの大半は、下流のタスクを考慮していないという意味で‘unsupervised’である。
これらの問題に対処するため、本研究では新しい合成データ生成フレームワークを提案する。
このフレームワークは、特定の下流タスクに適した教師ありコンポーネントを統合し、メタラーニングアプローチを用いて既存の合成分布の最適混合分布を学習する。 Synthetic data generation has emerged as a crucial topic for financial institutions, driven by multiple factors, such as privacy protection and data augmentation. Many algorithms have been proposed for synthetic data generation but reaching the consensus on which method we should use for the specific data sets and use cases remains challenging. Moreover, the majority of existing approaches are ``unsupervised'' in the sense that they do not take into account the downstream task. To address these issues, this work presents a novel synthetic data generation framework. The framework integrates a supervised component tailored to the specific downstream task and employs a meta-learning approach to learn the optimal mixture distribution of existing synthetic distributions. | 翻訳日:2023-09-12 14:49:41 公開日:2023-09-10 |
# 有界更新を伴う反復学習アルゴリズムの一般化誤差境界 Generalization error bounds for iterative learning algorithms with bounded updates ( http://arxiv.org/abs/2309.05077v1 ) ライセンス: Link先を確認 | Jingwen Fu and Nanning Zheng | (参考訳) 本稿では,非凸損失関数の有界更新による反復学習アルゴリズムの一般化特性について,情報理論的手法を用いて検討する。
我々の重要な貢献は、SGD(Stochastic Gradient Descent)にのみ焦点をあてた以前の研究の範囲を超えて、境界更新を伴うこれらのアルゴリズムの一般化エラーに対する新しいバウンダリである。
私たちのアプローチは2つの大きなノベルティを導入します。
1) 相互情報を更新の不確実性として改定し、新たな視点を提供する。
2) 相互情報の連鎖規則を使う代わりに, 分散分解法を用いて反復的に情報を分解し, より単純な代理プロセスを実現する。
様々な設定下での一般化を解析し,トレーニングデータサンプル数と同じ速度でモデル次元が増加すると境界が改善されることを示す。
理論と実践のギャップを埋めるため,前述した大規模言語モデルのスケーリング挙動についても検討した。
究極的には、我々の研究は実用的な一般化理論を開発するためのさらなる一歩を踏み出します。 This paper explores the generalization characteristics of iterative learning algorithms with bounded updates for non-convex loss functions, employing information-theoretic techniques. Our key contribution is a novel bound for the generalization error of these algorithms with bounded updates, extending beyond the scope of previous works that only focused on Stochastic Gradient Descent (SGD). Our approach introduces two main novelties: 1) we reformulate the mutual information as the uncertainty of updates, providing a new perspective, and 2) instead of using the chaining rule of mutual information, we employ a variance decomposition technique to decompose information across iterations, allowing for a simpler surrogate process. We analyze our generalization bound under various settings and demonstrate improved bounds when the model dimension increases at the same rate as the number of training data samples. To bridge the gap between theory and practice, we also examine the previously observed scaling behavior in large language models. Ultimately, our work takes a further step for developing practical generalization theories. | 翻訳日:2023-09-12 14:49:29 公開日:2023-09-10 |
# 感情型言語モデルゲームエージェントのための評価型連鎖感情アーキテクチャ An Appraisal-Based Chain-Of-Emotion Architecture for Affective Language Model Game Agents ( http://arxiv.org/abs/2309.05076v1 ) ライセンス: Link先を確認 | Maximilian Croissant, Madeleine Frister, Guy Schofield, Cade McCall | (参考訳) 信じられないほど自然でインタラクティブなデジタルエージェントの開発は、関心が高まっている分野である。
理論的不確実性と技術的な障壁は、特に人間の感情を効果的にシミュレートするエージェントの開発に関して、この分野にかなりの課題をもたらす。
大規模言語モデル(LLM)は、状況評価において共通のパターンをタップすることでこれらの問題に対処する。
本研究は,3つの実験実験において,感情知能課題の解決と感情のシミュレートを行うLLMの能力を検証した。
心理学的評価研究に基づいて,ゲーム内の感情シミュレーションのための新たな感情連鎖アーキテクチャを提示し,評価する。
その結果,標準的なLCMアーキテクチャよりもユーザエクスペリエンスやコンテンツ分析の指標が優れていることがわかった。
そこで本研究では,言語モデルで表される認知過程に基づいた感情的エージェントの構築とテストの方法に関する初期の証拠を提供する。 The development of believable, natural, and interactive digital artificial agents is a field of growing interest. Theoretical uncertainties and technical barriers present considerable challenges to the field, particularly with regards to developing agents that effectively simulate human emotions. Large language models (LLMs) might address these issues by tapping common patterns in situational appraisal. In three empirical experiments, this study tests the capabilities of LLMs to solve emotional intelligence tasks and to simulate emotions. It presents and evaluates a new chain-of-emotion architecture for emotion simulation within video games, based on psychological appraisal research. Results show that it outperforms standard LLM architectures on a range of user experience and content analysis metrics. This study therefore provides early evidence of how to construct and test affective agents based on cognitive processes represented in language models. | 翻訳日:2023-09-12 14:49:11 公開日:2023-09-10 |
# FreeMan: 野生での3D人物推定のベンチマークを目指す FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild ( http://arxiv.org/abs/2309.05073v1 ) ライセンス: Link先を確認 | Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Ruimao Zhang | (参考訳) 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。
このタスクはAIGCや人間-ロボットインタラクションといった分野において非常に重要である。
実際、現実の環境での3次元ポーズ推定は、この問題を解決するための重要な初期ステップである。
しかし、複雑なモーションキャプチャー装置と未知の背景を用いて制御された実験室条件下で収集される現在のデータセットは不十分である。
現実世界のデータセットがないため、この重要なタスクの進捗は停滞している。
3次元ポーズ推定の開発を容易にするために,最初の大規模実世界マルチビューデータセットであるfreemanを提案する。
freemanはさまざまなシナリオで8台のスマートフォンを同期させた。
8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。
これらのシーケンスは、それぞれ異なる照明条件を持つ10のシナリオにわたる40の被験者をカバーする。
また,大規模処理を効率的に行えるように,高精度なラベリングパイプラインも構築した。
さまざまなタスクに対する総合的な評価基準を提供し,freemanが抱える重要な課題を概説する。
標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。
FreeManはhttps://wangjiongw.github.io/freeman.comで公開されている。 Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. This task carries great importance for fields like AIGC and human-robot interaction. In practice, 3D human pose estimation in real-world settings is a critical initial step in solving this problem. However, the current datasets, often collected under controlled laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of real-world datasets is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, real-world multi-view dataset. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an automated, precise labeling pipeline that allows for large-scale processing efficiently. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. FreeMan is now publicly available at https://wangjiongw.github.io/freeman. | 翻訳日:2023-09-12 14:48:57 公開日:2023-09-10 |
# 不確かさを定量化した時空間グラフニューラルネットワークによる交通事故リスク予測 Spatiotemporal Graph Neural Networks with Uncertainty Quantification for Traffic Incident Risk Prediction ( http://arxiv.org/abs/2309.05072v1 ) ライセンス: Link先を確認 | Xiaowei Gao, Xinke Jiang, Dingyi Zhuang, Huanfa Chen, Shenhao Wang, James Haworth | (参考訳) 粒度の時空間レベルでのトラフィックインシデントリスクの予測は困難である。
データセットは主にゼロ値で、インシデントを示さず、深刻なインシデントに対する散発的なハイリスク値である。
特に、現在のモデルの大部分、特にディープラーニングの手法は、本質的に予測不能なインシデントの性質から生じる不確実性を見越して、リスク値の推定のみに焦点を当てている。
この課題に対処するために、時空間ゼロ膨張ツイーディグラフニューラルネットワーク(STZITD-GNN)を導入する。
本モデルでは,従来の統計モデルの信頼性とグラフニューラルネットワークの柔軟性を融合し,道路交通インシデントリスクに関連する不確実性を正確に定量化することを目的としている。
このモデルは、リスク頻度とガンマ分布をモデル化するためにポアソン分布として、トウィージー族からの複合モデルを戦略的に採用している。
さらに、ゼロ膨張コンポーネントは、非インシデントリスクシナリオを特定するのに役立つ。
その結果、STZITD-GNNはデータセットの歪んだ分布を効果的に捉え、頻繁だが影響の激しいインシデントに重点を置いている。
ロンドンの現実の交通データを用いた実証テストでは、我々のモデルは現在のベンチマークを超えています。
STZITD-GNNの砦は正確さだけでなく、不確かさの削減にも優れており、短い(7日)と長い(14日)の時間枠で堅牢な予測を提供する。 Predicting traffic incident risks at granular spatiotemporal levels is challenging. The datasets predominantly feature zero values, indicating no incidents, with sporadic high-risk values for severe incidents. Notably, a majority of current models, especially deep learning methods, focus solely on estimating risk values, overlooking the uncertainties arising from the inherently unpredictable nature of incidents. To tackle this challenge, we introduce the Spatiotemporal Zero-Inflated Tweedie Graph Neural Networks (STZITD-GNNs). Our model merges the reliability of traditional statistical models with the flexibility of graph neural networks, aiming to precisely quantify uncertainties associated with road-level traffic incident risks. This model strategically employs a compound model from the Tweedie family, as a Poisson distribution to model risk frequency and a Gamma distribution to account for incident severity. Furthermore, a zero-inflated component helps to identify the non-incident risk scenarios. As a result, the STZITD-GNNs effectively capture the dataset's skewed distribution, placing emphasis on infrequent but impactful severe incidents. Empirical tests using real-world traffic data from London, UK, demonstrate that our model excels beyond current benchmarks. The forte of STZITD-GNN resides not only in its accuracy but also in its adeptness at curtailing uncertainties, delivering robust predictions over short (7 days) and extended (14 days) timeframes. | 翻訳日:2023-09-12 14:48:40 公開日:2023-09-10 |
# 低分解スライスによる超解像表面の再構成 Super-Resolution Surface Reconstruction from Few Low-Resolution Slices ( http://arxiv.org/abs/2309.05071v1 ) ライセンス: Link先を確認 | Yiyao Zhang and Ke Chen and Shang-Hua Yang | (参考訳) 他の数値シミュレーション(有限要素解析など)でセグメント化された特徴(血管など)がさらに使用される多くのイメージングアプリケーションでは、得られた表面はタスクに適した微細な解像度を持たない。
このような表面の分解能を高めることが重要となる。
本稿では,Euler-Elastica-based regulariserに基づく新しい変分モデルを提案する。
さらに, このモデルの解法として, 投影勾配降下法と乗算器の交互方向法という2つの数値アルゴリズムを提案し, 実装した。
実例(他の変分モデルの出力から2つを含む)を用いた数値実験が有効性を示す。
新しいモデルの利点は、離散幾何学の観点からのガウス曲率と平均曲率の標準偏差による定量的比較によって示される。 In many imaging applications where segmented features (e.g. blood vessels) are further used for other numerical simulations (e.g. finite element analysis), the obtained surfaces do not have fine resolutions suitable for the task. Increasing the resolution of such surfaces becomes crucial. This paper proposes a new variational model for solving this problem, based on an Euler-Elastica-based regulariser. Further, we propose and implement two numerical algorithms for solving the model, a projected gradient descent method and the alternating direction method of multipliers. Numerical experiments using real-life examples (including two from outputs of another variational model) have been illustrated for effectiveness. The advantages of the new model are shown through quantitative comparisons by the standard deviation of Gaussian curvatures and mean curvatures from the viewpoint of discrete geometry. | 翻訳日:2023-09-12 14:48:14 公開日:2023-09-10 |
# 侵入者の追跡: 侵入者追跡のための強化学習アプローチ Chasing the Intruder: A Reinforcement Learning Approach for Tracking Intruder Drones ( http://arxiv.org/abs/2309.05070v1 ) ライセンス: Link先を確認 | Shivam Kainth, Subham Sahoo, Rajtilak Pal, Shashi Shekhar Jha | (参考訳) ドローンは、無数のアプリケーションで多用途になりつつある。
これにより、制限されたまたはプライベートな空域へのスパイや侵入にドローンが使われるようになった。
このようなドローン技術の悪用は多くの重要なインフラの安全性と安全性にとって危険である。
加えて、ドローンの低コストな設計と機敏さのために、従来のレーダーシステムを使ってそれらを特定し追跡することが難しい課題である。
本稿では,追尾ドローンを用いて侵入ドローンを識別・追跡するための強化学習に基づく手法を提案する。
提案手法は、強化学習の政策学習フレームワークにインターリーブされたコンピュータビジョン技術を用いて、侵入機を追尾する制御ポリシーを学習する。
システム全体が、ArdupilotベースのフライトコントローラとともにROSとGazeboを使用して実装されている。
その結果,強化学習に基づくポリシーが収束し,侵入ドローンの識別と追跡が可能となった。
さらに、侵入機ドローンの速度や方向の変化に対して、学習ポリシーは堅牢である。 Drones are becoming versatile in a myriad of applications. This has led to the use of drones for spying and intruding into the restricted or private air spaces. Such foul use of drone technology is dangerous for the safety and security of many critical infrastructures. In addition, due to the varied low-cost design and agility of the drones, it is a challenging task to identify and track them using the conventional radar systems. In this paper, we propose a reinforcement learning based approach for identifying and tracking any intruder drone using a chaser drone. Our proposed solution uses computer vision techniques interleaved with the policy learning framework of reinforcement learning to learn a control policy for chasing the intruder drone. The whole system has been implemented using ROS and Gazebo along with the Ardupilot based flight controller. The results show that the reinforcement learning based policy converges to identify and track the intruder drone. Further, the learnt policy is robust with respect to the change in speed or orientation of the intruder drone. | 翻訳日:2023-09-12 14:48:00 公開日:2023-09-10 |
# ゼロショットHOI検出のための爆発的CLIPは複数のレベルでの知識蒸留を必要とする Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels ( http://arxiv.org/abs/2309.05069v1 ) ライセンス: Link先を確認 | Bo Wan and Tinne Tuytelaars | (参考訳) 本稿では、タスク固有のアノテーションを必要とせずにHOIを識別するための新しいパラダイムである、ゼロショットヒューマンオブジェクトインタラクション(HOI)検出のタスクについて検討する。
この課題に対処するために,我々は,多段階の知識蒸留にvlm(large-scale pre-trained vision-language model)を使用する。
具体的には、CLIPを利用した多分岐ニューラルネットワークを設計し、グローバル画像、人間とオブジェクトのペアを含む局所的な連合領域、人間やオブジェクトの個々のインスタンスなど、さまざまなレベルでHOI表現を学習する。
我々のモデルをトレーニングするために、CLIPを使用して、監督信号として機能するグローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
本研究は多段階CLIP知識統合戦略の有効性を実証するものである。
特に、このモデルは、HICO-DETベンチマークの完全な教師付きおよび弱教師付きメソッドに匹敵する高い性能を達成する。 In this paper, we investigate the task of zero-shot human-object interaction (HOI) detection, a novel paradigm for identifying HOIs without the need for task-specific annotations. To address this challenging task, we employ CLIP, a large-scale pre-trained vision-language model (VLM), for knowledge distillation on multiple levels. Specifically, we design a multi-branch neural network that leverages CLIP for learning HOI representations at various levels, including global images, local union regions encompassing human-object pairs, and individual instances of humans or objects. To train our model, CLIP is utilized to generate HOI scores for both global images and local union regions that serve as supervision signals. The extensive experiments demonstrate the effectiveness of our novel multi-level CLIP knowledge integration strategy. Notably, the model achieves strong performance, which is even comparable with some fully-supervised and weakly-supervised methods on the public HICO-DET benchmark. | 翻訳日:2023-09-12 14:47:45 公開日:2023-09-10 |
# 突然変異に基づく深部ニューラルネットワークの故障位置推定 Mutation-based Fault Localization of Deep Neural Networks ( http://arxiv.org/abs/2309.05067v1 ) ライセンス: Link先を確認 | Ali Ghanbari, Deepak-George Thomas, Muhammad Arbab Arshad, Hridesh Rajan | (参考訳) ディープニューラルネットワーク(DNN)は、他のタイプのソフトウェアシステムと同じように、バグに影響を受けやすい。
DNNの使用の大幅な増加と、安全クリティカルシステムを含む広範囲の分野への応用により、DNNベースのシステムの信頼性を向上させるためのソフトウェア工学ツールに関する広範な研究が保証される。
近年注目されているツールの1つは、DNNフォールトローカライゼーションである。
本稿では,DNNモデルの文脈における突然変異に基づく障害局所化を再検討し,幅広いDNNモデルに適用可能なDeepmuflという新しい手法を提案する。
我々はdeepmuflを実装し,stackoverflowから得られた109のバグを用いてその効果を評価した。
以上の結果から,deepmuflはバグの53/109をトップ1にランク付けし,deepmuflがサポートするバグのクラスをターゲットとして設計された静的および動的dnnフォールトローカライズシステムを上回って,バグの53/109を検出できることがわかった。
さらに, 変異選択を用いた事前学習モデルでは, フォールトローカライズ時間を半減できるが, トップ1に局在するバグの7.55%しか失われないことがわかった。 Deep neural networks (DNNs) are susceptible to bugs, just like other types of software systems. A significant uptick in using DNN, and its applications in wide-ranging areas, including safety-critical systems, warrant extensive research on software engineering tools for improving the reliability of DNN-based systems. One such tool that has gained significant attention in the recent years is DNN fault localization. This paper revisits mutation-based fault localization in the context of DNN models and proposes a novel technique, named deepmufl, applicable to a wide range of DNN models. We have implemented deepmufl and have evaluated its effectiveness using 109 bugs obtained from StackOverflow. Our results show that deepmufl detects 53/109 of the bugs by ranking the buggy layer in top-1 position, outperforming state-of-the-art static and dynamic DNN fault localization systems that are also designed to target the class of bugs supported by deepmufl. Moreover, we observed that we can halve the fault localization time for a pre-trained model using mutation selection, yet losing only 7.55% of the bugs localized in top-1 position. | 翻訳日:2023-09-12 14:47:28 公開日:2023-09-10 |
# カーネルリッジ回帰を用いた非線形グランガー因果関係 Nonlinear Granger Causality using Kernel Ridge Regression ( http://arxiv.org/abs/2309.05107v1 ) ライセンス: Link先を確認 | Wojciech "Victor" Fulmyk | (参考訳) 非線形グランガー因果関係の同定を目的とした新しいアルゴリズムと,それに伴うPythonライブラリであるmlcausalityを紹介した。
このアルゴリズムはフレキシブルなプラグインアーキテクチャを用いており、研究者は任意の非線形回帰器をベース予測モデルとして利用することができる。
その後、予測回帰器が放射基底関数カーネルを持つカーネルリッジ回帰器である場合に、mlcausalityの総合的な性能解析を行う。
その結果,カーネルリッジ回帰を用いたmlcausalityは,多種多様なシミュレーションデータ間で競合するAUCスコアを得ることができた。
さらに、カーネルリッジ回帰によるmlcausalityは、競合するアルゴリズムと比較してより微調整された$p$-valueが得られる。
この強化により、直感的な$p$-value-based thresholding criteriaを使用する場合、mlcausalityは優れた精度スコアを得ることができる。
最後に、カーネルリッジ回帰によるmlcausalityは、既存の非線形グランガー因果アルゴリズムと比較して計算時間を著しく短縮する。
実際、多くの例において、この革新的なアプローチは、競合するアルゴリズムが必要とするものよりも桁違いに短い計算時間枠内で優れた解を実現できる。 I introduce a novel algorithm and accompanying Python library, named mlcausality, designed for the identification of nonlinear Granger causal relationships. This novel algorithm uses a flexible plug-in architecture that enables researchers to employ any nonlinear regressor as the base prediction model. Subsequently, I conduct a comprehensive performance analysis of mlcausality when the prediction regressor is the kernel ridge regressor with the radial basis function kernel. The results demonstrate that mlcausality employing kernel ridge regression achieves competitive AUC scores across a diverse set of simulated data. Furthermore, mlcausality with kernel ridge regression yields more finely calibrated $p$-values in comparison to rival algorithms. This enhancement enables mlcausality to attain superior accuracy scores when using intuitive $p$-value-based thresholding criteria. Finally, mlcausality with the kernel ridge regression exhibits significantly reduced computation times compared to existing nonlinear Granger causality algorithms. In fact, in numerous instances, this innovative approach achieves superior solutions within computational timeframes that are an order of magnitude shorter than those required by competing algorithms. | 翻訳日:2023-09-12 14:38:38 公開日:2023-09-10 |
# 確率環境における凸Q学習の拡張版 Convex Q Learning in a Stochastic Environment: Extended Version ( http://arxiv.org/abs/2309.05105v1 ) ライセンス: Link先を確認 | Fan Lu and Sean Meyn | (参考訳) 本稿では,マルコフ決定過程に対する凸Q-ラーニングの最初の定式化について述べる。
アルゴリズムと理論は、マンネの有名な線形プログラミングの最適制御の特徴付けの双対の緩和にかかっている。
本研究の主な貢献は、まず、緩和の特質を、決定論的凸プログラム(Deterministic convex program)として記述し、境界解の条件を特定し、新しい凸プログラムの解と標準Q-ラーニングの解との有意な関係を明らかにすることである。
第2の貢献はアルゴリズムの設計と分析に関するものです。
i)Q学習のための凸プログラムを近似する直接モデルフリー手法は,その理想とプロパティを共有する。
特に、有界解は基底関数の単純性質に従属することが保証される。
2) 提案アルゴリズムは収束し, 平均二乗感覚における収束率を得るための新しい手法が導入された。
(iii) この手法は, 性能基準の範囲に一般化することができ, 「相対」動的プログラミング方程式を考慮すれば, ばらつきを低減できることがわかった。
(iv)この理論は、古典的在庫管理問題への応用によって示される。 The paper introduces the first formulation of convex Q-learning for Markov decision processes with function approximation. The algorithms and theory rest on a relaxation of a dual of Manne's celebrated linear programming characterization of optimal control. The main contributions firstly concern properties of the relaxation, described as a deterministic convex program: we identify conditions for a bounded solution, and a significant relationship between the solution to the new convex program, and the solution to standard Q-learning. The second set of contributions concern algorithm design and analysis: (i) A direct model-free method for approximating the convex program for Q-learning shares properties with its ideal. In particular, a bounded solution is ensured subject to a simple property of the basis functions; (ii) The proposed algorithms are convergent and new techniques are introduced to obtain the rate of convergence in a mean-square sense; (iii) The approach can be generalized to a range of performance criteria, and it is found that variance can be reduced by considering ``relative'' dynamic programming equations; (iv) The theory is illustrated with an application to a classical inventory control problem. | 翻訳日:2023-09-12 14:38:22 公開日:2023-09-10 |
# agent: 答えられない質問を自動的に生成する新しいパイプライン AGent: A Novel Pipeline for Automatically Creating Unanswerable Questions ( http://arxiv.org/abs/2309.05103v1 ) ライセンス: Link先を確認 | Son Quoc Tran, Gia-Huy Do, Phong Nguyen-Thuan Do, Matt Kretchmar, Xinya Du | (参考訳) 大規模な高品質データセットと高性能モデルの開発は、抽出質問回答(EQA)分野において大きな進歩をもたらした。
この進歩は、EQAドメイン内で解決不可能な質問を探索することに大きな関心を呼んだ。
疑問の余地のないEQAモデルのトレーニングは、有効な応答が欠けているクエリに対して、誤解を招く、あるいは誤った回答を抽出するのを避けるのに役立つ。
しかし、手作業で説明できない質問は労働集約的である。
そこで本研究では,質問を適切な回答に必要な情報を持たないコンテキストで再マッチングすることで,解決不可能な質問を自動的に生成する新しいパイプラインであるAGentを提案する。
本稿では,SQuAD と HotpotQA の解答可能な質問から2組の解答不可能な質問を生成することにより,この AGent パイプラインの有用性を実証する。
これらの質問セットは低いエラー率を示す。
さらに、これらの質問に微調整されたモデルは、複数のEQAベンチマークでSQuAD 2.0データセットに微調整されたモデルと同等のパフォーマンスを示している。 The development of large high-quality datasets and high-performing models have led to significant advancements in the domain of Extractive Question Answering (EQA). This progress has sparked considerable interest in exploring unanswerable questions within the EQA domain. Training EQA models with unanswerable questions helps them avoid extracting misleading or incorrect answers for queries that lack valid responses. However, manually annotating unanswerable questions is labor-intensive. To address this, we propose AGent, a novel pipeline that automatically creates new unanswerable questions by re-matching a question with a context that lacks the necessary information for a correct answer. In this paper, we demonstrate the usefulness of this AGent pipeline by creating two sets of unanswerable questions from answerable questions in SQuAD and HotpotQA. These created question sets exhibit low error rates. Additionally, models fine-tuned on these questions show comparable performance with those fine-tuned on the SQuAD 2.0 dataset on multiple EQA benchmarks. | 翻訳日:2023-09-12 14:38:04 公開日:2023-09-10 |
# 確率的勾配Descentに基づく生体ニューラルネットワークの学習は可能か?
確率過程を用いた解析 Is Learning in Biological Neural Networks based on Stochastic Gradient Descent? An analysis using stochastic processes ( http://arxiv.org/abs/2309.05102v1 ) ライセンス: Link先を確認 | S\"oren Christensen and Jan Kallsen | (参考訳) 近年、バイオニューラルネットワーク(BNN)での学習と人工ニューラルネットワークでの学習との違いについて、激しい議論がなされている。
脳内の接続の更新は局所的な情報にのみ依存しているため、確率的勾配差型最適化法は使用できないとしばしば主張されている。
本稿では,BNNにおける教師あり学習のための確率モデルについて検討する。
我々は,各学習機会を多くのローカル更新によって処理した場合に,(連続的な)勾配ステップが生じることを示す。
この結果は,確率勾配降下がBNNの最適化に果たす役割を示唆している。 In recent years, there has been an intense debate about how learning in biological neural networks (BNNs) differs from learning in artificial neural networks. It is often argued that the updating of connections in the brain relies only on local information, and therefore a stochastic gradient-descent type optimization method cannot be used. In this paper, we study a stochastic model for supervised learning in BNNs. We show that a (continuous) gradient step occurs approximately when each learning opportunity is processed by many local updates. This result suggests that stochastic gradient descent may indeed play a role in optimizing BNNs. | 翻訳日:2023-09-12 14:37:47 公開日:2023-09-10 |
# キーポイント発見のための3次元インシシトトランスポーター 3D Implicit Transporter for Temporally Consistent Keypoint Discovery ( http://arxiv.org/abs/2309.05098v1 ) ライセンス: Link先を確認 | Chengliang Zhong, Yuhang Zheng, Yupeng Zheng, Hao Zhao, Li Yi, Xiaodong Mu, Ling Wang, Pengfei Li, Guyue Zhou, Chao Yang, Xinliang Zhang, Jian Zhao | (参考訳) keypointベースの表現は、様々な視覚やロボットのタスクで有利であることが証明されている。
しかし、既存の2次元および3次元のキーポイント検出法は、空間的アライメントを達成するために幾何学的一貫性を主に依存しており、時間的一貫性を無視している。
この問題に対処するため、2次元データに対してトランスポーター方式を導入し、対象フレームをソースフレームから再構成し、空間情報と時間情報の両方を取り込む。
しかし、トランスポーターの3d点雲への直接適用は、2d像との構造的な違いのため実現不可能である。
そこで我々は,ハイブリッドな3次元表現,クロスアテンション,暗黙の再構築を活用したトランスポーターの最初の3次元バージョンを提案する。
本研究では,この学習システムを3次元音節オブジェクトと非剛性動物(ヒトとネズミ)に適用し,学習キーポイントが時空間的に一貫したことを示す。
さらに,学習したキーポイントを3dオブジェクト操作に用いるクローズドループ制御戦略を提案し,その優れた性能を示す。
コードはhttps://github.com/zhongcl-thu/3D-Implicit-Transporterで入手できる。 Keypoint-based representation has proven advantageous in various visual and robotic tasks. However, the existing 2D and 3D methods for detecting keypoints mainly rely on geometric consistency to achieve spatial alignment, neglecting temporal consistency. To address this issue, the Transporter method was introduced for 2D data, which reconstructs the target frame from the source frame to incorporate both spatial and temporal information. However, the direct application of the Transporter to 3D point clouds is infeasible due to their structural differences from 2D images. Thus, we propose the first 3D version of the Transporter, which leverages hybrid 3D representation, cross attention, and implicit reconstruction. We apply this new learning system on 3D articulated objects and nonrigid animals (humans and rodents) and show that learned keypoints are spatio-temporally consistent. Additionally, we propose a closed-loop control strategy that utilizes the learned keypoints for 3D object manipulation and demonstrate its superior performance. Codes are available at https://github.com/zhongcl-thu/3D-Implicit-Transporter. | 翻訳日:2023-09-12 14:37:38 公開日:2023-09-10 |
# MaskRenderer:3D融合マルチマスクリアリスティック顔再現 MaskRenderer: 3D-Infused Multi-Mask Realistic Face Reenactment ( http://arxiv.org/abs/2309.05095v1 ) ライセンス: Link先を確認 | Tina Behrouzi, Atefeh Shahroudnejad, Payam Mousavi | (参考訳) 本研究では,現実的かつ高忠実なフレームをリアルタイムに生成できる,エンドツーエンドの顔認識システムMaskRendererを提案する。
最近の顔再現研究は有望な結果を示しているが、特に大きなポーズの変化や隠蔽された顔に対して、アイデンティティの漏洩や口の動きの模倣といった重要な課題がある。
MaskRendererはこれらの問題に対処する
(i)2d表現と比較してポーズの変化、咬合、口の動きをよりよく扱うための3dmmの3d顔構造
二 身元保存を改善するための訓練の際、相互行為を組み込む三重項損失関数
(iii)多変量咬合、塗り込みの改善、欠落領域の修復。
VoxCeleb1テストセットで実施された総合的な定量的および定性的実験は、MaskRendererが、特にソースとドライビングのアイデンティティが非常に異なる場合、見えない顔の最先端モデルよりも優れていることを示した。 We present a novel end-to-end identity-agnostic face reenactment system, MaskRenderer, that can generate realistic, high fidelity frames in real-time. Although recent face reenactment works have shown promising results, there are still significant challenges such as identity leakage and imitating mouth movements, especially for large pose changes and occluded faces. MaskRenderer tackles these problems by using (i) a 3DMM to model 3D face structure to better handle pose changes, occlusion, and mouth movements compared to 2D representations; (ii) a triplet loss function to embed the cross-reenactment during training for better identity preservation; and (iii) multi-scale occlusion, improving inpainting and restoring missing areas. Comprehensive quantitative and qualitative experiments conducted on the VoxCeleb1 test set, demonstrate that MaskRenderer outperforms state-of-the-art models on unseen faces, especially when the Source and Driving identities are very different. | 翻訳日:2023-09-12 14:37:19 公開日:2023-09-10 |
# 雑音ラベルを用いた適応型等角分類 Adaptive conformal classification with noisy labels ( http://arxiv.org/abs/2309.05092v1 ) ライセンス: Link先を確認 | Matteo Sesia, Y. X. Rachel Wang, Xin Tong | (参考訳) 本稿では,キャリブレーションサンプルのランダムラベル汚染に自動的に適応可能な分類タスクに対する新しいコンフォメーション予測手法を開発し,最先端の手法と比較して,より強力なカバレッジ保証を備えた情報的予測セットを実現する。
これはラベル汚染の存在下で標準共形推論によって被る有効範囲インフレーション(またはデフレ)の正確な理論的特徴付けによって実現され、新しいキャリブレーションアルゴリズムによって実行可能である。
我々のソリューションは柔軟であり、ラベル汚染プロセスに関する様々なモデリング仮定を活用できるが、データ分布や機械学習分類器の内部動作に関する知識は不要である。
提案手法の利点は、広範囲なシミュレーションと、CIFAR-10H画像データセットを用いたオブジェクト分類への応用によって実証される。 This paper develops novel conformal prediction methods for classification tasks that can automatically adapt to random label contamination in the calibration sample, enabling more informative prediction sets with stronger coverage guarantees compared to state-of-the-art approaches. This is made possible by a precise theoretical characterization of the effective coverage inflation (or deflation) suffered by standard conformal inferences in the presence of label contamination, which is then made actionable through new calibration algorithms. Our solution is flexible and can leverage different modeling assumptions about the label contamination process, while requiring no knowledge about the data distribution or the inner workings of the machine-learning classifier. The advantages of the proposed methods are demonstrated through extensive simulations and an application to object classification with the CIFAR-10H image data set. | 翻訳日:2023-09-12 14:37:00 公開日:2023-09-10 |
# 走査効率:オンデバイス推論のための医用イメージングモデルの作成 Sculpting Efficiency: Pruning Medical Imaging Models for On-Device Inference ( http://arxiv.org/abs/2309.05090v1 ) ライセンス: Link先を確認 | Sudarshan Sreeram and Bernhard Kainz | (参考訳) 医療にMLの進歩を適用することで、患者の成果が向上する。
しかし、従来のハードウェアやマルチモーダルのギガピクセルイメージと組み合わせたMLモデルの運用上の複雑さは、リアルタイムのオンデバイス推論に厳しいデプロイメント制限をもたらす。
我々は, フィルタープルーニングを解として, 心臓学および眼科領域のセグメンテーションモデルを探究する。
予備実験の結果, 圧縮速度は最大1148倍であり, 品質の低下は最小限であり, 既製のモデルを使用する場合, タスクの複雑さやアーキテクチャの詳細を考慮する必要性が強調された。
高い圧縮率では、フィルタ処理されたモデルはGPUベースラインよりも高速な推論を示す。
また,そのようなモデルの強靭性と一般性特性が,ベースラインおよび重み付けされたモデルよりも優れていることを示す。
興味深い質問を明らかにし、コスト効率のよい疾患の診断、モニタリング、予防的解決策の実現に向けて一歩を踏み出します。 Applying ML advancements to healthcare can improve patient outcomes. However, the sheer operational complexity of ML models, combined with legacy hardware and multi-modal gigapixel images, poses a severe deployment limitation for real-time, on-device inference. We consider filter pruning as a solution, exploring segmentation models in cardiology and ophthalmology. Our preliminary results show a compression rate of up to 1148x with minimal loss in quality, stressing the need to consider task complexity and architectural details when using off-the-shelf models. At high compression rates, filter-pruned models exhibit faster inference on a CPU than the GPU baseline. We also demonstrate that such models' robustness and generalisability characteristics exceed that of the baseline and weight-pruned counterparts. We uncover intriguing questions and take a step towards realising cost-effective disease diagnosis, monitoring, and preventive solutions. | 翻訳日:2023-09-12 14:36:46 公開日:2023-09-10 |
# グローバルヘルスのための信頼できる人工知能を目指して Towards Trustworthy Artificial Intelligence for Equitable Global Health ( http://arxiv.org/abs/2309.05088v1 ) ライセンス: Link先を確認 | Hong Qin, Jude Kong, Wandi Ding, Ramneek Ahluwalia, Christo El Morr, Zeynep Engin, Jake Okechukwu Effoduh, Rebecca Hwa, Serena Jingchuan Guo, Laleh Seyyed-Kalantari, Sylvia Kiwuwa Muyingo, Candace Makeda Moore, Ravi Parikh, Reva Schwartz, Dongxiao Zhu, Xiaoqian Wang, Yiye Zhang | (参考訳) 人工知能(AI)は世界的な健康を変革する可能性があるが、アルゴリズムバイアスは社会的不平等と格差を悪化させる可能性がある。
信頼できるAIは、株式の確保と潜在的なバイアスを軽減するために意図的な設計を必要とする。
グローバルヘルスにおいて信頼できるAIを促進するために、私たちはFairMI4GH(Machine Intelligence for Global Health)というワークショップを開催しました。
このイベントでは、さまざまな分野、コミュニティヘルス実践者、政策立案者などの専門家が世界中に集結した。
トピックは、社会技術システムにおけるAIバイアスの管理、AIのグローバルヘルスへの影響の可能性、データのプライバシと透明性のバランスなどだ。
パネルディスカッションでは、世界保健におけるAIの文化的、政治的、倫理的側面について検討した。
FairMI4GHは対話を刺激し、知識伝達を促進し、革新的なソリューションを創り出した。
NISTのAI Risk Management Frameworkを引き合いに出し、AIのリスクとバイアスを扱うための提案を提供した。
研究設計段階からデータバイアスを緩和し、人間中心のアプローチを採用し、AI透明性を提唱する必要性が認識された。
法的フレームワークの更新、国境を越えたデータ共有の管理、開発者のバイアス軽減への動機付けといった課題が認められた。
このイベントは、公平なグローバルヘルスのための公正で倫理的なAIフレームワークを作成するために、多様な視点と多次元対話の必要性を強調した。 Artificial intelligence (AI) can potentially transform global health, but algorithmic bias can exacerbate social inequities and disparity. Trustworthy AI entails the intentional design to ensure equity and mitigate potential biases. To advance trustworthy AI in global health, we convened a workshop on Fairness in Machine Intelligence for Global Health (FairMI4GH). The event brought together a global mix of experts from various disciplines, community health practitioners, policymakers, and more. Topics covered included managing AI bias in socio-technical systems, AI's potential impacts on global health, and balancing data privacy with transparency. Panel discussions examined the cultural, political, and ethical dimensions of AI in global health. FairMI4GH aimed to stimulate dialogue, facilitate knowledge transfer, and spark innovative solutions. Drawing from NIST's AI Risk Management Framework, it provided suggestions for handling AI risks and biases. The need to mitigate data biases from the research design stage, adopt a human-centered approach, and advocate for AI transparency was recognized. Challenges such as updating legal frameworks, managing cross-border data sharing, and motivating developers to reduce bias were acknowledged. The event emphasized the necessity of diverse viewpoints and multi-dimensional dialogue for creating a fair and ethical AI framework for equitable global health. | 翻訳日:2023-09-12 14:36:29 公開日:2023-09-10 |
# Neural-Hidden-CRF:ロバストに監視された配列ラベル Neural-Hidden-CRF: A Robust Weakly-Supervised Sequence Labeler ( http://arxiv.org/abs/2309.05086v1 ) ライセンス: Link先を確認 | Zhijun Chen, Hailong Sun, Wanhao Zhang, Chunyi Xu, Qianren Mao, Pengpeng Chen | (参考訳) 本稿では,ニューラルネットワークを用いた非方向性グラフモデルであるNeural-Hidden-CRFを提案する。
確率的非指向グラフ理論の傘の下で、隠れたCRF層に埋め込まれたニューラルハイデンCRFは、非指向的グラフィカルモデルが特に楽しむ大局的な視点で、単語列、潜在地真実列、弱いラベル列の変数をモデル化する。
Neural-Hidden-CRFでは、強力な言語モデルBERTや他の深層モデルを利用して、潜伏した基底真理シーケンスにリッチな文脈意味知識を提供し、隠れたCRF層を使用して内部ラベルの依存関係をキャプチャすることができる。
Neural-Hidden-CRFは概念的にはシンプルで、経験的に強力である。
1つのクラウドソーシングベンチマークと3つの弱いスーパービジョンベンチマークで、最新の先進モデルCHMMを平均2.80F1ポイントと2.23F1ポイントでそれぞれ上回っている。 We propose a neuralized undirected graphical model called Neural-Hidden-CRF to solve the weakly-supervised sequence labeling problem. Under the umbrella of probabilistic undirected graph theory, the proposed Neural-Hidden-CRF embedded with a hidden CRF layer models the variables of word sequence, latent ground truth sequence, and weak label sequence with the global perspective that undirected graphical models particularly enjoy. In Neural-Hidden-CRF, we can capitalize on the powerful language model BERT or other deep models to provide rich contextual semantic knowledge to the latent ground truth sequence, and use the hidden CRF layer to capture the internal label dependencies. Neural-Hidden-CRF is conceptually simple and empirically powerful. It obtains new state-of-the-art results on one crowdsourcing benchmark and three weak-supervision benchmarks, including outperforming the recent advanced model CHMM by 2.80 F1 points and 2.23 F1 points in average generalization and inference performance, respectively. | 翻訳日:2023-09-12 14:36:07 公開日:2023-09-10 |
# Outlier Robust Adversarial Training Outlier Robust Adversarial Training ( http://arxiv.org/abs/2309.05145v1 ) ライセンス: Link先を確認 | Shu Hu, Zhenhuan Yang, Xin Wang, Yiming Ying, Siwei Lyu | (参考訳) 教師付き学習モデルは、外来者や少数民族などの訓練データの本質的な複雑さや、敵対的サンプルによる推論時の意図的な攻撃に悩まされる。
従来のロバスト学習手法と近年の敵対的トレーニングアプローチは,これら2つの課題をそれぞれ対処するために設計されているが,これまでは,低品質のトレーニングデータと潜在的な敵対的攻撃を同時に行うモデルを開発する作業は行われていない。
そこで我々は,本研究において,外在的ロバストな対向訓練(orat)を導入する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
理論的には、オラトの学習目的は二項分類における$\mathcal{h}$-consistencyを満たすことを示し、これは逆0/1の損失に対する適切な代理として確立する。
さらに,その一般化能力を分析し,一様収束率を高い確率で提供する。
ORATは単純なアルゴリズムで最適化できる。
3つのベンチマークデータセットの実験的評価は、外乱や敵攻撃を扱う上でのORATの有効性と堅牢性を示している。
私たちのコードはhttps://github.com/discovershu/orat.comで利用可能です。 Supervised learning models are challenged by the intrinsic complexities of training data such as outliers and minority subpopulations and intentional attacks at inference time with adversarial samples. While traditional robust learning methods and the recent adversarial training approaches are designed to handle each of the two challenges, to date, no work has been done to develop models that are robust with regard to the low-quality training data and the potential adversarial attack at inference time simultaneously. It is for this reason that we introduce Outlier Robust Adversarial Training (ORAT) in this work. ORAT is based on a bi-level optimization formulation of adversarial training with a robust rank-based loss function. Theoretically, we show that the learning objective of ORAT satisfies the $\mathcal{H}$-consistency in binary classification, which establishes it as a proper surrogate to adversarial 0/1 loss. Furthermore, we analyze its generalization ability and provide uniform convergence rates in high probability. ORAT can be optimized with a simple algorithm. Experimental evaluations on three benchmark datasets demonstrate the effectiveness and robustness of ORAT in handling outliers and adversarial attacks. Our code is available at https://github.com/discovershu/ORAT. | 翻訳日:2023-09-12 14:30:28 公開日:2023-09-10 |
# 3次元のヒルベルト部分空間における絡み合いと分離性の幾何学 Geometry of entanglement and separability in Hilbert subspaces of dimension up to three ( http://arxiv.org/abs/2309.05144v1 ) ライセンス: Link先を確認 | Rotem Liss, Tal Mor, Andreas Winter | (参考訳) 二成分量子系と多成分量子系の3次元ヒルベルト部分空間における絡み合い状態と分離状態の幾何学の完全な分類を示す。
解析は、与えられた3次元ヒルベルト部分空間における純積状態の幾何学的構造を見つけることから始まり、同じ部分空間上のすべての分離可能および絡み合った混合状態を決定する。
バイパルタイト系では、任意の3次元ヒルベルト部分空間における可分状態の集合に対して、14の可能な定性的に異なる幾何学的形状を特徴づける(このクラスは2次元部分空間に現れ、ボイヤー、リス、モー(Phys. Rev. A 95:032308, 2017)によって発見され、解析され、また9つの新しいクラスは3次元部分空間にのみ現れる)。
また、これらの結果を一般化して、多部系の3次元部分空間における完全分離および絡み合った状態の集合を特徴づける。
この結果から, 量子エンタングルメントの幾何学的形状は, 低次元部分空間では成り立たないことを示す。 We present a complete classification of the geometry of entangled and separable states in three-dimensional Hilbert subspaces of bipartite and multipartite quantum systems. Our analysis begins by finding the geometric structure of the pure product states in a given three-dimensional Hilbert subspace, which determines all the possible separable and entangled mixed states over the same subspace. In bipartite systems, we characterise the 14 possible qualitatively different geometric shapes for the set of separable states in any three-dimensional Hilbert subspace (5 classes which also appear in two-dimensional subspaces and were found and analysed by Boyer, Liss and Mor [Phys. Rev. A 95:032308, 2017], and 9 novel classes which appear only in three-dimensional subspaces), describe their geometries, and provide figures illustrating them. We also generalise these results to characterise the sets of fully separable and entangled states in three-dimensional subspaces of multipartite systems. Our results show which geometrical forms quantum entanglement can and cannot take in low-dimensional subspaces. | 翻訳日:2023-09-12 14:30:07 公開日:2023-09-10 |
# 外国語内容の難易度推定のための大規模言語モデルと言語学習への応用 Large Language Models for Difficulty Estimation of Foreign Language Content with Application to Language Learning ( http://arxiv.org/abs/2309.05142v1 ) ライセンス: Link先を確認 | Michalis Vlachos and Mircea Lungu and Yash Raj Shrestha and Johannes-Rudolf David | (参考訳) 私たちは、外国語の習熟度を高めるために、大きな言語モデルを使用します。
これは、ユーザが興味を持っているトピックのコンテンツを特定し、その外国語の学習者の習熟度と密接に一致させることによって達成される。
私たちの仕事はフランス語のコンテンツに集中していますが、アプローチは他の言語に簡単に移行できます。
私たちのソリューションには,既存の言語学習ソリューションと区別する,いくつかの特徴がある。
イ 学習者が関心を抱く話題にまたがる内容の発見により、動機付けが高まること。
b) 従来の可読性尺度よりも正確な内容の言語難易度の推定
c) テキストコンテンツとビデオコンテンツの両方が利用可能であること。
ビデオコンテンツの言語的複雑さは、ビデオキャプションに由来する。
このような技術は,学習者の興味や学習目標に適合するために,話題や内容の難しさを継続的に適応させることによって,学習者が言語学習プロセスに引き続き関与することを可能にすることを願っている。 We use large language models to aid learners enhance proficiency in a foreign language. This is accomplished by identifying content on topics that the user is interested in, and that closely align with the learner's proficiency level in that foreign language. Our work centers on French content, but our approach is readily transferable to other languages. Our solution offers several distinctive characteristics that differentiate it from existing language-learning solutions, such as, a) the discovery of content across topics that the learner cares about, thus increasing motivation, b) a more precise estimation of the linguistic difficulty of the content than traditional readability measures, and c) the availability of both textual and video-based content. The linguistic complexity of video content is derived from the video captions. It is our aspiration that such technology will enable learners to remain engaged in the language-learning process by continuously adapting the topics and the difficulty of the content to align with the learners' evolving interests and learning objectives. | 翻訳日:2023-09-12 14:29:42 公開日:2023-09-10 |
# クライミングロボットによる岩盤割れ検出のための骨格型アプローチ A Skeleton-based Approach For Rock Crack Detection Towards A Climbing Robot Application ( http://arxiv.org/abs/2309.05139v1 ) ライセンス: Link先を確認 | Josselin Somerville Roberts, Paul-Emile Giacomelli, Yoni Gozlan, Julia Di | (参考訳) 従来の車輪付きロボットは、科学的に興味深いが危険な洞窟環境を横切ることができない。
ReachBotのような登山ロボットは、不規則な表面の特徴を把握し、障害物を克服するためにクライミング動作を実行することができる。
そこで本研究では,岩盤のひび割れやエッジを検出する手法であるスケルトン交点損失(skil)を提案する。
SKILは、ラベルの骨格を利用する薄いオブジェクトセグメンテーションのために設計された損失である。
岩面画像のデータセットを収集し、手動で注釈付けし、生成されたデータで拡張した。
シンオブジェクトセグメンテーションのための新しいメトリクスグループであるlineaccが提案されており、スコアに対するオブジェクト幅の影響を最小限に抑えることができる。
加えて、この計量は翻訳に対する感受性が低く、薄い物体上のサイコロのような古典的計量を計算するとき、しばしば0のスコアとなる。
我々の微調整モデルは、血管の分節のような類似の細い物体の分節タスクにおける従来の手法よりも優れており、ロボットシステムへの統合の約束を示す。 Conventional wheeled robots are unable to traverse scientifically interesting, but dangerous, cave environments. Multi-limbed climbing robot designs, such as ReachBot, are able to grasp irregular surface features and execute climbing motions to overcome obstacles, given suitable grasp locations. To support grasp site identification, we present a method for detecting rock cracks and edges, the SKeleton Intersection Loss (SKIL). SKIL is a loss designed for thin object segmentation that leverages the skeleton of the label. A dataset of rock face images was collected, manually annotated, and augmented with generated data. A new group of metrics, LineAcc, has been proposed for thin object segmentation such that the impact of the object width on the score is minimized. In addition, the metric is less sensitive to translation which can often lead to a score of zero when computing classical metrics such as Dice on thin objects. Our fine-tuned models outperform previous methods on similar thin object segmentation tasks such as blood vessel segmentation and show promise for integration onto a robotic system. | 翻訳日:2023-09-12 14:29:26 公開日:2023-09-10 |
# GenAIPABench:AIベースのプライバシアシスタントのベンチマーク GenAIPABench: A Benchmark for Generative AI-based Privacy Assistants ( http://arxiv.org/abs/2309.05138v1 ) ライセンス: Link先を確認 | Aamir Hamid, Hemanth Reddy Samidi, Tim Finin, Primal Pappachan, Roberto Yus | (参考訳) プライバシポリシは,組織のデータ管理プラクティスをユーザに通知するものだ。
しかし、その複雑さは平均的なユーザーにはほとんど理解できないので、プライバシアシスタントの開発は必要だ。
ジェネレーティブAI(genAI)技術の出現により、ユーザクエリを効果的に答える上で、プライバシアシスタントを強化する可能性がある。
しかし、偽情報や誤情報を発生させる傾向があることから、元AIの信頼性が懸念されている。
本稿では,Generative AIベースのプライバシアシスタント(GenAIPA)の性能評価を目的とした,新しいベンチマークフレームワークであるGenAIPABenchを紹介する。
GenAIPABench:
1) 組織のプライバシーポリシー及びデータ保護規則に関する包括的な質問と,いくつかの組織及び規則に対する注釈付き回答
2) 生成した応答の正確性,妥当性,一貫性を評価するためのロバストな評価指標
3)プライバシ文書にシステムを導入するための適切なプロンプトを生成する評価ツールと,その堅牢性を評価するためのプライバシ質問のバリエーションが異なる。
我々はGenAIPABenchを使用して、3つの主要なGenAIシステム(ChatGPT、Bard、Bing AI)の可能性を評価する。
以上の結果から,プライバシ領域のgenAI機能において,複雑なクエリの管理,一貫性の確保,ソース精度の検証といった課題も浮き彫りにしている。 Privacy policies inform users about the data management practices of organizations. Yet, their complexity often renders them largely incomprehensible to the average user, necessitating the development of privacy assistants. With the advent of generative AI (genAI) technologies, there is an untapped potential to enhance privacy assistants in answering user queries effectively. However, the reliability of genAI remains a concern due to its propensity for generating incorrect or misleading information. This study introduces GenAIPABench, a novel benchmarking framework designed to evaluate the performance of Generative AI-based Privacy Assistants (GenAIPAs). GenAIPABench comprises: 1) A comprehensive set of questions about an organization's privacy policy and a data protection regulation, along with annotated answers for several organizations and regulations; 2) A robust set of evaluation metrics for assessing the accuracy, relevance, and consistency of the generated responses; and 3) An evaluation tool that generates appropriate prompts to introduce the system to the privacy document and different variations of the privacy questions to evaluate its robustness. We use GenAIPABench to assess the potential of three leading genAI systems in becoming GenAIPAs: ChatGPT, Bard, and Bing AI. Our results demonstrate significant promise in genAI capabilities in the privacy domain while also highlighting challenges in managing complex queries, ensuring consistency, and verifying source accuracy. | 翻訳日:2023-09-12 14:29:07 公開日:2023-09-10 |
# dad++: データフリーなテスト時間防御の改善 DAD++: Improved Data-free Test Time Adversarial Defense ( http://arxiv.org/abs/2309.05132v1 ) ライセンス: Link先を確認 | Gaurav Kumar Nayak, Inder Khatri, Shubham Randive, Ruchit Rawal, Anirban Chakraborty | (参考訳) 自動運転車、医療画像、異常検出などの安全クリティカルなアプリケーションにおけるディープニューラルネットワークの展開の増加に伴い、現実のシナリオにおけるこれらのネットワークの信頼性において、敵の堅牢性は重要な懸念事項となっている。
敵の攻撃に対して深層ネットワークを堅牢にするために、敵の訓練と正規化に基づく技術に基づく多くの研究が提案されている。
しかし、これらの方法はモデルを再訓練するか、あるいはスクラッチからトレーニングする必要があるため、トレーニングデータへのアクセスが制限された場合、事前トレーニングされたモデルを保護することができない。
この問題に対処するため,検出・修正フレームワークを含むDAD(Data-free Adversarial Defense)を提案する。
さらに,検出器の信頼度が低い場合には,補正フレームワークの有効性をさらに向上するため,ソフト検出方式(DAD++)を提案する。
提案手法の有効性を示すため,いくつかのデータセットとネットワークアーキテクチャについて幅広い実験と改善を行った。
さらに,データフリーな(あるいはデータ効率のよい)アプリケーション/セットアップ,例えばデータフリーな知識蒸留やソースフリーな非教師なしドメイン適応,および半教師付き分類フレームワークの下で,テスト時に敵防衛を付与する手法の適用性を示す。
すべての実験やアプリケーションにおいて、DAD++は、さまざまな敵攻撃に対して、クリーンな精度が最小限に低下した印象的なパフォーマンスを提供します。
ソースコードは以下の通り。 https://github.com/vcl-iisc/Improved-Data-free-Test-Time-Adversarial-Defense With the increasing deployment of deep neural networks in safety-critical applications such as self-driving cars, medical imaging, anomaly detection, etc., adversarial robustness has become a crucial concern in the reliability of these networks in real-world scenarios. A plethora of works based on adversarial training and regularization-based techniques have been proposed to make these deep networks robust against adversarial attacks. However, these methods require either retraining models or training them from scratch, making them infeasible to defend pre-trained models when access to training data is restricted. To address this problem, we propose a test time Data-free Adversarial Defense (DAD) containing detection and correction frameworks. Moreover, to further improve the efficacy of the correction framework in cases when the detector is under-confident, we propose a soft-detection scheme (dubbed as "DAD++"). We conduct a wide range of experiments and ablations on several datasets and network architectures to show the efficacy of our proposed approach. Furthermore, we demonstrate the applicability of our approach in imparting adversarial defense at test time under data-free (or data-efficient) applications/setups, such as Data-free Knowledge Distillation and Source-free Unsupervised Domain Adaptation, as well as Semi-supervised classification frameworks. We observe that in all the experiments and applications, our DAD++ gives an impressive performance against various adversarial attacks with a minimal drop in clean accuracy. The source code is available at: https://github.com/vcl-iisc/Improved-Data-free-Test-Time-Adversarial-Defense | 翻訳日:2023-09-12 14:28:41 公開日:2023-09-10 |
# 信号時間論理ニューラル予測制御 Signal Temporal Logic Neural Predictive Control ( http://arxiv.org/abs/2309.05131v1 ) ライセンス: Link先を確認 | Yue Meng and Chuchu Fan | (参考訳) 安全性の確保と時間的仕様の達成は、長期的なロボットタスクにとって重要な課題である。
信号時間論理(STL)は、これらの要件を体系的かつ厳格に特定するために広く用いられている。
しかしながら、これらのSTL要求の下で制御ポリシーを見つける従来の方法は計算的に複雑であり、高次元や複雑な非線形力学を持つシステムには拡張性がない。
強化学習(rl)法は、手作りまたはstlにインスパイアされた報酬を通じて、stl仕様を満たすポリシーを学習することができるが、あいまいさと報酬のスパース性のために予期せぬ行動に遭遇する可能性がある。
本稿では,STLで規定される要件を満たすために,ニューラルネットワークコントローラを直接学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学ぶ。
モデル予測制御(MPC)と同様、テストでは、学習したコントローラが計画地平線内の軌道を予測し、デプロイメントにおけるSTL要求の満足度を保証する。
バックアップポリシは、コントローラが故障した場合の安全性を保証するように設計されています。
我々のアプローチは様々な初期条件と環境パラメータに適応できる。
提案手法は従来の手法(MPC, STL-solver), モデルフリー, モデルベースRL法をSTL満足度で上回り, 特にSTL仕様の複雑なタスクでは従来の手法よりも10X-100倍高速である。 Ensuring safety and meeting temporal specifications are critical challenges for long-term robotic tasks. Signal temporal logic (STL) has been widely used to systematically and rigorously specify these requirements. However, traditional methods of finding the control policy under those STL requirements are computationally complex and not scalable to high-dimensional or systems with complex nonlinear dynamics. Reinforcement learning (RL) methods can learn the policy to satisfy the STL specifications via hand-crafted or STL-inspired rewards, but might encounter unexpected behaviors due to ambiguity and sparsity in the reward. In this paper, we propose a method to directly learn a neural network controller to satisfy the requirements specified in STL. Our controller learns to roll out trajectories to maximize the STL robustness score in training. In testing, similar to Model Predictive Control (MPC), the learned controller predicts a trajectory within a planning horizon to ensure the satisfaction of the STL requirement in deployment. A backup policy is designed to ensure safety when our controller fails. Our approach can adapt to various initial conditions and environmental parameters. We conduct experiments on six tasks, where our method with the backup policy outperforms the classical methods (MPC, STL-solver), model-free and model-based RL methods in STL satisfaction rate, especially on tasks with complex STL specifications while being 10X-100X faster than the classical methods. | 翻訳日:2023-09-12 14:28:14 公開日:2023-09-10 |
# エッジコンピューティングを用いた高レベル患者支援のためのオンライン学習アーキテクチャ The online learning architecture with edge computing for high-level control for assisting patients ( http://arxiv.org/abs/2309.05130v1 ) ライセンス: Link先を確認 | Yue Shi, Yihui Zhao | (参考訳) 脊髄損傷、脳卒中、変性疾患などの疾患による移動障害の頻度は世界中で上昇している。
下肢のエキソ骨格は、このような障害のある個人に対する移動性とリハビリテーションを強化するための有効な解決策として、ますます認識されている。
しかしながら、既存のエクソスケルトン制御システムは、レイテンシ、適応性の欠如、計算の非効率といった制限に苦しむことが多い。
これらの課題に対処するために,高レベル低域外骨格制御のためのエッジコンピューティングと統合された新しいオンライン逆学習アーキテクチャを提案する。
提案アーキテクチャでは,ユーザからのセンサデータをエッジコンピューティングノードを介してリアルタイムに処理し,オンラインの対角学習モデルと対話する。
このモデルは、ユーザの特定のニーズに適応し、最小レイテンシでExoskeletonを制御する。
実験的評価では、制御精度と適応性、およびQoS(Quality-of-Service)メトリクスが大幅に改善されている。
これらの結果から,オンライン対人学習とエッジコンピューティングの統合は,次世代の低域外骨格制御システムにおいて,堅牢かつ効率的なアプローチをもたらすことが示唆された。 The prevalence of mobility impairments due to conditions such as spinal cord injuries, strokes, and degenerative diseases is on the rise globally. Lower-limb exoskeletons have been increasingly recognized as a viable solution for enhancing mobility and rehabilitation for individuals with such impairments. However, existing exoskeleton control systems often suffer from limitations such as latency, lack of adaptability, and computational inefficiency. To address these challenges, this paper introduces a novel online adversarial learning architecture integrated with edge computing for high-level lower-limb exoskeleton control. In the proposed architecture, sensor data from the user is processed in real-time through edge computing nodes, which then interact with an online adversarial learning model. This model adapts to the user's specific needs and controls the exoskeleton with minimal latency. Experimental evaluations demonstrate significant improvements in control accuracy and adaptability, as well as enhanced quality-of-service (QoS) metrics. These findings indicate that the integration of online adversarial learning with edge computing offers a robust and efficient approach for the next generation of lower-limb exoskeleton control systems. | 翻訳日:2023-09-12 14:27:47 公開日:2023-09-10 |
# WIP:学部ロボット教育の高度化を目指す学生中心の個人学習フレームワークの開発 WIP: Development of a Student-Centered Personalized Learning Framework to Advance Undergraduate Robotics Education ( http://arxiv.org/abs/2309.05124v1 ) ライセンス: Link先を確認 | Ponkoj Chandra Shill, Rui Wu, Hossein Jamali, Bryan Hutchins, Sergiu Dascalu, Frederick C. Harris, David Feil-Seifer | (参考訳) 本稿では,ロボット学生にパーソナライズされた学習環境を提供する学習システムに関する研究について述べる。
これは、特にコミュニティカレッジにおける熟練したロボティクスインストラクターの不足と、トレーニング機器の高価な需要に対処する。
大学レベルのロボット工学の研究は、幅広い関心、経験、目的を表している。
このプロジェクトは、学生に自身の目標と事前経験に学習を適応させる柔軟性を提供するために機能する。
我々は、安価なハードウェアと互換性のあるWebベースのインタフェースを通じてロボットの教育を可能にするシステムを開発している。
したがって、教材の無料配布は教育者の力となる。
このプロジェクトは、2年と4年の学校と大学で提供されるロボティクスコースの数を増やす可能性がある。
コースの教材は、小さなユニットと階層的な依存ツリーを念頭に設計されている。学生は、すでに習得したロボット工学のスキルに基づいて、自分のコースをカスタマイズできる。
ロボット工学における5モジュールミニコースの評価について述べる。
学生はオンラインコンテンツに肯定的な経験があることを示した。
彼らはまた、関係性、熟達性、自律性の観点からその経験を高く評価し、このアプローチへの強い動機付けを示しました。 This paper presents a work-in-progress on a learn-ing system that will provide robotics students with a personalized learning environment. This addresses both the scarcity of skilled robotics instructors, particularly in community colleges and the expensive demand for training equipment. The study of robotics at the college level represents a wide range of interests, experiences, and aims. This project works to provide students the flexibility to adapt their learning to their own goals and prior experience. We are developing a system to enable robotics instruction through a web-based interface that is compatible with less expensive hardware. Therefore, the free distribution of teaching materials will empower educators. This project has the potential to increase the number of robotics courses offered at both two- and four-year schools and universities. The course materials are being designed with small units and a hierarchical dependency tree in mind; students will be able to customize their course of study based on the robotics skills they have already mastered. We present an evaluation of a five module mini-course in robotics. Students indicated that they had a positive experience with the online content. They also scored the experience highly on relatedness, mastery, and autonomy perspectives, demonstrating strong motivation potential for this approach. | 翻訳日:2023-09-12 14:27:33 公開日:2023-09-10 |
# 深層学習支援サブスペースに基づくスパースアレイのDOA復元 Deep Learning-Aided Subspace-Based DOA Recovery for Sparse Arrays ( http://arxiv.org/abs/2309.05109v1 ) ライセンス: Link先を確認 | Yoav Amiel, Dor H. Shmuel, Nir Shlezinger, and Wasim Huleihel | (参考訳) スパース配列は、非一様配列を用いたアンテナ要素よりも多くの到着方向(doas)を解決することができる。
これは典型的には、仮想大一様線形アレイ(ULA)の共分散を再構成し、サブスペースDoA推定器によって処理される。
しかし、これらの方法は信号が非一貫性で配列が校正されていると仮定し、後者は仮想配列要素にアクセスできないスパース配列で達成することがしばしば困難である。
本研究では,Sparse-SubspaceNetを提案する。このSparse-SubspaceNetは,Sparse-Subspace-based DoA recovery from sparse miscallibrated arrays with coherent sources。
Sparse-SubspaceNetは専用のディープネットワークを使用して、区別可能なサブスペースに分割可能な仮想配列共分散の計算方法を学ぶ。
これにより、モデルベース部分空間DoA推定器の解釈可能性と適合性を保ちながら、コヒーレントソースやスパースアレイの誤校正に対処することを学ぶ。 Sparse arrays enable resolving more direction of arrivals (DoAs) than antenna elements using non-uniform arrays. This is typically achieved by reconstructing the covariance of a virtual large uniform linear array (ULA), which is then processed by subspace DoA estimators. However, these method assume that the signals are non-coherent and the array is calibrated; the latter often challenging to achieve in sparse arrays, where one cannot access the virtual array elements. In this work, we propose Sparse-SubspaceNet, which leverages deep learning to enable subspace-based DoA recovery from sparse miscallibrated arrays with coherent sources. Sparse- SubspaceNet utilizes a dedicated deep network to learn from data how to compute a surrogate virtual array covariance that is divisible into distinguishable subspaces. By doing so, we learn to cope with coherent sources and miscalibrated sparse arrays, while preserving the interpretability and the suitability of model-based subspace DoA estimators. | 翻訳日:2023-09-12 14:27:13 公開日:2023-09-10 |
# 任意のグラフ上のボース・ハバードモデルに対する量子モンテカルロアルゴリズム A quantum Monte Carlo algorithm for Bose-Hubbard models on arbitrary graphs ( http://arxiv.org/abs/2309.05166v1 ) ライセンス: Link先を確認 | Itay Hen and Emre Akaturk | (参考訳) 本稿では,任意のグラフ上でBose-Hubbardモデルをシミュレートできる量子モンテカルロアルゴリズムを提案する。
提案手法は,最近導入された置換行列表現量子モンテカルロ [Gupta, Albash and Hen, J. Stat. Mech. (2020) 073105] に基づいて,モデルが定義されたグラフのサイクルベースを生成するために,シミュレーションを与えられた幾何学に適応させる問題,効率的にかつ自動的に行うことができる手順を提示する。
提案手法の汎用性を示すため,2次元格子上に定義されたBose-Hubbardモデルと多数のランダムグラフに対してシミュレーション結果を提供する。 We propose a quantum Monte Carlo algorithm capable of simulating the Bose-Hubbard model on arbitrary graphs, obviating the need for devising lattice-specific updates for different input graphs. We show that with our method, which is based on the recently introduced Permutation Matrix Representation Quantum Monte Carlo [Gupta, Albash and Hen, J. Stat. Mech. (2020) 073105], the problem of adapting the simulation to a given geometry amounts to generating a cycle basis for the graph on which the model is defined, a procedure that can be carried out efficiently and and in an automated manner. To showcase the versatility of our approach, we provide simulation results for Bose-Hubbard models defined on two-dimensional lattices as well as on a number of random graphs. | 翻訳日:2023-09-12 14:18:26 公開日:2023-09-10 |
# ゲーム・オブ・ソートによる視覚対話の収集 Collecting Visually-Grounded Dialogue with A Game Of Sorts ( http://arxiv.org/abs/2309.05162v1 ) ライセンス: Link先を確認 | Bram Willemsen, Dmytro Kalpakchi, Gabriel Skantze | (参考訳) situated(situated)ダイアログにおける参照表現の生成と接地過程の理想的な見方は、話者が単にその表現を適切に指定するだけで、対象の参照者が宛先によって正常に識別できることを前提としている。
しかし、会話の参照は、最小仕様の参照表現の交換として適切に特徴づけられない協調的なプロセスである。
会話の過度に単純化された視点と参照過程を明らかにする視覚的対話に関する先行研究による仮定について懸念が高まっている。
我々はこれらの懸念に対処するため、協調的な画像ランキングタスク「A Game of Sorts」と呼ばれる合意ゲームを導入する。
我々のゲームでは、プレイヤーは、ほとんど制限のないロール対称な対話を通じて、ある種の分類基準を与えられた画像の集合のランク付けの方法の合意に達することを任務とする。
この混合的開始的相互作用における議論を強調することにより,協調的参照プロセスに関わる議論を収集する。
本稿では,提案課題を用いた小規模データ収集実験の結果について述べる。
収集されたデータ、コードベース、コンテナ化されたアプリケーションのバージョンを含む、議論されたすべての資料が公開されている。 An idealized, though simplistic, view of the referring expression production and grounding process in (situated) dialogue assumes that a speaker must merely appropriately specify their expression so that the target referent may be successfully identified by the addressee. However, referring in conversation is a collaborative process that cannot be aptly characterized as an exchange of minimally-specified referring expressions. Concerns have been raised regarding assumptions made by prior work on visually-grounded dialogue that reveal an oversimplified view of conversation and the referential process. We address these concerns by introducing a collaborative image ranking task, a grounded agreement game we call "A Game Of Sorts". In our game, players are tasked with reaching agreement on how to rank a set of images given some sorting criterion through a largely unrestricted, role-symmetric dialogue. By putting emphasis on the argumentation in this mixed-initiative interaction, we collect discussions that involve the collaborative referential process. We describe results of a small-scale data collection experiment with the proposed task. All discussed materials, which includes the collected data, the codebase, and a containerized version of the application, are publicly available. | 翻訳日:2023-09-12 14:18:08 公開日:2023-09-10 |
# 環境との量子相互作用による時間の創発 The emergence of time from quantum interaction with the environment ( http://arxiv.org/abs/2309.05159v1 ) ライセンス: Link先を確認 | Sebastian Gemsheim and Jan M. Rost | (参考訳) システムと環境の相互作用を無視する量子力学的環境において、システムと環境の創発的存在としての時間の性質がPage and Wootters (D. N. Page and W. K. Wootters, Phys. D 27 2885 (1983)) によって提唱された。
ここでは、系、環境およびそれらの相互作用からなる大域ハミルトニアンのエネルギー固有状態から系に対する時間依存シュレーディンガー方程式を導出することにより、時間関係の概念を強く支持する。
本研究は,環境の半古典的処理を犠牲にして相互作用を考慮した時間創発の概念と一致している。
近似なしでシステムと環境を結合させることは、相互作用するシステムと絡み合った量子状態の動的現象に開放する関係時間アプローチに欠けているリンクを与える。 The nature of time as emergent for a system by separating it from its environment has been put forward by Page and Wootters [D. N. Page and W. K. Wootters, Phys. Rev. D 27, 2885 (1983)] in a quantum mechanical setting neglecting interaction between system and environment. Here, we add strong support to the relational concept of time by deriving the time-dependent Schroedinger equation for a system from an energy eigenstate of the global Hamiltonian consisting of system, environment and their interaction. Our results are consistent with concepts for the emergence of time where interaction has been taken into account at the expense of a semiclassical treatment of the environment. Including the coupling between system and environment without approximation adds a missing link to the relational time approach opening it to dynamical phenomena of interacting systems and entangled quantum states. | 翻訳日:2023-09-12 14:17:47 公開日:2023-09-10 |
# superstaq: 量子プログラムの深い最適化 Superstaq: Deep Optimization of Quantum Programs ( http://arxiv.org/abs/2309.05157v1 ) ライセンス: Link先を確認 | Colin Campbell, Frederic T. Chong, Denny Dahl, Paige Frederick, Palash Goiporia, Pranav Gokhale, Benjamin Hall, Salahedeen Issa, Eric Jones, Stephanie Lee, Andrew Litteken, Victory Omole, David Owusu-Antwi, Michael A. Perlin, Rich Rines, Kaitlin N. Smith, Noah Goss, Akel Hashim, Ravi Naik, Ed Younis, Daniel Lobser, Christopher G. Yale, Benchen Huang, Ji Liu | (参考訳) 基礎となるハードウェアプリミティブに合わせて量子プログラムの実行を最適化する量子ソフトウェアプラットフォームであるsuperstaqについて述べる。
Bernstein-VaziraniアルゴリズムやQubit Coupled Cluster Chemistry法のようなベンチマークでは、最先端のコンパイラに比べてプログラム実行性能を少なくとも10倍向上させることができる。
提案手法の汎用性を強調するため,超伝導量子ビット (AQT @ LBNL, IBM Quantum, Rigetti), トラップイオン (QSCOUT), 中性原子 (Infleqtion) という,いくつかのハードウェアプラットフォームの成果を示す。
すべてのプラットフォームで、量子プログラムとハードウェアのデバイス物理との深い統合によって実現される新しいレベルのパフォーマンスと新しい機能を実証します。 We describe Superstaq, a quantum software platform that optimizes the execution of quantum programs by tailoring to underlying hardware primitives. For benchmarks such as the Bernstein-Vazirani algorithm and the Qubit Coupled Cluster chemistry method, we find that deep optimization can improve program execution performance by at least 10x compared to prevailing state-of-the-art compilers. To highlight the versatility of our approach, we present results from several hardware platforms: superconducting qubits (AQT @ LBNL, IBM Quantum, Rigetti), trapped ions (QSCOUT), and neutral atoms (Infleqtion). Across all platforms, we demonstrate new levels of performance and new capabilities that are enabled by deeper integration between quantum programs and the device physics of hardware. | 翻訳日:2023-09-12 14:17:33 公開日:2023-09-10 |
# 不可解な量子アドバイス Uncloneable Quantum Advice ( http://arxiv.org/abs/2309.05155v1 ) ライセンス: Link先を確認 | Anne Broadbent, Martti Karvonen, S\'ebastien Lord | (参考訳) 有名なノークローニングの原理は、最近多くの不可避な機能を可能にするために示されてきた。
ここでは、計算を可能にする複雑性-理論的なツールの研究を通して、初めてunkeyed quantum uncloneablityに対処します。
これは、興味のある量子状態がランダムなプロセスによって選択されない文脈における非閉原理の応用である。
量子的助言を許容する約束問題の無条件存在と、特定の関数の量子的コピー保護の可能性を仮定して、不可解なアドバイスを持つ言語の存在を示す。
その過程で、量子状態列の計算困難を懸念するRosenhal and Yuen (ITCS 2022) によって導入された状態複雑性クラスが自然に一般化され、状態クローニング複雑性クラスが得られることに留意する。
これらのクラスについて最初の観察を行い、特に決定不能な問題の存在と類似した結果を得た。
この証明手法は有限ビット文字列の帰納的列の存在を立証するものであり、本質的には一様回路族では生成できないことを意味する。
次に、一様ランダムな入力における計算タスクの達成が困難であることは、任意の固定化不可能なシーケンスにおいてその困難を示唆していることを示す。
この結果を用いて、クローンに関連する量子暗号ゲームをデランドマイズし、クンドゥとタンの結果(arXiv 2022)を組み込んで非クローン的なアドバイスを得る。
この二段階の過程を一夫一婦制ゲームに適用すると、必然的なアドバイスを伴う約束問題となり、超対数出力長を持つ疑似ランダム関数の量子コピー保護に適用すると、不可解なアドバイスを持つ言語が得られる。 The famous no-cloning principle has been shown recently to enable a number of uncloneable functionalities. Here we address for the first time unkeyed quantum uncloneablity, via the study of a complexity-theoretic tool that enables a computation, but that is natively unkeyed: quantum advice. Remarkably, this is an application of the no-cloning principle in a context where the quantum states of interest are not chosen by a random process. We show the unconditional existence of promise problems admitting uncloneable quantum advice, and the existence of languages with uncloneable advice, assuming the feasibility of quantum copy-protecting certain functions. Along the way, we note that state complexity classes, introduced by Rosenthal and Yuen (ITCS 2022) - which concern the computational difficulty of synthesizing sequences of quantum states - can be naturally generalized to obtain state cloning complexity classes. We make initial observations on these classes, notably obtaining a result analogous to the existence of undecidable problems. Our proof technique establishes the existence of ingenerable sequences of finite bit strings - essentially meaning that they cannot be generated by any uniform circuit family. We then prove a generic result showing that the difficulty of accomplishing a computational task on uniformly random inputs implies its difficulty on any fixed, ingenerable sequence. We use this result to derandomize quantum cryptographic games that relate to cloning, and then incorporate a result of Kundu and Tan (arXiv 2022) to obtain uncloneable advice. Applying this two-step process to a monogamy-of-entanglement game yields a promise problem with uncloneable advice, and applying it to the quantum copy-protection of pseudorandom functions with super-logarithmic output lengths yields a language with uncloneable advice. | 翻訳日:2023-09-12 14:17:16 公開日:2023-09-10 |
# 協調拡散回復様相によるエネルギーモデル学習 Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood ( http://arxiv.org/abs/2309.05153v1 ) ライセンス: Link先を確認 | Yaxuan Zhu, Jianwen Xie, Yingnian Wu, Ruiqi Gao | (参考訳) 高次元データに対する最大推定値のトレーニングエネルギーベースモデル(EBMs)は、困難かつ時間を要する可能性がある。
その結果、ESMとGANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質の顕著なギャップがある。
拡散回復率(DRL)を最大化してESMを学習する最近の取り組みに触発されたこのギャップを埋めるため,各ESMの初期化モデルと組み合わさったデータセットの騒々しい頂点上で定義された一連のESMから効果的に学習し,サンプルを抽出するための協調拡散回復可能性(CDRL)を提案する。
各ノイズレベルにおいて、初期化子モデルがebmのサンプリング過程を償却することを学習し、2つのモデルを協調訓練枠組み内で共同で推定する。
初期化器からのサンプルは、ebmからいくつかのサンプリングステップで洗練された出発点として機能する。
精製試料では回収可能性の最大化によりEBMを最適化し, 精製試料と初期試料との差から初期化装置を最適化した。
我々は,新しいノイズスケジュールと分散低減手法を開発し,サンプル品質をさらに向上させる。
CIFAR-10 と ImageNet 32x32 の既存 EBM 法と比較して FID のスコアが大幅に向上し,DRL を2倍高速化した。
さらに,本手法を合成生成および画像インペインティングタスクに拡張し,cdrlと条件生成のための分類器フリーガイダンスとの互換性を示し,拡散モデルと同様にサンプル品質とサンプル多様性のトレードオフを実現した。 Training energy-based models (EBMs) with maximum likelihood estimation on high-dimensional data can be both challenging and time-consuming. As a result, there a noticeable gap in sample quality between EBMs and other generative frameworks like GANs and diffusion models. To close this gap, inspired by the recent efforts of learning EBMs by maximimizing diffusion recovery likelihood (DRL), we propose cooperative diffusion recovery likelihood (CDRL), an effective approach to tractably learn and sample from a series of EBMs defined on increasingly noisy versons of a dataset, paired with an initializer model for each EBM. At each noise level, the initializer model learns to amortize the sampling process of the EBM, and the two models are jointly estimated within a cooperative training framework. Samples from the initializer serve as starting points that are refined by a few sampling steps from the EBM. With the refined samples, the EBM is optimized by maximizing recovery likelihood, while the initializer is optimized by learning from the difference between the refined samples and the initial samples. We develop a new noise schedule and a variance reduction technique to further improve the sample quality. Combining these advances, we significantly boost the FID scores compared to existing EBM methods on CIFAR-10 and ImageNet 32x32, with a 2x speedup over DRL. In addition, we extend our method to compositional generation and image inpainting tasks, and showcase the compatibility of CDRL with classifier-free guidance for conditional generation, achieving similar trade-offs between sample quality and sample diversity as in diffusion models. | 翻訳日:2023-09-12 14:16:45 公開日:2023-09-10 |
# より速く、軽く、より正確に:コンテンツモデレーションのためのディープラーニングアンサンブル Faster, Lighter, More Accurate: A Deep Learning Ensemble for Content Moderation ( http://arxiv.org/abs/2309.05150v1 ) ライセンス: Link先を確認 | Mohammad Hosseini, Mahmudul Hasan | (参考訳) 効率的で正確なコンテンツモデレーションの必要性の高まりに対応するため,より効率的で軽量な深層分類アンサンブル構造を提案する。
提案手法は,低偽陽性を伴う暴力コンテンツの高精度分類を目的とした,単純な視覚特徴の組み合わせに基づく。
当社のアンサンブルアーキテクチャは,絞り込みカラー機能を備えた軽量モデルセットを使用して,画像とビデオの両方に適用する。
本研究では,大規模な爆発・爆発コンテンツを用いたアプローチの評価を行い,その性能をResNet-50のような一般的なディープラーニングモデルと比較した。
評価の結果,予測精度は7.64倍に向上し,計算コストの低減が図られた。
私たちのアプローチは爆発検出に合わせたものですが、他の類似のコンテンツモデレーションや暴力検出ユースケースにも適用できます。
我々の実験に基づいて、分類シナリオにおける「小さな、多くの思考」哲学を提案する。
単一で大規模でモノリシックなディープモデルを、狭義の視覚的特徴を持つ複数の小型でシンプルで軽量なモデルの検証ベースのステップモデルアンサンブルに変換することは、より高精度な予測につながる可能性がある、と私たちは主張する。 To address the increasing need for efficient and accurate content moderation, we propose an efficient and lightweight deep classification ensemble structure. Our approach is based on a combination of simple visual features, designed for high-accuracy classification of violent content with low false positives. Our ensemble architecture utilizes a set of lightweight models with narrowed-down color features, and we apply it to both images and videos. We evaluated our approach using a large dataset of explosion and blast contents and compared its performance to popular deep learning models such as ResNet-50. Our evaluation results demonstrate significant improvements in prediction accuracy, while benefiting from 7.64x faster inference and lower computation cost. While our approach is tailored to explosion detection, it can be applied to other similar content moderation and violence detection use cases as well. Based on our experiments, we propose a "think small, think many" philosophy in classification scenarios. We argue that transforming a single, large, monolithic deep model into a verification-based step model ensemble of multiple small, simple, and lightweight models with narrowed-down visual features can possibly lead to predictions with higher accuracy. | 翻訳日:2023-09-12 14:16:14 公開日:2023-09-10 |
# 皮膚のトーンを超える:鮮明な肌の色を多次元的に測定する Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color ( http://arxiv.org/abs/2309.05148v1 ) ライセンス: Link先を確認 | William Thong, Przemyslaw Joniak, Alice Xiang | (参考訳) 本稿では, コンピュータビジョンにおける皮膚の色を, 皮膚のトーンの1次元スケールを超えて測定することを目的とする。
独創的な論文『genal shades』において、buolamwini と gebru は、肌の色が暗い女性に対して性別分類システムがどのように偏っているかを示した。
その後、公正な研究者や実践者は、コンピュータビジョンシステムにおける肌の色バイアスを評価するための一般的な尺度として、フィッツパトリック皮膚型分類を採用した。
効果はあるものの、フィッツパトリックスケールは光から暗いまでの肌のトーンのみに焦点を当てている。
肌の色をより包括的に測定するために,赤から黄色までの色角を紹介する。
画像に適用すると、色寸法はコンピュータビジョンデータセットとモデルの両方で肌の色に関連する追加のバイアスを明らかにする。
次に,肌の色調と色調に依存する多次元肌色尺度を,公正度評価のために推奨する。 This paper strives to measure apparent skin color in computer vision, beyond a unidimensional scale on skin tone. In their seminal paper Gender Shades, Buolamwini and Gebru have shown how gender classification systems can be biased against women with darker skin tones. Subsequently, fairness researchers and practitioners have adopted the Fitzpatrick skin type classification as a common measure to assess skin color bias in computer vision systems. While effective, the Fitzpatrick scale only focuses on the skin tone ranging from light to dark. Towards a more comprehensive measure of skin color, we introduce the hue angle ranging from red to yellow. When applied to images, the hue dimension reveals additional biases related to skin color in both computer vision datasets and models. We then recommend multidimensional skin color scales, relying on both skin tone and hue, for fairness assessments. | 翻訳日:2023-09-12 14:15:54 公開日:2023-09-10 |
# 動き反転のない完全スケーラブルランダム化ベンチマーク Fully scalable randomized benchmarking without motion reversal ( http://arxiv.org/abs/2309.05147v1 ) ライセンス: Link先を確認 | Jordan Hines, Daniel Hothem, Robin Blume-Kohout, Birgitta Whaley, Timothy Proctor | (参考訳) バイナリランダム化ベンチマーク (BiRB) は, ゲート層をほぼ完全に構成した回路を用いて, 従来のRBを合理化するプロトコルである。
BiRBはランダムなパウリ作用素のテンソル積固有状態を送信することで、クリフォードゲートセットの平均誤差率を確実に効率的に抽出する。
既存のrb法とは異なり、birbは動作反転回路(すなわち、同一性(またはパウリ)演算子を実装する回路)を使用しない。
さらに、この単純さにより、最も広く使われているRBメソッドよりも多くのキュービットにBiRBをスケーリングすることができる。 We introduce binary randomized benchmarking (BiRB), a protocol that streamlines traditional RB by using circuits consisting almost entirely of i.i.d. layers of gates. BiRB reliably and efficiently extracts the average error rate of a Clifford gate set by sending tensor product eigenstates of random Pauli operators though random circuits with i.i.d. layers. Unlike existing RB methods, BiRB does not use motion reversal circuits -- i.e., circuits that implement the identity (or a Pauli) operator -- which simplifies both the method and the theory proving its reliability. Furthermore, this simplicity enables scaling BiRB to many more qubits than the most widely-used RB methods. | 翻訳日:2023-09-12 14:15:42 公開日:2023-09-10 |