このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230423となっている論文です。

PDF登録状況(公開日: 20230423)

TitleAuthorsAbstract論文公表日・翻訳日
# 「圧力を取らないのか?」:パルス波解析による血圧推定の課題の検討

"Can't Take the Pressure?": Examining the Challenges of Blood Pressure Estimation via Pulse Wave Analysis ( http://arxiv.org/abs/2304.14916v1 )

ライセンス: Link先を確認
Suril Mehta, Nipun Kwatra, Mohit Jain, Daniel McDuff(参考訳) 健康対策(グルコース濃度や血圧など)を推測するために、観測されたウェアラブルセンサーデータ(例えば、光胸腺図(PPG))を使用することは、非常に活発な研究領域である。 このような技術は、健康スクリーニング、慢性疾患管理、遠隔監視に大きな影響を与える可能性がある。 一般的なアプローチは、臨床用グレード装置(例えば血圧計)からセンサーデータと対応するラベルを収集し、深層学習モデルを訓練して一方を他方にマップすることである。 好意的ではあるが、このアプローチは、入力センサーデータが所望のメトリックを予測するのに十分な情報を持っているかどうかの原則的な分析を無視することが多い。 PPGパルス波解析から血圧予測の課題を分析する。 先行研究のレビューから,多くの論文が予備データ漏洩や非現実的なタスクや前処理ステップの制約に陥っていることが明らかとなった。 対象の入力信号(例えばppg)が本当に所望のラベル(例えば血圧)の適切な予測者であるかどうかを判断するためのツールセットを提案する。 提案手法を用いて, PPGを用いた血圧予測は多値マッピング係数が33.2%, 相互情報の低値が9.8%であった。 対照的に、よく確立されたタスクであるPSGを用いた心拍予測は、非常に低い多値マッピング係数が0.75%、高い相互情報が87.7%である。 これらの結果は、ppgパルス波分析によるウェアラブル血圧測定の目標に向けての現在の進歩をよりリアルに表現するものである。

The use of observed wearable sensor data (e.g., photoplethysmograms [PPG]) to infer health measures (e.g., glucose level or blood pressure) is a very active area of research. Such technology can have a significant impact on health screening, chronic disease management and remote monitoring. A common approach is to collect sensor data and corresponding labels from a clinical grade device (e.g., blood pressure cuff), and train deep learning models to map one to the other. Although well intentioned, this approach often ignores a principled analysis of whether the input sensor data has enough information to predict the desired metric. We analyze the task of predicting blood pressure from PPG pulse wave analysis. Our review of the prior work reveals that many papers fall prey data leakage, and unrealistic constraints on the task and the preprocessing steps. We propose a set of tools to help determine if the input signal in question (e.g., PPG) is indeed a good predictor of the desired label (e.g., blood pressure). Using our proposed tools, we have found that blood pressure prediction using PPG has a high multi-valued mapping factor of 33.2% and low mutual information of 9.8%. In comparison, heart rate prediction using PPG, a well-established task, has a very low multi-valued mapping factor of 0.75% and high mutual information of 87.7%. We argue that these results provide a more realistic representation of the current progress towards to goal of wearable blood pressure measurement via PPG pulse wave analysis.
翻訳日:2023-05-07 16:14:59 公開日:2023-04-23
# 形態素顔検出のための効率的なアンサンブル説明可能なAI(XAI)アプローチ

An Efficient Ensemble Explainable AI (XAI) Approach for Morphed Face Detection ( http://arxiv.org/abs/2304.14509v1 )

ライセンス: Link先を確認
Rudresh Dwivedi, Ritesh Kumar, Deepak Chopra, Pranay Kothari, Manjot Singh(参考訳) 生体認証システムの広範囲な利用により、攻撃者やインポスタは、形態的画像に基づいてユーザアイデンティティを偽造する。 この攻撃では合成画像が生成され、realとマージされる。 次に、得られた画像は認証用のユーザである。 多くの深層神経畳み込みアーキテクチャが、そのような攻撃を防ぎ、それらに関連するリスクを減らすために、顔形態形成攻撃検出(mads)のための文献で提案されている。 ディープラーニングモデルは性能の観点から最適な結果を得たが、本質的にブラックボックス/オパクであるため、これらのネットワークを理解し分析することは困難である。 その結果、誤った判断がなされる可能性がある。 しかしながら、バイオメトリックプレゼンテーションアタック検出(pads)やmads(mads)のためのブラックボックス深層学習モデルの意思決定方法を説明する文献が多数存在し、バイオメトリックコミュニティが、国境管理や犯罪データベースの確立など、さまざまなセキュリティアプリケーションにおいて、ディープラーニングベースの生体認証システムに対する信頼を得ることを支援している。 本研究では,生体認証システムに提示される入力が変化したか否かを予測するために,より総合的な視覚的説明を提供するために,Ensemble XAIという新たな視覚的説明手法を提案し,その手法をCAM(Class Activation Maps)とGradient-CAM(Grad-CAM)と統合した。 実験は、Face Research Lab London Set、Wide Multi-Channel Presentation Attack (WMCA)、Makeup induced Face Spoofing (MIFS)の3つの公開データセットで実施された。 実験評価の結果, 画像特徴量や領域についてより詳細な詳細を強調し, 適切な推論とともに決定に到達できることが確認された。

The extensive utilization of biometric authentication systems have emanated attackers / imposters to forge user identity based on morphed images. In this attack, a synthetic image is produced and merged with genuine. Next, the resultant image is user for authentication. Numerous deep neural convolutional architectures have been proposed in literature for face Morphing Attack Detection (MADs) to prevent such attacks and lessen the risks associated with them. Although, deep learning models achieved optimal results in terms of performance, it is difficult to understand and analyse these networks since they are black box/opaque in nature. As a consequence, incorrect judgments may be made. There is, however, a dearth of literature that explains decision-making methods of black box deep learning models for biometric Presentation Attack Detection (PADs) or MADs that can aid the biometric community to have trust in deep learning-based biometric systems for identification and authentication in various security applications such as border control, criminal database establishment etc. In this work, we present a novel visual explanation approach named Ensemble XAI integrating Saliency maps, Class Activation Maps (CAM) and Gradient-CAM (Grad-CAM) to provide a more comprehensive visual explanation for a deep learning prognostic model (EfficientNet-B1) that we have employed to predict whether the input presented to a biometric authentication system is morphed or genuine. The experimentations have been performed on three publicly available datasets namely Face Research Lab London Set, Wide Multi-Channel Presentation Attack (WMCA), and Makeup Induced Face Spoofing (MIFS). The experimental evaluations affirms that the resultant visual explanations highlight more fine-grained details of image features/areas focused by EfficientNet-B1 to reach decisions along with appropriate reasoning.
翻訳日:2023-05-07 16:13:58 公開日:2023-04-23
# UHRNet: 単一のフランジパタンからの3次元再構成の高精度な学習手法

UHRNet: A Deep Learning-Based Method for Accurate 3D Reconstruction from a Single Fringe-Pattern ( http://arxiv.org/abs/2304.14503v1 )

ライセンス: Link先を確認
Yixiao Wang, Canlin Zhou, Xingyang Qi, Hui Li(参考訳) フリンジ投影プロフィロメトリーにおける単一のフリンジパターンからの物体高さの迅速かつ正確な検索は、現在進行中の研究のトピックとなっている。 深度cnnを用いた単発フリンジ法では1つのパターンから直接高さマップを復元できるが、現在の精度は従来の位相シフト法に劣る。 本手法の精度を向上させるために,U字型高分解能ネットワーク(UHRNet)を提案する。 ネットワークは、unetエンコーディングとデコード構造をバックボーンとして使用し、マルチレベル畳み込みブロックと高解像度融合ブロックを使用して、ローカル特徴とグローバル特徴を抽出する。 また, 構造類似度指数測定損失関数(SSIMLoss)とチャンクL2損失関数を組み合わせた複合損失関数を設計し, 提案手法の有効性とロバスト性を示す実験を行った。 提案手法の有効性とロバスト性を示す実験がいくつか行われており,提案手法による3次元復元の平均rmseは0.443(mm)である。 これはUNetメソッドの41.13%とWang et al hNetメソッドの33.31%である。 実験の結果,提案手法は1つの縞状パターンから3次元再構成の精度を高めることができた。

The quick and accurate retrieval of an object height from a single fringe pattern in Fringe Projection Profilometry has been a topic of ongoing research. While a single shot fringe to depth CNN based method can restore height map directly from a single pattern, its accuracy is currently inferior to the traditional phase shifting technique. To improve this method's accuracy, we propose using a U shaped High resolution Network (UHRNet). The network uses UNet encoding and decoding structure as backbone, with Multi-Level convolution Block and High resolution Fusion Block applied to extract local features and global features. We also designed a compound loss function by combining Structural Similarity Index Measure Loss (SSIMLoss) function and chunked L2 loss function to improve 3D reconstruction details.We conducted several experiments to demonstrate the validity and robustness of our proposed method. A few experiments have been conducted to demonstrate the validity and robustness of the proposed method, The average RMSE of 3D reconstruction by our method is only 0.443(mm). which is 41.13% of the UNet method and 33.31% of Wang et al hNet method. Our experimental results show that our proposed method can increase the accuracy of 3D reconstruction from a single fringe pattern.
翻訳日:2023-05-07 16:12:26 公開日:2023-04-23
# PathRTM: KI-67および腫瘍浸潤リンパ球のリアルタイム予測

PathRTM: Real-time prediction of KI-67 and tumor-infiltrated lymphocytes ( http://arxiv.org/abs/2305.00223v1 )

ライセンス: Link先を確認
Steven Zvi Lapp, Eli David, Nathan S. Netanyahu(参考訳) 本稿では,RTMDetに基づく新しいディープニューラルネットワーク検出器であるPathRTMを紹介し,KI-67自動増殖と腫瘍浸潤リンパ球推定について述べる。 KI-67は癌診断と治療において重要な役割を担っている。 PathRTMはPathoNetワークの拡張であり、各セル内で単一のピクセルキーポイントを使用する。 NuClick を用いてキーポイントから自動生成されるバウンディングボックスラベルの形で高レベルの監督を行う PathRTM は,KI-67 増殖と腫瘍浸潤性リンパ球推定を著しく改善できることを示した。 PathRTMはKI-67の免疫陽性,免疫陰性,リンパ球検出において,平均精度(AP)は41.3%である。 以上の結果から,pathrtmはki-67の正確な増殖と腫瘍浸潤リンパ球の推定に有望なアプローチであることが示唆された。 この方法は、バウンディングボックス予測を通じて、これまで使用できなかった関心のセルサイズの推定も可能にする。

In this paper, we introduce PathRTM, a novel deep neural network detector based on RTMDet, for automated KI-67 proliferation and tumor-infiltrated lymphocyte estimation. KI-67 proliferation and tumor-infiltrated lymphocyte estimation play a crucial role in cancer diagnosis and treatment. PathRTM is an extension of the PathoNet work, which uses single pixel keypoints for within each cell. We demonstrate that PathRTM, with higher-level supervision in the form of bounding box labels generated automatically from the keypoints using NuClick, can significantly improve KI-67 proliferation and tumorinfiltrated lymphocyte estimation. Experiments on our custom dataset show that PathRTM achieves state-of-the-art performance in KI-67 immunopositive, immunonegative, and lymphocyte detection, with an average precision (AP) of 41.3%. Our results suggest that PathRTM is a promising approach for accurate KI-67 proliferation and tumor-infiltrated lymphocyte estimation, offering annotation efficiency, accurate predictive capabilities, and improved runtime. The method also enables estimation of cell sizes of interest, which was previously unavailable, through the bounding box predictions.
翻訳日:2023-05-07 16:01:55 公開日:2023-04-23
# AIが私たちの質問に答える際の疫学的考察

Epistemic considerations when AI answers questions for us ( http://arxiv.org/abs/2304.14352v1 )

ライセンス: Link先を確認
Johan F. Hoorn and Juliet J.-Y. Chen(参考訳) 本稿では,AIに不注意に頼って質問に答え,アウトプットを判断することは,グレースの「品質の最大性」に反するだけでなく,レモインの法的な「無実の最高性」に反するものであり,(不当な)権威の誤用を行い,評価信号が欠如しているにもかかわらず,逆の誤認から生じるタイプIIエラーを犯すことである,と論じる。 AI生成およびAI評価されたコンテンツの出力と結果に重点を置いていないのは、適切なトリビュートを支払うこととは別に、人の思考プロセス(またはマシンの決定プロセス)に従うことの要求である。 その結論を説明できないニューラルネットワークを避けるために,人間や人工情報処理装置が持つ可能性のある認識論を扱うために,論理記号推論を導入する。 我々のシステムは、様々な信念システムに対処でき、真、偽、現実、非現実、リテラル、または異常について意思決定がどのように異なるかを示す。 同様に、ChatGPTのようなストータAIは、魔術師の見習いである。

In this position paper, we argue that careless reliance on AI to answer our questions and to judge our output is a violation of Grice's Maxim of Quality as well as a violation of Lemoine's legal Maxim of Innocence, performing an (unwarranted) authority fallacy, and while lacking assessment signals, committing Type II errors that result from fallacies of the inverse. What is missing in the focus on output and results of AI-generated and AI-evaluated content is, apart from paying proper tribute, the demand to follow a person's thought process (or a machine's decision processes). In deliberately avoiding Neural Networks that cannot explain how they come to their conclusions, we introduce logic-symbolic inference to handle any possible epistemics any human or artificial information processor may have. Our system can deal with various belief systems and shows how decisions may differ for what is true, false, realistic, unrealistic, literal, or anomalous. As is, stota AI such as ChatGPT is a sorcerer's apprentice.
翻訳日:2023-04-28 12:23:59 公開日:2023-04-23
# 固体の比熱に及ぼす量子重力の影響

Effect of Quantum Gravity on Specific Heat of Solid ( http://arxiv.org/abs/2304.13673v1 )

ライセンス: Link先を確認
Sheikh Riasat, Bhabani Prasad Mandal(参考訳) 量子重力の可能なすべての理論は、最小長の存在を示唆している。 その結果、通常のハイゼンベルク不確実性原理(HUP)は、一般化不確実性原理(Generalized Uncertainty Principle、GUP)と呼ばれるより一般的な不確実性原理に置き換えられる。 全ての量子力学系の力学は GUP によって修正される。 この研究において、アインシュタインとデバイのモデルの両方を、固体の特定の熱に対する量子重力効果を見つけるために考慮する。 アインシュタインモデルにおけるGUP修正比熱は、低温での通常の指数的支配を示す。 さらに、弾性波に時間依存するGUP変化分散関係を考慮し、デバイの比熱の修正を算出する。

All possible theories of quantum gravity suggest the existence of a minimal length. As a consequence, the usual Heisenberg Uncertainty Principle (HUP) is replaced by a more general uncertainty principle known as the Generalised Uncertainty Principle(GUP). The dynamics of all quantum mechanical system gets modified due to GUP. In this work, we consider both Einstein's and Debye's models to find the quantum gravity effect on the specific heat of solids. GUP modified specific heat in Einstein's model shows usual exponential dominance at low temperatures. Further, the modification to Debye's specific heat is calculated by considering the GUP modified dispersion relation, which becomes time dependent for elastic waves.
翻訳日:2023-04-27 13:32:50 公開日:2023-04-23
# ATMキャッシュリサイクルプロセスの多目的ロジスティックス最適化

Multiobjective Logistics Optimization for Automated ATM Cash Replenishment Process ( http://arxiv.org/abs/2304.13671v1 )

ライセンス: Link先を確認
Bui Tien Thanh, Dinh Van Tuan, Tuan Anh Chi, Nguyen Van Dai, Nguyen Tai Quang Dinh, and Nguyen Thu Thuy(参考訳) デジタルトランスフォーメーションの時代、銀行業務のあらゆる側面にデジタル技術を統合することで、プロセスの自動化、コスト効率、サービスレベルの改善が向上します。 ATMキャッシュのロジスティクスは、運用コストと消費者満足度に影響を与える重要なタスクであるが、それを強化する努力はほとんどなかった。 特にベトナムでは、ATMが全国で2万台以上あるため、この問題を解決できる研究と技術ソリューションは依然として乏しい。 本稿では,ATMキャッシュ補充のための車両ルーティング問題を一般化し,数学的モデルを提案し,様々な状況を評価するためのツールを提供した。 シミュレーションデータセットで評価すると,ATMキャッシュの運用コストを削減することで,提案手法とモデルが有効であることがわかった。

In the digital transformation era, integrating digital technology into every aspect of banking operations improves process automation, cost efficiency, and service level improvement. Although logistics for ATM cash is a crucial task that impacts operating costs and consumer satisfaction, there has been little effort to enhance it. Specifically, in Vietnam, with a market of more than 20,000 ATMs nationally, research and technological solutions that can resolve this issue remain scarce. In this paper, we generalized the vehicle routing problem for ATM cash replenishment, suggested a mathematical model and then offered a tool to evaluate various situations. When being evaluated on the simulated dataset, our proposed model and method produced encouraging results with the benefits of cutting ATM cash operating costs.
翻訳日:2023-04-27 13:32:08 公開日:2023-04-23
# 低コストハードウェアによる細粒二面マニピュレーションの学習

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware ( http://arxiv.org/abs/2304.13705v1 )

ライセンス: Link先を確認
Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn(参考訳) ケーブル接続のスレッディングやバッテリーのスロットングといった細かい操作は、正確さ、接触力の注意深い調整、閉ループ視覚フィードバックを必要とするため、ロボットにとって非常に難しい。 これらのタスクを実行するには、通常、ハイエンドロボット、正確なセンサー、または慎重に調整する必要がある。 学習は、低コストで不正確なハードウェアがこれらの細かい操作タスクを実行することができるか? 本稿では,実演から直接エンド・ツー・エンドの模倣学習を行う,低コストなシステムを提案する。 しかし、シミュレーション学習は、特に高精度な領域では、時間とともにポリシーのエラーが複雑化し、人間のデモは静止しない可能性があるという、独自の課題を提示している。 これらの課題に対処するために,動作系列の生成モデルを学習する単純な新しいアルゴリズムであるAction Chunking with Transformers (ACT) を開発した。 actは、半透明のコンディメントカップを開き、80~90%の成功率でバッテリーをスロットングするなど、現実世界で6つの難しいタスクを学習できる。 プロジェクトウェブサイト: https://tonyzhaozh.github.io/aloha/

Fine manipulation tasks, such as threading cable ties or slotting a battery, are notoriously difficult for robots because they require precision, careful coordination of contact forces, and closed-loop visual feedback. Performing these tasks typically requires high-end robots, accurate sensors, or careful calibration, which can be expensive and difficult to set up. Can learning enable low-cost and imprecise hardware to perform these fine manipulation tasks? We present a low-cost system that performs end-to-end imitation learning directly from real demonstrations, collected with a custom teleoperation interface. Imitation learning, however, presents its own challenges, particularly in high-precision domains: errors in the policy can compound over time, and human demonstrations can be non-stationary. To address these challenges, we develop a simple yet novel algorithm, Action Chunking with Transformers (ACT), which learns a generative model over action sequences. ACT allows the robot to learn 6 difficult tasks in the real world, such as opening a translucent condiment cup and slotting a battery with 80-90% success, with only 10 minutes worth of demonstrations. Project website: https://tonyzhaozh.github.io/aloha/
翻訳日:2023-04-27 13:23:37 公開日:2023-04-23
# 海洋クロロフィル分析における物理化学的特徴と学習技術

Dependence of Physiochemical Features on Marine Chlorophyll Analysis with Learning Techniques ( http://arxiv.org/abs/2304.12325v1 )

ライセンス: Link先を確認
Subhrangshu Adhikary, Sudhir Kumar Chaturvedi, Saikat Banerjee and Sourav Basu(参考訳) 植物プランクトンに生息する海洋クロロフィルは光合成の基礎であり、地球規模の一次生産に大きく貢献し、多くの海洋生物の食物連鎖の下にあるため、生態的バランスを維持する上で非常に重要である。 植物プランクトンの濃度の不均衡は生態系のバランスを損なう可能性がある。 植物プランクトンの生育は、鉄、硝酸塩、リン酸塩、pH、塩分濃度などの生理化学的成分の最適濃度に依存し、理想的な濃度からの偏差は植物プランクトンの生育に影響し、最終的に生態系を破壊することができる。 このような成分の分析は海洋植物プランクトンの生長を推定する上で非常に重要である。 リモートセンシング技術の進歩により、地球規模の物理化学成分をリモートで研究する範囲が向上した。 機械学習技術により、生理化学的性質と深層学習に基づいて海洋クロロフィルのレベルを予測することが可能になったが、人間の脳の動作原理をシミュレートするより高度な方法が実現された。 本研究では,ベンガル湾における機械学習と深層学習を用いて,物理化学的特徴に基づくクロロフィルレベルの回帰モデルを構築し,その信頼性と性能について検討した。 これは、生物化学的特徴に基づいて水域に存在するクロロフィルの量を推定するのに役立ち、海洋植物プランクトンの不均衡によって生態系が混乱する可能性がある場合に、早期に計画することができる。

Marine chlorophyll which is present within phytoplankton are the basis of photosynthesis and they have a high significance in sustaining ecological balance as they highly contribute toward global primary productivity and comes under the food chain of many marine organisms. Imbalance in the concentrations of phytoplankton can disrupt the ecological balance. The growth of phytoplankton depends upon the optimum concentrations of physiochemical constituents like iron, nitrates, phosphates, pH level, salinity, etc. and deviations from an ideal concentration can affect the growth of phytoplankton which can ultimately disrupt the ecosystem at a large scale. Thus the analysis of such constituents has high significance to estimate the probable growth of marine phytoplankton. The advancements of remote sensing technologies have improved the scope to remotely study the physiochemical constituents on a global scale. The machine learning techniques have made it possible to predict the marine chlorophyll levels based on physiochemical properties and deep learning helped to do the same but in a more advanced manner simulating the working principle of a human brain. In this study, we have used machine learning and deep learning for the Bay of Bengal to establish a regression model of chlorophyll levels based on physiochemical features and discussed its reliability and performance for different regression models. This could help to estimate the amount of chlorophyll present in water bodies based on physiochemical features so we can plan early in case there arises a possibility of disruption in the ecosystem due to imbalance in marine phytoplankton.
翻訳日:2023-04-26 23:14:25 公開日:2023-04-23
# copulaエントロピーを用いたシステム同定

System Identification with Copula Entropy ( http://arxiv.org/abs/2304.12922v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) 力学系を支配する微分方程式の同定は、幅広い応用において重要な問題である。 コピュラエントロピー(英語: Copula Entropy、CE)は、情報理論における統計的独立性を測定する数学的概念である。 本稿では,CEを用いた力学系の微分方程式の同定法を提案する。 この問題は変数選択問題と見なされ、前述した変数選択のためのceベースの手法で解決される。 提案手法は差分演算子とCE推定器の2つの成分からなる。 両コンポーネントは非パラメトリックに実行できるため,提案手法はモデルフリーかつハイパーパラメータフリーである。 3次元ロレンツシステムを用いたシミュレーション実験により,提案手法の有効性を検証した。

Identifying differential equation governing dynamical system is an important problem with wide applications. Copula Entropy (CE) is a mathematical concept for measuring statistical independence in information theory. In this paper we propose a method for identifying differential equation of dynamical systems with CE. The problem is considered as a variable selection problem and solved with the previously proposed CE-based method for variable selection. The proposed method composed of two components: the difference operator and the CE estimator. Since both components can be done non-parametrically, the proposed method is therefore model-free and hyperparameter-free. The simulation experiment with the 3D Lorenz system verified the effectiveness of the proposed method.
翻訳日:2023-04-26 19:55:15 公開日:2023-04-23
# シミュレーター:適度信頼体制における適応的サンプリングの理解

The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime ( http://arxiv.org/abs/1702.05186v2 )

ライセンス: Link先を確認
Max Simchowitz and Kevin Jamieson and Benjamin Recht(参考訳) 本稿では,適応サンプリングを解析する新しい手法である {\em Simulatorを提案する。 提案手法は, 一定のサンプリング戦略によってどれだけの情報を集めることができるかではなく, 適切なサンプリング戦略と, 与えられた時間に収集される限られたデータ量とを区別することがいかに難しいかを考えることで, 既存の手法と異なる。 この視点の変化により,両手法の限界を克服することなく,ファノ法と測定方法の双方の強度を一致させることができる。 具体的には,本手法を固定信頼純粋探索条件における構造的マルチアームバンディット問題に適用し,本手法の制約は,中程度信頼標本の複雑性と漸近サンプルの複雑性とを,文献で見られる$\delta \to 0$として有意なギャップを示唆することを示す。 また、適切なログファクタを組み込んだトップk問題に対する、最初のインスタンスベースの下限も証明する。 さらに、我々の下界は、それぞれの 'emph{individual} アームの回数でゼロインであり、集合的なサンプルの複雑さに埋もれてしまう新しい現象を明らかにする必要がある。 我々の新しい分析は、最良腕と最上位kの識別のための単純でほぼ最適のアルゴリズムを刺激し、後者の問題に対する最初の実用的アルゴリズムは、異常なログファクタを除去し、実験において最先端のアルゴリズムよりも優れている。

We propose a novel technique for analyzing adaptive sampling called the {\em Simulator}. Our approach differs from the existing methods by considering not how much information could be gathered by any fixed sampling strategy, but how difficult it is to distinguish a good sampling strategy from a bad one given the limited amount of data collected up to any given time. This change of perspective allows us to match the strength of both Fano and change-of-measure techniques, without succumbing to the limitations of either method. For concreteness, we apply our techniques to a structured multi-arm bandit problem in the fixed-confidence pure exploration setting, where we show that the constraints on the means imply a substantial gap between the moderate-confidence sample complexity, and the asymptotic sample complexity as $\delta \to 0$ found in the literature. We also prove the first instance-based lower bounds for the top-k problem which incorporate the appropriate log-factors. Moreover, our lower bounds zero-in on the number of times each \emph{individual} arm needs to be pulled, uncovering new phenomena which are drowned out in the aggregate sample complexity. Our new analysis inspires a simple and near-optimal algorithm for the best-arm and top-k identification, the first {\em practical} algorithm of its kind for the latter problem which removes extraneous log factors, and outperforms the state-of-the-art in experiments.
翻訳日:2023-04-26 02:05:16 公開日:2023-04-23
# タスク最適化におけるゴール指向読解における人間の注意

Human Attention during Goal-directed Reading Comprehension Relies on Task Optimization ( http://arxiv.org/abs/2107.05799v2 )

ライセンス: Link先を確認
Jiajie Zou, Yuran Zhang, Jialu Li, Xing Tian, and Nai Ding(参考訳) 複雑な目標指向タスクにおける注意配置の基礎となる計算原理はいまだに解明されていない。 ゴール指向読書(goal-directed reading)、すなわち、質問に答えるために一節を読むことは、注意をひく一般的な現実世界のタスクである。 本稿では,この複雑なタスクにおける注意分布を説明する計算モデルについて検討する。 そこで本研究では,同一読解タスクに最適化されたトランスフォーマー型深層ニューラルネットワーク (dnns) において,各単語の読解時間が注意重みによって予測されることを示す。 さらにアイトラッキングにより,初回読解時と再読解時において,読者は基本テキスト特徴と質問関連情報に別々に対応できることが判明した。 同様に、テキストの特徴と質問関連性は、浅いDNN層と深いDNN層の注意重みを別々に調節する。 さらに、読者が質問を念頭に置いて通路をスキャンすると、単語予測タスクに最適化されたDNNによってその読み時間が予測される。 したがって、実世界の読書における注意はタスク最適化の結果として解釈できる。

The computational principles underlying attention allocation in complex goal-directed tasks remain elusive. Goal-directed reading, i.e., reading a passage to answer a question in mind, is a common real-world task that strongly engages attention. Here, we investigate what computational models can explain attention distribution in this complex task. We show that the reading time on each word is predicted by the attention weights in transformer-based deep neural networks (DNNs) optimized to perform the same reading task. Eye-tracking further reveals that readers separately attend to basic text features and question-relevant information during first-pass reading and rereading, respectively. Similarly, text features and question relevance separately modulate attention weights in shallow and deep DNN layers. Furthermore, when readers scan a passage without a question in mind, their reading time is predicted by DNNs optimized for a word prediction task. Therefore, attention during real-world reading can be interpreted as the consequence of task optimization.
翻訳日:2023-04-26 01:14:12 公開日:2023-04-23
# 原子の自由空間サブ波長配列のフォトニック非線形性を利用する

Exploiting the Photonic Non-linearity of Free Space Subwavelength Arrays of Atoms ( http://arxiv.org/abs/2107.00566v3 )

ライセンス: Link先を確認
Cosimo C. Rusconi, Tao Shi, and J. Ignacio Cirac(参考訳) 原子配列のような秩序化された原子のアンサンブルは、その乱れた原子の特徴的な特徴を示す。 特に、乱れたアンサンブルの集合モードは線形光学応答を示すが、サブ波長アレイの集合サブラジアント励起は固有の非線形性によって与えられる。 このような非線形性はコヒーレントと散逸成分の両方を持ち、2つの励起が互いに散乱して相関を形成し、自由空間モードに放出される。 このような非線形性を生かして、一次元配列のサブラジアント(ダーク)集合状態において1つの励起をコヒーレントに生成し、並列配列の暗い状態に対して絡み合う操作を行う方法を示す。 本稿では,原子中心変動による乱れに代表される誤差の主な原因について論じ,その効果を緩和する実用的な方法を提案する。

Ordered ensembles of atoms, such as atomic arrays, exhibit distinctive features from their disordered counterpart. In particular, while collective modes in disordered ensembles show a linear optical response, collective subradiant excitations of subwavelength arrays are endowed with an intrinsic non-linearity. Such non-linearity has both a coherent and a dissipative component: two excitations propagating in the array scatter off each other leading to formation of correlations and to emission into free space modes. We show how to take advantage of such non-linearity to coherently prepare a single excitation in a subradiant (dark) collective state of a one dimensional array as well as to perform an entangling operation on dark states of parallel arrays. We discuss the main source of errors represented by disorder introduced by atomic center-of-mass fluctuations, and we propose a practical way to mitigate its effects.
翻訳日:2023-04-26 01:13:57 公開日:2023-04-23
# GMMにおけるロバストモデル選択と近接学習

Robust Model Selection and Nearly-Proper Learning for GMMs ( http://arxiv.org/abs/2106.02774v2 )

ライセンス: Link先を確認
Jerry Li, Allen Liu, Ankur Moitra(参考訳) 学習理論における標準的な仮定は、データは有限混合モデルから生成されるというものである。 しかし、事前にコンポーネントの数が分かっていない場合はどうなりますか? モデル選択と呼ばれるコンポーネント数を推定する問題は、それ自体が重要であるが、本質的には、証明可能な保証を備えた効率的なアルゴリズムは存在しない。 本研究では,一変量ガウス混合モデル(GMM)におけるロバストモデル選択の問題について検討する。 例えば、$\textsf{poly}(k/\epsilon)$の分布から$\epsilon$-closeの分布から$k$のコンポーネントを持つGMMまでの分布のサンプルを与えられると、$\widetilde{O}(k)$のコンポーネントでGMMを構築して、$\widetilde{O}(\epsilon)$の分布を$\textsf{poly}(k/\epsilon)$の時間内に近似することができる。 したがって、対数係数内の分布に適合するために必要な最小成分数を概ね決定することができる。 我々の研究に先立ち、任意の単変数のGMMを学習するための唯一の既知のアルゴリズムは、$k$コンポーネント(例えば、カーネル密度推定のための$k/\epsilon^2$コンポーネント)よりもはるかに多く出力するか、または$k$で時間指数的に実行される。 さらに, この手法を応用して, フーリエスパース信号の再構成に類似した結果を得る。

In learning theory, a standard assumption is that the data is generated from a finite mixture model. But what happens when the number of components is not known in advance? The problem of estimating the number of components, also called model selection, is important in its own right but there are essentially no known efficient algorithms with provable guarantees let alone ones that can tolerate adversarial corruptions. In this work, we study the problem of robust model selection for univariate Gaussian mixture models (GMMs). Given $\textsf{poly}(k/\epsilon)$ samples from a distribution that is $\epsilon$-close in TV distance to a GMM with $k$ components, we can construct a GMM with $\widetilde{O}(k)$ components that approximates the distribution to within $\widetilde{O}(\epsilon)$ in $\textsf{poly}(k/\epsilon)$ time. Thus we are able to approximately determine the minimum number of components needed to fit the distribution within a logarithmic factor. Prior to our work, the only known algorithms for learning arbitrary univariate GMMs either output significantly more than $k$ components (e.g. $k/\epsilon^2$ components for kernel density estimates) or run in time exponential in $k$. Moreover, by adapting our techniques we obtain similar results for reconstructing Fourier-sparse signals.
翻訳日:2023-04-26 01:13:10 公開日:2023-04-23
# 物理原理に基づく古典主義の操作概念

An operational notion of classicality based on physical principles ( http://arxiv.org/abs/2104.14355v2 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 古典世界の基本的な観察の1つは、物理的実体は実在しており、互いに区別できるということである。 しかし、量子論においては、物理的実在論の考え方は定まっていない。 実験における観察をどのように記述できるかを現実の物理的状態を用いて分析するフレームワークが最近開発され、オントロジモデルフレームワークとして知られている。 存在論的レベルで課された異なる原理は異なる理論を生み出し、それらの理論によって生成される統計に基づいて検証できる。 オントロジカル・モデル・フレームワークを用いて、古典的な状態は現実の物理的状態であり、あらゆる鋭い測定がシステムの状態を完璧に観察する、という物理原理に基づく「オントロジカル・ディファクチュニシビリティ」と呼ばれる新しい古典性の概念を定式化する。 オンティック分離可能性の概念を満たすオントロジモデルに対して,成功確率を上から境界づけたコミュニケーションタスクを構築する。 古典主義の以前の概念とは対照的に、次元の系が2より厳密に大きいか、あるいは3つの準備が必須であるのに対して、オンティック・ディファレンシビリティの違反は、一対の量子ビットと一対の非互換な測定によって観察できる。 さらに, 既知の古典性概念である非コンテクスト性やベルの局所因果性などの違反は, オンティック識別可能性の侵害であることを示す。

One of the basic observations of the classical world is that physical entities are real and can be distinguished from each other. However, within quantum theory, the idea of physical realism is not well established. A framework to analyse how observations in experiments can be described using some physical states of reality was recently developed, known as ontological models framework. Different principles when imposed on the ontological level give rise to different theories, the validity of which can be tested based on the statistics generated by these theories. Using the ontological models framework, we formulate a novel notion of classicality termed ontic-distinguishability, which is based upon the physical principles that in classical theories extremal states are physical states of reality and every sharp measurement observes the state of the system perfectly. We construct a communication task in which the success probability is bounded from above for ontological models satisfying the notion of ontic-distinguishability. Contrary to previous notions of classicality which either required systems of dimension strictly greater than two or atleast three preparations, a violation of ontic-distinguishability can be observed using just a pair of qubits and a pair of incompatible measurements. We further show that violation of previously known notions of classicality such as preparation non-contextuality and Bell's local causality is a violation of ontic-distinguishability.
翻訳日:2023-04-26 01:12:38 公開日:2023-04-23
# 視覚振動トモグラフィ : 単眼映像からの内部材料特性を推定する

Visual Vibration Tomography: Estimating Interior Material Properties from Monocular Video ( http://arxiv.org/abs/2104.02735v4 )

ライセンス: Link先を確認
Berthy T. Feng, Alexander C. Ogren, Chiara Daraio, Katherine L. Bouman(参考訳) 物体の内部の物質特性は、人間の目には見えないが、表面で観察される動きを決定する。 本研究では,物体の表面振動の単分子ビデオから物体の異種材料特性を推定する手法を提案する。 具体的には、既知の幾何学を持つ3次元物体全体のヤング率と密度を推定する方法を示す。 これらの値がオブジェクト全体にどのように変化するかの知識は、その動きをシミュレートし、欠陥を特徴づけるのに役立ちます。 高価な機器を必要とする従来の非破壊試験手法は、一般的に均質化された材料特性のみを推定するか、欠陥の有無を単純に特定する。 対照的に,本手法では単眼映像を用いて,(1)物体のサブピクセルの動きから画像空間モードを特定し,(2)観測したモードからヤング率と密度値を空間的に推定する。 シミュレーションビデオと実動画の両方にアプローチを示します。

An object's interior material properties, while invisible to the human eye, determine motion observed on its surface. We propose an approach that estimates heterogeneous material properties of an object from a monocular video of its surface vibrations. Specifically, we show how to estimate Young's modulus and density throughout a 3D object with known geometry. Knowledge of how these values change across the object is useful for simulating its motion and characterizing any defects. Traditional non-destructive testing approaches, which often require expensive instruments, generally estimate only homogenized material properties or simply identify the presence of defects. In contrast, our approach leverages monocular video to (1) identify image-space modes from an object's sub-pixel motion, and (2) directly infer spatially-varying Young's modulus and density values from the observed modes. We demonstrate our approach on both simulated and real videos.
翻訳日:2023-04-26 01:12:15 公開日:2023-04-23
# コンフォーマル化生存分析

Conformalized Survival Analysis ( http://arxiv.org/abs/2103.09763v3 )

ライセンス: Link先を確認
Emmanuel J. Cand\`es, Lihua Lei and Zhimei Ren(参考訳) 既存の生存分析技術は強いモデリング仮定に大きく依存しており、したがって誤特定の誤りをモデル化する傾向がある。 本稿では,共形予測のアイデアに基づく推論手法を開発し,生存時間に基づくキャリブレーションされた共変量依存の低次予測境界を生成するために,任意の生存予測アルゴリズムをラップすることができる。 タイプiの右検閲設定では、検閲時間が完全に外因的である場合、低い予測範囲は、独立かつ同一に分散されたデータポイントで操作すること以外の仮定なしに、有限サンプルのカバレッジを保証する。 より一般的な条件に依存しない検閲仮定の下で、境界は以下の2つの頑健な性質を満たす: 限界被覆は、検閲機構または条件生存関数が適切に推定された場合にほぼ保証される。 さらに,より低い予測範囲が他のタイプの検閲においても有効かつ有益であることを実証する。 本手法の有効性と有効性は,英国バイオバンクの合成データと実際のCOVID-19データに基づいて実証した。

Existing survival analysis techniques heavily rely on strong modelling assumptions and are, therefore, prone to model misspecification errors. In this paper, we develop an inferential method based on ideas from conformal prediction, which can wrap around any survival prediction algorithm to produce calibrated, covariate-dependent lower predictive bounds on survival times. In the Type I right-censoring setting, when the censoring times are completely exogenous, the lower predictive bounds have guaranteed coverage in finite samples without any assumptions other than that of operating on independent and identically distributed data points. Under a more general conditionally independent censoring assumption, the bounds satisfy a doubly robust property which states the following: marginal coverage is approximately guaranteed if either the censoring mechanism or the conditional survival function is estimated well. Further, we demonstrate that the lower predictive bounds remain valid and informative for other types of censoring. The validity and efficiency of our procedure are demonstrated on synthetic data and real COVID-19 data from the UK Biobank.
翻訳日:2023-04-26 01:11:59 公開日:2023-04-23
# RocketQAv2:Dense Passage RetrievalとPassage Re- rankの共同トレーニング方法

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking ( http://arxiv.org/abs/2110.07367v2 )

ライセンス: Link先を確認
Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen(参考訳) 様々な自然言語処理タスクにおいて,経路検索と経路再ランク付けは関連情報の検索とランキングの2つの重要な手順である。 2つの手順が最終性能に寄与するため、相互改善を達成するために共同で最適化することが重要である。 本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。 大きな貢献は、動的リストワイズ蒸留法を導入し、レトリバーとリランクラーの両方に対して統一的なリストワイズ訓練手法を設計することである。 ダイナミック蒸留中に、相互の関連情報に応じてレトリバーと再ランク付け器を適応的に改善することができる。 また、リストワイズトレーニングアプローチのための多様なトレーニングインスタンスを構築するためのハイブリッドデータ拡張戦略を提案する。 MSMARCOとNatural Questionsの両方のデータセットに対するアプローチの有効性を示す。 私たちのコードはhttps://github.com/paddlepaddle/rocketqaで利用可能です。

In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information. Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement. In this paper, we propose a novel joint training approach for dense passage retrieval and passage re-ranking. A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker. During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other's relevance information. We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach. Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets. Our code is available at https://github.com/PaddlePaddle/RocketQA.
翻訳日:2023-04-26 01:03:27 公開日:2023-04-23
# 量子粒子の弱値と過去

Weak values and the past of a quantum particle ( http://arxiv.org/abs/2109.14060v5 )

ライセンス: Link先を確認
Jonte R. Hance, John Rarity, and James Ladyman(参考訳) 本研究では,空間投影演算子の非零弱値を用いて個々の量子粒子の過去の経路を推定する4つの課題について検討する。 まず,弱い測定値が系を乱すことを指摘し,量子粒子の位置を決定するためにそのような摂動に依存する任意のアプローチは,仮定上の乱れのない系ではなく、乱れた系の状態を記述している。 第二に、乱れを仮定しないとしても、空間射影作用素を含む作用素の零でない弱値と古典的な「粒子の存在」を関連付ける理由はない。 第三に、弱い値はアンサンブル上でしか測定できないため、個々の粒子の性質をその値から推測することは問題となる。 最後に、粒子の経路への弱い値のアプローチは、標準量子力学(および実験をサポートする古典的モード)を超えた情報を提供しない。 粒子の存在と弱値の関係を示す検証可能な結果の実験は知られていない。

We investigate four key issues with using a nonzero weak value of the spatial projection operator to infer the past path of an individual quantum particle. First, we note that weak measurements disturb a system, so any approach relying on such a perturbation to determine the location of a quantum particle describes the state of a disturbed system, not that of a hypothetical undisturbed system. Secondly, even assuming no disturbance, there is no reason to associate the non-zero weak value of an operator containing the spatial projection operator with the classical idea of `particle presence'. Thirdly, weak values are only measurable over ensembles, and so to infer properties of individual particles from values of them is problematic. Finally, weak value approaches to the path of a particle do not provide information beyond standard quantum mechanics (and the classical modes supporting the experiment). We know of no experiment with testable consequences that demonstrates a connection between particle presence and weak values.
翻訳日:2023-04-26 01:03:14 公開日:2023-04-23
# ディープニューラルネットワークにおける表現学習の理論はカーネル法の深い一般化を与える

A theory of representation learning in deep neural networks gives a deep generalisation of kernel methods ( http://arxiv.org/abs/2108.13097v5 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Edward Milsom, Nandi Schoots, Laurence Aitchison(参考訳) 現代のディープラーニング手法の成功は、複数の層にまたがって入力を変換し、優れたハイレベルな表現を構築する能力に基づいています。 したがって、この表現学習の過程を理解することは重要である。 しかし、無限幅制限を含む標準的な理論的アプローチ(正式にはNNGP)は表現学習を排除している。 そこで我々は,有限幅モデルにおいて,標準無限幅極限の単純さを保ちながら表現学習のミラーリングを示す,新たな無限幅極限ベイズ表現学習限界(baiesian representation learning limit)を開発した。 特に,ベイズ表現学習限界における深いガウス過程 (dgps) は, 正確に多変量ガウス後段を持ち, 後方共分散は, ログ類似性を組み合わせた解釈可能な目標を最適化することで得られる。 これらの結果は広義に有限なDGPで実験的に検証する。 次に,この限界と目的を,深層カーネルマシン (DKM) と呼ばれるカーネルメソッドの柔軟な,深い一般化として活用する可能性を紹介する。 多くの単純カーネルメソッドと同様に、DKMはデータポイント数で3次スケールする。 したがって,点文献を誘導するガウス過程の手法を用いて,データポイント数を線形にスケールするスパースdkmを開発した。 最後に、これらのアプローチをアペンデンスにおけるNN(非ガウス後部を持つ)に拡張する。

The successes of modern deep machine learning methods are founded on their ability to transform inputs across multiple layers to build good high-level representations. It is therefore critical to understand this process of representation learning. However, standard theoretical approaches (formally NNGPs) involving infinite width limits eliminate representation learning. We therefore develop a new infinite width limit, the Bayesian representation learning limit, that exhibits representation learning mirroring that in finite-width models, yet at the same time, retains some of the simplicity of standard infinite-width limits. In particular, we show that Deep Gaussian processes (DGPs) in the Bayesian representation learning limit have exactly multivariate Gaussian posteriors, and the posterior covariances can be obtained by optimizing an interpretable objective combining a log-likelihood to improve performance with a series of KL-divergences which keep the posteriors close to the prior. We confirm these results experimentally in wide but finite DGPs. Next, we introduce the possibility of using this limit and objective as a flexible, deep generalisation of kernel methods, that we call deep kernel machines (DKMs). Like most naive kernel methods, DKMs scale cubically in the number of datapoints. We therefore use methods from the Gaussian process inducing point literature to develop a sparse DKM that scales linearly in the number of datapoints. Finally, we extend these approaches to NNs (which have non-Gaussian posteriors) in the Appendices.
翻訳日:2023-04-26 01:02:25 公開日:2023-04-23
# PAIR:Dense Passage Retrieval改善のためのPAIR-Centric similarity Relationの活用

PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval ( http://arxiv.org/abs/2108.06027v2 )

ライセンス: Link先を確認
Ruiyang Ren, Shangwen Lv, Yingqi Qu, Jing Liu, Wayne Xin Zhao, QiaoQiao She, Hua Wu, Haifeng Wang, Ji-Rong Wen(参考訳) 近年,様々な自然言語処理タスクにおいて,関連する情報を見つけるために,高密度経路探索が主流となっている。 広く採用されているデュアルエンコーダアーキテクチャの改善に多くの研究が費やされている。 しかし、従来の研究の多くは、二重エンコーダレトリバーを学習する際にのみ、クエリ中心の類似性関係を考察している。 より包括的類似性関係を捉えるために,クエリ中心とPAssage中心のsマイクロラリティ関係(PAIR)を併用した新しい手法を提案する。 本手法を実践するために, 2種類の類似関係の形式的定式化, 知識蒸留による高品質擬似ラベルデータの生成, 通路中心の類似関係制約を組み込んだ効果的な2段階学習手順の設計という3つの大きな技術的貢献を行った。 広範な実験により,msmarco と natural questions のデータセットでは,従来の最先端モデルを大きく上回っていることがわかった。

Recently, dense passage retrieval has become a mainstream approach to finding relevant information in various natural language processing tasks. A number of studies have been devoted to improving the widely adopted dual-encoder architecture. However, most of the previous studies only consider query-centric similarity relation when learning the dual-encoder retriever. In order to capture more comprehensive similarity relations, we propose a novel approach that leverages both query-centric and PAssage-centric sImilarity Relations (called PAIR) for dense passage retrieval. To implement our approach, we make three major technical contributions by introducing formal formulations of the two kinds of similarity relations, generating high-quality pseudo labeled data via knowledge distillation, and designing an effective two-stage training procedure that incorporates passage-centric similarity relation constraint. Extensive experiments show that our approach significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions datasets.
翻訳日:2023-04-26 01:02:01 公開日:2023-04-23
# 量子状態の重ね合わせにおける分離性と絡み合い

Separability and entanglement in superpositions of quantum states ( http://arxiv.org/abs/2108.02260v2 )

ライセンス: Link先を確認
Saronath Halder, Ujjwal Sen(参考訳) 任意の純量子状態のペアを確率的に混合することが知られており、一方は絡み合っており、他方の積は任意の二部量子系において、対の絡み合状態が非ゼロ確率で現れる場合、常に絡み合っている状態を得る。 一方、同じ対の任意の重ね合わせを考えると、対の絡み合い状態に対する非零振幅を考えると、出力状態は常に絡み合うとは限らない。 この事実に動機づけられたこの研究では、任意の重ね合わせに現れる状態に対応する振幅がゼロでないとき、純粋な絡み合った状態と純粋な積状態の重ね合わせを研究する。 特に、そのような重ね合わせは、初期絡み合い状態がシュミット階数 3 以上のときのみ絡み合い状態を生成することを示す。 再び、純粋な絡み合った状態と積状態の重ね合わせは、任意の二成分量子系において、積状態のみを導くことはできない。 これらは重ね合わせの条件付きおよび非条件的不分離性を定義することに繋がる。 これらの概念は量子通信プロトコルにおいて有用である。 重ね合わせの条件的不分離性は、共有量子アンサンブルの局所的識別の戦略を特定するのに役立つ。 また、無条件多様体は、より絡み合いの少ないより非局所的な現象を示すアンサンブルを同定する体系的手法や、決定的かつ局所的に区別できない共有量子状態の2要素アンサンブルを発見できる。

It is known that probabilistically mixing an arbitrary pair of pure quantum states, one of which is entangled and the other product, in any bipartite quantum system, one always obtains an entangled state, provided the entangled state of the pair appears with a nonzero probability. On the other hand, if we consider any superposition of the same pair, with a nonzero amplitude for the entangled state of the pair, the output state may not always be entangled. Motivated by this fact, in this work, we study the superpositions of a pure entangled state and a pure product state, when the amplitudes corresponding to the states appearing in any superposition are nonzero. We show, in particular, that all such superpositions produce only entangled states if the initial entangled state has Schmidt rank three or higher. Again, superposing a pure entangled state and a product state cannot lead to product states only, in any bipartite quantum system. These lead us to define conditional and unconditional inseparabilities of superpositions. These concepts in turn are useful in quantum communication protocols. We find that conditional inseparability of superpositions help in identifying strategies for conclusive local discrimination of shared quantum ensembles. We also find that the unconditional variety leads to systematic methods for spotting ensembles exhibiting the phenomenon of more nonlocality with less entanglement and two-element ensembles of conclusively and locally indistinguishable shared quantum states.
翻訳日:2023-04-26 01:01:31 公開日:2023-04-23
# 深層強化学習という教科書

Deep Reinforcement Learning, a textbook ( http://arxiv.org/abs/2201.02135v5 )

ライセンス: Link先を確認
Aske Plaat(参考訳) 深層強化学習は近年注目を集めている。 自動運転、ゲームプレイ、分子組換え、ロボティクスなど、さまざまな分野で素晴らしい成果が得られました。 これらすべての分野において、コンピュータプログラムは難しい問題を解くことを自ら教えている。 彼らは模型ヘリコプターを飛ばし、ループやロールのようなエアロバティックな操縦をすることを学んだ。 一部のアプリケーションでは、Atari、Go、ポーカー、StarCraftなど、最高の人間よりも優れています。 深層強化学習が複雑な環境を探索する方法は、子供たちがふざけて物事を試し、フィードバックを得て、もう一度挑戦することで、どのように学習するかを思い出させる。 コンピューターは本当に人間の学習の側面を持っているようで、これは人工知能の夢の核心にかかっている。 研究の成功は教育者によって気付かれず、大学はこのテーマのコースを提供し始めている。 本書の目的は,深層強化学習の分野の包括的概要を提供することである。 この本は人工知能の大学院生と、深層強化学習の方法とその課題をより深く理解したい研究者や実践者のために書かれている。 我々は、コンピュータ科学と人工知能の学部レベルの理解を想定し、この本のプログラミング言語はPythonである。 本稿では,深層強化学習の基礎,アルゴリズム,応用について述べる。 フィールドの基礎を形成する既定のモデルフリーおよびモデルベースメソッドについて紹介する。 開発は急速に進み、深層多エージェント強化学習、深層階層強化学習、深層メタ学習といった先進的なトピックもカバーしています。

Deep reinforcement learning has gathered much attention recently. Impressive results were achieved in activities as diverse as autonomous driving, game playing, molecular recombination, and robotics. In all these fields, computer programs have taught themselves to solve difficult problems. They have learned to fly model helicopters and perform aerobatic manoeuvers such as loops and rolls. In some applications they have even become better than the best humans, such as in Atari, Go, poker and StarCraft. The way in which deep reinforcement learning explores complex environments reminds us of how children learn, by playfully trying out things, getting feedback, and trying again. The computer seems to truly possess aspects of human learning; this goes to the heart of the dream of artificial intelligence. The successes in research have not gone unnoticed by educators, and universities have started to offer courses on the subject. The aim of this book is to provide a comprehensive overview of the field of deep reinforcement learning. The book is written for graduate students of artificial intelligence, and for researchers and practitioners who wish to better understand deep reinforcement learning methods and their challenges. We assume an undergraduate-level of understanding of computer science and artificial intelligence; the programming language of this book is Python. We describe the foundations, the algorithms and the applications of deep reinforcement learning. We cover the established model-free and model-based methods that form the basis of the field. Developments go quickly, and we also cover advanced topics: deep multi-agent reinforcement learning, deep hierarchical reinforcement learning, and deep meta learning.
翻訳日:2023-04-26 00:55:01 公開日:2023-04-23
# 点雲セマンティックセグメンテーションの逆ロバスト性について

On Adversarial Robustness of Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2112.05871v4 )

ライセンス: Link先を確認
Jiacen Xu, Zhe Zhou, Boyuan Feng, Yufei Ding, Zhou Li(参考訳) 3d point cloud semantic segmentation(pcss)に関する最近の研究は、ニューラルネットワークの採用によって優れた性能を達成している。 しかし、これらの複雑なモデルの堅牢性は体系的に分析されていない。 pcssが自動運転のような多くの安全クリティカルなアプリケーションに適用されていることを考えると、この知識のギャップを埋めることは重要である。 そこで,本研究ではpcsのロバスト性の比較検討を行う。 まず、パフォーマンス劣化とオブジェクトの隠蔽において、攻撃者の目的を正式に定義する。 そして、規範に縛られるかどうかによって新たな攻撃を展開する。 2つのデータセットと3つのpcsモデルで異なる攻撃オプションを評価した。 すべてのモデルは脆弱で、攻撃的なポイントカラーの方が効果的です。 本研究では,pcssモデルを強固化するための新しいアプローチの開発に,研究コミュニティの注意を喚起する。

Recent research efforts on 3D point cloud semantic segmentation (PCSS) have achieved outstanding performance by adopting neural networks. However, the robustness of these complex models have not been systematically analyzed. Given that PCSS has been applied in many safety-critical applications like autonomous driving, it is important to fill this knowledge gap, especially, how these models are affected under adversarial samples. As such, we present a comparative study of PCSS robustness. First, we formally define the attacker's objective under performance degradation and object hiding. Then, we develop new attack by whether to bound the norm. We evaluate different attack options on two datasets and three PCSS models. We found all the models are vulnerable and attacking point color is more effective. With this study, we call the attention of the research community to develop new approaches to harden PCSS models.
翻訳日:2023-04-26 00:53:09 公開日:2023-04-23
# 周期キックによる有効動力学と量子状態工学

Effective dynamics and quantum state engineering by periodic kicks ( http://arxiv.org/abs/2203.03118v2 )

ライセンス: Link先を確認
Zhi-Cheng Shi, Zhen Chen, Jian-Hui Wang, Yan Xia, and X. X. Yi(参考訳) 周期的に駆動される量子系のキックダイナミクスを研究し、解析形式を持つ時間非依存の実効ハミルトニアンを与え、長い時間スケールで実効力学を合理的に記述する。 その結果, 有効結合強度は, キックのゼロタイム持続時間に起因するパラメータ領域において, 元のシステムの結合強度よりもはるかに大きいことがわかった。 さらに、周期キックの周期を変調するだけで、異なるレジームを同じ3レベルシステム内で相互に変換することができる。 特に、励起状態の集団は周期的なキックで選択的に抑制され、元のシステムの大規模なゆるやかな状態の恩恵を受ける。 最後に、周期キックの応用や物理的実装が量子系で実証されている。 こうしたユニークな機能は、周期的なキックを量子状態工学の強力なツールにする。

We study the kick dynamics of periodically driven quantum systems, and provide a timeindependent effective Hamiltonian with the analytical form to reasonably describe the effective dynamics in a long timescale. It is shown that the effective coupling strength can be much larger than the coupling strength of the original system in some parameter regions, which stems from the zero time duration of kicks. Furthermore, different regimes can be transformed from and to each other in the same three-level system by only modulating the period of periodic kicks. In particular, the population of excited states can be selectively suppressed in periodic kicks, benefiting from the large detuning regime of the original system. Finally, some applications and physical implementation of periodic kicks are demonstrated in quantum systems. Those unique features would make periodic kicks becoming a powerful tool for quantum state engineering.
翻訳日:2023-04-26 00:44:43 公開日:2023-04-23
# ロバストPAC$^m$: ミス種別とアウトリージによるアンサンブルモデルのトレーニング

Robust PAC$^m$: Training Ensemble Models Under Misspecification and Outliers ( http://arxiv.org/abs/2203.01859v3 )

ライセンス: Link先を確認
Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Marios Kountouris, David Gesbert(参考訳) 標準ベイズ学習は、不特定および外れ値の存在下で最適部分一般化能力を有することが知られている。 pac-bayes理論は、ベイズ学習によって最小化される自由エネルギーの基準が、異常値によって汚染されないサンプリング分布の仮定の下でギブス予測器(すなわち、後からランダムに描画された単一モデル)の一般化誤差に縛られることを証明している。 この視点は、モデルが誤って特定され、アンサンブルが必要であり、データが外れ値に影響された場合にベイズ学習の限界を正当化する。 最近の研究で、PAC-Bayes境界(PAC$^m$)は、アンサンブル予測器の性能を考慮に入れた自由エネルギーメトリクスを導入し、不特定性の下で性能を向上するために導出された。 本研究は,一般化対数スコア関数とpac$^m$アンサンブル境界を組み合わせた,新しいロバストな自由エネルギー基準を提案する。 提案された自由エネルギー訓練基準は、不特定性の有害な影響(可能性と事前の分布の両方)と外れ値の両方に同時に対応できる予測分布を生成する。

Standard Bayesian learning is known to have suboptimal generalization capabilities under misspecification and in the presence of outliers. PAC-Bayes theory demonstrates that the free energy criterion minimized by Bayesian learning is a bound on the generalization error for Gibbs predictors (i.e., for single models drawn at random from the posterior) under the assumption of sampling distributions uncontaminated by outliers. This viewpoint provides a justification for the limitations of Bayesian learning when the model is misspecified, requiring ensembling, and when data is affected by outliers. In recent work, PAC-Bayes bounds -- referred to as PAC$^m$ -- were derived to introduce free energy metrics that account for the performance of ensemble predictors, obtaining enhanced performance under misspecification. This work presents a novel robust free energy criterion that combines the generalized logarithm score function with PAC$^m$ ensemble bounds. The proposed free energy training criterion produces predictive distributions that are able to concurrently counteract the detrimental effects of misspecification -- with respect to both likelihood and prior distribution -- and outliers.
翻訳日:2023-04-26 00:44:31 公開日:2023-04-23
# Localformer: ローカル保存型ビジョントランス

Localformer: a Locality-Preserving Vision Transformer ( http://arxiv.org/abs/2202.10240v5 )

ライセンス: Link先を確認
Qingsong Zhao, Zhipeng Zhou, Yi Wang, Yu Qiao, Cairong Zhao(参考訳) Zigzag flattening (ZF) は、コンピュータビジョンにおいて、ViT(Vision Transformer)のパッチスライシングにおいて、行列を展開するためのデフォルトオプションとして一般的に使用される。 しかし、マルチスケールオブジェクトのWebイメージを分解する場合、ZFはローカル情報の滑らかさをよく維持できない。 これを解決するために、スペースフィリング曲線(SFC)からインスピレーションを得て、視覚モデルの代替としてヒルベルト平坦化(HF)を調査する。 局所性とマルチスケールロバスト性において他のSFCよりもHFの方が優れていることを示す総合的な理論的議論と実践的分析を提供する。 我々はHFを利用して、VTの浅い層における局所性バイアスの欠如の問題を緩和し、ローカルフォーマーを定式化する。 大規模な実験では、Localformerはいくつかの一般的な視覚タスクのパフォーマンスを一貫して改善している。 さらに,検査の結果,LocalformerはViTの表現学習と長さ外挿能力を向上させることがわかった。

Zigzag flattening (ZF) is commonly used in computer vision as a default option to unfold matrices, \eg in patch slicing for Vision Transformer (ViT). However, when decomposing multi-scale-object web images, ZF cannot preserve the smoothness of local information well. To address this, we draw inspiration from Space-Filling Curves (SFC) and investigate Hilbert flattening (HF) as an alternative for visual models. We provide a comprehensive theoretical discussion and practical analysis, demonstrating the superiority of HF over other SFC in locality and multi-scale robustness. We leverage HF to alleviate the problem of the lack of locality bias in the shallow layers of ViT, which formulates our Localformer. Extensive experiments demonstrate that Localformer consistently improves performance for several common visual tasks. Additionally, upon inspection, we find that Localformer enhances representation learning and length extrapolation abilities of ViT.
翻訳日:2023-04-26 00:44:08 公開日:2023-04-23
# 最適回路深さによる量子状態生成:実装と応用

Quantum State Preparation with Optimal Circuit Depth: Implementations and Applications ( http://arxiv.org/abs/2201.11495v4 )

ライセンス: Link先を確認
Xiao-Ming Zhang, Tongyang Li and Xiao Yuan(参考訳) 量子状態準備は量子コンピューティングの重要なサブルーチンである。 我々は、n$ 量子ビットの量子状態は、1 と 2 つの量子ビットゲートのみを使用して$\theta(n)$-depth回路で作成できることを示した。 一方、$d\geqslant2$ non-zeroエントリを持つスパース量子状態の場合、回路の深さを$o(nd\log d)$ ancillary qubits で$\theta(\log(nd))$にする。 スパース状態のアルゴリズムは最もよく知られた結果よりも指数関数的に高速であり、補助量子ビットの数はほぼ最適であり、システムサイズとともに多項式的に増加する。 本稿では,ハミルトニアンシミュレーション,方程式の線形系解法,量子ランダムアクセスメモリの実現など,様々な量子コンピューティングタスクにおける結果の応用について検討し,これら3つのタスクの回路深度を指数関数的に減少させる場合について考察する。 特に,量子量子化アルゴリズムや古典的解量化アルゴリズムに比べれば,指数関数的な高速化を享受する線形系の類型を見出した。

Quantum state preparation is an important subroutine for quantum computing. We show that any $n$-qubit quantum state can be prepared with a $\Theta(n)$-depth circuit using only single- and two-qubit gates, although with a cost of an exponential amount of ancillary qubits. On the other hand, for sparse quantum states with $d\geqslant2$ non-zero entries, we can reduce the circuit depth to $\Theta(\log(nd))$ with $O(nd\log d)$ ancillary qubits. The algorithm for sparse states is exponentially faster than best-known results and the number of ancillary qubits is nearly optimal and only increases polynomially with the system size. We discuss applications of the results in different quantum computing tasks, such as Hamiltonian simulation, solving linear systems of equations, and realizing quantum random access memories, and find cases with exponential reductions of the circuit depth for all these three tasks. In particular, using our algorithm, we find a family of linear system solving problems enjoying exponential speedups, even compared to the best-known quantum and classical dequantization algorithms.
翻訳日:2023-04-26 00:43:18 公開日:2023-04-23
# FedMed-GAN:unsupervised cross-Modality Brain Image synthesisにおけるドメイン翻訳

FedMed-GAN: Federated Domain Translation on Unsupervised Cross-Modality Brain Image Synthesis ( http://arxiv.org/abs/2201.08953v3 )

ライセンス: Link先を確認
Jinbao Wang, Guoyang Xie, Yawen Huang, Jiayi Lyu, Yefeng Zheng, Feng Zheng, Yaochu Jin(参考訳) マルチモーダルニューロイメージングデータの利用は、人間の認知活動や特定の病態を調査するのに有効であることが証明されている。 しかし, 高い検査コスト, 取得時間, 画像の破損といったいくつかの制約に直面するため, 一対のニューロイメージングデータの完全集合を集中的に得ることは実用的ではない。 さらに、これらのデータは異なる医療機関に分散されているため、プライバシー問題を考慮して集中的なトレーニングを行うことはできない。 異なる機関からの分散データの統合を促進するために、連邦学習の立ち上げが明らかに必要である。 本稿では、フェデレート学習と医学GANのギャップを埋めるため、教師なし脳画像合成(FedMed-GAN)におけるフェデレーションドメイン翻訳の新しいベンチマークを提案する。 FedMed-GANは、発電機の性能を犠牲にすることなくモード崩壊を緩和し、可変適応特性を持つ未ペアデータとペアデータの異なる割合に広く適用されている。 我々は、連邦平均アルゴリズムを用いて勾配ペナルティを扱い、その後、ディファレンシャルプライバシ勾配降下を利用してトレーニングダイナミクスを規則化する。 FedMed-GANと他の集中型手法を比較し,FedMed-GANによる新たな最先端性能を示す総合評価を行った。 私たちのコードはウェブサイトでリリースされた。 https://github.com/m-3lab/fedmed-gan

Utilizing multi-modal neuroimaging data has been proved to be effective to investigate human cognitive activities and certain pathologies. However, it is not practical to obtain the full set of paired neuroimaging data centrally since the collection faces several constraints, e.g., high examination cost, long acquisition time, and image corruption. In addition, these data are dispersed into different medical institutions and thus cannot be aggregated for centralized training considering the privacy issues. There is a clear need to launch a federated learning and facilitate the integration of the dispersed data from different institutions. In this paper, we propose a new benchmark for federated domain translation on unsupervised brain image synthesis (termed as FedMed-GAN) to bridge the gap between federated learning and medical GAN. FedMed-GAN mitigates the mode collapse without sacrificing the performance of generators, and is widely applied to different proportions of unpaired and paired data with variation adaptation property. We treat the gradient penalties by federally averaging algorithm and then leveraging differential privacy gradient descent to regularize the training dynamics. A comprehensive evaluation is provided for comparing FedMed-GAN and other centralized methods, which shows the new state-of-the-art performance by our FedMed-GAN. Our code has been released on the website: https://github.com/M-3LAB/FedMed-GAN
翻訳日:2023-04-26 00:42:37 公開日:2023-04-23
# ganmouflage:テクスチャフィールドを用いた3次元物体検出

GANmouflage: 3D Object Nondetection with Texture Fields ( http://arxiv.org/abs/2201.07202v2 )

ライセンス: Link先を確認
Rui Guo, Jasmine Collins, Oscar de Lima, Andrew Owens(参考訳) シーン内の3Dオブジェクトをカモフラージュする手法を提案する。 物体の形状や視点の分布を考慮に入れれば、検出が困難になるようなテクスチャを推定する。 この課題をうまく解決するには、各視点によって課される非常に矛盾する制約を同時に処理しながら、シーンからテクスチャを正確に再現できるモデルが必要である。 これらの課題をテクスチャフィールドと逆学習に基づくモデルで解決する。 本モデルは,入力シーン内のランダムなサンプル位置と視点から,様々な物体形状をカモフラージュすることを学び,複雑な物体形状を隠蔽する問題に最初に対処する。 人間のビジュアルサーチ研究により、推定されたテクスチャは、従来の方法よりもかなりよくオブジェクトを隠していることがわかった。 プロジェクトサイト: https://rrrrrguo.github.io/ganmouflage/

We propose a method that learns to camouflage 3D objects within scenes. Given an object's shape and a distribution of viewpoints from which it will be seen, we estimate a texture that will make it difficult to detect. Successfully solving this task requires a model that can accurately reproduce textures from the scene, while simultaneously dealing with the highly conflicting constraints imposed by each viewpoint. We address these challenges with a model based on texture fields and adversarial learning. Our model learns to camouflage a variety of object shapes from randomly sampled locations and viewpoints within the input scene, and is the first to address the problem of hiding complex object shapes. Using a human visual search study, we find that our estimated textures conceal objects significantly better than previous methods. Project site: https://rrrrrguo.github.io/ganmouflage/
翻訳日:2023-04-26 00:42:12 公開日:2023-04-23
# ランダムベクトル関数型リンクネットワーク : 最近の展開, 応用, 今後の展開

Random vector functional link network: recent developments, applications, and future directions ( http://arxiv.org/abs/2203.11316v2 )

ライセンス: Link先を確認
A. K. Malik, Ruobin Gao, M.A. Ganaie, M. Tanveer, P.N. Suganthan(参考訳) ニューラルネットワークは、分類、回帰、クラスタリングなど、さまざまな領域でうまく採用されている。 一般に、バックプロパゲーション(BP)に基づく反復的アプローチはニューラルネットワークのトレーニングに使用されるが、これは局所的なミニマの問題、学習速度への感受性、緩やかな収束をもたらす。 これらの問題を解決するために、乱数ベクトル汎関数リンク(RVFL)ネットワークのようなランダム化に基づくニューラルネットワークが提案されている。 rvflモデルには、高速トレーニング速度、ダイレクトリンク、単純なアーキテクチャ、普遍近似能力などいくつかの特徴があり、実行可能なランダム化ニューラルネットワークとなっている。 本稿では、RVFLモデルの進化を包括的に概観し、初心者だけでなく実践者にとっても広範な要約として役立てることができる。 本稿では,浅いRVFL,深部RVFL,深部RVFL,深部RVFLモデルについて議論する。 rvflモデルのバリエーション、改良、応用について詳述する。 さらに, RVFLモデルの一般化性能を向上させるために, 各種ハイパーパラメータ最適化手法について検討した。 最後に,RVFLのアーキテクチャと学習アルゴリズムをさらに改良するために研究者に刺激を与える,将来的な研究の方向性/機会を与える。

Neural networks have been successfully employed in various domains such as classification, regression and clustering, etc. Generally, the back propagation (BP) based iterative approaches are used to train the neural networks, however, it results in the issues of local minima, sensitivity to learning rate and slow convergence. To overcome these issues, randomization based neural networks such as random vector functional link (RVFL) network have been proposed. RVFL model has several characteristics such as fast training speed, direct links, simple architecture, and universal approximation capability, that make it a viable randomized neural network. This article presents the first comprehensive review of the evolution of RVFL model, which can serve as the extensive summary for the beginners as well as practitioners. We discuss the shallow RVFLs, ensemble RVFLs, deep RVFLs and ensemble deep RVFL models. The variations, improvements and applications of RVFL models are discussed in detail. Moreover, we discuss the different hyperparameter optimization techniques followed in the literature to improve the generalization performance of the RVFL model. Finally, we give potential future research directions/opportunities that can inspire the researchers to improve the RVFL's architecture and learning algorithm further.
翻訳日:2023-04-26 00:33:24 公開日:2023-04-23
# 解答文選択のための質問応答文グラフ

Question-Answer Sentence Graph for Joint Modeling Answer Selection ( http://arxiv.org/abs/2203.03549v2 )

ライセンス: Link先を確認
Roshni G. Iyer, Thuy Vu, Alessandro Moschitti, Yizhou Sun(参考訳) 本研究は,検索型質問回答システム(QA)の基本コンポーネントである回答文選択(AS2)に対するグラフベースのアプローチを研究する。 オフライン学習中は,質問毎に小さな関連するトレーニンググラフを教師なしの方法で構築し,グラフニューラルネットワークと統合する。 グラフノードは、文ペアに対する質問文である。 我々は,質問応答,質問応答,回答応答のペア間のスコアを計算するための最先端(SOTA)モデルを訓練,統合し,関連するスコアのしきい値を用いてグラフエッジを作成する。 オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。 2つの有名な学術ベンチマークと実世界のデータセットの実験は、我々のアプローチがSOTA QAベースラインモデルより一貫して優れていることを示している。

This research studies graph-based approaches for Answer Sentence Selection (AS2), an essential component for retrieval-based Question Answering (QA) systems. During offline learning, our model constructs a small-scale relevant training graph per question in an unsupervised manner, and integrates with Graph Neural Networks. Graph nodes are question sentence to answer sentence pairs. We train and integrate state-of-the-art (SOTA) models for computing scores between question-question, question-answer, and answer-answer pairs, and use thresholding on relevance scores for creating graph edges. Online inference is then performed to solve the AS2 task on unseen queries. Experiments on two well-known academic benchmarks and a real-world dataset show that our approach consistently outperforms SOTA QA baseline models.
翻訳日:2023-04-26 00:33:04 公開日:2023-04-23
# 表現の容易な正規化は、深層強化学習を促進する

Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14557v2 )

ライセンス: Link先を確認
Qiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou(参考訳) 深層強化学習(DRL)は、エージェントが高次元情報から適切なポリシーを学ぶことを約束する一方、表現学習は無関係で冗長な情報を取り除き、関連する情報を保持する。 そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。 具体的には、典型的なDRL設定において、隣接する2つの時間ステップの値関数の表現類似性に上限が存在する。 しかし、実証実験により、学習したDRLエージェントがこの性質に反し、準最適政策につながる可能性があることを示す。 そこで本研究では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,PEER(Policy Evaluation with Easy Regularization on Representation)を提案する。 そして、PEERの収束率保証を提供する。 PEERの実装には1行のコードしか必要ない。 実験により,PEERをDRLに組み込むことで,性能と試料効率を大幅に向上できることが示された。 総合実験の結果,PEERはPyBulletの4つの環境すべてで,DMControlの12タスク中9タスク,Atariの26ゲーム中19タスクで最先端のパフォーマンスを達成した。 我々の知る限りでは、PEERはQ-networkの本質的な表現特性とそのターゲットを研究する最初の研究である。 私たちのコードはhttps://sites.google.com/view/peer-cvpr2023/で利用可能です。

Deep reinforcement learning (DRL) gives the promise that an agent learns good policy from high-dimensional information, whereas representation learning removes irrelevant and redundant information and retains pertinent information. In this work, we demonstrate that the learned representation of the $Q$-network and its target $Q$-network should, in theory, satisfy a favorable distinguishable representation property. Specifically, there exists an upper bound on the representation similarity of the value functions of two adjacent time steps in a typical DRL setting. However, through illustrative experiments, we show that the learned DRL agent may violate this property and lead to a sub-optimal policy. Therefore, we propose a simple yet effective regularizer called Policy Evaluation with Easy Regularization on Representation (PEER), which aims to maintain the distinguishable representation property via explicit regularization on internal representations. And we provide the convergence rate guarantee of PEER. Implementing PEER requires only one line of code. Our experiments demonstrate that incorporating PEER into DRL can significantly improve performance and sample efficiency. Comprehensive experiments show that PEER achieves state-of-the-art performance on all 4 environments on PyBullet, 9 out of 12 tasks on DMControl, and 19 out of 26 games on Atari. To the best of our knowledge, PEER is the first work to study the inherent representation property of Q-network and its target. Our code is available at https://sites.google.com/view/peer-cvpr2023/.
翻訳日:2023-04-26 00:25:51 公開日:2023-04-23
# ARCTIC: Dexterous Bimanual Hand-Object Manipulationのためのデータセット

ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation ( http://arxiv.org/abs/2204.13662v3 )

ライセンス: Link先を確認
Zicong Fan, Omid Taheri, Dimitrios Tzionas, Muhammed Kocabas, Manuel Kaufmann, Michael J. Black, and Otmar Hilliges(参考訳) 人間は直感的に、無生物は自力で動くのではなく、その状態の変化は人間の操作によって引き起こされる(例えば、書籍の冒頭)。 これはまだマシンには当てはまらない。 これは、手と関節の物体の物理的に一貫した、同期した動きを研究するために、3Dアノテーションを用いたデータセットが存在しないためである。 この目的のために、ARCTIC - オブジェクトを巧みに操作する2つのハンドのデータセットを導入し、正確な3Dハンドとオブジェクトメッシュと組み合わせた210万のビデオフレームと、詳細でダイナミックな接触情報を含む。 はさみやノートパソコンなどの物体を手動で記述し、手ポーズや物体の状態は時間とともに一緒に進化する。 1) 連続的な動き再構成: モノクロ映像が与えられた場合、その目的は2つの手と3次元の関節オブジェクトを復元し、その動きが時空間的に一貫するようにすることである。 2) 相互作用場推定: 画像から密接な相対対象距離を推定する必要がある。 本研究では,ArcticNetとInterFieldの2つのベースラインを導入し,ARCTIC上で定性的かつ定量的に評価する。 私たちのコードとデータはhttps://arctic.is.tue.mpg.de.com/で利用可能です。

Humans intuitively understand that inanimate objects do not move by themselves, but that state changes are typically caused by human manipulation (e.g., the opening of a book). This is not yet the case for machines. In part this is because there exist no datasets with ground-truth 3D annotations for the study of physically consistent and synchronised motion of hands and articulated objects. To this end, we introduce ARCTIC -- a dataset of two hands that dexterously manipulate objects, containing 2.1M video frames paired with accurate 3D hand and object meshes and detailed, dynamic contact information. It contains bi-manual articulation of objects such as scissors or laptops, where hand poses and object states evolve jointly in time. We propose two novel articulated hand-object interaction tasks: (1) Consistent motion reconstruction: Given a monocular video, the goal is to reconstruct two hands and articulated objects in 3D, so that their motions are spatio-temporally consistent. (2) Interaction field estimation: Dense relative hand-object distances must be estimated from images. We introduce two baselines ArcticNet and InterField, respectively and evaluate them qualitatively and quantitatively on ARCTIC. Our code and data are available at https://arctic.is.tue.mpg.de.
翻訳日:2023-04-26 00:24:17 公開日:2023-04-23
# ゼロショット高密度検索の検討

A Thorough Examination on Zero-shot Dense Retrieval ( http://arxiv.org/abs/2204.12755v2 )

ライセンス: Link先を確認
Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qifei Wu, Yuchen Ding, Hua Wu, Haifeng Wang, Ji-Rong Wen(参考訳) 近年は、強力な事前学習言語モデル(PLM)に基づく高密度検索(DR)が著しく進歩している。 DRモデルはいくつかのベンチマークデータセットで優れたパフォーマンスを達成しているが、従来のスパース検索モデル(例えばBM25)ほどゼロショット検索では競合しない。 しかし、関連する文献では、ゼロショット検索に関する詳細かつ包括的な研究が不足している。 本稿では, drモデルのゼロショット能力について, 初めて徹底的に検討する。 重要要因を特定し,ゼロショット検索性能にどのように影響するかを分析することを目的とした。 特に、ソーストレーニングセットに関連するいくつかの重要な要因の効果について論じ、ターゲットデータセットからの潜在的なバイアスを分析し、既存のゼロショットdrmモデルのレビューと比較を行う。 本研究は,ゼロショットDRモデルをよりよく理解し,開発するための重要な証拠を提供する。

Recent years have witnessed the significant advance in dense retrieval (DR) based on powerful pre-trained language models (PLM). DR models have achieved excellent performance in several benchmark datasets, while they are shown to be not as competitive as traditional sparse retrieval models (e.g., BM25) in a zero-shot retrieval setting. However, in the related literature, there still lacks a detailed and comprehensive study on zero-shot retrieval. In this paper, we present the first thorough examination of the zero-shot capability of DR models. We aim to identify the key factors and analyze how they affect zero-shot retrieval performance. In particular, we discuss the effect of several key factors related to source training set, analyze the potential bias from the target dataset, and review and compare existing zero-shot DR models. Our findings provide important evidence to better understand and develop zero-shot DR models.
翻訳日:2023-04-26 00:23:57 公開日:2023-04-23
# 細胞レベルでの早期劣化データを用いた解釈可能なバッテリーサイクル寿命予測

Interpretable Battery Cycle Life Range Prediction Using Early Degradation Data at Cell Level ( http://arxiv.org/abs/2204.12420v2 )

ライセンス: Link先を確認
Huang Zhang, Yang Su, Faisal Altaf, Torsten Wik, Sebastien Gros(参考訳) 早期劣化データを用いたバッテリサイクルのライフサイクル予測は、バッテリ製品ライフサイクル全体を通して多くの潜在的な応用がある。 そのため, バッテリー劣化機構の最小限の知識で, バッテリーサイクル寿命のポイント予測のための様々なデータ駆動手法が提案されている。 しかし、経済的・技術的リスクの低い終末期に急速に増加するバッテリーを管理するには、定量化された不確実性を伴うサイクルライフの予測が必要である。 これらの高度なデータ駆動手法の解釈可能性(すなわち高い予測精度の理由)も調査に値する。 ここでは、サイクルライフの特定の分布を仮定しない利点を生かした量的回帰フォレスト(QRF)モデルを導入し、精度の高い点予測に加えて、予測間隔の幅として不確実性を定量化してサイクルライフ範囲の予測を行う。 QRFモデルのハイパーパラメータは、予測間隔に関連するカバレッジ確率をキャリブレーションするように、提案されたアルファロジスティック重み付き基準で最適化される。 最終qrfモデルの解釈性は、置換重要度と部分依存プロットという2つの大域的モデル非依存手法によって検討される。

Battery cycle life prediction using early degradation data has many potential applications throughout the battery product life cycle. For that reason, various data-driven methods have been proposed for point prediction of battery cycle life with minimum knowledge of the battery degradation mechanisms. However, managing the rapidly increasing amounts of batteries at end-of-life with lower economic and technical risk requires prediction of cycle life with quantified uncertainty, which is still lacking. The interpretability (i.e., the reason for high prediction accuracy) of these advanced data-driven methods is also worthy of investigation. Here, a Quantile Regression Forest (QRF) model, having the advantage of not assuming any specific distribution of cycle life, is introduced to make cycle life range prediction with uncertainty quantified as the width of the prediction interval, in addition to point predictions with high accuracy. The hyperparameters of the QRF model are optimized with a proposed alpha-logistic-weighted criterion so that the coverage probabilities associated with the prediction intervals are calibrated. The interpretability of the final QRF model is explored with two global model-agnostic methods, namely permutation importance and partial dependence plot.
翻訳日:2023-04-26 00:23:45 公開日:2023-04-23
# テレクロニングの連続的再試行

Sequential Reattempt of Telecloning ( http://arxiv.org/abs/2206.12702v2 )

ライセンス: Link先を確認
Sudipta Das, Pritam Halder, Ratul Banerjee, Aditi Sen De(参考訳) テレクロニングプロトコルのタスクは、送信者が所有する任意のキュービットを複数の受信機に送ることである。 送信者のノードでベル計測を行う代わりに、アンシャープ計測を適用すると、共有状態がさらなるテレクロニングプロトコルのためにリサイクル可能であることを示す。 具体的には、1つの送信機と2つの受信機の場合、3つの受信機の場合の最大試行数は2つに減少するが、1つの送信機と2つの受信機の場合、チャンネルが忠実度で量子優位を得るために使うラウンドの最大数として定義される最大試行数は、テレクローニングの最適および非最適共有状態の2つであることが判明する。 任意の数の受信機に対して量子的に有利な最初のテレクロニングが可能であるが、単一の送信機と3つ以上の受信機を含むテレクロッシングでは資源の再利用は不可能であり、その結果、no-go定理が証明されている。 また,各ラウンドにおける最大到達可能な忠実度を,送信側と受信側との縮小状態の両部絡み込み量と,モノガミーの絡み合いスコアとを結合する。

The task of a telecloning protocol is to send an arbitrary qubit possessed by a sender to multiple receivers. Instead of performing Bell measurement at the sender's node, if one applies unsharp measurement, we show that the shared state can be recycled for further telecloning protocol. Specifically, in case of a single sender and two receivers, the maximal attempting number, which is defined as the maximum number of rounds used by the channel to obtain quantum advantage in the fidelity, turns out to be three both for optimal and nonoptimal shared states for telecloning while the maximal number reduces to two in case of three receivers. Although the original telecloning with quantum advantage being possible for arbitrary numbers of receivers, we report that the recycling of resources is not possible in telecloning involving a single sender and more than three receivers, thereby demonstrating a no-go theorem. We also connect the maximal achievable fidelities in each round with the bipartite entanglement content of the reduced state between the sender and one of the receivers as well as with the monogamy score of entanglement.
翻訳日:2023-04-26 00:16:32 公開日:2023-04-23
# コントラスト学習の可視化と理解

Visualizing and Understanding Contrastive Learning ( http://arxiv.org/abs/2206.09753v2 )

ライセンス: Link先を確認
Fawaz Sammani, Boris Joukovsky, Nikos Deligiannis(参考訳) コントラスト学習はコンピュータビジョンの分野に革命をもたらし、ラベルのないデータからリッチな表現を学び、多様な視覚タスクを一般化した。 その結果、これらのアプローチを説明し、内部動作メカニズムを理解することがますます重要になっている。 対照的なモデルは相互依存的かつ相互作用的な入力で訓練され、データ拡張を通じて不変性を学ぶことを目的としているため、既存の単一イメージシステム(例えば画像分類モデル)の説明方法はこれらの要因を説明できないため不十分である。 また、一対の説明を評価するために設計された評価指標が欠如しており、対照的な学習を説明するための様々な手法の有効性を調べる分析研究は行われていない。 本研究では,一対の画像からの類似性学習タスクの理解に寄与する視覚的説明法を設計する。 画像分類システムの視覚的な説明を評価するために用いられる既存のメトリクスをさらに適合させ,提案手法をこれらのメトリクスで評価する。 最後に,コントラスト学習のための視覚的説明可能性の方法を徹底的に分析し,ダウンストリームタスクとの相関性を確立し,そのメリットと欠点を検討するためのアプローチの可能性を示す。

Contrastive learning has revolutionized the field of computer vision, learning rich representations from unlabeled data, which generalize well to diverse vision tasks. Consequently, it has become increasingly important to explain these approaches and understand their inner workings mechanisms. Given that contrastive models are trained with interdependent and interacting inputs and aim to learn invariance through data augmentation, the existing methods for explaining single-image systems (e.g., image classification models) are inadequate as they fail to account for these factors. Additionally, there is a lack of evaluation metrics designed to assess pairs of explanations, and no analytical studies have been conducted to investigate the effectiveness of different techniques used to explaining contrastive learning. In this work, we design visual explanation methods that contribute towards understanding similarity learning tasks from pairs of images. We further adapt existing metrics, used to evaluate visual explanations of image classification systems, to suit pairs of explanations and evaluate our proposed methods with these metrics. Finally, we present a thorough analysis of visual explainability methods for contrastive learning, establish their correlation with downstream tasks and demonstrate the potential of our approaches to investigate their merits and drawbacks.
翻訳日:2023-04-26 00:16:13 公開日:2023-04-23
# 異常検出のための深い孤立林

Deep Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2206.06602v3 )

ライセンス: Link先を確認
Hongzuo Xu and Guansong Pang and Yijie Wang and Yongjun Wang(参考訳) アイソレーションフォレスト(iforest)は、さまざまなベンチマークと強力なスケーラビリティにより、近年最も人気のある異常検知器として登場している。 それでも、その線形軸並列分離法は、しばしば、 一)高次元・非線形分離データ空間において孤立し難いハード異常の検出の失敗、及び (ii)不意に低い異常スコアをアーティファクト領域に割り当てる悪名高いアルゴリズムバイアス。 これらの問題は偽陰性な誤りに寄与する。 いくつかのiforest拡張が導入されているが、本質的には浅い線形データ分割を採用しており、真の異常を分離する能力を制限する。 そこで本論文では,深い孤立林を提案する。 そこで我々は,カジュアルに初期化されたニューラルネットワークを用いて,元のデータをランダムな表現アンサンブルにマッピングする新しい表現手法を提案する。 この表現スキームは、元のデータ空間におけるパーティションの高自由化(様々なサイズのサブ空間上の非線形パーティションと等価)を促進し、ランダム表現とランダムなパーティションベース分離のユニークな相乗性を促進する。 広範な実験により,我々のモデルは,最先端のアイソレーションベース手法や,表型,グラフ型,時系列のデータセット上でのディープディテクターよりも大きな改善を達成していることが示された。

Isolation forest (iForest) has been emerging as arguably the most popular anomaly detector in recent years due to its general effectiveness across different benchmarks and strong scalability. Nevertheless, its linear axis-parallel isolation method often leads to (i) failure in detecting hard anomalies that are difficult to isolate in high-dimensional/non-linear-separable data space, and (ii) notorious algorithmic bias that assigns unexpectedly lower anomaly scores to artefact regions. These issues contribute to high false negative errors. Several iForest extensions are introduced, but they essentially still employ shallow, linear data partition, restricting their power in isolating true anomalies. Therefore, this paper proposes deep isolation forest. We introduce a new representation scheme that utilises casually initialised neural networks to map original data into random representation ensembles, where random axis-parallel cuts are subsequently applied to perform the data partition. This representation scheme facilitates high freedom of the partition in the original data space (equivalent to non-linear partition on subspaces of varying sizes), encouraging a unique synergy between random representations and random partition-based isolation. Extensive experiments show that our model achieves significant improvement over state-of-the-art isolation-based methods and deep detectors on tabular, graph and time series datasets; our model also inherits desired scalability from iForest.
翻訳日:2023-04-26 00:15:16 公開日:2023-04-23
# コンフォーマルリスク制御

Conformal Risk Control ( http://arxiv.org/abs/2208.02814v2 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Adam Fisch and Lihua Lei and Tal Schuster(参考訳) 我々はコンフォメーション予測を拡張して,任意の単調損失関数の期待値を制御する。 このアルゴリズムは、カバレッジ保証とともに分割共形予測を一般化する。 共形予測と同様に、共形リスク制御手順は$\mathcal{O}(1/n)$ factorまで厳密である。 コンピュータビジョンと自然言語処理によるサンプルは、偽陰性率、グラフ距離、トークンレベルのf1-scoreをバインドするアルゴリズムの使用例を示している。

We extend conformal prediction to control the expected value of any monotone loss function. The algorithm generalizes split conformal prediction together with its coverage guarantee. Like conformal prediction, the conformal risk control procedure is tight up to an $\mathcal{O}(1/n)$ factor. Worked examples from computer vision and natural language processing demonstrate the usage of our algorithm to bound the false negative rate, graph distance, and token-level F1-score.
翻訳日:2023-04-26 00:07:08 公開日:2023-04-23
# DISA:分散凸合成最適化のための二重非接触分割アルゴリズム

DISA: A Dual Inexact Splitting Algorithm for Distributed Convex Composite Optimization ( http://arxiv.org/abs/2209.01850v2 )

ライセンス: Link先を確認
Luyao Guo, Xinli Shi, Shaofu Yang, Jinde Cao(参考訳) 本稿では,局所損失関数が滑らかな項と線形写像からなる非滑らかな項からなる分散凸合成最適化問題に対して,新しい2重不等分分割アルゴリズム(disa)を提案する。 disaは初めて、線形写像のユークリッドノルムへの収束ステップサイズ範囲の依存性を取り除き、古典的な原始双対近分解アルゴリズム(pd-psa: simple structure and easy implementation)の利点を継承した。 これは、DIAが標準に関する事前の知識なしで実行可能であることを示し、標準が大きければ小さなステップサイズを回避できることを示している。 さらに、一般凸性および計量準正則性の下での DisA の線形収束率をそれぞれ証明する。 さらに、近似近位写像を持つ DISA の変種を提供し、その大域収束と下線収束率を証明する。 数値実験は、我々の理論解析を裏付け、既存のPD-PSAと比較して、disAの顕著な加速を示す。

In this paper, we propose a novel Dual Inexact Splitting Algorithm (DISA) for distributed convex composite optimization problems, where the local loss function consists of a smooth term and a possibly nonsmooth term composed with a linear mapping. DISA, for the first time, eliminates the dependence of the convergent step-size range on the Euclidean norm of the linear mapping, while inheriting the advantages of the classic Primal-Dual Proximal Splitting Algorithm (PD-PSA): simple structure and easy implementation. This indicates that DISA can be executed without prior knowledge of the norm, and tiny step-sizes can be avoided when the norm is large. Additionally, we prove sublinear and linear convergence rates of DISA under general convexity and metric subregularity, respectively. Moreover, we provide a variant of DISA with approximate proximal mapping and prove its global convergence and sublinear convergence rate. Numerical experiments corroborate our theoretical analyses and demonstrate a significant acceleration of DISA compared to existing PD-PSAs.
翻訳日:2023-04-25 23:57:40 公開日:2023-04-23
# 高速最適自由推論のためのニューラルポイント推定

Neural Point Estimation for Fast Optimal Likelihood-Free Inference ( http://arxiv.org/abs/2208.12942v3 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Andrew Zammit-Mangion, and Rapha\"el Huser(参考訳) ニューラルネットワークは、データをパラメータポイント推定にマッピングするニューラルネットワークである。 それらは高速で、おそらく自由であり、その不滅の性質のため、高速なブートストラップに基づく不確実性定量化が可能である。 本稿では,この比較的新しい推論ツールに対する統計学者の意識を高め,ユーザフレンドリーなオープンソースソフトウェアを提供することで,その採用を促進することを目的とする。 また、複製されたデータから推論を行うというユビキタスな問題にも注目する。 広範囲なシミュレーション研究を通じて、これらのニューラルポイント推定器は、比較的容易に弱同定された高パラメータモデルのパラメータを(ベイズ感覚で)迅速かつ最適に推定できることを示した。 実験の結果,赤海での極端海面温度の解析により,数百の空間場から1秒でパラメータ推定とブートストラップに基づく信頼区間を求めることにより,その適用性を示す。

Neural point estimators are neural networks that map data to parameter point estimates. They are fast, likelihood free and, due to their amortised nature, amenable to fast bootstrap-based uncertainty quantification. In this paper, we aim to increase the awareness of statisticians to this relatively new inferential tool, and to facilitate its adoption by providing user-friendly open-source software. We also give attention to the ubiquitous problem of making inference from replicated data, which we address in the neural setting using permutation-invariant neural networks. Through extensive simulation studies we show that these neural point estimators can quickly and optimally (in a Bayes sense) estimate parameters in weakly-identified and highly-parameterised models with relative ease. We demonstrate their applicability through an analysis of extreme sea-surface temperature in the Red Sea where, after training, we obtain parameter estimates and bootstrap-based confidence intervals from hundreds of spatial fields in a fraction of a second.
翻訳日:2023-04-25 23:56:28 公開日:2023-04-23
# いくつかの関数クラスのナタラジャン次元の上界

Upper bounds on the Natarajan dimensions of some function classes ( http://arxiv.org/abs/2209.07015v2 )

ライセンス: Link先を確認
Ying Jin(参考訳) ナタラジャン次元は多クラスPAC学習可能性を特徴づける基本的なツールであり、Vapnik-Chervonenkis(VC)次元を二進法から多クラス分類問題に一般化する。 この研究は、特定の関数クラスに対するナタラジャン次元の上界を定めている。 (i)多級決定木及びランダム森林、及び (II)バイナリ、リニア、ReLUアクティベーションを持つマルチクラスニューラルネットワーク。 これらの結果は、ある種の多クラス学習アルゴリズムのパフォーマンスを記述するのに関係があるかもしれない。

The Natarajan dimension is a fundamental tool for characterizing multi-class PAC learnability, generalizing the Vapnik-Chervonenkis (VC) dimension from binary to multi-class classification problems. This work establishes upper bounds on Natarajan dimensions for certain function classes, including (i) multi-class decision tree and random forests, and (ii) multi-class neural networks with binary, linear and ReLU activations. These results may be relevant for describing the performance of certain multi-class learning algorithms.
翻訳日:2023-04-25 23:45:09 公開日:2023-04-23
# 過パラメータモデルにおける不確実性定量化の二重双日化について

On double-descent in uncertainty quantification in overparametrized models ( http://arxiv.org/abs/2210.12760v3 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。 ラスト層スコアのようなナイーブ測度は、過度にパラメータ化されたニューラルネットワークの文脈で過信的な推定が得られることでよく知られている。 温度スケーリングからニューラルネットワークの異なるベイズ処理まで、いくつかの方法が、より校正された不確実性測定をもたらすという数値観測によってしばしば支持される過剰信頼を軽減するために提案されている。 本研究では,超並列ニューラルネットワークのための数学的に扱いやすいモデルであるランダム特徴モデルにおいて,バイナリ分類のための一般的な不確実性尺度を鋭く比較する。 分類精度とキャリブレーションのトレードオフについて検討し, 最適正規化推定器のキャリブレーション曲線における二重降下様挙動を過パラメータ化の関数として明らかにする。 これは経験的ベイズ法とは対照的であり、一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されている。

Uncertainty quantification is a central challenge in reliable and trustworthy machine learning. Naive measures such as last-layer scores are well-known to yield overconfident estimates in the context of overparametrized neural networks. Several methods, ranging from temperature scaling to different Bayesian treatments of neural networks, have been proposed to mitigate overconfidence, most often supported by the numerical observation that they yield better calibrated uncertainty measures. In this work, we provide a sharp comparison between popular uncertainty measures for binary classification in a mathematically tractable model for overparametrized neural networks: the random features model. We discuss a trade-off between classification accuracy and calibration, unveiling a double descent like behavior in the calibration curve of optimally regularized estimators as a function of overparametrization. This is in contrast with the empirical Bayes method, which we show to be well calibrated in our setting despite the higher generalization error and overparametrization.
翻訳日:2023-04-25 23:39:11 公開日:2023-04-23
# 量子および古典系の特性に関する局所的下界

Local lower bounds on characteristics of quantum and classical systems ( http://arxiv.org/abs/2210.11462v2 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 本研究では,量子(応答型,古典型)系の特性に関する局所下界を得る手法,すなわち,与えられた状態のトレースノルム$\epsilon$-neighborhood(応答型,確率分布)において有効な下界を考える。 主な関心は無限次元のシステムに向けられる。

We consider methods for obtaining local lower bounds on characteristics of quantum (correspondingly, classical) systems, i.e. lower bounds valid in the trace norm $\epsilon$-neighborhood of a given state (correspondingly, probability distribution). The main attention is paid to infinite-dimensional systems.
翻訳日:2023-04-25 23:38:31 公開日:2023-04-23
# コントラスト学習による普遍的隠れ単調傾向推定

Universal hidden monotonic trend estimation with contrastive learning ( http://arxiv.org/abs/2210.09817v2 )

ライセンス: Link先を確認
Edouard Pineau, S\'ebastien Razakarivony, Mauricio Gonzalez and Anthony Schrapffer(参考訳) 本稿では,時系列データから基礎となる単調傾向因子を抽出するための普遍的手法について述べる。 標準の単調傾向検出法であるmann-kendall testに関するアプローチを提案し,cte (con contrastive trend estimation) と呼ぶ。 CTE法は時間的データに基づく隠れた傾向を識別し,モノトニックな傾向の同定に使用される標準仮定を回避する。 特にCTEは、任意の種類の時間データ(ベクトル、画像、グラフ、時系列など)を入力として取り込むことができる。 最終的に、さまざまな種類のデータや問題に関するいくつかの実験を通して、CTE手法の関心を述べる。

In this paper, we describe a universal method for extracting the underlying monotonic trend factor from time series data. We propose an approach related to the Mann-Kendall test, a standard monotonic trend detection method and call it contrastive trend estimation (CTE). We show that the CTE method identifies any hidden trend underlying temporal data while avoiding the standard assumptions used for monotonic trend identification. In particular, CTE can take any type of temporal data (vector, images, graphs, time series, etc.) as input. We finally illustrate the interest of our CTE method through several experiments on different types of data and problems.
翻訳日:2023-04-25 23:38:24 公開日:2023-04-23
# 重ね合わせ検出の難しさから暗号:量子公開鍵暗号とコミットメント

From the Hardness of Detecting Superpositions to Cryptography: Quantum Public Key Encryption and Commitments ( http://arxiv.org/abs/2210.05978v2 )

ライセンス: Link先を確認
Minki Hhan, Tomoyuki Morimae, Takashi Yamakawa(参考訳) 最近aaronsonら(arxiv:2009.07450)は、2つの直交状態間の干渉を検出することはこれらの状態の交換と同じくらい難しいことを示した。 元々の動機は量子重力によるものだったが、量子暗号への応用を示す。 1. 暗号式 \emph{non-abelian} グループアクションから最初の公開鍵暗号スキームを構築する。 興味深いことに、メッセージが古典的であっても、我々のスキームの暗号文は量子である。 これにより、Ji et al. (TCC '19) が提示する開問題が解決される。 我々は,swap-trapdoor関数ペアと呼ばれる新たな抽象化を通じてスキームを構築する。 2. 量子ビットコミットメントのフレーバーを変換するシンプルで効率的なコンパイラを提供する。 より正確には、任意の接頭辞 X,Y $\in$ {computationally,statistally,perfectly} に対して、基本スキームが X-ハイディングおよび Y-バインディングであれば、結果として得られるスキームは Y-ハイディングおよび X-バインディングである。 コンパイラーはベーススキームを1回だけ呼びます。 これまで、すべての既知のコンパイラはベーススキームを多項式的に何度も呼び出す(cr\'epeau et al., eurocrypt '01 and yan, asiacrypt '22)。 変換の安全性証明には、量子補助入力を考慮してアーロンソン等の結果を一般化する。

Recently, Aaronson et al. (arXiv:2009.07450) showed that detecting interference between two orthogonal states is as hard as swapping these states. While their original motivation was from quantum gravity, we show its applications in quantum cryptography. 1. We construct the first public key encryption scheme from cryptographic \emph{non-abelian} group actions. Interestingly, the ciphertexts of our scheme are quantum even if messages are classical. This resolves an open question posed by Ji et al. (TCC '19). We construct the scheme through a new abstraction called swap-trapdoor function pairs, which may be of independent interest. 2. We give a simple and efficient compiler that converts the flavor of quantum bit commitments. More precisely, for any prefix X,Y $\in$ {computationally,statistically,perfectly}, if the base scheme is X-hiding and Y-binding, then the resulting scheme is Y-hiding and X-binding. Our compiler calls the base scheme only once. Previously, all known compilers call the base schemes polynomially many times (Cr\'epeau et al., Eurocrypt '01 and Yan, Asiacrypt '22). For the security proof of the conversion, we generalize the result of Aaronson et al. by considering quantum auxiliary inputs.
翻訳日:2023-04-25 23:37:36 公開日:2023-04-23
# Frechet MeanによるGANのグローバル意味表現の探索

Finding the global semantic representation in GAN through Frechet Mean ( http://arxiv.org/abs/2210.05509v2 )

ライセンス: Link先を確認
Jaewoong Choi, Geonho Hwang, Hyunsoo Cho, Myungjoo Kang(参考訳) GAN の理想的に非絡み合うラテント空間は、意味的属性座標を持つラテント空間のグローバル表現を含む。 言い換えれば、この不等角潜在空間がベクトル空間であることを考えると、各基底成分が生成画像の1つの属性を記述する大域的意味基底が存在する。 本稿では,GANの中間潜在空間において,この大域的意味基底を求める教師なし手法を提案する。 この意味ベースは、潜伏空間全体における画像の同じ意味的属性を変更するサンプル非依存の有意義な摂動を表す。 提案された大域基底は Fr'echet 基底と呼ばれ、潜在空間における局所的意味摂動に Fr'echet 平均を導入することによって導かれる。 fr\'echet基底は2つの段階で発見される。 まず、大域意味部分空間は局所意味部分空間のグラスマン多様体において Fr\'echet 平均によって発見される。 第二に、Fr'echet 基底は特殊直交群における Fr'echet 平均を通して意味部分空間の基底を最適化することによって得られる。 実験の結果,fr\'echet基底は,従来の手法よりも優れた意味的因子分解とロバスト性をもたらすことがわかった。 さらに,従来の手法に対する基礎改良手法を提案する。 定量的実験により, 従来の方法と同じ意味的部分空間に制約を課しながら, 精度の高い意味的分解を実現することができた。

The ideally disentangled latent space in GAN involves the global representation of latent space with semantic attribute coordinates. In other words, considering that this disentangled latent space is a vector space, there exists the global semantic basis where each basis component describes one attribute of generated images. In this paper, we propose an unsupervised method for finding this global semantic basis in the intermediate latent space in GANs. This semantic basis represents sample-independent meaningful perturbations that change the same semantic attribute of an image on the entire latent space. The proposed global basis, called Fr\'echet basis, is derived by introducing Fr\'echet mean to the local semantic perturbations in a latent space. Fr\'echet basis is discovered in two stages. First, the global semantic subspace is discovered by the Fr\'echet mean in the Grassmannian manifold of the local semantic subspaces. Second, Fr\'echet basis is found by optimizing a basis of the semantic subspace via the Fr\'echet mean in the Special Orthogonal Group. Experimental results demonstrate that Fr\'echet basis provides better semantic factorization and robustness compared to the previous methods. Moreover, we suggest the basis refinement scheme for the previous methods. The quantitative experiments show that the refined basis achieves better semantic factorization while constrained on the same semantic subspace given by the previous method.
翻訳日:2023-04-25 23:37:12 公開日:2023-04-23
# 運動量空間におけるヒルベルト空間の断片化から生じる永続電流状態

Persistent-current states originating from the Hilbert space fragmentation in momentum space ( http://arxiv.org/abs/2211.00785v2 )

ライセンス: Link先を確認
Masaya Kunimi and Ippei Danshita(参考訳) ヒルベルト空間フラグメンテーション (Hilbert space fragmentation, HSF) は、孤立量子系のヒルベルト空間が指数的に多くの非連結部分集合に分裂する現象である。 分裂した系は、ダイナミクスが小さなサブセクタに制限されるため、長期間の進化の後に熱化することはない。 HSFの最近の発展に触発されて、運動量空間において HSF を示すハミルトニアンを構成する。 運動量空間のHSFにより、持続電流(PC)状態が出現することを示す。 また,hsfの構造を破る確率ポテンシャルに対するpc状態の安定性についても検討し,pcの減衰速度が電流速度にほぼ依存していることを見いだした。

Hilbert space fragmentation (HSF) is a phenomenon that the Hilbert space of an isolated quantum system splits into exponentially many disconnected subsectors. The fragmented systems do not thermalize after long-time evolution because the dynamics are restricted to a small subsector. Inspired by recent developments of the HSF, we construct the Hamiltonian that exhibits the HSF in the momentum space. We show that persistent-current (PC) states emerge due to the HSF in the momentum space. We also investigate the stability of the PC states against the random potential, which breaks the structure of the HSF, and find that the decay rate of the PC is almost independent of the current velocity.
翻訳日:2023-04-25 23:28:28 公開日:2023-04-23
# 短期量子ハードウェアにおける量子ポアソン方程式のスケールと高精度解法

Advancing Algorithm to Scale and Accurately Solve Quantum Poisson Equation on Near-term Quantum Hardware ( http://arxiv.org/abs/2210.16668v2 )

ライセンス: Link先を確認
Kamal K. Saha, Walter Robson, Connor Howington, In-Saeng Suh, Zhimin Wang, and Jaroslaw Nabrzyski(参考訳) ポアソン方程式は、科学と工学の幅広い分野に多くの応用がある。 ポアソン解法のためのほとんどの量子アルゴリズムは、正確さの欠如に悩まされているか、あるいは非常に小さな大きさに制限されているため、実用的な使用法がない。 本稿では,ポアソン方程式を高精度かつ動的に調整可能な問題サイズで解くための高度な量子アルゴリズムを提案する。 有限差分法を用いてポアソン方程式を線形系へ変換した後、hhlアルゴリズムを基本枠組みとして採用する。 特に本研究では,hhlアルゴリズムにおいて重要な要素である制御回転角係数の精度を向上させることで,固有値増幅による非接点固有値を実装することにより,解の精度を保証する高度な回路を提案する。 その結果,増幅レベルが増大するにつれて高い成功確率を実現しつつ,溶液の相対誤差を劇的に低減することができる。 我々は,NISQデバイスにおける問題サイズを動的に制御することにより,解の精度を高めるだけでなく,より実用的でスケーラブルな回路を構成することを示す。 シミュレーション結果と実験結果の両方を示し,誤差の発生源について考察する。 最後に、既存のNISQハードウェアの全体的な結果はCNOTゲートの誤差に支配されているが、この研究は、短期量子ハードウェア上で多次元ポアソン解法を実現するための道を開く。

The Poisson equation has many applications across the broad areas of science and engineering. Most quantum algorithms for the Poisson solver presented so far either suffer from lack of accuracy and/or are limited to very small sizes of the problem, and thus have no practical usage. Here we present an advanced quantum algorithm for solving the Poisson equation with high accuracy and dynamically tunable problem size. After converting the Poisson equation to a linear system through the finite difference method, we adopt the HHL algorithm as the basic framework. Particularly, in this work we present an advanced circuit that ensures the accuracy of the solution by implementing non-truncated eigenvalues through eigenvalue amplification, as well as by increasing the accuracy of the controlled rotation angular coefficients, which are the critical factors in the HHL algorithm. Consequently, we are able to drastically reduce the relative error in the solution while achieving higher success probability as the amplification level is increased. We show that our algorithm not only increases the accuracy of the solutions but also composes more practical and scalable circuits by dynamically controlling problem size in NISQ devices. We present both simulated and experimental results and discuss the sources of errors. Finally, we conclude that though overall results on the existing NISQ hardware are dominated by the error in the CNOT gates, this work opens a path to realizing a multidimensional Poisson solver on near-term quantum hardware.
翻訳日:2023-04-25 23:27:49 公開日:2023-04-23
# ビデオにおける異常事象検出のための時空間予測タスク

Spatio-temporal predictive tasks for abnormal event detection in videos ( http://arxiv.org/abs/2210.15741v2 )

ライセンス: Link先を確認
Yassine Naji, Aleksandr Setkov, Ang\'elique Loesch, Mich\`ele Gouiff\`es, Romaric Audigier(参考訳) ビデオにおける異常なイベント検出は、異常なパターンの多さと対応するアノテーションの欠如が原因で、難しい問題である。 本稿では,オブジェクトレベルの正規性パターンを学習するための制約付きプリテキストタスクを提案する。 提案手法は,ダウンスケールのビジュアルクエリとそれに対応する正常な外観と動作特性のマッピングを,元の解像度で学習することである。 提案したタスクは,再構成よりも空間的特徴と時間的特徴を共同で予測することを学ぶため,文献で広く使用されている再構築や将来のフレーム予測よりも困難である。 より制約のあるプリテキストタスクは、正規性パターンをよりよく学習させると信じています。 いくつかのベンチマークデータセットを用いた実験は、時空間評価指標における異常の局所化と追跡の手法の有効性を示す。

Abnormal event detection in videos is a challenging problem, partly due to the multiplicity of abnormal patterns and the lack of their corresponding annotations. In this paper, we propose new constrained pretext tasks to learn object level normality patterns. Our approach consists in learning a mapping between down-scaled visual queries and their corresponding normal appearance and motion characteristics at the original resolution. The proposed tasks are more challenging than reconstruction and future frame prediction tasks which are widely used in the literature, since our model learns to jointly predict spatial and temporal features rather than reconstructing them. We believe that more constrained pretext tasks induce a better learning of normality patterns. Experiments on several benchmark datasets demonstrate the effectiveness of our approach to localize and track anomalies as it outperforms or reaches the current state-of-the-art on spatio-temporal evaluation metrics.
翻訳日:2023-04-25 23:27:24 公開日:2023-04-23
# 高移動車両を用いた資源制約付き車両エッジフェデレーション学習

Resource Constrained Vehicular Edge Federated Learning with Highly Mobile Connected Vehicles ( http://arxiv.org/abs/2210.15496v4 )

ライセンス: Link先を確認
Md Ferdous Pervej, Richeng Jin and Huaiyu Dai(参考訳) 本稿では,車載型中央処理ユニット(CPU)とローカルデータセットを用いて,エッジサーバが高度に移動可能なコネクテッドカー(CV)を利用してグローバルモデルをトレーニングする,VEFL(vehicular edge federated learning)ソリューションを提案する。 収束解析により、VEFLのトレーニング損失は、間欠的な車両間赤外線(V2I)無線リンクに対するCVのトレーニングモデルの受信の成功に依存することが明らかになった。 高モビリティのため、フルデバイス参加ケース(FDPC)では、エッジサーバは、CVのデータセットサイズとソジュール期間に応じて重み付けされた組み合わせに基づいてクライアントモデルパラメータを集約し、部分デバイス参加ケース(PDPC)ではCVのサブセットを選択する。 そこで我々は, 遅延, エネルギー, コスト制約下での無線アクセス技術 (RAT) のパラメータ最適化問題を考案し, 局所的に訓練されたモデルの受信の確率を最大化する。 最適化問題はNPハードであることを考えると、推定最悪の待ち時間、遅延とエネルギーコスト、オンラインRTTパラメータ最適化サブプロブレムを考えると、VEFLパラメータ最適化サブプロブレムに分解する。 最後に, 5G-NR (5G-NR) RAT を用いて, 現実的な微視的モビリティモデルにより提案手法の有効性を検証した。

This paper proposes a vehicular edge federated learning (VEFL) solution, where an edge server leverages highly mobile connected vehicles' (CVs') onboard central processing units (CPUs) and local datasets to train a global model. Convergence analysis reveals that the VEFL training loss depends on the successful receptions of the CVs' trained models over the intermittent vehicle-to-infrastructure (V2I) wireless links. Owing to high mobility, in the full device participation case (FDPC), the edge server aggregates client model parameters based on a weighted combination according to the CVs' dataset sizes and sojourn periods, while it selects a subset of CVs in the partial device participation case (PDPC). We then devise joint VEFL and radio access technology (RAT) parameters optimization problems under delay, energy and cost constraints to maximize the probability of successful reception of the locally trained models. Considering that the optimization problem is NP-hard, we decompose it into a VEFL parameter optimization sub-problem, given the estimated worst-case sojourn period, delay and energy expense, and an online RAT parameter optimization sub-problem. Finally, extensive simulations are conducted to validate the effectiveness of the proposed solutions with a practical 5G new radio (5G-NR) RAT under a realistic microscopic mobility model.
翻訳日:2023-04-25 23:26:50 公開日:2023-04-23
# ニューロシンボリックモデルの自然拘束に対する保証的適合性

Guaranteed Conformance of Neurosymbolic Models to Natural Constraints ( http://arxiv.org/abs/2212.01346v7 )

ライセンス: Link先を確認
Kaustubh Sridhar, Souradeep Dutta, James Weimer, Insup Lee(参考訳) ディープニューラルネットワークは、特に力学系のモデルとして、ロボット工学と制御応用の幅広い部分のワークホースとして登場した。 このようなデータ駆動モデルは、自律システムの設計と検証に使用される。 データは治療の個別化に活用できる医療システムのモデリングに特に有用である。 安全クリティカルな応用においては、データ駆動モデルは自然科学の確立した知識に適合することが重要である。 そのような知識はしばしば利用可能であり、しばしば(おそらくブラックボックス)モデルに蒸留される。 例えば、f1レーシングカーはニュートンの法則(一輪車モデルにエンコードされる)に従わなければならない。 モデル $m$ と状態遷移データセットが与えられたとき、私たちは$m$ から離れた境界距離でありながら、システムモデルを最もよく近似したいと考えています。 この適合性を保証する方法を提案する。 最初のステップは、神経ガスの増加というアイデアを使って、データセットをmemoriesと呼ばれる代表的なサンプルに蒸留することです。 次に、これらの記憶を用いて状態空間を非結合部分集合に分割し、各サブセットでニューラルネットワークによって尊重されるべき境界を計算する。 これは保証された適合性のシンボリックラッパーとして機能する。 理論的には、これは近似誤差の有界増加に繋がるだけであり、これは記憶数を増やすことによって制御できる。 カーモデル, ドローン, 人工膵の3つのケーススタディにおいて, 拘束されたニューロシンボリックモデルが, ラグランジアンおよびバニラの訓練法と比較して, オーダー・オブ・マグニチュードの改善を伴う特定のモデル(各制約を符号化する)に適合していることが実験的に示された。 私たちのコードは、https://github.com/kaustubhsridhar/constrained_modelsにあります。

Deep neural networks have emerged as the workhorse for a large section of robotics and control applications, especially as models for dynamical systems. Such data-driven models are in turn used for designing and verifying autonomous systems. They are particularly useful in modeling medical systems where data can be leveraged to individualize treatment. In safety-critical applications, it is important that the data-driven model is conformant to established knowledge from the natural sciences. Such knowledge is often available or can often be distilled into a (possibly black-box) model. For instance, an F1 racing car should conform to Newton's laws (which are encoded within a unicycle model). In this light, we consider the following problem - given a model $M$ and a state transition dataset, we wish to best approximate the system model while being a bounded distance away from $M$. We propose a method to guarantee this conformance. Our first step is to distill the dataset into a few representative samples called memories, using the idea of a growing neural gas. Next, using these memories we partition the state space into disjoint subsets and compute bounds that should be respected by the neural network in each subset. This serves as a symbolic wrapper for guaranteed conformance. We argue theoretically that this only leads to a bounded increase in approximation error; which can be controlled by increasing the number of memories. We experimentally show that on three case studies (Car Model, Drones, and Artificial Pancreas), our constrained neurosymbolic models conform to specified models (each encoding various constraints) with order-of-magnitude improvements compared to the augmented Lagrangian and vanilla training methods. Our code can be found at: https://github.com/kaustubhsridhar/Constrained_Models
翻訳日:2023-04-25 23:21:33 公開日:2023-04-23
# Let's Enhance: テキスト画像の極端破壊に対するディープラーニングアプローチ

Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images ( http://arxiv.org/abs/2211.10103v2 )

ライセンス: Link先を確認
Theophil Trippe and Martin Genzel and Jan Macdonald and Maximilian M\"arz(参考訳) 本研究は、画像劣化の逆問題に対する新しいディープラーニングベースのパイプラインを提案し、合成データによる強化と事前学習を活用する。 その結果,最近のhelsinki deblur challenge 2021において,最先端のデブラリングアルゴリズムの限界を実世界データセットで探索することを目的とした。 課題は、ランダムテキストの焦点外像を分離し、下流課題とし、光学的特徴認識に基づくスコア関数を最大化することであった。 私たちのソリューションの重要なステップは、ぼかしプロセスを記述する物理フォワードモデルのデータ駆動推定です。 これにより、提供される少量のチャレンジデータの広範囲な拡張に使用される、一対の地面とぼやけた画像をオンザフライで生成する合成データのストリームが可能になる。 実際のデブロアリングパイプラインは、ラジアルレンズ歪み(推定フォワードモデルによって決定される)の近似逆転と、エンドツーエンドにトレーニングされたU-Netアーキテクチャで構成されている。 当社のアルゴリズムは、最も難易度の高いレベルを通過した唯一のアルゴリズムで、70\%以上の文字認識精度を達成しました。 本研究は,データ中心機械学習のパラダイムとよく一致しており,逆問題の文脈での有効性を実証する。 本手法の詳細なプレゼンテーションとは別に,一連のアブレーション研究における設計選択の重要性も分析した。 チャレンジ提出のコードはhttps://github.com/theophil-trippe/HDC_TUBerlin_version_1で公開されています。

This work presents a novel deep-learning-based pipeline for the inverse problem of image deblurring, leveraging augmentation and pre-training with synthetic data. Our results build on our winning submission to the recent Helsinki Deblur Challenge 2021, whose goal was to explore the limits of state-of-the-art deblurring algorithms in a real-world data setting. The task of the challenge was to deblur out-of-focus images of random text, thereby in a downstream task, maximizing an optical-character-recognition-based score function. A key step of our solution is the data-driven estimation of the physical forward model describing the blur process. This enables a stream of synthetic data, generating pairs of ground-truth and blurry images on-the-fly, which is used for an extensive augmentation of the small amount of challenge data provided. The actual deblurring pipeline consists of an approximate inversion of the radial lens distortion (determined by the estimated forward model) and a U-Net architecture, which is trained end-to-end. Our algorithm was the only one passing the hardest challenge level, achieving over $70\%$ character recognition accuracy. Our findings are well in line with the paradigm of data-centric machine learning, and we demonstrate its effectiveness in the context of inverse problems. Apart from a detailed presentation of our methodology, we also analyze the importance of several design choices in a series of ablation studies. The code of our challenge submission is available under https://github.com/theophil-trippe/HDC_TUBerlin_version_1.
翻訳日:2023-04-25 23:18:26 公開日:2023-04-23
# クラスタリングの観点からみたタイムスタンプ・スーパービジョンアクションセグメンテーション

Timestamp-Supervised Action Segmentation from the Perspective of Clustering ( http://arxiv.org/abs/2212.11694v2 )

ライセンス: Link先を確認
Dazhao Du, Enhan Li, Lingyu Si, Fanjiang Xu, Fuchun Sun(参考訳) タイムスタンプ監視下のビデオアクションセグメンテーションは,アノテーションコストの低下により近年注目されている。 既存の手法のほとんどは、セグメンテーションモデルを訓練するために各ビデオの全てのフレームに対して擬似ラベルを生成する。 しかし、これらの手法は、特に2つの連続する動作間の遷移領域における意味不明なフレームにおいて、不正確な擬似ラベルに悩まされる。 この問題に対処するため,我々はクラスタリングの観点から,以下の2つの部分を含む新しいフレームワークを提案する。 まず、擬似ラベルセンスは不完全だが高品質な擬似ラベル配列を生成し、あいまいな間隔のフレームは擬似ラベルを持たない。 第二に、反復クラスタリングは擬似ラベルをクラスタリングによってあいまいな間隔に反復的に伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングする。 さらに,同じ動作セグメント内のフレームの特徴をよりコンパクトにするクラスタリングロスについても紹介する。 広範な実験により,本手法の有効性が示された。

Video action segmentation under timestamp supervision has recently received much attention due to lower annotation costs. Most existing methods generate pseudo-labels for all frames in each video to train the segmentation model. However, these methods suffer from incorrect pseudo-labels, especially for the semantically unclear frames in the transition region between two consecutive actions, which we call ambiguous intervals. To address this issue, we propose a novel framework from the perspective of clustering, which includes the following two parts. First, pseudo-label ensembling generates incomplete but high-quality pseudo-label sequences, where the frames in ambiguous intervals have no pseudo-labels. Second, iterative clustering iteratively propagates the pseudo-labels to the ambiguous intervals by clustering, and thus updates the pseudo-label sequences to train the model. We further introduce a clustering loss, which encourages the features of frames within the same action segment more compact. Extensive experiments show the effectiveness of our method.
翻訳日:2023-04-25 23:10:22 公開日:2023-04-23
# 生レーダフレーム上でのオンライン物体検出のための繰り返しCNN

A recurrent CNN for online object detection on raw radar frames ( http://arxiv.org/abs/2212.11172v2 )

ライセンス: Link先を確認
Colin Decourt, Rufin VanRullen, Didier Salle and Thomas Oberlin(参考訳) 自動車用レーダーセンサーは、高度運転支援システム(ADAS)に貴重な情報を提供する。 レーダーは、天気や光条件に関わらず、物体と相対速度の距離を確実に推定することができる。 しかし、レーダーセンサーは解像度が低く、物体の形状がクラス内で大きく変化する。 時間情報(例えば複数のフレーム)の活用は、オブジェクトのダイナミクスをよりよく捉え、それゆえオブジェクトの形状の変化を捉えるのに役立つことが示されている。 ほとんどの時間的レーダー物体検出器は空間的および時間的情報を学ぶために3D畳み込みを使用する。 しかし、これらの手法はしばしば非因果的であり、リアルタイムアプリケーションには適さない。 本稿では,オンラインレーダオブジェクト検出のための新しいCNNアーキテクチャであるRECORDを紹介する。 本稿では,コンボリューションとConvLSTMを混合したエンドツーエンドのトレーニング可能なアーキテクチャを提案し,逐次フレーム間の時空間依存性を学習する。 我々のモデルは因果的であり、オブジェクトを検出するためにConvLSTMのメモリに符号化された過去の情報のみを必要とする。 本研究では,rod2021およびcarradaデータセット上で,異なるレーダ表現(レンジドップラ,レンジアングル)の物体や,最先端の最先端モデルの検出に,計算コストを低減しつつ,そのような手法の有効性を示す。

Automotive radar sensors provide valuable information for advanced driving assistance systems (ADAS). Radars can reliably estimate the distance to an object and the relative velocity, regardless of weather and light conditions. However, radar sensors suffer from low resolution and huge intra-class variations in the shape of objects. Exploiting the time information (e.g., multiple frames) has been shown to help to capture better the dynamics of objects and, therefore, the variation in the shape of objects. Most temporal radar object detectors use 3D convolutions to learn spatial and temporal information. However, these methods are often non-causal and unsuitable for real-time applications. This work presents RECORD, a new recurrent CNN architecture for online radar object detection. We propose an end-to-end trainable architecture mixing convolutions and ConvLSTMs to learn spatio-temporal dependencies between successive frames. Our model is causal and requires only the past information encoded in the memory of the ConvLSTMs to detect objects. Our experiments show such a method's relevance for detecting objects in different radar representations (range-Doppler, range-angle) and outperform state-of-the-art models on the ROD2021 and CARRADA datasets while being less computationally expensive.
翻訳日:2023-04-25 23:10:04 公開日:2023-04-23
# ページタイム以前の量子情報について

On Quantum Information Before the Page Time ( http://arxiv.org/abs/2212.06839v2 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Yuya Kusuki(参考訳) ブラックホール情報問題の最近の進歩は、ホーキング放射のエントロピーが一元的なページ曲線に従うことを示しているが、ページ時間以前のホーキング放射の量子状態は純粋な熱として扱われ、ブラックホールの微細構造に関する情報は含まれていない。 ページ時間以前のホーキング放射におけるブラックホールの量子状態に関する重要な量子情報が存在することを示す。 ブラックホール蒸発の2次元境界共形場理論(BCFT)モデルにおける量子忠実性の計算により、蒸発するブラックホールの外の観測者が、指数関数的に多くの測定値があるにもかかわらず、蒸発過程において、ホーキング放射の測定によって異なるブラックホールを区別できることを示した。 さらに、我々の結果は普遍的で、大きな中心電荷と合理的なBCFTを含む一般のBCFTに適用できる。 忠実度を計算するために開発された技術は、より一般的にCFTの励起状態に適用できる。 したがって、2次元共形場理論における熱化のより一般的な側面を特徴付けることができる。

While recent progress in the black hole information problem has shown that the entropy of Hawking radiation follows a unitary Page curve, the quantum state of Hawking radiation prior the Page time is still treated as purely thermal, containing no information about the microstructure of the black hole. We demonstrate that there is significant quantum information regarding the quantum state of the black hole in the Hawking radiation prior to the Page time. By computing of the quantum fidelity in a 2D boundary conformal field theory (BCFT) model of black hole evaporation, we demonstrate that an observer outside of an evaporating black hole may distinguish different black holes via measurements of the Hawking radiation at \textit{any} time during the evaporation process, albeit with an exponentially large number of measurements. Furthermore, our results are universal, applicable to general BCFTs including those with large central charge and rational BCFTs. The techniques we develop for computing the fidelity are more generally applicable to excited states in CFT. As such, we are able to characterize more general aspects of thermalization in 2D conformal field theory.
翻訳日:2023-04-25 23:08:53 公開日:2023-04-23
# 動きと文脈対応音声・視覚条件付き映像予測

Motion and Context-Aware Audio-Visual Conditioned Video Prediction ( http://arxiv.org/abs/2212.04679v2 )

ライセンス: Link先を確認
Yating Xu, Gim Hee Lee(参考訳) 既存の音声視覚条件付きビデオ予測の最先端手法では、マルチモーダル確率ネットワークとフレームエンコーダからオーディオ視覚フレームの潜時符号を用いて次の視覚フレームを予測する。 しかし、高次元画像空間のため、潜在コードから次の視覚フレームに対するピクセル当たりの強度の直接推定は極めて困難である。 そこで本研究では,視覚条件付き映像予測を動作・外観モデルに分離することを提案する。 第1部は、所定のオーディオ映像クリップから運動情報を光学的フローとして学習するマルチモーダルモーション推定モジュールである。 第2の部分は、予測された光フローを使用して、現在の視覚的フレームを次の視覚的フレームにワープし、所定のオーディオ視覚的コンテキストに基づいて洗練する、コンテキスト対応リファインメントモジュールである。 実験の結果,提案手法は既存のベンチマークで競合する結果が得られることがわかった。

Existing state-of-the-art method for audio-visual conditioned video prediction uses the latent codes of the audio-visual frames from a multimodal stochastic network and a frame encoder to predict the next visual frame. However, a direct inference of per-pixel intensity for the next visual frame from the latent codes is extremely challenging because of the high-dimensional image space. To this end, we propose to decouple the audio-visual conditioned video prediction into motion and appearance modeling. The first part is the multimodal motion estimation module that learns motion information as optical flow from the given audio-visual clip. The second part is the context-aware refinement module that uses the predicted optical flow to warp the current visual frame into the next visual frame and refines it base on the given audio-visual context. Experimental results show that our method achieves competitive results on existing benchmarks.
翻訳日:2023-04-25 23:08:37 公開日:2023-04-23
# mn-ds:ニュース記事階層分類のためのマルチラベルニュースデータセット

MN-DS: A Multilabeled News Dataset for News Articles Hierarchical Classification ( http://arxiv.org/abs/2212.12061v3 )

ライセンス: Link先を確認
Alina Petukhova, Nuno Fachada(参考訳) この記事では、2019年1月1日から12月31日までの階層的なニュースカテゴリを収集した10,917のニュース記事のデータセットを紹介する。 第1レベル17と第2レベル109の階層分類に基づいて,手作業で記事のラベル付けを行った。 このデータセットは、ニュース記事を自動的にトピック別に分類する機械学習モデルのトレーニングに使用することができる。 このデータセットは、リリースされたニュースに基づいて、ニュース構造化、分類、将来のイベントを予測する研究者に役立つ。

This article presents a dataset of 10,917 news articles with hierarchical news categories collected between 1 January 2019 and 31 December 2019. We manually labeled the articles based on a hierarchical taxonomy with 17 first-level and 109 second-level categories. This dataset can be used to train machine learning models for automatically classifying news articles by topic. This dataset can be helpful for researchers working on news structuring, classification, and predicting future events based on released news.
翻訳日:2023-04-25 21:25:23 公開日:2023-04-23
# ガウスボソンサンプリングによるグラフ問題に対する量子インスピレーション付き古典的アルゴリズム

Quantum-inspired classical algorithm for graph problems by Gaussian boson sampling ( http://arxiv.org/abs/2302.00536v2 )

ライセンス: Link先を確認
Changhun Oh, Bill Fefferman, Liang Jiang, Nicol\'as Quesada(参考訳) 本稿では,最も高密度な$k$-部分グラフの探索や最大重みの傾きの探索など,グラフ理論上の問題に応用可能な量子インスピレーション付き古典的アルゴリズムを提案する。 ガウスボソンサンプリング器の主な観測は、ガウスボソンサンプリング器に符号化されるグラフの隣接行列が非負であり、量子干渉を必要としないことである。 まず,与えられたグラフ問題を効率的な古典アルゴリズムにプログラムする方法を提案する。 次に, 理想と損失の大きいガウスボソンサンプリング器, 量子インスパイアされた古典的なサンプリング器, および最も高密度な$k$-サブグラフを発見し, 最大重量傾きを求める均一なサンプリング器の性能を比較し, ガウスボソンサンプリング器の利点が一般に有意でないことを示す。 提案したサンプリング器に対するガウスボソンサンプリング器の可能性について論じる。

We present a quantum-inspired classical algorithm that can be used for graph-theoretical problems, such as finding the densest $k$-subgraph and finding the maximum weight clique, which are proposed as applications of a Gaussian boson sampler. The main observation from Gaussian boson samplers is that a given graph's adjacency matrix to be encoded in a Gaussian boson sampler is nonnegative, which does not necessitate quantum interference. We first provide how to program a given graph problem into our efficient classical algorithm. We then numerically compare the performance of ideal and lossy Gaussian boson samplers, our quantum-inspired classical sampler, and the uniform sampler for finding the densest $k$-subgraph and finding the maximum weight clique and show that the advantage from Gaussian boson samplers is not significant in general. We finally discuss the potential advantage of a Gaussian boson sampler over the proposed sampler.
翻訳日:2023-04-25 21:18:00 公開日:2023-04-23
# Rydberg 原子アレイを用いたディジタルアナログ変分量子固有解器の青写真化

A blueprint for a Digital-Analog Variational Quantum Eigensolver using Rydberg atom arrays ( http://arxiv.org/abs/2301.06453v2 )

ライセンス: Link先を確認
Antoine Michel, Sebastian Grijalva, Lo\"ic Henriet, Christophe Domain and Antoine Browaeys(参考訳) 我々は、化学から来るハミルトンの基底状態エネルギーを推定するタスクに対処する。 h2,lih,beh2分子に対するディジタル・アナログ変分量子固有ソルバの挙動を数値的に検討し,分子ハミルトニアンの選択された特徴について原子レジスタの位置を学習し,各ステップが非ランダム化エネルギー推定を行う反復パルスシェーピング最適化を行うことで、エネルギーを数パーセントの誤差点に推定できることを確認した。

We address the task of estimating the ground-state energy of Hamiltonians coming from chemistry. We study numerically the behavior of a digital-analog variational quantum eigensolver for the H2, LiH and BeH2 molecules, and we observe that one can estimate the energy to a few percent points of error leveraging on learning the atom register positions with respect to selected features of the molecular Hamiltonian and then an iterative pulse shaping optimization, where each step performs a derandomization energy estimation.
翻訳日:2023-04-25 21:16:48 公開日:2023-04-23
# 半教師付き医用画像セグメンテーションのための高信頼擬似ラベルを用いた共同学習

Co-training with High-Confidence Pseudo Labels for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.04465v2 )

ライセンス: Link先を確認
Zhiqiang Shen, Peng Cao, Hua Yang, Xiaoli Liu, Jinzhu Yang, Osmar R. Zaiane(参考訳) 一貫性正規化と擬似ラベリングに基づく半教師付き手法は,多視点入力から擬似ラベルを用いて協調学習を行う。 しかし、そのようなコトレーニングモデルは、早期にコンセンサスに収束し、自己学習モデルに縮退し、トレーニング中に摂動入力から低信頼の擬似ラベルを生成する傾向にある。 これらの課題に対処するために,疑似ラベルを用いた半教師付きセマンティックセマンティックセグメンテーションのためのUncertainty-Guided Collaborative Mean-Teacher (UCMT)を提案する。 具体的にはUCMTは2つの主要コンポーネントから構成される。 1)モデル不一致を奨励し、サブネットワーク間の協調訓練を行うための協力的平均教師(CMT) 2)CMTの不確実性マップに従って入力画像を操作するための不確実性誘導領域混合(UMIX)により、CMTは高信頼な擬似ラベルを生成する。 UMIXとCMTの強度を組み合わせることで、UCMTはモデル不一致を維持し、コトレーニングセグメンテーションのための擬似ラベルの品質を高めることができる。 2Dおよび3Dモダリティを含む4つの公開医療画像データセットに対する大規模な実験は、UCMTが最先端技術よりも優れていることを示す。 コードは、https://github.com/Senyh/UCMT.comで入手できる。

Consistency regularization and pseudo labeling-based semi-supervised methods perform co-training using the pseudo labels from multi-view inputs. However, such co-training models tend to converge early to a consensus, degenerating to the self-training ones, and produce low-confidence pseudo labels from the perturbed inputs during training. To address these issues, we propose an Uncertainty-guided Collaborative Mean-Teacher (UCMT) for semi-supervised semantic segmentation with the high-confidence pseudo labels. Concretely, UCMT consists of two main components: 1) collaborative mean-teacher (CMT) for encouraging model disagreement and performing co-training between the sub-networks, and 2) uncertainty-guided region mix (UMIX) for manipulating the input images according to the uncertainty maps of CMT and facilitating CMT to produce high-confidence pseudo labels. Combining the strengths of UMIX with CMT, UCMT can retain model disagreement and enhance the quality of pseudo labels for the co-training segmentation. Extensive experiments on four public medical image datasets including 2D and 3D modalities demonstrate the superiority of UCMT over the state-of-the-art. Code is available at: https://github.com/Senyh/UCMT.
翻訳日:2023-04-25 21:16:02 公開日:2023-04-23
# 量子軌道に沿った幾何学的位相

Geometric phases along quantum trajectories ( http://arxiv.org/abs/2301.04222v3 )

ライセンス: Link先を確認
Ludmila Viotti, Ana Laura Gramajo, Paula I. Villar, Fernando C. Lombardo, Rosario Fazio(参考訳) ハミルトニアンを統治するパラメータの循環的進化を行う監視量子系は、量子軌道に依存する幾何学的位相を蓄積し、それに続く系は進化する。 フェーズ値は、ユニタリダイナミクスと、システムと環境の相互作用の両方によって決定されます。 したがって、幾何学的位相はランダムな量子ジャンプの発生により確率的特性を得る。 本稿では,観測量子系における幾何位相の分布関数について検討し,開量子系における幾何位相を測定するために,いつ,何が異なるかについて議論する。 また,監視されたエコープロトコルについて検討し,実験で抽出された干渉パターンの分布が幾何位相と関連している場合について議論する。 さらに, 量子ジャンプを伴わない単一軌道に対して, サイクル後に得られた位相の位相遷移を示し, この臨界挙動がエコープロトコルでどのように観測されるかを示す。 同じパラメータに対して、密度行列は特異点を示さない。 外部環境下での時間変化磁場に浸漬したスピン1/2のパラダイムケースを考慮し,本研究の主な成果を概説する。 しかしながら、我々の分析の主な結果は非常に一般的であり、その定性的特徴において、研究されたモデルの選択に依存しない。

A monitored quantum system undergoing a cyclic evolution of the parameters governing its Hamiltonian accumulates a geometric phase that depends on the quantum trajectory followed by the system on its evolution. The phase value will be determined both by the unitary dynamics and by the interaction of the system with the environment. Consequently, the geometric phase will acquire a stochastic character due to the occurrence of random quantum jumps. Here we study the distribution function of geometric phases in monitored quantum systems and discuss when/if different quantities, proposed to measure geometric phases in open quantum systems, are representative of the distribution. We also consider a monitored echo protocol and discuss in which cases the distribution of the interference pattern extracted in the experiment is linked to the geometric phase. Furthermore, we unveil, for the single trajectory exhibiting no quantum jumps, a topological transition in the phase acquired after a cycle and show how this critical behavior can be observed in an echo protocol. For the same parameters, the density matrix does not show any singularity. We illustrate all our main results by considering a paradigmatic case, a spin-1/2 immersed in time-varying a magnetic field in presence of an external environment. The major outcomes of our analysis are however quite general and do not depend, in their qualitative features, on the choice of the model studied.
翻訳日:2023-04-25 21:15:39 公開日:2023-04-23
# DP-SGDにおける境界学習データ再構成

Bounding Training Data Reconstruction in DP-SGD ( http://arxiv.org/abs/2302.07225v2 )

ライセンス: Link先を確認
Jamie Hayes, Saeed Mahloujifar, Borja Balle(参考訳) 異なるプライベートトレーニングは、通常はメンバーシップ推論攻撃に対する保証として解釈される保護を提供する。 この保証はプロキシによって、完全なトレーニング例を抽出しようとするレコンストラクション攻撃など、他の脅威にも拡張される。 最近の研究は、もしメンバーシップ攻撃から保護する必要がなく、訓練データ再構成から保護したいというなら、これらのより野心的な攻撃から保護するためにノイズが少ないため、プライベートモデルの有用性を改善することができるという証拠を提供している。 さらに,私的深層学習の標準アルゴリズムであるDP-SGDの文脈でこれを検証し,DP-SGDに対する再構築攻撃の成功と,我々の限界の予測に実証的に一致する攻撃に上限を与える。 これら2つの結果は,dp-sgdのプライバシパラメータの設定方法について,レコンストラクション攻撃から保護するための詳細な調査の扉を開くものだ。 最後に, DP-SGDパラメータの異なる設定を同一のDP保証に導いた場合, 復元における成功率が著しく異なることを示すために, DP保証だけでは再建攻撃に対する保護を制御できない可能性が示唆された。

Differentially private training offers a protection which is usually interpreted as a guarantee against membership inference attacks. By proxy, this guarantee extends to other threats like reconstruction attacks attempting to extract complete training examples. Recent works provide evidence that if one does not need to protect against membership attacks but instead only wants to protect against training data reconstruction, then utility of private models can be improved because less noise is required to protect against these more ambitious attacks. We investigate this further in the context of DP-SGD, a standard algorithm for private deep learning, and provide an upper bound on the success of any reconstruction attack against DP-SGD together with an attack that empirically matches the predictions of our bound. Together, these two results open the door to fine-grained investigations on how to set the privacy parameters of DP-SGD in practice to protect against reconstruction attacks. Finally, we use our methods to demonstrate that different settings of the DP-SGD parameters leading to the same DP guarantees can result in significantly different success rates for reconstruction, indicating that the DP guarantee alone might not be a good proxy for controlling the protection against reconstruction attacks.
翻訳日:2023-04-25 21:09:27 公開日:2023-04-23
# 遺伝子マスキングと分散検索による進化の加速

Accelerating Evolution Through Gene Masking and Distributed Search ( http://arxiv.org/abs/2302.06745v3 )

ライセンス: Link先を確認
Hormoz Shahrzad, Risto Miikkulainen(参考訳) 進化計算(EC)の実用化には,2つの最適化が不可欠である。 まず,探索手法のパラメータをドメインに調整し,探索と利用を効果的に両立させる必要がある。 第二に、並列コンピューティングリソースを利用するためには、探索方法を分散する必要がある。 本稿では,両目標を同時に達成するためのアプローチとしてBLADE(BLAnket Distributed Evolution)を提案する。 ブレードはブランケット(すなわち遺伝的表現上のマスク)を使用して探索中に進化演算子をチューニングし、ハブ・アンド・スポーク分布による探索を実行する。 本論文では, 1) マルコフ連鎖過程として (1 + 1)EA の場合の毛布法を定式化する。 その効果は確率行列の支配的かつ従属的な固有値を分析し、一般化理論を示唆し、(2)分布解析に適合レベル理論を用い、(3)これらの知見を3つのベンチマーク問題で実験的に検証し、毛布と分布の両方が進化を加速させることを示した。 さらに、これらの間に驚くべきシナジーが出現する: 分散と組み合わせると、ブランケットアプローチは、場合によっては$n$クライアントで$n$-fold以上のスピードアップを達成する。 この研究は、実用的な応用における進化計算の最適化の重要性と可能性を強調している。

In building practical applications of evolutionary computation (EC), two optimizations are essential. First, the parameters of the search method need to be tuned to the domain in order to balance exploration and exploitation effectively. Second, the search method needs to be distributed to take advantage of parallel computing resources. This paper presents BLADE (BLAnket Distributed Evolution) as an approach to achieving both goals simultaneously. BLADE uses blankets (i.e., masks on the genetic representation) to tune the evolutionary operators during the search, and implements the search through hub-and-spoke distribution. In the paper, (1) the blanket method is formalized for the (1 + 1)EA case as a Markov chain process. Its effectiveness is then demonstrated by analyzing dominant and subdominant eigenvalues of stochastic matrices, suggesting a generalizable theory; (2) the fitness-level theory is used to analyze the distribution method; and (3) these insights are verified experimentally on three benchmark problems, showing that both blankets and distribution lead to accelerated evolution. Moreover, a surprising synergy emerges between them: When combined with distribution, the blanket approach achieves more than $n$-fold speedup with $n$ clients in some cases. The work thus highlights the importance and potential of optimizing evolutionary computation in practical applications.
翻訳日:2023-04-25 21:09:07 公開日:2023-04-23
# 数値欠陥に対するディープニューラルネットワークアーキテクチャの信頼性保証

Reliability Assurance for Deep Neural Network Architectures Against Numerical Defects ( http://arxiv.org/abs/2302.06086v3 )

ライセンス: Link先を確認
Linyi Li, Yuhao Zhang, Luyao Ren, Yingfei Xiong, Tao Xie(参考訳) ディープニューラルネットワーク(DNN)の普及により、DNNベースのシステムの信頼性を保証することが非常に重要である。 システム障害などの深刻な信頼性問題は、DNNの最も頻繁な欠陥の一つである数値的な欠陥によって引き起こされる可能性がある。 数値欠陥に対する高い信頼性を確保するため,本論文では,潜在的な数値欠陥の検出,潜在的な欠陥の確認,欠陥修正の提案という,3つの信頼性保証タスクのための新しい手法を含むRANUM手法を提案する。 私たちの知る限りでは、RANUMは失敗防止テストによる潜在的な欠陥の可能性を確認し、自動的に修正を提案する最初のアプローチです。 63の現実世界のDNNアーキテクチャのベンチマークに関する大規模な実験は、RANUMが3つの信頼性保証タスクで最先端のアプローチより優れていることを示している。 さらに、オープンソースの開発者の修正と比較すると、40ケース中37ケースで、ranumが生成した修正は、人間の修正と同等か、それ以上に優れている。

With the widespread deployment of deep neural networks (DNNs), ensuring the reliability of DNN-based systems is of great importance. Serious reliability issues such as system failures can be caused by numerical defects, one of the most frequent defects in DNNs. To assure high reliability against numerical defects, in this paper, we propose the RANUM approach including novel techniques for three reliability assurance tasks: detection of potential numerical defects, confirmation of potential-defect feasibility, and suggestion of defect fixes. To the best of our knowledge, RANUM is the first approach that confirms potential-defect feasibility with failure-exhibiting tests and suggests fixes automatically. Extensive experiments on the benchmarks of 63 real-world DNN architectures show that RANUM outperforms state-of-the-art approaches across the three reliability assurance tasks. In addition, when the RANUM-generated fixes are compared with developers' fixes on open-source projects, in 37 out of 40 cases, RANUM-generated fixes are equivalent to or even better than human fixes.
翻訳日:2023-04-25 21:08:17 公開日:2023-04-23
# 言語モデルにおける個人識別情報漏洩の分析

Analyzing Leakage of Personally Identifiable Information in Language Models ( http://arxiv.org/abs/2302.00539v4 )

ライセンス: Link先を確認
Nils Lukas, Ahmed Salem, Robert Sim, Shruti Tople, Lukas Wutschitz and Santiago Zanella-B\'eguelin(参考訳) 言語モデル (LM) は、文レベルメンバーシップ推論と再構築攻撃を通じて、トレーニングデータに関する情報を漏洩させる。 PII(Personally Identible Information)に漏洩するLMのリスクを理解することは、PIIの漏洩を防ぐためにスクラブなどのデータセットキュレーション技術が十分であるという誤った仮定によるものである。 スクレイビング技術は、PII漏洩のリスクを防止しない: 実際には、スレービングは不完全であり、開示の最小化とデータセットの有用性の維持の間のトレードオフをバランスさせなければならない。 一方,PIIの開示を防止するために,文レベルのプライバシーやユーザレベルのプライバシーを保証するために設計された差分プライバシーなどのアルゴリズムによる防御がどの程度かは明らかでない。 本研究では,LMへのAPIアクセスのみによるブラックボックス抽出,推論,再構成攻撃による3種類のPIIリークに対する厳密なゲームベース定義を提案する。 事例法,保健医療,電子メールの3分野において,GPT-2モデルに対する攻撃を詳細に検討した。 私たちの主な貢献は (i)既存の攻撃よりも最大10$\times$のpiiシーケンスを抽出することができる新規な攻撃。 (ii) 文レベルの差分プライバシーはPII開示のリスクを低減させるが、PIIシークエンスの約3%は漏洩し、 (iii)記録レベルのメンバーシップ推論とpii再構成との微妙な関係 論文ですべての実験を再現するコードはhttps://github.com/microsoft/analysing_pii_leakageで公開されている。

Language Models (LMs) have been shown to leak information about training data through sentence-level membership inference and reconstruction attacks. Understanding the risk of LMs leaking Personally Identifiable Information (PII) has received less attention, which can be attributed to the false assumption that dataset curation techniques such as scrubbing are sufficient to prevent PII leakage. Scrubbing techniques reduce but do not prevent the risk of PII leakage: in practice scrubbing is imperfect and must balance the trade-off between minimizing disclosure and preserving the utility of the dataset. On the other hand, it is unclear to which extent algorithmic defenses such as differential privacy, designed to guarantee sentence- or user-level privacy, prevent PII disclosure. In this work, we introduce rigorous game-based definitions for three types of PII leakage via black-box extraction, inference, and reconstruction attacks with only API access to an LM. We empirically evaluate the attacks against GPT-2 models fine-tuned with and without defenses in three domains: case law, health care, and e-mails. Our main contributions are (i) novel attacks that can extract up to 10$\times$ more PII sequences than existing attacks, (ii) showing that sentence-level differential privacy reduces the risk of PII disclosure but still leaks about 3% of PII sequences, and (iii) a subtle connection between record-level membership inference and PII reconstruction. Code to reproduce all experiments in the paper is available at https://github.com/microsoft/analysing_pii_leakage.
翻訳日:2023-04-25 21:07:01 公開日:2023-04-23
# FuNVol: 機能的主成分とニューラルSDEを用いたマルチアセットインプリッド変動市場シミュレータ

FuNVol: A Multi-Asset Implied Volatility Market Simulator using Functional Principal Components and Neural SDEs ( http://arxiv.org/abs/2303.00859v3 )

ライセンス: Link先を確認
Vedant Choudhary, Sebastian Jaimungal, Maxime Bergeron(参考訳) 歴史的価格に忠実な複数の資産にまたがるインプリードボラティリティ(IV)表面のシーケンスを生成するための新しいアプローチを導入する。 機能的データ解析と神経確率微分方程式(SDE)の組み合わせと確率積分変換ペナルティを組み合わせることで、モデルの誤特定を減らすことができる。 iv曲面と価格のジョイントダイナミクスを学ぶことは、歴史的特徴と一致し、本質的に静的な仲裁のない曲面のサブマニフォールド内に存在する市場シナリオを生み出すことを実証する。 最後に,シミュレーション表面を用いたデルタヘッジが実効P&Lと整合した利益と損失(P&L)分布を生成することを示す。

We introduce a new approach for generating sequences of implied volatility (IV) surfaces across multiple assets that is faithful to historical prices. We do so using a combination of functional data analysis and neural stochastic differential equations (SDEs) combined with a probability integral transform penalty to reduce model misspecification. We demonstrate that learning the joint dynamics of IV surfaces and prices produces market scenarios that are consistent with historical features and lie within the sub-manifold of surfaces that are essentially free of static arbitrage. Finally, we demonstrate that delta hedging using the simulated surfaces generates profit and loss (P&L) distributions that are consistent with realised P&Ls.
翻訳日:2023-04-25 21:00:44 公開日:2023-04-23
# 行動認識のためのテクスチャベース入力特徴選択

Texture-Based Input Feature Selection for Action Recognition ( http://arxiv.org/abs/2303.00138v3 )

ライセンス: Link先を確認
Yalong Jiang(参考訳) ビデオ動作認識の性能は、2ストリーム畳み込みニューラルネットワーク(cnn)アーキテクチャ内の動き表現を使用することで大幅に向上している。 しかし、実際のシナリオでは、視点やポーズのバリエーションや背景の変化など、アクション認識にはいくつかの難しい問題がある。 トレーニングデータとテストデータとのドメイン間の不一致により、パフォーマンスが低下する。 モデルのロバスト性を改善するために,ドメインの差を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。 本手法は,ヒトパーシングモデル(HPモデル)に基づいて,密接な対応ラベリングと意味部分のセグメンテーションを共同で行う。 HPモデルからの予測は、同じテクスチャセットを使用して各ビデオ内の人間の領域を再レンダリングすることで、すべてのクラスの人間の外観を同じものにする。 トレーニングとテストのために修正データセットを生成し、入力における無関係な内容に、アクション認識モデルに不変性を示す。 さらに、hpモデルからの予測は、トレーニングとテストの両方においてarモデルへの入力を強化するために使用される。 実験の結果,提案手法は既存のHMDB-51データセットとPenn Actionデータセットの動作認識モデルよりも優れていることがわかった。

The performance of video action recognition has been significantly boosted by using motion representations within a two-stream Convolutional Neural Network (CNN) architecture. However, there are a few challenging problems in action recognition in real scenarios, e.g., the variations in viewpoints and poses, and the changes in backgrounds. The domain discrepancy between the training data and the test data causes the performance drop. To improve the model robustness, we propose a novel method to determine the task-irrelevant content in inputs which increases the domain discrepancy. The method is based on a human parsing model (HP model) which jointly conducts dense correspondence labelling and semantic part segmentation. The predictions from the HP model also function as re-rendering the human regions in each video using the same set of textures to make humans appearances in all classes be the same. A revised dataset is generated for training and testing and makes the action recognition model exhibit invariance to the irrelevant content in the inputs. Moreover, the predictions from the HP model are used to enrich the inputs to the AR model during both training and testing. Experimental results show that our proposed model is superior to existing models for action recognition on the HMDB-51 dataset and the Penn Action dataset.
翻訳日:2023-04-25 21:00:30 公開日:2023-04-23
# BrainCLIP:fMRIからの自然視刺激復号のためのCLIPによる脳と視覚言語表現

BrainCLIP: Bridging Brain and Visual-Linguistic Representation via CLIP for Generic Natural Visual Stimulus Decoding from fMRI ( http://arxiv.org/abs/2302.12971v2 )

ライセンス: Link先を確認
Yulong Liu, Yongqiang Ma, Wei Zhou, Guibo Zhu, Nanning Zheng(参考訳) 知覚された自然画像の再構成や、fMRI信号からのカテゴリの復号は、非常に科学的に重要な課題である。 ペアサンプルの欠如により、既存のほとんどのメソッドは意味的に認識可能なリコンストラクションの生成に失敗し、新しいクラスへの一般化が困難である。 本研究では,視覚刺激の分類と再構築タスクを意味空間内で統一し,タスクに依存しない脳復号モデルを提案する。 我々は、脳活動、画像、テキスト間のモダリティギャップを橋渡しするCLIPのクロスモーダル一般化能力を活用するBrainCLIPと表現する。 具体的には、BrainCLIPはVAEベースのアーキテクチャで、fMRIパターンを視覚とテキストの監視を組み合わせたCLIP埋め込み空間に変換する。 以前の作品では視覚刺激のデコードにマルチモーダル監督を用いることは滅多にない。 本実験は,画像監督のみが存在する場合と比較して,テキストによる監視がデコードモデルの性能を著しく向上させることを示す。 BrainCLIPは、fMRI-to-image生成、fMRI-image-matching、fMRI-text-matchingといった複数のシナリオに適用できる。 最近提案されたfMRIベースの脳波復号法であるBraVLと比較して、BrainCLIPは新しいクラス分類タスクにおいて大幅に性能が向上する。 BrainCLIPはまた、高レベル画像の特徴の観点から、fMRIベースの自然画像再構成のための新しい最先端技術を確立する。

Reconstructing perceived natural images or decoding their categories from fMRI signals are challenging tasks with great scientific significance. Due to the lack of paired samples, most existing methods fail to generate semantically recognizable reconstruction and are difficult to generalize to novel classes. In this work, we propose, for the first time, a task-agnostic brain decoding model by unifying the visual stimulus classification and reconstruction tasks in a semantic space. We denote it as BrainCLIP, which leverages CLIP's cross-modal generalization ability to bridge the modality gap between brain activities, images, and texts. Specifically, BrainCLIP is a VAE-based architecture that transforms fMRI patterns into the CLIP embedding space by combining visual and textual supervision. Note that previous works rarely use multi-modal supervision for visual stimulus decoding. Our experiments demonstrate that textual supervision can significantly boost the performance of decoding models compared to the condition where only image supervision exists. BrainCLIP can be applied to multiple scenarios like fMRI-to-image generation, fMRI-image-matching, and fMRI-text-matching. Compared with BraVL, a recently proposed multi-modal method for fMRI-based brain decoding, BrainCLIP achieves significantly better performance on the novel class classification task. BrainCLIP also establishes a new state-of-the-art for fMRI-based natural image reconstruction in terms of high-level image features.
翻訳日:2023-04-25 21:00:10 公開日:2023-04-23
# フルカウント統計による非エルミートハミルトニアンの絡み合い相転移の探索

Probing Entanglement Phase Transitions of Non-Hermitian Hamiltonians by Full Counting Statistics ( http://arxiv.org/abs/2302.09470v2 )

ライセンス: Link先を確認
Tian-Gang Zhou, Yi-Neng Zhou and Pengfei Zhang(参考訳) 量子測定を行うと、物理観測可能な$O$の期待値だけでなく、可能なすべての結果の確率分布も生成される。 フルカウンティング統計 (fcs) $z(\phi, o)\equiv \langle e^{i\phi o}\rangle$ はこの分布のフーリエ変換であり、測定の完全な情報を含んでいる。 本研究では,非エルミートSYKモデルで記述された1次元システムに対して,サブシステム$A$の電荷演算子である$Q_A$のFCSについて検討する。 相互作用系に対する体積法的な絡み合った位相と非相互作用系に対する臨界位相の両方において、共形対称性が出現し、$F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$となる。 短距離の絡み合った位相において、FCSは相互作用の有無にかかわらず、$F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$ for $\zeta \gg J$ と近似できる領域法的な振舞いを示す。 以上の結果から,FCSは非エルミート系におけるエンタングルメント相転移の普遍的なプローブであり,複数のレプリカの導入を必要としないことが示唆された。 また、離散対称性、長距離ホッピング、高次元への一般化の結果についても論じる。

Performing quantum measurements produces not only the expectation value of a physical observable $O$ but also the probability distribution of all possible outcomes. The full counting statistics (FCS) $Z(\phi, O)\equiv \langle e^{i\phi O}\rangle$, a Fourier transform of this distribution, contains the complete information of the measurement. In this work, we study the FCS of $Q_A$, the charge operator in subsystem $A$, for 1D systems described by non-Hermitian SYK models, which are solvable in the large-$N$ limit. In both the volume-law entangled phase for interacting systems and the critical phase for non-interacting systems, the conformal symmetry emerges, which gives $F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$. In short-range entangled phases, the FCS shows area-law behavior which can be approximated as $F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$ for $\zeta \gg J$, regardless of the presence of interactions. Our results suggest the FCS is a universal probe of entanglement phase transitions in non-Hermitian systems with conserved charges, which does not require the introduction of multiple replicas. We also discuss the consequence of discrete symmetry, long-range hopping, and generalizations to higher dimensions.
翻訳日:2023-04-25 20:58:13 公開日:2023-04-23
# VENUS: 量子状態可視化のための幾何学的表現

VENUS: A Geometrical Representation for Quantum State Visualization ( http://arxiv.org/abs/2303.08366v4 )

ライセンス: Link先を確認
Shaolun Ruan, Ribo Yuan, Qiang Guan, Yanna Lin, Ying Mao, Weiwen Jiang, Zhepeng Wang, Wei Xu, Yong Wang(参考訳) 可視化は、量子コンピューティングユーザーが様々な量子コンピューティングアプリケーションで量子状態を調べるのを助ける上で重要な役割を担っている。 その中でもBloch Sphereは、量子振幅を表すために角度を利用する量子状態を示すために広く使われている視覚化である。 しかし、量子エンタングルメントと重ね合わせ(量子コンピューティングの2つの本質的性質)の可視化はサポートできない。 本稿では,量子状態表現のための新しい可視化手法であるVENUSを提案する。 量子コンピューティング特性の数学的基礎に基づく2次元幾何学的形状を明示的に関連付けることにより、VENUSは量子エンタングルメントのための1量子ビットと2量子ビットの両方の量子振幅を効果的に表現する。 また、複数の座標半円を用いて確率分布を自然にエンコードし、量子重ね合わせを直感的に解析する。 VENUSの有用性と有効性を評価するために,2つの優れたケーススタディと詳細な専門家インタビューを行った。 その結果、VENUSは1量子ビットと2量子ビットの量子状態の探索を効果的に行うことができた。

Visualizations have played a crucial role in helping quantum computing users explore quantum states in various quantum computing applications. Among them, Bloch Sphere is the widely-used visualization for showing quantum states, which leverages angles to represent quantum amplitudes. However, it cannot support the visualization of quantum entanglement and superposition, the two essential properties of quantum computing. To address this issue, we propose VENUS, a novel visualization for quantum state representation. By explicitly correlating 2D geometric shapes based on the math foundation of quantum computing characteristics, VENUS effectively represents quantum amplitudes of both the single qubit and two qubits for quantum entanglement. Also, we use multiple coordinated semicircles to naturally encode probability distribution, making the quantum superposition intuitive to analyze. We conducted two well-designed case studies and an in-depth expert interview to evaluate the usefulness and effectiveness of VENUS. The result shows that VENUS can effectively facilitate the exploration of quantum states for the single qubit and two qubits.
翻訳日:2023-04-25 20:51:58 公開日:2023-04-23
# riddle: latent encryptorによる可逆性と多様化した非識別

RiDDLE: Reversible and Diversified De-identification with Latent Encryptor ( http://arxiv.org/abs/2303.05171v3 )

ライセンス: Link先を確認
Dongze Li, Wei Wang, Kang Zhao, Jing Dong and Tieniu Tan(参考訳) この研究は、人々の身元情報を誤用から守るために、可逆的かつ多角化された非識別を潜在暗号化装置と略すriddleを提示している。 事前に学習したStyleGAN2ジェネレータ上に構築されたRiDDLEは、潜伏空間内の顔認証を暗号化して復号する。 RiDDLEの設計には3つの魅力がある。 まず、暗号化プロセスは暗号化誘導され、異なるパスワードを使って様々な匿名化が可能である。 第二に、真のidは正しいパスワードでしか解読できない。そうでなければ、システムはプライバシーを維持するために別の身元不明の顔を生成する。 第三に、暗号化と復号化の両方が効率的な実装を共有しており、慎重に調整された軽量暗号化の利点がある。 既存の代替手段との比較では、我々のアプローチがより良い品質、高い多様性、より強い可逆性を備えた非識別タスクを達成することを確認した。 さらに,ビデオの匿名化におけるRiDDLEの有効性を示す。 コードとモデルは公開される予定だ。

This work presents RiDDLE, short for Reversible and Diversified De-identification with Latent Encryptor, to protect the identity information of people from being misused. Built upon a pre-learned StyleGAN2 generator, RiDDLE manages to encrypt and decrypt the facial identity within the latent space. The design of RiDDLE has three appealing properties. First, the encryption process is cipher-guided and hence allows diverse anonymization using different passwords. Second, the true identity can only be decrypted with the correct password, otherwise the system will produce another de-identified face to maintain the privacy. Third, both encryption and decryption share an efficient implementation, benefiting from a carefully tailored lightweight encryptor. Comparisons with existing alternatives confirm that our approach accomplishes the de-identification task with better quality, higher diversity, and stronger reversibility. We further demonstrate the effectiveness of RiDDLE in anonymizing videos. Code and models will be made publicly available.
翻訳日:2023-04-25 20:50:37 公開日:2023-04-23
# 早期出力を用いた深部ニューラルネットワークの階層的学習

Hierarchical Training of Deep Neural Networks Using Early Exiting ( http://arxiv.org/abs/2303.02384v3 )

ライセンス: Link先を確認
Yamin Sepehri, Pedram Pad, Ahmet Caner Y\"uz\"ug\"uler, Pascal Frossard, L. Andrea Dunbar(参考訳) ディープニューラルネットワークはビジョンタスクに最先端の精度を提供するが、トレーニングにはかなりのリソースを必要とする。 したがって、データを取得するエッジデバイスから遠く離れたクラウドサーバでトレーニングされる。 この問題は通信コスト、ランタイム、プライバシの懸念を高める。 本研究では,エッジとクラウドワーカを分割したアーキテクチャで早期のエグジットを利用して通信コスト,トレーニングランタイム,プライバシの懸念を緩和する,ディープニューラルネットワークの新しい階層的トレーニング手法を提案する。 本手法では,トレーニング期間中のエッジとクラウド間のニューラルネットワークの後方通過を分離するために,早期出口の新しいユースケースを提案する。 トレーニングフェーズのシーケンシャルな性質のため、階層のレベルを同時にトレーニングできない、あるいはプライバシを妥協するコストで実行できない、最も利用可能なメソッドの問題に対処する。 対照的に,本手法はエッジとクラウドワーカを同時に使用することができ,生の入力データをクラウドと共有せず,後方通過時の通信も不要である。 異なるニューラルネットワークアーキテクチャに対するいくつかのシミュレーションとオンデバイス実験は、この方法の有効性を実証している。 VGG-16とResNet-18のCIFAR-10分類実験において,クラウドとの通信を低ビットレートチャネルで行う場合,本手法はトレーニングランタイムを29%,61%削減する。 この実行時の利得は達成され、精度低下は無視される。 この方法は、エッジクラウドシステムの一部として携帯電話やロボットなどの低リソースデバイス上での、高精度なディープニューラルネットワークのオンライン学習に有利であり、新しいタスクやクラスのデータに対してより柔軟である。

Deep neural networks provide state-of-the-art accuracy for vision tasks but they require significant resources for training. Thus, they are trained on cloud servers far from the edge devices that acquire the data. This issue increases communication cost, runtime and privacy concerns. In this study, a novel hierarchical training method for deep neural networks is proposed that uses early exits in a divided architecture between edge and cloud workers to reduce the communication cost, training runtime and privacy concerns. The method proposes a brand-new use case for early exits to separate the backward pass of neural networks between the edge and the cloud during the training phase. We address the issues of most available methods that due to the sequential nature of the training phase, cannot train the levels of hierarchy simultaneously or they do it with the cost of compromising privacy. In contrast, our method can use both edge and cloud workers simultaneously, does not share the raw input data with the cloud and does not require communication during the backward pass. Several simulations and on-device experiments for different neural network architectures demonstrate the effectiveness of this method. It is shown that the proposed method reduces the training runtime by 29% and 61% in CIFAR-10 classification experiment for VGG-16 and ResNet-18 when the communication with the cloud is done at a low bit rate channel. This gain in the runtime is achieved whilst the accuracy drop is negligible. This method is advantageous for online learning of high-accuracy deep neural networks on low-resource devices such as mobile phones or robots as a part of an edge-cloud system, making them more flexible in facing new tasks and classes of data.
翻訳日:2023-04-25 20:49:37 公開日:2023-04-23
# PCA-Netによる演算子学習--上と下の境界

Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v3 )

ライセンス: Link先を確認
Samuel Lanthaler(参考訳) PCA-Netは、ニューラルネットワークと主成分分析(PCA)を組み合わせて、無限次元関数空間間の近似演算子を提案する。 本研究は, 基礎となる演算子とデータ生成分布について最小限の仮定の下で, 新たな普遍近似結果が導出される。 次に、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界を通して正確にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。 もう1つの障害は、無限次元の入力空間と出力空間の間の作用素空間の固有の複雑さに関係し、その結果、厳密で定量化可能な次元の呪いのステートメントとなる。 これらの下限に加えて、高次複雑性境界が導出される。 PCA固有値の代数的減衰を確実にするために、適切な滑らか度基準を示す。 さらに、PCA-Netは、ダーシー流とナビエ・ストークス方程式から生じる特定の興味を持つ演算子に対する次元性の一般的な呪いを克服できることを示した。

PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate operators between infinite-dimensional function spaces. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction: First, a novel universal approximation result is derived, under minimal assumptions on the underlying operator and the data-generating distribution. Then, two potential obstacles to efficient operator learning with PCA-Net are identified, and made precise through lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates to the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of the curse of dimensionality. In addition to these lower bounds, upper complexity bounds are derived. A suitable smoothness criterion is shown to ensure an algebraic decay of the PCA eigenvalues. Furthermore, it is shown that PCA-Net can overcome the general curse of dimensionality for specific operators of interest, arising from the Darcy flow and the Navier-Stokes equations.
翻訳日:2023-04-25 20:41:23 公開日:2023-04-23
# the semantic reader project:aiを利用したインタラクティブ読書インタフェースによる学術文書の拡張

The Semantic Reader Project: Augmenting Scholarly Documents through AI-Powered Interactive Reading Interfaces ( http://arxiv.org/abs/2303.14334v2 )

ライセンス: Link先を確認
Kyle Lo, Joseph Chee Chang, Andrew Head, Jonathan Bragg, Amy X. Zhang, Cassidy Trier, Chloe Anastasiades, Tal August, Russell Authur, Danielle Bragg, Erin Bransom, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Yen-Sung Chen, Evie Yu-Yen Cheng, Yvonne Chou, Doug Downey, Rob Evans, Raymond Fok, Fangzhou Hu, Regan Huff, Dongyeop Kang, Tae Soo Kim, Rodney Kinney, Aniket Kittur, Hyeonsu Kang, Egor Klevak, Bailey Kuehl, Michael Langan, Matt Latzke, Jaron Lochner, Kelsey MacMillan, Eric Marsh, Tyler Murray, Aakanksha Naik, Ngoc-Uyen Nguyen, Srishti Palani, Soya Park, Caroline Paulic, Napol Rachatasumrit, Smita Rao, Paul Sayre, Zejiang Shen, Pao Siangliulue, Luca Soldaini, Huy Tran, Madeleine van Zuylen, Lucy Lu Wang, Christopher Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Marti A. Hearst, Daniel S. Weld(参考訳) 学術出版物は学者から他者への知識移転の鍵となる。 しかし、研究論文は情報密度が高く、科学文献の量が増えるにつれて、読解プロセスを支援する新しい技術の必要性が高まっている。 インターネット技術によって変革された論文の発見プロセスとは対照的に、研究論文を読む経験は数十年でほとんど変わっていない。 研究論文を共有するためのpdfフォーマットは、ポータビリティのために広く使われているが、静的コンテンツ、低視野の読者に対するアクセシビリティの低さ、モバイルデバイスでの読み取りの難しさなど、大きな欠点がある。 この論文では、"AIとHCIパワーの最近の進歩は、インテリジェントでインタラクティブで、アクセス可能な読み込みインターフェース -- レガシPDFであっても? 本稿では,研究論文を対象とした動的読解インタフェースの自動作成を,複数の機関で共同で進めるSemantic Reader Projectについて述べる。 本研究により,300人以上の参加者と現実世界のユーザを対象に,学習者の読書体験の向上を図った10種類のプロトタイプインタフェースを開発し,ユーザビリティ研究を行った。 また、研究論文が成熟するにつれて、最高の機能を組み込むためのプロダクションリーディングインターフェイスもリリースしました。 本論文は,研究論文(発見,効率,理解,合成,アクセシビリティ)を読む際に,学者や公衆の面を中心に構築し,その進展の概要と今後の課題について述べる。

Scholarly publications are key to the transfer of knowledge from scholars to others. However, research papers are information-dense, and as the volume of the scientific literature grows, the need for new technology to support the reading process grows. In contrast to the process of finding papers, which has been transformed by Internet technology, the experience of reading research papers has changed little in decades. The PDF format for sharing research papers is widely used due to its portability, but it has significant downsides including: static content, poor accessibility for low-vision readers, and difficulty reading on mobile devices. This paper explores the question "Can recent advances in AI and HCI power intelligent, interactive, and accessible reading interfaces -- even for legacy PDFs?" We describe the Semantic Reader Project, a collaborative effort across multiple institutions to explore automatic creation of dynamic reading interfaces for research papers. Through this project, we've developed ten research prototype interfaces and conducted usability studies with more than 300 participants and real-world users showing improved reading experiences for scholars. We've also released a production reading interface for research papers that will incorporate the best features as they mature. We structure this paper around challenges scholars and the public face when reading research papers -- Discovery, Efficiency, Comprehension, Synthesis, and Accessibility -- and present an overview of our progress and remaining open challenges.
翻訳日:2023-04-25 20:40:31 公開日:2023-04-23
# SemEval-2023 Task 10: 多数投票によるオンライン性差別の明示的検出

SSS at SemEval-2023 Task 10: Explainable Detection of Online Sexism using Majority Voted Fine-Tuned Transformers ( http://arxiv.org/abs/2304.03518v2 )

ライセンス: Link先を確認
Sriya Rallabandi, Sanchit Singhal and Pratinav Seth(参考訳) 本稿では,3つのサブタスクに分けた2023-explainable detection of online sexism (edos) におけるタスク10への提案について述べる。 最近のソーシャルメディアプラットフォームの増加は、ソーシャルメディアプラットフォーム上で女性が経験する性差別の格差が増加している。 これにより、女性にとってソーシャルメディアをより安全でアクセスしやすいものにするために、オンラインの性差別コンテンツの検出と説明がこれまで以上に重要になった。 提案手法は、BERTモデルの実験と微調整と、個別のベースラインモデルスコアより優れるMajority Votingアンサンブルモデルを用いて構成する。 本システムでは,タスクAのマクロF1スコアが0.8392,タスクBの0.6092,タスクCの0.4319を達成している。

This paper describes our submission to Task 10 at SemEval 2023-Explainable Detection of Online Sexism (EDOS), divided into three subtasks. The recent rise in social media platforms has seen an increase in disproportionate levels of sexism experienced by women on social media platforms. This has made detecting and explaining online sexist content more important than ever to make social media safer and more accessible for women. Our approach consists of experimenting and finetuning BERT-based models and using a Majority Voting ensemble model that outperforms individual baseline model scores. Our system achieves a macro F1 score of 0.8392 for Task A, 0.6092 for Task B, and 0.4319 for Task C.
翻訳日:2023-04-25 20:32:27 公開日:2023-04-23
# SVT:効率的なビデオ理解のための超音速ビデオトランス

SVT: Supertoken Video Transformer for Efficient Video Understanding ( http://arxiv.org/abs/2304.00325v2 )

ライセンス: Link先を確認
Chenbin Pan, Rui Hou, Hanchao Yu, Qifan Wang, Senem Velipasalar, and Madian Khabsa(参考訳) 既存のビデオトランスフォーマーは、開始から終了までの一定の解像度でビデオを処理するか、あるいはプールとダウンスケーリングの戦略を取り入れることで、冗長な情報の大部分を特別に処理することなく、全ビデオコンテンツをネットワーク全体で処理する。 本稿では,視覚トランスフォーマの奥行きに沿って潜在表現を集約するセマンティック・プーリング・モジュール(spm)を組み込んだsupertoken video transformer(svt)を提案する。 その結果,提案手法は,潜在表現と類似のセマンティクスを融合することで冗長性を効果的に低減でき,従って下流タスクの高度情報の割合を増加できることがわかった。 この手法は,Kinectics と something-Something-V2 ベンチマークの計算処理を著しく削減しつつ,ViT と MViT の両方の性能を向上させる。 具体的には、Kinectics-400ベンチマークでは、MAE-pretrained ViT-BとViT-Lを1.5%、GFLOPを33%、FLOPを0.2%、FLOPを55%削減し、Kinectics-400ではMViTv2-Bを0.2%、Something-V2では22%の精度でMViTv2-Bを0.3%改善しています。

Whether by processing videos with fixed resolution from start to end or incorporating pooling and down-scaling strategies, existing video transformers process the whole video content throughout the network without specially handling the large portions of redundant information. In this paper, we present a Supertoken Video Transformer (SVT) that incorporates a Semantic Pooling Module (SPM) to aggregate latent representations along the depth of visual transformer based on their semantics, and thus, reduces redundancy inherent in video inputs.~Qualitative results show that our method can effectively reduce redundancy by merging latent representations with similar semantics and thus increase the proportion of salient information for downstream tasks.~Quantitatively, our method improves the performance of both ViT and MViT while requiring significantly less computations on the Kinectics and Something-Something-V2 benchmarks.~More specifically, with our SPM, we improve the accuracy of MAE-pretrained ViT-B and ViT-L by 1.5% with 33% less GFLOPs and by 0.2% with 55% less FLOPs, respectively, on the Kinectics-400 benchmark, and improve the accuracy of MViTv2-B by 0.2% and 0.3% with 22% less GFLOPs on Kinectics-400 and Something-Something-V2, respectively.
翻訳日:2023-04-25 20:31:12 公開日:2023-04-23
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v2 )

ライセンス: Link先を確認
Chenpng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
翻訳日:2023-04-25 20:29:46 公開日:2023-04-23
# HybridPoint: ハイブリッドポイントサンプリングとマッチングに基づくポイントクラウド登録

HybridPoint: Point Cloud Registration Based on Hybrid Point Sampling and Matching ( http://arxiv.org/abs/2303.16526v2 )

ライセンス: Link先を確認
Yiheng Li, Canhui Tang, Runzhao Yao, Aixue Ye, Feng Wen and Shaoyi Du(参考訳) パッチツーポイントマッチングは、ポイントクラウド登録の堅牢な方法となっている。 しかし、従来のパッチマッチング手法では、ノードとしてローカライズ精度の低いスーパーポイントを採用しており、不明瞭なパッチ分割につながる可能性がある。 本稿では,より堅牢で正確な対応を見つけるためのHybridPointベースのネットワークを提案する。 まず,局所的な特徴を持つサルエントポイントをノードとして使用してパッチの再現性を高め,ポイントクラウドを完備するための一様分散ポイントを導入することで,ハイブリッドポイントを構成することを提案する。 ハイブリッドポイントは、ローカライズ精度が向上するだけでなく、ポイントクラウド全体の全体像も提供します。 さらに,ハイブリッド点の特性に基づいて,正解点の整合性を利用して非正則点の整合性ノイズをフィルタするデュアルクラスパッチマッチングモジュールを提案する。 実験の結果,3DMatch,3DLoMatch,KITTI odometry,特に3DMatchデータセットの93.0%レジストレーションリコールにおいて,我々のモデルは最先端の性能を達成することがわかった。 私たちのコードとモデルはhttps://github.com/liyih/hybridpointで利用可能です。

Patch-to-point matching has become a robust way of point cloud registration. However, previous patch-matching methods employ superpoints with poor localization precision as nodes, which may lead to ambiguous patch partitions. In this paper, we propose a HybridPoint-based network to find more robust and accurate correspondences. Firstly, we propose to use salient points with prominent local features as nodes to increase patch repeatability, and introduce some uniformly distributed points to complete the point cloud, thus constituting hybrid points. Hybrid points not only have better localization precision but also give a complete picture of the whole point cloud. Furthermore, based on the characteristic of hybrid points, we propose a dual-classes patch matching module, which leverages the matching results of salient points and filters the matching noise of non-salient points. Experiments show that our model achieves state-of-the-art performance on 3DMatch, 3DLoMatch, and KITTI odometry, especially with 93.0% Registration Recall on the 3DMatch dataset. Our code and models are available at https://github.com/liyih/HybridPoint.
翻訳日:2023-04-25 20:29:17 公開日:2023-04-23
# Wav2code: ノイズロスASRのためのコードブック検索によるクリーンな音声表現の復元

Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR ( http://arxiv.org/abs/2304.04974v2 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng(参考訳) 自動音声認識(asr)は、ディープラーニングの最近の進歩により、目覚ましい成功を収めているが、現実世界の雑音条件下では、格段に劣化することが多い。 近年,音声品質向上のためのフロントエンドとして音声強調(se)が提案されているが,音声歪み問題により下流asrでは最適ではない可能性がある。 最新の研究はSEと現在人気の自己教師付き学習(SSL)を組み合わせて歪みを緩和し、ノイズの堅牢性を改善する。 有効性にもかかわらず、従来のseによる音声歪みはいまだ完全に排除できない。 本稿では,ノイズロスASRの歪みを伴わない汎用SEを実装するために,Wav2codeという自己教師型フレームワークを提案する。 まず、トレーニング前の段階でSSLモデルからクリーンな音声表現を送信して、隣り合う特徴マッチングを通じて個別のコードブックを検索し、結果のコードシーケンスを使用して元のクリーンな表現を再構築し、コードブックに予め保存する。 次に, 入力ノイズ表現のグローバル依存性をモデル化することにより, 歪みのない高品質なクリーン表現の発見と復元を可能にするトランスフォーマーベースのコード予測器を提案する。 さらに、元の雑音と復元されたクリーン表現を組み合わせ、忠実度と品質を両立させるインタラクティブな特徴融合ネットワークを提案する。 最後に、合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができ、強靭性をもたらすことを示した。

Automatic speech recognition (ASR) has gained a remarkable success thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhancement (SE) as front-end to improve speech quality, which is proved effective but may not be optimal for downstream ASR due to speech distortion problem. Based on that, latest works combine SE and currently popular self-supervised learning (SSL) to alleviate distortion and improve noise robustness. Despite the effectiveness, the speech distortion caused by conventional SE still cannot be completely eliminated. In this paper, we propose a self-supervised framework named Wav2code to implement a generalized SE without distortions for noise-robust ASR. First, in pre-training stage the clean speech representations from SSL model are sent to lookup a discrete codebook via nearest-neighbor feature matching, the resulted code sequence are then exploited to reconstruct the original clean representations, in order to store them in codebook as prior. Second, during finetuning we propose a Transformer-based code predictor to accurately predict clean codes by modeling the global dependency of input noisy representations, which enables discovery and restoration of high-quality clean representations without distortions. Furthermore, we propose an interactive feature fusion network to combine original noisy and the restored clean representations to consider both fidelity and quality, resulting in even more informative features for downstream ASR. Finally, experiments on both synthetic and real noisy datasets demonstrate that Wav2code can solve the speech distortion and improve ASR performance under various noisy conditions, resulting in stronger robustness.
翻訳日:2023-04-25 20:22:45 公開日:2023-04-23
# プロキシ変数を用いた因果効果の部分的同定

Partial Identification of Causal Effects Using Proxy Variables ( http://arxiv.org/abs/2304.04374v2 )

ライセンス: Link先を確認
AmirEmad Ghassami, Ilya Shpitser, Eric Tchetgen Tchetgen(参考訳) Miao et al., 2018; Tchetgen Tchetgen et al., 2020) は, 近位因果推論(proximal causal inference, 近位因果推論)が, 未測定共生の有無による結果変数に対する治療の因果効果を評価するためのフレームワークである。 因果効果の非パラメトリックな点同定のために、このフレームワークは、観測されたプロキシの対応する関数に対する隠れた要因に対する潜在的結果や治療変数の依存性に一致するブリッジ関数を特定するために、いわゆる処理と結果の共起プロキシ変数を利用する。 ブリッジ関数による因果効果の特異な同定は、以前は完全性条件として定式化された要件である隠蔽因子にプロキシが十分関連していることを要求する。 しかし、完全性は経験的にテストできないことがよく知られており、ブリッジ関数は所定の設定で明確に定義できるが、単一のタイプのプロキシが利用可能であることによって表される完全性不足は、ブリッジ関数の識別と因果効果を著しく制限する可能性がある。 本稿では,完全性を必要としない部分同定法を提案し,橋梁関数の同定の必要性を解消する。 すなわち,橋梁機能やそれに対応する因果効果の識別に十分な情報がない場合でも,観察されていない共同創設者のプロキシを利用して結果に対する治療の因果効果の境界を得ることができる。 さらに、プロキシが利用可能である隠されたメディエータに対する識別ヒンジが関連する設定で類似部分識別結果を確立するが、そのようなプロキシはブリッジ関数のポイント識別やそれに対応する因果効果に十分ではない。

Proximal causal inference is a recently proposed framework for evaluating the causal effect of a treatment on an outcome variable in the presence of unmeasured confounding (Miao et al., 2018; Tchetgen Tchetgen et al., 2020). For nonparametric point identification of causal effects, the framework leverages a pair of so-called treatment and outcome confounding proxy variables, in order to identify a bridge function that matches the dependence of potential outcomes or treatment variables on the hidden factors to corresponding functions of observed proxies. Unique identification of a causal effect via a bridge function crucially requires that proxies are sufficiently relevant for hidden factors, a requirement that has previously been formalized as a completeness condition. However, completeness is well-known not to be empirically testable, and although a bridge function may be well-defined in a given setting, lack of completeness, sometimes manifested by availability of a single type of proxy, may severely limit prospects for identification of a bridge function and thus a causal effect; therefore, potentially restricting the application of the proximal causal framework. In this paper, we propose partial identification methods that do not require completeness and obviate the need for identification of a bridge function. That is, we establish that proxies of unobserved confounders can be leveraged to obtain bounds on the causal effect of the treatment on the outcome even if available information does not suffice to identify either a bridge function or a corresponding causal effect of interest. We further establish analogous partial identification results in related settings where identification hinges upon hidden mediators for which proxies are available, however such proxies are not sufficiently rich for point identification of a bridge function or a corresponding causal effect of interest.
翻訳日:2023-04-25 20:20:46 公開日:2023-04-23
# PaTeCon:知識グラフを用いた競合検出のためのパターンベース時間制約マイニング手法

PaTeCon: A Pattern-Based Temporal Constraint Mining Method for Conflict Detection on Knowledge Graphs ( http://arxiv.org/abs/2304.09015v2 )

ライセンス: Link先を確認
Jianhao Chen, Junyang Ren, Wentao Ding, Yuzhong Qu(参考訳) 特定の期間に開催される出来事を特徴づける事実である時間的事実は、知識グラフ(KG)研究コミュニティで注目を集めている。 品質管理の観点からは、時間制限の導入は、KGの時間的一貫性を維持し、潜在的な時間的矛盾を検出するための新たな課題をもたらす。 従来の研究は、労働集約的で粒度の問題のある紛争を検出するために、手動で列挙された時間的制約に依存していた。 本稿では,時間的事実と制約の共通パターンから始め,パターンに基づく時間的制約マイニング手法PaTeConを提案する。 PaTeConは、人間の専門家ではなく、与えられたKG上で自動的に決定されたグラフパターンとその関連する統計情報を使用して時間制約を生成する。 具体的には,PaTeConをWikidataとFreebaseの2つの大規模データセット上で評価する。 実験結果から,パターンに基づく自動制約マイニングは時間的制約を発生させる上で強力であることがわかった。

Temporal facts, the facts for characterizing events that hold in specific time periods, are attracting rising attention in the knowledge graph (KG) research communities. In terms of quality management, the introduction of time restrictions brings new challenges to maintaining the temporal consistency of KGs and detecting potential temporal conflicts. Previous studies rely on manually enumerated temporal constraints to detect conflicts, which are labor-intensive and may have granularity issues. We start from the common pattern of temporal facts and constraints and propose a pattern-based temporal constraint mining method, PaTeCon. PaTeCon uses automatically determined graph patterns and their relevant statistical information over the given KG instead of human experts to generate time constraints. Specifically, PaTeCon dynamically attaches class restriction to candidate constraints according to their measuring scores.We evaluate PaTeCon on two large-scale datasets based on Wikidata and Freebase respectively. The experimental results show that pattern-based automatic constraint mining is powerful in generating valuable temporal constraints.
翻訳日:2023-04-25 20:13:07 公開日:2023-04-23
# チームスポーツにおける予測選手の役割について

About latent roles in forecasting players in team sports ( http://arxiv.org/abs/2304.08272v3 )

ライセンス: Link先を確認
Luca Scofano, Alessio Sampieri, Giuseppe Re, Matteo Almanza, Alessandro Panconesi, Fabio Galasso(参考訳) スポーツにおける選手の予測は、戦術的な優位性と、マルチエージェントインタラクションシステムへのそのような研究の適用性のため、人気が高まっている。 チームスポーツは、チームメイトと対戦相手の相互作用に影響を与える重要な社会的要素を含んでいる。 しかし、それでも十分に活用する必要がある。 本研究では、各参加者がそれぞれのアクションに特定の機能を持ち、ロールベースのインタラクションがプレイヤーの将来の動きを予測する上で重要であると仮定する。 RolForはロールベースのForecastingのための新しいエンドツーエンドモデルです。 RolForは、新しいモジュールであるOrdering Neural Networks(OrderNN)を使用して、プレイヤーの順番をパーミュレートし、各プレイヤーが潜在ロールに割り当てられるようにします。 潜在ロールはRoleGCNでモデル化される。 グラフ表現のおかげで、完全に学習可能な隣接行列が提供され、役割間の関係を捉え、その後プレイヤーの将来の軌跡を予測するのに使用される。 nbaバスケットボールの挑戦的なデータセットに関する広範な実験は、役割の重要性を裏付け、最適化可能なモデルを使ってモデリングするという私たちのゴールを正当化します。 オラクルが役割を提供する場合、提案されたRolForは現在の最先端と好意的に比較する(ADEとFDEのエラーで第1位、第2位)。 しかし、エンドツーエンドのRolForのトレーニングは、置換法の微分可能性の問題を引き起こし、実験的にレビューした。 最後に、この研究は、微分可能なランク付けを難しいオープン問題として残し、グラフベースの相互作用モデルと組み合わせることで大きな可能性を秘めている。 Project は https://www.pinlab.org/aboutlatentroles で利用可能である。

Forecasting players in sports has grown in popularity due to the potential for a tactical advantage and the applicability of such research to multi-agent interaction systems. Team sports contain a significant social component that influences interactions between teammates and opponents. However, it still needs to be fully exploited. In this work, we hypothesize that each participant has a specific function in each action and that role-based interaction is critical for predicting players' future moves. We create RolFor, a novel end-to-end model for Role-based Forecasting. RolFor uses a new module we developed called Ordering Neural Networks (OrderNN) to permute the order of the players such that each player is assigned to a latent role. The latent role is then modeled with a RoleGCN. Thanks to its graph representation, it provides a fully learnable adjacency matrix that captures the relationships between roles and is subsequently used to forecast the players' future trajectories. Extensive experiments on a challenging NBA basketball dataset back up the importance of roles and justify our goal of modeling them using optimizable models. When an oracle provides roles, the proposed RolFor compares favorably to the current state-of-the-art (it ranks first in terms of ADE and second in terms of FDE errors). However, training the end-to-end RolFor incurs the issues of differentiability of permutation methods, which we experimentally review. Finally, this work restates differentiable ranking as a difficult open problem and its great potential in conjunction with graph-based interaction models. Project is available at: https://www.pinlab.org/aboutlatentroles
翻訳日:2023-04-25 20:12:50 公開日:2023-04-23
# 異方性ディッケ模型の相転移

Phase transitions of the anisotropic Dicke model ( http://arxiv.org/abs/2304.07857v2 )

ライセンス: Link先を確認
Pragna Das, Devendra Singh Bhakuni, and Auditya Sharma(参考訳) 異方性ディックモデルの様々な相転移を, 回転および逆回転光物質結合の両方で系統的に解析する。 通常の状態から超放射相への基底状態量子相転移(QPT)に加えて、異方性ディックモデルは励起状態量子相転移(ES-QPT)、エルゴードから非エルゴード遷移(ENET)、温度依存相転移(英語版)といった他の遷移も示している。 これらの相転移は, 標準連続レベル間隔比だけでなく, フォン・ノイマンエンタングルメントエントロピー, 参加比, マルチフラクタル次元, 相互情報など, 様々な固有ベクトル量を用いて, 有益に研究されていることを示す。 enetでは、参加率の静的性とダイナミクスの両方が一貫した有用なイメージを提供する。 私たちの研究でエキサイティングな発見は、ESQPTとENETが互いに密接に関連していることです。 フォン・ノイマンエントロピーのジャンプに対応するスペクトルの2つの特性エネルギーの助けを借りてこれを示す。

We systematically analyze the various phase transitions of the anisotropic Dicke model that is endowed with both rotating and counter-rotating light-matter couplings. In addition to the ground state quantum phase transition (QPT) from the normal to the super-radiant phase, the anisotropic Dicke model also exhibits other transitions namely the excited state quantum phase transition (ES- QPT), ergodic to non-ergodic transition (ENET) and the temperature dependent phase transition. We show that these phase transitions are profitably studied not only with the standard consecutive level spacing ratio, but also with the aid of various eigenvector quantities such as von Neumann entanglement entropy, the participation ratio, multifractal dimension and mutual information. For ENET, both the statics and dynamics of the participation ratio offer a consistent and useful picture. An exciting finding from our work is that the ESQPT and the ENET are closely related to each other. We show this with the aid of two characteristic energies in the spectrum corresponding to jumps in von Neumann entropy.
翻訳日:2023-04-25 20:12:26 公開日:2023-04-23
# 微細組織中の酵母細胞のインスタンスセグメンテーションデータセット

An Instance Segmentation Dataset of Yeast Cells in Microstructures ( http://arxiv.org/abs/2304.07597v2 )

ライセンス: Link先を確認
Christoph Reich, Tim Prangemeier, Andr\'e O. Fran\c{c}ani, Heinz Koeppl(参考訳) 顕微鏡データから単一セル情報を抽出するには、正確なインスタンスワイドセグメンテーションが必要である。 顕微鏡画像からのピクセル単位のセグメンテーションは、特に微構造環境の複雑さが増すと、依然として困難な課題である。 本稿では酵母細胞を微構造に分割する新しいデータセットを提案する。 ピクセル単位のインスタンスセグメンテーションラベルをセルとトラップマイクロ構造の両方に提供します。 総計493枚の密注釈顕微鏡画像を公開する。 本稿では,新しいセグメンテーションアルゴリズムの統一的な比較を容易にするために,データセットの標準化評価戦略を提案する。 データセットと評価戦略の目的は、新しい細胞分割アプローチの開発を促進することである。 データセットはhttps://christophreich 1996.github.io/yeast_in_microstructures_dataset/で公開されている。

Extracting single-cell information from microscopy data requires accurate instance-wise segmentations. Obtaining pixel-wise segmentations from microscopy imagery remains a challenging task, especially with the added complexity of microstructured environments. This paper presents a novel dataset for segmenting yeast cells in microstructures. We offer pixel-wise instance segmentation labels for both cells and trap microstructures. In total, we release 493 densely annotated microscopy images. To facilitate a unified comparison between novel segmentation algorithms, we propose a standardized evaluation strategy for our dataset. The aim of the dataset and evaluation strategy is to facilitate the development of new cell segmentation approaches. The dataset is publicly available at https://christophreich1996.github.io/yeast_in_microstructures_dataset/ .
翻訳日:2023-04-25 20:11:35 公開日:2023-04-23
# ホモフォニー演奏の美的品質評価のための順序複雑度モデル

An Order-Complexity Model for Aesthetic Quality Assessment of Homophony Music Performance ( http://arxiv.org/abs/2304.11521v1 )

ライセンス: Link先を確認
Xin Jin, Wu Zhou, Jinyu Wang, Duo Xu, Yiqing Rong, Jialin Sun(参考訳) 計算美学評価は多くの分野で一定の成果を上げてきたが、その音楽性能の研究はいまだに検討されていない。 現在、主観評価は音楽美学研究の究極的な方法であるが、多くの人的・材料的資源を消費する。 さらに、AIが生み出す音楽のパフォーマンスはまだ機械的であり、単調であり、美しさに欠けています。 本稿では,AI音楽演奏の生成課題を導出し,人間の演奏者の演奏効果を向上させるために,美容の客観的測定法を提案するために,バーコフの美的尺度を用いた。 本論文の主な貢献は,以下のとおりである。 まず,音楽演奏の美的特徴を測定する客観的な美的評価手法を提案し,次に,基本的音楽特徴と4つの美的音楽特徴を提案する。 実験の結果,本手法は性能評価に有効であることがわかった。

Although computational aesthetics evaluation has made certain achievements in many fields, its research of music performance remains to be explored. At present, subjective evaluation is still a ultimate method of music aesthetics research, but it will consume a lot of human and material resources. In addition, the music performance generated by AI is still mechanical, monotonous and lacking in beauty. In order to guide the generation task of AI music performance, and to improve the performance effect of human performers, this paper uses Birkhoff's aesthetic measure to propose a method of objective measurement of beauty. The main contributions of this paper are as follows: Firstly, we put forward an objective aesthetic evaluation method to measure the music performance aesthetic; Secondly, we propose 10 basic music features and 4 aesthetic music features. Experiments show that our method performs well on performance assessment.
翻訳日:2023-04-25 18:03:18 公開日:2023-04-23
# 資源制約組み込みデバイスにおけるBERTベースNLPモデルの展開の課題

Exploring Challenges of Deploying BERT-based NLP Models in Resource-Constrained Embedded Devices ( http://arxiv.org/abs/2304.11520v1 )

ライセンス: Link先を確認
Souvika Sarkar, Mohammad Fakhruddin Babar, Md Mahadi Hassan, Monowar Hasan, and Shubhra Kanti Karmaker Santu(参考訳) BERTベースのニューラルアーキテクチャは、多くの下流NLPタスクにおいて、最先端のベースラインとして人気を博している。 しかしながら、これらのアーキテクチャはデータ不足であり、多くのメモリとエネルギーを消費し、多くの場合、リアルタイムでリソースに制約のある多くのアプリケーションへのデプロイメントを妨げる。 既存のBERTの軽量バージョン(例えば DistilBERT や TinyBERT)は複雑な NLP タスクではうまく動作しないことが多い。 さらに重要なことは、デザイナの観点からは、利用可能なリソースとエンドユーザが望む最小限の精度との間の最適なトレードオフを打つことができる、与えられたNLPタスクに「正しい」BERTベースのアーキテクチャが何を使用するかは明らかではない。 システムエンジニアは、この質問に答えるために、試行錯誤実験に多くの時間を費やしなければならない。 本稿では,この資源/精度トレードオフに関する経験的考察を導き出すため,異なる資源制約と精度予算下でのBERTモデルに関する探索的研究を行う。 我々の発見は、組み込みシステムのための代替のBERTベースのアーキテクチャにおいて、設計者が情報を得るのに役立つ。

BERT-based neural architectures have established themselves as popular state-of-the-art baselines for many downstream NLP tasks. However, these architectures are data-hungry and consume a lot of memory and energy, often hindering their deployment in many real-time, resource-constrained applications. Existing lighter versions of BERT (eg. DistilBERT and TinyBERT) often cannot perform well on complex NLP tasks. More importantly, from a designer's perspective, it is unclear what is the "right" BERT-based architecture to use for a given NLP task that can strike the optimal trade-off between the resources available and the minimum accuracy desired by the end user. System engineers have to spend a lot of time conducting trial-and-error experiments to find a suitable answer to this question. This paper presents an exploratory study of BERT-based models under different resource constraints and accuracy budgets to derive empirical observations about this resource/accuracy trade-offs. Our findings can help designers to make informed choices among alternative BERT-based architectures for embedded systems, thus saving significant development time and effort.
翻訳日:2023-04-25 18:03:04 公開日:2023-04-23
# ニューラルネットワークの階層的ウェイト平均化

Hierarchical Weight Averaging for Deep Neural Networks ( http://arxiv.org/abs/2304.11519v1 )

ライセンス: Link先を確認
Xiaozhe Gu, Zixun Zhang, Yuncheng Jiang, Tao Luo, Ruimao Zhang, Shuguang Cui, Zhen Li(参考訳) 単純さにもかかわらず、確率勾配降下(SGD)のようなアルゴリズムはディープニューラルネットワーク(DNN)のトレーニングに成功している。 sgdを改善する様々な試みの中で、複数のモデルの重みを平均する重量平均化(wa)が最近文献で注目を集めている。 WAは2つのカテゴリに分類される。 1) 並列で訓練された複数のモデルの重みを平均化するオンラインWAは、並列小バッチSGDの勾配通信オーバーヘッドを低減するために設計されている。 2) 異なるチェックポイントでモデルの重みを平均化するオフラインWAは,DNNの一般化能力を向上させるために一般的に使用される。 オンラインとオフラインのWAは形式的には似ているが、互いに結びつくことはめったにない。 さらに、これらのメソッドは通常、オフラインパラメータ平均化またはオンラインパラメータ平均化を実行するが、両方ではない。 本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。 オンラインとオフラインの両方の平均化手法を利用することで、HWAはより高速な収束速度とより優れた一般化性能を実現することができる。 さらに、既存のwaメソッドが直面する問題や、hwaが経験的に対処する方法についても分析します。 最後に、広範な実験により、HWAが最先端の手法を大幅に上回ることを確認した。

Despite the simplicity, stochastic gradient descent (SGD)-like algorithms are successful in training deep neural networks (DNNs). Among various attempts to improve SGD, weight averaging (WA), which averages the weights of multiple models, has recently received much attention in the literature. Broadly, WA falls into two categories: 1) online WA, which averages the weights of multiple models trained in parallel, is designed for reducing the gradient communication overhead of parallel mini-batch SGD, and 2) offline WA, which averages the weights of one model at different checkpoints, is typically used to improve the generalization ability of DNNs. Though online and offline WA are similar in form, they are seldom associated with each other. Besides, these methods typically perform either offline parameter averaging or online parameter averaging, but not both. In this work, we firstly attempt to incorporate online and offline WA into a general training framework termed Hierarchical Weight Averaging (HWA). By leveraging both the online and offline averaging manners, HWA is able to achieve both faster convergence speed and superior generalization performance without any fancy learning rate adjustment. Besides, we also analyze the issues faced by existing WA methods, and how our HWA address them, empirically. Finally, extensive experiments verify that HWA outperforms the state-of-the-art methods significantly.
翻訳日:2023-04-25 18:02:44 公開日:2023-04-23
# LayerNAS: 多項式複雑性におけるニューラルアーキテクチャ探索

LayerNAS: Neural Architecture Search in Polynomial Complexity ( http://arxiv.org/abs/2304.11517v1 )

ライセンス: Link先を確認
Yicheng Fan, Dana Alon, Jingyue Shen, Daiyi Peng, Keshav Kumar, Yun Long, Xin Wang, Fotis Iliopoulos, Da-Cheng Juan, Erik Vee(参考訳) ニューラルアーキテクチャ検索(nas)は、特にターゲットハードウェアにおいて効果的なモデルアーキテクチャを発見するための一般的な方法となっている。 したがって、制約の下で最適なアーキテクチャを見つけるNAS手法が不可欠である。 本稿では,多目的NASを組合せ最適化問題に変換することで,探索複雑性を多項式に抑えることで,多目的NASの課題に対処するLayerNASを提案する。 L$層を持つモデルアーキテクチャでは、各層に対して階層的に探索を行い、検索オプションのセットから$\mathbb{S}$を選択する。 LayerNASグループは、モデルサイズやレイテンシなどの1つの目的に基づいて候補をモデル化し、別の目的に基づいて最適なモデルを探し、その結果、探索のコストと報酬要素を分割する。 このアプローチは、探索複雑性を$ O(H \cdot |\mathbb{S}| \cdot L) $ に制限する。 実験の結果,nats-bench,mobilenetv2,mobilenetv3から派生した検索空間を含む強力なベースラインと比較して,様々な検索空間において,より優れたモデルを一貫して発見できることがわかった。

Neural Architecture Search (NAS) has become a popular method for discovering effective model architectures, especially for target hardware. As such, NAS methods that find optimal architectures under constraints are essential. In our paper, we propose LayerNAS to address the challenge of multi-objective NAS by transforming it into a combinatorial optimization problem, which effectively constrains the search complexity to be polynomial. For a model architecture with $L$ layers, we perform layerwise-search for each layer, selecting from a set of search options $\mathbb{S}$. LayerNAS groups model candidates based on one objective, such as model size or latency, and searches for the optimal model based on another objective, thereby splitting the cost and reward elements of the search. This approach limits the search complexity to $ O(H \cdot |\mathbb{S}| \cdot L) $, where $H$ is a constant set in LayerNAS. Our experiments show that LayerNAS is able to consistently discover superior models across a variety of search spaces in comparison to strong baselines, including search spaces derived from NATS-Bench, MobileNetV2 and MobileNetV3.
翻訳日:2023-04-25 18:02:21 公開日:2023-04-23
# リカレントグラフアテンションネットワークによる道路走行行動の社会的異常検出

Detecting Socially Abnormal Highway Driving Behaviors via Recurrent Graph Attention Networks ( http://arxiv.org/abs/2304.11513v1 )

ライセンス: Link先を確認
Yue Hu, Yuhang Zhang, Yanbing Wang, Daniel Work(参考訳) Internet of Thingsテクノロジの急速な発展に伴い、次世代のトラフィック監視インフラストラクチャはWebを介して接続され、トラフィックデータ収集とインテリジェントなトラフィック管理を支援する。 異常ドライバは、交通効率を低下させ、安全性の問題を引き起こす可能性があるため、トラフィックにおける最も重要なタスクの1つは異常検出である。 本研究は,ハイウェイビデオ監視システムによる軌跡から異常運転行動を検出することに焦点を当てる。 現在の異常運転行動検出法の多くは、車両間の相互作用を考慮せずに単一の車両に対処する異常行動の限られたカテゴリーに焦点を当てている。 そこで本研究では,近隣のドライバの行動に適合しない行動など,様々な社会的に異常な運転行動を検出する問題を考察する。 この課題は、車両間の相互作用の多様性と高速道路交通の時空間的変化によって複雑になる。 この問題を解決するために, 周辺車両の走行行動の文脈を把握し, 学習パターンから逸脱する異常を検知できるリカレントグラフ注意ネットワークを用いたオートエンコーダを提案する。 私たちのモデルは何千もの車で大きな高速道路にスケーラブルです。 交通シミュレーションソフトウェアから生成されたデータに関する実験では、最先端の異常検出モデルの中で、社会的に異常な行動を行う車両を識別できるのは、我々のモデルのみであることが示されている。 さらに、実世界のHighDトラフィックデータセットのパフォーマンスを示す。このモデルでは、ローカルな運転規範に違反している車両を検出する。

With the rapid development of Internet of Things technologies, the next generation traffic monitoring infrastructures are connected via the web, to aid traffic data collection and intelligent traffic management. One of the most important tasks in traffic is anomaly detection, since abnormal drivers can reduce traffic efficiency and cause safety issues. This work focuses on detecting abnormal driving behaviors from trajectories produced by highway video surveillance systems. Most of the current abnormal driving behavior detection methods focus on a limited category of abnormal behaviors that deal with a single vehicle without considering vehicular interactions. In this work, we consider the problem of detecting a variety of socially abnormal driving behaviors, i.e., behaviors that do not conform to the behavior of other nearby drivers. This task is complicated by the variety of vehicular interactions and the spatial-temporal varying nature of highway traffic. To solve this problem, we propose an autoencoder with a Recurrent Graph Attention Network that can capture the highway driving behaviors contextualized on the surrounding cars, and detect anomalies that deviate from learned patterns. Our model is scalable to large freeways with thousands of cars. Experiments on data generated from traffic simulation software show that our model is the only one that can spot the exact vehicle conducting socially abnormal behaviors, among the state-of-the-art anomaly detection models. We further show the performance on real world HighD traffic dataset, where our model detects vehicles that violate the local driving norms.
翻訳日:2023-04-25 18:02:00 公開日:2023-04-23
# QuMoS: 量子機械学習モデルのセキュリティを維持するためのフレームワーク

QuMoS: A Framework for Preserving Security of Quantum Machine Learning Model ( http://arxiv.org/abs/2304.11511v1 )

ライセンス: Link先を確認
Zhepeng Wang, Jinyang Li, Zhirui Hu, Blake Gage, Elizabeth Iwasawa, Weiwen Jiang(参考訳) セキュリティは常に、機械学習(ML)アプリケーションにおいて重要な問題でした。 関連するサンプルの収集、データのラベル付け、コンピューティングパワーの消費など、モデルトレーニングのコストが高いため、モデルスティーリング攻撃は最も重要な問題のひとつです。 量子コンピューティングに関しては、量子機械学習(QML)モデルスティーリング攻撃も存在しており、従来の暗号化手法が量子計算に直接適用できないため、さらに深刻である。 一方、量子コンピューティング資源が限られているため、QMLモデルのトレーニングの金銭的コストは、短期的には古典的モデルよりもさらに高くなる可能性がある。 したがって、企業によって開発されたよく調整されたQMLモデルは、通常のユーザが使用するサービスとして量子クラウドプロバイダに委譲することができる。 この場合、クラウドプロバイダが攻撃を受けている場合、QMLモデルはリークされる。 このような問題に対処するため,モデルセキュリティを維持するための新しいフレームワークQuMoSを提案する。 暗号化アルゴリズムを適用する代わりに、複数の物理的に分離された量子クラウドプロバイダにQMLモデルを分散することを提案する。 これにより、あるプロバイダ内の敵が部分モデルを得ることができる場合でも、QMLサービス会社でフルモデルの情報が維持される。 有望ではあるが、分散環境での任意のモデル設計はモデルのセキュリティを提供することができない。 さらに,分散環境下でのモデル設計を自動的に最適化し,モデル性能とセキュリティの良好なトレードオフを実現するための強化学習ベースのセキュリティエンジンを開発した。 4つのデータセットに対する実験結果から、QuMoSが提案するモデル設計は、ベースラインよりも高いセキュリティを提供しながら、集中的な設定下でニューラルアーキテクチャサーチで設計したモデルに精度良く対応できることが示された。

Security has always been a critical issue in machine learning (ML) applications. Due to the high cost of model training -- such as collecting relevant samples, labeling data, and consuming computing power -- model-stealing attack is one of the most fundamental but vitally important issues. When it comes to quantum computing, such a quantum machine learning (QML) model-stealing attack also exists and it is even more severe because the traditional encryption method can hardly be directly applied to quantum computation. On the other hand, due to the limited quantum computing resources, the monetary cost of training QML model can be even higher than classical ones in the near term. Therefore, a well-tuned QML model developed by a company can be delegated to a quantum cloud provider as a service to be used by ordinary users. In this case, the QML model will be leaked if the cloud provider is under attack. To address such a problem, we propose a novel framework, namely QuMoS, to preserve model security. Instead of applying encryption algorithms, we propose to distribute the QML model to multiple physically isolated quantum cloud providers. As such, even if the adversary in one provider can obtain a partial model, the information of the full model is maintained in the QML service company. Although promising, we observed an arbitrary model design under distributed settings cannot provide model security. We further developed a reinforcement learning-based security engine, which can automatically optimize the model design under the distributed setting, such that a good trade-off between model performance and security can be made. Experimental results on four datasets show that the model design proposed by QuMoS can achieve a close accuracy to the model designed with neural architecture search under centralized settings while providing the highest security than the baselines.
翻訳日:2023-04-25 18:01:35 公開日:2023-04-23
# インシデント時間予測のエンドツーエンド実装のための機械学習フレームワーク

Machine learning framework for end-to-end implementation of Incident duration prediction ( http://arxiv.org/abs/2304.11507v1 )

ライセンス: Link先を確認
Smrithi Ajit, Varsha R Mouli, Skylar Knickerbocker, Jonathan S. Wood(参考訳) 交通管理センター(TMC)では,車両事故や破片などの事故が発生しない交通渋滞が問題となっている。 事故をタイムリーにクリアすることは、安全を改善し、旅行者の遅延や排出を減らすために不可欠である。 しかしながら、tmcや他の回答者は、(道路が明確になるまで)インシデントの発生期間を予測することの難しさに直面し、どのリソースをデプロイするのが困難かを判断する。 そこで本研究では,インシデントレポートを受け取るとすぐに情報に基づいてインシデント継続時間を予測する分析フレームワークとエンドツーエンド機械学習ソリューションを開発した。 インシデント期間の品質予測は、牽引トラックやメンテナンスクルー、代替ルートの活性化といった対応サービスの展開において、MCCや他の対応者が積極的なアプローチを取るのに役立つ。 予測は、分類と回帰機械学習モジュールの組み合わせを使用する。 提案手法の性能は平均絶対誤差(MAE)に基づいて評価され,実際の入射時間から逸脱し,AUC(Area Under the Curve)やMAPE(Mean Absolute Percentage Error)と評価されている。 その結果, 従来の研究手法と比較して, 発生時間予測は有意に改善した。

Traffic congestion caused by non-recurring incidents such as vehicle crashes and debris is a key issue for Traffic Management Centers (TMCs). Clearing incidents in a timely manner is essential for improving safety and reducing delays and emissions for the traveling public. However, TMCs and other responders face a challenge in predicting the duration of incidents (until the roadway is clear), making decisions of what resources to deploy difficult. To address this problem, this research developed an analytical framework and end-to-end machine-learning solution for predicting incident duration based on information available as soon as an incident report is received. Quality predictions of incident duration can help TMCs and other responders take a proactive approach in deploying responder services such as tow trucks, maintenance crews or activating alternative routes. The predictions use a combination of classification and regression machine learning modules. The performance of the developed solution has been evaluated based on the Mean Absolute Error (MAE), or deviation from the actual incident duration as well as Area Under the Curve (AUC) and Mean Absolute Percentage Error (MAPE). The results showed that the framework significantly improved incident duration prediction compared to methods from previous research.
翻訳日:2023-04-25 18:01:10 公開日:2023-04-23
# 金融機関における高次元空間効果の抑制によるチャーン因果解析の改善

Improved Churn Causal Analysis Through Restrained High-Dimensional Feature Space Effects in Financial Institutions ( http://arxiv.org/abs/2304.11503v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Guandong Xu(参考訳) 顧客チャーンでは、ビジネスとの関係を終了するか、特定の期間における顧客エンゲージメントを減少させる。 顧客獲得コストは顧客維持コストの5~6倍になるため、チャーンリスクのある顧客への投資は賢明である。 チャーンモデルの因果解析は、顧客が予見可能な未来にチャーンするかどうかを予測し、チャーンの効果と潜在的な原因を特定する。 一般に、独立変数と相関し、チャーンに影響を及ぼす従属変数と因果関係にある相反する特徴を発見するための概念的枠組みを示す。 SMOTE, アンサンブルANN, ベイジアンネットワークなどの異なるアルゴリズムを組み合わせて, 顧客関係管理システムで使用されるインターバルベースの特徴を利用することにより, 金融機関で通常発生する大規模かつ高次元の財務データに対して, チャーン予測問題に対処する。 高次元特徴空間問題を克服するために再帰的特徴除去法を用いて評価した次元の呪いと祝福の効果について考察した。 さらに因果的発見を行い、顧客の混乱につながる原因の確率を記述するための解釈方法を見つける。 検証データに基づく評価指標により, ランダム森林とアンサンブルANNモデルの精度は 86 % であり, その他の手法よりも優れていた。 因果分析の結果、超保証貢献度、会計成長量、会計収支量を表す独立因果変数が、顧客を高い信頼度で揺るがす要因となる相反する変数として同定されたことが確認された。 本稿は、地域超年金基金における現状推定から今後の方向性まで、現実世界の顧客分析について述べる。

Customer churn describes terminating a relationship with a business or reducing customer engagement over a specific period. Customer acquisition cost can be five to six times that of customer retention, hence investing in customers with churn risk is wise. Causal analysis of the churn model can predict whether a customer will churn in the foreseeable future and identify effects and possible causes for churn. In general, this study presents a conceptual framework to discover the confounding features that correlate with independent variables and are causally related to those dependent variables that impact churn. We combine different algorithms including the SMOTE, ensemble ANN, and Bayesian networks to address churn prediction problems on a massive and high-dimensional finance data that is usually generated in financial institutions due to employing interval-based features used in Customer Relationship Management systems. The effects of the curse and blessing of dimensionality assessed by utilising the Recursive Feature Elimination method to overcome the high dimension feature space problem. Moreover, a causal discovery performed to find possible interpretation methods to describe cause probabilities that lead to customer churn. Evaluation metrics on validation data confirm the random forest and our ensemble ANN model, with %86 accuracy, outperformed other approaches. Causal analysis results confirm that some independent causal variables representing the level of super guarantee contribution, account growth, and account balance amount were identified as confounding variables that cause customer churn with a high degree of belief. This article provides a real-world customer churn analysis from current status inference to future directions in local superannuation funds.
翻訳日:2023-04-25 18:00:48 公開日:2023-04-23
# 抽象的意味表現を用いた翻訳の削減

Translationese Reduction using Abstract Meaning Representation ( http://arxiv.org/abs/2304.11501v1 )

ライセンス: Link先を確認
Shira Wein, Nathan Schneider(参考訳) 翻訳されたテキストや発話には、言語起源のテキストとは異なるいくつかの特徴がある。 この現象は翻訳と呼ばれ、十分に文書化されており、訓練やテストセットに見られるとモデルの性能に影響を及ぼす可能性がある。 しかし、人間の翻訳文における翻訳の効果を和らげる研究は未検討である。 表層形式から抽象化された意味表現である抽象的意味表現 (abstract meaning representation, amr) は、翻訳文の翻訳量を減らすためのインターリングアとして使用できると仮定する。 英訳をAMRグラフに解析し、そのAMRからテキストを生成することにより、マクロレベルの測度によって非翻訳によく似たテキストを得る。 そこで本研究では,AMRをインターリンガとして用いることで,翻訳文の削減が可能であることと,ラウンドトリップ機械翻訳に基づくものと,統語的に制御された生成に基づくものとの2つのアプローチを比較した。

Translated texts or utterances bear several hallmarks distinct from texts originating in the language. This phenomenon, known as translationese, is well-documented, and when found in training or test sets can affect model performance. Still, work to mitigate the effect of translationese in human translated text is understudied. We hypothesize that Abstract Meaning Representation (AMR), a semantic representation which abstracts away from the surface form, can be used as an interlingua to reduce the amount of translationese in translated texts. By parsing English translations into an AMR graph and then generating text from that AMR, we obtain texts that more closely resemble non-translationese by macro-level measures. We show that across four metrics, and qualitatively, using AMR as an interlingua enables the reduction of translationese and we compare our results to two additional approaches: one based on round-trip machine translation and one based on syntactically controlled generation.
翻訳日:2023-04-25 18:00:19 公開日:2023-04-23
# 地域関係を考慮した半監督セマンティックセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation With Region Relevance ( http://arxiv.org/abs/2304.11539v1 )

ライセンス: Link先を確認
Rui Chen, Tao Chen, Qiong Wang, Yazhou Yao(参考訳) 半教師付きセマンティックセグメンテーションは、少量のラベル付きデータと、セグメンテーションタスクのためのラベルなしデータから学ぶことを目的としている。 最も一般的なアプローチは、トレーニングデータを強化するためにラベルなし画像の擬似ラベルを生成することである。 しかし、ノイズの多い擬似ラベルは累積的分類誤差を生じさせ、予測の局所的不整合を悪化させる。 本稿では、上記の問題を緩和する地域関連ネットワーク(RRN)を提案する。 具体的には,まず識別器ネットワークを活用した局所的な擬似ラベルフィルタリングモジュールを導入し,領域レベルでの擬似ラベルの精度を評価する。 一貫性正規化トレーニングにおける誤った擬似ラベルの悪影響を軽減するために,局所的選択損失を提案する。 さらに,ネットワーク多様性の利点を生かして,疑似ラベルの信頼性をさらに評価し,動的領域損失でセグメントネットワークの収束方向を補正する動的領域損失補正モジュールを提案する。 PASCAL VOC 2012とCityscapesのデータセットにラベル付きデータを多用した大規模な実験を行い、提案手法が現在のデータと比較して最先端の性能を達成することを示した。

Semi-supervised semantic segmentation aims to learn from a small amount of labeled data and plenty of unlabeled ones for the segmentation task. The most common approach is to generate pseudo-labels for unlabeled images to augment the training data. However, the noisy pseudo-labels will lead to cumulative classification errors and aggravate the local inconsistency in prediction. This paper proposes a Region Relevance Network (RRN) to alleviate the problem mentioned above. Specifically, we first introduce a local pseudo-label filtering module that leverages discriminator networks to assess the accuracy of the pseudo-label at the region level. A local selection loss is proposed to mitigate the negative impact of wrong pseudo-labels in consistency regularization training. In addition, we propose a dynamic region-loss correction module, which takes the merit of network diversity to further rate the reliability of pseudo-labels and correct the convergence direction of the segmentation network with a dynamic region loss. Extensive experiments are conducted on PASCAL VOC 2012 and Cityscapes datasets with varying amounts of labeled data, demonstrating that our proposed approach achieves state-of-the-art performance compared to current counterparts.
翻訳日:2023-04-25 17:53:05 公開日:2023-04-23
# テキスト分類のためのグラフニューラルネットワーク:調査

Graph Neural Networks for Text Classification: A Survey ( http://arxiv.org/abs/2304.11534v1 )

ライセンス: Link先を確認
Kunze Wang, Yihao Ding, Soyeon Caren Han(参考訳) テキスト分類は自然言語処理において最も重要かつ根本的な問題である。 最近の多くのテキスト分類モデルがシーケンシャルなディープラーニング技術を適用しているが、グラフニューラルネットワークベースのモデルは複雑な構造化テキストデータを直接扱うことができ、グローバル情報を活用することができる。 多くの実際のテキスト分類アプリケーションは自然にグラフにキャストされ、単語、文書、コーパスのグローバル特徴をキャプチャする。 本稿では,コーパスレベルおよび文書レベルグラフニューラルネットワークを含む2023年までの手法について報告する。 グラフ構築機構とグラフに基づく学習プロセスについて,これらの手法について詳細に検討する。 技術調査に加えて,グラフニューラルネットワークを用いたテキスト分類における課題と今後の方向性についても検討する。 また、データセット、評価メトリクス、実験設計についても取り上げ、公開ベンチマークで公開されたパフォーマンスの概要を示す。 本調査では,異なる手法の総合的な比較を行い,様々な評価指標の長所と短所を同定する。

Text Classification is the most essential and fundamental problem in Natural Language Processing. While numerous recent text classification models applied the sequential deep learning technique, graph neural network-based models can directly deal with complex structured text data and exploit global information. Many real text classification applications can be naturally cast into a graph, which captures words, documents, and corpus global features. In this survey, we bring the coverage of methods up to 2023, including corpus-level and document-level graph neural networks. We discuss each of these methods in detail, dealing with the graph construction mechanisms and the graph-based learning process. As well as the technological survey, we look at issues behind and future directions addressed in text classification using graph neural networks. We also cover datasets, evaluation metrics, and experiment design and present a summary of published performance on the publicly available benchmarks. Note that we present a comprehensive comparison between different techniques and identify the pros and cons of various evaluation metrics in this survey.
翻訳日:2023-04-25 17:52:44 公開日:2023-04-23
# Bi-Level Attention Graph Neural Networks

Bi-Level Attention Graph Neural Networks ( http://arxiv.org/abs/2304.11533v1 )

ライセンス: Link先を確認
Roshni G. Iyer, Wei Wang, Yizhou Sun(参考訳) 注目機構を持つ最近のグラフニューラルネットワーク(GNN)は、歴史的に小規模同質グラフ(HoG)に限られてきた。 しかし、多元グラフ(HeGs)を扱うGNNにはいくつかのエンティティと関係型があり、すべて注意を処理するのに欠点がある。 HeGのグラフアテンションを学ぶほとんどのGNNはノードレベルか関係レベルのアテンションを学ぶが、両方ではなく、HeGの重要なエンティティとリレーションの両方を予測する能力を制限する。 両方の注意レベルを学習する最良の方法でさえ、グラフ関係が独立であると仮定する制限があり、その学習された注意はこの依存関係を無視している。 マルチリレーショナルかつマルチエンタリティな大規模HeGを効果的にモデル化するために,新しい2レベルグラフアテンション機構を用いたBA-GNN(Bi-Level Attention Graph Neural Networks)を提案する。 BA-GNNは、グローバルグラフコンテキストの代わりに、局所的な近傍コンテキストからの両方の情報に階層的に参加することにより、ノードノードと関係関係関係の相互作用をパーソナライズした方法でモデル化する。 7つの実世界のHeGの厳密な実験は、BA-GNNが全てのベースラインを一貫して上回り、学習された関係レベルの注意の質と伝達性を示し、他のGNNの性能を向上させる。

Recent graph neural networks (GNNs) with the attention mechanism have historically been limited to small-scale homogeneous graphs (HoGs). However, GNNs handling heterogeneous graphs (HeGs), which contain several entity and relation types, all have shortcomings in handling attention. Most GNNs that learn graph attention for HeGs learn either node-level or relation-level attention, but not both, limiting their ability to predict both important entities and relations in the HeG. Even the best existing method that learns both levels of attention has the limitation of assuming graph relations are independent and that its learned attention disregards this dependency association. To effectively model both multi-relational and multi-entity large-scale HeGs, we present Bi-Level Attention Graph Neural Networks (BA-GNN), scalable neural networks (NNs) that use a novel bi-level graph attention mechanism. BA-GNN models both node-node and relation-relation interactions in a personalized way, by hierarchically attending to both types of information from local neighborhood contexts instead of the global graph context. Rigorous experiments on seven real-world HeGs show BA-GNN consistently outperforms all baselines, and demonstrate quality and transferability of its learned relation-level attention to improve performance of other GNNs.
翻訳日:2023-04-25 17:52:29 公開日:2023-04-23
# 一般化シンドローム計測による量子誤差検出

Quantum Error Detection with Generalized Syndrome Measurement ( http://arxiv.org/abs/2304.11532v1 )

ライセンス: Link先を確認
Yunzhe Zheng and Keita Kanno(参考訳) 量子エラー検出は、初期のフォールトトレラント量子ハードウェアに実験的に焦点を当てている。 しかし、症状を抽出するためには複数の中回路計測が必要であり、読み出しノイズは状態の不忠実性に寄与する。 本稿では, 量子誤差検出のための一般化シンドローム測定という新しい手法を提案する。この手法では1つのアンシラに対して単発計測のみが必要であり, 標準シンドローム測定では安定化器発生器ごとにシンドロームを抽出するために複数回計測する必要がある。 本手法は,ゲートの複雑さに耐えうるオーバーヘッドを有する単発計測を用いて,読み出し雑音を最小化する。 我々は,[4, 2, 2] と[5, 1, 3] の符号を現実的な雑音下でシミュレートし,ゲートエラーが読み出し誤差よりも比較的小さい場合の正準法よりも優れていることを示す。 中間回路の計測は、短期的なスケーラブルな量子ハードウェアにコストがかかるため、初期のフォールトトレラント量子コンピューティングの発展を著しく促進することができる。

Quantum error detection has been an experimental focus on early fault-tolerant quantum hardware. However, it requires multiple mid-circuit measurements to extract the syndrome and the readout-induced noise acts as a main contribution to the state infidelity. We present a novel method named Generalized Syndrome Measurement for quantum error detection that only requires a single-shot measurement on a single ancilla, while the canonical syndrome measurement needs to measure multiple times to extract the syndrome for each stabilizer generator. Our method minimizes the readout-induced noise by using single-shot measurements with a tolerable overhead on the gate complexity. We simulated the performance of our method using [[4, 2, 2]] and [[5, 1, 3]] code under realistic noise, and our method outperforms the canonical method when the gate error is comparatively small than the readout error. As mid-circuit measurements are more costly for various kinds of near-term scalable quantum hardware, our method can significantly boost the development of early fault-tolerant quantum computing.
翻訳日:2023-04-25 17:52:05 公開日:2023-04-23
# 倫理的・哲学的原理による信頼できる医療人工知能の確立

Ensuring Trustworthy Medical Artificial Intelligencethrough Ethical and Philosophical Principles ( http://arxiv.org/abs/2304.11530v1 )

ライセンス: Link先を確認
Debesh Jha, Ashish Rauniyar, Abhiskek Srivastava, Desta Haileselassie Hagos, Nikhil Kumar Tomar, Vanshali Sharma, Elif Keles, Zheyuan Zhang, Ugur Demir, Ahmet Topcu, Anis Yazidi, Jan Erik Hakegard and Ulas BagciJan Erik H{\aa}akeg{\aa}rd, and Ulas Bagci(参考訳) 人工知能(AI)手法は、医療専門家や患者の経験を高めることで、多くの医療に革命をもたらす可能性がある。 aiベースのコンピュータ支援診断ツールは、臨床専門家のレベルに匹敵する能力や性能を発揮できれば、非常に有益である。 その結果、先進的な医療サービスは発展途上国では手頃な価格で提供でき、専門医の欠如の問題にも対処できる。 AIベースのツールは、患者の治療の時間、リソース、全体的なコストを節約できる。 さらに、人間とは対照的に、AIは大量の入力からデータの複雑な関係を明らかにし、医学における新たなエビデンスベースの知識へと導くことができる。 しかし、医療におけるAIの統合は、バイアス、透明性、自律性、責任、説明責任など、いくつかの倫理的および哲学的な懸念を提起する。 本稿では、AIを用いた医療画像分析の最近の進歩、既存の標準、および臨床現場におけるAIの応用のための倫理的問題やベストプラクティスを理解することの重要性を強調する。 我々は、AIの技術的および倫理的課題と、病院や公共機関にAIを配置することの意味について取り上げる。 また、倫理的課題、データ不足、人種的バイアス、透明性の欠如、アルゴリズム的バイアスに対処するための重要な手段と手法についても論じる。 最後に、私たちは、医療アプリケーションにおけるAIに関連する倫理的課題に対処するための推奨事項と今後の方向性を提供し、このワークフローをより効率的に、正確で、アクセス可能で、透明で、世界中の患者に信頼できるものにするために、AIを臨床環境にデプロイすることを目的としています。

Artificial intelligence (AI) methods have great potential to revolutionize numerous medical care by enhancing the experience of medical experts and patients. AI based computer-assisted diagnosis tools can have a tremendous benefit if they can outperform or perform similarly to the level of a clinical expert. As a result, advanced healthcare services can be affordable in developing nations, and the problem of a lack of expert medical practitioners can be addressed. AI based tools can save time, resources, and overall cost for patient treatment. Furthermore, in contrast to humans, AI can uncover complex relations in the data from a large set of inputs and even lead to new evidence-based knowledge in medicine. However, integrating AI in healthcare raises several ethical and philosophical concerns, such as bias, transparency, autonomy, responsibility and accountability, which must be addressed before integrating such tools into clinical settings. In this article, we emphasize recent advances in AI-assisted medical image analysis, existing standards, and the significance of comprehending ethical issues and best practices for the applications of AI in clinical settings. We cover the technical and ethical challenges of AI and the implications of deploying AI in hospitals and public organizations. We also discuss promising key measures and techniques to address the ethical challenges, data scarcity, racial bias, lack of transparency, and algorithmic bias. Finally, we provide our recommendation and future directions for addressing the ethical challenges associated with AI in healthcare applications, with the goal of deploying AI into the clinical settings to make the workflow more efficient, accurate, accessible, transparent, and reliable for the patient worldwide.
翻訳日:2023-04-25 17:51:47 公開日:2023-04-23
# 胸部X線高能率視覚変換器と消化管画像分類

Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image Classification ( http://arxiv.org/abs/2304.11529v1 )

ライセンス: Link先を確認
Smriti Regmi, Aliza Subedi, Ulas Bagci, Debesh Jha(参考訳) 医学画像解析は、早期疾患の診断や治療など、様々な臨床応用で有用であるため、ホットな研究テーマである。 畳み込みニューラルネットワーク(CNN)は、利用可能なデータセットから複雑な特徴を学習できるため、医療画像解析タスクにおいてデファクトスタンダードになっている。 CNNに加えて、トランスフォーマーアーキテクチャは医療画像解析タスクでも人気を博している。 しかし、この分野の進展にもかかわらず、改善の余地はまだある。 本研究では,様々なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。 異なるモダリティから3つの医用画像データセットを用いて評価を行った。 視覚トランスフォーマーモデルとsof-the-art (sota) プレトレーニングcnnネットワークの性能を評価し比較した。 胸部x線では,視差トランスフォーマーモデルが0.9532点,リコール0.9533点,マシューズ相関係数(mcc)0.09259点,roc-aucスコア0.97点であった。 同様に、Kvasirデータセットでは、F1スコアが0.9436、リコールが0.9437、MCCが0.9360、ROC-AUCスコアが0.97に達した。 Kvasir-Capsule(大規模なVCEデータセット)では、VTモデルは重み付きF1スコア0.7156、リコール0.7182、MCC0.3705、ROC-AUCスコア0.57を達成した。 その結果,様々な解剖学的構造,所見,異常の分類において,トランスフォーマモデルの方がcnnモデルより優れているかより効果的であることが判明した。 提案手法はCNNに基づくアプローチよりも改善され,アルゴリズム開発のための新しいベンチマークアルゴリズムとして利用できる可能性が示唆された。

Medical image analysis is a hot research topic because of its usefulness in different clinical applications, such as early disease diagnosis and treatment. Convolutional neural networks (CNNs) have become the de-facto standard in medical image analysis tasks because of their ability to learn complex features from the available datasets, which makes them surpass humans in many image-understanding tasks. In addition to CNNs, transformer architectures also have gained popularity for medical image analysis tasks. However, despite progress in the field, there are still potential areas for improvement. This study uses different CNNs and transformer-based methods with a wide range of data augmentation techniques. We evaluated their performance on three medical image datasets from different modalities. We evaluated and compared the performance of the vision transformer model with other state-of-the-art (SOTA) pre-trained CNN networks. For Chest X-ray, our vision transformer model achieved the highest F1 score of 0.9532, recall of 0.9533, Matthews correlation coefficient (MCC) of 0.9259, and ROC-AUC score of 0.97. Similarly, for the Kvasir dataset, we achieved an F1 score of 0.9436, recall of 0.9437, MCC of 0.9360, and ROC-AUC score of 0.97. For the Kvasir-Capsule (a large-scale VCE dataset), our ViT model achieved a weighted F1-score of 0.7156, recall of 0.7182, MCC of 0.3705, and ROC-AUC score of 0.57. We found that our transformer-based models were better or more effective than various CNN models for classifying different anatomical structures, findings, and abnormalities. Our model showed improvement over the CNN-based approaches and suggests that it could be used as a new benchmarking algorithm for algorithm development.
翻訳日:2023-04-25 17:51:18 公開日:2023-04-23
# 正確な説明可能な対話型推薦のための3つの構造情報モデリング

Triple Structural Information Modelling for Accurate, Explainable and Interactive Recommendation ( http://arxiv.org/abs/2304.11528v1 )

ライセンス: Link先を確認
Jiahao Liu, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Li Shang and Ning Gu(参考訳) 動的相互作用グラフでは、ユーザ-itemの相互作用は、通常、ユーザ-itemの共起、ユーザインタラクションのシーケンシャルな情報、アイテムペアの遷移確率など、異なる構造情報で表される異種パターンに従う。 しかし,既存の手法では3つの構造情報を同時に活用することはできない。 そこで本研究では,動的相互作用グラフの精度,説明性,インタラクティブな3重構造情報モデリング手法であるTriSIM4Recを提案する。 具体的には、TriSIM4Recは 1) インクリメンタル特異値分解(SVD)により実装されたユーザ・イテム相互作用における共起情報を動的にマイニングする動的イデアルローパスグラフフィルタ。 2) ユーザインタラクションのシーケンシャル情報を効果的かつ効率的に取得するパラメータフリーアテンションモジュール 3)アイテムの遷移行列は、アイテムペアの遷移確率を保存する。 そして、3つの構造情報ソースからの予測を融合させ、最終的な推薦結果を得る。 SVDベースと最近登場したグラフ信号処理(GSP)ベースの協調フィルタリング手法の関係を解析することにより,SVDの本質は理想的な低域グラフフィルタであり,TriSIM4Recの関心ベクトル空間を拡張して説明可能な対話的なレコメンデーションを実現し,ユーザが積極的に情報ココロンを分解できるようにする。 6つの公開データセットの実験では、正確性、説明可能性、相互作用性においてTriSIM4Recの有効性が示された。

In dynamic interaction graphs, user-item interactions usually follow heterogeneous patterns, represented by different structural information, such as user-item co-occurrence, sequential information of user interactions and the transition probabilities of item pairs. However, the existing methods cannot simultaneously leverage all three structural information, resulting in suboptimal performance. To this end, we propose TriSIM4Rec, a triple structural information modeling method for accurate, explainable and interactive recommendation on dynamic interaction graphs. Specifically, TriSIM4Rec consists of 1) a dynamic ideal low-pass graph filter to dynamically mine co-occurrence information in user-item interactions, which is implemented by incremental singular value decomposition (SVD); 2) a parameter-free attention module to capture sequential information of user interactions effectively and efficiently; and 3) an item transition matrix to store the transition probabilities of item pairs. Then, we fuse the predictions from the triple structural information sources to obtain the final recommendation results. By analyzing the relationship between the SVD-based and the recently emerging graph signal processing (GSP)-based collaborative filtering methods, we find that the essence of SVD is an ideal low-pass graph filter, so that the interest vector space in TriSIM4Rec can be extended to achieve explainable and interactive recommendation, making it possible for users to actively break through the information cocoons. Experiments on six public datasets demonstrated the effectiveness of TriSIM4Rec in accuracy, explainability and interactivity.
翻訳日:2023-04-25 17:50:46 公開日:2023-04-23
# 深層補強学習による流体ピンボールの流体力制御

How to Control Hydrodynamic Force on Fluidic Pinball via Deep Reinforcement Learning ( http://arxiv.org/abs/2304.11526v1 )

ライセンス: Link先を確認
Haodong Feng, Yue Wang, Hui Xiang, Zhiyang Jin, Dixia Fan(参考訳) 混合流体力学問題に対する自己学習とデータ駆動状態推定の有効性から,一様流中の3つの個別回転シリンダを正三角形に配置した流体球用深層強化学習(drl)により,効率的な流れ制御戦略を学習できる。 本研究では, 液状ピンボールの流体力, すなわち, シリンダーの回転から最大力と追従力を制御するためのDRLに基づくリアルタイムフィードバック戦略を提案する。 報酬関数を適切に設計し、歴史的観察をエンコードし、何千回ものイテレーションの自動学習の後、drlベースの制御は、長いブルートフォース探索で見いだされた最適方針に匹敵する、非パラメトリック制御パラメータ空間において合理的かつ有効な制御決定を行うことが示された。 その後、これらの結果の1つは、力追跡プロセスの意思決定と物理的メカニズムに基づいて光を当てることができる機械学習モデルによって分析された。 この研究から得られた流体力学的力は、流体ピンボール系の動作を制御でき、他の複雑な流体力学問題における効率的なアクティブフロー制御戦略を探索する道を開く可能性がある。

Deep reinforcement learning (DRL) for fluidic pinball, three individually rotating cylinders in the uniform flow arranged in an equilaterally triangular configuration, can learn the efficient flow control strategies due to the validity of self-learning and data-driven state estimation for complex fluid dynamic problems. In this work, we present a DRL-based real-time feedback strategy to control the hydrodynamic force on fluidic pinball, i.e., force extremum and tracking, from cylinders' rotation. By adequately designing reward functions and encoding historical observations, and after automatic learning of thousands of iterations, the DRL-based control was shown to make reasonable and valid control decisions in nonparametric control parameter space, which is comparable to and even better than the optimal policy found through lengthy brute-force searching. Subsequently, one of these results was analyzed by a machine learning model that enabled us to shed light on the basis of decision-making and physical mechanisms of the force tracking process. The finding from this work can control hydrodynamic force on the operation of fluidic pinball system and potentially pave the way for exploring efficient active flow control strategies in other complex fluid dynamic problems.
翻訳日:2023-04-25 17:50:18 公開日:2023-04-23
# 不均一テキスト要約のための勾配変調による個人化フェデレーション学習

Personalized Federated Learning via Gradient Modulation for Heterogeneous Text Summarization ( http://arxiv.org/abs/2304.11524v1 )

ライセンス: Link先を確認
Rongfeng Pan, Jianzong Wang, Lingwei Kong, Zhangcheng Huang, Jing Xiao(参考訳) テキスト要約は情報集約に不可欠であり、大量のトレーニングデータを要求する。 しかし、データのプライバシとセキュリティに関する懸念はデータ収集とモデルのトレーニングを制限する。 この懸念を解消するために,ユーザが生データを共有せずに協調学習方法でグローバルモデルを共有することのできる,連合学習テキスト要約方式を提案する。 パーソナライズド・フェデレーション・ラーニング(PFL)は、グローバルモデルを最適化する過程でパーソナライズと一般化のバランスをとり、ローカルモデルのトレーニングを指導する。 しかし、複数のローカルデータはセマンティクスとコンテキストの分布が異なるため、局所的なモデルが意味や文脈の情報から逸脱する可能性がある。 本稿では,局所モデルに対してより適切な局所パラメータを提供する動的勾配アダプタであるFedSUMMを提案する。 同時に、FedSUMMは分散トレーニング中にパラメータリークを防止するために差分プライバシーを使用する。 実験的なエビデンスにより,FedSUMMはタスク固有のテキスト要約のためのPFLアルゴリズム上でより高速なモデル収束を実現することができ,テキスト要約のための様々な最適化指標に対して優れた性能を実現する。

Text summarization is essential for information aggregation and demands large amounts of training data. However, concerns about data privacy and security limit data collection and model training. To eliminate this concern, we propose a federated learning text summarization scheme, which allows users to share the global model in a cooperative learning manner without sharing raw data. Personalized federated learning (PFL) balances personalization and generalization in the process of optimizing the global model, to guide the training of local models. However, multiple local data have different distributions of semantics and context, which may cause the local model to learn deviated semantic and context information. In this paper, we propose FedSUMM, a dynamic gradient adapter to provide more appropriate local parameters for local model. Simultaneously, FedSUMM uses differential privacy to prevent parameter leakage during distributed training. Experimental evidence verifies FedSUMM can achieve faster model convergence on PFL algorithm for task-specific text summarization, and the method achieves superior performance for different optimization metrics for text summarization.
翻訳日:2023-04-25 17:49:57 公開日:2023-04-23
# TransFlow: フロー学習者としてのトランスフォーマー

TransFlow: Transformer as Flow Learner ( http://arxiv.org/abs/2304.11523v1 )

ライセンス: Link先を確認
Yawen Lu, Qifan Wang, Siqi Ma, Tong Geng, Yingjie Victor Chen, Huaijin Chen, and Dongfang Liu(参考訳) 光の流れは、運動推定、物体追跡、異質度測定など、様々な重要なコンピュータビジョンタスクに必要なビルディングブロックである。 本稿では,光フロー推定のためのトランストランスアーキテクチャであるtransflowを提案する。 CNNベースのメソッドと比較して、TransFlowには3つの利点がある。 First, it provides more accurate correlation and trustworthy matching in flow estimation by utilizing spatial self-attention and cross-attention mechanisms between adjacent frames to effectively capture global dependencies; Second, it recovers more compromised information (e.g., occlusion and motion blur) in flow estimation through long-range temporal association in dynamic scenes; Third, it enables a concise self-learning paradigm and effectively eliminate the complex and laborious multi-stage pre-training procedures. 我々は、Sintel、KITTI-15、およびビデオオブジェクト検出、補間、安定化を含むいくつかの下流タスクの最先端結果を達成する。 その有効性のために、TransFlowが光フロー推定の柔軟なベースラインになることを期待しています。

Optical flow is an indispensable building block for various important computer vision tasks, including motion estimation, object tracking, and disparity measurement. In this work, we propose TransFlow, a pure transformer architecture for optical flow estimation. Compared to dominant CNN-based methods, TransFlow demonstrates three advantages. First, it provides more accurate correlation and trustworthy matching in flow estimation by utilizing spatial self-attention and cross-attention mechanisms between adjacent frames to effectively capture global dependencies; Second, it recovers more compromised information (e.g., occlusion and motion blur) in flow estimation through long-range temporal association in dynamic scenes; Third, it enables a concise self-learning paradigm and effectively eliminate the complex and laborious multi-stage pre-training procedures. We achieve the state-of-the-art results on the Sintel, KITTI-15, as well as several downstream tasks, including video object detection, interpolation and stabilization. For its efficacy, we hope TransFlow could serve as a flexible baseline for optical flow estimation.
翻訳日:2023-04-25 17:49:38 公開日:2023-04-23
# StyLess: 逆例の転送可能性を高める

StyLess: Boosting the Transferability of Adversarial Examples ( http://arxiv.org/abs/2304.11579v1 )

ライセンス: Link先を確認
Kaisheng Liang, Bin Xiao(参考訳) 敵対的攻撃は、良心的な例に知覚できない摂動を加えることによって、ディープニューラルネットワーク(DNN)を誤解させる可能性がある。 攻撃伝達性により、敵のサンプルが未知のアーキテクチャやパラメータを持つブラックボックスのDNNを攻撃できる。 既存の転送可能な攻撃は、最適化中のスタイルとコンテンツの特徴を区別せず、攻撃の転送可能性を制限する。 攻撃伝達性を向上させるために,スタイルレス摂動(StyLess)と呼ばれる新しい攻撃手法を提案する。 具体的には、サロゲートモデルとしてバニラネットワークを使用する代わりに、適応インスタンス正規化を摂動することで異なるスタイルの特徴を符号化するスタイリングネットワークを使うことを提唱する。 本手法は,非ロバスト型特徴を用いることを回避し,転置可能な摂動を生成するのに役立つ。 包括的実験により,本手法は逆例の伝達性を大幅に向上できることを示した。 さらに,本手法は汎用的であり,他の攻撃手法と組み合わせることで,最先端のトランスファー可能な攻撃よりも優れる。

Adversarial attacks can mislead deep neural networks (DNNs) by adding imperceptible perturbations to benign examples. The attack transferability enables adversarial examples to attack black-box DNNs with unknown architectures or parameters, which poses threats to many real-world applications. We find that existing transferable attacks do not distinguish between style and content features during optimization, limiting their attack transferability. To improve attack transferability, we propose a novel attack method called style-less perturbation (StyLess). Specifically, instead of using a vanilla network as the surrogate model, we advocate using stylized networks, which encode different style features by perturbing an adaptive instance normalization. Our method can prevent adversarial examples from using non-robust style features and help generate transferable perturbations. Comprehensive experiments show that our method can significantly improve the transferability of adversarial examples. Furthermore, our approach is generic and can outperform state-of-the-art transferable attacks when combined with other attack techniques.
翻訳日:2023-04-25 17:44:06 公開日:2023-04-23
# メタマルチグラフ検索:異種情報ネットワークにおけるメタ構造再考

Meta-multigraph Search: Rethinking Meta-structure on Heterogeneous Information Networks ( http://arxiv.org/abs/2304.11574v1 )

ライセンス: Link先を確認
Chao Li, Hao Xu, Kun He(参考訳) メタ構造は、ヘテロジニアス情報ネットワーク(hins)に情報を集約する隣のサブセットを定義するために広く使われている。 本研究では,メタパスやメタグラフなどの既存のメタ構造について検討し,当初は手動で固定パターンで設計されているため,多様なHINの多様なリッチなセマンティック情報をエンコードするには不十分であることを示す。 その制限を反映して,メタマルチグラフという新しい概念をメタグラフの表現的かつ柔軟な一般化として定義し,特定のHINやタスクに対して自動的にメタマルチグラフを最適化する安定な微分可能探索法を提案する。 メタマルチグラフの柔軟性は冗長メッセージを伝播する可能性があるため,さらに,複素対簡潔(C2C)メタマルチグラフを導入する。 さらに, 微分可能な探索は通常, 不安定な探索と, 探索と評価におけるメタ構造間の大きなギャップに苦しむ。 そこで本研究では,探索空間を暗黙的に狭め,探索安定性を向上し,一貫性を低下させるプログレッシブ検索アルゴリズムを提案する。 6つの中規模ベンチマークデータセットと、1つの大規模ベンチマークデータセットで、2つの代表的なタスク、すなわちノード分類とレコメンデーションに関する広範な実験が行われている。 実験の結果,提案手法は表現力に富むメタマルチグラフやc2cメタマルチグラフを自動的に発見できることがわかった。

Meta-structures are widely used to define which subset of neighbors to aggregate information in heterogeneous information networks (HINs). In this work, we investigate existing meta-structures, including meta-path and meta-graph, and observe that they are initially designed manually with fixed patterns and hence are insufficient to encode various rich semantic information on diverse HINs. Through reflection on their limitation, we define a new concept called meta-multigraph as a more expressive and flexible generalization of meta-graph, and propose a stable differentiable search method to automatically optimize the meta-multigraph for specific HINs and tasks. As the flexibility of meta-multigraphs may propagate redundant messages, we further introduce a complex-to-concise (C2C) meta-multigraph that propagates messages from complex to concise along the depth of meta-multigraph. Moreover, we observe that the differentiable search typically suffers from unstable search and a significant gap between the meta-structures in search and evaluation. To this end, we propose a progressive search algorithm by implicitly narrowing the search space to improve search stability and reduce inconsistency. Extensive experiments are conducted on six medium-scale benchmark datasets and one large-scale benchmark dataset over two representative tasks, i.e., node classification and recommendation. Empirical results demonstrate that our search methods can automatically find expressive meta-multigraphs and C2C meta-multigraphs, enabling our model to outperform state-of-the-art heterogeneous graph neural networks.
翻訳日:2023-04-25 17:43:50 公開日:2023-04-23
# ChatGPTと人文テキストの相違

Differentiate ChatGPT-generated and Human-written Medical Texts ( http://arxiv.org/abs/2304.11567v1 )

ライセンス: Link先を確認
Wenxiong Liao, Zhengliang Liu, Haixing Dai, Shaochen Xu, Zihao Wu, Yiyang Zhang, Xiaoke Huang, Dajiang Zhu, Hongmin Cai, Tianming Liu, Xiang Li(参考訳) 背景: ChatGPTのような大規模言語モデルは文法的に完璧で人間らしいテキストコンテンツを生成でき、インターネット上には多数のChatGPT生成テキストが出現している。 しかし、臨床ノートや診断などの医療用テキストは厳密な検証を必要とし、ChatGPTが生成した誤った医療内容は、医療や一般大衆に重大な害を与える偽情報をもたらす可能性がある。 目的:本研究は医学における責任と倫理的AIGC(Artificial Intelligence Generated Content)に関する最初の研究である。 本稿では,ChatGPTが生成した医療用テキストの違いを分析し,ChatGPTが生成した医療用テキストを効果的に検出・識別するための機械学習ワークフローを設計する。 方法: まず,ChatGPTで作成した人手による医療用テキストを含むデータセット群を構築した。 次のステップでは、これらの2種類の内容の言語的特徴を分析し、語彙、部分音声、依存性、感情、難易度などの違いを明らかにする。 最後に,ChatGPTが生成する医療テキストを検出する機械学習手法の設計と実装を行う。 結果: 人によって書かれた医療用テキストはより具体的で多様であり、典型的にはより有用な情報を含んでいるが、一方でChatGPTによって生成された医療用テキストは、流布や論理に注意を払っており、通常は問題の文脈に特有の効果的な情報ではなく、一般的な用語を表現している。 BERTベースのモデルは、ChatGPTによって生成された医療用テキストを効果的に検出でき、F1は95%を超える。

Background: Large language models such as ChatGPT are capable of generating grammatically perfect and human-like text content, and a large number of ChatGPT-generated texts have appeared on the Internet. However, medical texts such as clinical notes and diagnoses require rigorous validation, and erroneous medical content generated by ChatGPT could potentially lead to disinformation that poses significant harm to healthcare and the general public. Objective: This research is among the first studies on responsible and ethical AIGC (Artificial Intelligence Generated Content) in medicine. We focus on analyzing the differences between medical texts written by human experts and generated by ChatGPT, and designing machine learning workflows to effectively detect and differentiate medical texts generated by ChatGPT. Methods: We first construct a suite of datasets containing medical texts written by human experts and generated by ChatGPT. In the next step, we analyze the linguistic features of these two types of content and uncover differences in vocabulary, part-of-speech, dependency, sentiment, perplexity, etc. Finally, we design and implement machine learning methods to detect medical text generated by ChatGPT. Results: Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to fluency and logic, and usually express general terminologies rather than effective information specific to the context of the problem. A BERT-based model can effectively detect medical texts generated by ChatGPT, and the F1 exceeds 95%.
翻訳日:2023-04-25 17:43:20 公開日:2023-04-23
# オートエンコーダに基づくコンテンツ認識2次元表現による時系列の確率性同定:ブラックホールデータへの適用

Identifying Stochasticity in Time-Series with Autoencoder-Based Content-aware 2D Representation: Application to Black Hole Data ( http://arxiv.org/abs/2304.11560v1 )

ライセンス: Link先を確認
Chakka Sai Pradeep, Neelam Sinha(参考訳) 本研究では,自動エンコーダに基づく2次元表現を用いて,時系列を確率的あるいは非確率的に分類し,基礎となる物理過程を理解する。 時間領域と周波数領域の特性を同時に利用する1次元時系列から2次元表現へのコンテントアウェア変換を提案する。 オートエンコーダは、時間不変であるように設計された(時間領域と周波数領域の両方を使って)潜在空間の表現を学ぶために損失関数で訓練される。 時系列の各要素は、時間領域と周波数領域の潜在空間表現から2つの成分からなるタプルとして表現され、バイナリイメージを形成する。 このバイナリイメージでは、時系列のポイントを表すタプルが一緒に入力時系列の ` `Latent Space Signature" (LSS) を形成する。 得られたバイナリlss画像は分類ネットワークに供給される。 EfficientNetv2-S分類器は421の合成時系列を用いて訓練される。 提案手法は、RXTE衛星から得られた、ブラックホール GRS 1915 + 105 に関連する12の時間的クラスを持つ、公開可能な天文データに基づいて評価される。 提案手法を用いて得られた結果を既存の手法と比較する。 クラス全体で得られたラベルの一致は、潜在空間座標を用いた提案された2次元表現の有効性を示す。 提案手法は分類ラベルの信頼性も出力する。

In this work, we report an autoencoder-based 2D representation to classify a time-series as stochastic or non-stochastic, to understand the underlying physical process. Content-aware conversion of 1D time-series to 2D representation, that simultaneously utilizes time- and frequency-domain characteristics, is proposed. An autoencoder is trained with a loss function to learn latent space (using both time- and frequency domains) representation, that is designed to be, time-invariant. Every element of the time-series is represented as a tuple with two components, one each, from latent space representation in time- and frequency-domains, forming a binary image. In this binary image, those tuples that represent the points in the time-series, together form the ``Latent Space Signature" (LSS) of the input time-series. The obtained binary LSS images are fed to a classification network. The EfficientNetv2-S classifier is trained using 421 synthetic time-series, with fair representation from both categories. The proposed methodology is evaluated on publicly available astronomical data which are 12 distinct temporal classes of time-series pertaining to the black hole GRS 1915 + 105, obtained from RXTE satellite. Results obtained using the proposed methodology are compared with existing techniques. Concurrence in labels obtained across the classes, illustrates the efficacy of the proposed 2D representation using the latent space co-ordinates. The proposed methodology also outputs the confidence in the classification label.
翻訳日:2023-04-25 17:42:52 公開日:2023-04-23
# フレキシブルデュアルプレックスMIMOシステムにおけるRFチェイン特性を有するディジタルクロスリンク干渉キャンセラのための軽量機械学習

Lightweight Machine Learning for Digital Cross-Link Interference Cancellation with RF Chain Characteristics in Flexible Duplex MIMO Systems ( http://arxiv.org/abs/2304.11559v1 )

ライセンス: Link先を確認
Jing-Sheng Tan, Shaoshi Yang, Kuo Meng, Jianhua Zhang, Yurong Tang, Yan Bu, Guizhen Wang(参考訳) dynamic time-division duplex (d-tdd) や dynamic frequency-division duplex (d-fdd) を含むflexible duplex (fd) 技術は、5g-advancedまたは6gモバイル通信システムにおいてより柔軟なアップリンク/ダウンリンク伝送を実現するための有望なソリューションであると考えられている。 しかし、これは深刻なクロスリンク干渉(CLI)をもたらす可能性がある。 CLIの影響を緩和するために、まず、ハードウェアに依存しない非線形特性を示す無線周波数(RF)チェーン特性を取り入れた、より現実的なベースステーション(BS)-BSチャネルモデルを提案する。 次に、チャネルパラメータ推定に基づく多項式CLIキャンセラと、軽量フィードフォワードニューラルネットワーク(FNN)を用いた2つの機械学習CLIキャンセラを提案する。 シミュレーション結果と解析結果から,MLベースのCLIキャンセラは,多項式CLIキャンセラと比較して,顕著な性能向上と計算複雑性の劇的な低減を実現していることがわかった。

The flexible duplex (FD) technique, including dynamic time-division duplex (D-TDD) and dynamic frequency-division duplex (D-FDD), is regarded as a promising solution to achieving a more flexible uplink/downlink transmission in 5G-Advanced or 6G mobile communication systems. However, it may introduce serious cross-link interference (CLI). For better mitigating the impact of CLI, we first present a more realistic base station (BS)-to-BS channel model incorporating the radio frequency (RF) chain characteristics, which exhibit a hardware-dependent nonlinear property, and hence the accuracy of conventional channel modelling is inadequate for CLI cancellation. Then, we propose a channel parameter estimation based polynomial CLI canceller and two machine learning (ML) based CLI cancellers that use the lightweight feedforward neural network (FNN). Our simulation results and analysis show that the ML based CLI cancellers achieve notable performance improvement and dramatic reduction of computational complexity, in comparison with the polynomial CLI canceller.
翻訳日:2023-04-25 17:42:28 公開日:2023-04-23
# FAN-Net:クロスドメインストローク病変分割のためのフーリエベース適応正規化

FAN-Net: Fourier-Based Adaptive Normalization For Cross-Domain Stroke Lesion Segmentation ( http://arxiv.org/abs/2304.11557v1 )

ライセンス: Link先を確認
Weiyi Yu, Yiming Lei, Hongming Shan(参考訳) 脳卒中が脳血管疾患の主な原因であるため,MRI画像による深層学習による脳梗塞のセグメンテーションが注目されている。 しかし,既存の手法では,異なるサイトから収集したmr画像の領域シフトを無視することが多い。 この問題に対処するため,フーリエ変換の低周波振幅成分を適応的に変化させることにより,高レベルセマンティクスに影響を与えずにスタイル情報を変更し,異なる領域に対するモデルのロバスト性を向上させる。 そこで本研究では,Fourier-based Adaptive normalization (FAN)を組み込んだU-NetベースのセグメンテーションネットワークであるFAN-Netと,勾配反転層を持つドメイン分類器を提案する。 FANモジュールは、異なる領域の振幅成分に対する適応アフィンパラメータを学習するために調整されており、ソース画像のスタイル情報を動的に正規化することができる。 次に、ドメイン分類器はドメインに依存しない知識を提供し、FANを強いドメイン一般化性で支持する。 9地点のMR画像からなるATLASデータセットの実験結果は,ベースライン法と比較して提案したFAN-Netの優れた性能を示している。

Since stroke is the main cause of various cerebrovascular diseases, deep learning-based stroke lesion segmentation on magnetic resonance (MR) images has attracted considerable attention. However, the existing methods often neglect the domain shift among MR images collected from different sites, which has limited performance improvement. To address this problem, we intend to change style information without affecting high-level semantics via adaptively changing the low-frequency amplitude components of the Fourier transform so as to enhance model robustness to varying domains. Thus, we propose a novel FAN-Net, a U-Net--based segmentation network incorporated with a Fourier-based adaptive normalization (FAN) and a domain classifier with a gradient reversal layer. The FAN module is tailored for learning adaptive affine parameters for the amplitude components of different domains, which can dynamically normalize the style information of source images. Then, the domain classifier provides domain-agnostic knowledge to endow FAN with strong domain generalizability. The experimental results on the ATLAS dataset, which consists of MR images from 9 sites, show the superior performance of the proposed FAN-Net compared with baseline methods.
翻訳日:2023-04-25 17:42:04 公開日:2023-04-23
# DivideとPrompt: テキストからSQLへの思考プロンプトのチェーン

Divide and Prompt: Chain of Thought Prompting for Text-to-SQL ( http://arxiv.org/abs/2304.11556v1 )

ライセンス: Link先を確認
Xiping Liu and Zhao Tan(参考訳) CoT(Chain-of-Thought)は,大規模言語モデル(LLM)と組み合わせることで,複雑な推論タスクの促進的な結果が得られる。 text-to-sqlは、自然言語の質問をsql文に変換し、複雑な推論プロセスを含む重要な意味解析タスクである。 しかし、テキストからsqlへのタスクでllmの推論機能をアクティベートするために、cotプロンプトを使う作業はほとんどない。 本稿では,まずタスクをサブタスクに分割し,次にcotを通じて各サブタスクにアプローチする,テキストからsqlへのタスクを促す新しいパラダイムを提案する。 LLMのText-to-SQL機能を強化する3つのプロンプトベースの手法を提案する。 これらのプロンプトはllmsに、高い実行精度でテキストからsqlを生成するように誘導する。

Chain-of-thought (CoT) prompting combined with large language models (LLMs) have achieved encouraging results on complex reasoning tasks. Text-to-SQL is a critical semantic parsing task that converts natural language questions into SQL statements, involving a complex reasoning process. However, there is little work about using CoT prompting to activate LLM's reasoning capabilities on Text-to-SQL tasks. In this work, we propose a new paradigm for prompting Text-to-SQL tasks, called Divide-and-Prompt, which first divides the task into subtasks, and then approach each subtask through CoT. We present 3 prompting-based methods to enhance the Text-to-SQL ability of LLMs. Experiments show that these prompts guide LLMs to generate Text-to-SQL with higher execution accuracy.
翻訳日:2023-04-25 17:41:43 公開日:2023-04-23
# カメラのない分光感度推定

Spectral Sensitivity Estimation Without a Camera ( http://arxiv.org/abs/2304.11549v1 )

ライセンス: Link先を確認
Grigory Solomatov and Derya Akkaynak(参考訳) コンピュータビジョンや関連分野における多くの問題は、カメラのスペクトル感度が分かっていれば緩和される。 コンシューマーカメラは高精度な視覚タスクのために設計されていないため、メーカーはスペクトル感度を開示しない。 これらの推定にはコストのかかる光学的セットアップが必要であり、研究者はカラーターゲットを使用することでコストと複雑さを低減しようとする多数の間接的手法を考案した。 しかし、色標的を用いると、推定がより困難になる新しい複雑さが生じ、その結果、スペクトル感度推定のための単純で低コストで堅牢なゴート手法が存在しない。 さらに、ハードウェアやコストに制限されない場合でも、研究者はしばしば、所有していない複数のカメラの画像を扱う。 この問題に対する実用的な解法を提供するため,我々は,ハードウェアを必要とせず,カメラ自体への物理的アクセスも必要としないスペクトル感度推定の枠組みを提案する。 他の仕事と同様に、2項の目的関数を最小化する最適化問題を定式化する: 方程式系からのカメラ固有項と、解空間を束縛する普遍項である。 他の作業とは異なり、我々は両方の用語を構築するために利用可能な高品質な校正データを使用します。 我々はAdobe DNG Converterによって提供されるカラーマッピング行列を用いて、カメラ固有の方程式系を定式化し、地上構造曲線のデータベースでトレーニングされたオートエンコーダを用いて解を制約する。 平均して、同じカメラの2つのコピー間の不完全な製造により発生するものよりも、復元誤差が低い。 Adobe DNG Converterが現在サポートしている1000台以上のカメラに対して、予測された感度を提供し、カメラ応答が利用可能になったときに、どのタスクが簡単になるかについて議論する。

A number of problems in computer vision and related fields would be mitigated if camera spectral sensitivities were known. As consumer cameras are not designed for high-precision visual tasks, manufacturers do not disclose spectral sensitivities. Their estimation requires a costly optical setup, which triggered researchers to come up with numerous indirect methods that aim to lower cost and complexity by using color targets. However, the use of color targets gives rise to new complications that make the estimation more difficult, and consequently, there currently exists no simple, low-cost, robust go-to method for spectral sensitivity estimation. Furthermore, even if not limited by hardware or cost, researchers frequently work with imagery from multiple cameras that they do not have in their possession. To provide a practical solution to this problem, we propose a framework for spectral sensitivity estimation that not only does not require any hardware, but also does not require physical access to the camera itself. Similar to other work, we formulate an optimization problem that minimizes a two-term objective function: a camera-specific term from a system of equations, and a universal term that bounds the solution space. Different than other work, we use publicly available high-quality calibration data to construct both terms. We use the colorimetric mapping matrices provided by the Adobe DNG Converter to formulate the camera-specific system of equations, and constrain the solutions using an autoencoder trained on a database of ground-truth curves. On average, we achieve reconstruction errors as low as those that can arise due to manufacturing imperfections between two copies of the same camera. We provide predicted sensitivities for more than 1,000 cameras that the Adobe DNG Converter currently supports, and discuss which tasks can become trivial when camera responses are available.
翻訳日:2023-04-25 17:41:28 公開日:2023-04-23
# CANet: レーン検出のための適応デコーダ付きガイドラインネットワーク

CANet: Curved Guide Line Network with Adaptive Decoder for Lane Detection ( http://arxiv.org/abs/2304.11546v1 )

ライセンス: Link先を確認
Zhongyu Yang, Chen Shen, Wei Shao, Tengfei Xing, Runbo Hu, Pengfei Xu, Hua Chai and Ruini Xue(参考訳) 道路シナリオの複雑化と異なるカメラ視点からの線変形のため、車線検出は困難である。 多くの解決策が提案されたが、コーナーレーンにうまく対応できない。 この問題に対処するため,本研究では,新しいトップダウンディープラーニングレーン検出手法であるCANETを提案する。 大域的意味レベルでは、U字型曲面ガイド線上の熱マップによりレーンインスタンスを応答させ、各レーンの対応する特徴を応答点に集約する。 次にCANETは条件付き畳み込みによりレーン全体の熱マップ応答を取得し、最後に適応デコーダを介してレーンを記述するために設定された点をデコードする。 実験の結果、CANETは異なるメトリクスでSOTAに達することがわかった。 私たちのコードはまもなくリリースされます。

Lane detection is challenging due to the complicated on road scenarios and line deformation from different camera perspectives. Lots of solutions were proposed, but can not deal with corner lanes well. To address this problem, this paper proposes a new top-down deep learning lane detection approach, CANET. A lane instance is first responded by the heat-map on the U-shaped curved guide line at global semantic level, thus the corresponding features of each lane are aggregated at the response point. Then CANET obtains the heat-map response of the entire lane through conditional convolution, and finally decodes the point set to describe lanes via adaptive decoder. The experimental results show that CANET reaches SOTA in different metrics. Our code will be released soon.
翻訳日:2023-04-25 17:41:00 公開日:2023-04-23
# kbody:バランスのとれた単眼全身推定

KBody: Balanced monocular whole-body estimation ( http://arxiv.org/abs/2304.11542v1 )

ライセンス: Link先を確認
Nikolaos Zioulis and James F. O'Brien(参考訳) KBodyは、低次元のボディモデルを画像に適合させる方法である。 予測と最適化のアプローチに従い、体のパラメータの解決に使用される制約のためにデータ駆動モデル見積に依存する。 他のアプローチと比較して、より高品質な対応を識別するための仮想ジョイントを導入し、ポーズと形状パラメータの最適化を分離し、ポーズと形状キャプチャ能力、およびピクセルアライメントの観点からよりバランスの取れた結果を達成する。

KBody is a method for fitting a low-dimensional body model to an image. It follows a predict-and-optimize approach, relying on data-driven model estimates for the constraints that will be used to solve for the body's parameters. Compared to other approaches, it introduces virtual joints to identify higher quality correspondences and disentangles the optimization between the pose and shape parameters to achieve a more balanced result in terms of pose and shape capturing capacity, as well as pixel alignment.
翻訳日:2023-04-25 17:40:48 公開日:2023-04-23
# PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ

PiClick: Picking the desired mask in click-based interactive segmentation ( http://arxiv.org/abs/2304.11609v1 )

ライセンス: Link先を確認
Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves(参考訳) クリックベースのインタラクティブセグメンテーションは、単純なユーザクリックで生産的なピクセルレベルのアノテーションと画像編集を可能にするが、ターゲットの曖昧さは正確なセグメンテーションを妨げる問題である。 つまり、リッチなコンテキストを持つシーンでは、1クリックで対応するマスクに存在する複数の潜在的なターゲットを参照でき、ほとんどのインタラクティブなセグメンタは1つのマスクしか生成できず、リッチなコンテキストをキャプチャできない。 目的のあいまいさを解決するために,意味的に多様化したマスクを生成するためにPiClickを提案する。 piclickは、相互に対話的なマスククエリを統合してターゲットプリエントを注入するトランスフォーマーネットワーク設計を利用している。 さらに、Target Reasoning ModuleはPiClickで設計されており、すべての提案からベストマッチマスクを自動的に示唆し、ターゲットの曖昧さと追加の人間の介入を著しく軽減する。 9つのインタラクティブセグメンテーションデータセットで行った広範囲な実験は、piclickの最先端セグメンテーション性能を示すだけでなく、複数の提案生成とターゲット推論による人間の介入を減らす。 直接の使用と今後の取り組みを促進するため、PicClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールとともにリリースします。

Click-based interactive segmentation enables productive pixel-level annotation and image editing with simple user clicks, whereas target ambiguity remains a problem hindering precise segmentation. That is, in scenes with rich context, one click may refer to multiple potential targets residing in corresponding masks, while most interactive segmentors can only generate one single mask and fail to capture the rich context. To resolve target ambiguity, we here propose PiClick to produce semantically diversified masks. PiClick leverages a transformer network design wherein mutually interactive mask queries are integrated to infuse target priors. Moreover, a Target Reasoning Module is designed in PiClick to automatically imply the best-matched mask from all proposals, significantly relieving target ambiguity as well as extra human intervention. Extensive experiments conducted on all 9 interactive segmentation datasets not only demonstrate the state-of-the-art segmentation performance of PiClick, but also reduces human interventions with multiple proposal generation and target reasoning. To promote direct usage and future endeavors, we release the source code of PiClick together with a plug-and-play annotation tool at https://github.com/cilinyan/PiClick.
翻訳日:2023-04-25 17:35:17 公開日:2023-04-23
# LaMD:ビデオ生成のための遅延モーション拡散

LaMD: Latent Motion Diffusion for Video Generation ( http://arxiv.org/abs/2304.11603v1 )

ライセンス: Link先を確認
Yaosi Hu, Zhenzhong Chen, Chong Luo(参考訳) コヒーレントで自然な動きを生み出すことが、ビデオ生成の鍵となる課題である。 本研究は,映像生成をモーション生成の問題に凝縮させ,映像の表現性を向上し,映像生成をより管理可能にすることを提案する。 これは、ビデオ生成プロセスを潜在運動生成とビデオ再構成に分解することで実現できる。 本稿では、このアイデアを実現するために、動画自動エンコーダと拡散に基づくモーションジェネレータからなる潜時移動拡散(LaMD)フレームワークを提案する。 注意深い設計により、モーション分解されたビデオオートエンコーダは、動きのパターンを簡潔な潜伏運動表現に圧縮することができる。 一方、拡散に基づく運動生成器は、画像拡散モデルに類似したコストで、多モード条件下で連続潜時空間上の現実的な動きを効率的に生成することができる。 その結果、LaMDは確率力学から高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。 BAIR、ランドスケープ、CATER-GENsなどのベンチマークデータセットで、イメージ・トゥ・ビデオ(I2V)とテキスト・イメージ・トゥ・ビデオ(TI2V)生成のための新しい最先端のパフォーマンスを実現する。 LaMDのソースコードは近く公開される予定だ。

Generating coherent and natural movement is the key challenge in video generation. This research proposes to condense video generation into a problem of motion generation, to improve the expressiveness of motion and make video generation more manageable. This can be achieved by breaking down the video generation process into latent motion generation and video reconstruction. We present a latent motion diffusion (LaMD) framework, which consists of a motion-decomposed video autoencoder and a diffusion-based motion generator, to implement this idea. Through careful design, the motion-decomposed video autoencoder can compress patterns in movement into a concise latent motion representation. Meanwhile, the diffusion-based motion generator is able to efficiently generate realistic motion on a continuous latent space under multi-modal conditions, at a cost that is similar to that of image diffusion models. Results show that LaMD generates high-quality videos with a wide range of motions, from stochastic dynamics to highly controllable movements. It achieves new state-of-the-art performance on benchmark datasets, including BAIR, Landscape and CATER-GENs, for Image-to-Video (I2V) and Text-Image-to-Video (TI2V) generation. The source code of LaMD will be made available soon.
翻訳日:2023-04-25 17:34:53 公開日:2023-04-23
# 反復グラフ微細化によるプロトタイプベースラベル伝搬によるトランスダクティブ・マイトショット学習

Transductive Few-shot Learning with Prototype-based Label Propagation by Iterative Graph Refinement ( http://arxiv.org/abs/2304.11598v1 )

ライセンス: Link先を確認
Hao Zhu and Piotr Koniusz(参考訳) FSL(Few-shot Learning)は、新しいクラスに適応できることから人気がある。 インダクティブな少数ショット学習と比較して、トランスダクティブモデルは通常、クエリセットのすべてのサンプルを活用することでパフォーマンスが向上する。 プロトタイプベースとグラフベースという2つの既存の手法は、それぞれカーネル関数を用いた不正確なプロトタイプ推定と準最適グラフ構築の欠点がある。 本稿では,これらの問題を解決するために,新しいプロトタイプベースラベル伝搬を提案する。 具体的には, このグラフ構造は, サンプル間の関係ではなく, プロトタイプとサンプルの関係に基づいている。 プロトタイプが更新されると、グラフは変わる。 また,プロトタイプをクラスセンタとして考えるのではなく,各プロトタイプのラベルを推定する。 ミニイメージネット, タイレッドイメージネット, CIFAR-FS および CUB データセットにおいて, 提案手法は, 未ラベルデータの一部が新規な複数ショットタスクに付随する場合に, トランスダクティブ FSL および半教師付き FSL において他の最先端手法よりも優れていることを示す。

Few-shot learning (FSL) is popular due to its ability to adapt to novel classes. Compared with inductive few-shot learning, transductive models typically perform better as they leverage all samples of the query set. The two existing classes of methods, prototype-based and graph-based, have the disadvantages of inaccurate prototype estimation and sub-optimal graph construction with kernel functions, respectively. In this paper, we propose a novel prototype-based label propagation to solve these issues. Specifically, our graph construction is based on the relation between prototypes and samples rather than between samples. As prototypes are being updated, the graph changes. We also estimate the label of each prototype instead of considering a prototype be the class centre. On mini-ImageNet, tiered-ImageNet, CIFAR-FS and CUB datasets, we show the proposed method outperforms other state-of-the-art methods in transductive FSL and semi-supervised FSL when some unlabeled data accompanies the novel few-shot task.
翻訳日:2023-04-25 17:34:32 公開日:2023-04-23
# 画像分類のための部分相関に基づく深層視覚表現の学習

Learning Partial Correlation based Deep Visual Representation for Image Classification ( http://arxiv.org/abs/2304.11597v1 )

ライセンス: Link先を確認
Saimunur Rahman and Piotr Koniusz and Lei Wang and Luping Zhou and Peyman Moghadam or Changming Sun(参考訳) 共分散行列に基づく視覚表現は、畳み込み特徴写像における異なるチャネルのペア関係を特徴付けることにより、画像分類の有効性を示す。 しかし、一方の相関関係は、興味のある両方のチャネルに関連付けられた別のチャネルが存在すると誤解され、 ``confounding'' 効果をもたらす。 この場合、共起効果を除去する ``partial correlation'' を代わりに推定する。 それでも、偏相関を確実に推定するには対称正定値行列最適化(sparse inverse covariance Estimation, SICE)を解く必要がある。 このプロセスをCNNに組み込む方法はまだオープンな問題である。 本研究では,CNNの新規構造層としてSICEを定式化する。 エンドツーエンドのトレーサビリティを確保するために,上述の行列最適化を前方および後方伝播ステップで解く反復法を開発した。 本研究は,cnn における共分散行列推定によって発生する小さなサンプル問題を軽減し,部分相関に基づく深部視覚表現を得る。 計算学的には、我々のモデルはGPUで効果的に訓練でき、先進的なCNNの多数のチャネルでうまく機能する。 実験では,共分散行列に基づく表現と比較して,深い視覚表現の有効性と優れた分類性能を示す。

Visual representation based on covariance matrix has demonstrates its efficacy for image classification by characterising the pairwise correlation of different channels in convolutional feature maps. However, pairwise correlation will become misleading once there is another channel correlating with both channels of interest, resulting in the ``confounding'' effect. For this case, ``partial correlation'' which removes the confounding effect shall be estimated instead. Nevertheless, reliably estimating partial correlation requires to solve a symmetric positive definite matrix optimisation, known as sparse inverse covariance estimation (SICE). How to incorporate this process into CNN remains an open issue. In this work, we formulate SICE as a novel structured layer of CNN. To ensure end-to-end trainability, we develop an iterative method to solve the above matrix optimisation during forward and backward propagation steps. Our work obtains a partial correlation based deep visual representation and mitigates the small sample problem often encountered by covariance matrix estimation in CNN. Computationally, our model can be effectively trained with GPU and works well with a large number of channels of advanced CNNs. Experiments show the efficacy and superior classification performance of our deep visual representation compared to covariance matrix based counterparts.
翻訳日:2023-04-25 17:34:13 公開日:2023-04-23
# 非ユークリッド領域におけるあらゆるセグメント:挑戦と機会

Segment Anything in Non-Euclidean Domains: Challenges and Opportunities ( http://arxiv.org/abs/2304.11595v1 )

ライセンス: Link先を確認
Yongcheng Jing, Xinchao Wang, Dacheng Tao(参考訳) Segment Anything (SA)として知られる最近の研究は、セマンティックセグメンテーションの境界を基礎モデルの時代に押し上げることに大きく貢献している。 SAの影響は極めて活発な議論を巻き起こし、ユークリッド領域における様々なタスク、例えば物体検出や画像のインパインティングのための基礎モデルの開発を奨励する新たな波に繋がった。 SAによる有望な進歩にもかかわらず、この概念はまだ非ユークリッドグラフ領域に拡張されていない。 本稿では,非ユークリッド領域における多種多様なグラフデータを扱う基盤モデルの構築を目指すSegment Non-Euclidean Anything(SNA)パラダイムについて検討する。 この目的を達成するために、我々はSAに関連する基礎モデルにおける最近の成果について議論することから始める。 次に、データとタスクの両方の観点からユークリッドと非ユークリッドのドメインの違いを理解することを含む、SAの概念をグラフ解析に適用する際に生じる、ユニークな課題を取り上げました。 これらの観測により,SNAの課題に対処し,それらの限界を詳述する予備的解決策がいくつか提示され,今後のSNA研究の道を開くためのいくつかの潜在的方向が提示される。 グラフプロパティの分類と回帰、マルチラベル予測を含む5つのタスクにわたるOpen Graph Benchmark(OGB)データセットの実験は、単純なSNAソリューションのパフォーマンスが改善の余地があることを示し、グラフ汎用インテリジェンス(Graph General Intelligence)の今後の探索の道筋を示す。

The recent work known as Segment Anything (SA) has made significant strides in pushing the boundaries of semantic segmentation into the era of foundation models. The impact of SA has sparked extremely active discussions and ushered in an encouraging new wave of developing foundation models for the diverse tasks in the Euclidean domain, such as object detection and image inpainting. Despite the promising advances led by SA, the concept has yet to be extended to the non-Euclidean graph domain. In this paper, we explore a novel Segment Non-Euclidean Anything (SNA) paradigm that strives to develop foundation models that can handle the diverse range of graph data within the non-Euclidean domain, seeking to expand the scope of SA and lay the groundwork for future research in this direction. To achieve this goal, we begin by discussing the recent achievements in foundation models associated with SA. We then shed light on the unique challenges that arise when applying the SA concept to graph analysis, which involves understanding the differences between the Euclidean and non-Euclidean domains from both the data and task perspectives. Motivated by these observations, we present several preliminary solutions to tackle the challenges of SNA and detail their corresponding limitations, along with several potential directions to pave the way for future SNA research. Experiments on five Open Graph Benchmark (OGB) datasets across various tasks, including graph property classification and regression, as well as multi-label prediction, demonstrate that the performance of the naive SNA solutions has considerable room for improvement, pointing towards a promising avenue for future exploration of Graph General Intelligence.
翻訳日:2023-04-25 17:33:54 公開日:2023-04-23
# システムIII:安全制約のためのドメイン知識による学習

System III: Learning with Domain Knowledge for Safety Constraints ( http://arxiv.org/abs/2304.11593v1 )

ライセンス: Link先を確認
Fazl Barez, Hosien Hasanbieg, Alesandro Abbate(参考訳) 強化学習エージェントは、広範な探索から自然に学ぶ。 探索はコストが高く、$\textit{safety- critical}$ domainでは安全ではない。 本稿では,安全な探索とサンプル効率の向上を支援するために,ドメイン知識を取り入れた新しいフレームワークを提案する。 従来のアプローチでは、大規模なサンプルセットに依存するニューラルネットワークの正規化パラメータなどの制約が課されており、エージェントが常に安全でないアクションを回避すべきセーフティクリティカルなドメインには適していないことが多い。 我々のアプローチでは、$\textit{System III}$と呼ばれ、心理学者が脳の$\textit{System I}$と$\textit{System II}$の概念に触発された。 状態ベクトル空間におけるこれらの制約の満足度をpノルムを用いて評価する。 我々の定式化では、制約は探索中に避けなければならない危険や対象、状態の領域と類似している。 提案手法が OpenAI の Gym および Safety-Gym 環境に与える影響を検討した。 古典的な制御と安全ゲームを含むあらゆるタスクにおいて、我々のアプローチはより安全な探索とサンプル効率をもたらすことを示す。

Reinforcement learning agents naturally learn from extensive exploration. Exploration is costly and can be unsafe in $\textit{safety-critical}$ domains. This paper proposes a novel framework for incorporating domain knowledge to help guide safe exploration and boost sample efficiency. Previous approaches impose constraints, such as regularisation parameters in neural networks, that rely on large sample sets and often are not suitable for safety-critical domains where agents should almost always avoid unsafe actions. In our approach, called $\textit{System III}$, which is inspired by psychologists' notions of the brain's $\textit{System I}$ and $\textit{System II}$, we represent domain expert knowledge of safety in form of first-order logic. We evaluate the satisfaction of these constraints via p-norms in state vector space. In our formulation, constraints are analogous to hazards, objects, and regions of state that have to be avoided during exploration. We evaluated the effectiveness of the proposed method on OpenAI's Gym and Safety-Gym environments. In all tasks, including classic Control and Safety Games, we show that our approach results in safer exploration and sample efficiency.
翻訳日:2023-04-25 17:33:22 公開日:2023-04-23
# 2次元グレーレベル共起行列を用いたテクスチャ画像処理による破損レール検出

Broken Rail Detection With Texture Image Processing Using Two-Dimensional Gray Level Co-occurrence Matrix ( http://arxiv.org/abs/2304.11592v1 )

ライセンス: Link先を確認
Mohsen Ebrahimi(参考訳) 電気鉄道システムの応用とATC(Automatic Train Control)システムの適用により、鉄道輸送の安全性が向上した。 しかし、鉄道事故の最も重要な原因の1つは、鉄道による損傷と破損である。 本稿では,まず観察領域からレール領域が認識され,次いで画像テクスチャ処理データを調べることにより,ひび割れ,摩耗,剥離,崩壊,破壊などを含むレール欠陥の種類を検出する方法を提案する。 計算コストを削減するため、画像はRGB色スペクトルからグレー色スペクトルに変更される。 画像テクスチャ処理データは、2次元グレイレベル共起行列(GLCM)によって異なる角度で取得される。 特徴量の大規模なデータは、分類器の全体的な精度に悪影響を及ぼす。 この問題に対処し、より高速な応答を得るために、帯域を分類器に入力する前に主成分分析(PCA)アルゴリズムを用いる。 次に、画像から抽出した特徴を、SVM(Support Vector Machine)、RF(Random Forest)、K-Nearest Neighbor(KNN)の3つの異なる分類器で比較する。 その結果,ランダム林分分類器の性能は,他の分類器よりも高い(精度97%,精度96%,リコール96%)ことがわかった。

Application of electronic railway systems as well as the implication of Automatic Train Control (ATC) System has increased the safety of rail transportation. However, one of the most important causes of accidents on the railway is rail damage and breakage. In this paper, we have proposed a method that the rail region is first recognized from the observation area, then by investigating the image texture processing data, the types of rail defects including cracks, wear, peeling, disintegration, and breakage are detected. In order to reduce the computational cost, the image is changed from the RGB color spectrum to the gray spectrum. Image texture processing data is obtained by the two-dimensional Gray Levels Co-occurrence Matrix (GLCM) at different angles; this data demonstrates second-order features of the images. Large data of features has a negative effect on the overall accuracy of the classifiers. To tackle this issue and acquire faster response, Principal Component Analysis (PCA) algorithm is used, before entering the band into the classifier. Then the features extracted from the images are compared by three different classifiers including Support Vector Machine (SVM), Random Forest (RF), and K-Nearest Neighbor (KNN) classification. The results obtained from this method indicate that the Random Forest classifier has better performance (accuracy 97%, precision 96%, and recall 96%) than other classifiers.
翻訳日:2023-04-25 17:32:52 公開日:2023-04-23
# OSP2B:3Dシームズトラッキングのためのワンステージポイントツーボックスネットワーク

OSP2B: One-Stage Point-to-Box Network for 3D Siamese Tracking ( http://arxiv.org/abs/2304.11584v1 )

ライセンス: Link先を確認
Jiahao Nie, Zhiwei He, Yuxiang Yang, Zhengyi Bao, Mingyu Gao, Jing Zhang(参考訳) 2段階のポイント・ツー・ボックス・ネットワークは、最近人気の高い3Dシームズ追跡パラダイムにおいて重要な役割を果たす。 しかし、そのようなネットワークは退屈なハイパーパラメータチューニングとタスクのミスアライメントに苦しめられ、トラッキング性能が制限される。 これらの懸念に対して,我々は,ポイントクラウドベースの3d単一オブジェクト追跡のための,単純かつ効果的な1段階のポイントツーボックスネットワークを提案する。 退屈なハイパーパラメータを伴わない並列予測器による3次元提案生成と中心性スコア予測を同期する。 提案手法のタスクアラインメントスコアランキングを導出するため,センターネスブランチのトレーニングを監督する中心焦点損失を提案し,異なる品質の提案を識別するネットワークの識別能力を高めた。 さらに,ターゲット関連点を識別する二元的対象分類器を設計する。 抽出した分類スコアをセンタネススコアと統合することにより、結果のネットワークは干渉提案を効果的に抑制し、さらにタスクのミスアライメントを軽減することができる。 最後に,設計ネットワークを備えた一段式シームズトラッカーOSP2Bを提案する。 KITTIやWaymo SOT Datasetといった挑戦的なベンチマークに関する大規模な実験は、OSP2Bがかなりリアルタイムな速度で主要なパフォーマンスを達成することを示しています。

Two-stage point-to-box network acts as a critical role in the recent popular 3D Siamese tracking paradigm, which first generates proposals and then predicts corresponding proposal-wise scores. However, such a network suffers from tedious hyper-parameter tuning and task misalignment, limiting the tracking performance. Towards these concerns, we propose a simple yet effective one-stage point-to-box network for point cloud-based 3D single object tracking. It synchronizes 3D proposal generation and center-ness score prediction by a parallel predictor without tedious hyper-parameters. To guide a task-aligned score ranking of proposals, a center-aware focal loss is proposed to supervise the training of the center-ness branch, which enhances the network's discriminative ability to distinguish proposals of different quality. Besides, we design a binary target classifier to identify target-relevant points. By integrating the derived classification scores with the center-ness scores, the resulting network can effectively suppress interference proposals and further mitigate task misalignment. Finally, we present a novel one-stage Siamese tracker OSP2B equipped with the designed network. Extensive experiments on challenging benchmarks including KITTI and Waymo SOT Dataset show that our OSP2B achieves leading performance with a considerable real-time speed.
翻訳日:2023-04-25 17:32:10 公開日:2023-04-23
# GPS軌道生成のための拡散モデル

Diffusion Model for GPS Trajectory Generation ( http://arxiv.org/abs/2304.11582v1 )

ライセンス: Link先を確認
Yuanshao Zhu, Yongchao Ye, Xiangyu Zhao, James J.Q. Yu(参考訳) GPS対応機器の配備とデータ取得技術により、巨大に生成されたGPS軌跡データは、時空間データマイニング研究を進めるためのコアサポートを提供する。 それにもかかわらず、GPSトラジェクトリは個人の位置情報で構成されており、プレーンなデータに対して必然的なプライバシー上の懸念を生じさせる。 この問題に対する有望な解決策の1つは軌道生成であり、元のデータをプライバシーのない生成データに置き換える。 しかし、人間の活動の複雑で確率的な行動のため、高品質な軌跡の生成はまだ初期段階にある。 この目的を達成するために,拡散モデルの生成能力を効果的に統合し,軌道の時空間的特徴から学習する拡散に基づく軌道生成(Diff-Traj)フレームワークを提案する。 具体的には、進行軌道ノーミング過程を通じて、実際の軌道を徐々にノイズに変換する。 そして、Diff-Trajは、逆軌跡復調処理により、ノイズから鍛造された軌跡を再構成する。 さらに,逆過程における雑音レベルの予測のためのトラジェクトリ特徴を抽出するトラジェクトリUNet (Traj-UNet) 構造を設計する。 2つの実世界のデータセットの実験は、Diff-Trajが元の分布を維持しながら高品質な軌道を生成するために直感的に適用可能であることを示している。

With the deployment of GPS-enabled devices and data acquisition technology, the massively generated GPS trajectory data provide a core support for advancing spatial-temporal data mining research. Nonetheless, GPS trajectories comprise personal geo-location information, rendering inevitable privacy concerns on plain data. One promising solution to this problem is trajectory generation, replacing the original data with the generated privacy-free ones. However, owing to the complex and stochastic behavior of human activities, generating high-quality trajectories is still in its infancy. To achieve the objective, we propose a diffusion-based trajectory generation (Diff-Traj) framework, effectively integrating the generation capability of the diffusion model and learning from the spatial-temporal features of trajectories. Specifically, we gradually convert real trajectories to noise through a forward trajectory noising process. Then, Diff-Traj reconstructs forged trajectories from the noise by a reverse trajectory denoising process. In addition, we design a trajectory UNet (Traj-UNet) structure to extract trajectory features for noise level prediction during the reverse process. Experiments on two real-world datasets show that Diff-Traj can be intuitively applied to generate high-quality trajectories while retaining the original distribution.
翻訳日:2023-04-25 17:31:39 公開日:2023-04-23
# リアルタイム組込み物体検出ベンチマークのためのフレームワーク

A Framework for Benchmarking Real-Time Embedded Object Detection ( http://arxiv.org/abs/2304.11580v1 )

ライセンス: Link先を確認
Michael Schlosser and Daniel K\"onig and Michael Teutsch(参考訳) 物体検出はコンピュータビジョンの多くのアプリケーションにおいて重要なタスクの1つである。 ディープニューラルネットワーク(DNN)は、間違いなくオブジェクト検出に適しているアプローチである。 しかし、これらのDNNは、推論時に高い効率を保証するために、ハードウェア固有の最適化と共に高度に適応したハードウェアを必要とする。 これは特に、エッジデバイスのような限られたハードウェア上のビデオストリーミングアプリケーションにおける効率的なオブジェクト検出を目指しています。 ベンダー固有のハードウェアと関連する最適化ソフトウェアパイプラインを公平な実験的なセットアップで比較することは難しい。 本稿では,ホストコンピュータとホストソフトウェアアプリケーションと,メッセージキューイングテレメトリトランスポート(MQTT)プロトコルに基づく軽量インターフェースを併用したフレームワークを提案する。 ターゲットアプリを持つさまざまなターゲットデバイスは、このホストコンピュータとMQTTを介して接続することができる。 明確に定義された標準化されたMQTTメッセージでは、オブジェクト検出結果がホストコンピュータに報告され、結果がデバイス上の処理を傷つけたり影響したりすることなく評価される。 この非常に一般的なフレームワークでは、オブジェクト検出性能、ランタイム、そしてエネルギー効率を同時に測定できます。 このフレームワークの有効性は、DNNの最適化に関する深い洞察を提供する複数の実験で実証されている。

Object detection is one of the key tasks in many applications of computer vision. Deep Neural Networks (DNNs) are undoubtedly a well-suited approach for object detection. However, such DNNs need highly adapted hardware together with hardware-specific optimization to guarantee high efficiency during inference. This is especially the case when aiming for efficient object detection in video streaming applications on limited hardware such as edge devices. Comparing vendor-specific hardware and related optimization software pipelines in a fair experimental setup is a challenge. In this paper, we propose a framework that uses a host computer with a host software application together with a light-weight interface based on the Message Queuing Telemetry Transport (MQTT) protocol. Various different target devices with target apps can be connected via MQTT with this host computer. With well-defined and standardized MQTT messages, object detection results can be reported to the host computer, where the results are evaluated without harming or influencing the processing on the device. With this quite generic framework, we can measure the object detection performance, the runtime, and the energy efficiency at the same time. The effectiveness of this framework is demonstrated in multiple experiments that offer deep insights into the optimization of DNNs.
翻訳日:2023-04-25 17:31:18 公開日:2023-04-23
# Wasserstein Barycenter問題に対する非同期分散アルゴリズム

An Asynchronous Decentralized Algorithm for Wasserstein Barycenter Problem ( http://arxiv.org/abs/2304.11653v1 )

ライセンス: Link先を確認
Chao Zhang, Hui Qian, Jiahao Xie(参考訳) Wasserstein Barycenter Problem (WBP)は最近、人工知能の分野で多くの注目を集めている。 本稿では,WBPの分散設定に着目し,非同期分散アルゴリズム(A$^2$DWB)を提案する。 A^2$DWBは、エントロピー正規化WBPの双対を最適化する新しい確率的ブロック座標降下法によって誘導される。 我々の知る限り、A$^2$DWBはWBPのための最初の非同期分散アルゴリズムである。 同期処理とは違い、ローカル変数を静的な隣り合う情報のみに依存する方法で更新することで、待ち時間オーバーヘッドを効果的に軽減し、時間効率を大幅に改善する。 実験結果は,最新の同期アルゴリズムと比較して優れた性能を示した。

Wasserstein Barycenter Problem (WBP) has recently received much attention in the field of artificial intelligence. In this paper, we focus on the decentralized setting for WBP and propose an asynchronous decentralized algorithm (A$^2$DWB). A$^2$DWB is induced by a novel stochastic block coordinate descent method to optimize the dual of entropy regularized WBP. To our knowledge, A$^2$DWB is the first asynchronous decentralized algorithm for WBP. Unlike its synchronous counterpart, it updates local variables in a manner that only relies on the stale neighbor information, which effectively alleviate the waiting overhead, and thus substantially improve the time efficiency. Empirical results validate its superior performance compared to the latest synchronous algorithm.
翻訳日:2023-04-25 17:25:10 公開日:2023-04-23
# プライバシーコンピューティングのメタバース:必要、分類、課題

Privacy Computing Meets Metaverse: Necessity, Taxonomy and Challenges ( http://arxiv.org/abs/2304.11643v1 )

ライセンス: Link先を確認
Chuan Chen, Yuecheng Li, Zhenpeng Wu, Chengyuan Mai, Youming Liu, Yanming Hu, Zibin Zheng, Jiawen Kang(参考訳) 次世代インターネットの中核であるmetaverseは、時空間的、没入的、リアルタイム、持続可能、相互運用可能、およびデータセンシティブな特性を同時に結合したコンピュータ生成ホログラフィックデジタル環境である。 仮想世界と現実世界を巧みに融合し、ユーザーは仮想形式で作成、通信、そして操作することができる。 拡張現実、仮想現実、ブロックチェーンといった新興技術の急速な発展に伴い、メタバースシステムはますます洗練され、社会、観光、産業、経済といった様々な分野で広く使われている。 しかし、現実世界との対話のレベルが高いことは、個人と企業の両方にとってプライバシー漏洩のリスクも大きく、メタバースの展開を妨げている。 そして、現在の研究ホットスポットであるメタバースの枠組みにプライバシーコンピューティング技術を適用することは避けられない。 本稿では,プライバシコンピューティングがメタバースに満たすときの必要性,分類,課題について包括的な研究を行う。 具体的には,まず,メタバースにおけるデータ利用の課題,特にデータプライバシの分析を行うメタバースの基盤となる技術と応用について紹介する。 次に,フェデレーション学習,差分プライバシ,準同型暗号化,およびメタバースにおける異なるプライバシ問題に対するゼロ知識証明に基づく最先端ソリューションをレビューし,要約する。 最後に、メタバース開発における現在のセキュリティとプライバシの課題を示し、確立されたプライバシー保護メタバースシステムを構築するためのオープンな方向性を提供する。

Metaverse, the core of the next-generation Internet, is a computer-generated holographic digital environment that simultaneously combines spatio-temporal, immersive, real-time, sustainable, interoperable, and data-sensitive characteristics. It cleverly blends the virtual and real worlds, allowing users to create, communicate, and transact in virtual form. With the rapid development of emerging technologies including augmented reality, virtual reality and blockchain, the metaverse system is becoming more and more sophisticated and widely used in various fields such as social, tourism, industry and economy. However, the high level of interaction with the real world also means a huge risk of privacy leakage both for individuals and enterprises, which has hindered the wide deployment of metaverse. Then, it is inevitable to apply privacy computing techniques in the framework of metaverse, which is a current research hotspot. In this paper, we conduct a comprehensive research of the necessity, taxonomy and challenges when privacy computing meets metaverse. Specifically, we first introduce the underlying technologies and various applications of metaverse, on which we analyze the challenges of data usage in metaverse, especially data privacy. Next, we review and summarize state-of-the-art solutions based on federated learning, differential privacy, homomorphic encryption, and zero-knowledge proofs for different privacy problems in metaverse. Finally, we show the current security and privacy challenges in the development of metaverse and provide open directions for building a well-established privacy-preserving metaverse system.
翻訳日:2023-04-25 17:24:59 公開日:2023-04-23
# 時間的論理的対象に対する優先順位付けによる確率的計画法

Probabilistic Planning with Prioritized Preferences over Temporal Logic Objectives ( http://arxiv.org/abs/2304.11641v1 )

ライセンス: Link先を確認
Lening Li, Hazhar Rahmani, Jie Fu(参考訳) 本稿では,複数の時間的目標に対するユーザの嗜好を考慮した,確率的環境における時間的計画について検討する。 既存の作品は、優先順位付けされたゴールリストとしてそのような好みを反映している。 本稿では, 有限トレース上の線形時間論理を優先的に拡張し, 優先順位付けされた定性選択論理から順序づけられた解法を導出する, 新しい仕様言語を提案する。 この言語は時間的目的を簡潔に指定でき、それぞれの時間的タスクを達成できる。 システムの振る舞いを記述する有限トレースは、式に対する不満スコアに基づいてランク付けされる。 本稿では,新しい言語から重み付き決定論的有限オートマトンへの体系的翻訳を提案する。 この計算モデルを利用して、ユーザの好みに応じて不満足の期待スコアを最小化する最適なポリシーを定式化し、解決する。 本稿では,論理とアルゴリズムの有効性と適用性について,それぞれ詳細な解析を行い,いくつかのケーススタディで検証する。

This paper studies temporal planning in probabilistic environments, modeled as labeled Markov decision processes (MDPs), with user preferences over multiple temporal goals. Existing works reflect such preferences as a prioritized list of goals. This paper introduces a new specification language, termed prioritized qualitative choice linear temporal logic on finite traces, which augments linear temporal logic on finite traces with prioritized conjunction and ordered disjunction from prioritized qualitative choice logic. This language allows for succinctly specifying temporal objectives with corresponding preferences accomplishing each temporal task. The finite traces that describe the system's behaviors are ranked based on their dissatisfaction scores with respect to the formula. We propose a systematic translation from the new language to a weighted deterministic finite automaton. Utilizing this computational model, we formulate and solve a problem of computing an optimal policy that minimizes the expected score of dissatisfaction given user preferences. We demonstrate the efficacy and applicability of the logic and the algorithm on several case studies with detailed analyses for each.
翻訳日:2023-04-25 17:24:31 公開日:2023-04-23
# 最大混合辺縁とクディト二成分状態の相関に関するトイモデル

Toy model for the correlation of qudit bipartite states with maximally mixed marginals ( http://arxiv.org/abs/2304.11637v1 )

ライセンス: Link先を確認
Constantino Rodriguez-Ramos, Colin M. Wilmott(参考訳) 本稿では,局所的に情報を得ることができない2部混合状態の局所的ユニタリ分類について考察する。 これらの状態は対称密度行列で表され、両状態は最大混合される。 興味深いことに、この対称性は2量子状態の局所ユニタリ分類を促進する。 しかし、高次元の系の場合、同じ形式主義は失敗する。 我々は、極端に混合した二部類混合状態の族を導入することで、より広い状態の集合を考える。 この状態の族に対して、局所ユニタリ変換の下で変種となるいくつかの定数を定め、絡み合い分類に使用できる。 最後に, 2-qutritの場合, 特に局所的ユニタリ分類が完了した状態の 2-parameter 族を考える。 この分類を,純度やネガティビティなどの既知の絡み合い尺度と関連付ける。

In this paper, we consider the local unitary classification of the class of qudit bipartite mixed states for which no information can be obtained locally. These states are represented by symmetrical density matrices in which both tracial states are maximally mixed. Interestingly, this symmetry facilitates the local unitary classification of two-qubit states. However, the same formalism fails in the case of systems of higher dimensions. We consider a broader set of states by introducing a family of qudit bipartite mixed states with maximally mixed marginals. For this family of states, we determine several constants which are in variant under local unitary transformations so can be used for entanglement classification. Finally, we consider the two-qutrit case and in particular, a two-parameter family of states for which the local unitary classification is complete. We relate this classification to known entanglement measures such as purity and negativity.
翻訳日:2023-04-25 17:24:15 公開日:2023-04-23
# ChatGPTの情報抽出能力の評価:性能・説明可能性・校正性・信心性の評価

Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness ( http://arxiv.org/abs/2304.11633v1 )

ライセンス: Link先を確認
Bo Li, Gexiang Fang, Yang Yang, Quansen Wang, Wei Ye, Wen Zhao, Shikun Zhang(参考訳) ChatGPTのような大規模言語モデル(LLM)のユーザ意図を理解し、適切な応答を提供する能力は、最近非常に人気がある。 本稿では,7つの細粒度情報抽出(ie)タスクを用いてchatgptの総合的能力を評価する。 特に,ChatGPTの性能,説明可能性,校正性,忠実度を測定し,ChatGPTあるいはドメインの専門家から15個のキーを抽出し,系統解析を行った。 その結果、標準ie設定でのchatgptのパフォーマンスは乏しいが、人間による評価から明らかなように、openie設定での優れた性能を示すことが判明した。 さらに本研究では,ChatGPTが意思決定に高品質で信頼性の高い説明を提供することを示す。 しかし、ChatGPTはその予測を過信しており、その結果、キャリブレーションが低くなるという問題がある。 さらに、ChatGPTは、ほとんどのケースにおいて、原文に対して高い信頼感を示す。 7つのきめ細かいIEタスクのテストセットに14のデータセットを手動でアノテートしてリリースし、研究をさらに促進します。 データセットとコードはhttps://github.com/pkuserc/chatgpt_for_ieで入手できる。

The capability of Large Language Models (LLMs) like ChatGPT to comprehend user intent and provide reasonable responses has made them extremely popular lately. In this paper, we focus on assessing the overall ability of ChatGPT using 7 fine-grained information extraction (IE) tasks. Specially, we present the systematically analysis by measuring ChatGPT's performance, explainability, calibration, and faithfulness, and resulting in 15 keys from either the ChatGPT or domain experts. Our findings reveal that ChatGPT's performance in Standard-IE setting is poor, but it surprisingly exhibits excellent performance in the OpenIE setting, as evidenced by human evaluation. In addition, our research indicates that ChatGPT provides high-quality and trustworthy explanations for its decisions. However, there is an issue of ChatGPT being overconfident in its predictions, which resulting in low calibration. Furthermore, ChatGPT demonstrates a high level of faithfulness to the original text in the majority of cases. We manually annotate and release the test sets of 7 fine-grained IE tasks contains 14 datasets to further promote the research. The datasets and code are available at https://github.com/pkuserc/ChatGPT_for_IE.
翻訳日:2023-04-25 17:24:03 公開日:2023-04-23
# MOBAゲームにおける効果的なヒューマンエージェントコラボレーションに向けて:コミュニケーションの視点から

Towards Effective and Interpretable Human-Agent Collaboration in MOBA Games: A Communication Perspective ( http://arxiv.org/abs/2304.11632v1 )

ライセンス: Link先を確認
Yiming Gao, Feiyu Liu, Liang Wang, Zhenjie Lian, Weixuan Wang, Siqin Li, Xianliang Wang, Xianhan Zeng, Rundong Wang, Jiawei Wang, Qiang Fu, Wei Yang, Lanxiao Huang, Wei Liu(参考訳) MOBAゲーム(例えば、Dota2とHonor of Kings)は、近年のゲームに関するAI研究の試験場として積極的に使われており、これまでに様々なAIシステムが人間レベルで開発されてきた。 しかし、これらのAIシステムは、主に人間と競争する方法に焦点を当てており、人間と協力する方法を探求するものではない。 そこで本研究では,MOBAゲームにおける人間とエージェントのコラボレーションを初めて検討する。 本稿では,MOBAゲームにおける効果的なヒューマンエージェントコラボレーションを実現するために,MCCと呼ばれる,効率的かつ解釈可能なメタコマンドコミュニケーションベースのフレームワークを設計し,人やエージェントが明示的なコミュニケーションを通じて協調することを可能にすることを提案する。 MCCフレームワークは2つの重要なモジュールから構成されている。 1) 人間とエージェントとの間のコミュニケーションギャップを埋めるための解釈可能な通信プロトコル,すなわちメタコマンド 2)メタコマンド値推定器、すなわちメタコマンド選択器は、各エージェントに価値のあるメタコマンドを選択して効果的な人間エージェント協調を実現する。 Honor of Kingsでの実験的結果は、MCCエージェントが人間のチームメイトと合理的に協力できることを示し、また、異なるレベルと人間のチームメイトの数とのコラボレーションを一般化することさえできる。 ビデオはhttps://sites.google.com/view/mcc-demoで閲覧できる。

MOBA games, e.g., Dota2 and Honor of Kings, have been actively used as the testbed for the recent AI research on games, and various AI systems have been developed at the human level so far. However, these AI systems mainly focus on how to compete with humans, less on exploring how to collaborate with humans. To this end, this paper makes the first attempt to investigate human-agent collaboration in MOBA games. In this paper, we propose to enable humans and agents to collaborate through explicit communication by designing an efficient and interpretable Meta-Command Communication-based framework, dubbed MCC, for accomplishing effective human-agent collaboration in MOBA games. The MCC framework consists of two pivotal modules: 1) an interpretable communication protocol, i.e., the Meta-Command, to bridge the communication gap between humans and agents; 2) a meta-command value estimator, i.e., the Meta-Command Selector, to select a valuable meta-command for each agent to achieve effective human-agent collaboration. Experimental results in Honor of Kings demonstrate that MCC agents can collaborate reasonably well with human teammates and even generalize to collaborate with different levels and numbers of human teammates. Videos are available at https://sites.google.com/view/mcc-demo.
翻訳日:2023-04-25 17:23:42 公開日:2023-04-23
# tsgcnext: 長期学習能力を有する効率的なスケルトンベース行動認識のための動的静的マルチグラフ畳み込み

TSGCNeXt: Dynamic-Static Multi-Graph Convolution for Efficient Skeleton-Based Action Recognition with Long-term Learning Potential ( http://arxiv.org/abs/2304.11631v1 )

ライセンス: Link先を確認
Dongjingdin Liu, Pengpeng Chen, Miao Yao, Yijing Lu, Zijie Cai, Yuxin Tian(参考訳) 骨格に基づく行動認識は, グラフ畳み込みネットワーク(GCN)の開発により, 人間の行動認識において顕著な成果を上げている。 しかし、最近の研究は冗長なトレーニングを伴う複雑な学習メカニズムを構築する傾向にあり、長い時系列のボトルネックとなっている。 これらの問題を解決するために,時間空間グラフ ConvNeXt (TSGCNeXt) を提案する。 まず,複数の独立なトポロジグラフの特徴を集約し,動的畳み込み時に無視されるノード情報を回避するため,単純な構造を持つグラフ学習機構である動的統計分離多グラフ畳み込み(DS-SMG)を提案する。 次に,55.08\%の高速化で動的グラフ学習のバックプロパゲーション計算を最適化するグラフ畳み込み学習促進機構を構築する。 最後に、TSGCNeXtは3つの時空間学習モジュールでGCNの全体構造を再構成し、長期的特徴を効率的にモデル化する。 大規模データセットNTU RGB+D 60と120の既存の手法と比較して、TSGCNeXtはシングルストリームネットワークでパフォーマンスが向上する。 さらに、マルチストリーム核融合に導入されたemaモデルにより、TSGCNeXtはSOTAレベルを達成する。 NTU 120のクロスオブジェクトとクロスセットでは、アキュラシーは90.22%、91.74%に達する。

Skeleton-based action recognition has achieved remarkable results in human action recognition with the development of graph convolutional networks (GCNs). However, the recent works tend to construct complex learning mechanisms with redundant training and exist a bottleneck for long time-series. To solve these problems, we propose the Temporal-Spatio Graph ConvNeXt (TSGCNeXt) to explore efficient learning mechanism of long temporal skeleton sequences. Firstly, a new graph learning mechanism with simple structure, Dynamic-Static Separate Multi-graph Convolution (DS-SMG) is proposed to aggregate features of multiple independent topological graphs and avoid the node information being ignored during dynamic convolution. Next, we construct a graph convolution training acceleration mechanism to optimize the back-propagation computing of dynamic graph learning with 55.08\% speed-up. Finally, the TSGCNeXt restructure the overall structure of GCN with three Spatio-temporal learning modules,efficiently modeling long temporal features. In comparison with existing previous methods on large-scale datasets NTU RGB+D 60 and 120, TSGCNeXt outperforms on single-stream networks. In addition, with the ema model introduced into the multi-stream fusion, TSGCNeXt achieves SOTA levels. On the cross-subject and cross-set of the NTU 120, accuracies reach 90.22% and 91.74%.
翻訳日:2023-04-25 17:23:17 公開日:2023-04-23
# 意味のある因果凝集とパラドックス的共起

Meaningful Causal Aggregation and Paradoxical Confounding ( http://arxiv.org/abs/2304.11625v1 )

ライセンス: Link先を確認
Yuchen Zhu and Kailash Budhathoki and Jonas Kuebler and Dominik Janzing(参考訳) 集約変数では、同じマクロインターベンションの異なるマイクロリアライゼーションが下流マクロ変数の異なる変化をもたらすため、介入の影響は通常不確定である。 集合変数における因果関係の非定義性は, 根拠のない因果関係を共起関係に変換し, 逆もまた, それぞれのマイクロ実現に依存することを示した。 この不明確な状況から解放された場合、集約因果システムのみを使用することは事実上不可能であると主張する。 代わりに、マクロ因果関係は通常、ミクロ状態を参照してのみ定義されることを受け入れる必要がある。 正の面では、マクロ介入が観察分布と同じミクロ状態の分布であるような場合に原因-効果関係を集約できることを示し、この観測の一般化についても論じる。

In aggregated variables the impact of interventions is typically ill-defined because different micro-realizations of the same macro-intervention can result in different changes of downstream macro-variables. We show that this ill-definedness of causality on aggregated variables can turn unconfounded causal relations into confounded ones and vice versa, depending on the respective micro-realization. We argue that it is practically infeasible to only use aggregated causal systems when we are free from this ill-definedness. Instead, we need to accept that macro causal relations are typically defined only with reference to the micro states. On the positive side, we show that cause-effect relations can be aggregated when the macro interventions are such that the distribution of micro states is the same as in the observational distribution and also discuss generalizations of this observation.
翻訳日:2023-04-25 17:22:54 公開日:2023-04-23
# SATIN:視覚言語モデルを用いた衛星画像分類のためのマルチタスクメタデータ

SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using Vision-Language Models ( http://arxiv.org/abs/2304.11619v1 )

ライセンス: Link先を確認
Jonathan Roberts, Kai Han, Samuel Albanie(参考訳) リモートセンシング画像の解釈は、土地利用計画から森林破壊監視まで、多くの下流アプリケーションを可能にする。 このデータのロバストな分類は、地球の地理的多様性のために難しい。 多くの異なる衛星と航空画像の分類データセットが存在するが、この多様性を適切にカバーするベンチマークはまだ確立されていない。 本研究では、既存の27のリモートセンシングデータセットから算出されたメタデータセットであるSATellite ImageNet(SATIN)を導入し、SATIN上の広範囲の視覚言語(VL)モデルのゼロショット転送分類機能を包括的に評価する。 SATINは,評価する上で最強のベンチマークであり,分類精度は52.0%である。 この重要なドメインにおけるVLモデルの進捗をガイドし追跡するために、$\href{https://satinbenchmark.github.io}{\text{public leaderboard}}$を提供する。

Interpreting remote sensing imagery enables numerous downstream applications ranging from land-use planning to deforestation monitoring. Robustly classifying this data is challenging due to the Earth's geographic diversity. While many distinct satellite and aerial image classification datasets exist, there is yet to be a benchmark curated that suitably covers this diversity. In this work, we introduce SATellite ImageNet (SATIN), a metadataset curated from 27 existing remotely sensed datasets, and comprehensively evaluate the zero-shot transfer classification capabilities of a broad range of vision-language (VL) models on SATIN. We find SATIN to be a challenging benchmark-the strongest method we evaluate achieves a classification accuracy of 52.0%. We provide a $\href{https://satinbenchmark.github.io}{\text{public leaderboard}}$ to guide and track the progress of VL models in this important domain.
翻訳日:2023-04-25 17:22:40 公開日:2023-04-23
# マルチモーダル知識グラフ埋め込みのためのモダリティ対応負サンプリング

Modality-Aware Negative Sampling for Multi-modal Knowledge Graph Embedding ( http://arxiv.org/abs/2304.11618v1 )

ライセンス: Link先を確認
Yichi Zhang, Mingyang Chen, Wen Zhang(参考訳) 負サンプリング(n)は知識グラフ埋め込み(kge)で広く使われており、トレーニング中に正負のコントラストを生成するために負のトリプルを生成することを目的としている。 しかし、KGEモデルでマルチモーダル情報を考える場合、既存のNS法は不適当である。 また、複雑な設計のため非効率である。 本稿では,Multi-Aware Negative Smpling (MANS) を用いたマルチモーダル知識グラフ埋め込み(MMKGE)を提案する。 MANSは、構造的および視覚的埋め込みをKGのエンティティに整列させ、意味のある埋め込みを学習して、軽量で効率的なKGEの性能を保ちながら、マルチモーダルなKGEを改善することができる。 2つのベンチマークの実証的な結果は、MANSが既存のNS法より優れていることを示している。 一方,MANSについてさらなる検討を行い,その有効性を確認した。

Negative sampling (NS) is widely used in knowledge graph embedding (KGE), which aims to generate negative triples to make a positive-negative contrast during training. However, existing NS methods are unsuitable when multi-modal information is considered in KGE models. They are also inefficient due to their complex design. In this paper, we propose Modality-Aware Negative Sampling (MANS) for multi-modal knowledge graph embedding (MMKGE) to address the mentioned problems. MANS could align structural and visual embeddings for entities in KGs and learn meaningful embeddings to perform better in multi-modal KGE while keeping lightweight and efficient. Empirical results on two benchmarks demonstrate that MANS outperforms existing NS methods. Meanwhile, we make further explorations about MANS to confirm its effectiveness.
翻訳日:2023-04-25 17:22:23 公開日:2023-04-23
# CoReFace:ディープ顔認識のためのサンプルガイドコントラスト規則化

CoReFace: Sample-Guided Contrastive Regularization for Deep Face Recognition ( http://arxiv.org/abs/2304.11668v1 )

ライセンス: Link先を確認
Youzhe Song, Feng Wang(参考訳) 特徴表現の判別性は、オープンセット顔認識の鍵である。 従来の方法は、識別性を表す分類層の学習可能な重みに依存する。 しかし、評価プロセスは識別表現を学習せず、分類器をトレーニングから外す。 この矛盾は、評価目標を理解し、アイデンティティベースの方法の効果を妨げる機能エンコーダを混乱させる可能性がある。 上記の問題を緩和するために,特徴表現学習に画像レベルの正規化を適用するために,顔認識のためのContrastive Regularization(CoReFace)という新しいアプローチを提案する。 具体的には,サンプルガイドによるコントラスト学習を用いて,画像と画像の関係を直接学習し,評価プロセスと一致させる。 コントラスト学習を顔認識に統合するため,画像の画質劣化を回避するために,画像の代わりに埋め込みを拡大する。 次に,適応マージンと教師付きコントラストマスクを組み込んで,定常損失値を生成し,分類監督信号との衝突を避けることにより,表現分布に対する新たなコントラスト損失を提案する。 最後に,新しいペア結合プロトコルを探索することで,コントラスト学習における意味論的反復的信号問題を発見し,解決する。 大規模な実験は、最先端のアプローチと非常に競合するCoReFaceの有効性と効率を示す。

The discriminability of feature representation is the key to open-set face recognition. Previous methods rely on the learnable weights of the classification layer that represent the identities. However, the evaluation process learns no identity representation and drops the classifier from training. This inconsistency could confuse the feature encoder in understanding the evaluation goal and hinder the effect of identity-based methods. To alleviate the above problem, we propose a novel approach namely Contrastive Regularization for Face recognition (CoReFace) to apply image-level regularization in feature representation learning. Specifically, we employ sample-guided contrastive learning to regularize the training with the image-image relationship directly, which is consistent with the evaluation process. To integrate contrastive learning into face recognition, we augment embeddings instead of images to avoid the image quality degradation. Then, we propose a novel contrastive loss for the representation distribution by incorporating an adaptive margin and a supervised contrastive mask to generate steady loss values and avoid the collision with the classification supervision signal. Finally, we discover and solve the semantically repetitive signal problem in contrastive learning by exploring new pair coupling protocols. Extensive experiments demonstrate the efficacy and efficiency of our CoReFace which is highly competitive with the state-of-the-art approaches.
翻訳日:2023-04-25 17:14:28 公開日:2023-04-23
# 容疑者を押さえろ! イタウエオンハロウィン群集のメディア・フレーミングに関する分析

Hold the Suspect! : An Analysis on Media Framing of Itaewon Halloween Crowd Crush ( http://arxiv.org/abs/2304.11666v1 )

ライセンス: Link先を確認
TaeYoung Kang(参考訳) 韓国の上位40社のニュース提供者による10.9K記事を基に、本論文は、事件の72時間後におけるイタウエオン・ハロウィン・クラッシュのメディアフレーミングを分析した。 その結果,リベラルメディアが政府の責任を負い,低所得労働者に対する不平等な汚職の可能性があるのに対し,保守メディアは政党の反応と被疑者のアイデンティティに焦点をあてていることがわかった。 社会的な悲劇は制度政治と直接結びついていなかったが、メディアは明らかに報道過程に政治的偏見を示した。

Based on the 10.9K articles from top 40 news providers of South Korea, this paper analyzed the media framing of Itaewon Halloween Crowd Crush during the first 72 hours after the incident. By adopting word-vector embedding and clustering, we figured out that conservative media focused on political parties' responses and the suspect's identity while the liberal media covered the responsibility of the government and possible unequal spillover effect on the low-income industry workers. Although the social tragedy was not directly connected to institutional politics, the media clearly exhibited political bias in the coverage process.
翻訳日:2023-04-25 17:14:07 公開日:2023-04-23
# 大規模経験的リスク最小化のための2倍確率勾配アルゴリズム

Accelerated Doubly Stochastic Gradient Algorithm for Large-scale Empirical Risk Minimization ( http://arxiv.org/abs/2304.11665v1 )

ライセンス: Link先を確認
Zebang Shen, Hui Qian, Tongzhou Mu, Chao Zhang(参考訳) 今日では、高速収束、メモリフットプリントの小型化、イテレーション毎の複雑性の低いアルゴリズムが、人工知能アプリケーションに特に好まれている。 本稿では,学習課題に対する大規模な経験的リスク最小化問題を解決するために,新しいマルチモーメント手法を用いた2倍確率的アルゴリズムを提案する。 確実に優れた収束率を享受しながら、各イテレーションにおいて、そのようなアルゴリズムはサンプルのミニバッチにのみアクセスし、一方変数座標の小さなブロックを更新することで、大量のサンプルサイズと超高次元の両方が関与する場合のメモリ参照量を大幅に削減する。 大規模データセットに関する実証的研究を行い,本手法の有効性を実証した。

Nowadays, algorithms with fast convergence, small memory footprints, and low per-iteration complexity are particularly favorable for artificial intelligence applications. In this paper, we propose a doubly stochastic algorithm with a novel accelerating multi-momentum technique to solve large scale empirical risk minimization problem for learning tasks. While enjoying a provably superior convergence rate, in each iteration, such algorithm only accesses a mini batch of samples and meanwhile updates a small block of variable coordinates, which substantially reduces the amount of memory reference when both the massive sample size and ultra-high dimensionality are involved. Empirical studies on huge scale datasets are conducted to illustrate the efficiency of our method in practice.
翻訳日:2023-04-25 17:13:54 公開日:2023-04-23
# ISPCQA: イスラムテキストリソースにおけるペルシアのマルチホップ複合質問のデータセット

IslamicPCQA: A Dataset for Persian Multi-hop Complex Question Answering in Islamic Text Resources ( http://arxiv.org/abs/2304.11664v1 )

ライセンス: Link先を確認
Arash Ghafouri, Hasan Naderi, Mohammad Aghajani asl and Mahdi Firouzmandi(参考訳) 現在、質問回答システムの主な課題の1つは、様々な情報源を使って複雑な質問に答えることである。 マルチホップ質問(Multi-hop question)は、多段階の推論を必要とする複雑な質問の一種である。 この記事では、ISISPCQAデータセットを紹介します。 これは非構造化情報ソースに基づく複雑な質問に答える最初のペルシャのデータセットであり、9つのイスラム百科事典から抽出された12,282の質問応答ペアで構成されている。 このデータセットは、ペルシャ語の複雑さに合わせてカスタマイズされたhotpotqa english datasetアプローチにインスパイアされたものだ。 このデータセットで質問に答えるには、複数の段落と推論が必要です。 質問は、事前の知識ベースやオントロジーに限らず、堅牢な推論能力を提供するため、データセットには、サポート事実とキー文も含まれている。 準備されたデータセットは、広範囲のイスラムトピックをカバーし、この問題における複雑なペルシアの質問に答えることを目的としている。

Nowadays, one of the main challenges for Question Answering Systems is to answer complex questions using various sources of information. Multi-hop questions are a type of complex questions that require multi-step reasoning to answer. In this article, the IslamicPCQA dataset is introduced. This is the first Persian dataset for answering complex questions based on non-structured information sources and consists of 12,282 question-answer pairs extracted from 9 Islamic encyclopedias. This dataset has been created inspired by the HotpotQA English dataset approach, which was customized to suit the complexities of the Persian language. Answering questions in this dataset requires more than one paragraph and reasoning. The questions are not limited to any prior knowledge base or ontology, and to provide robust reasoning ability, the dataset also includes supporting facts and key sentences. The prepared dataset covers a wide range of Islamic topics and aims to facilitate answering complex Persian questions within this subject matter
翻訳日:2023-04-25 17:13:42 公開日:2023-04-23
# 深部平衡モデルの効率的な訓練

Efficient Training of Deep Equilibrium Models ( http://arxiv.org/abs/2304.11663v1 )

ライセンス: Link先を確認
Bac Nguyen, Lukas Mauch(参考訳) 深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。 この考え方は、従来のフィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることであり、前方と後方のパスを分離することができる。 特に、トレーニング deq 層は暗黙関数定理によって非常にメモリ効率が良くなる。 しかし、DEC層によるバックプロパゲーションは、高価なジャコビアン方程式を解く必要がある。 本稿では,この計算負荷を回避するための単純かつ効果的な戦略を提案する。 本手法は,後方通過時の勾配を計算するために,前方通過後のブロイデン法のジャコビアン近似に依存する。 実験により、単にこの近似を再利用すれば、パフォーマンスを低下させることなく、トレーニングを大幅にスピードアップできることが示された。

Deep equilibrium models (DEQs) have proven to be very powerful for learning data representations. The idea is to replace traditional (explicit) feedforward neural networks with an implicit fixed-point equation, which allows to decouple the forward and backward passes. In particular, training DEQ layers becomes very memory-efficient via the implicit function theorem. However, backpropagation through DEQ layers still requires solving an expensive Jacobian-based equation. In this paper, we introduce a simple but effective strategy to avoid this computational burden. Our method relies on the Jacobian approximation of Broyden's method after the forward pass to compute the gradients during the backward pass. Experiments show that simply re-using this approximation can significantly speed up the training while not causing any performance degradation.
翻訳日:2023-04-25 17:13:27 公開日:2023-04-23
# AirBirds: 現実の空港における鳥害防止のための大規模チェアリングデータセット

AirBirds: A Large-scale Challenging Dataset for Bird Strike Prevention in Real-world Airports ( http://arxiv.org/abs/2304.11662v1 )

ライセンス: Link先を確認
Hongyu Sun, Yongcai Wang, Xudong Cai, Peng Wang, Zhe Huang, Deying Li, Yu Shao, Shuo Wang(参考訳) 鳥害防止研究の基本的な限界は、現実の空港から直接採取された大規模なデータセットがないことである。 既存の関連するデータセットは、サイズが小さいか、この目的専用のものではない。 本稿では,鳥の飛来防止のための研究と実践的解決のために,鳥のバウンディングボックスの合計409,967個を手作業で注記した,118,312枚の時系列画像からなる,大規模な挑戦的データセットを提案する。 すべてのアノテーション付きインスタンスの平均サイズは1920x1080画像の10ピクセルより小さい。 データセット内の画像は、実世界の空港に配備されたカメラネットワークによって、年間4シーズンにわたって撮影され、多様な鳥種、照明条件、13の気象シナリオをカバーしている。 我々の知る限りでは、これは鳥害防止のために現実の空港で飛ぶ鳥を直接収集する最初の大規模な画像データセットである。 このデータセットはhttps://airbirdsdata.github.io/で公開されている。

One fundamental limitation to the research of bird strike prevention is the lack of a large-scale dataset taken directly from real-world airports. Existing relevant datasets are either small in size or not dedicated for this purpose. To advance the research and practical solutions for bird strike prevention, in this paper, we present a large-scale challenging dataset AirBirds that consists of 118,312 time-series images, where a total of 409,967 bounding boxes of flying birds are manually, carefully annotated. The average size of all annotated instances is smaller than 10 pixels in 1920x1080 images. Images in the dataset are captured over 4 seasons of a whole year by a network of cameras deployed at a real-world airport, covering diverse bird species, lighting conditions and 13 meteorological scenarios. To the best of our knowledge, it is the first large-scale image dataset that directly collects flying birds in real-world airports for bird strike prevention. This dataset is publicly available at https://airbirdsdata.github.io/.
翻訳日:2023-04-25 17:13:16 公開日:2023-04-23
# コントラストグラフ表現学習におけるきめ細かいセマンティクスの獲得

Capturing Fine-grained Semantics in Contrastive Graph Representation Learning ( http://arxiv.org/abs/2304.11658v1 )

ライセンス: Link先を確認
Lin Shu, Chuan Chen, Zibin Zheng(参考訳) グラフコントラスト学習は、類似のインスタンスをクローズし、類似のインスタンスをプッシュするコントラストタスクを定義する。 教師付きラベルなしで識別ノードの埋め込みを学習し、ここ数年で注目を集めている。 それにもかかわらず、グラフのコントラスト学習の手法は、グラフに存在する様々な意味論の違いを無視し、粗粒度のノード埋め込みを学習し、下流タスクで最適以下のパフォーマンスをもたらす。 本稿では,このギャップを埋めるために,新しい細粒度セマンティクス強化グラフコントラスト学習(fsgcl)を提案する。 具体的には、FSGCLはまず、入力データの観点からグラフに存在する多様な意味を抽出するためにグラフモチーフを利用するモチーフベースのグラフ構築を導入する。 次に, モデル学習の観点から, きめ細かな意味論の活用をさらに高めるために, 意味レベルのコントラストタスクを検討する。 5つの実世界のデータセットに対する実験は、最先端の手法よりも提案したFSGCLの方が優れていることを示す。 結果を再現可能にするため、この論文が受け入れられた後、githubでコードを公開します。

Graph contrastive learning defines a contrastive task to pull similar instances close and push dissimilar instances away. It learns discriminative node embeddings without supervised labels, which has aroused increasing attention in the past few years. Nevertheless, existing methods of graph contrastive learning ignore the differences between diverse semantics existed in graphs, which learn coarse-grained node embeddings and lead to sub-optimal performances on downstream tasks. To bridge this gap, we propose a novel Fine-grained Semantics enhanced Graph Contrastive Learning (FSGCL) in this paper. Concretely, FSGCL first introduces a motif-based graph construction, which employs graph motifs to extract diverse semantics existed in graphs from the perspective of input data. Then, the semantic-level contrastive task is explored to further enhance the utilization of fine-grained semantics from the perspective of model training. Experiments on five real-world datasets demonstrate the superiority of our proposed FSGCL over state-of-the-art methods. To make the results reproducible, we will make our codes public on GitHub after this paper is accepted.
翻訳日:2023-04-25 17:12:59 公開日:2023-04-23
# 大規模言語モデルにおける反復ブートストラップによる思考連鎖の促進

Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models ( http://arxiv.org/abs/2304.11657v1 )

ライセンス: Link先を確認
Jiashuo Sun and Yi Luo and Yeyun Gong and Chen Lin and Yelong Shen and Jian Guo and Nan Duan(参考訳) 大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。 しかし、LLMによって生成された実演の推論連鎖は誤りを起こしやすいため、推論中に誤った推論につながる可能性がある。 さらに、不適切な例(過度に単純化または複雑)は、様々な難易度レベルの全体的なパフォーマンスに影響を与える可能性がある。 本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。 反復的なブートストラップを利用することで,LLMが自動でエラーを修正できるようになり,より正確かつ包括的な推論連鎖が得られる。 同時に,適度な難易度を持つ推論チェーンを例示として,さまざまな難易度レベルにわたるllmsの一般化性を高めるために,挑戦的かつ回答可能な質問を選択する。 実験の結果、iter-cotは11のデータセット上で3つの異なる推論タスクで競合性能を達成していることが示された。

Large language models (LLMs) can achieve highly effective performance on various reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting as demonstrations. However, the reasoning chains of demonstrations generated by LLMs are prone to errors, which can subsequently lead to incorrect reasoning during inference. Furthermore, inappropriate exemplars (overly simplistic or complex), can affect overall performance among varying levels of difficulty. We introduce Iter-CoT (Iterative bootstrapping in Chain-of-Thoughts Prompting), an iterative bootstrapping approach for selecting exemplars and generating reasoning chains. By utilizing iterative bootstrapping, our approach enables LLMs to autonomously rectify errors, resulting in more precise and comprehensive reasoning chains. Simultaneously, our approach selects challenging yet answerable questions accompanied by reasoning chains as exemplars with a moderate level of difficulty, which enhances the LLMs' generalizability across varying levels of difficulty. Experimental results indicate that Iter-CoT exhibits superiority, achieving competitive performance across three distinct reasoning tasks on eleven datasets.
翻訳日:2023-04-25 17:12:40 公開日:2023-04-23
# 完全受動量子鍵分布の実験的実証

Experimental demonstration of fully passive quantum key distribution ( http://arxiv.org/abs/2304.11655v1 )

ライセンス: Link先を確認
Feng-Yu Lu, Ze-Hao Wang, Jia-Lin Chen, Shuang Wang, Zhen-Qiang Yin, De-Yong He, Rong Wang, Wei Chen, Guan-Jie Fan-Yuan, Guang-Can Guo, Zheng-Fu Han(参考訳) パッシブスキームは、量子鍵分布(QKD)におけるアクティブ変調のサイドチャネルに対して、ユーザがアクティブ変調器を除去できるため、非常に望ましい対策である。 しかし、理論と技法の難しさのため、能動変調はQKDから完全に除去されることはなかった。 本研究では,最新の理論的成果と受動的時間ビンスキームに基づく完全パッシブ時間ビンQKDシステムを開発した。 また,完全受動QKDの有効性と安全性を検証するために,能動変調のない完全受動方式を実験的に実証した。 この研究はQKDの実用化を促進する上で有益である。

Passive scheme is a highly desirable countermeasure against the side-channels of the active-modulation in quantum key distributions (QKD) because it allows the users to remove their active modulators. However, the active modulation have never been completely removed from QKDs due to the difficulty in theory and technique. In this work, we developed a fully-passive time-bin QKD system based on the latest theoretical achievements and our passive time-bin scheme. We also experimentally demonstrated the fully-passive scheme without any active modulation to verify the feasibility and security of the fully passive QKD. This work would be a beneficial exploration for promoting the practical application of QKDs.
翻訳日:2023-04-25 17:12:17 公開日:2023-04-23
# 交通ネットワークの確率的細胞伝達モデル

Stochastic Cell Transmission Models of Traffic Networks ( http://arxiv.org/abs/2304.11654v1 )

ライセンス: Link先を確認
Zachary Feinstein, Marcel Kleiber, Stefan Weber(参考訳) 一般交通ネットワークのための確率的セル伝送モデルのための厳密なフレームワークを提案する。 交通システムの性能は嗜好機能と許容設計に基づいて評価される。 数値的実装は、シミュレーション、ガウス過程回帰、確率的探索手順を組み合わせる。 このアプローチは2つのケーススタディで説明されます。

We introduce a rigorous framework for stochastic cell transmission models for general traffic networks. The performance of traffic systems is evaluated based on preference functionals and acceptable designs. The numerical implementation combines simulation, Gaussian process regression, and a stochastic exploration procedure. The approach is illustrated in two case studies.
翻訳日:2023-04-25 17:12:06 公開日:2023-04-23
# 半協調運転者が幹線道路流れに及ぼす影響に関する研究

Studying the Impact of Semi-Cooperative Drivers on Overall Highway Flow ( http://arxiv.org/abs/2304.11693v1 )

ライセンス: Link先を確認
Noam Buckman, Sertac Karaman, Daniela Rus(参考訳) 半協力行動は人間の運転者の本質的な特性であり、自律運転に考慮されるべきである。 さらに、新しい自律型プランナーは、社会的に準拠した軌道を生成するために、人間のドライバーの社会的価値指向(SVO)を考慮することができる。 しかし、この新しいプランナーの全体的なトラフィックフローへの影響は理解されていない。 本研究では,エージェントが他のエージェントのsvosの知識を前提に,反復的ベストレスポンスのゲーム理論バージョンを展開する,暗黙の半協調駆動の研究を行う。 名目交通の流れをシミュレートし,道路上の社会的エージェントの割合が個人やシステム全体の運転性能に与える影響について検討する。 実験の結果, 社会的エージェントの割合は全体の交通流にわずかに影響を与え, 半協調の利点は自我的・高速運転者に影響を及ぼすことがわかった。

Semi-cooperative behaviors are intrinsic properties of human drivers and should be considered for autonomous driving. In addition, new autonomous planners can consider the social value orientation (SVO) of human drivers to generate socially-compliant trajectories. Yet the overall impact on traffic flow for this new class of planners remain to be understood. In this work, we present study of implicit semi-cooperative driving where agents deploy a game-theoretic version of iterative best response assuming knowledge of the SVOs of other agents. We simulate nominal traffic flow and investigate whether the proportion of prosocial agents on the road impact individual or system-wide driving performance. Experiments show that the proportion of prosocial agents has a minor impact on overall traffic flow and that benefits of semi-cooperation disproportionally affect egoistic and high-speed drivers.
翻訳日:2023-04-25 17:06:47 公開日:2023-04-23
# BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる

The Disharmony Between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation Between Activations ( http://arxiv.org/abs/2304.11692v1 )

ライセンス: Link先を確認
Inyoung Paik, Jaesik Choi(参考訳) バッチ正規化とReLUライクなアクティベーション関数に基づくディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定を経験することができる。 本稿では,ReLUが期待以上に分散を減少させる方法と,バッチ正規化が回復過程の勾配を増幅する方法について説明する。 さらに,学習中のディープニューラルネットワークのダイナミクスがどう変化するか,入力間の相関がこの問題をいかに緩和するかについて議論する。 最後に,2次最適化アルゴリズムに触発された適応学習率アルゴリズムを提案する。大規模バッチトレーニングでは既存の学習率スケーリング手法を上回り,小規模バッチトレーニングではウォームアップを置き換えることができる。

Deep neural networks based on batch normalization and ReLU-like activation functions can experience instability during the early stages of training due to the high gradient induced by temporal gradient explosion. We explain how ReLU reduces variance more than expected, and how batch normalization amplifies the gradient during recovery, which causes gradient explosion while forward propagation remains stable. Additionally, we discuss how the dynamics of a deep neural network change during training and how the correlation between inputs can alleviate this problem. Lastly, we propose a better adaptive learning rate algorithm inspired by second-order optimization algorithms, which outperforms existing learning rate scaling methods in large batch training and can also replace WarmUp in small batch training.
翻訳日:2023-04-25 17:06:24 公開日:2023-04-23
# TGNN: グラフレベルの分類のための統合半教師付きフレームワーク

TGNN: A Joint Semi-supervised Framework for Graph-level Classification ( http://arxiv.org/abs/2304.11688v1 )

ライセンス: Link先を確認
Wei Ju, Xiao Luo, Meng Qu, Yifan Wang, Chong Chen, Minghua Deng, Xian-Sheng Hua, Ming Zhang(参考訳) 本稿では,ソーシャル・ネットワーク分析やバイオインフォマティクスに幅広く応用する重要な課題である,半教師付きグラフ分類について検討する。 最近の研究はグラフニューラルネットワークを用いて分類のためのグラフレベルの表現を学習し、グラフトポロジー(パスなど)から派生した特徴を明示的に活用しなかった。 さらに,ラベル付きデータが少ない場合,ラベルなしデータのトポロジ探索が不十分であるため,これらの手法は十分ではない。 本稿では,Twin Graph Neural Network (TGNN) と呼ばれる新しい半教師付きフレームワークを提案する。 補完的なビューからグラフ構造情報を調べるため、tgnnにはメッセージパッシングモジュールとグラフカーネルモジュールがあります。 ラベルなしデータを完全に活用するために,各モジュールについて,ラベルなしグラフとメモリバンク内の他のラベル付きグラフの類似度を算出し,一貫性の喪失により異なる埋め込み空間における2つの類似度分布の一貫性が促進される。 2つの双対モジュールは、ラベル付きデータとラベルなしデータの両方の構造情報を完全に探索するためにインスタンス類似性知識を交換することで、互いに協力する。 我々は,TGNNを様々な公開データセットで評価し,高い性能が得られることを示す。

This paper studies semi-supervised graph classification, a crucial task with a wide range of applications in social network analysis and bioinformatics. Recent works typically adopt graph neural networks to learn graph-level representations for classification, failing to explicitly leverage features derived from graph topology (e.g., paths). Moreover, when labeled data is scarce, these methods are far from satisfactory due to their insufficient topology exploration of unlabeled data. We address the challenge by proposing a novel semi-supervised framework called Twin Graph Neural Network (TGNN). To explore graph structural information from complementary views, our TGNN has a message passing module and a graph kernel module. To fully utilize unlabeled data, for each module, we calculate the similarity of each unlabeled graph to other labeled graphs in the memory bank and our consistency loss encourages consistency between two similarity distributions in different embedding spaces. The two twin modules collaborate with each other by exchanging instance similarity knowledge to fully explore the structure information of both labeled and unlabeled data. We evaluate our TGNN on various public datasets and show that it achieves strong performance.
翻訳日:2023-04-25 17:06:03 公開日:2023-04-23
# 子どもの顔を大規模に認識する: 合成データ生成と性能ベンチマーク

Child Face Recognition at Scale: Synthetic Data Generation and Performance Benchmark ( http://arxiv.org/abs/2304.11685v1 )

ライセンス: Link先を確認
Magnus Falkenberg, Anders Bensen Ottsen, Mathias Ibsen, Christian Rathgeb(参考訳) HDA-SynChildFacesと呼ばれる現実的なデータセットを合成するために、GAN(Generative Adversarial Network)とFAP(Face Age Progression)モデルを用いて、子どもの顔の大規模データベースの必要性に対処する。 そこで本研究では,まずstylegan3を用いて成人被験者をサンプリングし,その後,interfaceganを用いて年齢の異なる小児に進行する処理パイプラインを提案する。 表情やポーズなどの物体内変異は、被写体を潜伏空間でさらに操作することによって生じる。 さらに、提示されたパイプラインは、被験者の人種を均等に分散することができ、人種分布に関してバランスよく公平なデータセットを生成することができる。 hda-synchildfacesは1,652人の被験者と合計188,832枚の画像で構成され、それぞれの被験者は様々な年齢で様々なサブジェクト内変異を持つ。 その後,生成したデータベース上での各種顔認識システムの性能評価を行い,年齢別に成人と小児の比較を行った。 この研究は、全てのテストシステムにおいて、子どもは大人よりも一貫してパフォーマンスが悪く、パフォーマンスの劣化は年齢に比例することを示している。 さらに、アジア系と黒人の被験者や、白人やラテン系ヒスパニック系の被験者や男性よりも成績が悪い女性など、認識システムのバイアスも明らかにしている。

We address the need for a large-scale database of children's faces by using generative adversarial networks (GANs) and face age progression (FAP) models to synthesize a realistic dataset referred to as HDA-SynChildFaces. To this end, we proposed a processing pipeline that initially utilizes StyleGAN3 to sample adult subjects, which are subsequently progressed to children of varying ages using InterFaceGAN. Intra-subject variations, such as facial expression and pose, are created by further manipulating the subjects in their latent space. Additionally, the presented pipeline allows to evenly distribute the races of subjects, allowing to generate a balanced and fair dataset with respect to race distribution. The created HDA-SynChildFaces consists of 1,652 subjects and a total of 188,832 images, each subject being present at various ages and with many different intra-subject variations. Subsequently, we evaluates the performance of various facial recognition systems on the generated database and compare the results of adults and children at different ages. The study reveals that children consistently perform worse than adults, on all tested systems, and the degradation in performance is proportional to age. Additionally, our study uncovers some biases in the recognition systems, with Asian and Black subjects and females performing worse than White and Latino Hispanic subjects and males.
翻訳日:2023-04-25 17:05:44 公開日:2023-04-23
# Domain Mastery Benchmark: 大規模言語モデルの全体的ドメイン知識を評価するためのベンチマーク - 予備リリース

Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model--A Preliminary Release ( http://arxiv.org/abs/2304.11679v1 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Zhuozhi Xiong, Zihan Li, Qianyu He, Sihang Jiang, Hongwei Feng, Yanghua Xiao(参考訳) ドメイン知識(英: domain knowledge)とは、特定の主題、産業、分野、または専門分野に対する深い理解、専門知識、および親密さをいう。 既存のベンチマークはすべて、ドメイン知識評価のための全体的な設計の欠如です。 ドメイン言語理解の本当の能力は包括的かつ深いベンチマークによってのみ十分に評価できるという信念を持ちながら、ドメイン熟達のベンチマークであるdommaを紹介します。 DomMaは、ドメイン知識理解に基づいてLarge Language Models(LLM)をテストすることを目的としており、広範なドメインカバレッジ、大きなデータボリューム、中国の112の第一級対象分類に基づく継続的に更新されたデータセットを備えている。 dommaは中国語と英語の両方で10万の質問から成り、中国の大学での大学院受験と学部受験から派生している。 また,LLMに適合するベンチマークおよび評価プロセスの設計も提案している。

Domain knowledge refers to the in-depth understanding, expertise, and familiarity with a specific subject, industry, field, or area of special interest. The existing benchmarks are all lack of an overall design for domain knowledge evaluation. Holding the belief that the real ability of domain language understanding can only be fairly evaluated by an comprehensive and in-depth benchmark, we introduces the Domma, a Domain Mastery Benchmark. DomMa targets at testing Large Language Models (LLMs) on their domain knowledge understanding, it features extensive domain coverage, large data volume, and a continually updated data set based on Chinese 112 first-level subject classifications. DomMa consist of 100,000 questions in both Chinese and English sourced from graduate entrance examinations and undergraduate exams in Chinese college. We have also propose designs to make benchmark and evaluation process more suitable to LLMs.
翻訳日:2023-04-25 17:05:08 公開日:2023-04-23
# 水中シーンにおける識別不能物体数

Indiscernible Object Counting in Underwater Scenes ( http://arxiv.org/abs/2304.11677v1 )

ライセンス: Link先を確認
Guolei Sun, Zhaochong An, Yun Liu, Ce Liu, Christos Sakaridis, Deng-Ping Fan, Luc Van Gool(参考訳) 最近、不可解なシーン理解が視覚コミュニティに多くの注目を集めている。 我々は,この分野のフロンティアをさらに進めるために,その周辺に混在する物体を数えることを目的とした,認識不能物体計数(IOC)という新たな課題を体系的に研究する。 適切なIOCデータセットがないため,5,637個の高解像度画像と659,024個の注釈付き中心点を含む大規模データセットIOCfish5Kを提示する。 我々のデータセットは、水中のシーンで認識できない多くの物体(主に魚)で構成されており、アノテーションプロセスはより困難である。 iocfish5kは、大きなスケール、高い解像度、より多くのアノテーション、より密集したシーンのため、識別不能なシーンを持つ既存のデータセットよりも優れている。 これらすべての側面により、IOCにとって最も難しいデータセットとなり、この分野の進歩を支えている。 ベンチマークのために,14の主流手法を選択し,IOCfish5K上で慎重に評価する。 さらに,集中型フレームワークにおける密度と回帰分岐を組み合わせた新しい強力なベースラインであるIOCFormerを提案し,隠れたシーン下でのオブジェクトカウントに効果的に取り組むことができる。 IOCFormerはIOCfish5Kで最先端のスコアを得る。

Recently, indiscernible scene understanding has attracted a lot of attention in the vision community. We further advance the frontier of this field by systematically studying a new challenge named indiscernible object counting (IOC), the goal of which is to count objects that are blended with respect to their surroundings. Due to a lack of appropriate IOC datasets, we present a large-scale dataset IOCfish5K which contains a total of 5,637 high-resolution images and 659,024 annotated center points. Our dataset consists of a large number of indiscernible objects (mainly fish) in underwater scenes, making the annotation process all the more challenging. IOCfish5K is superior to existing datasets with indiscernible scenes because of its larger scale, higher image resolutions, more annotations, and denser scenes. All these aspects make it the most challenging dataset for IOC so far, supporting progress in this area. For benchmarking purposes, we select 14 mainstream methods for object counting and carefully evaluate them on IOCfish5K. Furthermore, we propose IOCFormer, a new strong baseline that combines density and regression branches in a unified framework and can effectively tackle object counting under concealed scenes. Experiments show that IOCFormer achieves state-of-the-art scores on IOCfish5K.
翻訳日:2023-04-25 17:04:51 公開日:2023-04-23
# 非線形マイクロキャビティにおける仮想光子による光子-光子相互作用

Photon-photon interaction mediated by a virtual photon in a nonlinear microcavity ( http://arxiv.org/abs/2304.11676v1 )

ライセンス: Link先を確認
Mengdi Zhao and Kejie Fang(参考訳) 単一光子間の相互作用は、基礎物理学と量子技術の両方において重要な役割を果たす。 今のところ、光子相互作用のデモは、光学共振器に強く結合するか、ライドバーグ状態に励起される量子エミッタを用いて行われている。 本研究では,不定形導波路結合型マイクロキャビティにおいて,量子エミッタを使わずに光子-光子相互作用を実現する。 光子相互作用は真空の量子揺らぎである仮想光子によって媒介される。 これにより、輸送された光子間の強い量子相関が生じ、反発性、魅力的な、またはトンネル作用を示す。 本研究は, 単一光子レベルにおける量子光の制御に高機能なバルク光非線形性を利用する新しい手法を提案する。

Interactions between single photons play a crucial role in both fundamental physics and quantum technologies. So far, only a few demonstrations of photon interactions have been accomplished using quantum emitters that are strongly coupled to optical cavities or excited to Rydberg states. In this study, we achieve photon-photon interaction without the use of quantum emitters for the first time, in a monolithic waveguide-coupled microcavity with intrinsic $\chi^{(2)}$ nonlinearity and engineered dissipation. The photon interaction is mediated by a virtual photon, which is the quantum fluctuation of the vacuum. This leads to strong quantum correlations between transported photons, exhibiting repulsive, attractive, or tunneling behavior. Our work presents a novel approach to harnessing highly-engineerable bulk optical nonlinearities for controlling quantum light at the single-photon level, which has far-reaching implications for nonlinear optical quantum information processing and quantum networking.
翻訳日:2023-04-25 17:04:28 公開日:2023-04-23
# 持続的圧縮センシングのための軽量リカレント学習ネットワーク

A Lightweight Recurrent Learning Network for Sustainable Compressed Sensing ( http://arxiv.org/abs/2304.11674v1 )

ライセンス: Link先を確認
Yu Zhou, Yu Chen, Xiao Zhang, Pan Lai, Lei Huang, Jianmin Jiang(参考訳) 近年、深層学習に基づく圧縮センシング(cs)は、センシングシステムのサンプリングと計算コストの削減と再構成品質の向上に成功している。 しかし、これらのアプローチは計算コストの問題を概ね見落としており、複雑な構造やタスク固有の演算子設計に依存しており、CSイメージングシステムにおいて大量のストレージと高エネルギー消費をもたらす。 本稿では,持続可能なCSシステムを実現するために,繰り返し学習に基づく軽量かつ効果的な深層ニューラルネットワークを提案する。 具体的には,初期再構築サブネットワークと残存再構築サブネットワークから構成される。 初期再構成サブネットワークは階層構造を有し、パラメータ数を削減し、画像の段階的な復元を行うが、残差再構築サブネットワークは、再帰学習による再帰的特徴抽出を容易にし、異なるスケールで特徴融合と深い再構成の両方を行う。 また,初期再構成後,サイズを小さくした特徴写像は残余情報を復元するのに十分であり,必要なメモリ量を大幅に削減できることを示した。 大規模な実験により,提案手法は既存のCSアルゴリズムよりも再現性が高く,ネットワークパラメータもこれらのアルゴリズムより少ないことがわかった。 ソースコードはhttps://github.com/c66yu/csrn.com/。

Recently, deep learning-based compressed sensing (CS) has achieved great success in reducing the sampling and computational cost of sensing systems and improving the reconstruction quality. These approaches, however, largely overlook the issue of the computational cost; they rely on complex structures and task-specific operator designs, resulting in extensive storage and high energy consumption in CS imaging systems. In this paper, we propose a lightweight but effective deep neural network based on recurrent learning to achieve a sustainable CS system; it requires a smaller number of parameters but obtains high-quality reconstructions. Specifically, our proposed network consists of an initial reconstruction sub-network and a residual reconstruction sub-network. While the initial reconstruction sub-network has a hierarchical structure to progressively recover the image, reducing the number of parameters, the residual reconstruction sub-network facilitates recurrent residual feature extraction via recurrent learning to perform both feature fusion and deep reconstructions across different scales. In addition, we also demonstrate that, after the initial reconstruction, feature maps with reduced sizes are sufficient to recover the residual information, and thus we achieved a significant reduction in the amount of memory required. Extensive experiments illustrate that our proposed model can achieve a better reconstruction quality than existing state-of-the-art CS algorithms, and it also has a smaller number of network parameters than these algorithms. Our source codes are available at: https://github.com/C66YU/CSRN.
翻訳日:2023-04-25 17:04:13 公開日:2023-04-23
# 逆統計的一貫性によるディープフェイク検出器の回避

Evading DeepFake Detectors via Adversarial Statistical Consistency ( http://arxiv.org/abs/2304.11670v1 )

ライセンス: Link先を確認
Yang Hou, Qing Guo, Yihao Huang, Xiaofei Xie, Lei Ma, Jianjun Zhao(参考訳) 近年では、DeepFakeと呼ばれる様々な現実的な顔偽造技術が跳躍と境界によって改善され、さらに多くのDeepFake検出技術が提案されている。 これらの手法は通常、空間領域と周波数領域の両方で自然(実)とディープフェイク生成画像の統計的差異を検出することに依存する。 本研究では,最先端のDeepFake検出器を回避するための統計的差異を明示的に最小化することを提案する。 そこで本研究では,2つの主成分を含むディープフェイク検出器に対する統計的一貫性攻撃(スタタタタタック)を提案する。 まず,統計に敏感な自然劣化(露光,ぼやき,ノイズなど)をいくつか選択し,敵対的な方法で偽画像に追加する。 第2に, 自然画像とディープフェイク画像の統計的差異は, 2種類の画像間の分布シフトに正の相関を示し, 異なる劣化の最適化を導くために分布認識損失を用いることを提案する。 その結果, 生成した逆数例の特徴分布は自然画像に近いが, さらに, StatAttackをより強力なバージョンであるMStatAttackに拡張し, 単層劣化を連続的に多層劣化に拡張し, 損失を利用して組み合わせ重量を調整した。 4つの空間ベース検出器と2つの周波数ベース検出器の総合的な実験結果から,提案手法の有効性が示された。

In recent years, as various realistic face forgery techniques known as DeepFake improves by leaps and bounds,more and more DeepFake detection techniques have been proposed. These methods typically rely on detecting statistical differences between natural (i.e., real) and DeepFakegenerated images in both spatial and frequency domains. In this work, we propose to explicitly minimize the statistical differences to evade state-of-the-art DeepFake detectors. To this end, we propose a statistical consistency attack (StatAttack) against DeepFake detectors, which contains two main parts. First, we select several statistical-sensitive natural degradations (i.e., exposure, blur, and noise) and add them to the fake images in an adversarial way. Second, we find that the statistical differences between natural and DeepFake images are positively associated with the distribution shifting between the two kinds of images, and we propose to use a distribution-aware loss to guide the optimization of different degradations. As a result, the feature distributions of generated adversarial examples is close to the natural images.Furthermore, we extend the StatAttack to a more powerful version, MStatAttack, where we extend the single-layer degradation to multi-layer degradations sequentially and use the loss to tune the combination weights jointly. Comprehensive experimental results on four spatial-based detectors and two frequency-based detectors with four datasets demonstrate the effectiveness of our proposed attack method in both white-box and black-box settings.
翻訳日:2023-04-25 17:03:49 公開日:2023-04-23
# TinyMLランドスケープの欠落要素としてのデバイス管理とネットワーク接続

Device management and network connectivity as missing elements in TinyML landscape ( http://arxiv.org/abs/2304.11669v1 )

ライセンス: Link先を確認
Tomasz Szydlo and Marcin Nagy(参考訳) TinyMLに基づくソリューションのデプロイには、いくつかの課題に対処する必要がある。 これには、ハードウェアの不均一性、マイクロプロセッサ(MCU)アーキテクチャ、リソース可用性の制約が含まれる。 もうひとつの課題は、mcuのさまざまなオペレーティングシステム、メモリ管理実装の制限、デバイス間のソフトウェア相互運用性の制限である。 これらの課題の多くは、専用のプログラミングライブラリと特定のデバイスでコードをコンパイルする機能によって解決される。 それでも、論文で議論されている課題は、そのようなソリューションに対するネットワーク接続の問題である。 我々は、標準プロトコル、ソリューションの相互運用性、セキュリティにもっと重点を置くべきだと指摘する。 最後に,LwM2Mプロトコルがネットワーク接続性や相互運用性にまつわる課題を解決する方法について論じる。

Deployment of solutions based on TinyML requires meeting several challenges. These include hardware heterogeneity, microprocessor (MCU) architectures, and resource availability constraints. Another challenge is the variety of operating systems for MCU, limited memory management implementations and limited software interoperability between devices. A number of these challenges are solved by dedicated programming libraries and the ability to compile code for specific devices. Nevertheless, the challenge discussed in the paper is the issue of network connectivity for such solutions. We point out that more emphasis should be placed on standard protocols, interoperability of solutions and security. Finally, the paper discusses how the LwM2M protocol can solve the identified challenges related to network connectivity and interoperability.
翻訳日:2023-04-25 17:03:21 公開日:2023-04-23
# 畳み込みニューラルネットワークを用いたセンチネル-1データからの自動海洋モニタリング

Automatized marine vessel monitoring from sentinel-1 data using convolution neural network ( http://arxiv.org/abs/2304.11717v1 )

ライセンス: Link先を確認
Surya Prakash Tiwari, Sudhir Kumar Chaturvedi, Subhrangshu Adhikary, Saikat Banerjee and Sourav Basu(参考訳) マルチチャネル合成開口レーダ(SAR)システムの進歩は,監視活動の高度化技術と考えられる。 搭載されているSARセンサーは、沿岸の海洋監視と海洋表面の特徴の視認のためのデータを提供する。 船体監視は従来,意思決定能力に欠けるスマートな手法ではない定数False Alarm Rate (CFAR) アルゴリズムを用いて実施されてきたため,多数の物体検出に対応するSAR画像からオブジェクトを認識するためのウェーブレット変換に基づく畳み込みニューラルネットワークアプローチを導入している。 本研究では,インド西部沿岸域におけるSentinel-1 SAR-C双極化データ取得と95.46%の精度で検出を行った。 このモデルを利用することで、海軍オブジェクトの監視と外国の海上侵入者の認識を自動化できる。

The advancement of multi-channel synthetic aperture radar (SAR) system is considered as an upgraded technology for surveillance activities. SAR sensors onboard provide data for coastal ocean surveillance and a view of the oceanic surface features. Vessel monitoring has earlier been performed using Constant False Alarm Rate (CFAR) algorithm which is not a smart technique as it lacks decision-making capabilities, therefore we introduce wavelet transformation-based Convolution Neural Network approach to recognize objects from SAR images during the heavy naval traffic, which corresponds to the numerous object detection. The utilized information comprises Sentinel-1 SAR-C dual-polarization data acquisitions over the western coastal zones of India and with help of the proposed technique we have obtained 95.46% detection accuracy. Utilizing this model can automatize the monitoring of naval objects and recognition of foreign maritime intruders.
翻訳日:2023-04-25 16:57:14 公開日:2023-04-23
# ナノ構造共鳴トンネル型ダイオード光検出器における光トリガー型決定論的スパイク機構

Optically-triggered deterministic spiking regimes in nanostructure resonant tunnelling diode-photodetectors ( http://arxiv.org/abs/2304.11713v1 )

ライセンス: Link先を確認
Qusay Raghib Ali Al-Taai, Mat\v{e}j Hejda, Weikang Zhang, Bruno Romeira, Jos\'e M. L. Figueiredo, Edward Wasige, Antonio Hurtado(参考訳) 本報告では, ナノ構造共振型トンネル型フォト検出器 (RTD-PD) について報告する。 装置の最上層の接触層は、注入電流を抑制するためにナノピラー構造(直径500nm)で設計され、スパイク発生のためのエネルギー操作が低下する。 ナノ構造rtd-pdsにおける制御可能かつ繰り返し可能なニューロン様スパイクパターンの決定論的光トリガーを実験的に示す。 さらに, 負の差動コンダクタンス(NDC)領域に隣接する両領域, いわゆる「ピーク」および「バレー」点(I$-$V$)特性に偏った場合に, スパイク応答を伝達する能力を示す。 この研究は、ナノ構造RTD-PDにおける実験的に重要なニューロン様力学特性、例えばスパイク発火のための明確に定義されたしきい値(入力光強度)、およびスパイク発火屈折時間の存在を示す。 提案方式の光電子・チップスケール特性は,光刺激応答の導電性,反復性,制御性に富む性質とともに,このナノ構造RTD-PD素子を,新しい光応答型ニューロモルフィックコンピューティングハードウェアのための高速でエネルギー効率の良い光電子人工スパイクニューロンの高能率ソリューションとして応用する。

This work reports a nanostructure resonant tunnelling diode-photodetector (RTD-PD) device and demonstrates its operation as a controllable, optically-triggered excitable spike generator. The top contact layer of the device is designed with a nanopillar structure 500 nm in diameter) to restrain the injection current, yielding therefore lower energy operation for spike generation. We demonstrate experimentally the deterministic optical triggering of controllable and repeatable neuron-like spike patterns in the nanostructure RTD-PDs. Moreover, we show the device's ability to deliver spiking responses when biased in both regions adjacent to the negative differential conductance (NDC) region, the so-called 'peak' and 'valley' points of the current-voltage ($I$-$V$) characteristic. This work also demonstrates experimentally key neuron-like dynamical features in the nanostructure RTD-PD, such as a well-defined threshold (in input optical intensity) for spike firing, as well as the presence of spike firing refractory time. The optoelectronic and chip-scale character of the proposed system together with the deterministic, repeatable and well controllable nature of the optically-elicited spiking responses render this nanostructure RTD-PD element as a highly promising solution for high-speed, energy-efficient optoelectronic artificial spiking neurons for novel light-enabled neuromorphic computing hardware.
翻訳日:2023-04-25 16:56:59 公開日:2023-04-23
# マルチタスク学習を用いた音響ベースドローン故障分類

Sound-based drone fault classification using multitask learning ( http://arxiv.org/abs/2304.11708v1 )

ライセンス: Link先を確認
Wonjun Yi, Jung-Woo Choi and Jae-Woo Lee(参考訳) このドローンは、軍事用途、航空写真、殺虫剤散布など、様々な用途に使用されている。 しかし、このドローンは外部の障害に弱いため、プロペラやモーターの故障は容易に起こり得る。 ドローンの安全性を高めるために、ドローンの機械的欠陥をリアルタイムで検出する必要がある。 本稿では,dnn(sound-based deep neural network)障害分類器とドローン音響データセットを提案する。 データセットは、無響室の3つの異なるドローンに搭載されたマイクからドローンの動作音を収集して構築された。 データセットには、飛行方向(前、後ろ、右、左、時計回り、反時計回り)やプロペラやモーターの故障など、ドローンのさまざまな運用条件が含まれている。 ドローンの音は、大学のキャンパスの5箇所で録音されたノイズと混合され、信号対雑音比(SNR)は10dBから15dBに変化した。 得られたデータセットを用いて、短時間の入力波形から機械的故障の種類とその位置を分類するDNN分類器である1DCNN-ResNetを訓練する。 我々は、マルチタスク学習(MTL)を採用し、方向分類タスクを補助タスクとして組み込んで、より一般的な音声特徴を学習させる。 unseenデータによるテストでは、提案されたマルチタスクモデルは、ドローンの障害をうまく分類し、少ないトレーニングデータでもシングルタスクモデルよりも優れています。

The drone has been used for various purposes, including military applications, aerial photography, and pesticide spraying. However, the drone is vulnerable to external disturbances, and malfunction in propellers and motors can easily occur. To improve the safety of drone operations, one should detect the mechanical faults of drones in real-time. This paper proposes a sound-based deep neural network (DNN) fault classifier and drone sound dataset. The dataset was constructed by collecting the operating sounds of drones from microphones mounted on three different drones in an anechoic chamber. The dataset includes various operating conditions of drones, such as flight directions (front, back, right, left, clockwise, counterclockwise) and faults on propellers and motors. The drone sounds were then mixed with noises recorded in five different spots on the university campus, with a signal-to-noise ratio (SNR) varying from 10 dB to 15 dB. Using the acquired dataset, we train a DNN classifier, 1DCNN-ResNet, that classifies the types of mechanical faults and their locations from short-time input waveforms. We employ multitask learning (MTL) and incorporate the direction classification task as an auxiliary task to make the classifier learn more general audio features. The test over unseen data reveals that the proposed multitask model can successfully classify faults in drones and outperforms single-task models even with less training data.
翻訳日:2023-04-25 16:56:34 公開日:2023-04-23
# Deep Convolutional Tables: 畳み込みのないディープラーニング

Deep Convolutional Tables: Deep Learning without Convolutions ( http://arxiv.org/abs/2304.11706v1 )

ライセンス: Link先を確認
Shay Dekel, Yosi Keller, Aharon Bar-Hillel(参考訳) 本稿では, ドット生成ニューロンを使用しず, 代わりに, 畳み込みテーブル (CT) と呼ばれる投票表階層に依存するディープネットワークの新たな定式化を提案し, 高速化されたCPUベースの推論を実現する。 畳み込み層は、現代のディープラーニング技術で最も時間を要するボトルネックであり、モノのインターネットやcpuベースのデバイスでの使用を厳しく制限している。 提案するctは、各画像位置でfern操作を実行する。位置環境をバイナリインデックスにエンコードし、インデックスを使用してテーブルから所望のローカル出力を取得する。 複数のテーブルの結果を組み合わせて最終的な出力を導出する。 CT変換の計算複雑性はパッチ(フィルタ)サイズとは独立であり、チャネルの数によって優雅に成長し、同等の畳み込み層を上回る。 ドット生成ニューロンよりも計算比が優れており、深部CTネットワークはニューラルネットワークと同様の普遍的な近似特性を示す。 この変換は離散的な指標の計算を伴うため、CT階層を訓練するための柔らかい緩和と勾配に基づくアプローチを導出する。 ディープCTネットワークは、類似アーキテクチャのCNNに匹敵する精度を持つことが実験的に示されている。 低計算方式では、代替の効率的なCNNアーキテクチャよりも優れたエラー:高速トレードオフを可能にする。

We propose a novel formulation of deep networks that do not use dot-product neurons and rely on a hierarchy of voting tables instead, denoted as Convolutional Tables (CT), to enable accelerated CPU-based inference. Convolutional layers are the most time-consuming bottleneck in contemporary deep learning techniques, severely limiting their use in Internet of Things and CPU-based devices. The proposed CT performs a fern operation at each image location: it encodes the location environment into a binary index and uses the index to retrieve the desired local output from a table. The results of multiple tables are combined to derive the final output. The computational complexity of a CT transformation is independent of the patch (filter) size and grows gracefully with the number of channels, outperforming comparable convolutional layers. It is shown to have a better capacity:compute ratio than dot-product neurons, and that deep CT networks exhibit a universal approximation property similar to neural networks. As the transformation involves computing discrete indices, we derive a soft relaxation and gradient-based approach for training the CT hierarchy. Deep CT networks have been experimentally shown to have accuracy comparable to that of CNNs of similar architectures. In the low compute regime, they enable an error:speed trade-off superior to alternative efficient CNN architectures.
翻訳日:2023-04-25 16:56:09 公開日:2023-04-23
# lidogの歩行:lidarセマンティクスセグメンテーションのための複数のドメインを旅する

Walking Your LiDOG: A Journey Through Multiple Domains for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2304.11705v1 )

ライセンス: Link先を確認
Cristiano Saltori and Aljo\v{s}a O\v{s}ep and Elisa Ricci and Laura Leal-Taix\'e(参考訳) 多様な環境で安全に動作可能なロボットを配備する能力は、組み込まれたインテリジェントエージェントの開発に不可欠である。 コミュニティとして、私たちはドメイン内のLiDARセマンティックセマンティックセグメンテーションに大きな進歩を遂げました。 しかし、これらの手法はドメイン間で一般化されるのか? そこで本研究では,LiDARセマンティックセグメンテーション(DG-LSS)のためのドメイン一般化(DG)を初めて研究するための実験的なセットアップを設計する。 例えば、ソースデータセット(semantickitti)でトレーニングされたモデルは、ターゲットドメイン(nuscenes)でトレーニングされたモデルによって得られた48.49ドルのmiouに対して、ターゲットデータに対して26.53ドルのmiouを取得します。 このギャップに対処するために、dg-lss用に特別に設計された最初の方法を提案し、ターゲットドメインで34.88ドルのmiouを取得し、すべてのベースラインを上回った。 本手法は,3次元分割ネットワークを高密度で高密度な2次元畳み込みデコーダで拡張し,点雲の鳥眼ビューの分類を学習する。 この単純な補助タスクは、センサー配置シフトや解像度に堅牢で、ドメイン間で転送可能な機能を学ぶことを3Dネットワークに促す。 本研究は,このようなクロスドメインな環境下での将来のモデルの開発と評価をコミュニティに促すことを目的としている。

The ability to deploy robots that can operate safely in diverse environments is crucial for developing embodied intelligent agents. As a community, we have made tremendous progress in within-domain LiDAR semantic segmentation. However, do these methods generalize across domains? To answer this question, we design the first experimental setup for studying domain generalization (DG) for LiDAR semantic segmentation (DG-LSS). Our results confirm a significant gap between methods, evaluated in a cross-domain setting: for example, a model trained on the source dataset (SemanticKITTI) obtains $26.53$ mIoU on the target data, compared to $48.49$ mIoU obtained by the model trained on the target domain (nuScenes). To tackle this gap, we propose the first method specifically designed for DG-LSS, which obtains $34.88$ mIoU on the target domain, outperforming all baselines. Our method augments a sparse-convolutional encoder-decoder 3D segmentation network with an additional, dense 2D convolutional decoder that learns to classify a birds-eye view of the point cloud. This simple auxiliary task encourages the 3D network to learn features that are robust to sensor placement shifts and resolution, and are transferable across domains. With this work, we aim to inspire the community to develop and evaluate future models in such cross-domain conditions.
翻訳日:2023-04-25 16:55:48 公開日:2023-04-23
# バングラデシュにおける持続可能な開発目標達成のための人工知能ベースのフレームワーク

An Artificial Intelligence-based Framework to Achieve the Sustainable Development Goals in the Context of Bangladesh ( http://arxiv.org/abs/2304.11703v1 )

ライセンス: Link先を確認
Md. Tarek Hasan, Mohammad Nazmush Shamael, Arifa Akter, Rokibul Islam, Md. Saddam Hossain Mukta, Salekul Islam(参考訳) 持続可能な開発は、人間の開発目標を達成するためのフレームワークです。 自然資源と生態系サービスを提供する自然システムの能力を提供する。 持続可能な開発は経済と社会にとって不可欠である。 人工知能(AI)は近年注目を集めており、多くの領域に肯定的な影響を与える可能性がある。 aiは長期的な持続可能性を求めて一般的に使用されるコンポーネントである。 本研究では, 持続可能な発展の柱である社会, 環境, 経済に対するAIの影響と, 農業, 廃棄物の分別, スマート水管理, 暖房, 換気, 空調など, さまざまな分野におけるAIの影響を推定できるケーススタディについて検討する。 さらに、バングラデシュのような発展途上国に有効な持続可能な開発目標(SDG)を達成するためのAIベースの戦略を提案する。 提案するフレームワークは、AIの負の影響を減らし、この技術の積極性を促進する可能性がある。

Sustainable development is a framework for achieving human development goals. It provides natural systems' ability to deliver natural resources and ecosystem services. Sustainable development is crucial for the economy and society. Artificial intelligence (AI) has attracted increasing attention in recent years, with the potential to have a positive influence across many domains. AI is a commonly employed component in the quest for long-term sustainability. In this study, we explore the impact of AI on three pillars of sustainable development: society, environment, and economy, as well as numerous case studies from which we may deduce the impact of AI in a variety of areas, i.e., agriculture, classifying waste, smart water management, and Heating, Ventilation, and Air Conditioning (HVAC) systems. Furthermore, we present AI-based strategies for achieving Sustainable Development Goals (SDGs) which are effective for developing countries like Bangladesh. The framework that we propose may reduce the negative impact of AI and promote the proactiveness of this technology.
翻訳日:2023-04-25 16:55:15 公開日:2023-04-23
# 未知操作条件下での深層学習に基づく生命予測のための物理制御型データ生成

Controlled physics-informed data generation for deep learning-based remaining useful life prediction under unseen operation conditions ( http://arxiv.org/abs/2304.11702v1 )

ライセンス: Link先を確認
Jiawei Xiong, Olga Fink, Jian Zhou, Yizhong Ma(参考訳) 代表的なTTF(Time-to-failure)トラジェクトリの限られた可用性は、ディープラーニング(DL)ベースのアプローチによる、実用上の有用寿命(RUL)予測の維持や、その適用を妨げている。 物理的に妥当な合成データを生成することは、この課題に取り組むための有望な方法だ。 本研究では,制御された物理インフォームドデータ生成手法と深層学習に基づく予測モデルを組み合わせた新しいハイブリッドフレームワークを提案する。 提案手法では, 物理的に解釈可能で多様な合成劣化軌跡を生成するために, 新しい制御物理インフォームド生成逆数ネットワーク (CPI-GAN) を開発した。 5つの基本的な物理制約がジェネレータの制御可能な設定として提案されている。 物理インフォームド損失関数を正規化項として設計することにより、合成データに記録されたシステム状態の変化傾向が、基礎となる物理法則と一致していることを保証する。 そして、生成した合成データをDLベースの予測モデルの入力として使用し、RUL推定値を得る。 提案手法は,TTFトラジェクトリの限られた有効性を想定したターボファンエンジンのプログノスティックデータセットである,新しい商用モジュール型エアロ推進システムシミュレーション (N-CMAPSS) に基づいて評価される。 実験により, 本フレームワークは, 劣化傾向に整合した合成TTFトラジェクトリを生成することができることを示した。 生成された軌道はRUL予測の精度を大幅に向上させる。

Limited availability of representative time-to-failure (TTF) trajectories either limits the performance of deep learning (DL)-based approaches on remaining useful life (RUL) prediction in practice or even precludes their application. Generating synthetic data that is physically plausible is a promising way to tackle this challenge. In this study, a novel hybrid framework combining the controlled physics-informed data generation approach with a deep learning-based prediction model for prognostics is proposed. In the proposed framework, a new controlled physics-informed generative adversarial network (CPI-GAN) is developed to generate synthetic degradation trajectories that are physically interpretable and diverse. Five basic physics constraints are proposed as the controllable settings in the generator. A physics-informed loss function with penalty is designed as the regularization term, which ensures that the changing trend of system health state recorded in the synthetic data is consistent with the underlying physical laws. Then, the generated synthetic data is used as input of the DL-based prediction model to obtain the RUL estimations. The proposed framework is evaluated based on new Commercial Modular Aero-Propulsion System Simulation (N-CMAPSS), a turbofan engine prognostics dataset where a limited avail-ability of TTF trajectories is assumed. The experimental results demonstrate that the proposed framework is able to generate synthetic TTF trajectories that are consistent with underlying degradation trends. The generated trajectories enable to significantly improve the accuracy of RUL predictions.
翻訳日:2023-04-25 16:54:58 公開日:2023-04-23
# hknas:ハイパーカーネルニューラルネットワーク探索に基づくハイパースペクトル画像の分類

HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel Neural Architecture Search ( http://arxiv.org/abs/2304.11701v1 )

ライセンス: Link先を確認
Di Wang, Bo Du, Liangpei Zhang, and Dacheng Tao(参考訳) 最近のニューラルアーキテクチャサーチ(NAS)に基づくアプローチは、ハイパースペクトル画像(HSI)分類タスクに大きな進歩をもたらした。 しかしながら、アーキテクチャは通常、ネットワークの重みから独立して最適化され、探索時間が増加し、モデルの性能が制限される。 本稿では, 構造パラメータを余分に定義する従来の手法とは違って, 特別に設計されたハイパーカーネルを活用して構造パラメータを直接生成し, もともとの複素双対最適化問題を一層最適化に巧みに変換し, 探索コストを大幅に削減することを提案する。 そこで我々は,畳み込みのみを含む階層型マルチモジュール探索空間を開発し,これらの操作を統一カーネルに統合する。 上記の探索戦略と探索空間を用いて、画素レベルまたは画像レベルの分類を1次元または3次元の畳み込みで別々に行う3種類のネットワークを得る。 さらに,提案手法と3次元畳み込み分解機構を組み合わせることで,3次元畳み込みをシミュレートし,ネットワーク柔軟性を大幅に向上する多様なアーキテクチャを得る。 6つの公開データセットに関する定量的および定性的な実験は、提案手法が他の高度なNASベースのHSI分類手法と比較して最先端の結果が得られることを示した。

Recent neural architecture search (NAS) based approaches have made great progress in hyperspectral image (HSI) classification tasks. However, the architectures are usually optimized independently of the network weights, increasing searching time and restricting model performances. To tackle these issues, in this paper, different from previous methods that extra define structural parameters, we propose to directly generate structural parameters by utilizing the specifically designed hyper kernels, ingeniously converting the original complex dual optimization problem into easily implemented one-tier optimizations, and greatly shrinking searching costs. Then, we develop a hierarchical multi-module search space whose candidate operations only contain convolutions, and these operations can be integrated into unified kernels. Using the above searching strategy and searching space, we obtain three kinds of networks to separately conduct pixel-level or image-level classifications with 1-D or 3-D convolutions. In addition, by combining the proposed hyper kernel searching scheme with the 3-D convolution decomposition mechanism, we obtain diverse architectures to simulate 3-D convolutions, greatly improving network flexibilities. A series of quantitative and qualitative experiments on six public datasets demonstrate that the proposed methods achieve state-of-the-art results compared with other advanced NAS-based HSI classification approaches.
翻訳日:2023-04-25 16:54:30 公開日:2023-04-23
# DiffESM:拡散モデルを用いた地球系モデルの条件付きエミュレーション

DiffESM: Conditional Emulation of Earth System Models with Diffusion Models ( http://arxiv.org/abs/2304.11699v1 )

ライセンス: Link先を確認
Seth Bassetti, Brian Hutchinson, Claudia Tebaldi, Ben Kravitz(参考訳) 地球システムモデル(esm)は、地球の気候に対する人間の行動の影響を理解する上で不可欠なツールである。 これらのモデルの重要な応用の一つは、熱波や乾いた呪文のような極端な気象現象を研究することである。 しかし、リスクを分析するのに十分な数のシミュレーションを実行するという計算要求は、しばしば禁止される。 本稿では,これまで認識されていなかった気候条件下でのesmの時空間的傾向を,生成的深層学習モデルのクラスである拡散モデルが効果的にエミュレートできることを実証する。 我々は,月間平均気温または降水量を96セントのグローバルグリッド上で条件付けした拡散モデルを提案し,それらの平均値と現実的かつ一貫性のある1日当たりの値を生成する。 その結果, 拡散モデルからの出力は, 熱波, 乾燥呪文, 降雨強度などの現象の頻度でエミュレートするESMの時空間的挙動とよく一致していることがわかった。

Earth System Models (ESMs) are essential tools for understanding the impact of human actions on Earth's climate. One key application of these models is studying extreme weather events, such as heat waves or dry spells, which have significant socioeconomic and environmental consequences. However, the computational demands of running a sufficient number of simulations to analyze the risks are often prohibitive. In this paper we demonstrate that diffusion models -- a class of generative deep learning models -- can effectively emulate the spatio-temporal trends of ESMs under previously unseen climate scenarios, while only requiring a small fraction of the computational resources. We present a diffusion model that is conditioned on monthly averages of temperature or precipitation on a $96 \times 96$ global grid, and produces daily values that are both realistic and consistent with those averages. Our results show that the output from our diffusion model closely matches the spatio-temporal behavior of the ESM it emulates in terms of the frequency of phenomena such as heat waves, dry spells, or rainfall intensity.
翻訳日:2023-04-25 16:54:09 公開日:2023-04-23
# マルチモーダル物体検出のための不確実性のある情報選択

Informative Data Selection with Uncertainty for Multi-modal Object Detection ( http://arxiv.org/abs/2304.11697v1 )

ライセンス: Link先を確認
Xinyu Zhang, Zhiwei Li, Zhenhong Zou, Xin Gao, Yijin Xiong, Dafeng Jin, Jun Li, and Huaping Liu(参考訳) モデル推論における混乱を生じさせることで、オブジェクト検出においてノイズは常に無視できない問題であり、それによってデータの情報性が低下する。 観測パターンの変化により、モデルの堅牢な一般化を必要とする不正確な認識につながる可能性がある。 汎用視覚モデルを実現するためには,マルチモーダルデータから有効な情報を適応的に選択できるディープラーニングモデルを開発する必要がある。 これは主に2つの理由に基づいている。 マルチモーダル学習は単一モーダルデータの固有の欠陥を突破することができ、適応的な情報選択はマルチモーダルデータのカオスを低減することができる。 この問題に対処するため,我々は普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。 マルチパイプラインの疎結合アーキテクチャを採用して,ポイントクラウドとイメージの機能と結果を組み合わせたものだ。 マルチモーダル情報における相関関係を定量化するために、データ情報の逆転として不確実性を異なるモーダルでモデル化し、バウンディングボックス生成に組み込む。 このようにして,本モデルは融合のランダム性を低減し,信頼性の高い出力を生成する。 さらに,kitti 2d object detection datasetとその導出するdirty dataの完全な調査を行った。 我々の核融合モデルは、ガウス、動きのぼやけ、フロストのような激しいノイズ干渉に耐え、わずかに劣化するだけであることが証明されている。 実験結果は,我々の適応核融合の利点を示す。 マルチモーダル核融合の堅牢性に関する我々の分析は、今後の研究にさらなる洞察をもたらすだろう。

Noise has always been nonnegligible trouble in object detection by creating confusion in model reasoning, thereby reducing the informativeness of the data. It can lead to inaccurate recognition due to the shift in the observed pattern, that requires a robust generalization of the models. To implement a general vision model, we need to develop deep learning models that can adaptively select valid information from multi-modal data. This is mainly based on two reasons. Multi-modal learning can break through the inherent defects of single-modal data, and adaptive information selection can reduce chaos in multi-modal data. To tackle this problem, we propose a universal uncertainty-aware multi-modal fusion model. It adopts a multi-pipeline loosely coupled architecture to combine the features and results from point clouds and images. To quantify the correlation in multi-modal information, we model the uncertainty, as the inverse of data information, in different modalities and embed it in the bounding box generation. In this way, our model reduces the randomness in fusion and generates reliable output. Moreover, we conducted a completed investigation on the KITTI 2D object detection dataset and its derived dirty data. Our fusion model is proven to resist severe noise interference like Gaussian, motion blur, and frost, with only slight degradation. The experiment results demonstrate the benefits of our adaptive fusion. Our analysis on the robustness of multi-modal fusion will provide further insights for future research.
翻訳日:2023-04-25 16:53:51 公開日:2023-04-23
# Sarah Frank-Wolfe: ベストレートと実用性を備えた制約付き最適化手法

Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features ( http://arxiv.org/abs/2304.11737v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, David Dobre, Gauthier Gidel(参考訳) frank-wolfe (fw) 法は、機械学習アプリケーションで発生する構造化制約による最適化問題を解決する一般的なアプローチである。 近年、fwの確率的バージョンは、完全な勾配の計算が禁止的に高価である大規模なデータセットに動機づけられ、人気が高まっている。 本稿では、確率有限サム最小化のためのFWアルゴリズムの2つの新しい変種を示す。 我々のアルゴリズムは、凸関数と非凸関数の両方に対して既存の確率的FWアプローチの収束を保証する。 提案手法は,多くの確率的プロジェクションフリーアプローチに共通する大規模なバッチを永久に収集する問題を持たない。 さらに第2のアプローチでは,大規模なバッチあるいは完全な決定論的勾配は必要とせず,有限サム問題に対する多くの手法の典型的弱点である。 我々のアプローチのより速い理論速度を実験的に確認する。

The Frank-Wolfe (FW) method is a popular approach for solving optimization problems with structured constraints that arise in machine learning applications. In recent years, stochastic versions of FW have gained popularity, motivated by large datasets for which the computation of the full gradient is prohibitively expensive. In this paper, we present two new variants of the FW algorithms for stochastic finite-sum minimization. Our algorithms have the best convergence guarantees of existing stochastic FW approaches for both convex and non-convex objective functions. Our methods do not have the issue of permanently collecting large batches, which is common to many stochastic projection-free approaches. Moreover, our second approach does not require either large batches or full deterministic gradients, which is a typical weakness of many techniques for finite-sum problems. The faster theoretical rates of our approaches are confirmed experimentally.
翻訳日:2023-04-25 16:47:55 公開日:2023-04-23
# コンテンツベース画像検索のためのクラス別変分オートエンコーダ

Class-Specific Variational Auto-Encoder for Content-Based Image Retrieval ( http://arxiv.org/abs/2304.11734v1 )

ライセンス: Link先を確認
Mehdi Rafiei and Alexandros Iosifidis(参考訳) 教師付き深層学習法により得られた識別表現を用いて,多様なコンテンツベース画像検索(CBIR)問題に対して有望な結果を示した。 しかし、学習中にラベルを利用する既存の手法は、検索問題が関心のクラスに焦点をあてる場合に理想的ではないすべての利用可能なクラスを識別しようとする。 本稿では,変分自動エンコーダ(VAE)に対する正規化損失を提案する。 その結果、モデルが興味のあるクラスに属するデータを他の可能性から判別することを学習し、vaeの学習可能な潜在空間をクラス固有の検索タスクに適したものにする。 提案するクラス固有変分オートエンコーダ(cs-vae)を3つの公開データセットと1つのカスタムデータセットで評価し,その性能を関連する3つのvaeベース手法と比較した。 実験の結果,提案手法はドメイン内およびドメイン外検索における競合よりも優れていた。

Using a discriminative representation obtained by supervised deep learning methods showed promising results on diverse Content-Based Image Retrieval (CBIR) problems. However, existing methods exploiting labels during training try to discriminate all available classes, which is not ideal in cases where the retrieval problem focuses on a class of interest. In this paper, we propose a regularized loss for Variational Auto-Encoders (VAEs) forcing the model to focus on a given class of interest. As a result, the model learns to discriminate the data belonging to the class of interest from any other possibility, making the learnt latent space of the VAE suitable for class-specific retrieval tasks. The proposed Class-Specific Variational Auto-Encoder (CS-VAE) is evaluated on three public and one custom datasets, and its performance is compared with that of three related VAE-based methods. Experimental results show that the proposed method outperforms its competition in both in-domain and out-of-domain retrieval problems.
翻訳日:2023-04-25 16:47:42 公開日:2023-04-23
# 持続的グローバルヘルスアセスメントのための人工知能を用いたcovid-19拡散予測と影響分析

COVID-19 Spreading Prediction and Impact Analysis by Using Artificial Intelligence for Sustainable Global Health Assessment ( http://arxiv.org/abs/2304.11733v1 )

ライセンス: Link先を確認
Subhrangshu Adhikary, Sonam Chaturvedi, Sudhir Kumar Chaturvedi and Saikat Banerjee(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、今世紀で最も危険な世界的な健康危機だと考えられている。 新型コロナウイルスは家族の感染が確認されている。 世界保健機関(who)の記録(2020年4月18日時点)によると、新型コロナウイルス(covid-19)の現在の流行は2,164,111人以上に影響し、世界200カ国以上で146,198人以上が死亡し、新型コロナウイルスの流行により何十億という人々がライフスタイルへの影響に直面した。 新型コロナウイルスの感染拡大に伴い、研究部門に新たな困難が生じた。 人工知能(AI)による戦略は、こうした流行のパラメータ、危険性、影響をコスト効率よく予測するのに有用である。 この状況におけるAIの根本的な困難は、情報の可用性の制限と病気の確実性である。 本稿では、AIを統合して感染症の発生を予測するとともに、ディープラーニングを用いたAIが新型コロナウイルス感染した胸部X線を認識できるかどうかの検証も行なっている。 新型コロナウイルスの世界的な流行は、人類に巨大な経済的、生態的、社会的な課題をもたらし、本論文の助けを借りて、この致命的な病気から人類を守るのに不可欠な病気の発生の特徴を特定するのにaiが役立つというメッセージを与えました。

The COVID-19 pandemic is considered as the most alarming global health calamity of this century. COVID-19 has been confirmed to be mutated from coronavirus family. As stated by the records of The World Health Organization (WHO at April 18 2020), the present epidemic of COVID-19, has influenced more than 2,164,111 persons and killed more than 146,198 folks in over 200 countries across the globe and billions had confronted impacts in lifestyle because of this virus outbreak. The ongoing overall outbreak of the COVID-19 opened up new difficulties to the research sectors. Artificial intelligence (AI) driven strategies can be valuable to predict the parameters, hazards, and impacts of such an epidemic in a cost-efficient manner. The fundamental difficulties of AI in this situation is the limited availability of information and the uncertain nature of the disease. Here in this article, we have tried to integrate AI to predict the infection outbreak and along with this, we have also tried to test whether AI with help deep learning can recognize COVID-19 infected chest X-Rays or not. The global outbreak of the virus posed enormous economic, ecological and societal challenges into the human population and with help of this paper, we have tried to give a message that AI can help us to identify certain features of the disease outbreak that could prove to be essential to protect the humanity from this deadly disease.
翻訳日:2023-04-25 16:47:24 公開日:2023-04-23
# 不確実性定量化のための量子性極勾配促進

Quantile Extreme Gradient Boosting for Uncertainty Quantification ( http://arxiv.org/abs/2304.11732v1 )

ライセンス: Link先を確認
Xiaozhe Yin, Masoud Fallah-Shorshani, Rob McConnell, Scott Fruin, Yao-Yi Chiang, Meredith Franklin(参考訳) 近年、データの可用性、サイズ、複雑さが増大しているため、機械学習(ML)技術はモデリングに人気がある。 MLモデルを適用した予測は、しばしば推論、意思決定、下流アプリケーションに使用される。 MLの重要かつしばしば見落とされがちな側面は不確実な定量化であり、モデルからの予測の使用や解釈方法に大きな影響を与える可能性がある。 xgboost (extreme gradient boosting) は、単純な実装、高速計算、シーケンシャル・ラーニングにより、他の手法と比較して高い精度で予測されるml手法の1つである。 しかしながら、XGBoostのようなMLモデルにおける不確実性判定技術は、その様々な用途で広く合意されていない。 本稿では,不確実性(QXGBoost)を推定する目的関数として,修正量子回帰を用いたXGBoostの拡張を提案する。 具体的には、分位回帰モデルにフーバーノルムを組み込んで、分位回帰誤差関数の微分可能な近似を構築した。 このキーステップにより、勾配に基づく最適化アルゴリズムを使用するXGBoostは、確率的予測を効率的に行うことができる。 qxgboostは、1つのシミュレーションデータセットと1つの実世界の交通騒音の予測間隔を90\%生成するために適用された。 提案手法は, 定位および定位光勾配ブースティングで発生する不確実性推定値と同等あるいは良好な性能を示した。 QXGBoostの予測間隔の全体性能は,シミュレーションとトラフィックノイズデータセットの両方において,範囲幅に基づく基準に基づく他のモデルよりも優れていた。

As the availability, size and complexity of data have increased in recent years, machine learning (ML) techniques have become popular for modeling. Predictions resulting from applying ML models are often used for inference, decision-making, and downstream applications. A crucial yet often overlooked aspect of ML is uncertainty quantification, which can significantly impact how predictions from models are used and interpreted. Extreme Gradient Boosting (XGBoost) is one of the most popular ML methods given its simple implementation, fast computation, and sequential learning, which make its predictions highly accurate compared to other methods. However, techniques for uncertainty determination in ML models such as XGBoost have not yet been universally agreed among its varying applications. We propose enhancements to XGBoost whereby a modified quantile regression is used as the objective function to estimate uncertainty (QXGBoost). Specifically, we included the Huber norm in the quantile regression model to construct a differentiable approximation to the quantile regression error function. This key step allows XGBoost, which uses a gradient-based optimization algorithm, to make probabilistic predictions efficiently. QXGBoost was applied to create 90\% prediction intervals for one simulated dataset and one real-world environmental dataset of measured traffic noise. Our proposed method had comparable or better performance than the uncertainty estimates generated for regular and quantile light gradient boosting. For both the simulated and traffic noise datasets, the overall performance of the prediction intervals from QXGBoost were better than other models based on coverage width-based criterion.
翻訳日:2023-04-25 16:46:58 公開日:2023-04-23
# 大規模経済派遣のためのエンドツーエンド実現可能な最適化プロキシ

End-to-End Feasible Optimization Proxies for Large-Scale Economic Dispatch ( http://arxiv.org/abs/2304.11726v1 )

ライセンス: Link先を確認
Wenbo Chen and Mathieu Tanneau and Pascal Van Hentenryck(参考訳) 本稿では、経済派遣問題に対する最適化プロキシを訓練するための新しいエンドツーエンド学習・修復(e2elr)アーキテクチャを提案する。 E2ELRは、ディープニューラルネットワークとクローズドフォームで微分可能な修復層を組み合わせることで、エンドツーエンドで学習と実現性を統合する。 E2ELRはまた、ラベル付きデータの必要性を排除し、多くの最適化問題をオフラインで解決する自己教師型学習で訓練されている。 e2elrは、エネルギーと貯蓄を共最適化する経済ディスパッチを使用して、数万のバスを持つ業界規模の電力網で評価される。 その結果、自己監督型E2ELRは、少なくとも1桁の精度で他のベースラインを上回る最適性ギャップを有する最先端性能を達成できることを示した。

The paper proposes a novel End-to-End Learning and Repair (E2ELR) architecture for training optimization proxies for economic dispatch problems. E2ELR combines deep neural networks with closed-form, differentiable repair layers, thereby integrating learning and feasibility in an end-to-end fashion. E2ELR is also trained with self-supervised learning, removing the need for labeled data and the solving of numerous optimization problems offline. E2ELR is evaluated on industry-size power grids with tens of thousands of buses using an economic dispatch that co-optimizes energy and reserves. The results demonstrate that the self-supervised E2ELR achieves state-of-the-art performance, with optimality gaps that outperform other baselines by at least an order of magnitude.
翻訳日:2023-04-25 16:46:32 公開日:2023-04-23
# 顔認識システムの動向分析

Analysis of Recent Trends in Face Recognition Systems ( http://arxiv.org/abs/2304.11725v1 )

ライセンス: Link先を確認
Krishnendu K. S(参考訳) 顔認識技術の飛躍的な進歩により、顔のモダリティは、接触センサーを必要とする指紋のような他の生体認証特性よりも、人のアイデンティティを確立する上で重要な生体認証として広く認識されている。 しかし、クラス間の類似性やクラス内変異により、顔認識システムは、それぞれ偽マッチングと偽非マッチングエラーを生成する。 最近の研究は、抽出された特徴のロバスト性の向上と、認識精度を向上させる前処理アルゴリズムに焦点を当てている。 顔認識は、法執行から監視システムまで、様々な用途で広く用いられてきたため、顔認識の精度と性能は最も高くなければならない。 本稿では、RPRV、LWKPCA、SVM Model、LTrPベースのSPM、CCTVの画像認識のためのディープラーニングフレームワークなど、さまざまな顔認識システムについて論じ、分析する。 これらの顔認識手法、その実装および性能評価は、将来の開発作業において最良の結果を得るために比較される。

With the tremendous advancements in face recognition technology, face modality has been widely recognized as a significant biometric identifier in establishing a person's identity rather than any other biometric trait like fingerprints that require contact sensors. However, due to inter-class similarities and intra-class variations, face recognition systems generate false match and false non-match errors respectively. Recent research focuses on improving the robustness of extracted features and the pre-processing algorithms to enhance recognition accuracy. Since face recognition has been extensively used for several applications ranging from law enforcement to surveillance systems, the accuracy and performance of face recognition must be the finest. In this paper various face recognition systems are discussed and analysed like RPRV, LWKPCA, SVM Model, LTrP based SPM and a deep learning framework for recognising images from CCTV. All these face recognition methods, their implementations and performance evaluations are compared to derive the best outcome for future developmental works.
翻訳日:2023-04-25 16:46:18 公開日:2023-04-23
# LogicRec: ユーザの論理的要件による推奨

LogicRec: Recommendation with Users' Logical Requirements ( http://arxiv.org/abs/2304.11722v1 )

ライセンス: Link先を確認
Zhenwei Tang, Griffin Floto, Armin Toroghi, Shichao Pei, Xiangliang Zhang, Scott Sanner(参考訳) ユーザは、論理的な操作を含む高度にパーソナライズされた要求、例えば、知識グラフ(KG)上の構造化論理的なクエリを自然に形成する2つの要件の交わりを要求できる。 これまで、既存のレコメンダシステムは、ユーザの複雑な論理要件に対処できない。 本研究では,ユーザの論理的要件(LogicRec)による推奨問題を定式化し,LogicRecのベンチマークデータセットを構築する。 さらに,論理要件検索とユーザ嗜好検索に基づく論理recの初期解法を提案し,2つの課題に直面する。 第一に、kgは自然に不完全である。 そのため、論理的な要求に対する答えがkgsで完全には見つからないという真の事実が常に欠落している。 この場合、論理クエリに対する回答に基づく項目の選択は適用されない。 そこで我々は,欠落した事実を共同で推測し,論理的要求に基づいて項目を検索するために論理的クエリ埋め込み(LQE)を利用する。 第2に,回答セットが不足している。 既存のLQEメソッドはクエリと問合せのペアにしか対応できません。 しかし、論理的要件とユーザの嗜好は異なる回答セットを持ち、要求項目と優先項目のペアを提供することで、要求と選好についてより豊富な知識を提供する。 そこで我々はこれらの解集合をまとめて活用するマルチタスク知識共有機構を設計する。 広範な実験結果から,logicrecタスクの意義と提案手法の有効性が示された。

Users may demand recommendations with highly personalized requirements involving logical operations, e.g., the intersection of two requirements, where such requirements naturally form structured logical queries on knowledge graphs (KGs). To date, existing recommender systems lack the capability to tackle users' complex logical requirements. In this work, we formulate the problem of recommendation with users' logical requirements (LogicRec) and construct benchmark datasets for LogicRec. Furthermore, we propose an initial solution for LogicRec based on logical requirement retrieval and user preference retrieval, where we face two challenges. First, KGs are incomplete in nature. Therefore, there are always missing true facts, which entails that the answers to logical requirements can not be completely found in KGs. In this case, item selection based on the answers to logical queries is not applicable. We thus resort to logical query embedding (LQE) to jointly infer missing facts and retrieve items based on logical requirements. Second, answer sets are under-exploited. Existing LQE methods can only deal with query-answer pairs, where queries in our case are the intersected user preferences and logical requirements. However, the logical requirements and user preferences have different answer sets, offering us richer knowledge about the requirements and preferences by providing requirement-item and preference-item pairs. Thus, we design a multi-task knowledge-sharing mechanism to exploit these answer sets collectively. Extensive experimental results demonstrate the significance of the LogicRec task and the effectiveness of our proposed method.
翻訳日:2023-04-25 16:46:00 公開日:2023-04-23
# クエリに着目した要約のための軽量制約生成代替手法

A Lightweight Constrained Generation Alternative for Query-focused Summarization ( http://arxiv.org/abs/2304.11721v1 )

ライセンス: Link先を確認
Zhichao Xu, Daniel Cohen(参考訳) クエリ中心の要約(QFS)は、与えられたクエリの情報要求を満たすドキュメントの要約を提供することを目的としており、抽象的なスニペット生成のような様々なIRアプリケーションで有用である。 現在のQFSアプローチでは、クエリー・アンサーの関連性やクエリーとドキュメント間のきめ細かいトークンレベルの相互作用などの追加情報を、微調整された大きな言語モデルに注入するのが一般的である。 しかし、これらのアプローチは、しばしば余分なパラメータ \& トレーニングを必要とし、新しいデータセットの分布に悪影響を及ぼす。 これを緩和するために、我々は最近開発された制約付き世代モデルニューロロジカルデコーディング(NLD)を、追加のサブアーキテクチャとトレーニングに依存する現在のQFS体制の代替として活用することを提案する。 まず、軽量な勾配帰属モデルを用いて文書から重要なトークンを識別することで語彙制約を構築し、その後、生成された要約を最終的な語彙度を直接操作することでこれらの制約を満たすように強制する。 この軽量なアプローチでは、制約を構築するためにオフザシェルフニューラルネットワークモデルと、QFSを生成するための標準生成言語モデルの両方を使用するため、追加のパラメータや微調整を必要としない。 本稿では,2つの公開QFSコレクションに対するこのアプローチの有効性を,複雑性を著しく低減した最先端モデルとほぼ同等に示す。

Query-focused summarization (QFS) aims to provide a summary of a document that satisfies information need of a given query and is useful in various IR applications, such as abstractive snippet generation. Current QFS approaches typically involve injecting additional information, e.g. query-answer relevance or fine-grained token-level interaction between a query and document, into a finetuned large language model. However, these approaches often require extra parameters \& training, and generalize poorly to new dataset distributions. To mitigate this, we propose leveraging a recently developed constrained generation model Neurological Decoding (NLD) as an alternative to current QFS regimes which rely on additional sub-architectures and training. We first construct lexical constraints by identifying important tokens from the document using a lightweight gradient attribution model, then subsequently force the generated summary to satisfy these constraints by directly manipulating the final vocabulary likelihood. This lightweight approach requires no additional parameters or finetuning as it utilizes both an off-the-shelf neural retrieval model to construct the constraints and a standard generative language model to produce the QFS. We demonstrate the efficacy of this approach on two public QFS collections achieving near parity with the state-of-the-art model with substantially reduced complexity.
翻訳日:2023-04-25 16:45:35 公開日:2023-04-23
# 意味的LiDAR点雲とAs-Designed BIMモデルの統合による都市GeoBIMの構築

Urban GeoBIM construction by integrating semantic LiDAR point clouds with as-designed BIM models ( http://arxiv.org/abs/2304.11719v1 )

ライセンス: Link先を確認
Jie Shao, Wei Yao, Puzuo Wang, Zhiyi He, Lei Luo(参考訳) 3次元実世界の発展は、都市建設においてGeoBIMとして知られる地理情報と構築情報モデル(BIM)の統合を促進する。 グローバルナビゲーション衛星システムと統合された光検出・測位(lidar)は、地理参照空間情報を提供することができる。 しかし、詳細な都市GeoBIMの構築は、LiDARデータ品質の観点からの課題となっている。 ソフトウェアから設計されたBIMモデルは幾何情報に富んでいるが、正確な地理的参照位置がないことが多い。 本稿では,LiDAR点雲とBIMモデルを組み合わせた都市景観の再構築手法を提案する。 最先端のディープラーニングフレームワークとグラフ理論は、まずLiDARポイントクラウドセグメンテーションのために組み合わせられる。 次に、オブジェクトポイントクラウドと対応するBIMモデルを統合するために、粗粒度マッチングプログラムを開発する。 その結果、LiDARデータセットの全体セグメンテーション精度は最大90%に達し、BIMモデルの平均位置精度は極状物体が0.023m、建物が0.156mであり、セグメンテーションおよびマッチングプロセスにおける手法の有効性が示された。 この研究は、高速かつ正確なGeoBIM建設のための実用的なソリューションを提供する。

Developments in three-dimensional real worlds promote the integration of geoinformation and building information models (BIM) known as GeoBIM in urban construction. Light detection and ranging (LiDAR) integrated with global navigation satellite systems can provide geo-referenced spatial information. However, constructing detailed urban GeoBIM poses challenges in terms of LiDAR data quality. BIM models designed from software are rich in geometrical information but often lack accurate geo-referenced locations. In this paper, we propose a complementary strategy that integrates LiDAR point clouds with as-designed BIM models for reconstructing urban scenes. A state-of-the-art deep learning framework and graph theory are first combined for LiDAR point cloud segmentation. A coarse-to-fine matching program is then developed to integrate object point clouds with corresponding BIM models. Results show the overall segmentation accuracy of LiDAR datasets reaches up to 90%, and average positioning accuracies of BIM models are 0.023 m for pole-like objects and 0.156 m for buildings, demonstrating the effectiveness of the method in segmentation and matching processes. This work offers a practical solution for rapid and accurate urban GeoBIM construction.
翻訳日:2023-04-25 16:45:11 公開日:2023-04-23
# 自己監督型表現学習における自由ランチ

No Free Lunch in Self Supervised Representation Learning ( http://arxiv.org/abs/2304.11718v1 )

ライセンス: Link先を確認
Ihab Bendidi, Adrien Bardes, Ethan Cohen, Alexis Lamiable, Guillaume Bollot, Auguste Genovesio(参考訳) コンピュータビジョンにおける自己教師あり表現学習は、有意義で不変な特徴を学ぶために手作りの画像変換に大きく依存する。 しかしながら、トランスフォーメーションデザインの影響に関する広範な調査は文献上ほとんど行われていない。 特に、下流性能の変換設計への依存は確立されているが、深くは研究されていない。 本研究では,この関係と自然画像以外の領域への影響を考察し,その変換を監督の一形態と見なすことができることを示す。 まず、トランスフォーメーションがダウンストリームのパフォーマンスとクラスタリングの関連性に影響を及ぼすだけでなく、教師付きデータセットの各カテゴリが異なる方法で影響を受けることを実証する。 次に,クラス間の差が自然画像よりも微妙でファジィな領域である顕微鏡画像に変換設計が与える影響について検討する。 この場合、下流タスクのパフォーマンスにより大きな影響を与えることが観察される。 最後に、ドメインエキスパートによるこれらを慎重に選択することで、所定の下流タスクにおけるパフォーマンスが大幅に向上する可能性があるため、トランスフォーメーション設計を監督の一形態として活用できることを実証する。

Self-supervised representation learning in computer vision relies heavily on hand-crafted image transformations to learn meaningful and invariant features. However few extensive explorations of the impact of transformation design have been conducted in the literature. In particular, the dependence of downstream performances to transformation design has been established, but not studied in depth. In this work, we explore this relationship, its impact on a domain other than natural images, and show that designing the transformations can be viewed as a form of supervision. First, we demonstrate that not only do transformations have an effect on downstream performance and relevance of clustering, but also that each category in a supervised dataset can be impacted in a different way. Following this, we explore the impact of transformation design on microscopy images, a domain where the difference between classes is more subtle and fuzzy than in natural images. In this case, we observe a greater impact on downstream tasks performances. Finally, we demonstrate that transformation design can be leveraged as a form of supervision, as careful selection of these by a domain expert can lead to a drastic increase in performance on a given downstream task.
翻訳日:2023-04-25 16:44:52 公開日:2023-04-23
# 逆イメージングの原理的前提としてのスコアベース拡散モデル

Score-Based Diffusion Models as Principled Priors for Inverse Imaging ( http://arxiv.org/abs/2304.11751v1 )

ライセンス: Link先を確認
Berthy T. Feng, Jamie Smith, Michael Rubinstein, Huiwen Chang, Katherine L. Bouman, William T. Freeman(参考訳) 不完全な測定から再構成された画像の不確かさを理解することは計算イメージングにおいて重要である。 そこで我々は,スコアベース拡散モデルを用いて,評価した画像の後部を解析する原理的先行値(`score-based priors'')を提案する。 以前は確率的先行は手作りの正規化器と単純な分布に限られていた。 本研究では,スコアベース拡散モデルの理論的に証明された確率関数を実験的に検証する。 この確率関数を変分推論に用いて、結果の後方から標本を採取する方法を示す。 以上の結果から,より高度なデータ駆動画像により,スコアに基づく事前推定が原理的推論を可能にすることが示唆された。

It is important in computational imaging to understand the uncertainty of images reconstructed from imperfect measurements. We propose turning score-based diffusion models into principled priors (``score-based priors'') for analyzing a posterior of images given measurements. Previously, probabilistic priors were limited to handcrafted regularizers and simple distributions. In this work, we empirically validate the theoretically-proven probability function of a score-based diffusion model. We show how to sample from resulting posteriors by using this probability function for variational inference. Our results, including experiments on denoising, deblurring, and interferometric imaging, suggest that score-based priors enable principled inference with a sophisticated, data-driven image prior.
翻訳日:2023-04-25 16:37:31 公開日:2023-04-23
# DiffVoice:潜時拡散によるテキスト音声合成

DiffVoice: Text-to-Speech with Latent Diffusion ( http://arxiv.org/abs/2304.11750v1 )

ライセンス: Link先を確認
Zhijun Liu, Yiwei Guo, Kai Yu(参考訳) 本稿では,潜伏拡散に基づく新しい音声合成モデルdiffvoiceを提案する。 本稿では,まず,可変オートエンコーダを用いて音声信号を音素レートの潜在表現に符号化し,その持続時間と潜在表現を拡散モデルで共同でモデル化する。 LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムを上回ることを示した。 DiffVoiceは、拡散モデルに対する最近の生成逆問題解アルゴリズムを採用することにより、テキストベースの音声編集における最先端性能とゼロショット適応を実現する。

In this work, we present DiffVoice, a novel text-to-speech model based on latent diffusion. We propose to first encode speech signals into a phoneme-rate latent representation with a variational autoencoder enhanced by adversarial training, and then jointly model the duration and the latent representation with a diffusion model. Subjective evaluations on LJSpeech and LibriTTS datasets demonstrate that our method beats the best publicly available systems in naturalness. By adopting recent generative inverse problem solving algorithms for diffusion models, DiffVoice achieves the state-of-the-art performance in text-based speech editing, and zero-shot adaptation.
翻訳日:2023-04-25 16:37:19 公開日:2023-04-23
# 医療データに欠けている価値とインプテーション: 解釈可能な機械学習は役に立つか?

Missing Values and Imputation in Healthcare Data: Can Interpretable Machine Learning Help? ( http://arxiv.org/abs/2304.11749v1 )

ライセンス: Link先を確認
Zhi Chen, Sarah Tan, Urszula Chajewska, Cynthia Rudin, Rich Caruana(参考訳) 値の欠如はデータサイエンスにおける根本的な問題である。 多くのデータセットは、欠落した値を扱う方法が機械学習モデルに大きく影響を与える可能性があるため、適切に扱わなければならない値が欠落している。 医療応用においては、その結果が医療決定に影響を及ぼす可能性がある。 文献には不足した値を扱うための多くの方法があり、例えば最先端の手法は、しばしば計算のためのブラックボックスモデルに依存する。 本稿では,最近の解釈可能な機械学習の進歩が,不足する価値問題の理解と解決のための新たな視点を提供することを示す。 本稿では,(1)欠陥メカニズムの新たな洞察を得て,不足の原因をよりよく理解し,(2)計算アルゴリズムによって生じる潜在的なリスクを検出・緩和する,高精度なガラス箱説明型ブースティングマシン(EBMs)に基づく手法を提案する。 実世界の医療データセットの実験では,提案手法の有効性が示されている。

Missing values are a fundamental problem in data science. Many datasets have missing values that must be properly handled because the way missing values are treated can have large impact on the resulting machine learning model. In medical applications, the consequences may affect healthcare decisions. There are many methods in the literature for dealing with missing values, including state-of-the-art methods which often depend on black-box models for imputation. In this work, we show how recent advances in interpretable machine learning provide a new perspective for understanding and tackling the missing value problem. We propose methods based on high-accuracy glass-box Explainable Boosting Machines (EBMs) that can help users (1) gain new insights on missingness mechanisms and better understand the causes of missingness, and (2) detect -- or even alleviate -- potential risks introduced by imputation algorithms. Experiments on real-world medical datasets illustrate the effectiveness of the proposed methods.
翻訳日:2023-04-25 16:37:06 公開日:2023-04-23
# IDLL: 混在環境における逆深さ線に基づく視覚的位置決め

IDLL: Inverse Depth Line based Visual Localization in Challenging Environments ( http://arxiv.org/abs/2304.11748v1 )

ライセンス: Link先を確認
Wanting Li, Yu Shao, Yongcai Wang, Shuo Wang, Xuewei Bai, Deying Li(参考訳) GNSSにおける無人航空機やロボットの高精度かつリアルタイムな位置決めは、様々な物流や監視用途において極めて重要である。 視覚に基づく同時位置決めとマッピング(VSLAM)は鍵となるソリューションであるが、テクスチャレスで人為的な屋内環境での位置ずれに悩まされている。 ラインの特徴は、ローカライゼーションの堅牢性を改善するために活用できる人工環境に富んでいるが、既存のポイントラインベースのvslam法は、不要な自由度をもたらすライン表現の精度と効率に欠けている。 本稿では,画像平面上の投影された画素座標が比較的正確であるという事実を生かした2つの逆深度変数を用いて,抽出された各ライン特徴をモデル化する逆深度ラインローカライゼーション(IDLL)を提案する。 この自由度の低い行の表現は、各ステップにおけるライン決定とより高速なバンドル調整の収束を可能にするため、ポイントとラインの両方の視覚的特徴を用いて、より正確で効率的なフレーム間登録とフレーム間マップ登録を実現する。 このラインモデルを用いて,VSLAMのフロントエンドモジュールとバックエンドモジュール全体を再設計する。 idllは、複数のパーセプタリーチャリングデータセットで広範囲に評価される。 結果は,従来の機能ベースVSLAM法よりも精度が高く,堅牢であり,計算オーバーヘッドも低いことを示した。

Precise and real-time localization of unmanned aerial vehicles (UAVs) or robots in GNSS denied indoor environments are critically important for various logistics and surveillance applications. Vision-based simultaneously locating and mapping (VSLAM) are key solutions but suffer location drifts in texture-less, man-made indoor environments. Line features are rich in man-made environments which can be exploited to improve the localization robustness, but existing point-line based VSLAM methods still lack accuracy and efficiency for the representation of lines introducing unnecessary degrees of freedoms. In this paper, we propose Inverse Depth Line Localization(IDLL), which models each extracted line feature using two inverse depth variables exploiting the fact that the projected pixel coordinates on the image plane are rather accurate, which partially restrict the lines. This freedom-reduced representation of lines enables easier line determination and faster convergence of bundle adjustment in each step, therefore achieves more accurate and more efficient frame-to-frame registration and frame-to-map registration using both point and line visual features. We redesign the whole front-end and back-end modules of VSLAM using this line model. IDLL is extensively evaluated in multiple perceptually-challenging datasets. The results show it is more accurate, robust, and needs lower computational overhead than the current state-of-the-art of feature-based VSLAM methods.
翻訳日:2023-04-25 16:36:49 公開日:2023-04-23
# SketchXAI:人間のケッチの説明可能性

SketchXAI: A First Look at Explainability for Human Sketches ( http://arxiv.org/abs/2304.11744v1 )

ライセンス: Link先を確認
Zhiyu Qu, Yulia Gryaditskaya, Ke Li, Kaiyue Pang, Tao Xiang, Yi-Zhe Song(参考訳) 本稿では,XAI(Explainable Artificial Intelligence)の風景にヒトのスケッチを初めて紹介する。 スケッチは「人間中心」データ形式であり、説明可能性を研究する自然なインターフェースであると主張する。 スケッチ固有の説明可能性設計の育成に注力する。 これは、ストロークをユニークなビルディングブロックとして識別することから始まり、写真ではオブジェクト構築の柔軟性と操作が不可能になる。 次に,ストロークの本質的特性(形状,位置,順序)に対応する,説明性に優しいスケッチエンコーダを設計する。 次に、スケッチのための最初のXAIタスク、ストローク位置反転SLIを定義する。 写真用のヒートマップとテキスト用の相関行列があるように、SLIは、ネットワークに見えないスケッチのストローク位置をいかに回復できるかを尋ねるために、スケッチを行うための説明可能性角を提供する。 我々は,論文中のSLIプロセスのスナップショットとして,プロジェクトページのGIFとして,読者に質的な結果を提供する。 小さいが興味深いのは、スケッチ固有の設計のおかげで、スケッチエンコーダは最小のパラメータを持ちながら、これまでで最高のスケッチ認識精度が得られることです。 コードは \url{https://sketchxai.github.io} で入手できる。

This paper, for the very first time, introduces human sketches to the landscape of XAI (Explainable Artificial Intelligence). We argue that sketch as a ``human-centred'' data form, represents a natural interface to study explainability. We focus on cultivating sketch-specific explainability designs. This starts by identifying strokes as a unique building block that offers a degree of flexibility in object construction and manipulation impossible in photos. Following this, we design a simple explainability-friendly sketch encoder that accommodates the intrinsic properties of strokes: shape, location, and order. We then move on to define the first ever XAI task for sketch, that of stroke location inversion SLI. Just as we have heat maps for photos, and correlation matrices for text, SLI offers an explainability angle to sketch in terms of asking a network how well it can recover stroke locations of an unseen sketch. We offer qualitative results for readers to interpret as snapshots of the SLI process in the paper, and as GIFs on the project page. A minor but interesting note is that thanks to its sketch-specific design, our sketch encoder also yields the best sketch recognition accuracy to date while having the smallest number of parameters. The code is available at \url{https://sketchxai.github.io}.
翻訳日:2023-04-25 16:36:25 公開日:2023-04-23
# GamutMLP:カラーロスリカバリのための軽量MLP

GamutMLP: A Lightweight MLP for Color Loss Recovery ( http://arxiv.org/abs/2304.11743v1 )

ライセンス: Link先を確認
Hoang M. Le, Brian Price, Scott Cohen, Michael S. Brown(参考訳) カメラと画像編集ソフトウェアは広域のProPhotoカラー空間で画像を処理し、全可視色の90%をカバーしている。 しかし、画像が共有のために符号化されると、この色豊かな表現は変換され、小域標準RGB(sRGB)色空間に収まるようにクリップされる。 色情報の復元は, クリッピング手順により困難である。 2次元画像の暗黙的表現に着想を得て,ガミュート縮小段階における軽量多層パーセプトロン(MLP)モデルを最適化し,クリッピング値を予測する手法を提案する。 GamutMLPは最適化に約2秒かかり、23KBのストレージしか必要としない。 小さなメモリフットプリントにより、GamutMLPモデルをsRGBイメージのメタデータとして保存することができます。 色回復のためのアプローチの有効性を実証し、事前学習したDNNベースのガム拡張ネットワークや他の暗黙の神経表現手法を含む代替戦略と比較する。 この取り組みの一環として、トレーニングとテストのために2200個の広域/小域画像からなる新しい色域データセットを導入する。 私たちのコードとデータセットはプロジェクトのWebサイトにある。

Cameras and image-editing software often process images in the wide-gamut ProPhoto color space, encompassing 90% of all visible colors. However, when images are encoded for sharing, this color-rich representation is transformed and clipped to fit within the small-gamut standard RGB (sRGB) color space, representing only 30% of visible colors. Recovering the lost color information is challenging due to the clipping procedure. Inspired by neural implicit representations for 2D images, we propose a method that optimizes a lightweight multi-layer-perceptron (MLP) model during the gamut reduction step to predict the clipped values. GamutMLP takes approximately 2 seconds to optimize and requires only 23 KB of storage. The small memory footprint allows our GamutMLP model to be saved as metadata in the sRGB image -- the model can be extracted when needed to restore wide-gamut color values. We demonstrate the effectiveness of our approach for color recovery and compare it with alternative strategies, including pre-trained DNN-based gamut expansion networks and other implicit neural representation methods. As part of this effort, we introduce a new color gamut dataset of 2200 wide-gamut/small-gamut images for training and testing. Our code and dataset can be found on the project website: https://gamut-mlp.github.io.
翻訳日:2023-04-25 16:36:03 公開日:2023-04-23
# ロバストで差動的にプライベートな線形バンディット

Robust and differentially private stochastic linear bandits ( http://arxiv.org/abs/2304.11741v1 )

ライセンス: Link先を確認
Vasileios Charisopoulos, Hossein Esfandiari, Vahab Mirrokni(参考訳) 本稿では,差分プライバシー,ロバスト性,バッチ観測などの追加要件の下で,確率線形帯域問題について検討する。 特に、敵は各バッチで観察された報酬の一定割合をランダムに選択し、それらを任意の数に置き換える。 本稿では,2つのプライバシモデルに基づく対数的バッチクエリを用いたアーム除去アルゴリズムの差分的・頑健な変種について述べる。 最初のモデルでは、各ラウンドの報酬は潜在的に異なるクライアントによって報告され、標準のローカルディファレンシャルプライバシ(ldp)に還元される。 第2のモデルでは、すべてのアクションは別のクライアントによって"所有"され、複数のクエリに対して報酬を集約し、代わりに集約応答を民営化する。 我々の知る限りでは、我々のアルゴリズムは確率線形バンディット問題において微分プライバシーと敵対的ロバスト性を同時に提供する最初のアルゴリズムである。

In this paper, we study the stochastic linear bandit problem under the additional requirements of differential privacy, robustness and batched observations. In particular, we assume an adversary randomly chooses a constant fraction of the observed rewards in each batch, replacing them with arbitrary numbers. We present differentially private and robust variants of the arm elimination algorithm using logarithmic batch queries under two privacy models and provide regret bounds in both settings. In the first model, every reward in each round is reported by a potentially different client, which reduces to standard local differential privacy (LDP). In the second model, every action is "owned" by a different client, who may aggregate the rewards over multiple queries and privatize the aggregate response instead. To the best of our knowledge, our algorithms are the first simultaneously providing differential privacy and adversarial robustness in the stochastic linear bandits problem.
翻訳日:2023-04-25 16:35:42 公開日:2023-04-23
# ニューロシンボリックアプローチによる人間の運動予測の強化

A Neuro-Symbolic Approach for Enhanced Human Motion Prediction ( http://arxiv.org/abs/2304.11740v1 )

ライセンス: Link先を確認
Sariah Mghames, Luca Castri, Marc Hanheide, Nicola Bellotto(参考訳) 人間のコンテキストに基づく推論は、特に自律システム(例えばロボット)をデプロイする人々にとって、多くの現実世界のアプリケーションにとって不可欠である。 本稿では,人間の動き予測の分野をさらに前進させるための文脈推論の新しいアプローチを提案する。 そこで我々は,Quilitative Trajectory Calculus (QTC) と呼ばれる空間的表現のための直感的手法を利用して,近隣の相互作用の重み付けを行う,ヒトの動作予測のためのニューロシンボリックアプローチを提案する。 提案手法は,人間の運動予測のベースラインと汎用的多変量時系列予測のベースラインであるstate of artの2つのアーキテクチャを用いて,中長期の地平線上で実験的に検証された。 固定カメラとモバイルカメラの両方から収集された、複雑なシナリオの6つのデータセットがテストに使用された。 実験の結果,NeuroSyMアプローチは,ほとんどの場合,予測精度においてベースラインアーキテクチャよりも優れていた。

Reasoning on the context of human beings is crucial for many real-world applications especially for those deploying autonomous systems (e.g. robots). In this paper, we present a new approach for context reasoning to further advance the field of human motion prediction. We therefore propose a neuro-symbolic approach for human motion prediction (NeuroSyM), which weights differently the interactions in the neighbourhood by leveraging an intuitive technique for spatial representation called Qualitative Trajectory Calculus (QTC). The proposed approach is experimentally tested on medium and long term time horizons using two architectures from the state of art, one of which is a baseline for human motion prediction and the other is a baseline for generic multivariate time-series prediction. Six datasets of challenging crowded scenarios, collected from both fixed and mobile cameras, were used for testing. Experimental results show that the NeuroSyM approach outperforms in most cases the baseline architectures in terms of prediction accuracy.
翻訳日:2023-04-25 16:35:27 公開日:2023-04-23
# 深層強化学習を用いたブリッジング宣言・手続き・条件メタ認知知識ギャップ

Bridging Declarative, Procedural, and Conditional Metacognitive Knowledge Gap Using Deep Reinforcement Learning ( http://arxiv.org/abs/2304.11739v1 )

ライセンス: Link先を確認
Mark Abdelshiheed, John Wesley Hostetter, Tiffany Barnes, Min Chi(参考訳) 帰納的領域では、3つのメタ認知的知識タイプは宣言的、手続き的、条件付き学習である。 この研究は、深層強化学習(drl)を活用し、3つの知識タイプ間のギャップを埋める適応的メタ認知的介入を提供し、知的指導システム(itss)間の将来の学習に備える。 学生はこれらの介入を受け、デフォルトのフォワードチェイン戦略をサポートする論理チューターで後方チェイン(BC)戦略をどのようにいつ使うかを教えた。 6週間後、我々は介入なしでbcのみをサポートする確率チューターで生徒を訓練した。 以上の結果から,drlは学生間のメタ認知的知識ギャップを橋渡しし,コントロールピアに対する学習性能を大幅に向上させた。 さらに、DRL政策は、宣言的、手続き的、条件的学生間の論理教師のメタ認知的発達に適応し、彼らの戦略的決定はより自律的である。

In deductive domains, three metacognitive knowledge types in ascending order are declarative, procedural, and conditional learning. This work leverages Deep Reinforcement Learning (DRL) in providing adaptive metacognitive interventions to bridge the gap between the three knowledge types and prepare students for future learning across Intelligent Tutoring Systems (ITSs). Students received these interventions that taught how and when to use a backward-chaining (BC) strategy on a logic tutor that supports a default forward-chaining strategy. Six weeks later, we trained students on a probability tutor that only supports BC without interventions. Our results show that on both ITSs, DRL bridged the metacognitive knowledge gap between students and significantly improved their learning performance over their control peers. Furthermore, the DRL policy adapted to the metacognitive development on the logic tutor across declarative, procedural, and conditional students, causing their strategic decisions to be more autonomous.
翻訳日:2023-04-25 16:35:07 公開日:2023-04-23
# スマートグリッドセキュリティを用いたゲーム理論のレビュー

A Review On Game Theory With Smart Grid Security ( http://arxiv.org/abs/2304.11738v1 )

ライセンス: Link先を確認
Rahat Masum(参考訳) スマートグリッドは、電力グリッド、制御センター、スマート計測設備、エネルギールーティング、顧客要求応答サービスを組み合わせた、現代的な2つのメカニズムである。 システムは複雑で、セキュリティ上の脆弱性は、音声操作とプロセス継続にとって最重要である。 スマートグリッドはエンドユーザとエネルギープロバイダを接続するので、この2つのパーティはエネルギー管理作業フロー全体の中で相互に対話することができる。 この点において、ゲーム理論はスマートグリッドのセキュリティ対策の分析において効果的な洞察を提供する。 前述のパーティは、グリッドのさまざまな脅威に対する解決策を提供するための、ゲームモデルのプレーヤーになります。 本研究では,スマートグリッドの分散セクターに対する脅威モデルに対する既存のアプローチについて,簡単なレビューを行った。 これらの脅威に対する解決策は、シナリオ内の攻撃者とディフェンダーを結びつけるゲーム理論的アプローチに基づいている。

Smart grid is the modern two way mechanism combining the power grid, control center, smart metering facility, energy routing and customer demand response services. The system being complicated, security vulnerabilities are paramount for the sound operation and process continuation. Since smart grid connects with the end user to the energy providers, these two parties can interact with each other within the whole energy management work flow. In this regard, game theory provides effective insights in the analysis of security measures for smart grid. The mentioned parties will be the players in the game model to provide a solution for the various threats to the grid aspects. In this work, a brief review has presented with the existing approaches to the threat models for divergent sectors of the smart grid. The solution approaches to these threats are based on the game theoretical approaches that connect the attackers and defenders in the scenarios.
翻訳日:2023-04-25 16:34:47 公開日:2023-04-23
# NAIST-SIC対応英語・日本語同時翻訳コーパス

NAIST-SIC-Aligned: Automatically-Aligned English-Japanese Simultaneous Interpretation Corpus ( http://arxiv.org/abs/2304.11766v1 )

ライセンス: Link先を確認
Jinming Zhao, Yuka Ko, Kosuke Doi, Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時解釈(si)データが同時機械翻訳(simt)にどのように影響するかは疑問である。 本研究は, 大規模学習コーパスの欠如による研究が限られており, 英語と日本語の自動並行SIデータセットである 'emph{NAIST-SIC-Aligned} を導入して, ギャップを埋めることを目指している。 非整合コーパスNAIST-SIC から,コーパスを並列化してモデルトレーニングに適した2段階アライメント手法を提案する。 第1段階は、ソース文とターゲット文の多対多マッピングを行う粗いアライメントであり、第2段階は、アライメントペアの品質を向上させるために、イントラ・インター・センテンスフィルタリングを行う細粒度のアライメントである。 コーパスの品質を確保するため、各ステップは定量的または質的に検証されている。 これは文献における最初のオープンソースの大規模並列SIデータセットである。 評価目的の小さなテストセットも手作業でキュレートしました。 SIコーパスの構築とSiMTの研究が進むことを願っている。 データは \url{https://github.com/mingzi151/ahc-si} にある。

It remains a question that how simultaneous interpretation (SI) data affects simultaneous machine translation (SiMT). Research has been limited due to the lack of a large-scale training corpus.In this work, we aim to fill in the gap by introducing \emph{NAIST-SIC-Aligned}, which is an automatically-aligned parallel English-Japanese SI dataset. Starting with a non-aligned corpus NAIST-SIC, we propose a two-stage alignment approach to make the corpus parallel and thus suitable for model training. The first stage is coarse alignment where we perform a many-to-many mapping between source and target sentences, and the second stage is fine-grained alignment where we perform intra- and inter-sentence filtering to improve the quality of aligned pairs. To ensure the quality of the corpus, each step has been validated either quantitatively or qualitatively. This is the first open-sourced large-scale parallel SI dataset in the literature. We also manually curated a small test set for evaluation purposes. We hope our work advances research on SI corpora construction and SiMT. Please find our data at \url{https://github.com/mingzi151/AHC-SI}.
翻訳日:2023-04-25 16:27:47 公開日:2023-04-23
# ネットワークエッジにおける階層的ディープラーニング推論の事例

The Case for Hierarchical Deep Learning Inference at the Network Edge ( http://arxiv.org/abs/2304.11763v1 )

ライセンス: Link先を確認
Ghina Al-Atat and Andrea Fresa and Adarsh Prasad Behera and Vishnu Narayanan Moothedath and James Gross and Jaya Prakash Champati(参考訳) リソース制約のあるエッジデバイス(EDs)、例えばIoTセンサーやマイクロコントローラユニットは、ネットワークの端でディープラーニング(DL)推論を使用してインテリジェントな決定を行う。 この目的に向けて、これらのデバイスに組み込むことができる、小さなMLモデル(計算とメモリストレージの要求を低減したディープラーニング(DL)モデル)の開発において、かなりの研究努力が続けられている。 しかし、小さなMLモデルは推論精度が低い。 異なる面では、EDとエッジサーバ(ES)間の分散DL推論のために、DNNパーティショニングと推論オフロード技術を検討した。 本稿では,Vishnuらによって提案された新しいアプローチである階層推論(Hierarchical Inference, HI)について検討する。 HIの下では、各データサンプルに対して、EDはまず推論にローカルアルゴリズム(例えば、小さなMLモデル)を使用する。 アプリケーションによっては、ローカルアルゴリズムによって提供される推論が誤りであったり、エッジやクラウド上の大きなDLモデルからさらなる補助が必要になった場合、EDはデータサンプルをオフロードする。 当初、HI は ED が有効でないように見えるが、一般に、局所的な推論が十分かどうかを知らない。 しかし, 機械故障検出および画像分類への応用において, HIの実装の可能性を示す。 定量的分析を用いてその利点を実証し、HIを使用すると、エッジAIシステムにおける低レイテンシ、帯域幅の節約、省エネにつながると論じる。

Resource-constrained Edge Devices (EDs), e.g., IoT sensors and microcontroller units, are expected to make intelligent decisions using Deep Learning (DL) inference at the edge of the network. Toward this end, there is a significant research effort in developing tinyML models - Deep Learning (DL) models with reduced computation and memory storage requirements - that can be embedded on these devices. However, tinyML models have lower inference accuracy. On a different front, DNN partitioning and inference offloading techniques were studied for distributed DL inference between EDs and Edge Servers (ESs). In this paper, we explore Hierarchical Inference (HI), a novel approach proposed by Vishnu et al. 2023, arXiv:2304.00891v1 , for performing distributed DL inference at the edge. Under HI, for each data sample, an ED first uses a local algorithm (e.g., a tinyML model) for inference. Depending on the application, if the inference provided by the local algorithm is incorrect or further assistance is required from large DL models on edge or cloud, only then the ED offloads the data sample. At the outset, HI seems infeasible as the ED, in general, cannot know if the local inference is sufficient or not. Nevertheless, we present the feasibility of implementing HI for machine fault detection and image classification applications. We demonstrate its benefits using quantitative analysis and argue that using HI will result in low latency, bandwidth savings, and energy savings in edge AI systems.
翻訳日:2023-04-25 16:27:26 公開日:2023-04-23
# 3dセマンティックセグメンテーションのためのアクティブラーニングのシード

You Never Get a Second Chance To Make a Good First Impression: Seeding Active Learning for 3D Semantic Segmentation ( http://arxiv.org/abs/2304.11762v1 )

ライセンス: Link先を確認
Nermin Samet, Oriane Sim\'eoni, Gilles Puy, Georgy Ponimatkin, Renaud Marlet, Vincent Lepetit(参考訳) セマンティックセグメンテーションのための3次元点雲の効率的なアノテーションのためのアクティブ学習手法であるSeedALを提案する。 アクティブラーニング(al)は、所定の予算内で注釈を付けるための関連するデータ分数を反復的に選択するが、他のデータ分数に注釈をつける利点を見積もるために、データセット('シード')の最初の分数を既に注釈付けする必要がある。 まず,種の選択が多くのAL法の性能に大きく影響を与えることを示す。 次に,ALの性能が向上する種を自動的に構築する手法を提案する。 点雲の画像が利用可能であると仮定すると、この手法は点雲の多様性を測定するために強力な教師なし画像特徴に依存する。 アノテーション予算の下で多様性を最適化することで、シードの点雲を選択し、線形最適化問題を解くことで実現できる。 本実験は,S3DISとSemanticKittiの両方のデータセット上で,ランダムシードと既存手法と比較して,本手法の有効性を示す。 コードは \url{https://github.com/nerminsamet/seedal} で入手できる。

We propose SeedAL, a method to seed active learning for efficient annotation of 3D point clouds for semantic segmentation. Active Learning (AL) iteratively selects relevant data fractions to annotate within a given budget, but requires a first fraction of the dataset (a 'seed') to be already annotated to estimate the benefit of annotating other data fractions. We first show that the choice of the seed can significantly affect the performance of many AL methods. We then propose a method for automatically constructing a seed that will ensure good performance for AL. Assuming that images of the point clouds are available, which is common, our method relies on powerful unsupervised image features to measure the diversity of the point clouds. It selects the point clouds for the seed by optimizing the diversity under an annotation budget, which can be done by solving a linear optimization problem. Our experiments demonstrate the effectiveness of our approach compared to random seeding and existing methods on both the S3DIS and SemanticKitti datasets. Code is available at \url{https://github.com/nerminsamet/seedal}.
翻訳日:2023-04-25 16:26:59 公開日:2023-04-23
# 絶対活性化関数による分類ニューラルネットワークの改善(MNIST/LeNET-5例)

Improving Classification Neural Networks by using Absolute activation function (MNIST/LeNET-5 example) ( http://arxiv.org/abs/2304.11758v1 )

ライセンス: Link先を確認
Oleg I.Berngardt(参考訳) 本稿では,ニューラルネットワークの分類における絶対活性化関数の利用について論じる。 この活性化関数を、より単純で複雑な問題に応用する例を示す。 mnist問題の解法としてlenet-5ネットワークを用いて,tanh,relu,seluアクティベーションを用いた場合と比較して,絶対活性化関数の効率を示す。 ディープネットワークでは絶対的活性化は消滅や爆発的な勾配を引き起こしないため、絶対的活性化は単純なニューラルネットワークとディープニューラルネットワークの両方で使用できる。 絶対活性化を伴うトレーニングネットワークのボラティリティが高いため、各トレーニング期間の検証データセット分析を用いて、任意のテストデータセットにおける精度の低さを推定し、この値を用いて学習速度の停止/減算を行い、これらのステップ間でadamアルゴリズムを再初期化するadamトレーニングアルゴリズムの特別な修正が使用される。 Absolute アクティベーションに基づく LeNet のようなアーキテクチャで MNIST 問題を解くことで,予測精度を向上させることにより,ニューラルネットワーク内のトレーニングパラメータの数を著しく削減できることが示されている。

The paper discusses the use of the Absolute activation function in classification neural networks. An examples are shown of using this activation function in simple and more complex problems. Using as a baseline LeNet-5 network for solving the MNIST problem, the efficiency of Absolute activation function is shown in comparison with the use of Tanh, ReLU and SeLU activations. It is shown that in deep networks Absolute activation does not cause vanishing and exploding gradients, and therefore Absolute activation can be used in both simple and deep neural networks. Due to high volatility of training networks with Absolute activation, a special modification of ADAM training algorithm is used, that estimates lower bound of accuracy at any test dataset using validation dataset analysis at each training epoch, and uses this value to stop/decrease learning rate, and re-initializes ADAM algorithm between these steps. It is shown that solving the MNIST problem with the LeNet-like architectures based on Absolute activation allows to significantly reduce the number of trained parameters in the neural network with improving the prediction accuracy.
翻訳日:2023-04-25 16:26:37 公開日:2023-04-23
# コンタクトセンターにおける無言放棄:不確かなデータから顧客忍耐度を推定する

Silent Abandonment in Contact Centers: Estimating Customer Patience from Uncertain Data ( http://arxiv.org/abs/2304.11754v1 )

ライセンス: Link先を確認
Antonio Castellanos, Galit B. Yom-Tov, Yair Goldberg(参考訳) サービスの改善を目指す中で、企業は顧客に対して、コミュニケーションが主にテキストベースであるコンタクトセンターを通じてエージェントと対話する機会を提供する。 これは近年、企業とのコミュニケーションのお気に入りのチャンネルの1つになっている。 しかし, 接点センターは, 客が待ち行列を放棄したか, サービスを待つ意思があるかなど, 顧客体験の共通プロキシの測定が情報の不確実性にさらされているため, 運用上の課題に直面している。 この研究は、顧客による静かな放棄という不確実性の主な原因の影響に焦点を当てています。 これらの顧客は、問い合わせへの返信を待っている間、システムを離れるが、インタラクションのモバイルアプリを閉じるなど、それを行う兆候は示さない。 その結果, システムが残されていること, 廃棄物処理の時間とキャパシティを, この事実が実現するまで意識していないことがわかった。 本稿では,放棄した顧客の30%~67%が無言でシステムを放棄し,顧客行動がシステムの効率を5%~15%低下させることを示す。 そこで我々は,チャットとメッセージングの2種類のコンタクトセンターにおいて,サイレントアバンドメントの顧客を特定する手法を開発した。 まずテキスト解析とSVMモデルを用いて実際の放棄レベルを推定する。 次に、パラメトリック推定器を使用し、待ち行列モデルをデータに適合させる重要なパラメータとして顧客忍耐度を正確に推定するための期待最大化アルゴリズムを開発する。 本稿では,待ち行列モデルにおける無言放棄の会計が,パフォーマンスの重要な指標の推定精度を劇的に向上させることを示す。 最後に,無言棄却現象に対処するための作戦戦略を提案する。

In the quest to improve services, companies offer customers the opportunity to interact with agents through contact centers, where the communication is mainly text-based. This has become one of the favorite channels of communication with companies in recent years. However, contact centers face operational challenges, since the measurement of common proxies for customer experience, such as knowledge of whether customers have abandoned the queue and their willingness to wait for service (patience), are subject to information uncertainty. We focus this research on the impact of a main source of such uncertainty: silent abandonment by customers. These customers leave the system while waiting for a reply to their inquiry, but give no indication of doing so, such as closing the mobile app of the interaction. As a result, the system is unaware that they have left and waste agent time and capacity until this fact is realized. In this paper, we show that 30%-67% of the abandoning customers abandon the system silently, and that such customer behavior reduces system efficiency by 5%-15%. To do so, we develop methodologies to identify silent-abandonment customers in two types of contact centers: chat and messaging systems. We first use text analysis and an SVM model to estimate the actual abandonment level. We then use a parametric estimator and develop an expectation-maximization algorithm to estimate customer patience accurately, as customer patience is an important parameter for fitting queueing models to the data. We show how accounting for silent abandonment in a queueing model improves dramatically the estimation accuracy of key measures of performance. Finally, we suggest strategies to operationally cope with the phenomenon of silent abandonment.
翻訳日:2023-04-25 16:26:14 公開日:2023-04-23
# 連続エピソード制御

Continuous Episodic Control ( http://arxiv.org/abs/2211.15183v3 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat(参考訳) 非パラメトリックエピソードメモリは、強化学習タスクにおける高次経験に素早く取り込むのに使うことができる。 報酬シグナルを緩やかにバックプロパタイズする必要があるパラメトリックディープ強化学習アプローチとは対照的に、これらの手法は解を一度だけ発見し、その課題を繰り返し解決する。 しかしながら、エピソディック制御解は離散テーブルに格納されており、このアプローチは離散作用空間問題にのみ適用されている。 そこで本研究では,連続行動空間の問題における逐次決定のための非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を提案する。 いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好である。 要するに、CECは継続的制御タスクで学ぶための高速なアプローチである。

Non-parametric episodic memory can be used to quickly latch onto high-rewarded experience in reinforcement learning tasks. In contrast to parametric deep reinforcement learning approaches in which reward signals need to be back-propagated slowly, these methods only need to discover the solution once, and may then repeatedly solve the task. However, episodic control solutions are stored in discrete tables, and this approach has so far only been applied to discrete action space problems. Therefore, this paper introduces Continuous Episodic Control (CEC), a novel non-parametric episodic memory algorithm for sequential decision making in problems with a continuous action space. Results on several sparse-reward continuous control environments show that our proposed method learns faster than state-of-the-art model-free RL and memory-augmented RL algorithms, while maintaining good long-run performance as well. In short, CEC can be a fast approach for learning in continuous control tasks.
翻訳日:2023-04-25 11:31:29 公開日:2023-04-23
# 超流動$^4$Heの顕微鏡像

Microscopic picture of superfluid $^4$He ( http://arxiv.org/abs/2211.02236v4 )

ライセンス: Link先を確認
Yongle Yu, Hailin Luo(参考訳) 超流動$^4$Heの微視的量子機構は、その多体エネルギーレベルの新しい性質を明らかにすることによって解明する。 遷移点以下の温度では、システムの低層レベルは基本的なグループ化挙動を示し、各レベルは単一のグループに属している。 超流動状態では、系は群特異的に周囲との温度平衡を確立する。 特に、選択されたグループのレベルは当初占有され、熱的に人口密度が上昇するが、残りのレベルはグループ間の遷移の欠如により空白のままである。 超流動速度や熱エネルギー密度などの系のマクロ特性は、占有群の熱分布によって統計的に決定される。 さらに, 超流動の熱エネルギーは流れ速度と異常な関係にあり, 流れ速度が大きいほど熱エネルギーが小さくなると仮定した。 この関係は, メカノ・カロリック効果や噴水効果など, 系の熱運動と流体運動の基本的な結合を浮き彫りにする現象に起因しており, さらに, 4$Heスーパーフローにおいて, 反直観的自己加熱効果の実験的証拠を提示し, 4$Heスーパーフローが, その速度に有意な熱エネルギーをもたらすことを確認した。

We elucidate the microscopic quantum mechanism of superfluid $^4$He by uncovering a novel characteristic of its many-body energy levels. At temperature below the transition point, the system's low-lying levels exhibit a fundamental grouping behavior, wherein each level belongs exclusively to a single group. In a superflow state, the system establishes thermal equilibrium with its surroundings on a group-specific basis. Specifically, the levels of a selected group, initially occupied, become thermally populated, while the remaining groups of levels stay vacant due to absence of transitions between groups. The macroscopic properties of the system, such as its superflow velocity and thermal energy density, are statistically determined by the thermal distribution of the occupied group. Additionally, we infer that the thermal energy of a superflow has an unusual relationship with flow velocity, such that the larger the flow velocity, the smaller the thermal energy. This relationship is responsible for a range of intriguing phenomena, including the mechano-caloric effect and the fountain effect, which highlight a fundamental coupling between the thermal motion and hydrodynamic motion of the system.Furthermore, we present experimental evidence of a counterintuitive self-heating effect in $^4$He superflows, confirming that a $^4$He superflow carries significant thermal energy related to its velocity.
翻訳日:2023-04-25 11:31:14 公開日:2023-04-23
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v3 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2023-04-25 11:30:52 公開日:2023-04-23
# 自然言語によるプログラミングの学習

Learning to Program with Natural Language ( http://arxiv.org/abs/2304.10464v2 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Chenfei Wu, Wenshan Wu, Dongyan Zhao, Nan Duan(参考訳) 大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示し、人工知能の実現への期待を高めている。 複雑なタスクをより完了させるためには、タスクをプログラムし、それからプログラムに従ってテストサンプルの特定のソリューションを生成する必要がある。 タスク手順を記述するための新しいプログラミング言語として自然言語を使うことを提案し,人間とllmの両方で容易に理解できるようにする。 LLMは自然言語プログラムを直接生成できるが、これらのプログラムは事実の誤りや不完全なステップを含む可能性がある。 そこで本研究では,複雑なタスクの学習データセットから自然言語プログラムを学習し,学習プログラムを用いて推論をガイドする学習 to Program (LP)法を提案する。 AMPS(高校数学)とMath(競争数学問題)のデータセットに関する実験は、我々のアプローチの有効性を実証している。 AMPSデータセットから10タスクでChatGPTをテストする場合、我々のLPメソッドの平均性能は、直接ゼロショットテストのパフォーマンスを18.3$\%$で上回った。 コードは \url{https://github.com/microsoft/naturallanguageprogram} でリリースします。

Large Language Models (LLMs) have shown remarkable performance in various basic natural language tasks, which raises hopes for achieving Artificial General Intelligence. To better complete complex tasks, we need LLMs to program for the task and then follow the program to generate a specific solution for the test sample. We propose using natural language as a new programming language to describe task procedures, making them easily understandable to both humans and LLMs. LLMs are capable of directly generating natural language programs, but these programs may still contain factual errors or incomplete steps. Therefore, we further propose the Learning to Program (LP) method to ask LLMs themselves to learn natural language programs from the training dataset of complex tasks and then use the learned program to guide inference. Our experiments on the AMPS (high school math) and Math (competition mathematics problems) datasets demonstrate the effectiveness of our approach. When testing ChatGPT on 10 tasks from the AMPS dataset, our LP method's average performance outperformed the direct zero-shot test performance by 18.3$\%$. We release our code at \url{https://github.com/microsoft/NaturalLanguageProgram}.
翻訳日:2023-04-25 11:21:50 公開日:2023-04-23
# 2メモリ強化学習

Two-Memory Reinforcement Learning ( http://arxiv.org/abs/2304.10098v2 )

ライセンス: Link先を確認
Zhao Yang, Thomas. M. Moerland, Mike Preuss, Aske Plaat(参考訳) 深層強化学習は重要な経験的成功を示しているが、報酬情報の伝播が遅く、パラメトリックニューラルネットワークの更新が遅いため、比較的遅い傾向にある。 一方、非パラメトリックエピソードメモリは、表現学習を必要としない高速な学習代替手段を提供し、アクション選択のステートアクション値として最大エピソードリターンを使用する。 エピソディックメモリと強化学習には、それぞれ独自の強みと弱みがある。 人間は学習中に複数のメモリシステムを同時に利用し、それら全てから恩恵を受けることができる。 本研究では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。 2Mエージェントは、強調記憶部の速度と強化学習部の最適性と一般化能力を利用して相互に補完する。 実験により, 2M エージェントはよりデータ効率が高く, 純粋なエピソード記憶と純粋強化学習と, 最先端のメモリ増強 RL エージェントの両方に優れることが示された。 さらに、提案手法は、任意のエピソディックメモリエージェントと他のオフポリシー強化学習アルゴリズムを組み合わせるのに使用できる汎用フレームワークを提供する。

While deep reinforcement learning has shown important empirical success, it tends to learn relatively slow due to slow propagation of rewards information and slow update of parametric neural networks. Non-parametric episodic memory, on the other hand, provides a faster learning alternative that does not require representation learning and uses maximum episodic return as state-action values for action selection. Episodic memory and reinforcement learning both have their own strengths and weaknesses. Notably, humans can leverage multiple memory systems concurrently during learning and benefit from all of them. In this work, we propose a method called Two-Memory reinforcement learning agent (2M) that combines episodic memory and reinforcement learning to distill both of their strengths. The 2M agent exploits the speed of the episodic memory part and the optimality and the generalization capacity of the reinforcement learning part to complement each other. Our experiments demonstrate that the 2M agent is more data efficient and outperforms both pure episodic memory and pure reinforcement learning, as well as a state-of-the-art memory-augmented RL agent. Moreover, the proposed approach provides a general framework that can be used to combine any episodic memory agent with other off-policy reinforcement learning algorithms.
翻訳日:2023-04-25 11:20:11 公開日:2023-04-23
# TransPimLib: メモリ内処理システムにおける効率的な超越関数ライブラリ

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems ( http://arxiv.org/abs/2304.01951v3 )

ライセンス: Link先を確認
Maurus Item, Juan G\'omez-Luna, Yuxin Guo, Geraldo F. Oliveira, Mohammad Sadrosadati, Onur Mutlu(参考訳) プロセッシング・イン・メモリ(PIM)は、現代のコンピューティングシステムにおけるデータ移動のボトルネックを軽減することを約束する。 しかし、現在の実世界のpimシステムは、メモリの近くで処理要素を構築するのが困難でコストがかかるため、ハードウェアが従来のプロセッサ(cpu、gpu)よりも制約が強いという固有の欠点がある。 その結果、汎用PIMアーキテクチャは、かなり限られた命令セットをサポートし、超越関数などの複雑な操作(例えば平方根)を実行するのに苦労する。 これらの操作は、機械学習アプリケーションにおけるアクティベーション機能など、現代のワークロードにおいて特に重要である。 汎用PIMシステムにおける超越関数(およびその他のハード・トゥ・カルキュレート関数)のサポートを提供するため,CORDICに基づく三角関数,双曲関数,指数関数,対数,平方根などのためのライブラリである \emph{TransPimLib} を提案する。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、マイクロベンチマークと3つのフルワークロード(Blackscholes, Sigmoid, Softmax)を用いて、TransPimLibの手法を性能と精度で徹底的に評価する。 私たちは、すべてのコードとデータセットを、~\url{https://github.com/CMU-SAFARI/transpimlib}でオープンソースにしています。

Processing-in-memory (PIM) promises to alleviate the data movement bottleneck in modern computing systems. However, current real-world PIM systems have the inherent disadvantage that their hardware is more constrained than in conventional processors (CPU, GPU), due to the difficulty and cost of building processing elements near or inside the memory. As a result, general-purpose PIM architectures support fairly limited instruction sets and struggle to execute complex operations such as transcendental functions and other hard-to-calculate operations (e.g., square root). These operations are particularly important for some modern workloads, e.g., activation functions in machine learning applications. In order to provide support for transcendental (and other hard-to-calculate) functions in general-purpose PIM systems, we present \emph{TransPimLib}, a library that provides CORDIC-based and LUT-based methods for trigonometric functions, hyperbolic functions, exponentiation, logarithm, square root, etc. We develop an implementation of TransPimLib for the UPMEM PIM architecture and perform a thorough evaluation of TransPimLib's methods in terms of performance and accuracy, using microbenchmarks and three full workloads (Blackscholes, Sigmoid, Softmax). We open-source all our code and datasets at~\url{https://github.com/CMU-SAFARI/transpimlib}.
翻訳日:2023-04-25 11:19:34 公開日:2023-04-23