このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220907)

# 文書レベルの知覚分析のための階層的相互作用ネットワークと再考機構

Hierarchical Interaction Networks with Rethinking Mechanism for Document-level Sentiment Analysis ( http://arxiv.org/abs/2007.08445v4 )

ライセンス: Link先を確認
Lingwei Wei, Dou Hu, Wei Zhou, Xuehai Tang, Xiaodan Zhang, Xin Wang, Jizhong Han, Songlin Hu(参考訳) 文書レベルの感性分析(DSA)は、あいまいなセマンティックリンクと感情情報の複雑化により、より困難である。 近年,テキスト要約の活用に力を入れ,有望な成果を上げている。 しかし、これらの要約に基づく手法は、要約と文書間の固有の相互作用を無視するなど、要約を十分に活用しなかった。 結果として、彼らは文書の中の主要な点を表現するために表現を制限した。 そこで本研究では,DSAにおける明示的な主題パターンと感情文脈を用いた識別表現を効果的に生成する方法を提案する。 複数の粒度で要約と文書の双方向インタラクションを探索し,感情分類のための主観指向文書表現を学習するために階層的相互作用ネットワーク(hin)を提案する。 さらに,感性に基づく再考機構 (SR) を設計し,感性ラベル情報を用いてHINを精製し,感性に配慮した文書表現を学習する。 提案したモデルを3つの公開データセット上で広範囲に評価する。 実験結果は,提案モデルの有効性を一貫して示し,HIN-SRが様々な最先端手法より優れていることを示す。

Document-level Sentiment Analysis (DSA) is more challenging due to vague semantic links and complicate sentiment information. Recent works have been devoted to leveraging text summarization and have achieved promising results. However, these summarization-based methods did not take full advantage of the summary including ignoring the inherent interactions between the summary and document. As a result, they limited the representation to express major points in the document, which is highly indicative of the key sentiment. In this paper, we study how to effectively generate a discriminative representation with explicit subject patterns and sentiment contexts for DSA. A Hierarchical Interaction Networks (HIN) is proposed to explore bidirectional interactions between the summary and document at multiple granularities and learn subject-oriented document representations for sentiment classification. Furthermore, we design a Sentiment-based Rethinking mechanism (SR) by refining the HIN with sentiment label information to learn a more sentiment-aware document representation. We extensively evaluate our proposed models on three public datasets. The experimental results consistently demonstrate the effectiveness of our proposed models and show that HIN-SR outperforms various state-of-the-art methods.
翻訳日:2022-11-09 23:06:41 公開日:2022-09-07
# サービスシステムにおける動的価格と容量サイズに対するオンライン学習アプローチ

An online learning approach to dynamic pricing and capacity sizing in service systems ( http://arxiv.org/abs/2009.02911v3 )

ライセンス: Link先を確認
Xinyun Chen, Yunan Liu and Guiyu Hong(参考訳) そこで、サービス提供者は、累積的な期待利益を最大化するために最適なサービス料$p$とサービス容量$\mu$を取得することを目的としている(サービス収益は、スタッフのコストと遅延ペナルティを減少させる)。 待ち行列のダイナミクスの複雑な性質から、このような問題は解析的な解決策を持たないため、以前の研究では、到着率とサービスレートの両方が無限大に送信される重トラフィック分析がしばしば行われる。 本研究では,システムの規模を増加させることなく,この問題を解決するためのオンライン学習フレームワークを提案する。 このフレームワークはgradient-based online learning in queue (goliq)と呼ばれている。 goliqは、一連の運用サイクルに時間軸を整理し、前回のサイクルで収集したデータを使用して、各サイクルで価格と人員配置ポリシーを改善するための効率的な手順を規定している。 ここでのデータには、顧客の到着数、待ち時間、サーバーの忙しい時間が含まれます。 このアプローチの独創性は、そのオンラインの性質にある。これにより、サービスプロバイダは、環境と対話することで、よりよいことをすることができる。 GOLiQの有効性について (i)アルゴリズム収束・後悔分析を含む理論的結果(対数的後悔境界付き) (ii)代表的な$gi/gi/1$キューのシミュレーション実験による工学的確認

We study a dynamic pricing and capacity sizing problem in a $GI/GI/1$ queue, where the service provider's objective is to obtain the optimal service fee $p$ and service capacity $\mu$ so as to maximize the cumulative expected profit (the service revenue minus the staffing cost and delay penalty). Due to the complex nature of the queueing dynamics, such a problem has no analytic solution so that previous research often resorts to heavy-traffic analysis where both the arrival rate and service rate are sent to infinity. In this work we propose an online learning framework designed for solving this problem which does not require the system's scale to increase. Our framework is dubbed Gradient-based Online Learning in Queue (GOLiQ). GOLiQ organizes the time horizon into successive operational cycles and prescribes an efficient procedure to obtain improved pricing and staffing policies in each cycle using data collected in previous cycles. Data here include the number of customer arrivals, waiting times, and the server's busy times. The ingenuity of this approach lies in its online nature, which allows the service provider do better by interacting with the environment. Effectiveness of GOLiQ is substantiated by (i) theoretical results including the algorithm convergence and regret analysis (with a logarithmic regret bound), and (ii) engineering confirmation via simulation experiments of a variety of representative $GI/GI/1$ queues.
翻訳日:2022-10-21 03:24:38 公開日:2022-09-07
# egmm: クラスタリングのためのガウス混合モデルの実証版

EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering ( http://arxiv.org/abs/2010.01333v3 )

ライセンス: Link先を確認
Lianmeng Jiao, Thierry Denoeux, Zhun-ga Liu, Quan Pan(参考訳) ガウス混合モデル(GMM)は、統計的推論に適した特性を持つクラスタリングのための単純な、しかし原則化されたフレームワークを提供する。 本稿では,クラスタメンバシップの不確実性をより正確に評価するための理論的枠組みとして,EGMM(evidential GMM)と呼ばれるモデルベースのクラスタリングアルゴリズムを提案する。 各オブジェクトのクラスタメンバシップを表す質量関数を用いて、所望のクラスタのパワーセット上のコンポーネントからなる証拠的ガウス混合分布を、データセット全体をモデル化するために提案する。 EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。 クラスタの適切な数を自動的に決定できる妥当性指標も提供する。 提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。 合成および実データセット実験により,提案したEGMMは他のクラスタリングアルゴリズムよりも優れた性能を示した。 さらに、その優位性はマルチモーダル脳画像分割への応用によっても示される。

The Gaussian mixture model (GMM) provides a simple yet principled framework for clustering, with properties suitable for statistical inference. In this paper, we propose a new model-based clustering algorithm, called EGMM (evidential GMM), in the theoretical framework of belief functions to better characterize cluster-membership uncertainty. With a mass function representing the cluster membership of each object, the evidential Gaussian mixture distribution composed of the components over the powerset of the desired clusters is proposed to model the entire dataset. The parameters in EGMM are estimated by a specially designed Expectation-Maximization (EM) algorithm. A validity index allowing automatic determination of the proper number of clusters is also provided. The proposed EGMM is as simple as the classical GMM, but can generate a more informative evidential partition for the considered dataset. The synthetic and real dataset experiments show that the proposed EGMM performs better than other representative clustering algorithms. Besides, its superiority is also demonstrated by an application to multi-modal brain image segmentation.
翻訳日:2022-10-11 08:43:02 公開日:2022-09-07
# 弾性測度を用いた次元低減

Dimensionality Reduction using Elastic Measures ( http://arxiv.org/abs/2209.04933v1 )

ライセンス: Link先を確認
J. Derek Tucker, Matthew T. Martinez, Jose M. Laborde(参考訳) 最近、超次元データのビッグデータ分析が急増し、機械学習アプリケーションのための次元削減技術に新たな関心が寄せられている。 これらの手法がパフォーマンスの向上と基礎となるデータの理解を改善するためには、適切なメトリックを特定する必要がある。 このステップはしばしば見落とされ、データの基礎となる幾何学を考慮せずにメトリクスが選択される。 本稿では,t分布の確率的近傍埋め込み (t-SNE) と一様多様体近似・投影 (UMAP) に弾性指標を組み込む手法を提案する。 本手法は,回転,パラメータ化,スケールによって特徴付けられる関数データに適用する。 これらの特性が無視されると、誤った分析と分類性能が低下する可能性がある。 本研究では,3つのベンチマークデータセット (mpeg-7, car data set, and plane data set of thankoor) の形状識別タスクにおいて,0.77, 0.95, 1.00 f1スコアをそれぞれ達成した。

With the recent surge in big data analytics for hyper-dimensional data there is a renewed interest in dimensionality reduction techniques for machine learning applications. In order for these methods to improve performance gains and understanding of the underlying data, a proper metric needs to be identified. This step is often overlooked and metrics are typically chosen without consideration of the underlying geometry of the data. In this paper, we present a method for incorporating elastic metrics into the t-distributed Stochastic Neighbor Embedding (t-SNE) and Uniform Manifold Approximation and Projection (UMAP). We apply our method to functional data, which is uniquely characterized by rotations, parameterization, and scale. If these properties are ignored, they can lead to incorrect analysis and poor classification performance. Through our method we demonstrate improved performance on shape identification tasks for three benchmark data sets (MPEG-7, Car data set, and Plane data set of Thankoor), where we achieve 0.77, 0.95, and 1.00 F1 score, respectively.
翻訳日:2022-09-25 17:41:19 公開日:2022-09-07
# 機械モデルと機械学習を用いたホップ分岐を用いた物理系のモデリング

Modelling of physical systems with a Hopf bifurcation using mechanistic models and machine learning ( http://arxiv.org/abs/2209.06910v1 )

ライセンス: Link先を確認
K.H. Lee and D.A.W. Barton and L.Renson(参考訳) 本稿では,物理系のリミットサイクル振動とホップ分岐を予測するために,機械モデルと機械学習モデルを組み合わせた新しいハイブリッドモデリング手法を提案する。 機械力学モデルは、システムの分岐構造を捉える通常の微分方程式正規形モデルである。 このモデルから実験観測へのデータ駆動マッピングは、機械学習技術を用いて実験データに基づいて同定される。 提案手法はファンデルpol発振器と3自由度エアロ弾性モデルを用いて数値実験を行った。 次に、風洞実験中に限界周期振動を示す物理的空力弾性構造の挙動をモデル化する。 本手法は, システムに関する事前知識を必要とせず, 汎用的かつデータ効率が良く, 精度も良好であることを示す。

We propose a new hybrid modelling approach that combines a mechanistic model with a machine-learnt model to predict the limit cycle oscillations of physical systems with a Hopf bifurcation. The mechanistic model is an ordinary differential equation normal-form model capturing the bifurcation structure of the system. A data-driven mapping from this model to the experimental observations is then identified based on experimental data using machine learning techniques. The proposed method is first demonstrated numerically on a Van der Pol oscillator and a three-degree-of-freedom aeroelastic model. It is then applied to model the behaviour of a physical aeroelastic structure exhibiting limit cycle oscillations during wind tunnel tests. The method is shown to be general, data-efficient and to offer good accuracy without any prior knowledge about the system other than its bifurcation structure.
翻訳日:2022-09-25 17:41:01 公開日:2022-09-07
# hearts gym: 強化学習をチームイベントとして学ぶ

Hearts Gym: Learning Reinforcement Learning as a Team Event ( http://arxiv.org/abs/2209.05466v1 )

ライセンス: Link先を確認
Jan Ebert, Danimir T. Doncevic, Ramona Klo{\ss}, Stefan Kesselheim(参考訳) 新型コロナウイルス(covid-19)パンデミックの最中,著者らはデータサイエンスの大学院で強化学習(rl)コースを開設した。 ユビキタスなズームの疲労にもかかわらず,エキサイティングな学習体験を生み出すための戦略と教材について述べ,コースを定性的に評価する。 重要な組織的特徴は、チームにおける競争力のあるハンズオンの設定に集中することであり、RLの本質的な背景を提供する最小限の講義によってサポートされます。 コースの実践的な部分は、カードゲームHeartsのRL環境であるHearts Gymを中心に展開され、RLの入門レベルのチュートリアルとして開発しました。 参加者は報酬形成やその他のRLハイパーパラメータを探索する訓練エージェントを任された。 最終評価では、参加者のエージェントが互いに競い合った。

Amidst the COVID-19 pandemic, the authors of this paper organized a Reinforcement Learning (RL) course for a graduate school in the field of data science. We describe the strategy and materials for creating an exciting learning experience despite the ubiquitous Zoom fatigue and evaluate the course qualitatively. The key organizational features are a focus on a competitive hands-on setting in teams, supported by a minimum of lectures providing the essential background on RL. The practical part of the course revolved around Hearts Gym, an RL environment for the card game Hearts that we developed as an entry-level tutorial to RL. Participants were tasked with training agents to explore reward shaping and other RL hyperparameters. For a final evaluation, the agents of the participants competed against each other.
翻訳日:2022-09-25 17:32:43 公開日:2022-09-07
# ベイズネットワークを用いたモデリング評価--実用的アプローチ

Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach ( http://arxiv.org/abs/2209.05467v1 )

ライセンス: Link先を確認
Francesca Mangili, Giorgia Adorni, Alberto Piatti, Claudio Bonesana, Alessandro Antonucci(参考訳) 知的学習システムにおける学習能力の自動評価は基本的な課題である。 評価ルーブリックは典型的には、関連する能力と能力レベルを効果的に記述する。 本稿では,能力レベルの(部分的な)順序付けを定義する評価ルーブリックから直接学習者モデルを導出する手法を提案する。 このモデルはベイジアンネットワークに基づいており、不確実性を持つ論理ゲート(しばしばノイズゲートと呼ばれる)を利用してモデルのパラメータの数を減らし、専門家による推論を単純化し、インテリジェントなチュータリングシステムにおけるリアルタイム推論を可能にする。 本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化する手法を提案する。 評価ルーブリックから始まるモデルの簡単な適用により、複数のタスクの迅速な自動化が可能となり、適応的アセスメントツールやインテリジェントな学習システムにおいて、より容易に活用できるようになる。

Automatic assessment of learner competencies is a fundamental task in intelligent tutoring systems. An assessment rubric typically and effectively describes relevant competencies and competence levels. This paper presents an approach to deriving a learner model directly from an assessment rubric defining some (partial) ordering of competence levels. The model is based on Bayesian networks and exploits logical gates with uncertainty (often referred to as noisy gates) to reduce the number of parameters of the model, so to simplify their elicitation by experts and allow real-time inference in intelligent tutoring systems. We illustrate how the approach can be applied to automatize the human assessment of an activity developed for testing computational thinking skills. The simple elicitation of the model starting from the assessment rubric opens up the possibility of quickly automating the assessment of several tasks, making them more easily exploitable in the context of adaptive assessment tools and intelligent tutoring systems.
翻訳日:2022-09-25 17:30:55 公開日:2022-09-07
# 問題に取り組む、利益を収穫する -- aiに関する規制論争の体系的レビュー

Tackling problems, harvesting benefits -- A systematic review of the regulatory debate around AI ( http://arxiv.org/abs/2209.05468v1 )

ライセンス: Link先を確認
Anja Folberth, Jutta Jahnel, Jascha Bareis, Carsten Orwat, Christian Wadephul(参考訳) aiのような新興で広く普及するテクノロジーを社会の構造や運営にどのように統合するかは、現代の政治、科学、公共の議論の問題だ。 様々な分野からかなりの量の国際学術文学を生み出している。 本稿では,人工知能(AI)の規制に関する学術的議論を分析する。 体系的なレビューは、2016年1月1日から2020年12月31日までに発行された73の査読論文のサンプルを含む。 分析は社会的なリスクと損害、規制責任の問題、リスクベースや原則ベースのアプローチを含む適切な政策枠組みに焦点を当てている。 主な関心は規制のアプローチと手段である。 禁止、承認、標準設定、開示などの様々な形態の介入が提示される。 対象論文の評価は,その未熟さと明瞭さの欠如を示す分野の複雑さを示している。 学術的議論の構造的分析を提示することにより、我々は経験的かつ概念的にAIと規制のネクサスと根底にある規範的決定の理解に寄与する。 科学的提案と提案された欧州ai規制の比較は、規制の特定のアプローチ、強み、弱みを示している。

How to integrate an emerging and all-pervasive technology such as AI into the structures and operations of our society is a question of contemporary politics, science and public debate. It has produced a considerable amount of international academic literature from different disciplines. This article analyzes the academic debate around the regulation of artificial intelligence (AI). The systematic review comprises a sample of 73 peer-reviewed journal articles published between January 1st, 2016, and December 31st, 2020. The analysis concentrates on societal risks and harms, questions of regulatory responsibility, and possible adequate policy frameworks, including risk-based and principle-based approaches. The main interests are proposed regulatory approaches and instruments. Various forms of interventions such as bans, approvals, standard-setting, and disclosure are presented. The assessments of the included papers indicate the complexity of the field, which shows its prematurity and the remaining lack of clarity. By presenting a structured analysis of the academic debate, we contribute both empirically and conceptually to a better understanding of the nexus of AI and regulation and the underlying normative decisions. A comparison of the scientific proposals with the proposed European AI regulation illustrates the specific approach of the regulation, its strengths and weaknesses.
翻訳日:2022-09-25 17:30:40 公開日:2022-09-07
# ErgoExplorer: ビデオコレクションからの対話型エルゴノミクスリスクアセスメント

ErgoExplorer: Interactive Ergonomic Risk Assessment from Video Collections ( http://arxiv.org/abs/2209.05252v1 )

ライセンス: Link先を確認
Manlio Massiris Fern\'andez, Sanjin Rado\v{s}, Kre\v{s}imir Matkovi\'c, M. Eduard Gr\"oller, Claudio Delrieux(参考訳) エルゴノミクスのリスク評価は、認知度が高まっているため、これまでよりも頻繁に実施されている。 従来型のリスクアセスメント評価は,作業場を専門的に観察し,得点表に手作業で記入することに基づく。 データ分析は通常、重要な瞬間に焦点を当てて行われるが、時間とともにコンテキスト情報や変化がサポートされない。 本稿では,リスクアセスメントデータのインタラクティブな視覚分析システムであるErgoExplorerを紹介する。 現在のプラクティスとは対照的に、すべてのコンテキスト情報を保持しながら、複数のアクションと複数のワーカーにまたがるデータに焦点を当てます。 データはビデオストリームから自動的に抽出される。 精査した分析タスクに基づいて,新しい視点とその相互作用を紹介する。 これらのビューには、ドメインの専門家による簡単な採用を保証するために、ドメイン固有のスコアテーブルも含まれている。 すべてのビューはergoexplorerに統合され、対話による分析を容易にするために複数のビューの協調に依存する。 ErgoExplorerは、複数のオペレーションにまたがる長いセッションにおいて、個々の身体部分のリスクアセスメントの間の複雑な関係を初めて調べることを可能にする。 新たに導入されたアプローチは、一般的な概要からビデオストリーム内の個々のフレームの検査まで、必要であればいくつかの詳細レベルでの分析と探索をサポートする。 いくつかのデータセットに適用した新しいアプローチの有用性について述べる。

Ergonomic risk assessment is now, due to an increased awareness, carried out more often than in the past. The conventional risk assessment evaluation, based on expert-assisted observation of the workplaces and manually filling in score tables, is still predominant. Data analysis is usually done with a focus on critical moments, although without the support of contextual information and changes over time. In this paper we introduce ErgoExplorer, a system for the interactive visual analysis of risk assessment data. In contrast to the current practice, we focus on data that span across multiple actions and multiple workers while keeping all contextual information. Data is automatically extracted from video streams. Based on carefully investigated analysis tasks, we introduce new views and their corresponding interactions. These views also incorporate domain-specific score tables to guarantee an easy adoption by domain experts. All views are integrated into ErgoExplorer, which relies on coordinated multiple views to facilitate analysis through interaction. ErgoExplorer makes it possible for the first time to examine complex relationships between risk assessments of individual body parts over long sessions that span multiple operations. The newly introduced approach supports analysis and exploration at several levels of detail, ranging from a general overview, down to inspecting individual frames in the video stream, if necessary. We illustrate the usefulness of the newly proposed approach applying it to several datasets.
翻訳日:2022-09-25 17:30:23 公開日:2022-09-07
# Covid-19 病検出のためのプライバシー保護深層学習モデル

Privacy-Preserving Deep Learning Model for Covid-19 Disease Detection ( http://arxiv.org/abs/2209.04445v1 )

ライセンス: Link先を確認
Vijay Srinivas Tida Sai Venkatesh Chilukoti, Sonya Hsu, Xiali Hei(参考訳) 近年の研究では、X線ラジオグラフィーはPCR検査よりも精度が高いことが示されている。 そのため、X線やX線画像にディープラーニングモデルを適用することで、新型コロナウイルスの患者を判定するスピードと精度が向上する。 しかし、医療保険のポータビリティと説明責任(hipaa)の遵守により、病院はプライバシー上の懸念から患者データを共有しようとはしなかった。 プライバシを維持するために,患者の個人情報を確保するための差分プライベートディープラーニングモデルを提案する。 kaggleのウェブサイトにあるデータセットは、covid-19検出のために設計されたモデルを評価するために使用される。 EfficientNetモデルバージョンは、最も高いテスト精度で選択された。 ベストオブザードモデルに差分プライバシー制約を注入し,性能評価を行った。 正確性は、トレーニング可能なレイヤの変更、プライバシ損失、各サンプルの情報制限によって注目される。 微調整過程において,プライバシ損失が10で85%の精度を得た。

Recent studies demonstrated that X-ray radiography showed higher accuracy than Polymerase Chain Reaction (PCR) testing for COVID-19 detection. Therefore, applying deep learning models to X-rays and radiography images increases the speed and accuracy of determining COVID-19 cases. However, due to Health Insurance Portability and Accountability (HIPAA) compliance, the hospitals were unwilling to share patient data due to privacy concerns. To maintain privacy, we propose differential private deep learning models to secure the patients' private information. The dataset from the Kaggle website is used to evaluate the designed model for COVID-19 detection. The EfficientNet model version was selected according to its highest test accuracy. The injection of differential privacy constraints into the best-obtained model was made to evaluate performance. The accuracy is noted by varying the trainable layers, privacy loss, and limiting information from each sample. We obtained 84\% accuracy with a privacy loss of 10 during the fine-tuning process.
翻訳日:2022-09-25 17:30:03 公開日:2022-09-07
# 説明力:ヘイトスピーチ検出における自動脱バイアスに向けて

Power of Explanations: Towards automatic debiasing in hate speech detection ( http://arxiv.org/abs/2209.09975v1 )

ライセンス: Link先を確認
Yi Cai, Arthur Zimek, Gerhard Wunder, Eirini Ntoutsi(参考訳) ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。 精度の上昇にもかかわらず、現在のデータ駆動アプローチは、人間から派生した不均衡なデータ分布からバイアスを容易に学習できる。 バイアスモデルの導入は、既存の社会的バイアスをさらに強化する可能性がある。 しかし、表データの扱いとは異なり、非構造化データを扱うテキスト分類器におけるバイアスの定義と緩和はより難しい。 nlpで機械学習の公平性を改善するための一般的な解決策は、人間の注釈者によって与えられた潜在的に識別された単語のリストでデバイアス処理を行うことである。 バイアス項を見渡すリスクに苦しむだけでなく、異なるデータセット間で識別が可変であり、時間とともに進化する可能性があるため、人間のアノテータによる偏見の徹底的な識別は持続不可能である。 そこで本研究では,潜在的なバイアスを検出するための説明法に基づく自動誤用検知(MiD)を提案する。 それに基づいて、提案した段階補正によるエンドツーエンドのデバイアスフレームワークは、外部リソースを必要としないテキスト分類器用に設計されている。

Hate speech detection is a common downstream application of natural language processing (NLP) in the real world. In spite of the increasing accuracy, current data-driven approaches could easily learn biases from the imbalanced data distributions originating from humans. The deployment of biased models could further enhance the existing social biases. But unlike handling tabular data, defining and mitigating biases in text classifiers, which deal with unstructured data, are more challenging. A popular solution for improving machine learning fairness in NLP is to conduct the debiasing process with a list of potentially discriminated words given by human annotators. In addition to suffering from the risks of overlooking the biased terms, exhaustively identifying bias with human annotators are unsustainable since discrimination is variable among different datasets and may evolve over time. To this end, we propose an automatic misuse detector (MiD) relying on an explanation method for detecting potential bias. And built upon that, an end-to-end debiasing framework with the proposed staged correction is designed for text classifiers without any external resources required.
翻訳日:2022-09-25 17:21:46 公開日:2022-09-07
# 意味セグメンテーションのためのマルチレセプティブフィールドネットワーク

Multi Receptive Field Network for Semantic Segmentation ( http://arxiv.org/abs/2011.08577v2 )

ライセンス: Link先を確認
Jianlong Yuan, Zelu Deng, Shu Wang, Zhenbo Luo(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおける重要なタスクの1つであり、画像の各ピクセルにカテゴリラベルを割り当てることである。 近年の大きな進歩にもかかわらず、ほとんどの既存手法は依然として2つの課題を抱えている。 1) 画像中の物体や物のサイズは非常に多様であり、完全な畳み込みネットワーク(FCN)にマルチスケールの機能を統合する必要がある。 2)畳み込みネットワークの本質的な弱さから,オブジェクト/テントの境界付近あるいは境界付近の画素は分類が困難である。 最初の課題に対処するため,我々はMRFM (Multi-Receptive Field Module) を提案する。 第2の課題は、オブジェクト/スタブの境界を区別するのに有効なエッジアウェアロスをデザインすることである。 これら2つの設計により、我々のMulti Receptive Field Networkは、2つの広く使われているセマンティックセグメンテーションベンチマークデータセットに対して、最先端の新たな結果を達成する。 具体的には、Cityscapesデータセットで83.0の平均IoU、Pascal VOC2012データセットで88.4の平均IoUを達成する。

Semantic segmentation is one of the key tasks in computer vision, which is to assign a category label to each pixel in an image. Despite significant progress achieved recently, most existing methods still suffer from two challenging issues: 1) the size of objects and stuff in an image can be very diverse, demanding for incorporating multi-scale features into the fully convolutional networks (FCNs); 2) the pixels close to or at the boundaries of object/stuff are hard to classify due to the intrinsic weakness of convolutional networks. To address the first issue, we propose a new Multi-Receptive Field Module (MRFM), explicitly taking multi-scale features into account. For the second issue, we design an edge-aware loss which is effective in distinguishing the boundaries of object/stuff. With these two designs, our Multi Receptive Field Network achieves new state-of-the-art results on two widely-used semantic segmentation benchmark datasets. Specifically, we achieve a mean IoU of 83.0 on the Cityscapes dataset and 88.4 mean IoU on the Pascal VOC2012 dataset.
翻訳日:2022-09-24 16:56:55 公開日:2022-09-07
# 衛星からのウイルス検出:グラフニューラルネットワークによる西ナイルウイルスの循環のモデル化

Spotting Virus from Satellites: Modeling the Circulation of West Nile Virus Through Graph Neural Networks ( http://arxiv.org/abs/2209.05251v1 )

ライセンス: Link先を確認
Lorenzo Bonicelli, Angelo Porrello, Stefano Vincenzi, Carla Ippoliti, Federica Iapaolo, Annamaria Conte, Simone Calderara(参考訳) 西ナイルウイルス(英語: West Nile Virus、WNV)は、蚊が媒介する動物病ウイルスの1つである。 その循環は通常、ベクター増殖とウイルスの複製に適した気候および環境条件と関連している。 その上、wnv循環の形状と予測のためにいくつかの統計モデルが開発されており、特に最近の地球観測(eo)データの大量利用と人工知能の分野における継続的な進歩は、貴重な機会を提供している。 本稿では,広範に環境・気候特性を有する衛星画像を用いた深部ニューラルネットワーク(DNN)によるWNV循環予測を提案する。 特に,各地形を個別に解析する従来の手法では,近接する場所の特性を考慮した空間認識手法を提案する。 具体的には,グラフニューラルネットワーク(gnn)を基盤として,隣接する場所から特徴を集約し,これらのモジュールをさらに拡張して,温度や土壌水分の差,地理的距離など,複数の関係を考察する。 さらに,ウイルス拡散の季節性を考慮するため,時間関連情報をモデルに直接注入する。 我々は、ランドサットとセンチネルのミッションの衛星画像と、イタリアにおけるWNV循環の地上観測を組み合わせた実験的な設定を設計する。 提案するマルチアドバンシーグラフアテンションネットワーク (magat) は, 適切な事前学習段階と組み合わせると, 一貫して高い性能が得られることを示す。 最後に,Ablation研究におけるMAGATの各成分の重要性について検討した。

The occurrence of West Nile Virus (WNV) represents one of the most common mosquito-borne zoonosis viral infections. Its circulation is usually associated with climatic and environmental conditions suitable for vector proliferation and virus replication. On top of that, several statistical models have been developed to shape and forecast WNV circulation: in particular, the recent massive availability of Earth Observation (EO) data, coupled with the continuous advances in the field of Artificial Intelligence, offer valuable opportunities. In this paper, we seek to predict WNV circulation by feeding Deep Neural Networks (DNNs) with satellite images, which have been extensively shown to hold environmental and climatic features. Notably, while previous approaches analyze each geographical site independently, we propose a spatial-aware approach that considers also the characteristics of close sites. Specifically, we build upon Graph Neural Networks (GNN) to aggregate features from neighbouring places, and further extend these modules to consider multiple relations, such as the difference in temperature and soil moisture between two sites, as well as the geographical distance. Moreover, we inject time-related information directly into the model to take into account the seasonality of virus spread. We design an experimental setting that combines satellite images - from Landsat and Sentinel missions - with ground truth observations of WNV circulation in Italy. We show that our proposed Multi-Adjacency Graph Attention Network (MAGAT) consistently leads to higher performance when paired with an appropriate pre-training stage. Finally, we assess the importance of each component of MAGAT in our ablation studies.
翻訳日:2022-09-18 16:55:10 公開日:2022-09-07
# ASR評価における発話の依存構造モデリング

Modeling Dependent Structure for Utterances in ASR Evaluation ( http://arxiv.org/abs/2209.05281v1 )

ライセンス: Link先を確認
Zhe Liu and Fuchun Peng(参考訳) ブートストラップ再サンプリング法は,音声認識(ASR)評価において,単語誤り率(WER)の重要度分析に人気がある。 係り受け音声データの問題に対処するため、ブロックワイズブートストラップアプローチでは、発話を非相関ブロックに分割することにより、元のデータの代わりにこれらのブロックを再サンプリングする。 しかし、発話間の依存構造を明らかにすることは必ずしも自明ではないため、統計的テストにおいて主観的な発見につながる可能性がある。 本稿では,そのような依存を明示的にモデル化し,発話の独立ブロックを厳密に推定するグラフィカルlasso手法を提案する。 その後、ブロックワイズブートストラップが推論されたブロックの上に適用される。 その結果, 温和な条件下では, wer の分散推定値が一定であることが判明した。 また,LibriSpeechデータに対する提案手法の有効性を示す。

The bootstrap resampling method has been popular for performing significance analysis on word error rate (WER) in automatic speech recognition (ASR) evaluations. To deal with the issue of dependent speech data, the blockwise bootstrap approach is also proposed that by dividing utterances into uncorrelated blocks, it resamples these blocks instead of original data. However, it is always nontrivial to uncover the dependent structure among utterances, which could lead to subjective findings in statistical testing. In this paper, we present graphical lasso based methods to explicitly model such dependency and estimate the independent blocks of utterances in a rigorous way. Then the blockwise bootstrap is applied on top of the inferred blocks. We show that the resulting variance estimator for WER is consistent under mild conditions. We also demonstrate the validity of proposed approach on LibriSpeech data.
翻訳日:2022-09-18 16:54:46 公開日:2022-09-07
# 移動学習と視覚トランスフォーマによるリチウムイオン電池の健康状態予測

Transfer Learning and Vision Transformer based State-of-Health prediction of Lithium-Ion Batteries ( http://arxiv.org/abs/2209.05253v1 )

ライセンス: Link先を確認
Pengyu Fu, Liang Chu, Zhuoran Hou, Jincheng Hu, Yanjun Huang, and Yuanjian Zhang(参考訳) 近年、交通の電気化が進みつつある。 また、リチウムイオン電池(lib)が主なエネルギー貯蔵装置として注目されている。 健康状態(SOH)の正確な予測は、電池寿命に対するユーザの不安を緩和するだけでなく、バッテリーの管理に重要な情報を提供する。 本稿では,視覚変換器(ViT)モデルに基づくSOHの予測手法を提案する。 まず、入力データマトリックスとして、予め定義された電圧範囲の離散充電データを用いる。 そして、このグローバルな特徴を得ることができるViTにより電池のサイクル特徴を捕捉し、サイクル特徴とフル接続(FC)層とを組み合わせてSOHを得る。 同時に、転送学習(tl)が導入され、目標タスクバッテリの初期サイクルデータに応じて、ソースタスクバッテリトレーニングに基づく予測モデルをさらに微調整し、正確な予測を提供する。 実験の結果,既存の深層学習法と比較して特徴表現の精度が向上し,予測効果や伝達効果が向上することが示された。

In recent years, significant progress has been made in transportation electrification. And lithium-ion batteries (LIB), as the main energy storage devices, have received widespread attention. Accurately predicting the state of health (SOH) can not only ease the anxiety of users about the battery life but also provide important information for the management of the battery. This paper presents a prediction method for SOH based on Vision Transformer (ViT) model. First, discrete charging data of a predefined voltage range is used as an input data matrix. Then, the cycle features of the battery are captured by the ViT which can obtain the global features, and the SOH is obtained by combining the cycle features with the full connection (FC) layer. At the same time, transfer learning (TL) is introduced, and the prediction model based on source task battery training is further fine-tuned according to the early cycle data of the target task battery to provide an accurate prediction. Experiments show that our method can obtain better feature expression compared with existing deep learning methods so that better prediction effect and transfer effect can be achieved.
翻訳日:2022-09-18 16:54:32 公開日:2022-09-07
# ニューラルインシシデント関数を持つ単一画像からの多眼的3次元頭部画像

Multi-NeuS: 3D Head Portraits from Single Image with Neural Implicit Functions ( http://arxiv.org/abs/2209.04436v1 )

ライセンス: Link先を確認
Egor Burkov, Ruslan Rakhimov, Aleksandr Safin, Evgeny Burnaev, Victor Lempitsky(参考訳) 人間の頭部のテクスチャ化された3次元メッシュを1つか2つの視点から再構築する手法を提案する。 このような少数ショットの再構成は制約が低いため、従来の3D再構成アルゴリズムに課せ難い事前知識が必要である。 この研究では、最近導入された3D表現 $\unicode{x2013}$ Neural implicit function $\unicode{x2013}$を頼りにしています。 すなわち、最先端のニューラルネットワーク暗黙関数であるNeuSを拡張して、クラスの複数のオブジェクト(私たちの場合、人間の頭)を同時に表現する。 基盤となるニューラルネットアーキテクチャは、これらのオブジェクト間の共通点を学び、目に見えないものに一般化するために設計されている。 私たちのモデルは、わずか100本のスマートフォンビデオで訓練され、スキャンされた3dデータを必要としない。 その後、新作のヘッドをマイナショットモードまたはワンショットモードにフィットさせ、良好な結果が得られる。

We present an approach for the reconstruction of textured 3D meshes of human heads from one or few views. Since such few-shot reconstruction is underconstrained, it requires prior knowledge which is hard to impose on traditional 3D reconstruction algorithms. In this work, we rely on the recently introduced 3D representation $\unicode{x2013}$ neural implicit functions $\unicode{x2013}$ which, being based on neural networks, allows to naturally learn priors about human heads from data, and is directly convertible to textured mesh. Namely, we extend NeuS, a state-of-the-art neural implicit function formulation, to represent multiple objects of a class (human heads in our case) simultaneously. The underlying neural net architecture is designed to learn the commonalities among these objects and to generalize to unseen ones. Our model is trained on just a hundred smartphone videos and does not require any scanned 3D data. Afterwards, the model can fit novel heads in the few-shot or one-shot modes with good results.
翻訳日:2022-09-12 12:53:10 公開日:2022-09-07
# 深層学習における生物学の役割

The Role Of Biology In Deep Learning ( http://arxiv.org/abs/2209.04425v1 )

ライセンス: Link先を確認
Robert Bain(参考訳) 人工ニューラルネットワークは、私たちの最高の機械知覚システムになるために、生物から多くのインスピレーションを受けました。 この研究は、その歴史の一部を要約し、現代の理論神経科学をディープラーニングの分野から人工ニューラルネットワークの実験に取り入れている。 特に、反復等級プルーニングは、性能を損なうことなく、33倍の重量で疎結合ネットワークを訓練するために用いられる。 これらは、重量空間だけで画像ノイズの堅牢性を改善するという仮説をテストし、最終的に否定するために使用される。 最近の研究は、重量疎度、活性化疎度、活性デンドライトモデリングによる破滅的忘れを緩和している。 本稿では,これらの知見を再現し,より困難な連続学習課題において畳み込みニューラルネットワークを訓練する手法を拡張した。 コードは公開されています。

Artificial neural networks took a lot of inspiration from their biological counterparts in becoming our best machine perceptual systems. This work summarizes some of that history and incorporates modern theoretical neuroscience into experiments with artificial neural networks from the field of deep learning. Specifically, iterative magnitude pruning is used to train sparsely connected networks with 33x fewer weights without loss in performance. These are used to test and ultimately reject the hypothesis that weight sparsity alone improves image noise robustness. Recent work mitigated catastrophic forgetting using weight sparsity, activation sparsity, and active dendrite modeling. This paper replicates those findings, and extends the method to train convolutional neural networks on a more challenging continual learning task. The code has been made publicly available.
翻訳日:2022-09-12 12:17:36 公開日:2022-09-07
# クロスカメラ・ディープカラー化

Cross-Camera Deep Colorization ( http://arxiv.org/abs/2209.01211v2 )

ライセンス: Link先を確認
Yaping Zhao, Haitian Zheng, Mengqi Ji, Ruqi Huang(参考訳) 本稿では,カラープラスモノデュアルカメラシステムについて考察し,画像の整列と融合を効率よく,低コストで実現するエンドツーエンド畳み込みニューラルネットワークを提案する。 本手法は,クロスドメイン画像とクロススケール画像とを入力として,空間時間分解能と色深度とのトレードオフを容易にするためにHRカラー化結果を合成する。 従来のカラー化手法とは対照的に,カラーカメラやモノクロームカメラでは空間分解能が特有であり,実用上の柔軟性と頑健性が期待できる。 本手法の主な要素は、クロスドメイン画像アライメントのためのマルチスケール対応を生成するクロスカメラアライメントモジュールである。 さまざまなデータセットと複数の設定に関する広範な実験を通じて、我々のアプローチの柔軟性と有効性を検証する。 注目に値することに,本手法は,最先端の手法による10dBPSNRゲインの大幅な向上を実現している。 code is at: https://github.com/IndigoPurple/CCDC

In this paper, we consider the color-plus-mono dual-camera system and propose an end-to-end convolutional neural network to align and fuse images from it in an efficient and cost-effective way. Our method takes cross-domain and cross-scale images as input, and consequently synthesizes HR colorization results to facilitate the trade-off between spatial-temporal resolution and color depth in the single-camera imaging system. In contrast to the previous colorization methods, ours can adapt to color and monochrome cameras with distinctive spatial-temporal resolutions, rendering the flexibility and robustness in practical applications. The key ingredient of our method is a cross-camera alignment module that generates multi-scale correspondences for cross-domain image alignment. Through extensive experiments on various datasets and multiple settings, we validate the flexibility and effectiveness of our approach. Remarkably, our method consistently achieves substantial improvements, i.e., around 10dB PSNR gain, upon the state-of-the-art methods. Code is at: https://github.com/IndigoPurple/CCDC
翻訳日:2022-09-11 13:14:20 公開日:2022-09-07
# ニューラルネットワークの量子化のための簡便なアプローチ

A simple approach for quantizing neural networks ( http://arxiv.org/abs/2209.03487v1 )

ライセンス: Link先を確認
Johannes Maly, Rayan Saab(参考訳) 本稿では,完全に訓練されたニューラルネットワークの重みを定量化する新しい手法を提案する。 単純な決定論的事前処理ステップにより、与えられたトレーニングデータ上でネットワーク性能を保ちながら、メモリレススカラー量子化によりネットワーク層を定量化できる。 一方、この前処理の計算複雑性は、文学における最先端のアルゴリズムよりわずかに多い。 一方,本手法ではハイパーパラメータチューニングは不要であり,従来の手法とは対照的に平易な解析が可能となる。 単一ネットワーク層を定量化する場合、厳密な理論的保証を提供し、トレーニングデータが適切に振る舞う場合、例えば、適切なランダム分布からサンプリングされた場合、ネットワーク内のパラメータ数と相対誤差が崩壊することを示す。 また, 深層ネットワークを単一層に連続して量子化する手法も提案した。

In this short note, we propose a new method for quantizing the weights of a fully trained neural network. A simple deterministic pre-processing step allows us to quantize network layers via memoryless scalar quantization while preserving the network performance on given training data. On one hand, the computational complexity of this pre-processing slightly exceeds that of state-of-the-art algorithms in the literature. On the other hand, our approach does not require any hyper-parameter tuning and, in contrast to previous methods, allows a plain analysis. We provide rigorous theoretical guarantees in the case of quantizing single network layers and show that the relative error decays with the number of parameters in the network if the training data behaves well, e.g., if it is sampled from suitable random distributions. The developed method also readily allows the quantization of deep networks by consecutive application to single layers.
翻訳日:2022-09-09 13:40:25 公開日:2022-09-07
# 機械学習で最適化されたピアツーピア学習プラットフォーム

Peer to Peer Learning Platform Optimized With Machine Learning ( http://arxiv.org/abs/2209.03489v1 )

ライセンス: Link先を確認
Vikram Anantha(参考訳) helm learning(みんながもっと学ぶのを助ける)は、初めてオンラインのp2p学習プラットフォームで、生徒(主に中学生)がクラスと生徒(主に小中学生)に授業から無料で学ぶことができる。 このクラス構造(ピアツーピア学習)は,チームワークとコラボレーションを促進し,アクティブな学習を可能にすることによって,学習に有効であることが証明されている。 HELMはユニークなプラットフォームであり、学生が構造化されたピアツーピア環境でトピックを作成し、教え、学習するための簡単なプロセスを提供する。 HELMは2020年4月に創設されて以来、世界中の4大陸で4000人以上の学生と80人の教師がサインアップしている。 HELMは、シンプルなWebサイトとGoogleフォームプラットフォームから、AWSサービス上にホストされたPython、SQL、JavaScript、HTMLでコード化されたバックエンドシステムへと成長した。 これにより、学生がサインアップしやすくなり(生徒の情報がSQLデータベースに保存されるため、再び情報を入力せずにクラスにサインアップでき、クラスに関する自動メールも受けられる)、教師が簡単に教えられるようになる(Zoomリンクの作成、クラス記録フォルダの作成、学生へのメールの送信など、補助的なプロセスが自動的に行われる)。 さらにhelmには推奨機械学習アルゴリズムがあり、生徒が受講した前のクラスに基づいて、学生が受講するクラスやクラスを推奨する。 これにより、学生が興味のあるクラスにサインアップするのも簡単になった。

HELM Learning (Helping Everyone Learn More) is the first online peer-to-peer learning platform which allows students (typically middle-to-high school students) to teach classes and students (typically elementary-to-middle school students) to learn from classes for free. This method of class structure (peer-to-peer learning) has been proven effective for learning, as it promotes teamwork and collaboration, and enables active learning. HELM is a unique platform as it provides an easy process for students to create, teach and learn topics in a structured, peer-to-peer environment. Since HELM was created in April 2020, it has gotten over 4000 student sign ups and 80 teachers, in 4 continents around the world. HELM has grown from a simple website-and-Google-Form platform to having a backend system coded with Python, SQL, JavaScript and HTML, hosted on an AWS service. This not only makes it easier for students to sign up (as the students' information is saved in an SQL database, meaning they can sign up for classes without having to put in their information again, as well as getting automated emails about their classes), but also makes it easier for teachers to teach (as supplemental processes such as creating Zoom links, class recording folders, sending emails to students, etc. are done automatically). In addition, HELM has a recommendation machine learning algorithm which suggests classes and subjects students would enjoy taking, based on the previous classes a student has taken. This has created an easier experience for students to sign up for classes they are interested in.
翻訳日:2022-09-09 13:38:53 公開日:2022-09-07
# 大規模協調型マルチエージェント強化学習における局所的政策の最適性について

On the Near-Optimality of Local Policies in Large Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.03491v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri(参考訳) 協調的な$N$エージェントネットワークでは、平均報酬(値)の割引和が、すべての(非局所的を含む)ポリシーで計算された最適値をうまく近似するように、エージェントに対してローカルに実行可能なポリシーを設計できることを示す。 具体的には、 ||\mathcal{x}|, |\mathcal{u}|$ が状態の大きさと個々のエージェントの作用空間を表すならば、十分小さな値引き係数に対して、近似誤差は$\mathcal{o}(e)$ where $e\triangleq \frac{1}{\sqrt{n}}\left[\sqrt{|\mathcal{x}|}+\sqrt{|\mathcal{u}|}\right]$ で与えられる。 さらに、報奨関数と状態遷移関数が集団の行動分布から独立な特別な場合、誤差は$\mathcal{o}(e)$に改善され、ここで$e\triangleq \frac{1}{\sqrt{n}}\sqrt{|\mathcal{x}|}$となる。 最後に,ローカルポリシーを明示的に構築するアルゴリズムも考案した。 近似結果の助けを借りて、構築された局所ポリシーが最適ポリシーからの距離$\mathcal{O}(\max\{e,\epsilon\})$の範囲内であり、そのような局所ポリシーを達成するためのサンプルの複雑さは、任意の$\epsilon>0$に対して$\mathcal{O}(\epsilon^{-3})$であることを示す。

We show that in a cooperative $N$-agent network, one can design locally executable policies for the agents such that the resulting discounted sum of average rewards (value) well approximates the optimal value computed over all (including non-local) policies. Specifically, we prove that, if $|\mathcal{X}|, |\mathcal{U}|$ denote the size of state, and action spaces of individual agents, then for sufficiently small discount factor, the approximation error is given by $\mathcal{O}(e)$ where $e\triangleq \frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|}+\sqrt{|\mathcal{U}|}\right]$. Moreover, in a special case where the reward and state transition functions are independent of the action distribution of the population, the error improves to $\mathcal{O}(e)$ where $e\triangleq \frac{1}{\sqrt{N}}\sqrt{|\mathcal{X}|}$. Finally, we also devise an algorithm to explicitly construct a local policy. With the help of our approximation results, we further establish that the constructed local policy is within $\mathcal{O}(\max\{e,\epsilon\})$ distance of the optimal policy, and the sample complexity to achieve such a local policy is $\mathcal{O}(\epsilon^{-3})$, for any $\epsilon>0$.
翻訳日:2022-09-09 13:38:23 公開日:2022-09-07
# AST-GIN:電気自動車充電ステーションアベイラビリティ予測のためのAttribute-Augmented Space-Temporal Graph Informer Network

AST-GIN: Attribute-Augmented Spatial-Temporal Graph Informer Network for Electric Vehicle Charging Station Availability Forecasting ( http://arxiv.org/abs/2209.03356v1 )

ライセンス: Link先を確認
Ruikang Luo, Yaofeng Song, Liping Huang, Yicheng Zhang and Rong Su(参考訳) 電気自動車(EV)の充電需要と充電ステーションの可用性予測は、インテリジェント交通システムにおける課題の1つである。 正確なEVステーション状況予測では、レンジ不安を緩和するために、予め適切な充電動作をスケジュールすることができる。 しかし、複雑な道路ネットワーク構造と、関心点(POI)や気象効果などの総合的な外部要因により、多くの一般的なアルゴリズムは、外部要因の包括的影響を考慮せずに、歴史的利用情報を抽出することができる。 本研究では、予測精度と解釈可能性を高めるために、グラフ畳み込みネットワーク(GCN)層とインフォーマ層を組み合わせて、関連する輸送データの外部および内部空間時間依存性を抽出し、Attribute-Augmented Space-Temporal Graph Informer(AST-GIN)構造を提案する。 外部要因は、トレーニング用の属性拡張エンコーダによって動的属性としてモデル化される。 ダンディー市で収集したデータをもとにast-ginモデルを用いて実験を行い,各地平線における外部要因を考慮したモデルの有効性を実験的に示した。

Electric Vehicle (EV) charging demand and charging station availability forecasting is one of the challenges in the intelligent transportation system. With the accurate EV station situation prediction, suitable charging behaviors could be scheduled in advance to relieve range anxiety. Many existing deep learning methods are proposed to address this issue, however, due to the complex road network structure and comprehensive external factors, such as point of interests (POIs) and weather effects, many commonly used algorithms could just extract the historical usage information without considering comprehensive influence of external factors. To enhance the prediction accuracy and interpretability, the Attribute-Augmented Spatial-Temporal Graph Informer (AST-GIN) structure is proposed in this study by combining the Graph Convolutional Network (GCN) layer and the Informer layer to extract both external and internal spatial-temporal dependence of relevant transportation data. And the external factors are modeled as dynamic attributes by the attribute-augmented encoder for training. AST-GIN model is tested on the data collected in Dundee City and experimental results show the effectiveness of our model considering external factors influence over various horizon settings compared with other baselines.
翻訳日:2022-09-09 13:37:00 公開日:2022-09-07
# 航空機システムシミュレーションのための物理誘導逆機械学習

Physics-Guided Adversarial Machine Learning for Aircraft Systems Simulation ( http://arxiv.org/abs/2209.03431v1 )

ライセンス: Link先を確認
Houssem Ben Braiek, Thomas Reid, and Foutse Khomh(参考訳) 航空機システムの性能評価の文脈では、ディープラーニング技術は実験的な測定からモデルを素早く推論することができ、物理に基づくモデリングよりも詳細なシステム知識は少ない。 しかし、この安価なモデル開発には、モデルの信頼性に関する新しい課題も伴う。 この研究は、物理誘導型逆機械学習(ML)という新しいアプローチを示し、モデルの物理一貫性に対する信頼性を向上させる。 このアプローチは、まず物理誘導の対向テストフェーズを実行し、予測可能な運用条件の範囲内にとどまりながら、行動システムの不整合を明らかにするテスト入力を探索する。 次に,前回未発表の反例に対する不必要な出力偏差を反復的に低減することにより,モデルにシステム関連物理学領域を前もって認識させるための,物理学未形成の敵対的学習を行う。 2つの航空機システムの性能モデルに対する実証評価は、両モデルの物理的不整合を露呈し、物理領域の知識と整合する確率を改善する上で、我々の敵MLアプローチの有効性を示す。

In the context of aircraft system performance assessment, deep learning technologies allow to quickly infer models from experimental measurements, with less detailed system knowledge than usually required by physics-based modeling. However, this inexpensive model development also comes with new challenges regarding model trustworthiness. This work presents a novel approach, physics-guided adversarial machine learning (ML), that improves the confidence over the physics consistency of the model. The approach performs, first, a physics-guided adversarial testing phase to search for test inputs revealing behavioral system inconsistencies, while still falling within the range of foreseeable operational conditions. Then, it proceeds with physics-informed adversarial training to teach the model the system-related physics domain foreknowledge through iteratively reducing the unwanted output deviations on the previously-uncovered counterexamples. Empirical evaluation on two aircraft system performance models shows the effectiveness of our adversarial ML approach in exposing physical inconsistencies of both models and in improving their propensity to be consistent with physics domain knowledge.
翻訳日:2022-09-09 13:36:37 公開日:2022-09-07
# smood:航空機設計におけるサロゲートニューラルネットワークのための平滑性に基づく分散検出手法

SmOOD: Smoothness-based Out-of-Distribution Detection Approach for Surrogate Neural Networks in Aircraft Design ( http://arxiv.org/abs/2209.03438v1 )

ライセンス: Link先を確認
Houssem Ben Braiek, Ali Tfaily, Foutse Khomh, Thomas Reid, and Ciro Guida(参考訳) 航空機産業は、人間の努力、計算時間、資源消費の観点から、より効率的な設計最適化方法を模索している。 ハイブリッドサロゲート最適化は、サロゲートモデルと最終的にHFモデルに移行するスイッチ機構の両方を適切に調整した場合に、高速な設計評価を提供しながら、高い結果品質を維持する。 feedforward neural networks (fnns) は高度に非線形な入出力マッピングを捉えることができ、航空機の性能因子の効率的なサロゲートとなる。 しかし、FNNはオフ・オブ・ディストリビューション(OOD)のサンプルの一般化に失敗し、重要な航空機設計の最適化を妨げている。 SmOODというスムーズなアウト・オブ・ディストリビューション検出手法を通じて,最適化されたFNNサロゲートを用いたモデル依存型OODインジケータを符号化し,選択的かつ信頼性の高いサロゲートモデルを生成する。 従来の不確実性基底法とは異なり、SmOODはHFシミュレーションの本質的に滑らかな性質を利用して、不確実性を明らかにすることによってOODを効果的に露出し、OODサンプルの過度な不確実性評価を回避する。 SmOODを用いることで、高リスクOOD入力のみをHFモデルに転送して再評価し、低オーバーヘッドコストでより正確な結果が得られる。 3機の航空機の性能モデルが調査されている。 その結果、FNNベースのサロゲートは予測性能においてガウス過程よりも優れていた。 さらに、SmOODはすべての研究ケースで実際のOODの85%をカバーしている。 SmOODとFNNのサロゲートがハイブリッドサロゲート最適化設定でデプロイされると、エラー率は34.65%、計算速度は58.36倍になる。

Aircraft industry is constantly striving for more efficient design optimization methods in terms of human efforts, computation time, and resource consumption. Hybrid surrogate optimization maintains high results quality while providing rapid design assessments when both the surrogate model and the switch mechanism for eventually transitioning to the HF model are calibrated properly. Feedforward neural networks (FNNs) can capture highly nonlinear input-output mappings, yielding efficient surrogates for aircraft performance factors. However, FNNs often fail to generalize over the out-of-distribution (OOD) samples, which hinders their adoption in critical aircraft design optimization. Through SmOOD, our smoothness-based out-of-distribution detection approach, we propose to codesign a model-dependent OOD indicator with the optimized FNN surrogate, to produce a trustworthy surrogate model with selective but credible predictions. Unlike conventional uncertainty-grounded methods, SmOOD exploits inherent smoothness properties of the HF simulations to effectively expose OODs through revealing their suspicious sensitivities, thereby avoiding over-confident uncertainty estimates on OOD samples. By using SmOOD, only high-risk OOD inputs are forwarded to the HF model for re-evaluation, leading to more accurate results at a low overhead cost. Three aircraft performance models are investigated. Results show that FNN-based surrogates outperform their Gaussian Process counterparts in terms of predictive performance. Moreover, SmOOD does cover averagely 85% of actual OODs on all the study cases. When SmOOD plus FNN surrogates are deployed in hybrid surrogate optimization settings, they result in a decrease error rate of 34.65% and a computational speed up rate of 58.36 times, respectively.
翻訳日:2022-09-09 13:36:19 公開日:2022-09-07
# なぜ毒なのか? オープンドメインチャットボットにおける毒性挙動の測定とトリガー

Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots ( http://arxiv.org/abs/2209.03463v1 )

ライセンス: Link先を確認
Wai Man Si, Michael Backes, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, Savvas Zannettou, Yand Zhang(参考訳) チャットボットは、自動化エージェント、スマートホームアシスタント、オンラインゲームにおけるインタラクティブ文字など、多くのアプリケーションで使用されている。 そのため、望ましくない振る舞いをせず、攻撃的、有害な反応をユーザーに与えないことが不可欠である。 最先端のチャットボットモデルは、インターネットからオープンに収集された大規模な公開データセットでトレーニングされているため、これは簡単な作業ではない。 本稿では,チャットボットの毒性を定量的に測定する。 公に利用できるチャットボットは、有害な質問に餌をやると、有害な反応をもたらす可能性が高い。 さらに心配なのは、一部の有害なクエリは有害な応答を引き起こす可能性があることだ。 そこで私たちは、細調整のGPT-2を使ってチャットボットに有害な反応を与える非有害なクエリを生成するToxicBuddyという攻撃を設計し、実験した。 広範な実験結果から,本攻撃は公開チャットボットモデルに対して有効であり,先行研究が提案する手作業による悪意のあるクエリよりも優れていることが示された。 また,有毒バッドに対する3つの防御機構を評価し,チャットボットの有用性に影響を与えるコストで攻撃性能を低下させるか,攻撃の一部緩和にのみ有効であることを示した。 これは、チャットボットモデルがユーザーを傷つけないようにするために、コンピュータセキュリティとオンライン安全コミュニティからのさらなる研究の必要性を強調している。 全体として、ToxicBuddyは監査ツールとして利用でき、チャットボットの安全性のためにより効果的な防御を設計するための道を開くと確信しています。

Chatbots are used in many applications, e.g., automated agents, smart home assistants, interactive characters in online games, etc. Therefore, it is crucial to ensure they do not behave in undesired manners, providing offensive or toxic responses to users. This is not a trivial task as state-of-the-art chatbot models are trained on large, public datasets openly collected from the Internet. This paper presents a first-of-its-kind, large-scale measurement of toxicity in chatbots. We show that publicly available chatbots are prone to providing toxic responses when fed toxic queries. Even more worryingly, some non-toxic queries can trigger toxic responses too. We then set out to design and experiment with an attack, ToxicBuddy, which relies on fine-tuning GPT-2 to generate non-toxic queries that make chatbots respond in a toxic manner. Our extensive experimental evaluation demonstrates that our attack is effective against public chatbot models and outperforms manually-crafted malicious queries proposed by previous work. We also evaluate three defense mechanisms against ToxicBuddy, showing that they either reduce the attack performance at the cost of affecting the chatbot's utility or are only effective at mitigating a portion of the attack. This highlights the need for more research from the computer security and online safety communities to ensure that chatbot models do not hurt their users. Overall, we are confident that ToxicBuddy can be used as an auditing tool and that our work will pave the way toward designing more effective defenses for chatbot safety.
翻訳日:2022-09-09 13:31:44 公開日:2022-09-07
# 一般化オクターブ畳み込みとクロスレゾリューションパラメータ推定による学習画像圧縮

Learned Image Compression with Generalized Octave Convolution and Cross-Resolution Parameter Estimation ( http://arxiv.org/abs/2209.03353v1 )

ライセンス: Link先を確認
Haisheng Fu, Feng Liang(参考訳) 文脈適応エントロピーモデルの適用により、遅延表現の空間的冗長性を効果的に捉えるために、高次モデルと自己回帰モデルとを併用したレート歪み(R-D)性能が大幅に向上する。 しかし、潜在表現は依然としていくつかの空間相関を含む。 さらに、文脈適応エントロピーモデルに基づくこれらの手法は、FPGAやGPUのような並列コンピューティングデバイスによってデコードプロセスにおいて加速できない。 これらの制約を緩和するために、最近開発されたオクターブ畳み込みを利用して、ウェーブレット変換と同様の高分解能(HR)と低分解能(LR)の表現を分解し、R-D性能をさらに向上させる多分解能画像圧縮フレームワークを提案する。 復号化を高速化するため,提案手法では文脈適応エントロピーモデルを使用しない。 代わりに、ハイパーエンコーダとハイパーデコーダを含む追加のハイパー層を利用して、潜在表現の空間的冗長性をさらに除去する。 さらに,提案フレームワークにクロスレゾリューションパラメータ推定(crpe)を導入することにより,情報の流れが向上し,さらに速度分散性能が向上する。 LR部分の最終的なビットストリームへの寄与を調整するために、全損失関数に付加的な情報忠実度損失を提案する。 実験結果から,本手法は最先端学習画像圧縮法に比べ,約73.35 %,93.44 %の復号時間を別々に削減し,r-d性能はh.266/vvc(4:2:0)やpsnrとms-ssimメトリクスの学習ベース手法よりも高い値を示した。

The application of the context-adaptive entropy model significantly improves the rate-distortion (R-D) performance, in which hyperpriors and autoregressive models are jointly utilized to effectively capture the spatial redundancy of the latent representations. However, the latent representations still contain some spatial correlations. In addition, these methods based on the context-adaptive entropy model cannot be accelerated in the decoding process by parallel computing devices, e.g. FPGA or GPU. To alleviate these limitations, we propose a learned multi-resolution image compression framework, which exploits the recently developed octave convolutions to factorize the latent representations into the high-resolution (HR) and low-resolution (LR) parts, similar to wavelet transform, which further improves the R-D performance. To speed up the decoding, our scheme does not use context-adaptive entropy model. Instead, we exploit an additional hyper layer including hyper encoder and hyper decoder to further remove the spatial redundancy of the latent representation. Moreover, the cross-resolution parameter estimation (CRPE) is introduced into the proposed framework to enhance the flow of information and further improve the rate-distortion performance. An additional information-fidelity loss is proposed to the total loss function to adjust the contribution of the LR part to the final bit stream. Experimental results show that our method separately reduces the decoding time by approximately 73.35 % and 93.44 % compared with that of state-of-the-art learned image compression methods, and the R-D performance is still better than H.266/VVC(4:2:0) and some learning-based methods on both PSNR and MS-SSIM metrics across a wide bit rates.
翻訳日:2022-09-09 13:29:46 公開日:2022-09-07
# tag: レイアウトからの学習回路空間埋め込み

TAG: Learning Circuit Spatial Embedding From Layouts ( http://arxiv.org/abs/2209.03465v1 )

ライセンス: Link先を確認
Keren Zhu, Hao Chen, Walker J. Turner, George F. Kokai, Po-Hsuan Wei, David Z. Pan and Haoxing Ren(参考訳) アナログと混合信号(AMS)回路の設計は、人間の設計技術に依存している。 機械学習は、人間の経験を人工知能に置き換えることで、回路設計の自動化を支援している。 本稿では,テキスト,自己注意,グラフを活用したレイアウトから回路表現を学ぶための新しいパラダイムであるTAGを提案する。 埋め込みネットワークモデルは手動ラベリングなしで空間情報を学習する。 AMS回路学習にテキスト埋め込みと自己注意機構を導入する。 実験結果から,産業用FinFET技術ベンチマークを用いたインスタンス間のレイアウト距離の予測が可能であった。 レイアウトマッチング予測,ワイヤ長推定,ネット寄生キャパシタンス予測の3つの学習タスクに限られたデータで転送可能性を示すことで,回路表現の有効性を検証する。

Analog and mixed-signal (AMS) circuit designs still rely on human design expertise. Machine learning has been assisting circuit design automation by replacing human experience with artificial intelligence. This paper presents TAG, a new paradigm of learning the circuit representation from layouts leveraging text, self-attention and graph. The embedding network model learns spatial information without manual labeling. We introduce text embedding and a self-attention mechanism to AMS circuit learning. Experimental results demonstrate the ability to predict layout distances between instances with industrial FinFET technology benchmarks. The effectiveness of the circuit representation is verified by showing the transferability to three other learning tasks with limited data in the case studies: layout matching prediction, wirelength estimation, and net parasitic capacitance prediction.
翻訳日:2022-09-09 13:29:12 公開日:2022-09-07
# ビジュアルアイデンティティデザインにおける計算的アプローチの利用--コインブラ大学理工学部デザイン・マルチメディアコースの視覚的アイデンティティ

Using Computational Approaches in Visual Identity Design: A Visual Identity for the Design and Multimedia Courses of Faculty of Sciences and Technology of University of Coimbra ( http://arxiv.org/abs/2209.03420v1 )

ライセンス: Link先を確認
S\'ergio M. Rebelo, Tiago Martins, Artur Rebelo, Jo\~ao Bicker, Penousal Machado(参考訳) 計算のアプローチは、データと生成プロセスによって引き起こされる動的な視覚のアイデンティティを設計するために使われ始めている。 本研究は,これらの計算手法を探求し,視覚的なアイデンティティを生成させ,自発的な文字や画像を生成する。 我々は、黒と白のビジュアルモジュールを自動的に組み立てる生成設計システムを開発する。 このシステムは2つの主要な方法を実行する設計を生成する。 (i)援助世代、及び (ii)自動生成。 補助生成法は、以前に定義された構成ファイルによってモジュールの配置が決定される出力を生成する。 一方、自動生成方式では、モジュールを組み立てて入力画像を記述する出力を生成する。 このシステムは、1つの視覚的アイデンティティ設計の設計と展開のプロセスを高速化し、その間の視覚的一貫性を出力する。 本稿では,このシステムとその成果を圧縮的に記述する。

Computational approaches are beginning to be used to design dynamic visual identities fuelled by data and generative processes. In this work, we explore these computational approaches in order to generate a visual identity that creates bespoke letterings and images. We achieve this developing a generative design system that automatically assembles black and white visual modules. This system generates designs performing two main methods: (i) Assisted generation; and (ii) Automatic generation. Assisted generation method produces outputs wherein the placement of modules is determined by a configuration file previous defined. On the other hand, the Automatic generation method produces outputs wherein the modules are assembled to depict an input image. This system speeds up the process of design and deployment of one visual identity design as well as it generates outputs visual coherent among them. In this paper, we compressively describe this system and its achievements.
翻訳日:2022-09-09 13:24:28 公開日:2022-09-07
# 神経機能融合場:自己スーパービジョン2次元画像表現の3次元蒸留

Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D Image Representations ( http://arxiv.org/abs/2209.03494v1 )

ライセンス: Link先を確認
Vadim Tschernezki, Iro Laina, Diane Larlus and Andrea Vedaldi(参考訳) 本研究では,3次元シーンとして再構成可能な複数の画像の解析に後者を適用した際に,密度の高い2次元画像特徴抽出器を改善する手法であるneural feature fusion fields (n3f)を提案する。 イメージ特徴抽出器、例えば自己スーパービジョンを使って事前訓練された場合、N3Fは教師として3D空間で定義された学生ネットワークを学習する。 3d学生ネットワークは、その特徴を蒸留し、通常の微分可能なレンダリング機械で訓練できるニューラル・ラミアンス・フィールドに似ている。 その結果、N3FはバニラNeRFや複雑なダイナミックシーンへの拡張を含むほとんどのニューラルレンダリングの定式化に容易に適用できる。 本手法は,手動ラベルを使わずに,シーン固有のニューラルフィールドの文脈で意味的理解を可能にするだけでなく,自己教師付き2次元ベースラインよりも一貫して改善できることを示す。 EPIC-KITCHENSベンチマークでは,2Dオブジェクトの検索,3Dセグメンテーション,シーン編集といった様々なタスクを多種多様なシーケンスで検討した。

We present Neural Feature Fusion Fields (N3F), a method that improves dense 2D image feature extractors when the latter are applied to the analysis of multiple images reconstructible as a 3D scene. Given an image feature extractor, for example pre-trained using self-supervision, N3F uses it as a teacher to learn a student network defined in 3D space. The 3D student network is similar to a neural radiance field that distills said features and can be trained with the usual differentiable rendering machinery. As a consequence, N3F is readily applicable to most neural rendering formulations, including vanilla NeRF and its extensions to complex dynamic scenes. We show that our method not only enables semantic understanding in the context of scene-specific neural fields without the use of manual labels, but also consistently improves over the self-supervised 2D baselines. This is demonstrated by considering various tasks, such as 2D object retrieval, 3D segmentation, and scene editing, in diverse sequences, including long egocentric videos in the EPIC-KITCHENS benchmark.
翻訳日:2022-09-09 13:24:14 公開日:2022-09-07
# 乳幼児の感情認識における時間パターンの評価

Evaluating Temporal Patterns in Applied Infant Affect Recognition ( http://arxiv.org/abs/2209.03496v1 )

ライセンス: Link先を確認
Allen Chang, Lauren Klein, Marcelo R. Rosales, Weiyang Deng, Beth A. Smith, Maja J. Matari\'c(参考訳) エージェントは、社会的相互作用を理解し、関与するために、パートナーの情緒状態を継続的に監視しなければならない。 しかしながら、感情認識を評価する方法は、咬合や感情状態間の遷移時に生じる分類性能の変化を考慮しない。 本稿では,乳児の情動状態が治療脚運動活動に参加する能力に寄与する乳幼児とロボットの相互作用の文脈における分類性能に影響する時間的パターンについて述べる。 映像記録における顔の閉塞に対する堅牢性を支援するため,幼児の顔の特徴と身体の特徴を併用した認識分類を訓練した。 次に,データ不足や幼児への影響の変化に遭遇したモデルが,時間とともにどのように変化するかを評価するために,ベストパフォーマンスモデルの詳細な分析を行った。 高い信頼度で特徴を抽出する時間窓において、顔の特徴を訓練したユニモーダルモデルは、顔と身体の両方の特徴を訓練したマルチモーダルモデルと同等の性能を達成した。 しかし、マルチモーダルモデルはデータセット全体の評価においてユニモーダルモデルよりも優れています。 さらに,情動状態遷移を予測した場合のモデル性能は最も弱く,同情的状態の複数の予測により改善した。 これらの知見は, 幼児の継続的影響認識に身体特徴を取り入れることの利点を強調した。 本研究は,社会的相互作用に感情認識を適用した際の,時間的および欠落データの有無の両方において,モデル性能の変動を評価することの重要性を強調した。

Agents must monitor their partners' affective states continuously in order to understand and engage in social interactions. However, methods for evaluating affect recognition do not account for changes in classification performance that may occur during occlusions or transitions between affective states. This paper addresses temporal patterns in affect classification performance in the context of an infant-robot interaction, where infants' affective states contribute to their ability to participate in a therapeutic leg movement activity. To support robustness to facial occlusions in video recordings, we trained infant affect recognition classifiers using both facial and body features. Next, we conducted an in-depth analysis of our best-performing models to evaluate how performance changed over time as the models encountered missing data and changing infant affect. During time windows when features were extracted with high confidence, a unimodal model trained on facial features achieved the same optimal performance as multimodal models trained on both facial and body features. However, multimodal models outperformed unimodal models when evaluated on the entire dataset. Additionally, model performance was weakest when predicting an affective state transition and improved after multiple predictions of the same affective state. These findings emphasize the benefits of incorporating body features in continuous affect recognition for infants. Our work highlights the importance of evaluating variability in model performance both over time and in the presence of missing data when applying affect recognition to social interactions.
翻訳日:2022-09-09 13:18:54 公開日:2022-09-07
# SynSciPass:科学テキスト生成の適切な利用を検出する

SynSciPass: detecting appropriate uses of scientific text generation ( http://arxiv.org/abs/2209.03742v1 )

ライセンス: Link先を確認
Domenic Rosati(参考訳) マシン生成テキスト検出へのアプローチは、人間と機械によるテキストのバイナリ分類に焦点を当てる傾向がある。 出版者がこれらのモデルを使って提出中の原稿を調べる科学的な領域では、誤分類は著者に危害を与える可能性がある。 さらに、著者は翻訳ツールのような補助技術を用いてテキスト生成モデルを適切に使用することができる。 この設定では、補助テキスト生成技術の適切な使用を単に機械生成としてフラグ付けするために二分分類スキームが使われるかもしれない。 本研究では,DAGPap22で訓練された最先端検出器をScieloからの機械翻訳文で提示し,そのモデルがランダムに動作することを示す。 そこで本研究では,SynSciPassの構築にともなう翻訳やパラフレーズなどの技術の種類にラベルを付けることで,機械生成テキストの検出に不明瞭なアプローチを提供する,データセット開発のためのフレームワークを開発する。 SynSciPass上でDAGPap22でよく機能する同じモデルをトレーニングすることにより、ドメインシフトに対してより堅牢なモデルであるだけでなく、機械生成テキストに使用されるタイプの技術を明らかにすることができることを示す。 それにもかかわらず、現在のデータセットは包括的でも現実的でもないと結論付けており、これらのモデルが、多くの未知または新しい分布から写本の提出がもたらされる荒野でどのように振る舞うか、小さな節ではなく科学的な全文でどのように振る舞うか、そして自然言語生成の適切で不適切な利用が混ざったときに何が起こるかを理解することができる。

Approaches to machine generated text detection tend to focus on binary classification of human versus machine written text. In the scientific domain where publishers might use these models to examine manuscripts under submission, misclassification has the potential to cause harm to authors. Additionally, authors may appropriately use text generation models such as with the use of assistive technologies like translation tools. In this setting, a binary classification scheme might be used to flag appropriate uses of assistive text generation technology as simply machine generated which is a cause of concern. In our work, we simulate this scenario by presenting a state-of-the-art detector trained on the DAGPap22 with machine translated passages from Scielo and find that the model performs at random. Given this finding, we develop a framework for dataset development that provides a nuanced approach to detecting machine generated text by having labels for the type of technology used such as for translation or paraphrase resulting in the construction of SynSciPass. By training the same model that performed well on DAGPap22 on SynSciPass, we show that not only is the model more robust to domain shifts but also is able to uncover the type of technology used for machine generated text. Despite this, we conclude that current datasets are neither comprehensive nor realistic enough to understand how these models would perform in the wild where manuscript submissions can come from many unknown or novel distributions, how they would perform on scientific full-texts rather than small passages, and what might happen when there is a mix of appropriate and inappropriate uses of natural language generation.
翻訳日:2022-09-09 13:13:06 公開日:2022-09-07
# バイスペクトルニューラルネットワーク

Bispectral Neural Networks ( http://arxiv.org/abs/2209.03416v1 )

ライセンス: Link先を確認
Sophia Sanborn, Christian Shewmake, Bruno Olshausen, Christopher Hillar(参考訳) 本稿では,信号が定義される空間上のグループの行動に不変なデータの表現を学習するための,新しい機械学習アーキテクチャであるBispectral Neural Networks(BNN)を提案する。 このモデルは、解析的に定義された群不変量であるbispectrumのアンサッツ(英語版)、すなわち、群作用による変動のみを取り除きながら、全ての信号構造を保存できる。 本稿では,bnnがデータ中の任意の可換群構造を探索し,学習したモデルが群の既約表現を学習することで,cayley表の復元を可能にすることを実証する。 注目すべきことに、訓練されたネットワークはこれらの群上の双スペクトルを近似することを学び、したがって解析対象の堅牢性、完全性、および一般性を持つ。

We present a novel machine learning architecture, Bispectral Neural Networks (BNNs), for learning representations of data that are invariant to the actions of groups on the space over which a signal is defined. The model incorporates the ansatz of the bispectrum, an analytically defined group invariant that is complete--that is, it preserves all signal structure while removing only the variation due to group actions. Here, we demonstrate that BNNs are able to discover arbitrary commutative group structure in data, with the trained models learning the irreducible representations of the groups, which allows for the recovery of the group Cayley tables. Remarkably, trained networks learn to approximate bispectra on these groups, and thus possess the robustness, completeness, and generality of the analytical object.
翻訳日:2022-09-09 13:12:37 公開日:2022-09-07
# 責任: トレーニングプロセス検査による説明可能なaiアプローチの例

Responsibility: An Example-based Explainable AI approach via Training Process Inspection ( http://arxiv.org/abs/2209.03433v1 )

ライセンス: Link先を確認
Faraz Khadivpour, Arghasree Banerjee, Matthew Guzdial(参考訳) 説明可能な人工知能(XAI)メソッドは、AIエージェントの意思決定をよりよく理解するためのものだ。 しかし、現代のxaiアプローチの多くは、特にaiやmlの知識を持たないユーザーにとって直感的ではない。 本稿では,ある決定に対して最も責任のあるトレーニング例を識別する責任と呼ばれる,新たなxaiアプローチを提案する。 この例は、"これが私が(AI)学んだことであり、それが私をそのようにしました"、と説明できる。 画像分類タスクにおける責任と既存のxai手法の比較から,amazon mechanical turkユーザ調査の結果とともに,複数のドメインを対象とした実験結果を示す。 以上の結果から,ヒューマンエンドユーザとセカンダリMLモデルの両方において,責任が精度の向上に役立つことが示された。

Explainable Artificial Intelligence (XAI) methods are intended to help human users better understand the decision making of an AI agent. However, many modern XAI approaches are unintuitive to end users, particularly those without prior AI or ML knowledge. In this paper, we present a novel XAI approach we call Responsibility that identifies the most responsible training example for a particular decision. This example can then be shown as an explanation: "this is what I (the AI) learned that led me to do that". We present experimental results across a number of domains along with the results of an Amazon Mechanical Turk user study, comparing responsibility and existing XAI methods on an image classification task. Our results demonstrate that responsibility can help improve accuracy for both human end users and secondary ML models.
翻訳日:2022-09-09 13:12:24 公開日:2022-09-07
# 小型バイナリ活性化ニューラルネットワーク構築のためのグレディアルゴリズム

A Greedy Algorithm for Building Compact Binary Activated Neural Networks ( http://arxiv.org/abs/2209.03450v1 )

ライセンス: Link先を確認
Benjamin Leblanc and Pascal Germain(参考訳) 回帰タスクの文脈でバイナリ活性化ニューラルネットワークを研究し、これらの特定のネットワークの表現性を保証し、そのようなネットワークを構築するための欲求的アルゴリズムを提案する。 ネットワークのアーキテクチャを事前に修正する必要はない。これは一度に1つのレイヤを構築し、一度に1つのニューロンを構築し、与えられたタスクに対して不必要に広く、深くない予測者を生み出す。 アルゴリズムの強化と同様に、このアプローチはニューロンが層に追加されるたびにトレーニング損失を減らすことを保証します。 これは、確率勾配勾配に依存するほとんどのバイナリ活性化ニューラルネットワークトレーニングスキーム(ストレートスルー推定器や連続二項化器などによる二項活性化関数の0-almost-everywhere微分問題を回避する)とは大きく異なる。 提案手法は,バイナリアクティベートネットワークをトレーニングするための最先端手法に類似した性能を確保しつつ,コンパクトかつスパースな予測器を提供する。

We study binary activated neural networks in the context of regression tasks, provide guarantees on the expressiveness of these particular networks and propose a greedy algorithm for building such networks. Aiming for predictors having small resources needs, the greedy approach does not need to fix in advance an architecture for the network: this one is built one layer at a time, one neuron at a time, leading to predictors that aren't needlessly wide and deep for a given task. Similarly to boosting algorithms, our approach guarantees a training loss reduction every time a neuron is added to a layer. This greatly differs from most binary activated neural networks training schemes that rely on stochastic gradient descent (circumventing the 0-almost-everywhere derivative problem of the binary activation function by surrogates such as the straight through estimator or continuous binarization). We show that our method provides compact and sparse predictors while obtaining similar performances to state-of-the-art methods for training binary activated networks.
翻訳日:2022-09-09 13:12:10 公開日:2022-09-07
# 自己監督型視覚変換器における事前知識誘導注意

Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers ( http://arxiv.org/abs/2209.03745v1 )

ライセンス: Link先を確認
Kevin Miao, Akash Gokul, Raghav Singh, Suzanne Petryk, Joseph Gonzalez, Kurt Keutzer, Trevor Darrell, Colorado Reed(参考訳) 自己教師型表現学習の最近のトレンドは、訓練パイプラインから帰納バイアスを取り除くことに集中している。 しかし、インダクティブバイアスは、限られたデータが利用できる場合や、基礎となるデータ分布に関するさらなる洞察を提供する場合に有用である。 本研究では,未ラベル画像データセットにおける一貫した空間的・意味的構造を活用し,視覚トランスフォーマーの注意を誘導する枠組みである空間的事前注意(span)を提案する。 SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。 これらの優先順位は、データ統計やドメインエキスパートが提供する単一のラベル付きサンプルから導き出します。 医療画像解析や視覚品質保証など,現実世界の詳細なシナリオについて検討した。 その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。 SPANは肺と心臓のセグメンテーションに58.7mAPの改善をもたらす。 また,前訓練モデルから下流胸部疾患分類タスクへ移行する際の領域非依存前訓練に比べて2.2モーク改善がみられた。 最後に、SPAN事前学習は、ドメインに依存しない事前訓練と比較して、低データ体制における下流分類性能が高いことを示す。

Recent trends in self-supervised representation learning have focused on removing inductive biases from training pipelines. However, inductive biases can be useful in settings when limited data are available or provide additional insight into the underlying data distribution. We present spatial prior attention (SPAN), a framework that takes advantage of consistent spatial and semantic structure in unlabeled image datasets to guide Vision Transformer attention. SPAN operates by regularizing attention masks from separate transformer heads to follow various priors over semantic regions. These priors can be derived from data statistics or a single labeled sample provided by a domain expert. We study SPAN through several detailed real-world scenarios, including medical image analysis and visual quality assurance. We find that the resulting attention masks are more interpretable than those derived from domain-agnostic pretraining. SPAN produces a 58.7 mAP improvement for lung and heart segmentation. We also find that our method yields a 2.2 mAUC improvement compared to domain-agnostic pretraining when transferring the pretrained model to a downstream chest disease classification task. Lastly, we show that SPAN pretraining leads to higher downstream classification performance in low-data regimes compared to domain-agnostic pretraining.
翻訳日:2022-09-09 13:06:35 公開日:2022-09-07
# ブラックボックスを売ってくれ! 説明可能な人工知能(xai)が顧客を傷つける理由

Sell Me the Blackbox! Why eXplainable Artificial Intelligence (XAI) May Hurt Customers ( http://arxiv.org/abs/2209.03499v1 )

ライセンス: Link先を確認
Behnam Mohammadi, Nikhil Malik, Tim Derdenger, Kannan Srinivasan(参考訳) 最近のAIアルゴリズムは、解釈が難しいブラックボックスモデルである。 eXplainable AI (XAI)は、顧客のAI決定を説明することで、AIの解釈可能性と信頼の欠如に対処しようとしている。 一般的な知恵は、完全に透明なXAIを強制することによってAIの規制が社会福祉を増大させるということである。 本稿では、社会福祉を最大化する政策立案者、利益を最大化するデュオポリ・コンペティションの企業、および異種消費者のためのゲーム理論モデルを通じて、この概念に挑戦する。 その結果,XAI規制は冗長である可能性が示唆された。 実際、完全に透明なxaiは、企業や顧客を悪化させる可能性がある。 これは、福祉の最大化と説明可能なAI出力の受け入れのトレードオフを明らかにする。 また、政策立案者や企業に対する管理上の意味についても論じる。

Recent AI algorithms are blackbox models whose decisions are difficult to interpret. eXplainable AI (XAI) seeks to address lack of AI interpretability and trust by explaining to customers their AI decision, e.g., decision to reject a loan application. The common wisdom is that regulating AI by mandating fully transparent XAI leads to greater social welfare. This paper challenges this notion through a game theoretic model for a policy-maker who maximizes social welfare, firms in a duopoly competition that maximize profits, and heterogenous consumers. The results show that XAI regulation may be redundant. In fact, mandating fully transparent XAI may make firms and customers worse off. This reveals a trade-off between maximizing welfare and receiving explainable AI outputs. We also discuss managerial implications for policy-maker and firms.
翻訳日:2022-09-09 13:01:48 公開日:2022-09-07
# 極端なポーズ認識のための情報最大化

Information Maximization for Extreme Pose Face Recognition ( http://arxiv.org/abs/2209.03456v1 )

ライセンス: Link先を確認
Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Sobhan Soleymani, Moktari Mostofa, and Nasser M. Nasrabadi(参考訳) 本稿では,正面面画像とプロファイル面画像との接続を抽象的な埋め込み空間に描画する。 我々は、この接続を結合エンコーダネットワークを用いて、フロント/プロファイルの顔画像を共通の潜在埋め込み空間に投影する。 提案モデルは,顔の2つのビュー間の相互情報を最大化することにより,埋め込み空間における表現の類似性を強制する。 提案した結合エンコーダは、極端なポーズの相違による顔のマッチングに3つの貢献から得られる。 まず、ポーズ認識のコントラスト学習を利用して、前頭とプロファイルの表現の相互情報を最大化する。 次に、過去のイテレーションで蓄積された潜在表現からなるメモリバッファをモデルに統合することで、ミニバッチサイズよりもはるかに多くのインスタンスを参照することができる。 第三に、新しいポーズ認識の逆領域適応法により、モデルにプロファイルからフロント表現への非対称なマッピングを学習させる。 このフレームワークでは、結合エンコーダは、真面と偽面の分布のマージンを拡大し、同一のアイデンティティの異なるビュー間で高い相互情報をもたらす。 提案モデルの有効性は,4つのベンチマークデータセットに対する広範な実験,評価,アブレーション研究,および魅力的な最先端アルゴリズムとの比較を通じて検討される。

In this paper, we seek to draw connections between the frontal and profile face images in an abstract embedding space. We exploit this connection using a coupled-encoder network to project frontal/profile face images into a common latent embedding space. The proposed model forces the similarity of representations in the embedding space by maximizing the mutual information between two views of the face. The proposed coupled-encoder benefits from three contributions for matching faces with extreme pose disparities. First, we leverage our pose-aware contrastive learning to maximize the mutual information between frontal and profile representations of identities. Second, a memory buffer, which consists of latent representations accumulated over past iterations, is integrated into the model so it can refer to relatively much more instances than the mini-batch size. Third, a novel pose-aware adversarial domain adaptation method forces the model to learn an asymmetric mapping from profile to frontal representation. In our framework, the coupled-encoder learns to enlarge the margin between the distribution of genuine and imposter faces, which results in high mutual information between different views of the same identity. The effectiveness of the proposed model is investigated through extensive experiments, evaluations, and ablation studies on four benchmark datasets, and comparison with the compelling state-of-the-art algorithms.
翻訳日:2022-09-09 13:01:04 公開日:2022-09-07
# 自然言語推論における不一致の理由の検討

Investigating Reasons for Disagreement in Natural Language Inference ( http://arxiv.org/abs/2209.03392v1 )

ライセンス: Link先を確認
Nan-Jiang Jiang and Marie-Catherine de Marneffe(参考訳) 自然言語推論(NLI)アノテーションの相違について検討する。 3つのハイレベルクラスにまたがる10のカテゴリからなる不一致源の分類法を開発した。 その結果,文の意味の不確実性が不一致であることや,記号のバイアスやタスクのアーティファクトが不一致であることから,ラベル分布の解釈が異なることが明らかとなった。 我々は,3つの標準NLIラベルに加えて,「複雑な」ラベルを持つ4方向分類法と,複数ラベル分類法という,潜在的な相違のある項目を検出するための2つのモデリング手法について検討する。 その結果,マルチラベル分類はより表現力が高く,データの解釈をよりよく再現できることがわかった。

We investigate how disagreement in natural language inference (NLI) annotation arises. We developed a taxonomy of disagreement sources with 10 categories spanning 3 high-level classes. We found that some disagreements are due to uncertainty in the sentence meaning, others to annotator biases and task artifacts, leading to different interpretations of the label distribution. We explore two modeling approaches for detecting items with potential disagreement: a 4-way classification with a "Complicated" label in addition to the three standard NLI labels, and a multilabel classification approach. We found that the multilabel classification is more expressive and gives better recall of the possible interpretations in the data.
翻訳日:2022-09-09 12:55:28 公開日:2022-09-07
# 抽象的な要約のためのエンティティベースのSpanCopyは、Factual Consistencyを改善する

Entity-based SpanCopy for Abstractive Summarization to Improve the Factual Consistency ( http://arxiv.org/abs/2209.03479v1 )

ライセンス: Link先を確認
Wen Xiao, Giuseppe Carenini(参考訳) 自動評価指標に関する最近の抽象的要約器の成功にもかかわらず、生成した要約は、ソース文書と現実的に矛盾している。 本稿では,エンティティレベルの事実的不整合,すなわち生成したサマリーとソースドキュメント間のミスマッチエンティティの低減に着目する。 そこで我々は,新しいエンティティベースのspancopyメカニズムを提案し,その拡張をグローバル関連コンポーネントで探究する。 4つの要約データセットの実験結果から、SpanCopyは、単語レベルとエンティティレベルのサリエンシを変更することなく、エンティティレベルの事実整合性を効果的に改善できることが示された。 コードはhttps://github.com/Wendy-Xiao/Entity-based-SpanCopyで入手できる。

Despite the success of recent abstractive summarizers on automatic evaluation metrics, the generated summaries still present factual inconsistencies with the source document. In this paper, we focus on entity-level factual inconsistency, i.e. reducing the mismatched entities between the generated summaries and the source documents. We therefore propose a novel entity-based SpanCopy mechanism, and explore its extension with a Global Relevance component. Experiment results on four summarization datasets show that SpanCopy can effectively improve the entity-level factual consistency with essentially no change in the word-level and entity-level saliency. The code is available at https://github.com/Wendy-Xiao/Entity-based-SpanCopy
翻訳日:2022-09-09 12:55:17 公開日:2022-09-07
# 脳-コンピュータインタフェースのための半教師付きメタ学習法

A Novel Semi-supervised Meta Learning Method for Subject-transfer Brain-computer Interface ( http://arxiv.org/abs/2209.03785v1 )

ライセンス: Link先を確認
Jingcong Li, Fei Wang, Haiyun Huang, Feifei Qi, Jiahui Pan(参考訳) 脳コンピュータインタフェース(BCI)は、ヒトの脳と外部デバイスとの間の直接的な通信経路を提供する。 新しい被験者がbciを使用する前に、通常、キャリブレーション手順が必要である。 サブジェクト内およびサブジェクト間のばらつきが非常に大きいため、既存の被験者が訓練したモデルは、新しい被験者に対してあまり効果がない。 したがって,効果的な主題移動・校正手法が不可欠である。 本稿では,BCIにおける課題伝達学習のための半教師付きメタラーニング(SSML)手法を提案する。 提案したSSMLは,まず既存の被験者のメタモデルを学習し,そのモデルを半教師付き学習方法で微調整する。 ラベルなしのデータが手軽に入手できる一方で、ラベル付きデータが少ない、または高価であるbciアプリケーションにとって重要である。 SSML法を検証するために、3つの異なるBCIパラダイムがテストされている。 1) 事象関連電位検出 2)感情認識,及び 3)睡眠ステージング。 ssmlは最初の2つのパラダイムで15%以上、第3パラダイムで4.9%の大幅な改善を達成した。 実験結果は,BCI応用におけるSSML法の有効性と可能性を示した。

Brain-computer interface (BCI) provides a direct communication pathway between human brain and external devices. Before a new subject could use BCI, a calibration procedure is usually required. Because the inter- and intra-subject variances are so large that the models trained by the existing subjects perform poorly on new subjects. Therefore, effective subject-transfer and calibration method is essential. In this paper, we propose a semi-supervised meta learning (SSML) method for subject-transfer learning in BCIs. The proposed SSML learns a meta model with the existing subjects first, then fine-tunes the model in a semi-supervised learning manner, i.e. using few labeled and many unlabeled samples of target subject for calibration. It is significant for BCI applications where the labeled data are scarce or expensive while unlabeled data are readily available. To verify the SSML method, three different BCI paradigms are tested: 1) event-related potential detection; 2) emotion recognition; and 3) sleep staging. The SSML achieved significant improvements of over 15% on the first two paradigms and 4.9% on the third. The experimental results demonstrated the effectiveness and potential of the SSML method in BCI applications.
翻訳日:2022-09-09 12:50:50 公開日:2022-09-07
# fact-saboteurs: 事実検証システムに対する証拠操作の分類法

Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems ( http://arxiv.org/abs/2209.03755v1 )

ライセンス: Link先を確認
Sahar Abdelnabi and Mario Fritz(参考訳) 誤報と偽報は、今や我々の安全と安全に対する重大な世界的脅威だ。 オンライン誤報の規模に対処するためには、関連する証拠を検索して検証することで、クレームの事実チェックを自動化する方法がある。 自動事実検証の推進において近年の大きな進歩が達成されているが、このようなシステムに対する攻撃ベクトルの包括的評価はいまだに不十分である。 特に、自動事実検証プロセスは、彼らが戦おうとしている正確な偽情報キャンペーンに弱い可能性がある。 本研究では,関連する証拠を偽造したり,誤解を招く証拠を植え付けることによって事実確認モデルを妨害するために,オンライン証拠を自動的に改ざんする敵を仮定する。 まず,これら2つの目標と異なる脅威モデル次元にまたがる探索的分類法を提案する。 これを踏まえ,いくつかの攻撃手法を設計,提案する。 また, 証拠中のクレーム・サレントなスニペットを微調整し, 多様なクレーム・アラインな証拠を生成できることが示唆された。 その結果,分類学の次元の多くの異なる順に,事実確認性能を高度に低下させた。 攻撃は、ポストホックなクレームの修正に対しても堅牢である。 我々の分析は、矛盾する証拠に直面したモデル推論の潜在的な限界をさらに示唆している。 我々は,これらの攻撃が,そのようなモデルの検査およびループ内利用シナリオに有害な影響を及ぼす可能性があることを強調し,今後の防衛の課題と方向性について議論して結論づける。

Mis- and disinformation are now a substantial global threat to our security and safety. To cope with the scale of online misinformation, one viable solution is to automate the fact-checking of claims by retrieving and verifying against relevant evidence. While major recent advances have been achieved in pushing forward the automatic fact-verification, a comprehensive evaluation of the possible attack vectors against such systems is still lacking. Particularly, the automated fact-verification process might be vulnerable to the exact disinformation campaigns it is trying to combat. In this work, we assume an adversary that automatically tampers with the online evidence in order to disrupt the fact-checking model via camouflaging the relevant evidence, or planting a misleading one. We first propose an exploratory taxonomy that spans these two targets and the different threat model dimensions. Guided by this, we design and propose several potential attack methods. We show that it is possible to subtly modify claim-salient snippets in the evidence, in addition to generating diverse and claim-aligned evidence. As a result, we highly degrade the fact-checking performance under many different permutations of the taxonomy's dimensions. The attacks are also robust against post-hoc modifications of the claim. Our analysis further hints at potential limitations in models' inference when faced with contradicting evidence. We emphasize that these attacks can have harmful implications on the inspectable and human-in-the-loop usage scenarios of such models, and we conclude by discussing challenges and directions for future defenses.
翻訳日:2022-09-09 12:42:57 公開日:2022-09-07
# 光コヒーレンストモグラフィと血管造影を用いたアルツハイマー病自動診断法の検討

A Survey on Automated Diagnosis of Alzheimer's Disease Using Optical Coherence Tomography and Angiography ( http://arxiv.org/abs/2209.03354v1 )

ライセンス: Link先を確認
Yasemin Turkan and F. Boray Tek(参考訳) 網膜光コヒーレンス断層撮影(oct)と光コヒーレンス断層撮影(octa)は、アルツハイマー病(ad)の早期診断のための有望なツールである。 これらの非侵襲イメージング技術は、代替のニューロイメージングツールよりもコスト効率が高くアクセスしやすい。 しかし、OCTデバイスで生成されたマルチスライススキャンの解釈と分類は、訓練を受けた実践者であっても時間がかかる。 緑内障などの各種疾患に対するOCTスキャンの自動解析に関する機械学習およびディープラーニングアプローチに関する調査がある。 しかし、現在の文献では、OCTまたはOCTAを用いたアルツハイマー病や認知障害の診断に関する広範な調査が欠如している。 これは、問題の導入を必要とする機械学習の科学者や実践者を対象に、包括的な調査を行う動機になりました。 紙には 1)アルツハイマー病・認知障害の医学的背景とOCTおよびOCTA画像を用いた診断 2) 自動分析の観点からの課題と課題に対する様々な技術的提案のレビュー 3) アルツハイマー病・認知障害の診断を目的とした最近の深層学習研究とOCT/OCTAデータセットの体系的レビューを行った。 後者では,Scopus,PubMed,Web of Scienceなど,さまざまなソースから関連する研究を検索するためにPublishあるいはPerish Softwareを使用しました。 PRISMA法を施行し,3073例を初診し,AD診断を直接標的とした10例(N=10,3073例中10例)について検討した。 OCT/OCTAデータセット(アルツハイマー病周辺)が欠如していることが,この分野の進歩を妨げる主要な課題であると考えられた。

Retinal optical coherence tomography (OCT) and optical coherence tomography angiography (OCTA) are promising tools for the (early) diagnosis of Alzheimer's disease (AD). These non-invasive imaging techniques are cost-effective and more accessible than alternative neuroimaging tools. However, interpreting and classifying multi-slice scans produced by OCT devices is time-consuming and challenging even for trained practitioners. There are surveys on machine learning and deep learning approaches concerning the automated analysis of OCT scans for various diseases such as glaucoma. However, the current literature lacks an extensive survey on the diagnosis of Alzheimer's disease or cognitive impairment using OCT or OCTA. This has motivated us to do a comprehensive survey aimed at machine/deep learning scientists or practitioners who require an introduction to the problem. The paper contains 1) an introduction to the medical background of Alzheimer's Disease and Cognitive Impairment and their diagnosis using OCT and OCTA imaging modalities, 2) a review of various technical proposals for the problem and the sub-problems from an automated analysis perspective, 3) a systematic review of the recent deep learning studies and available OCT/OCTA datasets directly aimed at the diagnosis of Alzheimer's Disease and Cognitive Impairment. For the latter, we used Publish or Perish Software to search for the relevant studies from various sources such as Scopus, PubMed, and Web of Science. We followed the PRISMA approach to screen an initial pool of 3073 references and determined ten relevant studies (N=10, out of 3073) that directly targeted AD diagnosis. We identified the lack of open OCT/OCTA datasets (about Alzheimer's disease) as the main issue that is impeding the progress in the field.
翻訳日:2022-09-09 12:42:30 公開日:2022-09-07
# AILAB-Udine@SMM4H 22: トランスフォーマーとBERTアンサンブルの制限

AILAB-Udine@SMM4H 22: Limits of Transformers and BERT Ensembles ( http://arxiv.org/abs/2209.03452v1 )

ライセンス: Link先を確認
Beatrice Portelli, Simone Scaboro, Emmanuele Chersoni, Enrico Santus, Giuseppe Serra(参考訳) 本稿では, AILAB-Udine チームが開発した SMM4H 22 Shared Task のモデルについて述べる。 テキスト分類,エンティティ抽出,エンティティ正規化,タスク1, 2, 5, 6, 10 の対応に基づく Transformer ベースモデルの限界について検討した。 異なるタスクに参加することで得られた主なポイントは、アンサンブル学習を使用する際に異なるアーキテクチャを組み合わせることによる圧倒的なポジティブな効果と、項正規化のための生成モデルの大きな可能性である。

This paper describes the models developed by the AILAB-Udine team for the SMM4H 22 Shared Task. We explored the limits of Transformer based models on text classification, entity extraction and entity normalization, tackling Tasks 1, 2, 5, 6 and 10. The main take-aways we got from participating in different tasks are: the overwhelming positive effects of combining different architectures when using ensemble learning, and the great potential of generative models for term normalization.
翻訳日:2022-09-09 12:38:27 公開日:2022-09-07
# 医療機器リスク評価と管理のためのハイブリッドベイズネットワーク

A hybrid Bayesian network for medical device risk assessment and management ( http://arxiv.org/abs/2209.03352v1 )

ライセンス: Link先を確認
Joshua Hunte, Martin Neil, Norman Fenton(参考訳) ISO 14971は医療機器のリスク管理に使用される主要な規格である。 医療機器のリスク管理の要件を規定するが、リスク管理を行うための特定の方法を指定するものではない。 したがって、医療機器メーカーは、医療機器のリスクを管理する適切な方法の開発や使用を自由に行うことができる。 フォールトツリー分析(fta: fault tree analysis)のような最も一般的に使用される手法は、過去のデータが限られている場合やデータに関する2次不確実性がある場合、リスク見積の合理的な根拠を提供することができない。 本稿では,FTAなどの古典的手法の限界を解消し,医療機器のリスクに影響を与える要因を取り入れた,ハイブリッドベイズネットワーク(BN)を用いた医療機器のリスク管理手法を提案する。 提案手法は汎用的だが,システムごとのインスタンス化が可能であり,本手法をDefibrillatorデバイスに適用することにより,生産・生産中の医療機器のリスク管理プロセスの実証を行う。 この例は実世界データに対して検証される。

ISO 14971 is the primary standard used for medical device risk management. While it specifies the requirements for medical device risk management, it does not specify a particular method for performing risk management. Hence, medical device manufacturers are free to develop or use any appropriate methods for managing the risk of medical devices. The most commonly used methods, such as Fault Tree Analysis (FTA), are unable to provide a reasonable basis for computing risk estimates when there are limited or no historical data available or where there is second-order uncertainty about the data. In this paper, we present a novel method for medical device risk management using hybrid Bayesian networks (BNs) that resolves the limitations of classical methods such as FTA and incorporates relevant factors affecting the risk of medical devices. The proposed BN method is generic but can be instantiated on a system-by-system basis, and we apply it to a Defibrillator device to demonstrate the process involved for medical device risk management during production and post-production. The example is validated against real-world data.
翻訳日:2022-09-09 12:38:01 公開日:2022-09-07
# 深部RLモデルの解釈可能なニューロファジィシステムへの応用

Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems ( http://arxiv.org/abs/2209.03357v1 )

ライセンス: Link先を確認
Arne Gevaert, Jonathan Peck, Yvan Saeys(参考訳) Deep Reinforcement Learningは、ディープニューラルネットワークを使用してポリシーを符号化し、幅広いアプリケーションで非常に優れたパフォーマンスを達成するが、ブラックボックスモデルとして広く見なされている。 ディープネットワークのより解釈しやすい代替手段は、ニューロファジーコントローラによって与えられる。 残念ながら、神経ファジィコントローラは比較的単純なタスクを解くために多くのルールを必要とすることが多く、解釈が難しい。 本研究では,Qネットワークの深部から小型のニューロファジィコントローラへポリシーを抽出するアルゴリズムを提案する。 これにより、蒸留を通してコンパクトなニューロファジィコントローラを訓練し、より深い強化学習の柔軟性とコンパクトなルール基底の解釈可能性を組み合わせることで、直接解決できない課題を解決することができる。 このアルゴリズムはOpenAI Gymの3つのよく知られた環境で実証され、2から6のファジィルールでDQNエージェントのパフォーマンスとほぼ一致した。

Deep Reinforcement Learning uses a deep neural network to encode a policy, which achieves very good performance in a wide range of applications but is widely regarded as a black box model. A more interpretable alternative to deep networks is given by neuro-fuzzy controllers. Unfortunately, neuro-fuzzy controllers often need a large number of rules to solve relatively simple tasks, making them difficult to interpret. In this work, we present an algorithm to distill the policy from a deep Q-network into a compact neuro-fuzzy controller. This allows us to train compact neuro-fuzzy controllers through distillation to solve tasks that they are unable to solve directly, combining the flexibility of deep reinforcement learning and the interpretability of compact rule bases. We demonstrate the algorithm on three well-known environments from OpenAI Gym, where we nearly match the performance of a DQN agent using only 2 to 6 fuzzy rules.
翻訳日:2022-09-09 12:37:44 公開日:2022-09-07
# NPハード探索問題に対するヒューリスティック近似器の(Un)スケーラビリティ

The (Un)Scalability of Heuristic Approximators for NP-Hard Search Problems ( http://arxiv.org/abs/2209.03393v1 )

ライセンス: Link先を確認
Sumedh Pendurkar, Taoan Huang, Sven Koenig, Guni Sharon(参考訳) a*アルゴリズムはnp-ハードコンビネート最適化問題を解くためによく用いられる。 正確なヒューリスティック関数が与えられると、A* は解深さの多項式である時間複雑性のそのような問題を解くことができる。 この事実は、多くの問題に対する正確なヒューリスティック近似もまたNPハードであることを意味する。 本研究では,ヒューリスティック近似のための深層ニューラルネットワークの利用を提案する最近の論文シリーズについて考察する。 P$\ne$NP という仮定の下で、これらの作業は固有のスケーラビリティの制限に悩まされていると断言する。 (a)インスタンスサイズで指数関数的にスケールするネットワークサイズ、または (b)インスタンスサイズと逆スケールするヒューリスティック近似精度。 我々の主張は、深部ニューラルネットワークをヒューリスティック関数に正確に適合させるには、インスタンスサイズと指数関数的にスケールするネットワークサイズが必要であることを示す3つの代表的NPハードサーチ問題に対する実験結果によって裏付けられている。

The A* algorithm is commonly used to solve NP-hard combinatorial optimization problems. When provided with an accurate heuristic function, A* can solve such problems in time complexity that is polynomial in the solution depth. This fact implies that accurate heuristic approximation for many such problems is also NP-hard. In this context, we examine a line of recent publications that propose the use of deep neural networks for heuristic approximation. We assert that these works suffer from inherent scalability limitations since -- under the assumption that P$\ne$NP -- such approaches result in either (a) network sizes that scale exponentially in the instance sizes or (b) heuristic approximation accuracy that scales inversely with the instance sizes. Our claim is supported by experimental results for three representative NP-hard search problems that show that fitting deep neural networks accurately to heuristic functions necessitates network sizes that scale exponentially with the instance size.
翻訳日:2022-09-09 12:37:28 公開日:2022-09-07
# ニューラルツリーの調査

A Survey of Neural Trees ( http://arxiv.org/abs/2209.03415v1 )

ライセンス: Link先を確認
Haoling Li, Jie Song, Mengqi Xue, Haofei Zhang, Jingwen Ye, Lechao Cheng, Mingli Song(参考訳) ニューラルネットワーク(NN)と決定木(DT)はどちらも機械学習の一般的なモデルであるが、相互に排他的な優位性と制限がある。 2つの世界を最大限に活用するために、NNとDTを明示的にあるいは暗黙的に統合する様々なアプローチが提案されている。 本調査では,これらのアプローチをニューラルツリー(NT)と呼ぶ学校に編成する。 本調査は,NTの包括的レビューと,モデル解釈可能性の向上方法の検証を目的としている。 まず、NNとDTの漸進的な統合と共進化を表現するNTの完全な分類法を提案する。 その後、NTの解釈可能性と性能を解析し、残りの課題に対する解決策を提案する。 最後に、この調査は条件付き計算やこの分野への有望な方向など、他の考慮事項に関する議論で締めくくられる。 この調査でレビューされた論文と対応するコードのリストは、https://github.com/zju-vipa/awesome-neural-treesで見ることができる。

Neural networks (NNs) and decision trees (DTs) are both popular models of machine learning, yet coming with mutually exclusive advantages and limitations. To bring the best of the two worlds, a variety of approaches are proposed to integrate NNs and DTs explicitly or implicitly. In this survey, these approaches are organized in a school which we term as neural trees (NTs). This survey aims to present a comprehensive review of NTs and attempts to identify how they enhance the model interpretability. We first propose a thorough taxonomy of NTs that expresses the gradual integration and co-evolution of NNs and DTs. Afterward, we analyze NTs in terms of their interpretability and performance, and suggest possible solutions to the remaining challenges. Finally, this survey concludes with a discussion about other considerations like conditional computation and promising directions towards this field. A list of papers reviewed in this survey, along with their corresponding codes, is available at: https://github.com/zju-vipa/awesome-neural-trees
翻訳日:2022-09-09 12:37:15 公開日:2022-09-07
# 遅れた共同設立者との時系列の因果発見

Causal discovery for time series with latent confounders ( http://arxiv.org/abs/2209.03427v1 )

ライセンス: Link先を確認
Christian Reiser(参考訳) 私たちが観察する現象の背後にある因果関係を再構築することは、科学のあらゆる分野における根本的な課題である。 実験を通じて因果関係を発見することは、複雑なシステムでは、しばしば実現不可能、非倫理的、または高価である。 しかし、計算能力の増大により、現代の科学が生成するデータ量はますます増え続けており、観測データから因果発見問題への関心が高まっている。 この研究はLPCMCIアルゴリズムを評価し、いくつかの変数が観測されていない間、多次元の高自己相関時系列と互換性のあるジェネレータを見つけることを目的としている。 LPCMCIは、何も知らないが最適な検出には程遠い、ランダムなアルゴリズムよりもはるかに優れた性能を発揮する。 さらに、LPCMCIは自動依存性に対して最善を尽くし、その後に同時依存関係を発生させ、タグ付けされた依存関係に最も苦労する。 このプロジェクトのソースコードはオンラインで入手できる。

Reconstructing the causal relationships behind the phenomena we observe is a fundamental challenge in all areas of science. Discovering causal relationships through experiments is often infeasible, unethical, or expensive in complex systems. However, increases in computational power allow us to process the ever-growing amount of data that modern science generates, leading to an emerging interest in the causal discovery problem from observational data. This work evaluates the LPCMCI algorithm, which aims to find generators compatible with a multi-dimensional, highly autocorrelated time series while some variables are unobserved. We find that LPCMCI performs much better than a random algorithm mimicking not knowing anything but is still far from optimal detection. Furthermore, LPCMCI performs best on auto-dependencies, then contemporaneous dependencies, and struggles most with lagged dependencies. The source code of this project is available online.
翻訳日:2022-09-09 12:36:30 公開日:2022-09-07
# プレトレーニングにおけるクラス多様性の祝福

Blessing of Class Diversity in Pre-training ( http://arxiv.org/abs/2209.03447v1 )

ライセンス: Link先を確認
Yulai Zhao, Jianshu Chen, Simon S. Du(参考訳) 本稿では,自然言語処理(NLP)における事前学習技術の最近の優れた成果を説明するために,新しい統計分析法を提案する。 事前学習タスクのクラス(例えば、マスク付き言語モデルタスクの異なる単語)が十分に多様である場合、事前学習における最後の線形層の最小特異値($\tilde{\nu}$)が大きくなるという意味で、事前学習は下流タスクのサンプル効率を大幅に向上させることができる。 特に、移行学習過剰リスクは、標準教師付き学習における$O\left(\frac{1}{\tilde{\nu} \sqrt{n}}\right)$レートと対照的に、$O\left(\frac{1}{\sqrt{m}}\right)$レートを楽しむことを示す。 ここで、$n$は事前トレーニングデータの数であり、$m$は下流タスクのデータ数であり、通常$n \gg m$である。 我々の証明は、合成関数クラスを分解するためのベクトル形式Radecher複雑性連鎖則と修正自己調和条件に依存している。 これらの技術は独立した関心を持つことができる。

This paper presents a new statistical analysis aiming to explain the recent superior achievements of the pre-training techniques in natural language processing (NLP). We prove that when the classes of the pre-training task (e.g., different words in the masked language model task) are sufficiently diverse, in the sense that the least singular value of the last linear layer in pre-training (denoted as $\tilde{\nu}$) is large, then pre-training can significantly improve the sample efficiency of downstream tasks. Specially, we show the transfer learning excess risk enjoys an $O\left(\frac{1}{\tilde{\nu} \sqrt{n}}\right)$ rate, in contrast to the $O\left(\frac{1}{\sqrt{m}}\right)$ rate in the standard supervised learning. Here, $n$ is the number of pre-training data and $m$ is the number of data in the downstream task, and typically $n \gg m$. Our proof relies on a vector-form Rademacher complexity chain rule for disassembling composite function classes and a modified self-concordance condition. These techniques can be of independent interest.
翻訳日:2022-09-09 12:36:17 公開日:2022-09-07
# 知識蒸留によるエッジの逆超解像生成

Generative Adversarial Super-Resolution at the Edge with Knowledge Distillation ( http://arxiv.org/abs/2209.03355v1 )

ライセンス: Link先を確認
Simone Angarano, Francesco Salvetti, Mauro Martini, Marcello Chiaberge(参考訳) シングルイメージのスーパーレゾリューションは、ミッションの監視、遠隔操作、関連する視覚詳細の研究のために信頼できるビジュアルストリームを必要とする環境でロボットタスクをサポートする。 本研究では,リアルタイム超解法のための効率的な生成適応型ネットワークモデルを提案する。 我々は、CPUおよびエッジTPUデバイス上での実行を促進するために、元のSRGANとモデル量子化を調整したアーキテクチャを採用し、最大200fpsの推論を実現した。 我々は,その知識をネットワークのより小さなバージョンに蒸留することで,モデルをさらに最適化し,標準的なトレーニングアプローチと比較して顕著な改善を得る。 実験の結果,我々の高速で軽量なモデルでは,高画質のモデルに比べて画質がかなり高いことがわかった。 最後に,提案する移動ロボット用システムの利点を強調するために,帯域劣化を伴う画像伝送実験を行う。

Single-Image Super-Resolution can support robotic tasks in environments where a reliable visual stream is required to monitor the mission, handle teleoperation or study relevant visual details. In this work, we propose an efficient Generative Adversarial Network model for real-time Super-Resolution. We adopt a tailored architecture of the original SRGAN and model quantization to boost the execution on CPU and Edge TPU devices, achieving up to 200 fps inference. We further optimize our model by distilling its knowledge to a smaller version of the network and obtain remarkable improvements compared to the standard training approach. Our experiments show that our fast and lightweight model preserves considerably satisfying image quality compared to heavier state-of-the-art models. Finally, we conduct experiments on image transmission with bandwidth degradation to highlight the advantages of the proposed system for mobile robotic applications.
翻訳日:2022-09-09 12:32:19 公開日:2022-09-07
# 知的財産保護のための改良型GAN透かし

Supervised GAN Watermarking for Intellectual Property Protection ( http://arxiv.org/abs/2209.03466v1 )

ライセンス: Link先を確認
Jianwei Fei, Zhihua Xia, Benedetta Tondi, Mauro Barni(参考訳) 本稿では,GAN(Generative Adversarial Networks)の知的財産権(IP)を保護するための透かし手法を提案する。 目的は、GANモデルにおいて、GANが生成した画像が、画像内の存在を後段で確認し、所有権の検証が可能な、見えない透かし(署名)を含むようにすることである。 この目的を達成するために、ジェネレータの出力に予め訓練されたcnn透かし復号ブロックを挿入する。 そして、当該生成画像から所定の透かしを抽出できるように、透かし損失項を含むことにより、発電機損失を修正する。 透かしは微調整によって埋め込まれ、時間の複雑さが減ります。 その結果,本手法は生成画像内に見えない透かしを効果的に埋め込むことができることがわかった。 さらに,本手法は一般的な手法であり,異なるGANアーキテクチャ,異なるタスク,出力画像の異なる解像度で動作する。 また,いくつかの後処理,JPEG圧縮,ノイズ付加,ぼやけ,色変換など,組込み透かしの優れた堅牢性性能を示す。

We propose a watermarking method for protecting the Intellectual Property (IP) of Generative Adversarial Networks (GANs). The aim is to watermark the GAN model so that any image generated by the GAN contains an invisible watermark (signature), whose presence inside the image can be checked at a later stage for ownership verification. To achieve this goal, a pre-trained CNN watermarking decoding block is inserted at the output of the generator. The generator loss is then modified by including a watermark loss term, to ensure that the prescribed watermark can be extracted from the generated images. The watermark is embedded via fine-tuning, with reduced time complexity. Results show that our method can effectively embed an invisible watermark inside the generated images. Moreover, our method is a general one and can work with different GAN architectures, different tasks, and different resolutions of the output image. We also demonstrate the good robustness performance of the embedded watermark against several post-processing, among them, JPEG compression, noise addition, blurring, and color transformations.
翻訳日:2022-09-09 12:31:14 公開日:2022-09-07
# スパイクの確保:スパイクニューラルネットワークの敵の例への転送確率とセキュリティについて

Securing the Spike: On the Transferabilty and Security of Spiking Neural Networks to Adversarial Examples ( http://arxiv.org/abs/2209.03358v1 )

ライセンス: Link先を確認
Nuo Xu, Kaleel Mahmood, Haowen Fang, Ethan Rathbun, Caiwen Ding, Wujie Wen(参考訳) スパイキングニューラルネットワーク(SNN)はその高エネルギー効率と最近の分類性能の進歩に多くの注目を集めている。 しかし、従来のディープラーニング手法とは異なり、SNNの強靭性の分析と研究は比較的未発達のままである。 本研究では,3つの重要なSNNセキュリティ属性の実験と解析を通じて,敵対的機械学習の分野を前進させる。 まず,snsに対するホワイトボックス攻撃の成功は,サブロゲート勾配法に強く依存していることを示す。 第二に、SNNやVision TransformersやBig Transfer CNNといった最先端アーキテクチャが生成する逆例の転送可能性を分析する。 視覚変換器や特定の種類のCNNが生成する逆の例では,SNNがしばしば騙されないことを示す。 最後に、SNNモデルと非SNNモデルの両方を同時に騙すことができる敵の例を生成する新しいホワイトボックス攻撃を開発する。 実験と分析は、2つのデータセット(CIFAR-10とCIFAR-100)、5つの異なるホワイトボックス攻撃、12の異なる分類器モデルをカバーする。

Spiking neural networks (SNNs) have attracted much attention for their high energy efficiency and for recent advances in their classification performance. However, unlike traditional deep learning approaches, the analysis and study of the robustness of SNNs to adversarial examples remains relatively underdeveloped. In this work we advance the field of adversarial machine learning through experimentation and analyses of three important SNN security attributes. First, we show that successful white-box adversarial attacks on SNNs are highly dependent on the underlying surrogate gradient technique. Second, we analyze the transferability of adversarial examples generated by SNNs and other state-of-the-art architectures like Vision Transformers and Big Transfer CNNs. We demonstrate that SNNs are not often deceived by adversarial examples generated by Vision Transformers and certain types of CNNs. Lastly, we develop a novel white-box attack that generates adversarial examples capable of fooling both SNN models and non-SNN models simultaneously. Our experiments and analyses are broad and rigorous covering two datasets (CIFAR-10 and CIFAR-100), five different white-box attacks and twelve different classifier models.
翻訳日:2022-09-09 12:27:05 公開日:2022-09-07
# マルチモーダル機械学習の基礎と最近の動向:原則,課題,オープンな質問

Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions ( http://arxiv.org/abs/2209.03430v1 )

ライセンス: Link先を確認
Paul Pu Liang, Amir Zadeh, Louis-Philippe Morency(参考訳) マルチモーダル機械学習(Multimodal machine learning)は、言語、音響、視覚、触覚、生理的メッセージを含む複数のコミュニケーションモダリティを統合することによって、理解、推論、学習といった知的能力を持つコンピュータエージェントを設計することを目的とした、活発な多分野の研究分野である。 最近のビデオ理解への関心、具体化された自律エージェント、テキストから画像への生成、医療やロボティクスなどのアプリケーションドメインにおけるマルチセンサー融合などにより、マルチモーダル機械学習は、データソースの多様性とモダリティの間によく見られる相互関係を考慮し、機械学習コミュニティにユニークな計算と理論的課題をもたらした。 しかし、マルチモーダル研究の進展により、この分野における共通のテーマや疑問の特定が困難になっている。 歴史的・最近の両視点から幅広いアプリケーションドメインと理論フレームワークを合成することにより,マルチモーダル機械学習の計算的・理論的基礎を概観する。 まず、モダリティの不均一性と相互接続の2つの重要な原則を定義し、表現、アライメント、推論、生成、転移、そして歴史的および最近のトレンドをカバーする6つの技術的な課題の分類を提案する。 最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。 最後に、分類学によって特定された将来の研究のために、いくつかのオープンな問題を動機付けます。

Multimodal machine learning is a vibrant multi-disciplinary research field that aims to design computer agents with intelligent capabilities such as understanding, reasoning, and learning through integrating multiple communicative modalities, including linguistic, acoustic, visual, tactile, and physiological messages. With the recent interest in video understanding, embodied autonomous agents, text-to-image generation, and multisensor fusion in application domains such as healthcare and robotics, multimodal machine learning has brought unique computational and theoretical challenges to the machine learning community given the heterogeneity of data sources and the interconnections often found between modalities. However, the breadth of progress in multimodal research has made it difficult to identify the common themes and open questions in the field. By synthesizing a broad range of application domains and theoretical frameworks from both historical and recent perspectives, this paper is designed to provide an overview of the computational and theoretical foundations of multimodal machine learning. We start by defining two key principles of modality heterogeneity and interconnections that have driven subsequent innovations, and propose a taxonomy of 6 core technical challenges: representation, alignment, reasoning, generation, transference, and quantification covering historical and recent trends. Recent technical achievements will be presented through the lens of this taxonomy, allowing researchers to understand the similarities and differences across new approaches. We end by motivating several open problems for future research as identified by our taxonomy.
翻訳日:2022-09-09 12:26:47 公開日:2022-09-07
# 深部学習に基づく変形性股関節症自動診断システム

Deep Learning-Based Automatic Diagnosis System for Developmental Dysplasia of the Hip ( http://arxiv.org/abs/2209.03440v1 )

ライセンス: Link先を確認
Yang Li, Leo Yan Li-Han, Hua Tian(参考訳) 第一線診断法としてのx線撮影は, 発達性股関節異形成 (ddh) の早期発見において重要な役割を担っている。 臨床的には、DDHの診断は骨盤X線写真と異なる解剖学的特徴のマニュアル測定と主観評価に依存している。 このプロセスは非効率でエラーを起こしやすく、臨床経験が何年も必要である。 本研究では,ラジオグラフから14個のキーポイントを自動的に検出し,3つの解剖学的角度(中央縁,T\onnis,Sharp角)を測定し,DDHヒップをCrowe基準に基づいてグレードI-IVに分類する深層学習システムを提案する。 さらに,ddh診断のための3つの角度からの情報を定量的に統合する新しいデータ駆動スコアリングシステムを提案する。 提案手法は平均信頼区間[ci]の平均精度0.807 (0.804-0.810) を達成した。 中央縁, Tonnis, シャープ角度の平均 (95% CI) 相関係数は0.957 (0.952-0.962), 0.947 (0.941-0.953), 0.953 (0.947-0.960) で, 経験者整形外科医 (p<0.0001) よりも有意に高かった。 また, 平均 (95% CI) テスト診断契約 (コーエンカッパ) は0.84 (0.83-0.85) であり, 個々の角度 (0.76 [0.75-0.77]) および整形外科医 (0.71 [0.63-0.79]) の診断基準より有意に高かった。 我々の知る限りでは、深層学習キーポイントの検出と異なる解剖学的測定の統合を活用し、臨床的意思決定への信頼性と説明可能な支援を提供することにより、客観的DDH診断のための最初の研究である。

As the first-line diagnostic imaging modality, radiography plays an essential role in the early detection of developmental dysplasia of the hip (DDH). Clinically, the diagnosis of DDH relies on manual measurements and subjective evaluation of different anatomical features from pelvic radiographs. This process is inefficient and error-prone and requires years of clinical experience. In this study, we propose a deep learning-based system that automatically detects 14 keypoints from a radiograph, measures three anatomical angles (center-edge, T\"onnis, and Sharp angles), and classifies DDH hips as grades I-IV based on the Crowe criteria. Moreover, a novel data-driven scoring system is proposed to quantitatively integrate the information from the three angles for DDH diagnosis. The proposed keypoint detection model achieved a mean (95% confidence interval [CI]) average precision of 0.807 (0.804-0.810). The mean (95% CI) intraclass correlation coefficients between the center-edge, Tonnis, and Sharp angles measured by the proposed model and the ground-truth were 0.957 (0.952-0.962), 0.947 (0.941-0.953), and 0.953 (0.947-0.960), respectively, which were significantly higher than those of experienced orthopedic surgeons (p<0.0001). In addition, the mean (95% CI) test diagnostic agreement (Cohen's kappa) obtained using the proposed scoring system was 0.84 (0.83-0.85), which was significantly higher than those obtained from diagnostic criteria for individual angle (0.76 [0.75-0.77]) and orthopedists (0.71 [0.63-0.79]). To the best of our knowledge, this is the first study for objective DDH diagnosis by leveraging deep learning keypoint detection and integrating different anatomical measurements, which can provide reliable and explainable support for clinical decision-making.
翻訳日:2022-09-09 12:25:15 公開日:2022-09-07
# CGAN-ECT: CGANを用いた電気容量測定による画像再構成

CGAN-ECT: Tomography Image Reconstruction from Electrical Capacitance Measurements Using CGANs ( http://arxiv.org/abs/2209.03737v1 )

ライセンス: Link先を確認
Wael Deabes and Alaa E. Abdel-Hakim(参考訳) 電気容量トモグラフィ (ect) の応用がいくつかの産業分野において急速に進展していることから, 生容量測定による高品位, 高速, 画像再構成手法の開発が不可欠である。 複雑な機能のための効果的な非線形マッピングツールであるdeep learningは、電気トモグラフィを含む多くの分野でバイラルになっている。 本稿では,キャパシタンス測定からECT画像の再構成を行う条件生成適応ネットワーク(CGAN)モデルを提案する。 CGANモデルの初期像は容量測定から構成される。 私たちの知る限りでは、画像形式で容量の測定を表現するのはこれが初めてです。 提案したモデルを用いて,320Kの合成画像計測ペアの大規模データセットを作成し,実験を行った。 提案するcgan-ectモデルの実用性と一般化性は, テストデータセット, 汚染データ, およびトレーニング段階でモデルに露出しないフローパターンを用いて評価する。 評価結果から,cgan-ectモデルは従来および他の深層学習に基づく画像再構成アルゴリズムよりも精度の高いect画像を生成することができることがわかった。 cgan-ectは平均画像相関係数99.3%、平均相対画像誤差0.07を達成した。

Due to the rapid growth of Electrical Capacitance Tomography (ECT) applications in several industrial fields, there is a crucial need for developing high quality, yet fast, methodologies of image reconstruction from raw capacitance measurements. Deep learning, as an effective non-linear mapping tool for complicated functions, has been going viral in many fields including electrical tomography. In this paper, we propose a Conditional Generative Adversarial Network (CGAN) model for reconstructing ECT images from capacitance measurements. The initial image of the CGAN model is constructed from the capacitance measurement. To our knowledge, this is the first time to represent the capacitance measurements in an image form. We have created a new massive ECT dataset of 320K synthetic image measurements pairs for training, and testing the proposed model. The feasibility and generalization ability of the proposed CGAN-ECT model are evaluated using testing dataset, contaminated data and flow patterns that are not exposed to the model during the training phase. The evaluation results prove that the proposed CGAN-ECT model can efficiently create more accurate ECT images than traditional and other deep learning-based image reconstruction algorithms. CGAN-ECT achieved an average image correlation coefficient of more than 99.3% and an average relative image error about 0.07.
翻訳日:2022-09-09 12:24:30 公開日:2022-09-07
# 氷塊における低エネルギー事象分類と再構成のためのグラフニューラルネットワーク

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube ( http://arxiv.org/abs/2209.03042v1 )

ライセンス: Link先を確認
R. Abbasi, M. Ackermann, J. Adams, N. Aggarwal, J. A. Aguilar, M. Ahlers, M. Ahrens, J.M. Alameddine, A. A. Alves Jr., N. M. Amin, K. Andeen, T. Anderson, G. Anton, C. Arg\"uelles, Y. Ashida, S. Athanasiadou, S. Axani, X. Bai, A. Balagopal V., M. Baricevic, S. W. Barwick, V. Basu, R. Bay, J. J. Beatty, K.-H. Becker, J. Becker Tjus, J. Beise, C. Bellenghi, S. Benda, S. BenZvi, D. Berley, E. Bernardini, D. Z. Besson, G. Binder, D. Bindig, E. Blaufuss, S. Blot, F. Bontempo, J. Y. Book, J. Borowka, C. Boscolo Meneguolo, S. B\"oser, O. Botner, J. B\"ottcher, E. Bourbeau, J. Braun, B. Brinson, J. Brostean-Kaiser, R. T. Burley, R. S. Busse, M. A. Campana, E. G. Carnie-Bronca, C. Chen, Z. Chen, D. Chirkin, K. Choi, B. A. Clark, L. Classen, A. Coleman, G. H. Collin, A. Connolly, J. M. Conrad, P. Coppin, P. Correa, S. Countryman, D. F. Cowen, R. Cross, C. Dappen, P. Dave, C. De Clercq, J. J. DeLaunay, D. Delgado L\'opez, H. Dembinski, K. Deoskar, A. Desai, P. Desiati, K. D. de Vries, G. de Wasseige, T. DeYoung, A. Diaz, J. C. D\'iaz-V\'elez, M. Dittmer, H. Dujmovic, M. A. DuVernois, T. Ehrhardt, P. Eller, R. Engel, H. Erpenbeck, J. Evans, P. A. Evenson, K. L. Fan, A. R. Fazely, A. Fedynitch, N. Feigl, S. Fiedlschuster, A. T. Fienberg, C. Finley, L. Fischer, D. Fox, A. Franckowiak, E. Friedman, A. Fritz, P. F\"urst, T. K. Gaisser, J. Gallagher, E. Ganster, A. Garcia, S. Garrappa, L. Gerhardt, A. Ghadimi, C. Glaser, T. Glauch, T. Gl\"usenkamp, N. Goehlke, J. G. Gonzalez, S. Goswami, D. Grant, S. J. Gray, T. Gr\'egoire, S. Griswold, C. G\"unther, P. Gutjahr, C. Haack, A. Hallgren, R. Halliday, L. Halve, F. Halzen, H. Hamdaoui, M. Ha Minh, K. Hanson, J. Hardin, A. A. Harnisch, P. Hatch, A. Haungs, K. Helbing, J. Hellrung, F. Henningsen, L. Heuermann, S. Hickford, C. Hill, G. C. Hill, K. D. Hoffman, K. Hoshina, W. Hou, T. Huber, K. Hultqvist, M. H\"unnefeld, R. Hussain, K. Hymon, S. In, N. Iovine, A. Ishihara, M. Jansson, G. S. Japaridze, M. Jeong, M. Jin, B. J. P. Jones, D. Kang, W. Kang, X. Kang, A. Kappes, D. Kappesser, L. Kardum, T. Karg, M. Karl, A. Karle, U. Katz, M. Kauer, J. L. Kelley, A. Kheirandish, K. Kin, J. Kiryluk, S. R. Klein, A. Kochocki, R. Koirala, H. Kolanoski, T. Kontrimas, L. K\"opke, C. Kopper, D. J. Koskinen, P. Koundal, M. Kovacevich, M. Kowalski, T. Kozynets, E. Krupczak, E. Kun, N. Kurahashi, N. Lad, C. Lagunas Gualda, M. J. Larson, F. Lauber, J. P. Lazar, J. W. Lee, K. Leonard, A. Leszczy\'nska, M. Lincetto, Q. R. Liu, M. Liubarska, E. Lohfink, C. Love, C. J. Lozano Mariscal, L. Lu, F. Lucarelli, A. Ludwig, W. Luszczak, Y. Lyu, W. Y. Ma, J. Madsen, K. B. M. Mahn, Y. Makino, S. Mancina, W. Marie Sainte, I. C. Mari\c{s}, S. Marka, Z. Marka, M. Marsee, I. Martinez-Soler, R. Maruyama, T. McElroy, F. McNally, J. V. Mead, K. Meagher, S. Mechbal, A. Medina, M. Meier, S. Meighen-Berger, Y. Merckx, J. Micallef, D. Mockler, T. Montaruli, R. W. Moore, R. Morse, M. Moulai, T. Mukherjee, R. Naab, R. Nagai, U. Naumann, A. Nayerhoda, J. Necker, M. Neumann, H. Niederhausen, M. U. Nisa, S. C. Nowicki, A. Obertacke Pollmann, M. Oehler, B. Oeyen, A. Olivas, R. Orsoe, J. Osborn, E. O'Sullivan, H. Pandya, D. V. Pankova, N. Park, G. K. Parker, E. N. Paudel, L. Paul, C. P\'erez de los Heros, L. Peters, T. C. Petersen, J. Peterson, S. Philippen, S. Pieper, A. Pizzuto, M. Plum, Y. Popovych, A. Porcelli, M. Prado Rodriguez, B. Pries, R. Procter-Murphy, G. T. Przybylski, C. Raab, J. Rack-Helleis, M. Rameez, K. Rawlins, Z. Rechav, A. Rehman, P. Reichherzer, G. Renzi, E. Resconi, S. Reusch, W. Rhode, M. Richman, B. Riedel, E. J. Roberts, S. Robertson, S. Rodan, G. Roellinghoff, M. Rongen, C. Rott, T. Ruhe, L. Ruohan, D. Ryckbosch, D. Rysewyk Cantu, I. Safa, J. Saffer, D. Salazar-Gallegos, P. Sampathkumar, S. E. Sanchez Herrera, A. Sandrock, M. Santander, S. Sarkar, S. Sarkar, M. Schaufel, H. Schieler, S. Schindler, B. Schlueter, T. Schmidt, J. Schneider, F. G. Schr\"oder, L. Schumacher, G. Schwefer, S. Sclafani, D. Seckel, S. Seunarine, A. Sharma, S. Shefali, N. Shimizu, M. Silva, B. Skrzypek, B. Smithers, R. Snihur, J. Soedingrekso, A. S{\o}gaard, D. Soldin, C. Spannfellner, G. M. Spiczak, C. Spiering, M. Stamatikos, T. Stanev, R. Stein, T. Stezelberger, T. St\"urwald, T. Stuttard, G. W. Sullivan, I. Taboada, S. Ter-Antonyan, W. G. Thompson, J. Thwaites, S. Tilav, K. Tollefson, C. T\"onnis, S. Toscano, D. Tosi, A. Trettin, C. F. Tung, R. Turcotte, J. P. Twagirayezu, B. Ty, M. A. Unland Elorrieta, K. Upshaw, N. Valtonen-Mattila, J. Vandenbroucke, N. van Eijndhoven, D. Vannerom, J. van Santen, J. Vara, J. Veitch-Michaelis, S. Verpoest, D. Veske, C. Walck, W. Wang, T. B. Watson, C. Weaver, P. Weigel, A. Weindl, J. Weldert, C. Wendt, J. Werthebach, M. Weyrauch, N. Whitehorn, C. H. Wiebusch, N. Willey, D. R. Williams, M. Wolf, G. Wrede, J. Wulff, X. W. Xu, J. P. Yanez, E. Yildizci, S. Yoshida, S. Yu, T. Yuan, Z. Zhang, P. Zhelnin(参考訳) 1GeV と 1 PeV の間の大気および天体ニュートリノを検出するために作られた、立方キロメートルの光学センサーであるアイスキューブは、南極点の氷床の表面から 1.45 km まで展開されている。 in-ice検出器からのイベントの分類と再構成は、icecubeのデータ分析において中心的な役割を果たす。 再構成と分類は、不規則な検出器幾何学、不均一な散乱と氷中の光の吸収、100GeV以下では、事象ごとに発生する信号光子の数が比較的少ないためである。 この課題に対処するために、IceCubeイベントをポイントクラウドグラフとして表現し、グラフニューラルネットワーク(GNN)を分類と再構成の手法として使用することができる。 GNNは、ニュートリノ現象と宇宙線の背景を区別し、異なるニュートリノ事象のタイプを分類し、堆積エネルギー、方向および相互作用頂点を再構成することができる。 シミュレーションに基づいて, 既知の系統的不確実性の影響を含む, 現在のアイスキューブ解析で用いられる1-100GeVエネルギー範囲と, 現在の最先端の最大値技術との比較を行った。 ニュートリノ事象分類では、GNNは現在のIceCube法と比較して、固定偽陽性率(FPR)で信号効率を18%向上させる。 あるいは、GNNは固定信号効率でFPRを1因子以上(半パーセント以下)削減する。 エネルギー、方向、相互作用頂点の再構成では、1-30GeVのエネルギー範囲における現在の最大可能性技術と比較して平均13%-20%改善される。 GNNは、GPU上で実行すると、中央値の2.7kHzのアイスキューブトリガーレートの2.7kHzの速度で、アイスキューブイベントを処理できる。

IceCube, a cubic-kilometer array of optical sensors built to detect atmospheric and astrophysical neutrinos between 1 GeV and 1 PeV, is deployed 1.45 km to 2.45 km below the surface of the ice sheet at the South Pole. The classification and reconstruction of events from the in-ice detectors play a central role in the analysis of data from IceCube. Reconstructing and classifying events is a challenge due to the irregular detector geometry, inhomogeneous scattering and absorption of light in the ice and, below 100 GeV, the relatively low number of signal photons produced per event. To address this challenge, it is possible to represent IceCube events as point cloud graphs and use a Graph Neural Network (GNN) as the classification and reconstruction method. The GNN is capable of distinguishing neutrino events from cosmic-ray backgrounds, classifying different neutrino event types, and reconstructing the deposited energy, direction and interaction vertex. Based on simulation, we provide a comparison in the 1-100 GeV energy range to the current state-of-the-art maximum likelihood techniques used in current IceCube analyses, including the effects of known systematic uncertainties. For neutrino event classification, the GNN increases the signal efficiency by 18% at a fixed false positive rate (FPR), compared to current IceCube methods. Alternatively, the GNN offers a reduction of the FPR by over a factor 8 (to below half a percent) at a fixed signal efficiency. For the reconstruction of energy, direction, and interaction vertex, the resolution improves by an average of 13%-20% compared to current maximum likelihood techniques in the energy range of 1-30 GeV. The GNN, when run on a GPU, is capable of processing IceCube events at a rate nearly double of the median IceCube trigger rate of 2.7 kHz, which opens the possibility of using low energy neutrinos in online searches for transient events.
翻訳日:2022-09-08 13:23:02 公開日:2022-09-07
# ディジタルツイン法による自律調理

Autonomous Cooking with Digital Twin Methodology ( http://arxiv.org/abs/2209.03087v1 )

ライセンス: Link先を確認
Maximilian Kannapinn and Michael Sch\"afer(参考訳) 本研究は,Digital Twin法に基づく自律調理プロセスの概念を導入する。 物理ベースのフルオーダーシミュレーションと,エラーの少ないデータ駆動システム同定プロセスのハイブリッドアプローチを提案する。 クラウドや高性能コンピューティングを必要とせずに、デバイスレベルでDigital Twinsのリアルタイムシミュレーションを高速化する。 この概念は様々な物理過程に普遍的に適用できる。

This work introduces the concept of an autonomous cooking process based on Digital Twin method- ology. It proposes a hybrid approach of physics-based full order simulations followed by a data-driven system identification process with low errors. It makes faster-than-real-time simulations of Digital Twins feasible on a device level, without the need for cloud or high-performance computing. The concept is universally applicable to various physical processes.
翻訳日:2022-09-08 13:22:28 公開日:2022-09-07
# 相互作用データによる署名関係の再構築

Reconstructing signed relations from interaction data ( http://arxiv.org/abs/2209.03219v1 )

ライセンス: Link先を確認
Georges Andres, Giona Casiraghi, Giacomo Vaccario, Frank Schweitzer(参考訳) ポジティブな関係とネガティブな関係は、人間の行動において必須の役割を果たす。 その重要性にもかかわらず、署名された関係に関するデータは稀であり、調査を通じて一般に収集される。 相互作用データは、例えば近接データや通信データの形でより豊富である。 しかし今のところ、署名された関係を検出するには利用できない。 本稿では,このようなデータを用いて,基礎となる符号付き関係を抽出できることを示す。 統計的ネットワークアプローチを用いて,4つのコミュニティに署名された関係のネットワークを構築する。 次に,これらの関係が調査で報告された関係と一致することを示す。 さらに、推定された関係は、性別、宗教的信念、経済的背景に関して個人の同性愛を研究できる。 グループ結束の研究における署名ネットワークにおけるトライアドの重要性を評価した。

Positive and negative relations play an essential role in human behavior and shape the communities we live in. Despite their importance, data about signed relations is rare and commonly gathered through surveys. Interaction data is more abundant, for instance, in the form of proximity or communication data. So far, though, it could not be utilized to detect signed relations. In this paper, we show how the underlying signed relations can be extracted with such data. Employing a statistical network approach, we construct networks of signed relations in four communities. We then show that these relations correspond to the ones reported in surveys. Additionally, the inferred relations allow us to study the homophily of individuals with respect to gender, religious beliefs, and financial backgrounds. We evaluate the importance of triads in the signed network to study group cohesion.
翻訳日:2022-09-08 13:22:22 公開日:2022-09-07
# 量子フォトニックプロセッサの学習理論とその応用

A learning theory for quantum photonic processors and beyond ( http://arxiv.org/abs/2209.03075v1 )

ライセンス: Link先を確認
Matteo Rosati(参考訳) 連続可変(CV)量子回路によって生成された量子状態、測定、チャネルを学習するタスクについて考察する。 この回路は光量子技術を記述するのに適しており、特に量子優位性を示すことのできる最先端のフォトニクスプロセッサを含んでいる。 CV回路パラメータに符号化された古典変数をそれらの回路上で評価された結果確率にマッピングする関数のクラスを定義する。 次に、擬似次元や被覆数の境界を計算することで、そのようなクラスに対する効率的な学習可能性の保証を確立し、cv量子回路は、回路のサイズ、すなわちモード数と多項式的にスケールするサンプル複雑性で学習できることを示した。 その結果, CV回路は, 有限次元回路と異なり, 回路深度でスケールしない, 多数のトレーニングサンプルを用いて効率的にトレーニングできることがわかった。

We consider the tasks of learning quantum states, measurements and channels generated by continuous-variable (CV) quantum circuits. This family of circuits is suited to describe optical quantum technologies and in particular it includes state-of-the-art photonic processors capable of showing quantum advantage. We define classes of functions that map classical variables, encoded into the CV circuit parameters, to outcome probabilities evaluated on those circuits. We then establish efficient learnability guarantees for such classes, by computing bounds on their pseudo-dimension or covering numbers, showing that CV quantum circuits can be learned with a sample complexity that scales polynomially with the circuit's size, i.e., the number of modes. Our results establish that CV circuits can be trained efficiently using a number of training samples that, unlike their finite-dimensional counterpart, does not scale with the circuit depth.
翻訳日:2022-09-08 13:22:12 公開日:2022-09-07
# 多様体自由リーマン最適化

Manifold Free Riemannian Optimization ( http://arxiv.org/abs/2209.03269v1 )

ライセンス: Link先を確認
Boris Shustin, Haim Avron, and Barak Sober(参考訳) リーマン最適化(英: Riemannian optimization)は、目的とする最適化問題を滑らかな多様体 $\mathcal{M}$ に制約する原理的なフレームワークである。 このフレームワークで設計されたアルゴリズムは通常、接空間、引き抜き、コスト関数の勾配を含む多様体の幾何的記述を必要とする。 しかし多くの場合、情報不足や難読性のため、これらの要素のサブセット(または全くない)のみがアクセス可能である。 本稿では,制約多様体が$\R^{D}$の部分多様体であるような場合において,近似リーマン最適化を実現する新しい手法を提案する。 最小限の方法では、コスト関数 $(\x_{i}, y_{i})\in {\mathcal{M}} \times \mathbb{R}$ と多様体 $\mathcal{M}$ の内在次元のノイズのないサンプル集合のみを必要とする。 これらのサンプルを用いて、Manifold-MLSフレームワーク(Sober and Levin 2020)を用いて、証明可能な保証を楽しむ欠落したコンポーネントの近似を構築し、計算コストを分析する。 いくつかの成分が解析的に与えられる場合(例えば、コスト関数とその勾配が明示的に与えられる場合や、接空間を計算できる場合)、アルゴリズムは近似の代わりに正確な表現を使うように容易に適応することができる。 本手法を用いたリーマン勾配法の全球収束解析を行い,同様の原理に基づく共役勾配型手法とともに,本手法の強みを実証的に示す。

Riemannian optimization is a principled framework for solving optimization problems where the desired optimum is constrained to a smooth manifold $\mathcal{M}$. Algorithms designed in this framework usually require some geometrical description of the manifold, which typically includes tangent spaces, retractions, and gradients of the cost function. However, in many cases, only a subset (or none at all) of these elements can be accessed due to lack of information or intractability. In this paper, we propose a novel approach that can perform approximate Riemannian optimization in such cases, where the constraining manifold is a submanifold of $\R^{D}$. At the bare minimum, our method requires only a noiseless sample set of the cost function $(\x_{i}, y_{i})\in {\mathcal{M}} \times \mathbb{R}$ and the intrinsic dimension of the manifold $\mathcal{M}$. Using the samples, and utilizing the Manifold-MLS framework (Sober and Levin 2020), we construct approximations of the missing components entertaining provable guarantees and analyze their computational costs. In case some of the components are given analytically (e.g., if the cost function and its gradient are given explicitly, or if the tangent spaces can be computed), the algorithm can be easily adapted to use the accurate expressions instead of the approximations. We analyze the global convergence of Riemannian gradient-based methods using our approach, and we demonstrate empirically the strength of this method, together with a conjugate-gradients type method based upon similar principles.
翻訳日:2022-09-08 13:20:50 公開日:2022-09-07
# DC-MRTA:複合環境における分散マルチロボットタスクアロケーションとナビゲーション

DC-MRTA: Decentralized Multi-Robot Task Allocation and Navigation in Complex Environments ( http://arxiv.org/abs/2209.02865v1 )

ライセンス: Link先を確認
Aakriti Agrawal, Senthil Hariharan, Amrit Singh Bedi, Dinesh Manocha(参考訳) 本稿では,倉庫環境における移動ロボットのための新しい強化学習(rl)に基づくタスク割り当てと分散ナビゲーションアルゴリズムを提案する。 当社のアプローチは,複数のロボットがさまざまなピックアップおよびデリバリタスクを行うシナリオ用に設計されている。 本稿では,分散タスク割当とナビゲーションの課題を考察し,その解法として2段階のアプローチを提案する。 より高いレベルでは、マルコフ決定過程を定式化し、トータルトラベル遅延(TTD)を最小化するために適切な報酬を選択することでタスク割り当てを解決する。 低レベルにおいては、ORCAに基づく分散ナビゲーション方式を用いて、各ロボットが独立してこれらのタスクを実行できるようにし、他のロボットとの衝突や動的障害を回避する。 これらの下位レベルと上位レベルを組み合わせて,下位レベルのナビゲーションアルゴリズムからのフィードバックとして上位レベルの報酬を定義する。 我々は,多数のエージェントを用いた複雑な倉庫レイアウトにおける広範囲な評価を行い,ミオピックピックアップ距離最小化と後悔に基づくタスク選択に基づく最先端アルゴリズムの利点を強調する。 ロボットの衝突のない軌道の計算では,タスク完了時間において最大14%の改善と最大40%の改善が観察される。

We present a novel reinforcement learning (RL) based task allocation and decentralized navigation algorithm for mobile robots in warehouse environments. Our approach is designed for scenarios in which multiple robots are used to perform various pick up and delivery tasks. We consider the problem of joint decentralized task allocation and navigation and present a two level approach to solve it. At the higher level, we solve the task allocation by formulating it in terms of Markov Decision Processes and choosing the appropriate rewards to minimize the Total Travel Delay (TTD). At the lower level, we use a decentralized navigation scheme based on ORCA that enables each robot to perform these tasks in an independent manner, and avoid collisions with other robots and dynamic obstacles. We combine these lower and upper levels by defining rewards for the higher level as the feedback from the lower level navigation algorithm. We perform extensive evaluation in complex warehouse layouts with large number of agents and highlight the benefits over state-of-the-art algorithms based on myopic pickup distance minimization and regret-based task selection. We observe improvement up to 14% in terms of task completion time and up-to 40% improvement in terms of computing collision-free trajectories for the robots.
翻訳日:2022-09-08 13:20:22 公開日:2022-09-07
# 自己教師付きマルチモーダルニューロイメージングはアルツハイマーの表現型スペクトルの予測表現をもたらす

Self-supervised multimodal neuroimaging yields predictive representations for a spectrum of Alzheimer's phenotypes ( http://arxiv.org/abs/2209.02876v1 )

ライセンス: Link先を確認
Alex Fedorov, Eloy Geenjaar, Lei Wu, Tristan Sylvain, Thomas P. DeRamus, Margaux Luck, Maria Misiura, R Devon Hjelm, Sergey M. Plis, Vince D. Calhoun(参考訳) 現代の機械学習アプローチによる脳疾患の予測に焦点を当てた最近の神経画像研究では、一般的に1つのモダリティを含み、教師ありの過剰パラメータモデルに依存している。 臨床的設定における教師付きモデルは、トレーニングのための正確な診断ラベルを欠いている。 粗いラベルは、長い尾を持つ脳障害の表現型を捉えないため、モデルの一般化性が失われ、診断設定にはあまり役に立たない。 本稿では,マルチモーダルニューロイメージングデータから複数の表現を学習するための,新しいマルチスケールコーディネートフレームワークを提案する。 本稿では,マルチモーダル自己教師付き融合における一意および共同情報を捉えるための情報的帰納的バイアスの一般分類法を提案する。 分類学は、計算複雑性が減少し、マルチモーダル入力の局所的表現と大域的表現の間のマルチスケールな関係を捉える傾向を持つデコーダフリーモデル群を形成する。 アルツハイマー病の表現型スペクトルにまたがる機能的および構造的磁気共鳴画像(mri)データを用いて分類法を包括的に評価し,自己教師付きモデルが前訓練中にラベルにアクセスせずに障害関連脳領域とマルチモーダルリンクを明らかにすることを示した。 提案したマルチモーダル自己教師学習は、両モードの分類性能を改善した表現を与える。 複合的なリッチで柔軟な教師なしのディープラーニングフレームワークは、複雑なマルチモーダルな関係を捉え、より狭義の教師付き分類分析に適合または超える予測性能を提供する。 我々は,この枠組みが複雑な脳疾患における欠落リンクの探索を著しく促進することを示す詳細な定量的証拠を示す。

Recent neuroimaging studies that focus on predicting brain disorders via modern machine learning approaches commonly include a single modality and rely on supervised over-parameterized models.However, a single modality provides only a limited view of the highly complex brain. Critically, supervised models in clinical settings lack accurate diagnostic labels for training. Coarse labels do not capture the long-tailed spectrum of brain disorder phenotypes, which leads to a loss of generalizability of the model that makes them less useful in diagnostic settings. This work presents a novel multi-scale coordinated framework for learning multiple representations from multimodal neuroimaging data. We propose a general taxonomy of informative inductive biases to capture unique and joint information in multimodal self-supervised fusion. The taxonomy forms a family of decoder-free models with reduced computational complexity and a propensity to capture multi-scale relationships between local and global representations of the multimodal inputs. We conduct a comprehensive evaluation of the taxonomy using functional and structural magnetic resonance imaging (MRI) data across a spectrum of Alzheimer's disease phenotypes and show that self-supervised models reveal disorder-relevant brain regions and multimodal links without access to the labels during pre-training. The proposed multimodal self-supervised learning yields representations with improved classification performance for both modalities. The concomitant rich and flexible unsupervised deep learning framework captures complex multimodal relationships and provides predictive performance that meets or exceeds that of a more narrow supervised classification analysis. We present elaborate quantitative evidence of how this framework can significantly advance our search for missing links in complex brain disorders.
翻訳日:2022-09-08 13:20:01 公開日:2022-09-07
# Singularity Splitting Deep Ritz 法による特異音源による楕円問題の解法

Solving Elliptic Problems with Singular Sources using Singularity Splitting Deep Ritz Method ( http://arxiv.org/abs/2209.02931v1 )

ライセンス: Link先を確認
Tianhao Hu and Bangti Jin and Zhi Zhou(参考訳) 本研究では,ディラックデルタ関数 $\delta(\mathbf{x})$ で表現される変数係数と特異元を持つポアソン方程式に対する,ディープニューラルネットワークに基づく効率的な解法を開発した。 このタイプの問題は、一般的な点源、線源、点-線の組み合わせを含み、幅広い実用的応用がある。 提案手法は,ラプラス方程式の基本解を用いて解析的に知られている特異部分と,より滑らかな音源で適切な楕円型pdeを満たす正則部分とに真の解を分解し,その正則部分に対してディープリッツ法を用いて解くことに基づく。 ディリクレ境界条件をペナルティ化するためのペナルティパラメータを選択するパスフォロー戦略を提案する。 点源,線源又はそれらの組合せを持つ2次元および多次元空間における大規模数値実験を行い,提案手法の効率性を示すとともに,既存のいくつかの手法との比較検討を行い,問題の特定のクラスに対する競合性を示す。 さらに,このアプローチの誤差解析について簡単に説明する。

In this work, we develop an efficient solver based on deep neural networks for the Poisson equation with variable coefficients and singular sources expressed by the Dirac delta function $\delta(\mathbf{x})$. This class of problems covers general point sources, line sources and point-line combinations, and has a broad range of practical applications. The proposed approach is based on decomposing the true solution into a singular part that is known analytically using the fundamental solution of the Laplace equation and a regular part that satisfies a suitable elliptic PDE with smoother sources, and then solving for the regular part using the deep Ritz method. A path-following strategy is suggested to select the penalty parameter for penalizing the Dirichlet boundary condition. Extensive numerical experiments in two- and multi-dimensional spaces with point sources, line sources or their combinations are presented to illustrate the efficiency of the proposed approach, and a comparative study with several existing approaches is also given, which shows clearly its competitiveness for the specific class of problems. In addition, we briefly discuss the error analysis of the approach.
翻訳日:2022-09-08 13:19:32 公開日:2022-09-07
# データ駆動型還元秩序モデリング手法の数値解析とプラスチックプロファイラ押出しの最適化への応用

A Data-driven Reduced Order Modeling Approach Applied In Context Of Numerical Analysis And Optimization Of Plastic Profile Extrusion ( http://arxiv.org/abs/2209.03121v1 )

ライセンス: Link先を確認
Daniel Hilger and Norbert Hosters(参考訳) 本研究は, 下流キャリブレーションユニットの固化処理により, いわゆる押出成形体の内部にポリマー溶融体を成形し, その形状を固定するプラスチックプロファイル押出成形プロセスについて検討する。 より正確には、キャリブレーションユニット内の押出プロファイル内の温度分布を予測するために、データ駆動型還元秩序モデル(ROM)の開発に焦点を当てる。 これにより、ROMは予測に基づくプロセス制御の全体的な目標への第一歩として機能し、望ましくないウォーページや最終製品の損傷を避ける。

In course of this work, we examine the process of plastic profile extrusion, where a polymer melt is shaped inside the so-called extrusion die and fixed in its shape by solidification in the downstream calibration unit. More precise, we focus on the development of a data-driven reduced order model (ROM) for the purpose of predicting temperature distributions within the extruded profiles inside the calibration unit. Therein, the ROM functions as a first step to our overall goal of prediction based process control in order to avoid undesired warpage and damages of the final product.
翻訳日:2022-09-08 13:19:14 公開日:2022-09-07
# AudioLM: 音声生成のための言語モデリングアプローチ

AudioLM: a Language Modeling Approach to Audio Generation ( http://arxiv.org/abs/2209.03143v1 )

ライセンス: Link先を確認
Zal\'an Borsos, Rapha\"el Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour(参考訳) 本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。 audiolmは入力オーディオを一連の離散トークンにマッピングし、この表現空間で言語モデリングタスクとしてオーディオ生成をキャストする。 本稿では,既存の音声トークン化装置が,再建品質と長期構造との間に異なるトレードオフを提供する方法を示す。 すなわち,音声に事前学習したマスク付き言語モデルの離散化アクティベーションを利用して,ニューラルオーディオコーデックが生成する長期構造と離散符号をキャプチャし,高品質な合成を実現する。 生音声波形の大規模なコーパスを訓練することにより、AudioLMは短いプロンプトを与えられた自然なコヒーレントな継続を生成することを学ぶ。 音声で訓練し、書き起こしや注釈なしでは、AudioLMは構文的かつ意味論的に妥当な音声継続を生成すると同時に、未知の話者に対する話者のアイデンティティと韻律を維持できる。 さらに,音楽の象徴的表現を伴わずに訓練されたにもかかわらず,コヒーレントなピアノ音楽継続を生成することによって,音声を超えて我々のアプローチが拡張されることを示す。

We introduce AudioLM, a framework for high-quality audio generation with long-term consistency. AudioLM maps the input audio to a sequence of discrete tokens and casts audio generation as a language modeling task in this representation space. We show how existing audio tokenizers provide different trade-offs between reconstruction quality and long-term structure, and we propose a hybrid tokenization scheme to achieve both objectives. Namely, we leverage the discretized activations of a masked language model pre-trained on audio to capture long-term structure and the discrete codes produced by a neural audio codec to achieve high-quality synthesis. By training on large corpora of raw audio waveforms, AudioLM learns to generate natural and coherent continuations given short prompts. When trained on speech, and without any transcript or annotation, AudioLM generates syntactically and semantically plausible speech continuations while also maintaining speaker identity and prosody for unseen speakers. Furthermore, we demonstrate how our approach extends beyond speech by generating coherent piano music continuations, despite being trained without any symbolic representation of music.
翻訳日:2022-09-08 13:19:02 公開日:2022-09-07
# 機械学習によるCOVID-19フェイクニュースの自動アノテーションと検出

Machine Learning-based Automatic Annotation and Detection of COVID-19 Fake News ( http://arxiv.org/abs/2209.03162v1 )

ライセンス: Link先を確認
Mohammad Majid Akhtar, Bibhas Sharma, Ishan Karunanayake, Rahat Masood, Muhammad Ikram, Salil S. Kanhere(参考訳) 新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。 オンラインソーシャルネットワーク(OSN)を通じて拡散した誤報は、しばしば人々が正しい医療実践に従うことを誤解した。 特に、OSNボットは偽情報を拡散し、サイバープロパガンダを開始する主要な情報源である。 既存の作業は、拡散の触媒として機能するボットの存在を無視し、ポスト(テキスト)コンテンツではなく「ポストで共有されたアーティクル」における偽ニュース検出に焦点を当てている。 誤情報検出のほとんどは、予測モデルを構築するのにスケールしにくい手作業によるラベル付きデータセットを使用する。 本研究では,Twitterデータセット上の事実確認文を用いたラベル付けの自動手法を提案することにより,データ不足というこの課題を克服する。 さらに、テキスト機能とユーザーレベルの機能(フォロワー数や友人数など)と、ツイートレベルの機能(言及数、ハッシュタグ、ツイート中のURLなど)を組み合わせて、誤情報を検出するための追加の指標として機能する。 さらに,ツイート中のボットの存在を分析し,ボットの行動が時間とともに変化し,誤報キャンペーンにおいて最も活発であることを示す。 当社は1022万件のcovid-19関連ツイートを収集し、アノテーションモデルを使用して分類目的の広範囲でオリジナルな事実データセットを構築しました。 様々な機械学習モデルを用いて誤情報を正確に検出し,最良の分類モデルは精度(82%),リコール(96%),偽陽性率(3.58%)を達成する。 また,ボット分析の結果,誤情報ツイートの約10%をボットが生成していることがわかった。 提案手法は, 偽情報の露呈によって, ソーシャルメディアプラットフォームを通じて拡散される情報の信頼性を向上させる。

COVID-19 impacted every part of the world, although the misinformation about the outbreak traveled faster than the virus. Misinformation spread through online social networks (OSN) often misled people from following correct medical practices. In particular, OSN bots have been a primary source of disseminating false information and initiating cyber propaganda. Existing work neglects the presence of bots that act as a catalyst in the spread and focuses on fake news detection in 'articles shared in posts' rather than the post (textual) content. Most work on misinformation detection uses manually labeled datasets that are hard to scale for building their predictive models. In this research, we overcome this challenge of data scarcity by proposing an automated approach for labeling data using verified fact-checked statements on a Twitter dataset. In addition, we combine textual features with user-level features (such as followers count and friends count) and tweet-level features (such as number of mentions, hashtags and urls in a tweet) to act as additional indicators to detect misinformation. Moreover, we analyzed the presence of bots in tweets and show that bots change their behavior over time and are most active during the misinformation campaign. We collected 10.22 Million COVID-19 related tweets and used our annotation model to build an extensive and original ground truth dataset for classification purposes. We utilize various machine learning models to accurately detect misinformation and our best classification model achieves precision (82%), recall (96%), and false positive rate (3.58%). Also, our bot analysis indicates that bots generated approximately 10% of misinformation tweets. Our methodology results in substantial exposure of false information, thus improving the trustworthiness of information disseminated through social media platforms.
翻訳日:2022-09-08 13:18:08 公開日:2022-09-07
# リアルタイム:スパースデータを用いた残差予測のためのオートチューニングによるディープラーニング

Real-to-Sim: Deep Learning with Auto-Tuning to Predict Residual Errors using Sparse Data ( http://arxiv.org/abs/2209.03210v1 )

ライセンス: Link先を確認
Alexander Schperberg, Yusuke Tanaka, Feng Xu, Marcel Menner, Dennis Hong(参考訳) 実ロボットに近い高精度な運動学モデルやシミュレータモデルを実現することで、モデルベースの制御(例えば、モデル予測制御や線形量子レギュレータ)、モデルベースの軌道計画(例えば軌道最適化)、強化学習法に必要な学習時間を減らすことができる。 そこで本研究の目的は,運動学モデルおよびシミュレータモデルと実ロボットとの残差誤差を学習することである。 これは、ニューラルネットワークのパラメータをUnscented Kalman Filter(UKF)の定式化から方程式を適用する自動チューニング手法を用いて更新する、自動チューニングとニューラルネットワークを使用して実現される。 この手法を用いて, ハードウェア操作から直接学習することにより, シミュレータ/キネマティックモデルを改善するために必要となる, 少ないデータ量で残差誤差をモデル化する。 ロボットハードウェア(マニピュレータアームなど)で本手法を実証し,学習した残差誤差により,キネマティックモデル,シミュレーション,実ロボット間の現実的ギャップをさらに埋めることができることを示す。

Achieving highly accurate kinematic or simulator models that are close to the real robot can facilitate model-based controls (e.g., model predictive control or linear-quadradic regulators), model-based trajectory planning (e.g., trajectory optimization), and decrease the amount of learning time necessary for reinforcement learning methods. Thus, the objective of this work is to learn the residual errors between a kinematic and/or simulator model and the real robot. This is achieved using auto-tuning and neural networks, where the parameters of a neural network are updated using an auto-tuning method that applies equations from an Unscented Kalman Filter (UKF) formulation. Using this method, we model these residual errors with only small amounts of data - a necessity as we improve the simulator/kinematic model by learning directly from hardware operation. We demonstrate our method on robotic hardware (e.g., manipulator arm), and show that with the learned residual errors, we can further close the reality gap between kinematic models, simulations, and the real robot.
翻訳日:2022-09-08 13:17:19 公開日:2022-09-07
# バースト伝搬を用いたマルチモーダル音声強調

Multimodal Speech Enhancement Using Burst Propagation ( http://arxiv.org/abs/2209.03275v1 )

ライセンス: Link先を確認
Leandro A. Passos, Ahmed Khubaib, Mohsin Raza, Ahsan Adeel(参考訳) 本稿では,前頭前皮質および他の脳領域の錐体細胞に関する最新の神経学的発見を考察した,音声・視覚音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。 いわゆるバースト伝搬は、フィードバックによる可塑性のサインと大きさの操り、異なる重み接続による層間のフィードバックとフィードフォワード情報の多重化、フィードバックとフィードフォワード接続の近似、フィードバック信号の線形化など、より生物学的に妥当な方法でクレジット割り当て問題に取り組むためのいくつかの基準を実装している。 MBURSTは、雑音信号と視覚刺激の相関関係を学習する能力の恩恵を受け、関連する情報を増幅し、雑音を抑制することによって、音声に意味をもたらす。 Grid Corpus と CHiME3 をベースとしたデータセットを用いて行った実験では、MBURST はマルチモーダルバックプロパゲーションベースのベースラインに類似したマスク再構成を再現でき、エネルギー効率の優れた管理を証明し、ニューロンの発火速度を \textbf{$70\%$} 以下の値に下げることができた。 このような機能はより持続可能な実装を意味し、補聴器や他の類似の組み込みシステムに適している。

This paper proposes the MBURST, a novel multimodal solution for audio-visual speech enhancements that consider the most recent neurological discoveries regarding pyramidal cells of the prefrontal cortex and other brain regions. The so-called burst propagation implements several criteria to address the credit assignment problem in a more biologically plausible manner: steering the sign and magnitude of plasticity through feedback, multiplexing the feedback and feedforward information across layers through different weight connections, approximating feedback and feedforward connections, and linearizing the feedback signals. MBURST benefits from such capabilities to learn correlations between the noisy signal and the visual stimuli, thus attributing meaning to the speech by amplifying relevant information and suppressing noise. Experiments conducted over a Grid Corpus and CHiME3-based dataset show that MBURST can reproduce similar mask reconstructions to the multimodal backpropagation-based baseline while demonstrating outstanding energy efficiency management, reducing the neuron firing rates to values up to \textbf{$70\%$} lower. Such a feature implies more sustainable implementations, suitable and desirable for hearing aids or any other similar embedded systems.
翻訳日:2022-09-08 13:16:58 公開日:2022-09-07
# 超広帯域精密局在のための超低消費電力レンジ誤差低減

Ultra-low-power Range Error Mitigation for Ultra-wideband Precise Localization ( http://arxiv.org/abs/2209.03021v1 )

ライセンス: Link先を確認
Simone Angarano, Francesco Salvetti, Vittorio Mazzia, Giovanni Fantin, Dario Gandini, Marcello Chiaberge(参考訳) 屋外および屋内環境における高精度で正確な位置決めは、現在いくつかの実用的な応用において重要な制限となっている困難な問題である。 超広帯域(UWB)ローカライゼーション技術は、この問題に対する価値の高い低コストソリューションである。 しかし、NLOS(Non-of-Sight)条件と特定の無線環境の複雑さは、測定範囲における正のバイアスを容易に引き起こし、高度に不正確で不満足な位置推定をもたらす。 そこで我々は,深層ニューラルネットワーク最適化手法の最近の進歩と超低消費電力マイクロコントローラの実装を活用し,NLOSまたはLOS条件の補正を数mWの電力で実現する有効範囲誤差軽減ソリューションを導入する。 私たちの広範な実験は、低コストで電力効率の良い方法論の利点と改善を支持しています。

Precise and accurate localization in outdoor and indoor environments is a challenging problem that currently constitutes a significant limitation for several practical applications. Ultra-wideband (UWB) localization technology represents a valuable low-cost solution to the problem. However, non-line-of-sight (NLOS) conditions and complexity of the specific radio environment can easily introduce a positive bias in the ranging measurement, resulting in highly inaccurate and unsatisfactory position estimation. In the light of this, we leverage the latest advancement in deep neural network optimization techniques and their implementation on ultra-low-power microcontrollers to introduce an effective range error mitigation solution that provides corrections in either NLOS or LOS conditions with a few mW of power. Our extensive experimentation endorses the advantages and improvements of our low-cost and power-efficient methodology.
翻訳日:2022-09-08 13:13:51 公開日:2022-09-07
# 機械学習の学生は過度に適合する

Machine Learning Students Overfit to Overfitting ( http://arxiv.org/abs/2209.03032v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro, Matthia Sabatelli(参考訳) オーバーフィッティング(overfitting)と一般化(generalization)は、マシンラーニングにおいて重要な概念である。 しかし、一部の学生は講義や演習を通じてこの重要な概念を学ぶのに苦労している。 本稿では,学生の過度な誤解の一般的な例を説明し,可能な解決策の提案を行う。 オーバーフィッティングに関する学生の誤解、オーバーフィッティングに対する解決策、オーバーフィッティング問題とよく混同される実装ミスについて取り上げています。 本論文は,この課題に対する学生の理解と講義の改善に寄与することを期待する。

Overfitting and generalization is an important concept in Machine Learning as only models that generalize are interesting for general applications. Yet some students have trouble learning this important concept through lectures and exercises. In this paper we describe common examples of students misunderstanding overfitting, and provide recommendations for possible solutions. We cover student misconceptions about overfitting, about solutions to overfitting, and implementation mistakes that are commonly confused with overfitting issues. We expect that our paper can contribute to improving student understanding and lectures about this important topic.
翻訳日:2022-09-08 13:13:37 公開日:2022-09-07
# 共有機能によるマルチタスク学習:アルゴリズムとハードネス

Multitask Learning via Shared Features: Algorithms and Hardness ( http://arxiv.org/abs/2209.03112v1 )

ライセンス: Link先を確認
Konstantina Bairaktari, Guy Blanc, Li-Yang Tan, Jonathan Ullman, Lydia Zakynthinou(参考訳) すべてのタスクで共有されるサイズ$k \ll d$の特徴表現によって関連づけられた$d$-dimensional hypercube上のブール関数のマルチタスク学習の計算効率について検討する。 ハーフスペースを持つ概念クラスに対して多項式時間マルチタスク学習アルゴリズムを提案する。これは同時ブースティング手法に基づいており、サンプル当たり$\textrm{poly}(k/\gamma)$サンプルと$\textrm{poly}(k\log(d)/\gamma)$サンプルのみを必要とする。 さらに,属性効率モデルでは学習できない概念クラスが存在すると仮定して,属性効率モデルでは学習できないがマルチタスクでは効率的に学習できない概念クラスを構築することができることを示す。

We investigate the computational efficiency of multitask learning of Boolean functions over the $d$-dimensional hypercube, that are related by means of a feature representation of size $k \ll d$ shared across all tasks. We present a polynomial time multitask learning algorithm for the concept class of halfspaces with margin $\gamma$, which is based on a simultaneous boosting technique and requires only $\textrm{poly}(k/\gamma)$ samples-per-task and $\textrm{poly}(k\log(d)/\gamma)$ samples in total. In addition, we prove a computational separation, showing that assuming there exists a concept class that cannot be learned in the attribute-efficient model, we can construct another concept class such that can be learned in the attribute-efficient model, but cannot be multitask learned efficiently -- multitask learning this concept class either requires super-polynomial time complexity or a much larger total number of samples.
翻訳日:2022-09-08 13:13:27 公開日:2022-09-07
# RFフィンガープリンティングに注意が必要:実世界のWiFiとBluetoothのためのマルチタスクアプローチ

RF Fingerprinting Needs Attention: Multi-task Approach for Real-World WiFi and Bluetooth ( http://arxiv.org/abs/2209.03142v1 )

ライセンス: Link先を確認
Anu Jagannath, Zackary Kane, Jithin Jagannath(参考訳) 本稿では,実世界無線無線周波数 (rf) フィンガープリンティングのための新しいクロスドメイン注意型マルチタスクアーキテクチャ (xdom) を提案する。 我々の知る限りでは、RFフィンガープリント問題を解決するためにこのような包括的な注意機構が適用されたのはこれが初めてである。 本稿では,室内実験場において,多経路・回避不能な干渉環境において,実世界のIoT WiFiおよびBluetooth(BT)エミッションを(合成波形生成の代わりに)活用する。 本研究では,数ヵ月間にわたって収集した波形を含むキャプチャの時間フレームへの影響を示し,同じ時間フレームと複数の時間フレームフィンガープリンティング評価を示す。 マルチタスクアーキテクチャを利用する効果は、シングルタスクおよびマルチタスクモデル解析によって実験的に証明される。 最後に,指紋認証の最先端モデルに対するベンチマークにより,提案したxDomアーキテクチャによる性能向上を実証した。 特に,シングルタスクwifiとbtフィンガープリンティングでは,最大59.3%,4.91倍,マルチタスク環境では50.5%のフィンガープリンティング精度向上が報告されている。

A novel cross-domain attentional multi-task architecture - xDom - for robust real-world wireless radio frequency (RF) fingerprinting is presented in this work. To the best of our knowledge, this is the first time such comprehensive attention mechanism is applied to solve RF fingerprinting problem. In this paper, we resort to real-world IoT WiFi and Bluetooth (BT) emissions (instead of synthetic waveform generation) in a rich multipath and unavoidable interference environment in an indoor experimental testbed. We show the impact of the time-frame of capture by including waveforms collected over a span of months and demonstrate the same time-frame and multiple time-frame fingerprinting evaluations. The effectiveness of resorting to a multi-task architecture is also experimentally proven by conducting single-task and multi-task model analyses. Finally, we demonstrate the significant gain in performance achieved with the proposed xDom architecture by benchmarking against a well-known state-of-the-art model for fingerprinting. Specifically, we report performance improvements by up to 59.3% and 4.91x under single-task WiFi and BT fingerprinting respectively, and up to 50.5% increase in fingerprinting accuracy under the multi-task setting.
翻訳日:2022-09-08 13:13:09 公開日:2022-09-07
# ニューラルネットワークを用いたFEM符号への非線形フロー法則の効率的な実装

Efficient Implementation of Non-linear Flow Law Using Neural Network into the Abaqus Explicit FEM code ( http://arxiv.org/abs/2209.03190v1 )

ライセンス: Link先を確認
Olivier Pantal\'e and Pierre Tize Mha and Am\`evi Tongne(参考訳) 機械学習技術は、科学応用における物質的挙動の予測にますます使われており、従来の数値法よりも大きな利点がある。 本研究では, 有限要素定式化において, 金属材料の流動則を塑性ひずみ, 塑性ひずみ速度, 温度の関数として定義するために, ニューラルネットワークモデルを用いた。 まず、ニューラルネットワークの一般構造、その動作、およびモデル入力に対するフロー則の導出を事前学習せずに推論するネットワークの能力に焦点を当てる。 提案モデルのロバスト性と精度を検証するため,42crmo4鋼板のジョンソン-クック挙動則の解析的定式化について,いくつかのネットワークアーキテクチャの性能を比較分析した。 第2部では,2ドルの隠れレイヤを持つニューラルネットワークアーキテクチャを選定した上で,このモデルの実装をabaqusの明示的な計算コードでvuhardサブルーチンとして提示する。 提案モデルの予測性能は, 円棒のネックリングとテイラー衝撃試験の2つのテストケースの数値シミュレーションにより実証された。 その結果,有限要素法におけるジョンソン-クック挙動法則の解析的定式化をannが置き換える可能性が非常に高いことが示され,従来の手法に比べて数値シミュレーション時間の面での競争力が保たれた。

Machine learning techniques are increasingly used to predict material behavior in scientific applications and offer a significant advantage over conventional numerical methods. In this work, an Artificial Neural Network (ANN) model is used in a finite element formulation to define the flow law of a metallic material as a function of plastic strain, plastic strain rate and temperature. First, we present the general structure of the neural network, its operation and focus on the ability of the network to deduce, without prior learning, the derivatives of the flow law with respect to the model inputs. In order to validate the robustness and accuracy of the proposed model, we compare and analyze the performance of several network architectures with respect to the analytical formulation of a Johnson-Cook behavior law for a 42CrMo4 steel. In a second part, after having selected an Artificial Neural Network architecture with $2$ hidden layers, we present the implementation of this model in the Abaqus Explicit computational code in the form of a VUHARD subroutine. The predictive capability of the proposed model is then demonstrated during the numerical simulation of two test cases: the necking of a circular bar and a Taylor impact test. The results obtained show a very high capability of the ANN to replace the analytical formulation of a Johnson-Cook behavior law in a finite element code, while remaining competitive in terms of numerical simulation time compared to a classical approach.
翻訳日:2022-09-08 13:12:48 公開日:2022-09-07
# 物理形ニューラルネットワークを用いた非等温多相ポロメカニクスの逆モデリング

Inverse modeling of nonisothermal multiphase poromechanics using physics-informed neural networks ( http://arxiv.org/abs/2209.03276v1 )

ライセンス: Link先を確認
Danial Amini, Ehsan Haghighat, Ruben Juanes(参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いた多相熱水機械(THM)プロセスにおけるパラメータ同定手法を提案する。 我々は, 逆問題に特に適するthm制御方程式の次元のない形式を採用し, 先行研究で開発した逐次多次ピン解法を活用した。 本稿では,Terzaghiの等温凝縮問題,Barry-Mercerの等温注入発生問題,不飽和土壌層の非等温凝縮問題など,複数のベンチマーク問題に対する逆モデリング手法を検証した。 提案した逐次PINN-THM逆解器の優れた性能を報告し、複素非線形多物理問題の逆モデリングにPINNを適用する方法について述べる。

We propose a solution strategy for parameter identification in multiphase thermo-hydro-mechanical (THM) processes in porous media using physics-informed neural networks (PINNs). We employ a dimensionless form of the THM governing equations that is particularly well suited for the inverse problem, and we leverage the sequential multiphysics PINN solver we developed in previous work. We validate the proposed inverse-modeling approach on multiple benchmark problems, including Terzaghi's isothermal consolidation problem, Barry-Mercer's isothermal injection-production problem, and nonisothermal consolidation of an unsaturated soil layer. We report the excellent performance of the proposed sequential PINN-THM inverse solver, thus paving the way for the application of PINNs to inverse modeling of complex nonlinear multiphysics problems.
翻訳日:2022-09-08 13:12:25 公開日:2022-09-07
# スケールドガウス分布の非中心混合に対するリーマン最適化

Riemannian optimization for non-centered mixture of scaled Gaussian distributions ( http://arxiv.org/abs/2209.03315v1 )

ライセンス: Link先を確認
Antoine Collas, Arnaud Breloy, Chengfang Ren, Guillaume Ginolhac, Jean-Philippe Ovarlez(参考訳) 本稿では,スケールドガウス分布(nc-msg)の非中心混合の統計モデルについて述べる。 この分布に付随するフィッシャー・ラオ情報幾何を用いて、リーマン勾配降下アルゴリズムを導出する。 このアルゴリズムは2つの最小化問題に利用できる。 1つ目は正規化負の対数可能性 (NLL) の最小化である。 後者は、白いガウス分布とNC-MSGとのトレードオフである。 正規化の条件は、この問題に対する最小限の存在がサンプルに対する仮定なしで保証されるように与えられる。 次に、2つのNC−MSG間のKullback-Leibler(KL)ばらつきを導出する。 この分散により、NC-MSGの質量中心を計算するために最小化問題を定義できる。 提案したリーマン勾配降下アルゴリズムを利用して、この第2の最小化問題を解く。 数値実験により、2つの問題に対するリーマン勾配降下の優れた性能と速度が示された。 最後に、KLの発散とその関連する質量中心を利用して、最も近いセントロイド分類器を実装する。 大規模なデータセットであるBrizhcropsに応用されたこの分類器は、テストセットの剛性変換に対する堅牢性だけでなく、良好な精度を示す。

This paper studies the statistical model of the non-centered mixture of scaled Gaussian distributions (NC-MSG). Using the Fisher-Rao information geometry associated to this distribution, we derive a Riemannian gradient descent algorithm. This algorithm is leveraged for two minimization problems. The first one is the minimization of a regularized negative log- likelihood (NLL). The latter makes the trade-off between a white Gaussian distribution and the NC-MSG. Conditions on the regularization are given so that the existence of a minimum to this problem is guaranteed without assumptions on the samples. Then, the Kullback-Leibler (KL) divergence between two NC-MSG is derived. This divergence enables us to define a minimization problem to compute centers of mass of several NC-MSGs. The proposed Riemannian gradient descent algorithm is leveraged to solve this second minimization problem. Numerical experiments show the good performance and the speed of the Riemannian gradient descent on the two problems. Finally, a Nearest centroid classifier is implemented leveraging the KL divergence and its associated center of mass. Applied on the large scale dataset Breizhcrops, this classifier shows good accuracies as well as robustness to rigid transformations of the test set.
翻訳日:2022-09-08 13:11:45 公開日:2022-09-07
# 自律的熱食品加工のための物理ベースのデジタル双生児:効率良く非インタラクティブな低次モデリング

Physics-based Digital Twins for Autonomous Thermal Food Processing: Efficient, Non-intrusive Reduced-order Modeling ( http://arxiv.org/abs/2209.03062v1 )

ライセンス: Link先を確認
Maximilian Kannapinn, Minh Khang Pham, and Michael Sch\"afer(参考訳) 熱処理を制御可能にする方法の1つは、製品の現在の状態に関するリアルタイム情報を集めることである。 しばしば、感覚装置は、すべての関連情報を容易に、あるいは全く取得できない。 デジタル双子は、プロセスと同期したリアルタイムシミュレーションで仮想プローブでこのギャップを閉じる。 本稿では,自律食品処理のための物理に基づくデータ駆動型Digital Twinフレームワークを提案する。 我々は,最小限の計算負荷,データストレージ,センサデータ要求を伴って,デバイスレベルで実行可能なリーンDigital Twinの概念を提案する。 本研究は, 熱過程の非侵襲的還元次モデル (ROM) を訓練するための擬似実験設計に焦点をあてる。 rom試験における表面温度の高標準偏差と低根平均二乗誤差との相関(r=-0.76$)は、トレーニングデータの効率的な選択を可能にする。 ベストromの平均試験根根平均二乗誤差は、代表試験セットにおいて1ケルビン(0.2%平均パーセンテージ誤差)未満である。 sp $\approx$ 1.8e4のシミュレーションスピードアップは、オンデバイスモデル予測制御を可能にする。 提案されているDigital Twinフレームワークは、業界内で適用できるように設計されている。 一般的には、商用シミュレーションソフトウェアのような解法へのルートレベルアクセスが提供されないソフトウェアでプロセスのモデリングが実行されるとすぐに、非インタラクティブな低次モデリングが必要となる。 相関を利用して事前のトレーニング成功を予測することにより、還元順序モデルのデータ駆動トレーニングを1つのデータセットで達成する。

One possible way of making thermal processing controllable is to gather real-time information on the product's current state. Often, sensory equipment cannot capture all relevant information easily or at all. Digital Twins close this gap with virtual probes in real-time simulations, synchronized with the process. This paper proposes a physics-based, data-driven Digital Twin framework for autonomous food processing. We suggest a lean Digital Twin concept that is executable at the device level, entailing minimal computational load, data storage, and sensor data requirements. This study focuses on a parsimonious experimental design for training non-intrusive reduced-order models (ROMs) of a thermal process. A correlation ($R=-0.76$) between a high standard deviation of the surface temperatures in the training data and a low root mean square error in ROM testing enables efficient selection of training data. The mean test root mean square error of the best ROM is less than 1 Kelvin (0.2 % mean average percentage error) on representative test sets. Simulation speed-ups of Sp $\approx$ 1.8E4 allow on-device model predictive control. The proposed Digital Twin framework is designed to be applicable within the industry. Typically, non-intrusive reduced-order modeling is required as soon as the modeling of the process is performed in software, where root-level access to the solver is not provided, such as commercial simulation software. The data-driven training of the reduced-order model is achieved with only one data set, as correlations are utilized to predict the training success a priori.
翻訳日:2022-09-08 13:11:07 公開日:2022-09-07
# コホートインテリジェンス(CI)アルゴリズムのBiblio-AnalysisとスコープとWeb of Scienceの関連応用

Biblio-Analysis of Cohort Intelligence (CI) Algorithm and its allied applications from Scopus and Web of Science Perspective ( http://arxiv.org/abs/2209.03009v1 )

ライセンス: Link先を確認
Ishaan Kale, Rahul Joshi, Kalyani Kadam(参考訳) cohort intelligence(ci)は、その新しい最適化アルゴリズムの1つである。 開始以来、非常に短い範囲で様々な領域に適用され、その種類のアルゴリズムとは対照的に、その結果が有効であることが観察される。 今のところ、CIとその関連アプリケーションでこのようなタイプの書誌分析は行われていない。 そのため、この研究論文は、CIを新たなレベルに引き上げたい人のためのアイスブレーカーとなるでしょう。 この研究論文では、Scoopsで利用可能なCIパブリッシュは、グラフ、著者に関するネットワーク図、ソースタイトル、長年のキーワード、当時のジャーナルを通じて分析される。 この文献学論文では、CI、その応用と詳細が文献学の詳細の観点から体系的にレビューされている。

Cohort Intelligence or CI is one of its kind of novel optimization algorithm. Since its inception, in a very short span it is applied successfully in various domains and its results are observed to be effectual in contrast to algorithm of its kind. Till date, there is no such type of bibliometric analysis carried out on CI and its related applications. So, this research paper in a way will be an ice breaker for those who want to take up CI to a new level. In this research papers, CI publications available in Scopus are analyzed through graphs, networked diagrams about authors, source titles, keywords over the years, journals over the time. In a way this bibliometric paper showcase CI, its applications and detail outs systematic review in terms its bibliometric details.
翻訳日:2022-09-08 13:08:33 公開日:2022-09-07
# vulcurator: 脆弱性フィックスコミット検出ツール

VulCurator: A Vulnerability-Fixing Commit Detector ( http://arxiv.org/abs/2209.03260v1 )

ライセンス: Link先を確認
Truong Giang Nguyen, Thanh Le-Cong, Hong Jin Kang, Xuan-Bach D. Le, David Lo(参考訳) オープンソースのソフトウェア(OSS)の脆弱性管理プロセスは、最近重要になっている。 脆弱性修正コミットの監視は、脆弱性のエクスプロイトを防ぐための標準プロセスの一部である。 しかし、脆弱性フィックスコミットを手動で検出することは、レビューするコミットの数が多すぎるため、時間がかかる。 近年,機械学習を用いて脆弱性修正コミットを自動的に検出する手法が多数提案されている。 1) 深層学習を用いなかったか,(2) 限られた情報源でのみ深層学習を行ったかのいずれかであった。 本稿では,コミットメッセージやコード変更,イシューレポートなど,より豊富な情報ソースのディープラーニングを活用した脆弱性フィックス用のツールであるvulcuratorを提案する。 実験の結果,VulCuratorはF1スコアにおいて,最先端のベースラインよりも16.1%高い性能を示した。 VulCuratorツールはhttps://github.com/ntgiang71096/VFDetectorとhttps://zenodo.org/record/7034132#で公開されている。 Yw3MN-xBzDI, a demo video at https://youtu.be/uMlFmWSJYOE.com

Open-source software (OSS) vulnerability management process is important nowadays, as the number of discovered OSS vulnerabilities is increasing over time. Monitoring vulnerability-fixing commits is a part of the standard process to prevent vulnerability exploitation. Manually detecting vulnerability-fixing commits is, however, time consuming due to the possibly large number of commits to review. Recently, many techniques have been proposed to automatically detect vulnerability-fixing commits using machine learning. These solutions either: (1) did not use deep learning, or (2) use deep learning on only limited sources of information. This paper proposes VulCurator, a tool that leverages deep learning on richer sources of information, including commit messages, code changes and issue reports for vulnerability-fixing commit classifica- tion. Our experimental results show that VulCurator outperforms the state-of-the-art baselines up to 16.1% in terms of F1-score. VulCurator tool is publicly available at https://github.com/ntgiang71096/VFDetector and https://zenodo.org/record/7034132#.Yw3MN-xBzDI, with a demo video at https://youtu.be/uMlFmWSJYOE.
翻訳日:2022-09-08 13:08:19 公開日:2022-09-07
# 補助分類器による分散課題に対する自己教師あり学習の改善

Improving Self-supervised Learning for Out-of-distribution Task via Auxiliary Classifier ( http://arxiv.org/abs/2209.02881v1 )

ライセンス: Link先を確認
Harshita Boonlia, Tanmoy Dam, Md Meftahul Ferdaus, Sreenatha G. Anavatti, Ankan Mullick(参考訳) 実世界のシナリオでは、アウト・オブ・ディストリビューション(OOD)データセットはトレーニングデータセットから大きく分散シフトする可能性がある。 この現象は一般に、訓練された分類器が様々な動的環境にデプロイされたときに起こる。 この問題に対処するため、我々はエンドツーエンドのディープマルチタスクネットワークを提案しています。 OODタスクにおける回転予測(自己監督)精度と意味分類精度の強い関係を観測し,多タスクネットワークにおける追加の補助的分類ヘッドと意味分類と回転予測ヘッドを導入する。 この付加分類器が回転予測ヘッドの改善に与えた影響を観察するために,提案手法は,上位レベルが意味分類と回転予測ヘッドのパラメータを更新するように訓練された2レベル最適化問題にフレーム化される。 下層最適化では、セマンティック分類ヘッドのパラメータを固定することにより、セマンティック分類ヘッドを介して補助分類ヘッドのみを更新する。 提案手法は3つの未知のOODデータセットを用いて検証され,他の2つのベースライン法よりも意味分類精度が向上した。 我々のコードはgithub \url{https://github.com/harshita-555/ossl}で入手できる。

In real world scenarios, out-of-distribution (OOD) datasets may have a large distributional shift from training datasets. This phenomena generally occurs when a trained classifier is deployed on varying dynamic environments, which causes a significant drop in performance. To tackle this issue, we are proposing an end-to-end deep multi-task network in this work. Observing a strong relationship between rotation prediction (self-supervised) accuracy and semantic classification accuracy on OOD tasks, we introduce an additional auxiliary classification head in our multi-task network along with semantic classification and rotation prediction head. To observe the influence of this addition classifier in improving the rotation prediction head, our proposed learning method is framed into bi-level optimisation problem where the upper-level is trained to update the parameters for semantic classification and rotation prediction head. In the lower-level optimisation, only the auxiliary classification head is updated through semantic classification head by fixing the parameters of the semantic classification head. The proposed method has been validated through three unseen OOD datasets where it exhibits a clear improvement in semantic classification accuracy than other two baseline methods. Our code is available on GitHub \url{https://github.com/harshita-555/OSSL}
翻訳日:2022-09-08 13:06:02 公開日:2022-09-07
# ガウス過程を用いた体表面ネットワークにおける最適センサ配置

Optimal Sensor Placement in Body Surface Networks using Gaussian Processes ( http://arxiv.org/abs/2209.02912v1 )

ライセンス: Link先を確認
Emad Alenany and Changqing Cheng(参考訳) 本稿では、心電図画像ネットワーク(ECGI)における最適なセンサ配置(OSP)のための新しいシーケンシャル選択フレームワークについて検討する。 提案手法は,生物物体のランドマークを順次選択するための最近の実験的設計手法,すなわちガウス過程ランドマーク(GPLMK)を用いて,候補センサのより優れた探索を行う。 2つの実験的な設計手法はトレーニングの源となり、時空間ガウス過程(stgp)を用いて検証を行う。 STGPは、トレーニングセットを使用してGPLMKを用いて生成された現在の検証セットを予測し、現在検証セットから最大の予測絶対誤差のセンサを選択し、選択されたセンサに追加する。 次に、現在のトレーニングセットを使用して、新しい検証セットを生成して予測する。 このプロセスは、特定のセンサー位置を選択するまで続く。 4人の被験者の352電極の体表面電位マッピング(BSPM)のデータセットについて検討した。 提案するアルゴリズムを用いて,センサ位置を30個選択する。 選択されたセンサー位置は、全身QRSセグメントを推定するために平均$R^2 = 94.40 \%$を達成した。 提案手法は, 装着性の向上と設計コストの低減により, より臨床的に実用的なECGIシステムの設計に寄与する。

This paper explores a new sequential selection framework for the optimal sensor placement (OSP) in Electrocardiography imaging networks (ECGI). The proposed methodology incorporates the use a recent experimental design method for the sequential selection of landmarkings on biological objects, namely, Gaussian process landmarking (GPLMK) for better exploration of the candidate sensors. The two experimental design methods work as a source of the training and the validation locations which is fitted using a spatiotemporal Gaussian process (STGP). The STGP is fitted using the training set to predict for the current validation set generated using GPLMK, and the sensor with the largest prediction absolute error is selected from the current validation set and added to the selected sensors. Next, a new validation set is generated and predicted using the current training set. The process continues until selecting a specific number of sensor locations. The study is conducted on a dataset of body surface potential mapping (BSPM) of 352 electrodes of four human subjects. A number of 30 sensor locations is selected using the proposed algorithm. The selected sensor locations achieved average $R^2 = 94.40 \%$ for estimating the whole-body QRS segment. The proposed method adds to design efforts for a more clinically practical ECGI system by improving its wearability and reduce the design cost as well.
翻訳日:2022-09-08 13:05:41 公開日:2022-09-07
# サンプルおよび集約型グラフニューラルネットワークにおけるサンプリングアルゴリズムのハードウェア高速化

Hardware Acceleration of Sampling Algorithms in Sample and Aggregate Graph Neural Networks ( http://arxiv.org/abs/2209.02916v1 )

ライセンス: Link先を確認
Yuchen Gui, Boyi Wei, Wei Yuan and Xi Jin(参考訳) サンプリングは多くのgnn構造において重要なプロセスであり、より少ない計算量で大きなデータセットをトレーニングする。 しかし、GNNの他のプロセス(アグリゲート、後方伝播など)と比較すると、サンプリングプロセスにはまだ膨大な時間がかかるため、トレーニングの速度が制限される。 サンプリング時間を短縮するため、ハードウェアアクセラレーションは理想的な選択である。 しかし、最先端のGNNアクセラレーション提案ではサンプリングプロセスの高速化方法を明記していない。 さらに、従来のサンプリングアルゴリズムを直接加速することで、加速器の構造は非常に複雑になります。 そこで本研究では,(1) テスト精度を保証しつつ,ハードウェアレベルで容易に高速化できるconcat samplerを提案する。 2)fpgaに基づくconcat-sampler-acceleratorの設計により,隣接サンプリングプロセスは非サンプリングプロセスに比べて約300~1000倍高速化された。

Sampling is an important process in many GNN structures in order to train larger datasets with a smaller computational complexity. However, compared to other processes in GNN (such as aggregate, backward propagation), the sampling process still costs tremendous time, which limits the speed of training. To reduce the time of sampling, hardware acceleration is an ideal choice. However, state of the art GNN acceleration proposal did not specify how to accelerate the sampling process. What's more, directly accelerating traditional sampling algorithms will make the structure of the accelerator very complicated. In this work, we made two contributions: (1) Proposed a new neighbor sampler: CONCAT Sampler, which can be easily accelerated on hardware level while guaranteeing the test accuracy. (2) Designed a CONCAT-sampler-accelerator based on FPGA, with which the neighbor sampling process boosted to about 300-1000 times faster compared to the sampling process without it.
翻訳日:2022-09-08 13:05:22 公開日:2022-09-07
# 量的探索:量的ドメイン知識を用いた因果モデル検証

Quantitative probing: Validating causal models using quantitative domain knowledge ( http://arxiv.org/abs/2209.03013v1 )

ライセンス: Link先を確認
Daniel Gr\"unbaum, Maike L. Stern, Elmar W. Lang(参考訳) 定量的ドメイン知識の存在下で因果モデルを検証するためのモデル非依存な枠組みとして量的プローブを提案する。 この方法は、相関ベースの機械学習における列車/テスト分割と、科学的発見の論理と一致する現在の因果検証戦略の類似物として構築される。 本手法の有効性をパールのスプリンクラー例を用いて,シミュレーションに基づく徹底的な調査を行う前に示す。 この手法の限界は、模範的な失敗シナリオを研究することによって特定され、さらに、将来の研究のためのトピックリストの提案や、量的探索の提示されたバージョンの改善に使用される。 因果解析に量的探究を統合するためのコードと,2つのオープンソースPythonパッケージに量的探究の有効性に関するシミュレーションベース研究のためのコードを提供する。

We present quantitative probing as a model-agnostic framework for validating causal models in the presence of quantitative domain knowledge. The method is constructed as an analogue of the train/test split in correlation-based machine learning and as an enhancement of current causal validation strategies that are consistent with the logic of scientific discovery. The effectiveness of the method is illustrated using Pearl's sprinkler example, before a thorough simulation-based investigation is conducted. Limits of the technique are identified by studying exemplary failing scenarios, which are furthermore used to propose a list of topics for future research and improvements of the presented version of quantitative probing. The code for integrating quantitative probing into causal analysis, as well as the code for the presented simulation-based studies of the effectiveness of quantitative probing is provided in two separate open-source Python packages.
翻訳日:2022-09-08 13:05:04 公開日:2022-09-07
# 診断予測から非現実的説明へ向けた医用画像の深層学習

Deep Learning for Medical Imaging From Diagnosis Prediction to its Counterfactual Explanation ( http://arxiv.org/abs/2209.02929v1 )

ライセンス: Link先を確認
Sumedha Singla(参考訳) ディープニューラルネットワーク(DNN)は、ほぼ至るところでビジネス、技術、科学におけるコンピュータビジョンタスクにおいて、前例のないパフォーマンスを達成した。 高精度なアーキテクチャを設計し、使用可能なモデル説明を提供するためにかなりの努力がなされているが、ほとんどの最先端のアプローチは最初、自然視のために設計され、次に医療領域に翻訳される。 この論文は、DNNモデルと説明設計に医療画像の領域固有の制約を統合する新しいアーキテクチャを提案することで、このギャップに対処しようとしている。

Deep neural networks (DNN) have achieved unprecedented performance in computer-vision tasks almost ubiquitously in business, technology, and science. While substantial efforts are made to engineer highly accurate architectures and provide usable model explanations, most state-of-the-art approaches are first designed for natural vision and then translated to the medical domain. This dissertation seeks to address this gap by proposing novel architectures that integrate the domain-specific constraints of medical imaging into the DNN model and explanation design.
翻訳日:2022-09-08 13:02:22 公開日:2022-09-07
# リアルタイム肺感染症分離システムのための境界案内セマンティックラーニング

Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection Segmentation System ( http://arxiv.org/abs/2209.02934v1 )

ライセンス: Link先を確認
Runmin Cong, Yumo Zhang, Ning Yang, Haisheng Li, Xueqi Zhang, Ruochen Li, Zewen Chen, Yao Zhao, and Sam Kwong(参考訳) 新型コロナウイルス感染症(COVID-19)は世界中の医療システムに悪影響を及ぼし続けているが、ワクチンは開発され、全国的なワクチン接種率も着実に上昇している。 現段階では、新型コロナウイルスの診断と治療には、CT画像から肺感染症領域を自動的に分離することが不可欠である。 深層学習技術の発展により,肺感染症セグメンテーションのための深層学習ソリューションが提案されている。 しかし、分散分布、複雑な背景干渉、ぼやけた境界のため、既存のモデルの正確性と完全性はまだ不十分である。 そこで本稿では,境界案内型意味学習ネットワーク(BSNet)を提案する。 一方、トップレベルセマンティック保存とプログレッシブセマンティック統合を組み合わせたデュアルブランチセマンティックエンハンスメントモジュールは、異なる高レベル特徴間の相補的関係をモデル化し、より完全なセマンティックセマンティック結果の生成を促進するように設計されている。 一方,鏡面対称境界誘導モジュールは,病変領域の境界を鏡面対称的に正確に検出するために提案されている。 公開されているデータセットの実験では、私たちのBSNetは既存の最先端の競合より優れており、44FPSのリアルタイム推論速度を実現しています。

The coronavirus disease 2019 (COVID-19) continues to have a negative impact on healthcare systems around the world, though the vaccines have been developed and national vaccination coverage rate is steadily increasing. At the current stage, automatically segmenting the lung infection area from CT images is essential for the diagnosis and treatment of COVID-19. Thanks to the development of deep learning technology, some deep learning solutions for lung infection segmentation have been proposed. However, due to the scattered distribution, complex background interference and blurred boundaries, the accuracy and completeness of the existing models are still unsatisfactory. To this end, we propose a boundary guided semantic learning network (BSNet) in this paper. On the one hand, the dual-branch semantic enhancement module that combines the top-level semantic preservation and progressive semantic integration is designed to model the complementary relationship between different high-level features, thereby promoting the generation of more complete segmentation results. On the other hand, the mirror-symmetric boundary guidance module is proposed to accurately detect the boundaries of the lesion regions in a mirror-symmetric way. Experiments on the publicly available dataset demonstrate that our BSNet outperforms the existing state-of-the-art competitors and achieves a real-time inference speed of 44 FPS.
翻訳日:2022-09-08 13:02:13 公開日:2022-09-07
# Auto-TransRL:ロボット知覚のためのビジョンパイプラインの自律的構成

Auto-TransRL: Autonomous Composition of Vision Pipelines for Robotic Perception ( http://arxiv.org/abs/2209.02991v1 )

ライセンス: Link先を確認
Aditya Kapoor, Nijil George, Vartika Sengar, Vighnesh Vatsal and Jayavardhana Gubbi(参考訳) コンピュータビジョンタスクを解決するために、さまざまなデータセットのためのビジョンパイプラインを作成することは、複雑で時間のかかるプロセスである。 現在、これらのパイプラインはドメインエキスパートの助けを借りて開発されている。 さらに、経験、試行錯誤、テンプレートベースのアプローチに頼ること以外、ビジョンパイプラインを構築するための体系的な構造は存在しない。 特定のビジョンタスクを達成するのに適したアルゴリズムを選択する検索スペースは大きいため、優れた解を見つけるには時間と労力が必要である。 以下の問題に対処するために、目標を達成するためにビジョンパイプラインを構築するのに適したアルゴリズムの適切なセットを特定する、動的でデータ駆動の方法を提案する。 我々は,視覚ワークフローの異なる段階に組み込むアルゴリズムを推奨するために,深層強化学習を補完するトランスフォーマーアーキテクチャを導入する。 このシステムは、環境の動的変化に頑健で適応性がある。 さらに実験結果から,本手法は,トレーニング中に使用されていないアルゴリズムを推薦するためにも有効であり,テスト期間中に導入された新しいアルゴリズムでシステムを再訓練する必要がなくなることを示した。

Creating a vision pipeline for different datasets to solve a computer vision task is a complex and time consuming process. Currently, these pipelines are developed with the help of domain experts. Moreover, there is no systematic structure to construct a vision pipeline apart from relying on experience, trial and error or using template-based approaches. As the search space for choosing suitable algorithms for achieving a particular vision task is large, human exploration for finding a good solution requires time and effort. To address the following issues, we propose a dynamic and data-driven way to identify an appropriate set of algorithms that would be fit for building the vision pipeline in order to achieve the goal task. We introduce a Transformer Architecture complemented with Deep Reinforcement Learning to recommend algorithms that can be incorporated at different stages of the vision workflow. This system is both robust and adaptive to dynamic changes in the environment. Experimental results further show that our method also generalizes well to recommend algorithms that have not been used while training and hence alleviates the need of retraining the system on a new set of algorithms introduced during test time.
翻訳日:2022-09-08 13:01:52 公開日:2022-09-07
# msspn:多段セグメンテーションピッキングネットワークを用いた第1段階自動ピッキング

MSSPN: Automatic First Arrival Picking using Multi-Stage Segmentation Picking Network ( http://arxiv.org/abs/2209.03132v1 )

ライセンス: Link先を確認
Hongtao Wang, Jiangshe Zhang, Xiaoli Wei, Chunxia Zhang, Zhenbo Guo, Li Long and Yicheng Wang(参考訳) プレスタックの最初の到着時刻の選定は、地震データ処理において必須のステップであるFAT(First Arrival Time)ピッキングと呼ばれ、主に過去に手作業で解決された。 現在の地震データ収集密度の増加に伴い、手動ピッキングの効率は実際のニーズを満たすことができなかった。 そのため,近年,特に深層学習に基づく自動抽出手法が盛んに開発されている。 しかし、現在の教師付きディープラーニングベースの手法では、ラベル付きサンプルへの依存を回避できるものはほとんどない。 また、収集データは自然画像と大きく異なる信号の集合であるため、低信号対雑音比(SNR)の場合、現在の手法ではFAT選択問題を解くことは困難である。 本稿では, 岩盤群集データに対して, 作業員間の一般化問題と低SNRの場合のピック問題を解くマルチステージセグメンテーション・ピック・ネットワーク(MSSPN)を提案する。 MSSPNでは、手動のピック処理をシミュレートする4つのサブモデルがあり、これは粗いものから細かいものまで4段階と仮定される。 異なる特性を持つ7つのフィールドデータセットの実験により、我々のMSSPNはベンチマークを大きなマージンで上回り、特に、中・高SNRにおけるワークライトの正確なピッキングを90%以上達成でき、微調整モデルでさえ、SNRの低いデータセットの88%の正確なピッキングを達成できます。

Picking the first arrival times of prestack gathers is called First Arrival Time (FAT) picking, which is an indispensable step in seismic data processing, and is mainly solved manually in the past. With the current increasing density of seismic data collection, the efficiency of manual picking has been unable to meet the actual needs. Therefore, automatic picking methods have been greatly developed in recent decades, especially those based on deep learning. However, few of the current supervised deep learning-based method can avoid the dependence on labeled samples. Besides, since the gather data is a set of signals which are greatly different from the natural images, it is difficult for the current method to solve the FAT picking problem in case of a low Signal to Noise Ratio (SNR). In this paper, for hard rock seismic gather data, we propose a Multi-Stage Segmentation Pickup Network (MSSPN), which solves the generalization problem across worksites and the picking problem in the case of low SNR. In MSSPN, there are four sub-models to simulate the manually picking processing, which is assumed to four stages from coarse to fine. Experiments on seven field datasets with different qualities show that our MSSPN outperforms benchmarks by a large margin.Particularly, our method can achieve more than 90\% accurate picking across worksites in the case of medium and high SNRs, and even fine-tuned model can achieve 88\% accurate picking of the dataset with low SNR.
翻訳日:2022-09-08 13:01:34 公開日:2022-09-07
# FasterX: UAVアプリケーションのためのエッジGPUに基づくリアルタイムオブジェクト検出

FasterX: Real-Time Object Detection Based on Edge GPUs for UAV Applications ( http://arxiv.org/abs/2209.03157v1 )

ライセンス: Link先を確認
Wei Zhou, Xuanlin Min, Rui Hu, Yiwen Long, Huan Luo, and JunYi(参考訳) 無人航空機(UAV)上のリアルタイムオブジェクト検出は、IoT(Internet of Things)ノードとしてのエッジGPUデバイスの限られたコンピューティングリソースのため、難しい問題である。 そこで本研究では,エッジGPU上でのリアルタイム物体検出のためのYOLOXモデルに基づく,FasterXという軽量なディープラーニングアーキテクチャを提案する。 まず, 効率良く軽量なpixsfヘッドを設計し, 元のyoloxヘッドを置き換えることで, 小型物体をよりよく検出し, 奥行き分離可能な畳み込み (ds conv) に埋め込み, より軽量なヘッドを実現する。 次に、SlimFPNと呼ばれるネック層のスリム構造を開発し、精度と速度のトレードオフであるネットワークのパラメータを低減する。 さらに,ヘッド層にアテンションモジュールを埋め込んで,予測ヘッドの特性抽出効果を向上させる。 また,ラベル割当戦略と損失関数を改善し,uavデータセットのカテゴリ不均衡とボックス最適化の問題を軽減する。 最後に,オンライン蒸留のための補助ヘッドを提示し,PixSFヘッドにおける位置埋め込みと特徴抽出の能力を向上させる。 我々の軽量モデルの性能はNVIDIA Jetson NXとJetson Nano GPUの組込みプラットフォームで実験的に検証されている。

Real-time object detection on Unmanned Aerial Vehicles (UAVs) is a challenging issue due to the limited computing resources of edge GPU devices as Internet of Things (IoT) nodes. To solve this problem, in this paper, we propose a novel lightweight deep learning architectures named FasterX based on YOLOX model for real-time object detection on edge GPU. First, we design an effective and lightweight PixSF head to replace the original head of YOLOX to better detect small objects, which can be further embedded in the depthwise separable convolution (DS Conv) to achieve a lighter head. Then, a slimmer structure in the Neck layer termed as SlimFPN is developed to reduce parameters of the network, which is a trade-off between accuracy and speed. Furthermore, we embed attention module in the Head layer to improve the feature extraction effect of the prediction head. Meanwhile, we also improve the label assignment strategy and loss function to alleviate category imbalance and box optimization problems of the UAV dataset. Finally, auxiliary heads are presented for online distillation to improve the ability of position embedding and feature extraction in PixSF head. The performance of our lightweight models are validated experimentally on the NVIDIA Jetson NX and Jetson Nano GPU embedded platforms.Extensive experiments show that FasterX models achieve better trade-off between accuracy and latency on VisDrone2021 dataset compared to state-of-the-art models.
翻訳日:2022-09-08 13:01:06 公開日:2022-09-07
# 畳み込みニューラルネットワークを用いた画像スパム検出のための説明可能な人工知能

Explainable Artificial Intelligence to Detect Image Spam Using Convolutional Neural Network ( http://arxiv.org/abs/2209.03166v1 )

ライセンス: Link先を確認
Zhibo Zhang, Ernesto Damiani, Hussam Al Hamadi, Chan Yeob Yeun, Fatma Taher(参考訳) 画像スパムの脅威検出は、インターネットの驚くべき拡張に関して、常に人気のある研究領域である。 本研究では,畳み込みニューラルネットワーク(cnn)と説明可能な人工知能(xai)アルゴリズムを用いて,スパム画像を検出するためのフレームワークを提案する。 本研究では,CNNモデルを用いて画像スパムを分類するのに対し,ローカル解釈可能なモデルAgnostic Explanation (LIME) やShapley Additive Explanations (SHAP) といったポストホックなXAI手法は,ブラックボックスCNNモデルがスパム画像検出に関する決定を下すために使用される。 3種類の公開メールコーパスから収集したスパム画像と通常の画像を含む6636画像データセット上で,提案手法の性能を訓練し,評価した。 実験の結果, 提案手法は, 異なる性能指標を用いて十分な検出結果を得たが, モデル非依存のxaiアルゴリズムは, 今後の比較に利用可能な異なるモデルの決定のための説明を提供することができた。

Image spam threat detection has continually been a popular area of research with the internet's phenomenal expansion. This research presents an explainable framework for detecting spam images using Convolutional Neural Network(CNN) algorithms and Explainable Artificial Intelligence (XAI) algorithms. In this work, we use CNN model to classify image spam respectively whereas the post-hoc XAI methods including Local Interpretable Model Agnostic Explanation (LIME) and Shapley Additive Explanations (SHAP) were deployed to provide explanations for the decisions that the black-box CNN models made about spam image detection. We train and then evaluate the performance of the proposed approach on a 6636 image dataset including spam images and normal images collected from three different publicly available email corpora. The experimental results show that the proposed framework achieved satisfactory detection results in terms of different performance metrics whereas the model-independent XAI algorithms could provide explanations for the decisions of different models which could be utilized for comparison for the future study.
翻訳日:2022-09-08 13:00:41 公開日:2022-09-07
# Spach Transformer:PET画像の局所的・グローバル的自己注意に基づく空間的・チャネル的変換器

Spach Transformer: Spatial and Channel-wise Transformer Based on Local and Global Self-attentions for PET Image Denoising ( http://arxiv.org/abs/2209.03300v1 )

ライセンス: Link先を確認
Se-In Jang, Tinsu Pan, Ye Li, Pedram Heidari, Junyu Chen, Quanzheng Li, Kuang Gong(参考訳) ポジショルエミッショントモグラフィ(PET)はその量的メリットと高い感度のために臨床や研究に広く用いられているが、低信号-雑音比(SNR)に悩まされている。 近年,畳み込みニューラルネットワーク(cnns)がpet画像の品質向上に広く利用されている。 局所的な特徴抽出で成功し、効率的であるが、CNNはその限定された受容野のため、長距離依存をうまく捉えることはできない。 global multi-head self-attention (msa) は長距離情報を取り込む一般的な手法である。 しかし,3次元画像に対するグローバルmsaの計算には高い計算コストがかかる。 本研究では,局所的および大域的msaに基づく空間的およびチャネル的情報を活用できる,効率的な空間的およびチャネル的エンコーダ・デコーダ変換器spach transformerを提案する。 異なるPETトレーサのデータセット、すなわち$^{18}$F-FDG, $^{18}$F-ACBC, $^{18}$F-DCFPyL, $^{68}$Ga-DOTATATEを用いて提案フレームワークの評価を行った。 定量的な結果から,提案したSpach Transformerは,他の参照手法よりも優れた性能が得られることが示された。

Position emission tomography (PET) is widely used in clinics and research due to its quantitative merits and high sensitivity, but suffers from low signal-to-noise ratio (SNR). Recently convolutional neural networks (CNNs) have been widely used to improve PET image quality. Though successful and efficient in local feature extraction, CNN cannot capture long-range dependencies well due to its limited receptive field. Global multi-head self-attention (MSA) is a popular approach to capture long-range information. However, the calculation of global MSA for 3D images has high computational costs. In this work, we proposed an efficient spatial and channel-wise encoder-decoder transformer, Spach Transformer, that can leverage spatial and channel information based on local and global MSAs. Experiments based on datasets of different PET tracers, i.e., $^{18}$F-FDG, $^{18}$F-ACBC, $^{18}$F-DCFPyL, and $^{68}$Ga-DOTATATE, were conducted to evaluate the proposed framework. Quantitative results show that the proposed Spach Transformer can achieve better performance than other reference methods.
翻訳日:2022-09-08 13:00:18 公開日:2022-09-07
# マルチバウンスlidarリターンを用いた鏡面の検出とマッピング

Detection and Mapping of Specular Surfaces Using Multibounce Lidar Returns ( http://arxiv.org/abs/2209.03336v1 )

ライセンス: Link先を確認
Connor Henley, Siddharth Somasundaram, Joseph Hollmann and Ramesh Raskar(参考訳) そこで,本研究では, 単一散乱リターンに依存する従来のライダーシステムでは見えないような, 特異面の検出とマッピングを行う手法を提案する。 我々は,これらの多面体リターンの時間的および角度的関係を鏡面上の散乱点に関連づけた表現を導出し,これらの表現を用いて,映像を単一ビームで走査したり,複数ビームフラッシュで照らした際に鏡面形状を求める手法を定式化する。 また,表面反射を表面の後方に散乱する物体から散乱する光と混合できる透明な鏡面の特別な場合についても考察する。

We propose methods that use specular, multibounce lidar returns to detect and map specular surfaces that might be invisible to conventional lidar systems that rely on direct, single-scatter returns. We derive expressions that relate the time- and angle-of-arrival of these multibounce returns to scattering points on the specular surface, and then use these expressions to formulate techniques for retrieving specular surface geometry when the scene is scanned by a single beam or illuminated with a multi-beam flash. We also consider the special case of transparent specular surfaces, for which surface reflections can be mixed together with light that scatters off of objects lying behind the surface.
翻訳日:2022-09-08 12:59:53 公開日:2022-09-07
# kt-bt:マルチロボットシステムにおける行動木による知識伝達のフレームワーク

KT-BT: A Framework for Knowledge Transfer Through Behavior Trees in Multi-Robot Systems ( http://arxiv.org/abs/2209.02886v1 )

ライセンス: Link先を確認
Sanjay Sarma Oruganti Venkata, Ramviyas Parasuraman, Ramana Pidaparti(参考訳) マルチロボットとマルチエージェントシステムは、グループ内の局所的行動の体系的かつ分散的な統合を通じて集団的(swarm)知性を示す。 ミッションと環境に関する知識を共有するエージェントは、個人やミッションレベルでのパフォーマンスを高めることができる。 しかし、これは、エージェント間で既知の知識(振る舞い)の一部を転送するための一般的な枠組みが欠如しているため、達成が難しい。 本稿では,KT-BT: Knowledge Transfer through Behavior Treesという新たな知識表現フレームワークと伝達戦略を提案する。 KT-BTフレームワークはオンラインのビヘイビアツリーフレームワークを通じてクエリ応答更新メカニズムに従い、エージェントは未知の状態のクエリをブロードキャストし、条件アクション制御サブフローを使用して適切な知識で応答する。 我々は、知識をエンコードし、行動共有を可能にするstringbtと呼ばれる新しい文法構造を埋め込む。 我々は、KT-BTフレームワークの特性を理論的に研究し、グループ全体にわたる高い知識の均一性を、その知識を共有する能力のない異種システムと比較した。 我々は,マルチロボット探索と救難のシミュレート問題において,この枠組みを広範囲に検証した。 その結果,様々なシナリオにおいて知識伝達が成功し,グループパフォーマンスが向上した。 さらに,機会とコミュニケーション範囲がエージェント群におけるグループパフォーマンス,知識拡散,機能的不均一性に及ぼす影響について検討し,興味深い知見を得た。

Multi-Robot and Multi-Agent Systems demonstrate collective (swarm) intelligence through systematic and distributed integration of local behaviors in a group. Agents sharing knowledge about the mission and environment can enhance performance at individual and mission levels. However, this is difficult to achieve, partly due to the lack of a generic framework for transferring part of the known knowledge (behaviors) between agents. This paper presents a new knowledge representation framework and a transfer strategy called KT-BT: Knowledge Transfer through Behavior Trees. The KT-BT framework follows a query-response-update mechanism through an online Behavior Tree framework, where agents broadcast queries for unknown conditions and respond with appropriate knowledge using a condition-action-control sub-flow. We embed a novel grammar structure called stringBT that encodes knowledge, enabling behavior sharing. We theoretically investigate the properties of the KT-BT framework in achieving homogeneity of high knowledge across the entire group compared to a heterogeneous system without the capability of sharing their knowledge. We extensively verify our framework in a simulated multi-robot search and rescue problem. The results show successful knowledge transfers and improved group performance in various scenarios. We further study the effects of opportunities and communication range on group performance, knowledge spread, and functional heterogeneity in a group of agents, presenting interesting insights.
翻訳日:2022-09-08 12:59:39 公開日:2022-09-07
# ソーシャルメディアのエンゲージメントと暗号性能

Social Media Engagement and Cryptocurrency Performance ( http://arxiv.org/abs/2209.02911v1 )

ライセンス: Link先を確認
Khizar Qureshi, Tauhid Zaman(参考訳) ソーシャルメディアデータを用いた暗号通貨の今後のパフォーマンス予測問題について検討する。 本稿では,ソーシャルメディア投稿とのインタラクションに基づいて,ソーシャルメディア上で議論されたトピックによるユーザのエンゲージメントを計測する新しいモデルを提案する。 このモデルは、以前のボリュームと感情に基づくアプローチの制限を克服する。 このモデルを用いて、2019年から2021年にかけて作成された48の暗号通貨のエンゲージメント係数を、暗号通貨の存在から1か月後のtwitterのデータを用いて推定する。 暗号通貨の将来のリターンは、エンゲージメント係数に依存することが分かっています。 エンゲージメント係数が低すぎるか高すぎる暗号通貨は、リターンが低くなる。 低いエンゲージメント係数は関心の欠如を、高いエンゲージメント係数はボットとして知られる自動化アカウントから得られると思われる人工活動を示す。 我々は、暗号通貨のボットポストの量を計測し、一般的に、ボットポストが増えた暗号通貨は、将来のリターンを低くする。 将来のリターンはボットのアクティビティとエンゲージメント係数の両方に依存するが、その依存度はエンゲージメント係数、特に短期リターンに強く依存する。 固定しきい値を超えるエンゲージメント係数を持つ暗号通貨を選択する単純な投資戦略は、数ヶ月の保持時間に有効であることを示す。

We study the problem of predicting the future performance of cryptocurrencies using social media data. We propose a new model to measure the engagement of users with topics discussed on social media based on interactions with social media posts. This model overcomes the limitations of previous volume and sentiment based approaches. We use this model to estimate engagement coefficients for 48 cryptocurrencies created between 2019 and 2021 using data from Twitter from the first month of the cryptocurrencies' existence. We find that the future returns of the cryptocurrencies are dependent on the engagement coefficients. Cryptocurrencies whose engagement coefficients are too low or too high have lower returns. Low engagement coefficients signal a lack of interest, while high engagement coefficients signal artificial activity which is likely from automated accounts known as bots. We measure the amount of bot posts for the cryptocurrencies and find that generally, cryptocurrencies with more bot posts have lower future returns. While future returns are dependent on both the bot activity and engagement coefficient, the dependence is strongest for the engagement coefficient, especially for short-term returns. We show that simple investment strategies which select cryptocurrencies with engagement coefficients exceeding a fixed threshold perform well for holding times of a few months.
翻訳日:2022-09-08 12:59:18 公開日:2022-09-07
# プラットフォーム上でのuav自律着陸のための深層強化学習戦略

A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a Platform ( http://arxiv.org/abs/2209.02954v1 )

ライセンス: Link先を確認
Z. Jiang, G. Song(参考訳) 産業の発展に伴い、ドローンは様々な分野に出現している。 近年、深層強化学習はゲームにおいて顕著な進歩を遂げており、ロボット工学分野に深層強化学習アルゴリズムを適用し、強化学習アルゴリズムをゲームシナリオから現実のアプリケーションシナリオに移行することにコミットしています。 OpenAI GymのLunarLanderにインスパイアされた私たちは、ドローンを制御する強化学習の分野で大胆な試みを行うことに決めた。 現在、ロボット制御に強化学習アルゴリズムを適用する作業が不足しており、ロボット制御に関連する物理シミュレーションプラットフォームは古典的アルゴリズムの検証にのみ適しており、訓練に強化学習アルゴリズムにアクセスするには適していない。 本稿では,物理シミュレーションプラットフォームと知的エージェントのギャップを埋め,知的エージェントを物理シミュレーションプラットフォームに接続することで,エージェントが実世界に近いシミュレータでドローンの飛行タスクを学習し,完了できるようにする。 我々は,Gazeboをベースとした,物理シミュレーションプラットフォーム(ROS-RL)の強化学習フレームワークを提案し,ドローンの自律着陸問題に対処するために3つの連続行動空間強化学習アルゴリズムを用いた。 アルゴリズムの有効性を示す実験では、強化学習に基づく自律着陸のタスクが完全な成功を収めた。

With the development of industry, drones are appearing in various field. In recent years, deep reinforcement learning has made impressive gains in games, and we are committed to applying deep reinforcement learning algorithms to the field of robotics, moving reinforcement learning algorithms from game scenarios to real-world application scenarios. We are inspired by the LunarLander of OpenAI Gym, we decided to make a bold attempt in the field of reinforcement learning to control drones. At present, there is still a lack of work applying reinforcement learning algorithms to robot control, the physical simulation platform related to robot control is only suitable for the verification of classical algorithms, and is not suitable for accessing reinforcement learning algorithms for the training. In this paper, we will face this problem, bridging the gap between physical simulation platforms and intelligent agent, connecting intelligent agents to a physical simulation platform, allowing agents to learn and complete drone flight tasks in a simulator that approximates the real world. We proposed a reinforcement learning framework based on Gazebo that is a kind of physical simulation platform (ROS-RL), and used three continuous action space reinforcement learning algorithms in the framework to dealing with the problem of autonomous landing of drones. Experiments show the effectiveness of the algorithm, the task of autonomous landing of drones based on reinforcement learning achieved full success.
翻訳日:2022-09-08 12:57:08 公開日:2022-09-07
# Cerberus: セキュリティイベントのフェデレーション予測を探る

Cerberus: Exploring Federated Prediction of Security Events ( http://arxiv.org/abs/2209.03050v1 )

ライセンス: Link先を確認
Mohammad Naseri, Yufei Han, Enrico Mariconti, Yun Shen, Gianluca Stringhini, Emiliano De Cristofaro(参考訳) サイバー攻撃に対する現代の防御は、例えば、過去の出来事に基づいた敵の次の行動を予測するために、積極的なアプローチにますます依存している。 残念なことに、ネットワーク構造やセキュリティ姿勢、ポリシーといった、望ましくない、あるいはまったく不可能な機密情報を開示する必要がある。 本稿では,フェデレーション学習(fl)を用いた将来のセキュリティイベントの予測の可能性について検討する。 この目的のために,参加組織を対象としたリカレントニューラルネットワーク(RNN)モデルの協調トレーニングを可能にするシステムであるCerberusを紹介する。 FLは、トレーニングデータを中央サーバーにプールする非プライベートアプローチと、ローカルモデルのみをトレーニングする低ユーティリティな代替手段の中間部分を提供する可能性がある。 我々は,大手セキュリティ企業の侵入防止製品から得られたデータセット上でcerberusをインスタンス化し,vis-a-visユーティリティ,堅牢性,プライバシ,およびシステムへの参加者の貢献とメリットを評価する。 全体として、このタスクにFLを使うことのメリットと課題の両方に光を当て、予測セキュリティにフェデレートされたアプローチをデプロイする方法を舗装しています。

Modern defenses against cyberattacks increasingly rely on proactive approaches, e.g., to predict the adversary's next actions based on past events. Building accurate prediction models requires knowledge from many organizations; alas, this entails disclosing sensitive information, such as network structures, security postures, and policies, which might often be undesirable or outright impossible. In this paper, we explore the feasibility of using Federated Learning (FL) to predict future security events. To this end, we introduce Cerberus, a system enabling collaborative training of Recurrent Neural Network (RNN) models for participating organizations. The intuition is that FL could potentially offer a middle-ground between the non-private approach where the training data is pooled at a central server and the low-utility alternative of only training local models. We instantiate Cerberus on a dataset obtained from a major security company's intrusion prevention product and evaluate it vis-a-vis utility, robustness, and privacy, as well as how participants contribute to and benefit from the system. Overall, our work sheds light on both the positive aspects and the challenges of using FL for this task and paves the way for deploying federated approaches to predictive security.
翻訳日:2022-09-08 12:56:47 公開日:2022-09-07
# AutoPruner: トランスフォーマーベースのコールグラフプルーニング

AutoPruner: Transformer-Based Call Graph Pruning ( http://arxiv.org/abs/2209.03230v1 )

ライセンス: Link先を確認
Thanh Le-Cong, Hong Jin Kang, Truong Giang Nguyen, Stefanus Agus Haryono, David Lo, Xuan-Bach D. Le, Huynh Quyet Thang(参考訳) 静的なコールグラフを構築するには、音質と精度のトレードオフが必要となる。 コールグラフを構築するためのプログラム解析技術は通常不正確である。 この問題に対処するため、研究者は最近、静的解析によって構築されたコールグラフの処理後処理に機械学習によって強化されたコールグラフプルーニングを提案している。 ランダムな森林分類器で使用する構造的特徴を抽出することにより、コールグラフから情報を取得する機械学習モデルを構築する。 その後、偽陽性と予測されるエッジを除去する。 機械学習モデルによって示された改善にもかかわらず、ソースコードの意味を考慮せず、しばしば真と偽の正を効果的に区別できないため、まだ制限されている。 本稿では,統計的意味論と構造分析の両方を通じて,コールグラフの誤陽性を解消する新しいコールグラフプルーニング手法であるautoprunerを提案する。 従来の静的解析ツールで構築されたコールグラフが与えられると、autoprunerはトランスフォーマーベースのアプローチを採用して、コールグラフの各エッジに関連付けられた呼び出し元と呼び出し元関数間の意味関係をキャプチャする。 そのためにautoprunerは、大きなコーパスで事前トレーニングされたコードのモデルを微調整して、そのセマンティクスの説明に基づいてソースコードを表現する。 次に、モデルを使用して、呼び出しグラフの各エッジに関連する関数から意味的特徴を抽出する。 autoprunerはこれらのセマンティック機能をコールグラフから抽出した構造的特徴と合わせて、フィードフォワードニューラルネットワークを介して各エッジを分類する。 実世界のプログラムのベンチマークデータセットを用いた実証評価では、AutoPrunerは最先端のベースラインよりも優れており、静的コールグラフにおける偽陽性エッジの識別において最大13%向上している。

Constructing a static call graph requires trade-offs between soundness and precision. Program analysis techniques for constructing call graphs are unfortunately usually imprecise. To address this problem, researchers have recently proposed call graph pruning empowered by machine learning to post-process call graphs constructed by static analysis. A machine learning model is built to capture information from the call graph by extracting structural features for use in a random forest classifier. It then removes edges that are predicted to be false positives. Despite the improvements shown by machine learning models, they are still limited as they do not consider the source code semantics and thus often are not able to effectively distinguish true and false positives. In this paper, we present a novel call graph pruning technique, AutoPruner, for eliminating false positives in call graphs via both statistical semantic and structural analysis. Given a call graph constructed by traditional static analysis tools, AutoPruner takes a Transformer-based approach to capture the semantic relationships between the caller and callee functions associated with each edge in the call graph. To do so, AutoPruner fine-tunes a model of code that was pre-trained on a large corpus to represent source code based on descriptions of its semantics. Next, the model is used to extract semantic features from the functions related to each edge in the call graph. AutoPruner uses these semantic features together with the structural features extracted from the call graph to classify each edge via a feed-forward neural network. Our empirical evaluation on a benchmark dataset of real-world programs shows that AutoPruner outperforms the state-of-the-art baselines, improving on F-measure by up to 13% in identifying false-positive edges in a static call graph.
翻訳日:2022-09-08 12:56:26 公開日:2022-09-07
# reactmine:時系列データから化学反応ネットワークを推定する探索アルゴリズム

Reactmine: a search algorithm for inferring chemical reaction networks from time series data ( http://arxiv.org/abs/2209.03185v1 )

ライセンス: Link先を確認
Julien Martinelli, Jeremy Grignard (IRS), Sylvain Soliman, Annabelle Ballesta, Fran\c{c}ois Fages(参考訳) 時系列データから化学反応ネットワーク(CRN)を推定することは、細胞レベルでの定量的時間的データの増加によって促進される課題である。 これは、所定の生化学的過程で観察された分子種間のプレポンダラント反応を推測するアルゴリズムの設計を動機付け、crnモデルの構造と運動学を構築するのに役立つ。 SINDyのような既存のODEベースの推論手法は、最小二乗回帰に、Lassoのようなスパース性強化ペナル化と組み合わせる。 しかし、全ての反応が存在する野生の条件でのみ入力時系列が利用できる場合、現在の手法ではスパースモデルを学習できないことが観察される。 結果: CRN学習アルゴリズムであるReactmineは, 境界深さの探索木内で連続的に反応を推論し, 反応候補をそれらの速度のばらつきに応じてランク付けし, 最終パスにおけるCRNの運動パラメータを再最適化し, 予測されたCRN候補をランク付けすることで, 空間的疎結合性を向上させる。 まず、隠れたcrnのベンチマークとアルゴリズムによるハイパーパラメータの感度解析から得られたシミュレーションデータから、その性能をまず評価し、次に、細胞周期と概日時計マーカーのタンパク質蛍光ビデオ顕微鏡による2セットの実際の実験データと、周辺臓器の時計遺伝子発現に作用する可能性のある概日生物マーカーの生体医学的測定から評価した。 reactmineは、sindyが失敗した隠れcrnを検索することでシミュレーションデータに成功し、以前の研究と一致した反応を推論することで、2つの実際のデータセットに成功している。

Inferring chemical reaction networks (CRN) from time series data is a challenge encouraged by the growing availability of quantitative temporal data at the cellular level. This motivates the design of algorithms to infer the preponderant reactions between the molecular species observed in a given biochemical process, and help to build CRN model structure and kinetics. Existing ODE-based inference methods such as SINDy resort to least square regression combined with sparsity-enforcing penalization, such as Lasso. However, when the input time series are only available in wild type conditions in which all reactions are present, we observe that current methods fail to learn sparse models. Results: We present Reactmine, a CRN learning algorithm which enforces sparsity by inferring reactions in a sequential fashion within a search tree of bounded depth, ranking the inferred reaction candidates according to the variance of their kinetics, and re-optimizing the CRN kinetic parameters on the whole trace in a final pass to rank the inferred CRN candidates. We first evaluate its performance on simulation data from a benchmark of hidden CRNs, together with algorithmic hyperparameter sensitivity analyses, and then on two sets of real experimental data: one from protein fluorescence videomicroscopy of cell cycle and circadian clock markers, and one from biomedical measurements of systemic circadian biomarkers possibly acting on clock gene expression in peripheral organs. We show that Reactmine succeeds both on simulation data by retrieving hidden CRNs where SINDy fails, and on the two real datasets by inferring reactions in agreement with previous studies.
翻訳日:2022-09-08 12:55:55 公開日:2022-09-07
# 第三世界の学術研究管理者のための評価ツール

An Assessment Tool for Academic Research Managers in the Third World ( http://arxiv.org/abs/2209.03199v1 )

ライセンス: Link先を確認
Fernando Delbianco, Andres Fioriti, Fernando Tohm\'e(参考訳) 研究者の出版記録の学術的評価は、昇進と資金提供の有能な候補者を特定することに関係している。 このための重要なツールは、Web of ScienceとSCOPUSが提供するインデックスを使用することである。 ここでは、一方のベースにあるデータが、他方のメインインデックスを推測するためにどのように使用できるかを示す。 機械学習で使用されるデータ分析の方法は、データベース内の数百の変数のうち、わずか数個を選択できる。 SCOPUSの情報はWebから自由に取り除くことができるので、この手法は、世界中の研究評価で使われる主要な指標である出版物のインパクトファクターを自由に推測することができる。

The academic evaluation of the publication record of researchers is relevant for identifying talented candidates for promotion and funding. A key tool for this is the use of the indexes provided by Web of Science and SCOPUS, costly databases that sometimes exceed the possibilities of academic institutions in many parts of the world. We show here how the data in one of the bases can be used to infer the main index of the other one. Methods of data analysis used in Machine Learning allow us to select just a few of the hundreds of variables in a database, which later are used in a panel regression, yielding a good approximation to the main index in the other database. Since the information of SCOPUS can be freely scraped from the Web, this approach allows to infer for free the Impact Factor of publications, the main index used in research assessments around the globe.
翻訳日:2022-09-08 12:55:09 公開日:2022-09-07
# 少数民族の言語を話す国際移民がホスト国で新型コロナウイルス関連の情報を求める方法

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries ( http://arxiv.org/abs/2209.02903v1 )

ライセンス: Link先を確認
Ge Gao, Jian Zheng, Eun Kyoung Choe, and Naomi Yamashita(参考訳) 情報を求めることは、公衆危機の時に人々のセルフケアと幸福に不可欠である。 広範囲にわたる研究は、被災地域の国内市民による情報検索を促進するための経験的理解と技術的な解決策を調査してきた。 しかし、ホスト国の危機を乗り越えるために必要な国際移民を支援するために、限られた知識が確立されている。 本研究は,中国系移民(n=14)と米国(n=14)の2人のコホートによるインタビュー調査である。 参加者は新型コロナウイルスのパンデミックでの経験を求める情報を反映した。 このリフレクションは2週間の自己追跡によって補われ、参加者は新型コロナウイルス関連の情報収集の実践の記録を維持した。 我々のデータによると、参加者はしばしば言語障害や、宿主国での新型コロナウイルスの流行に関する情報を得るためにマンダリンの資源を訪れた。 また、マンダリン情報を戦略的に利用して、日本語や英語で選択的読解、クロスチェック、コンテキスト化された解釈を行った。 このような実践は、参加者の新型コロナウイルス関連情報収集やセンスメイキングの有効性を高める一方で、時には認識の方法によって不利益を招いた。 さらに、参加者は、ホスト国の公共当局が発行した移民指向の情報を閲覧する意識や好みを欠いていた。 これらの結果を踏まえて,海外移民の非母国語・文化環境における新型コロナ関連情報検索を改善するための解決策について検討した。 我々は,地域言語流動性,情報リテラシー,公共サービス活用経験の多種多様な階層の人々を対象とする包括的危機基盤を提唱した。

Information seeking is crucial for people's self-care and wellbeing in times of public crises. Extensive research has investigated empirical understandings as well as technical solutions to facilitate information seeking by domestic citizens of affected regions. However, limited knowledge is established to support international migrants who need to survive a crisis in their host countries. The current paper presents an interview study with two cohorts of Chinese migrants living in Japan (N=14) and the United States (N=14). Participants reflected on their information seeking experiences during the COVID pandemic. The reflection was supplemented by two weeks of self-tracking where participants maintained records of their COVIDrelated information seeking practice. Our data indicated that participants often took language detours, or visits to Mandarin resources for information about the COVID outbreak in their host countries. They also made strategic use of the Mandarin information to perform selective reading, cross-checking, and contextualized interpretation of COVID-related information in Japanese or English. While such practices enhanced participants' perceived effectiveness of COVID-related information gathering and sensemaking, they disadvantaged people through sometimes incognizant ways. Further, participants lacked the awareness or preference to review migrant-oriented information that was issued by the host country's public authorities despite its availability. Building upon these findings, we discussed solutions to improve international migrants' COVID-related information seeking in their non-native language and cultural environment. We advocated inclusive crisis infrastructures that would engage people with diverse levels of local language fluency, information literacy, and experience in leveraging public services.
翻訳日:2022-09-08 12:54:55 公開日:2022-09-07
# データ駆動レーダSTAPに向けて

Toward Data-Driven Radar STAP ( http://arxiv.org/abs/2209.02890v1 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 近年、レーダーを指向したサイト固有の高周波モデリングとシミュレーションツールの出現により、レーダーにおける古典的手法のデータ駆動型定式化は、過去10年間で急速に人気が高まっている。 この急上昇にもかかわらず、これらの古典的手法の理論的基礎に限定的な焦点が向けられている。 本研究では,レーダー時空間適応処理(stap)に対する現在進行中のデータ駆動アプローチの一環として,レーダ目標位置推定のための深層学習フレームワークを用いて,選択された部分空間分離手法の漸近的性能保証を解析し,解析を増強する。 そこで本研究では,ISL Inc が開発したサイト固有のRFモデリング・シミュレーションツールであるRFView を用いて,所定の制約領域に変動強度のターゲットをランダムに配置することにより,包括的データセットを生成する。 これらの制約領域からのレーダ戻り信号に対して、正規化適応整合フィルタ(NAMF)テスト統計における範囲、方位、高度及び一般化サイドローブキャンセラ(GSC)の出力パワーのヒートマップテンソルを生成する。 当社のディープラーニングフレームワークを使用して、これらのヒートマップテンソルからターゲット位置を推定し、マッチングとミスマッチ設定におけるデータ駆動アプローチによる実現可能性と大幅な改善を実証します。

Catalyzed by the recent emergence of site-specific, high-fidelity radio frequency (RF) modeling and simulation tools purposed for radar, data-driven formulations of classical methods in radar have rapidly grown in popularity over the past decade. Despite this surge, limited focus has been directed toward the theoretical foundations of these classical methods. In this regard, as part of our ongoing data-driven approach to radar space-time adaptive processing (STAP), we analyze the asymptotic performance guarantees of select subspace separation methods in the context of radar target localization, and augment this analysis through a proposed deep learning framework for target location estimation. In our approach, we generate comprehensive datasets by randomly placing targets of variable strengths in predetermined constrained areas using RFView, a site-specific RF modeling and simulation tool developed by ISL Inc. For each radar return signal from these constrained areas, we generate heatmap tensors in range, azimuth, and elevation of the normalized adaptive matched filter (NAMF) test statistic, and of the output power of a generalized sidelobe canceller (GSC). Using our deep learning framework, we estimate target locations from these heatmap tensors to demonstrate the feasibility of and significant improvements provided by our data-driven approach in matched and mismatched settings.
翻訳日:2022-09-08 12:53:52 公開日:2022-09-07
# MRI超解像のための画像データ一貫性深層学習法

Magnitude-image based data-consistent deep learning method for MRI super resolution ( http://arxiv.org/abs/2209.02901v1 )

ライセンス: Link先を確認
Ziyan Lin, Zihao Chen(参考訳) 診断のための高分解能画像を作成するにはMRIが重要であるが,高分解能画像の取得には長い時間がかかる。 ディープラーニングに基づくMRI超解法は、複雑なシーケンスプログラミングなしでスキャン時間を短縮することができるが、トレーニングデータとテストデータとの相違により、さらなるアーティファクトを生成する可能性がある。 データ一貫性層はディープラーニングの結果を改善するが、生のk空間データを必要とする。 そこで本研究では,k-spaceデータを必要としない高解像度画像の品質向上のために,大容量データ一貫性の深層学習MRI超解法を提案する。 提案手法は,データ一貫性モジュールを使わずに同じ畳み込みニューラルネットワーク(CNN)ブロックに対して,超解像のNAMSEとSSIMを改善することができることを示す。

Magnetic Resonance Imaging (MRI) is important in clinic to produce high resolution images for diagnosis, but its acquisition time is long for high resolution images. Deep learning based MRI super resolution methods can reduce scan time without complicated sequence programming, but may create additional artifacts due to the discrepancy between training data and testing data. Data consistency layer can improve the deep learning results but needs raw k-space data. In this work, we propose a magnitude-image based data consistency deep learning MRI super resolution method to improve super resolution images' quality without raw k-space data. Our experiments show that the proposed method can improve NRMSE and SSIM of super resolution images compared to the same Convolutional Neural Network (CNN) block without data consistency module.
翻訳日:2022-09-08 12:53:13 公開日:2022-09-07
# 言語に基づくサブグループ間のグローバルチームミーティングの実現: 機械翻訳はいつどのように役立つのか?

Facilitating Global Team Meetings Between Language-Based Subgroups: When and How Can Machine Translation Help? ( http://arxiv.org/abs/2209.02906v1 )

ライセンス: Link先を確認
Yongle Zhang, Dennis Asamoah Owusu, Marine Carpuat, Ge Gao(参考訳) グローバルチームはしばしば、共通目標を達成するために補完的な情報をまとめる言語ベースのサブグループで構成される。 以前の調査では、これらのチームにおける2段階のワークコミュニケーションフローについて概説している。 必要な共通言語(つまり英語)を使用したチームミーティングがあります。これらのミーティングに備えて、人々はネイティブ言語でサブグループ会話を行います。 チームミーティングでの作業コミュニケーションは、サブグループの会話よりも効果が低いことが多い。 本研究では,機械翻訳(MT)を活用した世界規模のチームミーティングの促進について検討する。 チームミーティングの前にサブグループの会話ログを交換することは、ミーティングでチームワークに役立つコンテキスト情報を提供する、と仮定します。 MTはこれらのログを変換することができ、低コストで理解することができる。 仮説を検証するために,20人の被験者が人事選択タスクを遂行する対象間実験を行った。 各クォーテットには2つの英語母語話者(NS)と2つの非母語話者(NNS)が含まれ、その母語はマンダリンであった。 すべての参加者は、ネイティブ言語のサブグループ会話からタスクを開始し、その後、英語でチームミーティングに進みました。 私たちは、チームミーティングの前にサブグループ会話ログの交換を操作しました。 参加者の主観的経験,課題パフォーマンス,会話深度の分析から,MTを介する会話ログの交換を行う場合のチームミーティングの質が向上し,交換は不要であることが示唆された。 私たちは、言語障壁を越えてグローバルなチームワークを強化するためにMTをいつ、どのように適用できるかを振り返って結論付けました。

Global teams frequently consist of language-based subgroups who put together complementary information to achieve common goals. Previous research outlines a two-step work communication flow in these teams. There are team meetings using a required common language (i.e., English); in preparation for those meetings, people have subgroup conversations in their native languages. Work communication at team meetings is often less effective than in subgroup conversations. In the current study, we investigate the idea of leveraging machine translation (MT) to facilitate global team meetings. We hypothesize that exchanging subgroup conversation logs before a team meeting offers contextual information that benefits teamwork at the meeting. MT can translate these logs, which enables comprehension at a low cost. To test our hypothesis, we conducted a between-subjects experiment where twenty quartets of participants performed a personnel selection task. Each quartet included two English native speakers (NS) and two non-native speakers (NNS) whose native language was Mandarin. All participants began the task with subgroup conversations in their native languages, then proceeded to team meetings in English. We manipulated the exchange of subgroup conversation logs prior to team meetings: with MT-mediated exchanges versus without. Analysis of participants' subjective experience, task performance, and depth of discussions as reflected through their conversational moves jointly indicates that team meeting quality improved when there were MT-mediated exchanges of subgroup conversation logs as opposed to no exchanges. We conclude with reflections on when and how MT could be applied to enhance global teamwork across a language barrier.
翻訳日:2022-09-08 12:49:58 公開日:2022-09-07
# VGStore: RDF Scene GraphのクエリのためのSPARQLのマルチモーダル拡張

VGStore: A Multimodal Extension to SPARQL for Querying RDF Scene Graph ( http://arxiv.org/abs/2209.02981v1 )

ライセンス: Link先を確認
Yanzeng Li, Zilong Zheng, Wenjuan Han, Lei Zou(参考訳) セマンティックweb技術は、リッチなデータ表現メソッドで多くのrdfモデルをうまく支援した。 また、マルチモーダルなシーングラフのようなマルチモーダルな知識ベースを表現および保存する能力を持つ。 しかしながら、既存のほとんどのクエリ言語、特にSPARQLは、セマンティックな類似性や空間的関係といった暗黙的なマルチモーダル関係をほとんど探求していません。 RDFグラフデータベースに大規模なシーングラフデータセット、すなわちVisual Genomeを組み込むことで、この問題を最初に検討した。 提案するrdfストアドマルチモーダルシーングラフに基づいて,sparqlクエリを拡張して,色や空間などに関する関係推論を含む質問に答えた。 さらなるデモ(VGStore)では、クエリのカスタマイズとマルチモーダルデータの表示の有効性が示されている。

Semantic Web technology has successfully facilitated many RDF models with rich data representation methods. It also has the potential ability to represent and store multimodal knowledge bases such as multimodal scene graphs. However, most existing query languages, especially SPARQL, barely explore the implicit multimodal relationships like semantic similarity, spatial relations, etc. We first explored this issue by organizing a large-scale scene graph dataset, namely Visual Genome, in the RDF graph database. Based on the proposed RDF-stored multimodal scene graph, we extended SPARQL queries to answer questions containing relational reasoning about color, spatial, etc. Further demo (i.e., VGStore) shows the effectiveness of customized queries and displaying multimodal data.
翻訳日:2022-09-08 12:49:34 公開日:2022-09-07
# 機械生成言語における透かしの倫理的ニーズ

The Ethical Need for Watermarks in Machine-Generated Language ( http://arxiv.org/abs/2209.03118v1 )

ライセンス: Link先を確認
Alexei Grinbaum and Laurynas Adomaitis(参考訳) ヒューマンテキストとマシン生成テキストの区別を維持するために、aiシステムの自然言語出力にウォーターマークを導入する必要がある。 この区別を曖昧にしない倫理的衝動は、大きな言語モデルの非現実的な性質と、マシン上の人間の感情的および認知的状態の予測から生じ、おそらくは操作、偽りの拡散、あるいは感情的苦痛を引き起こす。 この区別を強制するには邪魔にならないが容易にアクセスできる機械の原点が必要である。 等価な文字列に基づくコードの実装を提案する。 人間が書いたテキストにはそのようなコードは存在しないが、機械が生成したものには倫理的理由がある。

Watermarks should be introduced in the natural language outputs of AI systems in order to maintain the distinction between human and machine-generated text. The ethical imperative to not blur this distinction arises from the asemantic nature of large language models and from human projections of emotional and cognitive states on machines, possibly leading to manipulation, spreading falsehoods or emotional distress. Enforcing this distinction requires unintrusive, yet easily accessible marks of the machine origin. We propose to implement a code based on equidistant letter sequences. While no such code exists in human-written texts, its appearance in machine-generated ones would prove helpful for ethical reasons.
翻訳日:2022-09-08 12:49:21 公開日:2022-09-07
# DisCoCatを用いたマルチクラスQ-NLP感情分析実験

A multiclass Q-NLP sentiment analysis experiment using DisCoCat ( http://arxiv.org/abs/2209.03152v1 )

ライセンス: Link先を確認
Victor Martinez, Guilhaume Leroy-Meline(参考訳) 感性分析は自然言語処理(NLP)の一分野であり、感情や感情を特定の文や単語に割り当てることが目的である。 このタスクを実行することは、チャットボットや動詞による顧客のフィードバックを考慮に入れたい企業にとって特に有用だ。 これは、単純なモデルからディープトランスフォーマーニューラルネットワークまで、さまざまなアプローチを用いた文献で広く行われている。 本稿では,Nuisy Intermediate Scale Computing (NISQ) 時代の感情分析に,DisCoCat の言語モデルを用いて取り組む。 まず量子コンピューティングの基礎とDisCoCatモデルを示す。 これにより、量子コンピュータ上でNLPタスクを実行するための一般的なフレームワークを定義することができる。 次に、Lorenzら(2021)が行った2クラス分類を、はるかに大きなデータセット上で4クラスの感情分析実験に拡張し、そのようなフレームワークのスケーラビリティを示す。

Sentiment analysis is a branch of Natural Language Processing (NLP) which goal is to assign sentiments or emotions to particular sentences or words. Performing this task is particularly useful for companies wishing to take into account customer feedback through chatbots or verbatim. This has been done extensively in the literature using various approaches, ranging from simple models to deep transformer neural networks. In this paper, we will tackle sentiment analysis in the Noisy Intermediate Scale Computing (NISQ) era, using the DisCoCat model of language. We will first present the basics of quantum computing and the DisCoCat model. This will enable us to define a general framework to perform NLP tasks on a quantum computer. We will then extend the two-class classification that was performed by Lorenz et al. (2021) to a four-class sentiment analysis experiment on a much larger dataset, showing the scalability of such a framework.
翻訳日:2022-09-08 12:49:10 公開日:2022-09-07
# flow straight and fast: 正規化フローによるデータ生成と転送の学習

Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow ( http://arxiv.org/abs/2209.03003v1 )

ライセンス: Link先を確認
Xingchao Liu, Chengyue Gong, Qiang Liu(参考訳) 本稿では,経験的に観測された2つの分布 \pi_0 と \pi_1 の間の移動を学習する(神経)常微分方程式 (ode) モデルに対する驚くほど単純な手法である整流フローを提案する。 整流の考え方は、ODE が \pi_0 と \pi_1 から引き出された点をできるだけ接続する直線経路を学習することである。 これは、単純な非線形最小二乗最適化問題を解くことで実現され、標準教師付き学習を超える余分なパラメータを導入することなく、大規模モデルに容易に拡張できる。 ストレートパスは2点間の最短経路であるため特別な経路であり、時間的離散化なしに正確にシミュレートできるため、計算効率の良いモデルとなる。 整流と呼ばれるデータから整流流を学習する過程は, 任意の結合である \pi_0 と \pi_1 を, 確実に増大する凸輸送コストとの新しい決定論的結合に変換する。 さらに,再帰的再帰的整流化により,逐次的に直線化が進む流れ列を得ることができ,推定位相の粗い時間離散化と正確にシミュレーションできる。 本研究では,画像生成や画像から画像への変換,ドメイン適応などにおいて,整流の流れが極めて重要であることを示す。 特に,画像生成と翻訳では,1つのオイラー離散化ステップでも高品質な結果が得られるようなほぼ直線的な流れが得られる。

We present rectified flow, a surprisingly simple approach to learning (neural) ordinary differential equation (ODE) models to transport between two empirically observed distributions \pi_0 and \pi_1, hence providing a unified solution to generative modeling and domain transfer, among various other tasks involving distribution transport. The idea of rectified flow is to learn the ODE to follow the straight paths connecting the points drawn from \pi_0 and \pi_1 as much as possible. This is achieved by solving a straightforward nonlinear least squares optimization problem, which can be easily scaled to large models without introducing extra parameters beyond standard supervised learning. The straight paths are special and preferred because they are the shortest paths between two points, and can be simulated exactly without time discretization and hence yield computationally efficient models. We show that the procedure of learning a rectified flow from data, called rectification, turns an arbitrary coupling of \pi_0 and \pi_1 to a new deterministic coupling with provably non-increasing convex transport costs. In addition, recursively applying rectification allows us to obtain a sequence of flows with increasingly straight paths, which can be simulated accurately with coarse time discretization in the inference phase. In empirical studies, we show that rectified flow performs superbly on image generation, image-to-image translation, and domain adaptation. In particular, on image generation and translation, our method yields nearly straight flows that give high quality results even with a single Euler discretization step.
翻訳日:2022-09-08 12:48:53 公開日:2022-09-07
# マルチモーダル変分オートエンコーダのベンチマーク:GeBiDデータセットとツールキット

Benchmarking Multimodal Variational Autoencoders: GeBiD Dataset and Toolkit ( http://arxiv.org/abs/2209.03048v1 )

ライセンス: Link先を確認
Gabriela Sejnova, Michal Vavrecka, Karla Stepanova(参考訳) マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを結合表現に統合し、データ分類と生成の両方のための有望なツールとして機能できるため、過去数年間で激しい研究の対象となっている。 マルチモーダルVAE学習へのいくつかのアプローチが提案されているが、その比較と評価は相容れない。 1つの理由は、モデルが実装レベルで異なるため、もう1つの問題は、これらのケースで一般的に使用されるデータセットが、当初マルチモーダル生成モデルの評価のために設計されていなかったことである。 本論文は、どちらの問題にも対処する。 まず,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。 第2に,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした合成バイモーダルデータセットを提案する。 最先端モデルを比較することにより,データセットの有用性を実証する。

Multimodal Variational Autoencoders (VAEs) have been a subject of intense research in the past years as they can integrate multiple modalities into a joint representation and can thus serve as a promising tool for both data classification and generation. Several approaches toward multimodal VAE learning have been proposed so far, their comparison and evaluation have however been rather inconsistent. One reason is that the models differ at the implementation level, another problem is that the datasets commonly used in these cases were not initially designed for the evaluation of multimodal generative models. This paper addresses both mentioned issues. First, we propose a toolkit for systematic multimodal VAE training and comparison. Second, we present a synthetic bimodal dataset designed for a comprehensive evaluation of the joint generation and cross-generation capabilities. We demonstrate the utility of the dataset by comparing state-of-the-art models.
翻訳日:2022-09-08 12:48:24 公開日:2022-09-07
# モジュール型フェデレーション学習

Modular Federated Learning ( http://arxiv.org/abs/2209.03090v1 )

ライセンス: Link先を確認
Kuo-Yun Liang, Abhishek Srinivasan, Juan Carlos Andresen(参考訳) フェデレーション学習(federated learning)は、エッジデバイスが生成する大量のデータをストリーミングし、集中的に保存できないという新たな問題と、データのプライバシの懸念から、データの生成場所を可能な限り近づけて、ネットワークのエッジ上でマシンラーニングモデルをトレーニングするアプローチである。 この学習パラダイムは、不均一性とデータ不均一性を示す堅牢なアルゴリズムを必要とする。 本稿では,モデルをコンフィグレーションモジュールと個別モジュールのフェデレーション学習を可能にするオペレーションモジュールに分割するフェデレーション学習フレームワークとしてmodflを提案する。 このモジュラーアプローチにより、ヘテロジニアスデバイス群と、そのユーザから生成された非IIDデータからノウレゲを抽出することができる。 このアプローチは、データの多様性に対処するパーソナライズ層federフレームワークによるフェデレーション学習の拡張と見なすことができる。 ModFLはCNNを用いてCIFAR-10とSTL-10の非IIDデータパーティションに対してFedPerより優れていることを示す。 RNNを用いたHAPT, RWHAR, WISDMデータセットを用いた時系列データの結果は決定的ではなく, 選択したデータセットはModFLの利点を強調しないが, 最悪の場合, FedPerと同様に動作する。

Federated learning is an approach to train machine learning models on the edge of the networks, as close as possible where the data is produced, motivated by the emerging problem of the inability to stream and centrally store the large amount of data produced by edge devices as well as by data privacy concerns. This learning paradigm is in need of robust algorithms to device heterogeneity and data heterogeneity. This paper proposes ModFL as a federated learning framework that splits the models into a configuration module and an operation module enabling federated learning of the individual modules. This modular approach makes it possible to extract knowlege from a group of heterogeneous devices as well as from non-IID data produced from its users. This approach can be viewed as an extension of the federated learning with personalisation layers FedPer framework that addresses data heterogeneity. We show that ModFL outperforms FedPer for non-IID data partitions of CIFAR-10 and STL-10 using CNNs. Our results on time-series data with HAPT, RWHAR, and WISDM datasets using RNNs remain inconclusive, we argue that the chosen datasets do not highlight the advantages of ModFL, but in the worst case scenario it performs as well as FedPer.
翻訳日:2022-09-08 12:48:09 公開日:2022-09-07
# 高速一般化のための概念変調モデルに基づくオフライン強化学習

Concept-modulated model-based offline reinforcement learning for rapid generalization ( http://arxiv.org/abs/2209.03207v1 )

ライセンス: Link先を確認
Nicholas A. Ketz, Praveen K. Pilly(参考訳) 機械学習ソリューションのロバスト性は、トレーニングされたデータによって基本的に拘束される。 オリジナルのトレーニングを超えて一般化する1つの方法は、オリジナルのデータセットの人為的な拡張によるものであるが、デプロイメント中に起こりうるすべての障害ケースを特定することは不可能である。 この制限に対処するために,モデルベース強化学習法とモデル解釈可能性法を組み合わせて,環境概念や非教師なしで学習したダイナミクスに制約されたシミュレーションシナリオを自己生成する解を提案する。 特に、エージェントの環境の内部モデルは、エージェントの動作に敏感な入力空間の低次元概念表現に条件付けされる。 そこで本研究では,特定の故障事例の異なるインスタンスに対するワンショット一般化や,モデルベースやモデルフリーのアプローチと比較して,同様のバリエーションに対するゼロショット一般化が劇的に改善されていることを示す。

The robustness of any machine learning solution is fundamentally bound by the data it was trained on. One way to generalize beyond the original training is through human-informed augmentation of the original dataset; however, it is impossible to specify all possible failure cases that can occur during deployment. To address this limitation we combine model-based reinforcement learning and model-interpretability methods to propose a solution that self-generates simulated scenarios constrained by environmental concepts and dynamics learned in an unsupervised manner. In particular, an internal model of the agent's environment is conditioned on low-dimensional concept representations of the input space that are sensitive to the agent's actions. We demonstrate this method within a standard realistic driving simulator in a simple point-to-point navigation task, where we show dramatic improvements in one-shot generalization to different instances of specified failure cases as well as zero-shot generalization to similar variations compared to model-based and model-free approaches.
翻訳日:2022-09-08 12:47:26 公開日:2022-09-07
# 機械学習におけるアレタリックおよびエピステミック不確かさの定量化:条件付きエントロピーと相互情報適切な対策か?

Quantifying Aleatoric and Epistemic Uncertainty in Machine Learning: Are Conditional Entropy and Mutual Information Appropriate Measures? ( http://arxiv.org/abs/2209.03302v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier(参考訳) 本稿は,最近機械学習において提案され,それ以来非常に一般的になっている,条件付きエントロピーおよび相互情報の観点からのアレータリックおよびてんかんの不確実性の定量化に関する批判的議論である。 より一般的には、全不確かさの加法分解をアレクター成分と認識成分に分解するという考え方に疑問を呈する。

This short note is a critical discussion of the quantification of aleatoric and epistemic uncertainty in terms of conditional entropy and mutual information, respectively, which has recently been proposed in machine learning and has become quite common since then. More generally, we question the idea of an additive decomposition of total uncertainty into its aleatoric and epistemic constituents.
翻訳日:2022-09-08 12:47:09 公開日:2022-09-07
# msmdfusion: 3次元物体検出のためのマルチディテールシードを用いたlidarとカメラの多機能化

MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection ( http://arxiv.org/abs/2209.03102v1 )

ライセンス: Link先を確認
Yang Jiao, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Xiaolin Wei, Lin Ma, Yu-Gang Jiang(参考訳) lidarとカメラ情報の融合は、自動運転システムにおける高精度で信頼性の高い3dオブジェクト検出を実現するために不可欠である。 しかし、多粒度幾何学的特徴と意味的特徴を組み合わせることが困難であることから、これは困難である。 最近のアプローチは、2次元カメラ画像(種として参照)の3次元空間へのリフトポイントによるカメラ特徴の意味的密度の探索を目的としており、大まかに分けることができる。 1)初期入力段階における3dポイントクラウドの強化を目的とした原点の早期融合,及び 2)検出ヘッドの前にLiDARとカメラのBEV機能を融合したBEVマップ(バードアイビュー)の後期融合を行った。 両者は組み合わせた特徴の表現力を増強するメリットがあるが、この単一レベルの融合戦略は上記の課題に対する準最適解である。 彼らの大きな欠点は、2つの異なるモダリティから多粒性意味的特徴を十分に相互作用できないことである。 そこで本研究では,マルチグラニュラリティLiDARとカメラ機能とのマルチスケール・プログレッシブインタラクションに着目した新しいフレームワークを提案する。 提案手法はMDMSFusionと略して3Dオブジェクト検出の最先端化を実現し,nuScenes検証セットでは69.1 mAP,71.8 NDS,nuScenesテストセットでは73.2 NDS,それぞれ1位と2位にランク付けした。

Fusing LiDAR and camera information is essential for achieving accurate and reliable 3D object detection in autonomous driving systems. However, this is challenging due to the difficulty of combining multi-granularity geometric and semantic features from two drastically different modalities. Recent approaches aim at exploring the semantic densities of camera features through lifting points in 2D camera images (referred to as seeds) into 3D space for fusion, and they can be roughly divided into 1) early fusion of raw points that aims at augmenting the 3D point cloud at the early input stage, and 2) late fusion of BEV (bird-eye view) maps that merges LiDAR and camera BEV features before the detection head. While both have their merits in enhancing the representation power of the combined features, this single-level fusion strategy is a suboptimal solution to the aforementioned challenge. Their major drawbacks are the inability to interact the multi-granularity semantic features from two distinct modalities sufficiently. To this end, we propose a novel framework that focuses on the multi-scale progressive interaction of the multi-granularity LiDAR and camera features. Our proposed method, abbreviated as MDMSFusion, achieves state-of-the-art results in 3D object detection, with 69.1 mAP and 71.8 NDS on nuScenes validation set, and 70.8 mAP and 73.2 NDS on nuScenes test set, which rank 1st and 2nd respectively among single-model non-ensemble approaches by the time of submission.
翻訳日:2022-09-08 12:44:37 公開日:2022-09-07
# 治療反応における腫瘍変化の高精度評価法

A New Method for the High-Precision Assessment of Tumor Changes in Response to Treatment ( http://arxiv.org/abs/2209.03116v1 )

ライセンス: Link先を確認
P. D. Tar, N. A. Thacker, J.P.B. O'Connor(参考訳) 画像は、前臨床腫瘍とヒト腫瘍が異種であることを示している。例えば、単一の腫瘍は正常な発達と治療に対する反応の両方において異なる行動を示す複数の領域を示すことができる。 コントロール群腫瘍で観察される大きな変異は,変化の原因の曖昧さによる重要な治療効果の発見を阻害する可能性がある。 これは、治療の失敗ではなく、実験設計の限界のために効果的な治療法の開発を妨げる可能性がある。 画像信号の生物学的変動と多様性をモデル化する改良手法について述べる。 特に,Linear Poisson modelling (LPM) は, 放射線治療前および72時間後に, 2種類の大腸癌異種移植モデルにおいて, 明らかな拡散係数(ADC)の変化を評価する。 測定された変化の統計的意義を従来のadc分布パラメータのtテスト解析を用いて比較した。 LPMが腫瘍治療に応用された際, LPMは極めて有意な変化を認めた。 その結果,従来の方法に比べて4倍のパワー(試料サイズが16倍大きい場合と同程度)が得られた。 対照的に、非常に大きな変化は、t-testsを用いてコホートレベルでのみ検出され、パーソナライズド医療における潜在的な使用を制限し、テストに必要な動物の数を増やす。 さらにLPMは, 各Xenograftモデルに対して, 反応および非応答組織の相対体積を推定可能とした。 キセノグラフトを抜去し, 品質管理を行い, 臨床検体サイズでのLPMデータの信頼性を高めた。

Imaging demonstrates that preclinical and human tumors are heterogeneous, i.e. a single tumor can exhibit multiple regions that behave differently during both normal development and also in response to treatment. The large variations observed in control group tumors can obscure detection of significant therapeutic effects due to the ambiguity in attributing causes of change. This can hinder development of effective therapies due to limitations in experimental design, rather than due to therapeutic failure. An improved method to model biological variation and heterogeneity in imaging signals is described. Specifically, Linear Poisson modelling (LPM) evaluates changes in apparent diffusion co-efficient (ADC) before and 72 hours after radiotherapy, in two xenograft models of colorectal cancer. The statistical significance of measured changes are compared to those attainable using a conventional t-test analysis on basic ADC distribution parameters. When LPMs were applied to treated tumors, the LPMs detected highly significant changes. The analyses were significant for all tumors, equating to a gain in power of 4 fold (i.e. equivelent to having a sample size 16 times larger), compared with the conventional approach. In contrast, highly significant changes are only detected at a cohort level using t-tests, restricting their potential use within personalised medicine and increasing the number of animals required during testing. Furthermore, LPM enabled the relative volumes of responding and non-responding tissue to be estimated for each xenograft model. Leave-one-out analysis of the treated xenografts provided quality control and identified potential outliers, raising confidence in LPM data at clinically relevant sample sizes.
翻訳日:2022-09-08 12:44:07 公開日:2022-09-07
# AI Illustrator: Promptベースのクロスモーダルジェネレーションによる生記述を画像に変換する

AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation ( http://arxiv.org/abs/2209.03160v1 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Bei Liu, Jianlong Fu, Jiaying Liu(参考訳) AIイラストレーターは、書籍の視覚的に魅力的なイメージを自動的に設計し、豊かな思考や感情を引き起こすことを目的としている。 この目的を達成するために,複雑な意味論を持つ生記述を意味的に対応する画像に変換するフレームワークを提案する。 主な課題は、生の記述の意味論の複雑さであり、可視化することは困難である(\textit{e})。 \textit{g}。 グルーミー (gloomy) またはアジア (Asian) の略。 通常、そのような記述を扱う既存のメソッドには課題が生じる。 この問題を解決するために、CLIPとStyleGANを含む2つの強力な事前学習モデルを活用するために、 \textbf{P}rompt-based \textbf{C}ross-\textbf{M}odal Generation \textbf{Frame}work (PCM-Frame)を提案する。 プロンプトに基づく\textit{text embedded}sから \textit{image embedded}sへのプロジェクションモジュールと、\textit{image embedded}sを入力として使用し、意味的一貫性の損失を組み合わせることによってトレーニングされるstylegan上に構築されたイメージ生成モジュールです。 リアルなイメージとイラストデザインのギャップを埋めるため、視覚効果を改善するためのフレームワークでは、ポストプロセッシングとしてスタイライゼーションモデルも採用しています。 本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。 さらに、200の生の記述からなるベンチマークを構築しました。 複雑なテキストの競合手法よりも優れていることを示すために,ユーザ調査を実施している。 https://github.com/researchmm/AI\_Illustrator}{https://github.com/researchmm/AI\_Illustratorでコードを公開しています。

AI illustrator aims to automatically design visually appealing images for books to provoke rich thoughts and emotions. To achieve this goal, we propose a framework for translating raw descriptions with complex semantics into semantically corresponding images. The main challenge lies in the complexity of the semantics of raw descriptions, which may be hard to be visualized (\textit{e}.\textit{g}., "gloomy" or "Asian"). It usually poses challenges for existing methods to handle such descriptions. To address this issue, we propose a \textbf{P}rompt-based \textbf{C}ross-\textbf{M}odal Generation \textbf{Frame}work (PCM-Frame) to leverage two powerful pre-trained models, including CLIP and StyleGAN. Our framework consists of two components: a projection module from \textit{Text Embedding}s to \textit{Image Embedding}s based on prompts, and an adapted image generation module built on StyleGAN which takes \textit{Image Embedding}s as inputs and is trained by combined semantic consistency losses. To bridge the gap between realistic images and illustration designs, we further adopt a stylization model as post-processing in our framework for better visual effects. Benefiting from the pre-trained models, our method can handle complex descriptions and does not require external paired data for training. Furthermore, we have built a benchmark that consists of 200 raw descriptions. We conduct a user study to demonstrate our superiority over the competing methods with complicated texts. We release our code at https://github.com/researchmm/AI\_Illustrator}{https://github.com/researchmm/AI\_Illustrator
翻訳日:2022-09-08 12:43:02 公開日:2022-09-07
# 幾何学的事前学習による3次元テクスチャ形状復元

3D Textured Shape Recovery with Learned Geometric Priors ( http://arxiv.org/abs/2209.03254v1 )

ライセンス: Link先を確認
Lei Li, Zhizheng Liu, Weining Ren, Liudi Yang, Fangjinhua Wang, Marc Pollefeys, Songyou Peng(参考訳) 部分スキャンによる3次元テクスチャ形状復元は,多くの実世界のアプリケーションにおいて不可欠である。 既存のアプローチでは暗黙的な関数表現の有効性が実証されているが、激しい閉塞を伴う部分的な入力や、さまざまなオブジェクトタイプに苦しめられている。 本技術報告では,これらの制約に,学習された幾何学的前提を取り入れたアプローチを提案する。 この目的のために、学習したポーズ予測からSMPLモデルを生成し、それを部分的な入力に融合して人体の事前知識を追加する。 また,異なるレベルのスケールと部分スキャンの部分性を扱うための,新しい完全性認識境界ボックス適応を提案する。

3D textured shape recovery from partial scans is crucial for many real-world applications. Existing approaches have demonstrated the efficacy of implicit function representation, but they suffer from partial inputs with severe occlusions and varying object types, which greatly hinders their application value in the real world. This technical report presents our approach to address these limitations by incorporating learned geometric priors. To this end, we generate a SMPL model from learned pose prediction and fuse it into the partial input to add prior knowledge of human bodies. We also propose a novel completeness-aware bounding box adaptation for handling different levels of scales and partialness of partial scans.
翻訳日:2022-09-08 12:42:29 公開日:2022-09-07
# 量子化逆探索による教師なし表現の解釈可能性の測定

Measuring the Interpretability of Unsupervised Representations via Quantized Reverse Probing ( http://arxiv.org/abs/2209.03268v1 )

ライセンス: Link先を確認
Iro Laina, Yuki M. Asano, Andrea Vedaldi(参考訳) 自己監督型視覚表現学習は近年、大きな研究関心を集めている。 自己教師付き表現を評価する一般的な方法は、様々な下流タスクに転送することであるが、その代わりに、それらの解釈可能性、すなわち生表現で符号化された意味論を理解する問題を調べる。 後者を表現と手作業でラベルづけされた概念の空間の間の相互情報の推定として定式化する。 情報は単純な予測者によってキャプチャされなければならず、概念を表現空間のクラスタにマッピングする必要がある。 このアプローチは逆線形プローブと呼ばれ、表現の意味性に敏感な単一の数を提供する。 この尺度はまた、表現が個々の属性("red" と "apple" )を独立に含むのではなく、概念の組み合わせ("red apple" など)を含むことを検出できる。 最後に、教師付き分類器を用いて大規模なデータセットを自動的にラベル付けし、探索に使用する概念の空間を強化することを提案する。 提案手法は,多数の自己教師型表現の評価,解釈可能性による評価,線形プローブを用いた標準評価と比較して出現する相違点の強調,質的な考察を行う。 コード at: {\scriptsize{\url{https://github.com/iro-cp/ssl-qrp}}}。

Self-supervised visual representation learning has recently attracted significant research interest. While a common way to evaluate self-supervised representations is through transfer to various downstream tasks, we instead investigate the problem of measuring their interpretability, i.e. understanding the semantics encoded in raw representations. We formulate the latter as estimating the mutual information between the representation and a space of manually labelled concepts. To quantify this we introduce a decoding bottleneck: information must be captured by simple predictors, mapping concepts to clusters in representation space. This approach, which we call reverse linear probing, provides a single number sensitive to the semanticity of the representation. This measure is also able to detect when the representation contains combinations of concepts (e.g., "red apple") instead of just individual attributes ("red" and "apple" independently). Finally, we propose to use supervised classifiers to automatically label large datasets in order to enrich the space of concepts used for probing. We use our method to evaluate a large number of self-supervised representations, ranking them by interpretability, highlight the differences that emerge compared to the standard evaluation with linear probes and discuss several qualitative insights. Code at: {\scriptsize{\url{https://github.com/iro-cp/ssl-qrp}}}.
翻訳日:2022-09-08 12:42:17 公開日:2022-09-07
# コンピュータ画像検出のための深部テクスチャと高周波特性の合同学習

Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection ( http://arxiv.org/abs/2209.03322v1 )

ライセンス: Link先を確認
Qiang Xu, Shan Jia, Xinghao Jiang, Tanfeng Sun, Zhe Wang, Hong Yan(参考訳) コンピュータ生成画像(CG)と自然写真画像(PG)の識別は,デジタル画像の真正性や独創性を検証する上で非常に重要である。 しかし,近年の切削刃生成法ではcg画像の高品質な合成が可能となり,課題がさらに複雑になった。 この問題に対処するために,CG画像検出のための深いテクスチャと高周波特徴を用いた共同学習戦略を提案する。 まず,CG画像とPG画像の異なる取得過程を定式化し,より深く解析する。 画像取得における複数の異なるモジュールが、画像の畳み込みニューラルネットワーク(cnn)ベースのレンダリングと異なる感度の不整合をもたらすことを見出し、テクスチャ差分強調と識別テクスチャ表現のための深層テクスチャレンダリングモジュールを提案する。 具体的には、入力画像の異なる領域のテクスチャを復元するために使用されるアフィン変換操作を導くために意味セグメンテーションマップを生成する。 そして、オリジナル画像と、オリジナル画像およびレンダリング画像の高周波成分の組み合わせを、注目機構を備えたマルチブランチニューラルネットワークに供給し、中間的特徴を洗練し、それぞれ空間的及びチャネル的寸法のトレース探索を容易にする。 2つの公開データセットと、よりリアルで多様なイメージを持つ新しいデータセットに関する広範囲な実験により、提案手法がこの分野の既存の手法を明確なマージンで上回っていることが示されている。 さらに,提案手法による後処理操作やGAN(Generative Adversarial Network)生成画像に対するロバスト性や一般化性も示す。

Distinguishing between computer-generated (CG) and natural photographic (PG) images is of great importance to verify the authenticity and originality of digital images. However, the recent cutting-edge generation methods enable high qualities of synthesis in CG images, which makes this challenging task even trickier. To address this issue, a joint learning strategy with deep texture and high-frequency features for CG image detection is proposed. We first formulate and deeply analyze the different acquisition processes of CG and PG images. Based on the finding that multiple different modules in image acquisition will lead to different sensitivity inconsistencies to the convolutional neural network (CNN)-based rendering in images, we propose a deep texture rendering module for texture difference enhancement and discriminative texture representation. Specifically, the semantic segmentation map is generated to guide the affine transformation operation, which is used to recover the texture in different regions of the input image. Then, the combination of the original image and the high-frequency components of the original and rendered images are fed into a multi-branch neural network equipped with attention mechanisms, which refines intermediate features and facilitates trace exploration in spatial and channel dimensions respectively. Extensive experiments on two public datasets and a newly constructed dataset with more realistic and diverse images show that the proposed approach outperforms existing methods in the field by a clear margin. Besides, results also demonstrate the detection robustness and generalization ability of the proposed approach to postprocessing operations and generative adversarial network (GAN) generated images.
翻訳日:2022-09-08 12:41:55 公開日:2022-09-07
# 土壌分類のための視覚変換器

Visual Transformer for Soil Classification ( http://arxiv.org/abs/2209.02950v1 )

ライセンス: Link先を確認
Aaryan Jagetia, Umang Goenka, Priyadarshini Kumari, Mary Samuel(参考訳) 我々の食料安全保障は土壌の基礎の上に構築されている。 農夫は、土壌が健康でなければ、繊維、食料、燃料を我々に供給できないだろう。 土壌の種類を正確に予測することは、土壌の使用を計画し、生産性を高めるのに役立つ。 この研究は最先端のビジュアルトランスフォーマーを使用し、svm、alexnet、resnet、cnnといった異なるモデルと比較する。 さらに本研究は,視覚トランスフォーマーのアーキテクチャの違いにも焦点を当てている。 土壌タイプの分類では、データセットは沖積、赤、黒、粘土の4種類の土壌サンプルで構成されている。 Visual Transformerモデルは、トレーニングで98.13%、テスト中に93.62%の精度で他のモデルより優れている。 Visual Transformerの性能は他のモデルの性能を少なくとも2%以上上回る。 したがって、新しい視覚トランスフォーマーは、土壌分類を含むコンピュータビジョンタスクに使用できる。

Our food security is built on the foundation of soil. Farmers would be unable to feed us with fiber, food, and fuel if the soils were not healthy. Accurately predicting the type of soil helps in planning the usage of the soil and thus increasing productivity. This research employs state-of-the-art Visual Transformers and also compares performance with different models such as SVM, Alexnet, Resnet, and CNN. Furthermore, this study also focuses on differentiating different Visual Transformers architectures. For the classification of soil type, the dataset consists of 4 different types of soil samples such as alluvial, red, black, and clay. The Visual Transformer model outperforms other models in terms of both test and train accuracies by attaining 98.13% on training and 93.62% while testing. The performance of the Visual Transformer exceeds the performance of other models by at least 2%. Hence, the novel Visual Transformers can be used for Computer Vision tasks including Soil Classification.
翻訳日:2022-09-08 12:38:55 公開日:2022-09-07
# BiFuse++:360度深度推定のための自己監督的で効率的なバイジェクションフュージョン

BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360 Depth Estimation ( http://arxiv.org/abs/2209.02952v1 )

ライセンス: Link先を確認
Fu-En Wang, Yu-Hsuan Yeh, Yi-Hsuan Tsai, Wei-Chen Chiu, Min Sun(参考訳) 球面カメラの台頭により、単眼360度深度推定は多くの応用(例えば自律システム)において重要な技術となる。 そこで,BiFuseにおける複射核融合のような単眼360度深度推定のための最先端フレームワークを提案する。 このような枠組みを訓練するには、レーザーセンサーが捉えた奥行きの真理とともに大量のパノラマが必要であり、データ収集のコストを高くする。 さらに、このようなデータ収集手順は時間を要するため、これらのメソッドを異なるシーンに拡張するスケーラビリティが課題となる。 この目的のために、360度ビデオから単眼深度を推定するためのネットワークを自己学習することは、この問題を緩和する方法の一つだ。 しかし、バイプロジェクション融合を自己学習スキームに組み込む既存のフレームワークは存在せず、バイプロジェクション融合は異なるプロジェクションタイプからの情報を活用できるため、自己教師付きパフォーマンスを非常に制限している。 本稿では,バイジェクション融合と自己学習シナリオを組み合わせたBiFuse++を提案する。 具体的には,実世界の映像における自己学習の安定性を高めるために,新しい融合モジュールとコントラスト認識による測光損失を提案する。 我々は,ベンチマークデータセット上で教師あり,自己教師ありの実験を行い,最先端のパフォーマンスを実現する。

Due to the rise of spherical cameras, monocular 360 depth estimation becomes an important technique for many applications (e.g., autonomous systems). Thus, state-of-the-art frameworks for monocular 360 depth estimation such as bi-projection fusion in BiFuse are proposed. To train such a framework, a large number of panoramas along with the corresponding depth ground truths captured by laser sensors are required, which highly increases the cost of data collection. Moreover, since such a data collection procedure is time-consuming, the scalability of extending these methods to different scenes becomes a challenge. To this end, self-training a network for monocular depth estimation from 360 videos is one way to alleviate this issue. However, there are no existing frameworks that incorporate bi-projection fusion into the self-training scheme, which highly limits the self-supervised performance since bi-projection fusion can leverage information from different projection types. In this paper, we propose BiFuse++ to explore the combination of bi-projection fusion and the self-training scenario. To be specific, we propose a new fusion module and Contrast-Aware Photometric Loss to improve the performance of BiFuse and increase the stability of self-training on real-world videos. We conduct both supervised and self-supervised experiments on benchmark datasets and achieve state-of-the-art performance.
翻訳日:2022-09-08 12:38:41 公開日:2022-09-07
# 密度機関による半監督群集計数

Semi-supervised Crowd Counting via Density Agency ( http://arxiv.org/abs/2209.02955v1 )

ライセンス: Link先を確認
Hui Lin and Zhiheng Ma and Xiaopeng Hong and Yaowei Wang and Zhou Su(参考訳) 本稿では,新たなエージェント誘導型半教師付きカウント手法を提案する。 まず,学習可能な補助構造,すなわち,認識された前景の地域的特徴を対応する密度サブクラス(agents)に近づけ,背景情報を押し出すための密度エージェンシーを構築する。 第2に,backbone特徴抽出器を統合するために,密度誘導型コントラスト学習損失を提案する。 第3に,前景の機能を改良するためにトランス構造を用いて回帰ヘッドを構築する。 最後に、アノテーションノイズの負の影響を最小限に抑えるために、効率的なノイズ抑制損失を提供する。 4つの挑戦的群集計数データセットに対する大規模な実験により,本手法は最先端の半監督的計数手法よりも高い性能を得られた。 コードは利用可能。

In this paper, we propose a new agency-guided semi-supervised counting approach. First, we build a learnable auxiliary structure, namely the density agency to bring the recognized foreground regional features close to corresponding density sub-classes (agents) and push away background ones. Second, we propose a density-guided contrastive learning loss to consolidate the backbone feature extractor. Third, we build a regression head by using a transformer structure to refine the foreground features further. Finally, an efficient noise depression loss is provided to minimize the negative influence of annotation noises. Extensive experiments on four challenging crowd counting datasets demonstrate that our method achieves superior performance to the state-of-the-art semi-supervised counting methods by a large margin. Code is available.
翻訳日:2022-09-08 12:38:20 公開日:2022-09-07
# ハイブリッドラベルを用いた有能物体検出のための弱修正学習フレームワーク

A Weakly Supervised Learning Framework for Salient Object Detection via Hybrid Labels ( http://arxiv.org/abs/2209.02957v1 )

ライセンス: Link先を確認
Runmin Cong, Qi Qin, Chen Zhang, Qiuping Jiang, Shiqi Wang, Yao Zhao, and Sam Kwong(参考訳) 完全教師付きサルエントオブジェクト検出(sod)法は大きな進歩を遂げているが、そのような手法は時間消費と労働集約的な多数のピクセルレベルのアノテーションに依存することが多い。 本稿では,従来の非教師付き手法によって生成される多数の粗いラベルと少数の実ラベルを含む,ハイブリッドラベル下での新しい弱教師付きSODタスクに焦点を当てる。 このタスクにおけるラベルノイズと量不均衡の問題に対処するため,我々は,3つの高度なトレーニング戦略を備えた新しいパイプラインフレームワークを設計した。 モデルフレームワークでは,タスクをラベルリファインメント・サブタスクと有能なオブジェクト検出サブタスクに分離し,相互に協調し,交互に訓練する。 具体的には、R-NetはBlender with Guidance and Aggregation Mechanisms (BGA)を備えた2ストリームエンコーダデコーダモデルとして設計されており、より信頼性の高い擬似ラベルのために粗いラベルを修正することを目的としており、S-Netは現在のR-Netによって生成された擬似ラベルによって管理される置換可能なSODネットワークである。 ただし、テストにはトレーニング済みのS-Netのみを使用する必要があります。 さらに,ネットワークトレーニングの有効性と効率性を保証するため,代替反復機構,グループ毎インクリメンタル機構,信頼性検証機構を含む3つのトレーニング戦略を設計する。 5つのSODベンチマーク実験により,本手法は定性的・定量的に弱教師付き/非教師付き手法と競合する性能を示した。

Fully-supervised salient object detection (SOD) methods have made great progress, but such methods often rely on a large number of pixel-level annotations, which are time-consuming and labour-intensive. In this paper, we focus on a new weakly-supervised SOD task under hybrid labels, where the supervision labels include a large number of coarse labels generated by the traditional unsupervised method and a small number of real labels. To address the issues of label noise and quantity imbalance in this task, we design a new pipeline framework with three sophisticated training strategies. In terms of model framework, we decouple the task into label refinement sub-task and salient object detection sub-task, which cooperate with each other and train alternately. Specifically, the R-Net is designed as a two-stream encoder-decoder model equipped with Blender with Guidance and Aggregation Mechanisms (BGA), aiming to rectify the coarse labels for more reliable pseudo-labels, while the S-Net is a replaceable SOD network supervised by the pseudo labels generated by the current R-Net. Note that, we only need to use the trained S-Net for testing. Moreover, in order to guarantee the effectiveness and efficiency of network training, we design three training strategies, including alternate iteration mechanism, group-wise incremental mechanism, and credibility verification mechanism. Experiments on five SOD benchmarks show that our method achieves competitive performance against weakly-supervised/unsupervised methods both qualitatively and quantitatively.
翻訳日:2022-09-08 12:38:06 公開日:2022-09-07
# YOLOv6: 産業アプリケーションのための単一ステージオブジェクト検出フレームワーク

YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications ( http://arxiv.org/abs/2209.02976v1 )

ライセンス: Link先を確認
Chuyi Li, Lulu Li, Hongliang Jiang, Kaiheng Weng, Yifei Geng, Liang Li, Zaidan Ke, Qingyuan Li, Meng Cheng, Weiqiang Nie, Yiduo Li, Bo Zhang, Yufei Liang, Linyuan Zhou, Xiaoming Xu, Xiangxiang Chu, Xiaoming Wei, Xiaolin Wei(参考訳) 長年、YOLOシリーズは効率的なオブジェクト検出のための事実上の業界レベルの標準であった。 YOLOコミュニティは、多数のハードウェアプラットフォームと豊富なシナリオでの利用を豊かにするために、圧倒的に繁栄しています。 この技術レポートでは、業界アプリケーションに対する不安定な考え方を推し進めながら、その限界を次のレベルに押し上げようとしています。 実環境における速度と精度の多様な要件を考慮し、産業・学界の最新の物体検出の進歩を幅広く検討する。 具体的には、最近のネットワーク設計、トレーニング戦略、テスト技術、量子化、最適化手法のアイデアを大いに同化します。 これに加えて、さまざまなユースケースに対応するために、さまざまなスケールでデプロイ可能なネットワークスイートを構築するための考え方とプラクティスを統合しています。 YOLO著者の寛大な許可を得て、YOLOv6と命名した。 また、さらなる拡張のために、ユーザとコントリビューターに暖かく歓迎します。 パフォーマンスを垣間見るために、私たちのYOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達した。 YOLOv6-Sは43.5%のAPを495 FPSで攻撃し、他の主流検出器(YOLOv5-S、YOLOX-S、PPYOLOE-S)より優れている。 YOLOv6-Sの量子化バージョンでは、869 FPSで43.3%のAPが新たに導入された。 さらに、YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。 各成分の有効性を検証する実験を慎重に実施した。 私たちのコードはhttps://github.com/meituan/yolov6.comで利用可能です。

For years, the YOLO series has been the de facto industry-level standard for efficient object detection. The YOLO community has prospered overwhelmingly to enrich its use in a multitude of hardware platforms and abundant scenarios. In this technical report, we strive to push its limits to the next level, stepping forward with an unwavering mindset for industry application. Considering the diverse requirements for speed and accuracy in the real environment, we extensively examine the up-to-date object detection advancements either from industry or academia. Specifically, we heavily assimilate ideas from recent network design, training strategies, testing techniques, quantization, and optimization methods. On top of this, we integrate our thoughts and practice to build a suite of deployment-ready networks at various scales to accommodate diversified use cases. With the generous permission of YOLO authors, we name it YOLOv6. We also express our warm welcome to users and contributors for further enhancement. For a glimpse of performance, our YOLOv6-N hits 35.9% AP on the COCO dataset at a throughput of 1234 FPS on an NVIDIA Tesla T4 GPU. YOLOv6-S strikes 43.5% AP at 495 FPS, outperforming other mainstream detectors at the same scale~(YOLOv5-S, YOLOX-S, and PPYOLOE-S). Our quantized version of YOLOv6-S even brings a new state-of-the-art 43.3% AP at 869 FPS. Furthermore, YOLOv6-M/L also achieves better accuracy performance (i.e., 49.5%/52.3%) than other detectors with a similar inference speed. We carefully conducted experiments to validate the effectiveness of each component. Our code is made available at https://github.com/meituan/YOLOv6.
翻訳日:2022-09-08 12:37:36 公開日:2022-09-07
# 暗号化されたモデル間の逆例の転送可能性について

On the Transferability of Adversarial Examples between Encrypted Models ( http://arxiv.org/abs/2209.02997v1 )

ライセンス: Link先を確認
Miki Tanaka, Isao Echizen, Hitoshi Kiya(参考訳) ディープニューラルネットワーク(DNN)は、敵の例(AE)に弱いことがよく知られている。 さらに、AEは逆の転送可能性を持ち、すなわちソースモデルのために生成されたAEは、他の(ターゲット)モデルを騙す。 本稿では,敵の強い防御のために暗号化されたモデルの転送可能性について検討する。 転送可能性の特性を客観的に検証するために、AutoAttackと呼ばれるベンチマークアタック手法を用いてモデルのロバスト性を評価する。 画像分類実験では、暗号化されたモデルの使用がAEに対して堅牢であるだけでなく、モデルの転送可能性の観点からAEの影響を低減することが確認される。

Deep neural networks (DNNs) are well known to be vulnerable to adversarial examples (AEs). In addition, AEs have adversarial transferability, namely, AEs generated for a source model fool other (target) models. In this paper, we investigate the transferability of models encrypted for adversarially robust defense for the first time. To objectively verify the property of transferability, the robustness of models is evaluated by using a benchmark attack method, called AutoAttack. In an image-classification experiment, the use of encrypted models is confirmed not only to be robust against AEs but to also reduce the influence of AEs in terms of the transferability of models.
翻訳日:2022-09-08 12:37:09 公開日:2022-09-07
# ズームテキスト検出器

Zoom Text Detector ( http://arxiv.org/abs/2209.03014v1 )

ライセンス: Link先を確認
Chuang. Yang, Mulin. Chen, Yuan. Yuan, and Qi. Wang(参考訳) 総合的な性能を追求するため、最近のテキスト検出器は精度を犠牲にして検出速度を向上させる。 彼らは、縮小マスクに基づくテキスト表現戦略を採用し、縮小マスクに対する検出精度の高い依存性をもたらす。 残念ながら、3つの欠点は信頼性の低い縮小マスクを引き起こす。 特に、これらの手法は、意味情報による背景からの縮小マスクの識別を強化する。 しかし,粗い層が微粒な目的によって最適化される特徴排除現象は,意味的特徴の抽出を制限している。 一方、縮小マスクとマージンの両方がテキストに属するため、マージンが無視される詳細損失現象はマージンと縮小マスクの区別を妨げ、曖昧な縮小マスクエッジを引き起こす。 さらに、偽陽性サンプルは縮小マスクと同様の視覚的特徴を享受する。 彼らは縮小マスクの認識の低下を増す。 上記の問題を回避するため,カメラのズームプロセスに触発されたズームテキスト検出器(ztd)を提案する。 具体的には、Zoom Out Module (ZOM) を導入して、粗い層が機能のデフォーカスを避けるための粗い最適化目標を提供する。 一方、Zoom In Module(ZIM)はマージン認識を強化し、詳細な損失を防ぐ。 さらに、逐次的および視覚的特徴によって偽陽性のサンプルを抑えるために、SVD(Sequential-Visual Discriminator)が設計された。 実験はZTDの優れた総合性能を検証する。

To pursue comprehensive performance, recent text detectors improve detection speed at the expense of accuracy. They adopt shrink-mask based text representation strategies, which leads to a high dependency of detection accuracy on shrink-masks. Unfortunately, three disadvantages cause unreliable shrink-masks. Specifically, these methods try to strengthen the discrimination of shrink-masks from the background by semantic information. However, the feature defocusing phenomenon that coarse layers are optimized by fine-grained objectives limits the extraction of semantic features. Meanwhile, since both shrink-masks and the margins belong to texts, the detail loss phenomenon that the margins are ignored hinders the distinguishment of shrink-masks from the margins, which causes ambiguous shrink-mask edges. Moreover, false-positive samples enjoy similar visual features with shrink-masks. They aggravate the decline of shrink-masks recognition. To avoid the above problems, we propose a Zoom Text Detector (ZTD) inspired by the zoom process of the camera. Specifically, Zoom Out Module (ZOM) is introduced to provide coarse-grained optimization objectives for coarse layers to avoid feature defocusing. Meanwhile, Zoom In Module (ZIM) is presented to enhance the margins recognition to prevent detail loss. Furthermore, Sequential-Visual Discriminator (SVD) is designed to suppress false-positive samples by sequential and visual features. Experiments verify the superior comprehensive performance of ZTD.
翻訳日:2022-09-08 12:36:59 公開日:2022-09-07
# 葉に生えるテキスト

Text Growing on Leaf ( http://arxiv.org/abs/2209.03016v1 )

ライセンス: Link先を確認
Chuang. Yang, Mulin. Chen, Yuan. Yuan, and Qi. Wang(参考訳) 不規則な形のテキストは、Scene Text Detection (STD) に課題をもたらす。 既存の輪郭点列に基づくアプローチは同等のパフォーマンスを達成するが、非常に湾曲したリボンのようなテキスト線をカバーできない。 これはテキストフィッティング能力の制限とSTD技術の適用につながる。 以上の問題を考慮し,テキスト幾何学的特徴とバイオニックスを組み合わせて,自然葉静脈に基づくテキスト表現法(LVT)を設計する。 具体的には、葉脈は概ね有向グラフであり、様々なジオメトリを容易にカバーできる。 テキストの輪郭を葉の縁として扱い,それを主静脈,側静脈,細静脈を通して表現する。 さらに,LVT,すなわちLeafTextに基づく検出フレームワークを構築した。 テキスト再構成段階では、リーフテキストは葉の成長過程をシミュレートしてテキスト輪郭を再構築する。 カルテシアン座標で主静脈を成長させ、テキストを大まかに見つける。 そして、主静脈成長方向に沿って極座標で横静脈及び薄静脈を生成する。 彼らは粗い輪郭を生成し、それを精製する責任がある。 主静脈に対する側方静脈と細静脈の深い依存性を考慮すると,MOS(Multi-Oriented Smoother)が主静脈の堅牢性を高め,信頼性の高い検出結果が得られた。 さらに, 横静脈および薄静脈の予測を加速するためのグローバルインセンティブ損失を提案する。 アブレーション実験は、LVTが任意の形のテキストを正確に描写し、MOSの有効性と世界的なインセンティブ損失を検証できることを示した。 比較では、LeafTextはMSRA-TD500, CTW1500, Total-Text, ICDAR2015データセット上の既存の最先端(SOTA)手法よりも優れている。

Irregular-shaped texts bring challenges to Scene Text Detection (STD). Although existing contour point sequence-based approaches achieve comparable performances, they fail to cover some highly curved ribbon-like text lines. It leads to limited text fitting ability and STD technique application. Considering the above problem, we combine text geometric characteristics and bionics to design a natural leaf vein-based text representation method (LVT). Concretely, it is found that leaf vein is a generally directed graph, which can easily cover various geometries. Inspired by it, we treat text contour as leaf margin and represent it through main, lateral, and thin veins. We further construct a detection framework based on LVT, namely LeafText. In the text reconstruction stage, LeafText simulates the leaf growth process to rebuild text contour. It grows main vein in Cartesian coordinates to locate text roughly at first. Then, lateral and thin veins are generated along the main vein growth direction in polar coordinates. They are responsible for generating coarse contour and refining it, respectively. Considering the deep dependency of lateral and thin veins on main vein, the Multi-Oriented Smoother (MOS) is proposed to enhance the robustness of main vein to ensure a reliable detection result. Additionally, we propose a global incentive loss to accelerate the predictions of lateral and thin veins. Ablation experiments demonstrate LVT is able to depict arbitrary-shaped texts precisely and verify the effectiveness of MOS and global incentive loss. Comparisons show that LeafText is superior to existing state-of-the-art (SOTA) methods on MSRA-TD500, CTW1500, Total-Text, and ICDAR2015 datasets.
翻訳日:2022-09-08 12:36:35 公開日:2022-09-07
# すべてのインスタンスが等しく寄与する訳ではない:Few-Shot視覚認識のためのインスタンス適応型クラス表現学習

Not All Instances Contribute Equally: Instance-adaptive Class Representation Learning for Few-Shot Visual Recognition ( http://arxiv.org/abs/2209.03034v1 )

ライセンス: Link先を確認
Mengya Han, Yibing Zhan, Yong Luo, Bo Du, Han Hu, Yonggang Wen, and Dacheng Tao(参考訳) わずかなショットの視覚認識は、ラベル付きインスタンスから新しい視覚概念を認識することを指す。 クエリ表現とクラス表現を比較して、クエリインスタンスのカテゴリを予測することで、メトリックベースのメタラーニングパラダイムを採用する。 しかし、現在のメートル法に基づく手法は一般に全てのインスタンスを等しく扱い、従って偏りのあるクラス表現を得ることが多い。 例えば、背景や無関係な概念に関する情報が多すぎるなど、結果が歪むような非表現的な情報を含む場合もある。 そこで本研究では,インスタンス適応型クラス表現学習ネットワーク(icrl-net)と呼ばれる,数発視覚認識のための新しいメトリクスベースメタ学習フレームワークを提案する。 具体的には,クラス表現生成時のバイアス付き表現問題に対処する能力を備えた適応型インスタンス評価ネットワークを開発し,対応するクラスのサポートセットにおける相対的重要性に応じて,異なるインスタンスに対する適応型重みを学習し割り当てる。 さらに,改良されたバイリニアインスタンス表現の設計を行い,クラス内インスタンスクラスタリング損失とクラス間識別損失という2つの新しい構造的損失を組み込んで,インスタンス再評価プロセスをさらに調整し,クラス表現を洗練する。 我々は,MiniImageNet, tieredImageNet, CIFAR-FS, FC100データセットという,広く採用されている4つのスクリーンショットベンチマークについて広範な実験を行った。 ICRL-Netの優位性を,最先端のアプローチと比較した実験結果から検証した。

Few-shot visual recognition refers to recognize novel visual concepts from a few labeled instances. Many few-shot visual recognition methods adopt the metric-based meta-learning paradigm by comparing the query representation with class representations to predict the category of query instance. However, current metric-based methods generally treat all instances equally and consequently often obtain biased class representation, considering not all instances are equally significant when summarizing the instance-level representations for the class-level representation. For example, some instances may contain unrepresentative information, such as too much background and information of unrelated concepts, which skew the results. To address the above issues, we propose a novel metric-based meta-learning framework termed instance-adaptive class representation learning network (ICRL-Net) for few-shot visual recognition. Specifically, we develop an adaptive instance revaluing network with the capability to address the biased representation issue when generating the class representation, by learning and assigning adaptive weights for different instances according to their relative significance in the support set of corresponding class. Additionally, we design an improved bilinear instance representation and incorporate two novel structural losses, i.e., intra-class instance clustering loss and inter-class representation distinguishing loss, to further regulate the instance revaluation process and refine the class representation. We conduct extensive experiments on four commonly adopted few-shot benchmarks: miniImageNet, tieredImageNet, CIFAR-FS, and FC100 datasets. The experimental results compared with the state-of-the-art approaches demonstrate the superiority of our ICRL-Net.
翻訳日:2022-09-08 12:36:08 公開日:2022-09-07
# mimco: 対照教師との事前学習によるマスク画像モデリング

MimCo: Masked Image Modeling Pre-training with Contrastive Teacher ( http://arxiv.org/abs/2209.03063v1 )

ライセンス: Link先を確認
Qiang Zhou, Chaohui Yu, Hao Luo, Zhibin Wang, Hao Li(参考訳) 近年のマスク付き画像モデリング (MIM) は自己教師付き学習 (SSL) において多くの注目を集めており、入力画像のマスク部分の復元にはターゲットモデルが必要である。 mimに基づく事前学習手法は,多くの下流タスクに移行した場合に新たな最先端性能を実現するが,特にコントラスト学習前学習に基づくものと比較して,学習表現の分離性が低下することが示された。 これにより,MIM事前学習表現の線形分離性がさらに向上し,事前学習性能が向上すると考えられる。 MIMとコントラスト学習は、異なるデータ拡張とトレーニング戦略を利用する傾向があるため、これら2つのプレテキストタスクを組み合わせることは簡単ではない。 そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しいフレキシブルな事前学習フレームワークMimCoを提案する。 特に、MimCoは教師モデルとして訓練済みのコントラスト学習モデルを採用し、パッチレベルとイメージレベルの再構築損失の2種類の学習目標で事前訓練されている。 下流タスクの大規模な転送実験は、私たちのMimCo事前トレーニングフレームワークの優れたパフォーマンスを示しています。 ViT-Sを例として、トレーニング済みのMoCov3-ViT-Sを教師モデルとして使用する場合、MimCoはImagenet-1Kで82.53%のトップ1の微調整を実現するために、100エポックの事前トレーニングしか必要としない。

Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.
翻訳日:2022-09-08 12:35:40 公開日:2022-09-07
# 資源リッチ機械翻訳における事前学習とランダム初期化の相補性について

On the Complementarity between Pre-Training and Random-Initialization for Resource-Rich Machine Translation ( http://arxiv.org/abs/2209.03316v1 )

ライセンス: Link先を確認
Changtong Zan, Liang Ding, Li Shen, Yu Cao, Weifeng Liu, Dacheng Tao(参考訳) テキスト表現の事前学習(pt)は低リソースニューラルマシン翻訳(nmt)にうまく適用されている。 しかし、通常、リソース豊富なNMTにおいて、Random-Initialization (RI) と同等の顕著な利益(時には、さらに悪い)を達成できない。 資源豊富なシナリオにおけるPTとRIの相補性について、2つの探索分析を用いて調査する。 1)PTは精度を向上するが、RIよりも平坦なロスランドスケープを達成して一般化する。 2) PT は RI よりもスムーズな語彙確率分布を割り当てることで, 語彙選択の信頼性を向上するが, 負の多様性は向上する。 これらの知見に基づき、PTとRI間のニューロンの配向に最適なトランスポートを利用するモデル融合アルゴリズムとそれらの相補性を組み合わせることを提案する。 WMT'17 English- Chinese (20M) と WMT'19 English-German (36M) の2つのリソース豊富な翻訳ベンチマークの実験により、PT と RI は相互に相補的になり、翻訳精度、一般化、負の多様性の両方を考慮して大幅に改善された。 ツールとコードは、https://github.com/zanchangtong/PTvsRI.comでリリースされている。

Pre-Training (PT) of text representations has been successfully applied to low-resource Neural Machine Translation (NMT). However, it usually fails to achieve notable gains (some- times, even worse) on resource-rich NMT on par with its Random-Initialization (RI) counterpart. We take the first step to investigate the complementarity between PT and RI in resource-rich scenarios via two probing analyses, and find that: 1) PT improves NOT the accuracy, but the generalization by achieving flatter loss landscapes than that of RI; 2) PT improves NOT the confidence of lexical choice, but the negative diversity by assigning smoother lexical probability distributions than that of RI. Based on these insights, we propose to combine their complementarities with a model fusion algorithm that utilizes optimal transport to align neurons between PT and RI. Experiments on two resource-rich translation benchmarks, WMT'17 English-Chinese (20M) and WMT'19 English-German (36M), show that PT and RI could be nicely complementary to each other, achieving substantial improvements considering both translation accuracy, generalization, and negative diversity. Probing tools and code are released at: https://github.com/zanchangtong/PTvsRI.
翻訳日:2022-09-08 12:32:27 公開日:2022-09-07
# 説明可能性によるグラフニューラルネットワークのバックドア攻撃対策

Defending Against Backdoor Attack on Graph Nerual Network by Explainability ( http://arxiv.org/abs/2209.02902v1 )

ライセンス: Link先を確認
Bingchen Jiang and Zhao Li(参考訳) バックドア攻撃はディープラーニングモデルに対する強力な攻撃アルゴリズムである。 近年,特にグラフ分類タスクにおいて,GNNのバックドア攻撃に対する脆弱性が証明されている。 本稿では,GNNにおける最初のバックドア検出・防御手法を提案する。 ほとんどのバックドア攻撃は、小さなが影響のあるトリガーをクリーンサンプルに注入することに依存する。 グラフデータの場合、現在のバックドア攻撃はグラフ構造を操作してトリガーを注入することに集中する。 良質なサンプルと悪意のあるサンプルの間には、忠実度や不忠実性といった説明的評価指標で明らかな違いがあることが分かりました。 悪意のあるサンプルを特定した後、GNNモデルの説明可能性によって、おそらくトロイの木馬グラフのトリガーである最も重要なサブグラフをキャプチャするのに役立ちます。 様々なデータセットと異なる攻撃設定を使用して、防御方法の有効性を証明します。 攻撃成功率はいずれも大幅に低下した。

Backdoor attack is a powerful attack algorithm to deep learning model. Recently, GNN's vulnerability to backdoor attack has been proved especially on graph classification task. In this paper, we propose the first backdoor detection and defense method on GNN. Most backdoor attack depends on injecting small but influential trigger to the clean sample. For graph data, current backdoor attack focus on manipulating the graph structure to inject the trigger. We find that there are apparent differences between benign samples and malicious samples in some explanatory evaluation metrics, such as fidelity and infidelity. After identifying the malicious sample, the explainability of the GNN model can help us capture the most significant subgraph which is probably the trigger in a trojan graph. We use various dataset and different attack settings to prove the effectiveness of our defense method. The attack success rate all turns out to decrease considerably.
翻訳日:2022-09-08 12:32:04 公開日:2022-09-07
# 形式的議論と法的存在論に基づくai製品の法的検出

Legal Detection of AI Products Based on Formal Argumentation and Legal Ontology ( http://arxiv.org/abs/2209.03070v1 )

ライセンス: Link先を確認
Zhe Yu and Yiwei Lu(参考訳) オントロジー(オントロジー)は、法域を含む異なる領域における知識表現の一般的な方法であり、記述論理(DL)はその記述言語として一般的に用いられる。 そこで本論文では, ASPIC+に基づく法的文脈における推論のための構造的議論の枠組みを論証理論の定式化と規則化に向け, 不整合DLに基づく法定オントロジーに基づく推論に対処する。 法的なaiの観点から、特に自動運転車の設計に焦点をあて、この形式的議論理論とdlに基づく法的なオントロジーを組み合わせることで、一貫性のないオントロジーに基づいて許容可能なアサーションを得ることができ、dlオントロジーの伝統的な推論タスクも達成できることを示す。 さらに、推論の結果に対する説明の形式的な定義も提示される。

Ontology is a popular method for knowledge representation in different domains, including the legal domain, and description logics (DL) is commonly used as its description language. To handle reasoning based on inconsistent DL-based legal ontologies, the current paper presents a structured argumentation framework particularly for reasoning in legal contexts on the basis of ASPIC+, and translates the legal ontology into formulas and rules of an argumentation theory. With a particular focus on the design of autonomous vehicles from the perspective of legal AI, we show that using this combined theory of formal argumentation and DL-based legal ontology, acceptable assertions can be obtained based on inconsistent ontologies, and the traditional reasoning tasks of DL ontologies can also be accomplished. In addition, a formal definition of explanations for the result of reasoning is presented.
翻訳日:2022-09-08 12:31:51 公開日:2022-09-07
# SUNet: パン光学セグメンテーションのためのスケール対応統一ネットワーク

SUNet: Scale-aware Unified Network for Panoptic Segmentation ( http://arxiv.org/abs/2209.02877v1 )

ライセンス: Link先を確認
Weihao Yan, Yeqiang Qian, Chunxiang Wang, Ming Yang(参考訳) パノプティカルセグメンテーションは、セマンティクスとインスタンスセグメンテーションの利点を組み合わせて、インテリジェントな車両にピクセルレベルとインスタンスレベルの環境認識情報を提供する。 しかし、特に極端に大きくて小さなものにおいて、様々なスケールのオブジェクトのセグメンテーションに挑戦する。 本研究では,この問題を軽減するための軽量モジュールを2つ提案する。 まず、Pixel-relation Blockは、クエリ非依存の定式化に基づいて、小さなパラメータインクリメントをもたらす大規模物のグローバルコンテキスト情報をモデル化するように設計されている。 次に,Convectional Networkを構築して,小規模物の高解像度情報を収集し,下流セグメンテーションブランチに対してより適切なセグメンテーション機能を提供する。 これら2つのモジュールに基づいて,マルチスケールオブジェクトに適応可能なエンドツーエンドのスケールアウェア統一ネットワーク(sunet)を提案する。 都市景観とCOCOに関する大規模な実験により,提案手法の有効性が示された。

Panoptic segmentation combines the advantages of semantic and instance segmentation, which can provide both pixel-level and instance-level environmental perception information for intelligent vehicles. However, it is challenged with segmenting objects of various scales, especially on extremely large and small ones. In this work, we propose two lightweight modules to mitigate this problem. First, Pixel-relation Block is designed to model global context information for large-scale things, which is based on a query-independent formulation and brings small parameter increments. Then, Convectional Network is constructed to collect extra high-resolution information for small-scale stuff, supplying more appropriate semantic features for the downstream segmentation branches. Based on these two modules, we present an end-to-end Scale-aware Unified Network (SUNet), which is more adaptable to multi-scale objects. Extensive experiments on Cityscapes and COCO demonstrate the effectiveness of the proposed methods.
翻訳日:2022-09-08 12:30:55 公開日:2022-09-07
# リモートセンシングオブジェクト検出のための多点角表現

Multi-Grained Angle Representation for Remote Sensing Object Detection ( http://arxiv.org/abs/2209.02884v1 )

ライセンス: Link先を確認
Hao Wang, Zhanchao Huang, Zhengchao Chen, Ying Song, and Wei Li(参考訳) 任意指向オブジェクト検出(AOOD)は、リモートセンシングシナリオにおける画像理解において重要な役割を果たす。 既存のAOOD法は、アングル表現における曖昧さと高いコストの課題に直面している。 この目的のために、粗粒度角度分類(CAC)と細粒度角度回帰(FAR)からなる多粒度角度表現(MGAR)法を提案する。 具体的には、設計されたCACは、離散角符号化(DAE)による角度予測の曖昧さを回避し、DAEの粒度を粗くすることで複雑さを低減する。 CACに基づいて、FARはDAEの粒度を狭めるよりもはるかに低コストで角度予測を洗練させる。 さらに,iouが誘導する適応的再重み付け機構を用いた角度予測精度を向上させるために,iou認識遠損失(ifl)の交点を考案した。 提案するmgarの有効性を実証するいくつかのリモートセンシングデータセットについて,広範な実験を行った。 さらに,組込みデバイスにおける実験により,提案するmgarが軽量なデプロイメントにも適していることが示されている。

Arbitrary-oriented object detection (AOOD) plays a significant role for image understanding in remote sensing scenarios. The existing AOOD methods face the challenges of ambiguity and high costs in angle representation. To this end, a multi-grained angle representation (MGAR) method, consisting of coarse-grained angle classification (CAC) and fine-grained angle regression (FAR), is proposed. Specifically, the designed CAC avoids the ambiguity of angle prediction by discrete angular encoding (DAE) and reduces complexity by coarsening the granularity of DAE. Based on CAC, FAR is developed to refine the angle prediction with much lower costs than narrowing the granularity of DAE. Furthermore, an Intersection over Union (IoU) aware FAR-Loss (IFL) is designed to improve accuracy of angle prediction using an adaptive re-weighting mechanism guided by IoU. Extensive experiments are performed on several public remote sensing datasets, which demonstrate the effectiveness of the proposed MGAR. Moreover, experiments on embedded devices demonstrate that the proposed MGAR is also friendly for lightweight deployments.
翻訳日:2022-09-08 12:30:38 公開日:2022-09-07
# コンテキストリカバリと知識検索 : 映像異常検出のための新しい2ストリームフレームワーク

Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework for Video Anomaly Detection ( http://arxiv.org/abs/2209.02899v1 )

ライセンス: Link先を確認
Congqi Cao, Yue Lu and Yanning Zhang(参考訳) ビデオ異常検出は、期待された動作に適合しないビデオ内のイベントを見つけることを目的としている。 一般的な手法は主にスニペット再構成や将来のフレーム予測誤差によって異常を検出する。 しかし、エラーは現在のスニペットのローカルコンテキストに大きく依存しており、正規性の理解が欠けている。 この問題に対処するために,我々は,局所的な文脈だけでなく,テストイベントとトレーニングデータからの正規性に関する知識との一貫性にもとづく異常事象の検出を提案する。 具体的には,2つのストリームが相互に補完できる,文脈回復と知識検索に基づく新しい2ストリームフレームワークを提案する。 文脈回復ストリームでは,動き情報をフル活用して将来のフレームを予測できる時空間U-Netを提案する。 さらに,複雑なフォアグラウンドオブジェクトによる大規模なリカバリエラーの問題を軽減するために,最大局所誤差機構を提案する。 知識検索ストリームに対して,学習可能な局所性に敏感なハッシュ方式を提案し,シャムネットワークによるハッシュ関数と相互差分損失を最適化する。 正規性に関する知識はハッシュテーブルにエンコードされ、テストイベントと知識表現との間の距離は異常の確率を明らかにするために使用される。 最後に,2つのストリームから異常スコアを融合して異常を検出する。 大規模な実験では、2つのストリームの有効性と相補性を示し、提案した2ストリームフレームワークは4つのデータセットで最先端のパフォーマンスを達成する。

Video anomaly detection aims to find the events in a video that do not conform to the expected behavior. The prevalent methods mainly detect anomalies by snippet reconstruction or future frame prediction error. However, the error is highly dependent on the local context of the current snippet and lacks the understanding of normality. To address this issue, we propose to detect anomalous events not only by the local context, but also according to the consistency between the testing event and the knowledge about normality from the training data. Concretely, we propose a novel two-stream framework based on context recovery and knowledge retrieval, where the two streams can complement each other. For the context recovery stream, we propose a spatiotemporal U-Net which can fully utilize the motion information to predict the future frame. Furthermore, we propose a maximum local error mechanism to alleviate the problem of large recovery errors caused by complex foreground objects. For the knowledge retrieval stream, we propose an improved learnable locality-sensitive hashing, which optimizes hash functions via a Siamese network and a mutual difference loss. The knowledge about normality is encoded and stored in hash tables, and the distance between the testing event and the knowledge representation is used to reveal the probability of anomaly. Finally, we fuse the anomaly scores from the two streams to detect anomalies. Extensive experiments demonstrate the effectiveness and complementarity of the two streams, whereby the proposed two-stream framework achieves state-of-the-art performance on four datasets.
翻訳日:2022-09-08 12:30:19 公開日:2022-09-07
# 顔面変形:単一形態からの成分顔の抽出

Facial De-morphing: Extracting Component Faces from a Single Morph ( http://arxiv.org/abs/2209.02933v1 )

ライセンス: Link先を確認
Sudipta Banerjee and Prateek Jaiswal and Arun Ross(参考訳) 複数のアイデンティティに対応する2つ以上の顔画像を戦略的に組み合わせて顔形態を作成する。 その意図は、モーフィックな画像が複数のアイデンティティと一致することである。 現在の形態攻撃検出戦略は、形態を検出することができるが、それらを作成する際に使用される画像やアイデンティティを回復することはできない。 顔画像から個々の顔画像を導出するタスクは \textit{de-morphing} と呼ばれる。 既存のデフォーミングの作業は、共犯者のイメージ、すなわち他のアイデンティティを回復するために、1つのアイデンティティに関連する参照イメージが利用可能であると仮定する。 そこで本研究では, 参照画像や先行情報を必要とせずに, 両人物の画像を単一の顔画像から同時に復元できるデモーフィング手法を提案する。 本稿では,従来の顔画像と驚くほど高い視覚的リアリズムと生体的類似性を持つ単一画像に基づくデモーフィングを実現する。 本手法はランドマークに基づく形態と生成モデルに基づく形態に対して有望な結果を示す。

A face morph is created by strategically combining two or more face images corresponding to multiple identities. The intention is for the morphed image to match with multiple identities. Current morph attack detection strategies can detect morphs but cannot recover the images or identities used in creating them. The task of deducing the individual face images from a morphed face image is known as \textit{de-morphing}. Existing work in de-morphing assume the availability of a reference image pertaining to one identity in order to recover the image of the accomplice - i.e., the other identity. In this work, we propose a novel de-morphing method that can recover images of both identities simultaneously from a single morphed face image without needing a reference image or prior information about the morphing process. We propose a generative adversarial network that achieves single image-based de-morphing with a surprisingly high degree of visual realism and biometric similarity with the original face images. We demonstrate the performance of our method on landmark-based morphs and generative model-based morphs with promising results.
翻訳日:2022-09-08 12:29:55 公開日:2022-09-07
# GANによる属性操作は顔認識に影響を及ぼすか?

Can GAN-induced Attribute Manipulations Impact Face Recognition? ( http://arxiv.org/abs/2209.02941v1 )

ライセンス: Link先を確認
Sudipta Banerjee and Aditi Aggarwal and Arun Ross(参考訳) 年齢、性別、人種などの要因による影響は、自動化された顔認識システムで広く研究されている。 しかし、textit{digitally modified}層と顔認識に対する顔属性の影響は、比較的未調査である。 本研究では,gans(generative adversarial network)による属性操作が顔認識性能に与える影響について検討する。 我々は,CelebAデータセット上で,AttGANとSTGANを用いて13の属性を意図的に修正し,それらがArcFaceとVGGFaceの2つの深層学習に基づく顔認証方法に与える影響を評価する。 以上の結果から,メガネによる属性操作や性差のデジタル化は,顔認識を最大73%阻害し,さらなる分析が必要であることが示唆された。

Impact due to demographic factors such as age, sex, race, etc., has been studied extensively in automated face recognition systems. However, the impact of \textit{digitally modified} demographic and facial attributes on face recognition is relatively under-explored. In this work, we study the effect of attribute manipulations induced via generative adversarial networks (GANs) on face recognition performance. We conduct experiments on the CelebA dataset by intentionally modifying thirteen attributes using AttGAN and STGAN and evaluating their impact on two deep learning-based face verification methods, ArcFace and VGGFace. Our findings indicate that some attribute manipulations involving eyeglasses and digital alteration of sex cues can significantly impair face recognition by up to 73% and need further analysis.
翻訳日:2022-09-08 12:29:40 公開日:2022-09-07
# エントロピー和に対するELBOの収束性について

On the Convergence of the ELBO to Entropy Sums ( http://arxiv.org/abs/2209.03077v1 )

ライセンス: Link先を確認
J\"org L\"ucke(参考訳) 変分下界(ELBOまたは自由エネルギー)は、深い教師なし学習のためのアルゴリズムを含む多くの学習アルゴリズムの中心的な目的である。 学習アルゴリズムは、変動的下界が増加し、パラメータが学習力学の定常点に近づくまでモデルパラメータを変更する。 この純粋に理論的な寄与において、(非常に大きな生成モデルのクラスに対して)変分下界がすべての定常学習点においてエントロピーの和に等しいことを示す。 A) 変動分布の(平均)エントロピー、(B) モデルの前の分布の負エントロピー、(C) 観測可能な分布の(予想)負エントロピーの3つのエントロピーからなる。 得られた結果は、データポイントの有限個数、(鞍点を含む)任意の定常点、および(よく振る舞う)変分分布の族を含む現実的な条件下に適用される。 エントロピー和の等式を示す生成モデルのクラスには、多くの(おそらく最も多くの)標準生成モデル(深層モデルを含む)が含まれる。 具体的な例として、確率的PCAとSigmoid Belief Networksについて議論する。 エントロピー和の等式を示すための前提条件は比較的穏やかである。 具体的には、与えられた生成モデルの分布は指数族(定数基底測度を持つ)でなければならないし、モデルはパラメータ化基準(通常は満たされる)を満たす必要がある。 ELBO の等式を定常点におけるエントロピー和 (entropy sums) に証明することは、この研究の主な貢献である。

The variational lower bound (a.k.a. ELBO or free energy) is the central objective for many learning algorithms including algorithms for deep unsupervised learning. Learning algorithms change model parameters such that the variational lower bound increases, and until the parameters are close to a stationary point of the learning dynamics. In this purely theoretical contribution, we show that (for a very large class of generative models) the variational lower bound is at all stationary points of learning equal to a sum of entropies. For models with one set of latents and one set observed variables, the sum consists of three entropies: (A) the (average) entropy of the variational distributions, (B) the negative entropy of the model's prior distribution, and (C) the (expected) negative entropy of the observable distributions. The obtained result applies under realistic conditions including: finite numbers of data points, at any stationary points (including saddle points) and for any family of (well behaved) variational distributions. The class of generative models for which we show the equality to entropy sums contains many (and presumably most) standard generative models (including deep models). As concrete examples we discuss probabilistic PCA and Sigmoid Belief Networks. The prerequisites we use to show equality to entropy sums are relatively mild. Concretely, the distributions of a given generative model have to be of the exponential family (with constant base measure), and a model has to satisfy a parameterization criterion (which is usually fulfilled). Proving the equality of the ELBO to entropy sums at stationary points (under the stated conditions) is the main contribution of this work.
翻訳日:2022-09-08 12:27:21 公開日:2022-09-07
# Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware Neural Machine Translation

Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware Neural Machine Translation ( http://arxiv.org/abs/2209.02962v1 )

ライセンス: Link先を確認
Artur Nowakowski and Gabriela Pa{\l}ka and Kamil Guttmann and Miko{\l}aj Pokrywka(参考訳) 本稿では,WMT 2022 General MT Taskの制約トラックに対するAdam Mickiewicz University(AMU)の提出について述べる。 ウクライナの$\leftrightarrow$ Czechの翻訳コースに参加しました。 システムはトランスフォーマー(big)アーキテクチャに基づいた4つのモデルの重み付けアンサンブルである。 モデルはソースファクタを使用して、入力に存在する名前付きエンティティに関する情報を利用する。 アンサンブル内の各モデルは、共有タスクオーガナイザが提供するデータのみを使用してトレーニングされた。 トレーニングコーパスを増強するためにノイズのあるバックトランスレーション技術が用いられた。 アンサンブルのモデルのひとつがドキュメントレベルのモデルで、並列と合成の長いシーケンスでトレーニングされている。 文レベルの復号処理の間、アンサンブルはn-bestリストを生成する。 n-bestリストは、一度に複数の文を翻訳する単一の文書レベルモデルによって生成されたn-bestリストとマージされた。 最後に、既存の品質推定モデルと最小ベイズリスクデコードを用いてn-ベストリストをランク付けし、彗星評価基準に基づいて最良の仮説が選択された。 自動評価結果によると,本システムは両翻訳の順にランクインする。

This paper presents Adam Mickiewicz University's (AMU) submissions to the constrained track of the WMT 2022 General MT Task. We participated in the Ukrainian $\leftrightarrow$ Czech translation directions. The systems are a weighted ensemble of four models based on the Transformer (big) architecture. The models use source factors to utilize the information about named entities present in the input. Each of the models in the ensemble was trained using only the data provided by the shared task organizers. A noisy back-translation technique was used to augment the training corpora. One of the models in the ensemble is a document-level model, trained on parallel and synthetic longer sequences. During the sentence-level decoding process, the ensemble generated the n-best list. The n-best list was merged with the n-best list generated by a single document-level model which translated multiple sentences at a time. Finally, existing quality estimation models and minimum Bayes risk decoding were used to rerank the n-best list so that the best hypothesis was chosen according to the COMET evaluation metric. According to the automatic evaluation results, our systems rank first in both translation directions.
翻訳日:2022-09-08 12:25:52 公開日:2022-09-07
# The Slepen Al the Nyght with Open Ye! スイッチメモリを用いたクロスエイズシーケンスセグメンテーション

That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation with Switch-memory ( http://arxiv.org/abs/2209.02967v1 )

ライセンス: Link先を確認
Xuemei Tang and Qi Su and Jun Wang(参考訳) 言語の進化は段階的な変化の規則に従う。 文法、語彙、語彙のセマンティックシフトは時間とともに発生し、対数的言語的ギャップが生じる。 このように、かなりの量のテキストが異なる時代の言語で書かれており、単語のセグメンテーションや機械翻訳といった自然言語処理タスクの障害を生み出している。 中国語には長い歴史があるが、従来の中国語の自然言語処理の研究は主に特定の時代におけるタスクに焦点を当ててきた。 そこで本研究では,switch-memory(sm)モジュールを用いた中国語単語セグメンテーション(cws)のためのクロスエイジ学習フレームワークであるcrosswiseを提案する。 異なる時代の4つのコーパスの実験により、各コーパスの性能が著しく向上することが示された。 さらに分析した結果、SMは時代の知識をニューラルネットワークに効果的に統合できることが示された。

The evolution of language follows the rule of gradual change. Grammar, vocabulary, and lexical semantic shifts take place over time, resulting in a diachronic linguistic gap. As such, a considerable amount of texts are written in languages of different eras, which creates obstacles for natural language processing tasks, such as word segmentation and machine translation. Although the Chinese language has a long history, previous Chinese natural language processing research has primarily focused on tasks within a specific era. Therefore, we propose a cross-era learning framework for Chinese word segmentation (CWS), CROSSWISE, which uses the Switch-memory (SM) module to incorporate era-specific linguistic knowledge. Experiments on four corpora from different eras show that the performance of each corpus significantly improves. Further analyses also demonstrate that the SM can effectively integrate the knowledge of the eras into the neural network.
翻訳日:2022-09-08 12:25:34 公開日:2022-09-07
# Fengshenbang 1.0:中国認知知の基盤になる

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence ( http://arxiv.org/abs/2209.02970v1 )

ライセンス: Link先を確認
Junjie Wang, Yuxiang Zhang, Lin Zhang, Ping Yang, Xinyu Gao, Ziwei Wu, Xiaoqun Dong, Junqing He, Jianheng Zhuo, Qi Yang, Yongfeng Huang, Xiayu Li, Yanghan Wu, Junyu Lu, Xinyu Zhu, Weifeng Chen, Ting Han, Kunhao Pan, Rui Wang, Hao Wang, Xiaojun Wu, Zhongshen Zeng, Chongpei Chen, Ruyi Gan, Jiaxing Zhang(参考訳) 今日では、基礎モデルは人工知能の基本的な基盤の一つとなり、一般の知性への道を開いた。 既存の基礎モデルは英語コミュニティが支配しており、ユーザーは限られたリソースを与えられることが多く、ファンデーションモデルを使うことはできない。 中国語コミュニティの発展を支援するために,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。 私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。 これらすべてを、fengshenbangモデル、fengshenフレームワーク、fengshenベンチマークという3つのサブプロジェクトにまとめています。 オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。 また、ユーザ中心のオープンソースエコシステムを構築して、個人が自分のコンピューティングリソースに合わせて、望ましいモデルにアクセスできるようにしたいと考えています。 さらに私たちは,企業や大学,研究機関に対して,大規模なオープンソースモデルベースのエコシステムを構築するための協力を求めています。 このプロジェクトが中国の認知知能の基礎になることを願っている。

Nowadays, foundation models become one of fundamental infrastructures in artificial intelligence, paving ways to the general intelligence. However, the reality presents two urgent challenges: existing foundation models are dominated by the English-language community; users are often given limited resources and thus cannot always use foundation models. To support the development of the Chinese-language community, we introduce an open-source project, called Fengshenbang, which leads by the research center for Cognitive Computing and Natural Language (CCNL). Our project has comprehensive capabilities, including large pre-trained models, user-friendly APIs, benchmarks, datasets, and others. We wrap all these in three sub-projects: the Fengshenbang Model, the Fengshen Framework, and the Fengshen Benchmark. An open-source roadmap, Fengshenbang, aims to re-evaluate the open-source community of Chinese pre-trained large-scale models, prompting the development of the entire Chinese large-scale model community. We also want to build a user-centered open-source ecosystem to allow individuals to access the desired models to match their computing resources. Furthermore, we invite companies, colleges, and research institutions to collaborate with us to build the large-scale open-source model-based ecosystem. We hope that this project will be the foundation of Chinese cognitive intelligence.
翻訳日:2022-09-08 12:25:19 公開日:2022-09-07
# 非標準ベトナム語単語の検出と正規化

Non-Standard Vietnamese Word Detection and Normalization for Text-to-Speech ( http://arxiv.org/abs/2209.02971v1 )

ライセンス: Link先を確認
Huu-Tien Dang, Thi-Hai-Yen Vuong, Xuan-Hieu Phan(参考訳) テキストを音声形式に変換することは、TTSシステムにおいて重要な問題である。 しかし、現実世界のTSシステムのための効果的なテキスト正規化ソリューションを構築するには、(1) 数字、日付、範囲、スコア、略語、(2) NSWをURL、メールアドレス、ハッシュタグ、連絡先名などの発音可能な音節に変換するなど、非標準語(NSW)の意味的あいまいさに直面する。 本稿では,これらの課題に対処する新しい二相正規化手法を提案する。 まず、モデルベースのタグはNSWを検出するように設計されている。 そして、規則に基づく正規化器は、NSWの種類に応じて、それらのNSWを最終動詞形式に拡張する。 ベトナムのニュース記事から抽出した5819文を含む手動注釈データセットを用いて,条件付きランダムフィールド(CRF),BiLSTM-CNN-CRF,BERT-BiGRU-CRFモデルを用いたNSW検出実験を行った。 第2フェーズでは,ハッシュタグ,メール,URL,連絡先名を分割する,前方レキシコンに基づく最大マッチングアルゴリズムを提案する。 その結果,bilstm-cnn-crfおよびcrfモデルの平均f1得点は90.00%を超え,bert-bigru-crfモデルでは95.00%に達した。 提案手法は,CRFが8.15%,BiLSTM-CNN-CRFタグが7.11%,BERT-BiGRU-CRFタグが6.67%であった。

Converting written texts into their spoken forms is an essential problem in any text-to-speech (TTS) systems. However, building an effective text normalization solution for a real-world TTS system face two main challenges: (1) the semantic ambiguity of non-standard words (NSWs), e.g., numbers, dates, ranges, scores, abbreviations, and (2) transforming NSWs into pronounceable syllables, such as URL, email address, hashtag, and contact name. In this paper, we propose a new two-phase normalization approach to deal with these challenges. First, a model-based tagger is designed to detect NSWs. Then, depending on NSW types, a rule-based normalizer expands those NSWs into their final verbal forms. We conducted three empirical experiments for NSW detection using Conditional Random Fields (CRFs), BiLSTM-CNN-CRF, and BERT-BiGRU-CRF models on a manually annotated dataset including 5819 sentences extracted from Vietnamese news articles. In the second phase, we propose a forward lexicon-based maximum matching algorithm to split down the hashtag, email, URL, and contact name. The experimental results of the tagging phase show that the average F1 scores of the BiLSTM-CNN-CRF and CRF models are above 90.00%, reaching the highest F1 of 95.00% with the BERT-BiGRU-CRF model. Overall, our approach has low sentence error rates, at 8.15% with CRF and 7.11% with BiLSTM-CNN-CRF taggers, and only 6.67% with BERT-BiGRU-CRF tagger.
翻訳日:2022-09-08 12:24:58 公開日:2022-09-07
# 視覚質問応答における言語間一般化の改善

Improving the Cross-Lingual Generalisation in Visual Question Answering ( http://arxiv.org/abs/2209.02982v1 )

ライセンス: Link先を確認
Farhad Nooralahzadeh, Rico Sennrich(参考訳) マルチリンガル・ビジョン言語事前学習モデルにはいくつかの利点が得られたが、近年の様々なタスクや言語に対するベンチマークでは、英語以外のデータに多言語事前学習型ビジョン言語モデルを適用すると、言語間一般化が不十分であることが示されている。 本研究は,英語の視覚探索データに基づいてモデルを微調整し,類型的に多様な7つの言語で評価する,ゼロショット言語間視覚質問応答(VQA)タスクにおいて,これらのモデルの低性能について検討する。 1) 学習中にモデルを導出するために類似性に基づく損失による相互エントロピー損失を増大させる言語的目標を導入し, (2) 言語間一般化を改善し,モデルの修正なしに分散を低減できるタスク固有サブネットワークを学習し,(3) 合成コード混合を用いた訓練例を補強し,ソース言語とターゲット言語間の埋め込みのアライメントを促進する。 事前学習した多言語マルチモーダルトランスフォーマーuc2とm3pを用いたxgqa実験により,提案する7言語における微調整戦略が,スパースモデルによる既存転送法を上回った。 調査結果を再現するためのコードとデータは公開されています。

While several benefits were realized for multilingual vision-language pretrained models, recent benchmarks across various tasks and languages showed poor cross-lingual generalisation when multilingually pre-trained vision-language models are applied to non-English data, with a large gap between (supervised) English performance and (zero-shot) cross-lingual transfer. In this work, we explore the poor performance of these models on a zero-shot cross-lingual visual question answering (VQA) task, where models are fine-tuned on English visual-question data and evaluated on 7 typologically diverse languages. We improve cross-lingual transfer with three strategies: (1) we introduce a linguistic prior objective to augment the cross-entropy loss with a similarity-based loss to guide the model during training, (2) we learn a task-specific subnetwork that improves cross-lingual generalisation and reduces variance without model modification, (3) we augment training examples using synthetic code-mixing to promote alignment of embeddings between source and target languages. Our experiments on xGQA using the pretrained multilingual multimodal transformers UC2 and M3P demonstrate the consistent effectiveness of the proposed fine-tuning strategy for 7 languages, outperforming existing transfer methods with sparse models. Code and data to reproduce our findings are publicly available.
翻訳日:2022-09-08 12:24:23 公開日:2022-09-07
# 知識ベース質問応答のための知識強化反復的指導生成と推論

Knowledge-enhanced Iterative Instruction Generation and Reasoning for Knowledge Base Question Answering ( http://arxiv.org/abs/2209.03005v1 )

ライセンス: Link先を確認
Haowei Du, Quzhe Huang, Chen Zhang, and Dongyan Zhao(参考訳) KBQA (Multi-hop Knowledge Base Question Answering) は、質問に言及されたトピックエンティティからのいくつかのホップである知識ベースで回答エンティティを見つけることを目的としている。 既存のRetrievalベースのアプローチでは、まず質問から指示を生成し、知識グラフ上のマルチホップ推論をガイドする。 命令は推論手順全体の間に固定され、知識グラフは命令生成では考慮されないため、中間のエンティティが誤って予測されると、モデルがその誤りを修正できない。 そこで我々はKBIGER(Knowledge Base Iterative Instruction GEnerating and Reasoning)を提案する。 推論の前にすべての命令を生成する代わりに、(k-1)-th推論グラフを使ってk-th命令を構築する。 このようにして、モデルはグラフから予測をチェックし、中間エンティティの誤った予測を修正するための新しい命令を生成することができる。 我々は2つのマルチホップKBQAベンチマークの実験を行い、既存のアプローチを上回り、新しい最先端技術となった。 さらに,中間エンティティの不正確な予測を検知し,その誤りを修正できることを示す実験を行った。

Multi-hop Knowledge Base Question Answering(KBQA) aims to find the answer entity in a knowledge base which is several hops from the topic entity mentioned in the question. Existing Retrieval-based approaches first generate instructions from the question and then use them to guide the multi-hop reasoning on the knowledge graph. As the instructions are fixed during the whole reasoning procedure and the knowledge graph is not considered in instruction generation, the model cannot revise its mistake once it predicts an intermediate entity incorrectly. To handle this, we propose KBIGER(Knowledge Base Iterative Instruction GEnerating and Reasoning), a novel and efficient approach to generate the instructions dynamically with the help of reasoning graph. Instead of generating all the instructions before reasoning, we take the (k-1)-th reasoning graph into consideration to build the k-th instruction. In this way, the model could check the prediction from the graph and generate new instructions to revise the incorrect prediction of intermediate entities. We do experiments on two multi-hop KBQA benchmarks and outperform the existing approaches, becoming the new-state-of-the-art. Further experiments show our method does detect the incorrect prediction of intermediate entities and has the ability to revise such errors.
翻訳日:2022-09-08 12:23:52 公開日:2022-09-07
# 犯罪ネットワークにおける機械学習パートナー

Machine Learning Partners in Criminal Networks ( http://arxiv.org/abs/2209.03171v1 )

ライセンス: Link先を確認
Diego D. Lopes, Bruno R. da Cunha, Alvaro F. Martins, Sebastian Goncalves, Ervin K.Lenzi, Quentin S. Hanley, Matjaz Perc, Haroldo V. Ribeiro(参考訳) 近年の研究では、犯罪ネットワークは複雑な組織構造を持っていることが示されているが、それが犯罪ネットワークの静的および動的特性を予測するのに使用できるかどうかはまだ明らかになっていない。 ここでは, グラフ表現学習と機械学習の手法を組み合わせることにより, 政治腐敗, 警察情報, マネーロンダリングネットワークの構造的特性を利用して, 行方不明の犯罪関係を回復し, 異なる種類の刑事・法的関係を区別し, 犯罪エージェント間で交換される資金の総量を予測することができることを示す。 また, 本手法は, 汚職ネットワークの動的成長に伴う今後の犯罪関連を, 高い精度で予測できることを示す。 したがって、犯罪現場で発見された証拠と同様に、犯罪ネットワークの構造的パターンには違法行為に関する重要な情報が含まれていると結論づける。

Recent research has shown that criminal networks have complex organizational structures, but whether this can be used to predict static and dynamic properties of criminal networks remains little explored. Here, by combining graph representation learning and machine learning methods, we show that structural properties of political corruption, police intelligence, and money laundering networks can be used to recover missing criminal partnerships, distinguish among different types of criminal and legal associations, as well as predict the total amount of money exchanged among criminal agents, all with outstanding accuracy. We also show that our approach can anticipate future criminal associations during the dynamic growth of corruption networks with significant accuracy. Thus, similar to evidence found at crime scenes, we conclude that structural patterns of criminal networks carry crucial information about illegal activities, which allows machine learning methods to predict missing information and even anticipate future criminal behavior.
翻訳日:2022-09-08 12:20:03 公開日:2022-09-07
# インド人名から不公平な人格を解読する

Decoding Demographic un-fairness from Indian Names ( http://arxiv.org/abs/2209.03089v1 )

ライセンス: Link先を確認
Medidoddi Vahini, Jalend Bantupalli, Souvic Chakraborty, and Animesh Mukherjee(参考訳) 人口階層分類は、レコメンダシステムにおける公平性評価や、オンラインネットワークや投票システムにおける意図しないバイアスの測定に不可欠である。 教育や政治といった重要な分野は、しばしば社会における平等の未来の基礎を築いており、国内の人口のバランスの取れない分布によって制約される資源分布の平等を育む政策を策定するための精査が必要である。 我々は3つの公開データセットを収集し、性別分類とキャスト分類の領域で最先端の分類器を訓練する。 私たちは、同じ名前が異なるスタイルの慣習を持つことができるインドの文脈でモデルを訓練します(ある州ではJolly Abraham/Kumar Abhishikta、別の州ではAbraham Jolly/Abishikta Kumarと書くことができます)。 最後に、上記のモデルの有効性を理解するために、クロステスト(異なるデータセットでのトレーニングとテスト)も行います。 また,予測モデルの誤り解析を行う。 最後に,既存のインド制度のバイアスを事例研究として評価し,ジェンダーとキャストの次元にまたがるサブ大陸の複雑な人口構造に現れる興味深いパターンを見いだそうとする。

Demographic classification is essential in fairness assessment in recommender systems or in measuring unintended bias in online networks and voting systems. Important fields like education and politics, which often lay a foundation for the future of equality in society, need scrutiny to design policies that can better foster equality in resource distribution constrained by the unbalanced demographic distribution of people in the country. We collect three publicly available datasets to train state-of-the-art classifiers in the domain of gender and caste classification. We train the models in the Indian context, where the same name can have different styling conventions (Jolly Abraham/Kumar Abhishikta in one state may be written as Abraham Jolly/Abishikta Kumar in the other). Finally, we also perform cross-testing (training and testing on different datasets) to understand the efficacy of the above models. We also perform an error analysis of the prediction models. Finally, we attempt to assess the bias in the existing Indian system as case studies and find some intriguing patterns manifesting in the complex demographic layout of the sub-continent across the dimensions of gender and caste.
翻訳日:2022-09-08 12:19:44 公開日:2022-09-07
# 異なる視点への転換:スケルトンに基づく行動認識のための新しいマルチビュー手法

Shifting Perspective to See Difference: A Novel Multi-View Method for Skeleton based Action Recognition ( http://arxiv.org/abs/2209.02986v1 )

ライセンス: Link先を確認
Ruijie Hou, Yanran Li, Ningyu Zhang, Yulin Zhou, Xiaosong Yang, Zhao Wang(参考訳) スケルトンに基づく人間の行動認識は、その複雑なダイナミクスのために長年の課題である。 力学の細部の詳細は分類において重要な役割を担っている。 既存の研究は主に、関節関係の詳細を捉えるために、より複雑な隣接行列を持つインクリメンタルニューラルネットワークの設計に焦点を当てている。 しかし、それらは広く似た動きパターンを持つが、異なるカテゴリーに属する行動の区別が難しい。 興味深いことに、動きパターンの微妙な違いは著しく増幅され、この特性が十分に研究されていない特定の視点の方向を通して、観客が区別しやすくなることに気付きました。 従来の作業とは大きく異なり、動的ビューの特徴の集合からアクションを認識する概念的にシンプルで効果的なマルチビュー戦略を提案することにより、パフォーマンスを向上させる。 具体的には,一連のビューを学習するためのマルチヘッド構造を含む新しいスケルトン・アンカー・プロポーザル(sap)モジュールを設計する。 異なるビューに対する特徴学習のために,異なるビューの下でのアクションを変換し,ベースラインモデルに変換する新しい角度表現を導入する。 私たちのモジュールは、既存のアクション分類モデルとシームレスに連携できます。 ベースラインモデルと組み合わせたSAPモジュールは、多くの困難なベンチマークで明らかなパフォーマンス向上を示す。 さらに包括的実験により,本モデルは最先端のデータを一貫して打ち負かし,特に破損したデータを扱う場合においても有効かつ堅牢なままであることが示された。 関連コードはhttps://github.com/ideal-idea/SAP で入手できる。

Skeleton-based human action recognition is a longstanding challenge due to its complex dynamics. Some fine-grain details of the dynamics play a vital role in classification. The existing work largely focuses on designing incremental neural networks with more complicated adjacent matrices to capture the details of joints relationships. However, they still have difficulties distinguishing actions that have broadly similar motion patterns but belong to different categories. Interestingly, we found that the subtle differences in motion patterns can be significantly amplified and become easy for audience to distinct through specified view directions, where this property haven't been fully explored before. Drastically different from previous work, we boost the performance by proposing a conceptually simple yet effective Multi-view strategy that recognizes actions from a collection of dynamic view features. Specifically, we design a novel Skeleton-Anchor Proposal (SAP) module which contains a Multi-head structure to learn a set of views. For feature learning of different views, we introduce a novel Angle Representation to transform the actions under different views and feed the transformations into the baseline model. Our module can work seamlessly with the existing action classification model. Incorporated with baseline models, our SAP module exhibits clear performance gains on many challenging benchmarks. Moreover, comprehensive experiments show that our model consistently beats down the state-of-the-art and remains effective and robust especially when dealing with corrupted data. Related code will be available on https://github.com/ideal-idea/SAP .
翻訳日:2022-09-08 12:18:23 公開日:2022-09-07
# 脳の形態保存型自己回帰3次元生成モデル

Morphology-preserving Autoregressive 3D Generative Modelling of the Brain ( http://arxiv.org/abs/2209.03177v1 )

ライセンス: Link先を確認
Petru-Daniel Tudosiu, Walter Hugo Lopez Pinaya, Mark S. Graham, Pedro Borges, Virginia Fernandez, Dai Yang, Jeremy Appleyard, Guido Novati, Disha Mehra, Mike Vella, Parashkev Nachev, Sebastien Ourselin and Jorge Cardoso(参考訳) ヒトの解剖学、形態学、および関連する疾患は、医療画像データを用いて研究することができる。 しかしながら、医療画像データへのアクセスは、ガバナンスやプライバシの懸念、データの所有、取得コストによって制限されるため、人間の身体を理解する能力は制限される。 この問題に対する可能な解決策は、人間の身体の特定の特性(例えば、年齢、性別、疾患の状態)に基づいて学習し、合成画像を生成することができるモデルの作成である。 ニューラルネットワークの形で、深層生成モデルは、最近、自然シーンの合成2D画像を作成するために使用されている。 それでも、正しい解剖学的形態を持つ高解像度の3次元体積画像データを作成する能力は、データの不足とアルゴリズム的および計算的制限によって妨げられている。 本研究では、解剖学的に正確で高解像度でリアルな人間の脳の画像を生成するためにスケールできる生成モデルを提案する。 潜在的に無制限な量のデータを生成する能力は、患者のプライバシーを損なうことなく、人間の解剖学と病理学の大規模な研究を可能にするだけでなく、異常検出、モダリティ合成、限られたデータによる学習、公正で倫理的なAIの研究を著しく前進させる。 コードとトレーニングされたモデルは、https://github.com/AmigoLab/SynthAnatomy.comで入手できる。

Human anatomy, morphology, and associated diseases can be studied using medical imaging data. However, access to medical imaging data is restricted by governance and privacy concerns, data ownership, and the cost of acquisition, thus limiting our ability to understand the human body. A possible solution to this issue is the creation of a model able to learn and then generate synthetic images of the human body conditioned on specific characteristics of relevance (e.g., age, sex, and disease status). Deep generative models, in the form of neural networks, have been recently used to create synthetic 2D images of natural scenes. Still, the ability to produce high-resolution 3D volumetric imaging data with correct anatomical morphology has been hampered by data scarcity and algorithmic and computational limitations. This work proposes a generative model that can be scaled to produce anatomically correct, high-resolution, and realistic images of the human brain, with the necessary quality to allow further downstream analyses. The ability to generate a potentially unlimited amount of data not only enables large-scale studies of human anatomy and pathology without jeopardizing patient privacy, but also significantly advances research in the field of anomaly detection, modality synthesis, learning under limited data, and fair and ethical AI. Code and trained models are available at: https://github.com/AmigoLab/SynthAnatomy.
翻訳日:2022-09-08 12:17:59 公開日:2022-09-07
# platypusってどんな感じ? ゼロショット画像分類のためのカスタマイズプロンプトの生成

What does a platypus look like? Generating customized prompts for zero-shot image classification ( http://arxiv.org/abs/2209.03320v1 )

ライセンス: Link先を確認
Sarah Pratt, Rosanne Liu, Ali Farhadi(参考訳) オープン語彙モデルは画像分類の新しいパラダイムとして有望である。 従来の分類モデルとは異なり、オープン語彙モデルは推論中に自然言語で指定された任意のカテゴリの集合を分類する。 この自然言語は "prompts" と呼ばれ、典型的には手書きのテンプレート(例えば "a photo of a {}")で構成されており、それぞれのカテゴリ名で完結している。 本研究は,画像領域の明示的な知識を使わずに,より高精度なプロンプトを生成するための簡易な手法を提案する。 これを実現するために、オープン語彙モデルと大きな言語モデル(LLM)を組み合わせて、言語モデル(CuPL)によるカスタマイズプロンプトを作成する。 特に、LLMに含まれる知識を活用して、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。 この単純で一般的なアプローチは、画像ネットの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を向上させる。 最後に、この方法は追加の訓練を必要とせず、完全にゼロショットのままである。 コードはhttps://github.com/sarahpratt/cuplで入手できる。

Open vocabulary models are a promising new paradigm for image classification. Unlike traditional classification models, open vocabulary models classify among any arbitrary set of categories specified with natural language during inference. This natural language, called "prompts", typically consists of a set of hand-written templates (e.g., "a photo of a {}") which are completed with each of the category names. This work introduces a simple method to generate higher accuracy prompts, without using explicit knowledge of the image domain and with far fewer hand-constructed sentences. To achieve this, we combine open vocabulary models with large language models (LLMs) to create Customized Prompts via Language models (CuPL, pronounced "couple"). In particular, we leverage the knowledge contained in LLMs in order to generate many descriptive sentences that are customized for each object category. We find that this straightforward and general approach improves accuracy on a range of zero-shot image classification benchmarks, including over one percentage point gain on ImageNet. Finally, this method requires no additional training and remains completely zero-shot. Code is available at https://github.com/sarahpratt/CuPL.
翻訳日:2022-09-08 12:14:46 公開日:2022-09-07
# SIRA:1枚の画像から楽しめるアバター

SIRA: Relightable Avatars from a Single Image ( http://arxiv.org/abs/2209.03027v1 )

ライセンス: Link先を確認
Pol Caselles, Eduard Ramon, Jaime Garcia, Xavier Giro-i-Nieto, Francesc Moreno-Noguer, Gil Triginer(参考訳) 人間の頭部の形状を1つの画像から復元し、材料と照明を分解することは、事前情報を必要とする深刻な問題である。 3次元モーファブルモデル(3dmm)と微分可能なレンダラの組み合わせに基づく手法は、有望な結果を示している。 しかし、3dmmの表現性は限られており、通常は顔領域に制限される過剰なスムースとアイデンティティを欠く3d形状が得られる。 近年,多層パーセプトロンを用いて形状をパラメータ化するニューラルネットワークを用いて,高精度な全頭部再構成を行った。 これらの表現の汎用性は、幾何学、材料、照明の分離にも有効であることが証明されている。 しかし、これらの手法は数十の入力画像を必要とする。 本稿では,単一の画像から人間の頭部アバターを高忠実度な形状で再構成し,光や表面物質を分解する手法であるSIRAを紹介する。 主成分は2つのデータ駆動型統計モデルであり,単視点3次元表面再構成と出現因子化のあいまいさを解消するニューラルフィールドに基づく。 実験の結果,SIRAは3次元頭部再建術の成績が得られたが,同時に大域照明と拡散・明細アルベドを解離させることに成功した。 さらに,本再建は,身体的な外観編集やヘッドモデルライティングに有用である。

Recovering the geometry of a human head from a single image, while factorizing the materials and illumination is a severely ill-posed problem that requires prior information to be solved. Methods based on 3D Morphable Models (3DMM), and their combination with differentiable renderers, have shown promising results. However, the expressiveness of 3DMMs is limited, and they typically yield over-smoothed and identity-agnostic 3D shapes limited to the face region. Highly accurate full head reconstructions have recently been obtained with neural fields that parameterize the geometry using multilayer perceptrons. The versatility of these representations has also proved effective for disentangling geometry, materials and lighting. However, these methods require several tens of input images. In this paper, we introduce SIRA, a method which, from a single image, reconstructs human head avatars with high fidelity geometry and factorized lights and surface materials. Our key ingredients are two data-driven statistical models based on neural fields that resolve the ambiguities of single-view 3D surface reconstruction and appearance factorization. Experiments show that SIRA obtains state of the art results in 3D head reconstruction while at the same time it successfully disentangles the global illumination, and the diffuse and specular albedos. Furthermore, our reconstructions are amenable to physically-based appearance editing and head model relighting.
翻訳日:2022-09-08 12:14:27 公開日:2022-09-07
# 重要なハードウェア欠陥:オブジェクト検出DNNにおけるハードウェア障害の安全性への影響の理解と推定

Hardware faults that matter: Understanding and Estimating the safety impact of hardware faults on object detection DNNs ( http://arxiv.org/abs/2209.03225v1 )

ライセンス: Link先を確認
Syed Qutub, Florian Geissler, Yang Peng, Ralf Grafe, Michael Paulitsch, Gereon Hinz, Alois Knoll(参考訳) オブジェクト検出ニューラルネットワークモデルは、自動運転やロボティクスのような高度に動的かつ安全性に重要な環境で確実に実行する必要がある。 したがって、システム知覚モジュールに影響を及ぼすソフトエラーのような予期せぬハードウェア障害の下で検出のロバスト性を検証するのが最重要である。 平均精度に基づく標準メトリクスは、画像レベルではなく、オブジェクトレベルでモデルの脆弱性を推定する。 本稿では,本論文で示すように,基礎記憶におけるビットフリップによるサイレントデータの破損による安全性への影響を直感的あるいは代表的に示すものではないが,典型的な障害による危険の過度あるいは過小評価につながる可能性がある。 安全性関連リアルタイムアプリケーションに向けて,偽陽性 (fps) や偽陰性 (fns) オブジェクトによる不正確な画像検出に基づく脆弱性を定量化する新しい指標 ivmod (image-wise vulnerability metric for object detection) を提案する。 いくつかの代表的なオブジェクト検出モデルの評価は、単一のビットフリップでさえ、潜在的に重大な安全性に影響を及ぼす可能性のある、深刻なサイレントデータ破損イベントにつながる可能性があることを示している。 画像中の真陽性(TP)の90%が失われる。 さらに、単一のt-at-1フォールトでは、画像全体のシーケンスが影響を受け、時間的に永続的なゴースト検出が発生し、実際のオブジェクト(画像の約83%)と誤認される。 さらに、シーン内の実際のオブジェクトは、連続的に見逃される(TPの約64%が失われる)。 私たちの研究は、ハードウェア障害に対する重要なワークロードの安全性に関する脆弱性の詳細な理解を確立します。

Object detection neural network models need to perform reliably in highly dynamic and safety-critical environments like automated driving or robotics. Therefore, it is paramount to verify the robustness of the detection under unexpected hardware faults like soft errors that can impact a systems perception module. Standard metrics based on average precision produce model vulnerability estimates at the object level rather than at an image level. As we show in this paper, this does not provide an intuitive or representative indicator of the safety-related impact of silent data corruption caused by bit flips in the underlying memory but can lead to an over- or underestimation of typical fault-induced hazards. With an eye towards safety-related real-time applications, we propose a new metric IVMOD (Image-wise Vulnerability Metric for Object Detection) to quantify vulnerability based on an incorrect image-wise object detection due to false positive (FPs) or false negative (FNs) objects, combined with a severity analysis. The evaluation of several representative object detection models shows that even a single bit flip can lead to a severe silent data corruption event with potentially critical safety implications, with e.g., up to (much greater than) 100 FPs generated, or up to approx. 90% of true positives (TPs) are lost in an image. Furthermore, with a single stuck-at-1 fault, an entire sequence of images can be affected, causing temporally persistent ghost detections that can be mistaken for actual objects (covering up to approx. 83% of the image). Furthermore, actual objects in the scene are continuously missed (up to approx. 64% of TPs are lost). Our work establishes a detailed understanding of the safety-related vulnerability of such critical workloads against hardware faults.
翻訳日:2022-09-08 12:14:08 公開日:2022-09-07
# Apache Sparkによる分類と回帰のための並列およびストリーミングウェーブレットニューラルネットワーク

Parallel and Streaming Wavelet Neural Networks for Classification and Regression under Apache Spark ( http://arxiv.org/abs/2209.03056v1 )

ライセンス: Link先を確認
Eduru Harindra Venkatesh, Yelleti Vivek, Vadlamani Ravi and Orsu Shiva Shankar(参考訳) ウェーブレットニューラルネットワーク(WNN)は、回帰や分類問題を解くために多くの分野に適用されている。 ビッグデータの出現後、データが不安定なペースで生成されるようになると、データの性質が短時間で劇的に変化する可能性があるため、それが生成されるとすぐに分析することが不可欠である。 これは、ビッグデータが広く普及し、データサイエンティストに計算上の課題を投げかけるという事実によって必要である。 そこで本稿では,並列確率勾配アルゴリズム(SGD)を用いた,スケーラブルで並列化されたウェーブレットニューラルネットワーク(SPWNN)を構築した。 SPWNNは水平並列化フレームワークの静的およびストリーミング環境下で設計・開発されている。 SPWNNは、モレット関数とガウス関数をアクティベーション関数として使用する。 この研究は、400万以上のサンプルを持つガスセンサデータや、1万以上の特徴を持つ医学研究データといった、自然界の高次元なデータセットを用いて行われた。 静的環境におけるspwnnとmorletアクティベーション関数は,分類データセットにおいてgaussianのspwnnよりも優れていた。 しかし, 回帰の場合, 反対の傾向が見られた。 対照的に、ストリーミング環境では、gaussianが分類でmorletを上回り、morletが回帰データセットでgaussianを上回った。 全体として、提案されたSPWNNアーキテクチャは1.32-1.40の高速化を達成した。

Wavelet neural networks (WNN) have been applied in many fields to solve regression as well as classification problems. After the advent of big data, as data gets generated at a brisk pace, it is imperative to analyze it as soon as it is generated owing to the fact that the nature of the data may change dramatically in short time intervals. This is necessitated by the fact that big data is all pervasive and throws computational challenges for data scientists. Therefore, in this paper, we built an efficient Scalable, Parallelized Wavelet Neural Network (SPWNN) which employs the parallel stochastic gradient algorithm (SGD) algorithm. SPWNN is designed and developed under both static and streaming environments in the horizontal parallelization framework. SPWNN is implemented by using Morlet and Gaussian functions as activation functions. This study is conducted on big datasets like gas sensor data which has more than 4 million samples and medical research data which has more than 10,000 features, which are high dimensional in nature. The experimental analysis indicates that in the static environment, SPWNN with Morlet activation function outperformed SPWNN with Gaussian on the classification datasets. However, in the case of regression, the opposite was observed. In contrast, in the streaming environment i.e., Gaussian outperformed Morlet on the classification and Morlet outperformed Gaussian on the regression datasets. Overall, the proposed SPWNN architecture achieved a speedup of 1.32-1.40.
翻訳日:2022-09-08 12:13:34 公開日:2022-09-07
# 多目的最適化におけるアーカイブサイズが計算時間と解品質に及ぼす影響

Effects of Archive Size on Computation Time and Solution Quality for Multi-Objective Optimization ( http://arxiv.org/abs/2209.03100v1 )

ライセンス: Link先を確認
Tianye Shu and Ke Shang and Hisao Ishibuchi and Yang Nan(参考訳) 非有界な外部アーカイブは、いくつかの研究で進化的多目的最適化アルゴリズムによって発見された非支配的な解を格納するために使われてきた。 保存された解から選択された解部分集合が最終集団よりも良いことが示されている。 しかし、非有界アーカイブの使用は必ずしも現実的ではない。 検査されたソリューションの数が大きい場合は、アーカイブサイズを事前に指定する必要があります。 本研究では,アーカイブサイズが3つの側面に与える影響について検討する。 (i)選択された最終解集合の品質 (ii)アーカイブのメンテナンスと最終解決セットの選択の合計計算時間 (iii) 必要なメモリサイズ。 当然ながら、アーカイブサイズの増加によって最終的なソリューションセットの品質が向上する。 興味深いことに、中規模のアーカイブの総計算時間は、小サイズのアーカイブと巨大なアーカイブ(例えば、無制限アーカイブ)よりもはるかに大きい。 計算時間を短縮するため,定期的なアーカイブ更新と後世のアーカイブの2つのアイデアを検討した。 世代毎のアーカイブ更新と比較して、最初のアイデアは、メモリサイズをわずかに増加させるコストで、計算時間をはるかに短縮することで、ほぼ同じ最終的なソリューションセットの品質を得ることができる。 第2のアイデアは、最終解集合の品質がわずかに低下するコストで計算時間を劇的に短縮する。 実験結果から,アーカイブ戦略とアーカイブサイズを適切に選択する方法が提案されている。

An unbounded external archive has been used to store all nondominated solutions found by an evolutionary multi-objective optimization algorithm in some studies. It has been shown that a selected solution subset from the stored solutions is often better than the final population. However, the use of the unbounded archive is not always realistic. When the number of examined solutions is huge, we must pre-specify the archive size. In this study, we examine the effects of the archive size on three aspects: (i) the quality of the selected final solution set, (ii) the total computation time for the archive maintenance and the final solution set selection, and (iii) the required memory size. Unsurprisingly, the increase of the archive size improves the final solution set quality. Interestingly, the total computation time of a medium-size archive is much larger than that of a small-size archive and a huge-size archive (e.g., an unbounded archive). To decrease the computation time, we examine two ideas: periodical archive update and archiving only in later generations. Compared with updating the archive at every generation, the first idea can obtain almost the same final solution set quality using a much shorter computation time at the cost of a slight increase of the memory size. The second idea drastically decreases the computation time at the cost of a slight deterioration of the final solution set quality. Based on our experimental results, some suggestions are given about how to appropriately choose an archiving strategy and an archive size.
翻訳日:2022-09-08 12:13:08 公開日:2022-09-07
# テキスト分類のための意味的対話型学習:文脈相互作用のための構成的アプローチ

Semantic Interactive Learning for Text Classification: A Constructive Approach for Contextual Interactions ( http://arxiv.org/abs/2209.02984v1 )

ライセンス: Link先を確認
Sebastian Kiefer and Mareike Hoffmann(参考訳) 対話型機械学習(Interactive Machine Learning, IML)は、インテリジェントなシステムがエンドユーザからインタラクティブに学習できるようにする。 これは人間をループに配置するが、相互作用は主に文脈情報を見逃す相互説明によって行われる。 さらに、CAIPIのような現在のモデルに依存しないIML戦略は「破壊的」なフィードバックに限られているため、専門家が学習者が無関係な特徴を使用することを防げるだけである。 本稿では,テキスト領域における意味的対話学習という新しいインタラクションフレームワークを提案する。 我々は、構築的および文脈的フィードバックを学習者に組み込む問題を、アーキテクチャを見つけるためのタスクとして組み込む。 a)人間と機械のよりセマンティックなアライメントを可能にする b) 有意な補正に基づいてユーザ定義の反例を生成する際には,入力領域の統計的特性の維持を支援する。 そこで本研究では,人間の概念的修正を,学習者の推論が望ましい行動に向けられるような非補間訓練例に翻訳する上で有効である,semanticpushと呼ばれる手法を提案する。 いくつかの実験では、下流のマルチクラス分類タスクにおいて、予測性能と局所説明品質の観点から、アートIML戦略の状況であるCAIPIよりも明らかに優れていることを示す。

Interactive Machine Learning (IML) shall enable intelligent systems to interactively learn from their end-users, and is quickly becoming more and more important. Although it puts the human in the loop, interactions are mostly performed via mutual explanations that miss contextual information. Furthermore, current model-agnostic IML strategies like CAIPI are limited to 'destructive' feedback, meaning they solely allow an expert to prevent a learner from using irrelevant features. In this work, we propose a novel interaction framework called Semantic Interactive Learning for the text domain. We frame the problem of incorporating constructive and contextual feedback into the learner as a task to find an architecture that (a) enables more semantic alignment between humans and machines and (b) at the same time helps to maintain statistical characteristics of the input domain when generating user-defined counterexamples based on meaningful corrections. Therefore, we introduce a technique called SemanticPush that is effective for translating conceptual corrections of humans to non-extrapolating training examples such that the learner's reasoning is pushed towards the desired behavior. In several experiments, we show that our method clearly outperforms CAIPI, a state of the art IML strategy, in terms of Predictive Performance as well as Local Explanation Quality in downstream multi-class classification tasks.
翻訳日:2022-09-08 12:12:26 公開日:2022-09-07
# 差分プライバシーと古典正規化手法による最適化の有用性と保護について

On the utility and protection of optimization with differential privacy and classic regularization techniques ( http://arxiv.org/abs/2209.03175v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Matteo matteucci(参考訳) 今日では、ディープラーニングモデルのオーナーと開発者は、トレーニングデータの厳密なプライバシー保護ルールを考慮しなければならない。 ディープラーニングモデルのプライバシー保証を強制する最も広く採用されている方法は、ディファレンシャルプライバシを強制する最適化技術に依存している。 文献によると、このアプローチはいくつかのモデルのプライバシ攻撃に対する防御として成功したが、その欠点はモデルのパフォーマンスの大幅な低下である。 本研究では,DP-SGDアルゴリズムの有効性を,正規化手法を用いた標準最適化手法と比較する。 得られたモデルの実用性,訓練性能,および学習モデルに対するメンバーシップ推論とモデル反転攻撃の有効性を分析した。 最後に,ディファレンシャルプライバシの欠陥と限界を議論し,ドロップアウトとl2レギュライゼーションという,より優れたプライバシ保護特性を実証する。

Nowadays, owners and developers of deep learning models must consider stringent privacy-preservation rules of their training data, usually crowd-sourced and retaining sensitive information. The most widely adopted method to enforce privacy guarantees of a deep learning model nowadays relies on optimization techniques enforcing differential privacy. According to the literature, this approach has proven to be a successful defence against several models' privacy attacks, but its downside is a substantial degradation of the models' performance. In this work, we compare the effectiveness of the differentially-private stochastic gradient descent (DP-SGD) algorithm against standard optimization practices with regularization techniques. We analyze the resulting models' utility, training performance, and the effectiveness of membership inference and model inversion attacks against the learned models. Finally, we discuss differential privacy's flaws and limits and empirically demonstrate the often superior privacy-preserving properties of dropout and l2-regularization.
翻訳日:2022-09-08 12:12:05 公開日:2022-09-07
# 調整された非対称精度:快適な外部クラスタ妥当性尺度

Adjusted Asymmetric Accuracy: A Well-Behaving External Cluster Validity Measure ( http://arxiv.org/abs/2209.02935v1 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能しているものを特定し、体系的に失望しているものを取り除きたいと思っています。 クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。 内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。 しかし、その妥当性は疑わしい。なぜなら、彼らが促進するクラスタリングは時々意味をなさない可能性があるからだ。 一方、外部尺度では、アルゴリズムの出力を、専門家が提供した基準である根拠真理グループと比較する。 正規化された相互情報、フクロウケマロ、調整されたランド指数など、一般的に使われる古典的分割類似度スコアは、すべての望ましい特性を有しないかもしれない。 さらに、それらはうまく解釈できない:0.8のスコアが何を意味するかは言いづらい。 その振る舞いは、真のクラスタ数の変化によっても変化する可能性がある。 これにより、多くのベンチマークデータセット間のクラスタリングアルゴリズムの比較が困難になる。 これを解決するために、最適セットマッチング精度の非対称バージョンである新しい尺度を提案し、分析する。 確率とクラスタサイズの不均衡を補正する。

There is no, nor will there ever be, single best clustering algorithm, but we would still like to be able to pinpoint those which are well-performing on certain task types and filter out the systematically disappointing ones. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. Yet, their validity is questionable because the clusterings they promote can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to the reference, ground truth groupings that are provided by experts. The commonly-used classical partition similarity scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted Rand index, might not possess all the desirable properties, e.g., they do not identify pathological edge cases correctly. Furthermore, they are not nicely interpretable: it is hard to say what a score of 0.8 really means. Its behaviour might also vary as the number of true clusters changes. This makes comparing clustering algorithms across many benchmark datasets difficult. To remedy this, we propose and analyse a new measure: an asymmetric version of the optimal set-matching accuracy. It is corrected for chance and the imbalancedness of cluster sizes.
翻訳日:2022-09-08 12:08:54 公開日:2022-09-07
# 適応ラッソに基づくスパースDAG構造学習について

On the Sparse DAG Structure Learning Based on Adaptive Lasso ( http://arxiv.org/abs/2209.02946v1 )

ライセンス: Link先を確認
Danru Xu, Erdun Gao, Wei Huang, Mingming Gong(参考訳) 完全観測データから関連する事象について、DAG(Directed Acyclic Graphs)で表される基礎となるカジュアル構造を学習することは因果推論の重要な部分であるが、組合せ空間と大規模な探索空間のために困難である。 近年の進歩は、この組合せ問題を非巡回性の代数的等式的特徴を利用して連続最適化問題に再考している。 しかし、これらの手法は最適化後の固定閾値ステップに悩まされ、これは数値精度によって小さな値でサイクル誘導エッジや偽発見エッジを除外する柔軟で体系的な方法ではない。 本稿では,正規化項の各パラメータに適応的なペナルティレベルを適用して達成した適応NOTEARS[30]というしきい値のないデータ駆動型DAG構造学習手法を提案する。 適応NOTEARSは特定の条件下でのオラクル特性を享受することを示す。 さらに, シミュレーション実験により, エッジ重みのギャップをゼロに設定することなく, 提案手法の有効性を検証した。

Learning the underlying casual structure, represented by Directed Acyclic Graphs (DAGs), of concerned events from fully-observational data is a crucial part of causal reasoning, but it is challenging due to the combinatorial and large search space. A recent flurry of developments recast this combinatorial problem into a continuous optimization problem by leveraging an algebraic equality characterization of acyclicity. However, these methods suffer from the fixed-threshold step after optimization, which is not a flexible and systematic way to rule out the cycle-inducing edges or false discoveries edges with small values caused by numerical precision. In this paper, we develop a data-driven DAG structure learning method without the predefined threshold, called adaptive NOTEARS [30], achieved by applying adaptive penalty levels to each parameters in the regularization term. We show that adaptive NOTEARS enjoys the oracle properties under some specific conditions. Furthermore, simulation experimental results validate the effectiveness of our method, without setting any gap of edges weights around zero.
翻訳日:2022-09-08 12:08:33 公開日:2022-09-07
# マルチタスク問題のための特徴空間のベイズ学習

Bayesian learning of feature spaces for multitasks problems ( http://arxiv.org/abs/2209.03028v1 )

ライセンス: Link先を確認
Carlos Sevilla-Salcedo, Ascensi\'on Gallardo-Antol\'in, Vanessa G\'omez-Verdejo, Emilio Parrado-Hern\'andez(参考訳) 本稿では,マルチタスク回帰のための非線形,擬似,浅いモデルを構築するためのベイズ的枠組みを提案する。 提案するフレームワークは,Random Fourier Features (RFFs) がRBFカーネルを,秘密層をRFFで形成した極端学習マシンで近似できるという事実に依拠している。 主なアイデアは、スパースベイズ型エクストリーム学習マシンをマルチタスク問題に拡張する単一のベイズ式の下で、同じモデルの2重ビューを組み合わせることである。 カーネル法の観点から、提案する定式化は、RBFカーネルパラメータによる事前ドメイン知識の導入を促進する。 極端な学習機械の観点からすると、新しい定式化はオーバーフィッティングを制御し、同種の全体モデルを可能にする(各タスクに仕えるモデルは、共同ベイズ最適化で選択された同一のRFFを共有する)。 実験の結果,同一フレームワーク内でカーネルメソッドとエクストリームラーニングマシンの利点を組み合わせると,これら2つのパラダイムのそれぞれが独立して達成したパフォーマンスが大幅に向上する可能性が示された。

This paper presents a Bayesian framework to construct non-linear, parsimonious, shallow models for multitask regression. The proposed framework relies on the fact that Random Fourier Features (RFFs) enables the approximation of an RBF kernel by an extreme learning machine whose hidden layer is formed by RFFs. The main idea is to combine both dual views of a same model under a single Bayesian formulation that extends the Sparse Bayesian Extreme Learning Machines to multitask problems. From the kernel methods point of view, the proposed formulation facilitates the introduction of prior domain knowledge through the RBF kernel parameter. From the extreme learning machines perspective, the new formulation helps control overfitting and enables a parsimonious overall model (the models that serve each task share a same set of RFFs selected within the joint Bayesian optimisation). The experimental results show that combining advantages from kernel methods and extreme learning machines within the same framework can lead to significant improvements in the performance achieved by each of these two paradigms independently.
翻訳日:2022-09-08 12:08:14 公開日:2022-09-07
# 非ガウス過程回帰

Non-Gaussian Process Regression ( http://arxiv.org/abs/2209.03117v1 )

ライセンス: Link先を確認
Yaman K{\i}ndap and Simon Godsill(参考訳) 標準GPは、優れたプロセスのための柔軟なモデリングツールを提供する。 しかし、ガウス性からの逸脱は現実世界のデータセットに現れ、構造的異常や衝撃が日常的に観測される。 このような場合、gpsは不確かさを適切にモデル化できず、過剰なスムース推論を行う可能性がある。 ここでは、GPフレームワークを時間的に変化した新しいGPのクラスに拡張し、重尾の非ガウス的挙動の簡単なモデリングを可能にし、非均一なGP表現の無限混合を通して、トラクタブル条件GP構造を保持する。 条件付きgp構造は、潜在変換された入力空間上の観測を条件付けし、潜在変換のランダム進化をl\'{e}vy過程を用いてモデル化し、後方予測密度と潜在変換関数の両方においてベイズ推論を可能にする。 このモデルに対するマルコフ連鎖モンテカルロ推論手順を提案し、標準GPと比較して潜在的な利点を示す。

Standard GPs offer a flexible modelling tool for well-behaved processes. However, deviations from Gaussianity are expected to appear in real world datasets, with structural outliers and shocks routinely observed. In these cases GPs can fail to model uncertainty adequately and may over-smooth inferences. Here we extend the GP framework into a new class of time-changed GPs that allow for straightforward modelling of heavy-tailed non-Gaussian behaviours, while retaining a tractable conditional GP structure through an infinite mixture of non-homogeneous GPs representation. The conditional GP structure is obtained by conditioning the observations on a latent transformed input space and the random evolution of the latent transformation is modelled using a L\'{e}vy process which allows Bayesian inference in both the posterior predictive density and the latent transformation function. We present Markov chain Monte Carlo inference procedures for this model and demonstrate the potential benefits compared to a standard GP.
翻訳日:2022-09-08 12:07:56 公開日:2022-09-07
# amortized infered saliency map によるネットワークプルーニングの制御

Interpretations Steered Network Pruning via Amortized Inferred Saliency Maps ( http://arxiv.org/abs/2209.02869v1 )

ライセンス: Link先を確認
Alireza Ganjdanesh, Shangqian Gao and Heng Huang(参考訳) 限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。 CNNの既存のチャネルプルーニングアルゴリズムは、複雑なモデルで多くの成功を収めている。 彼らは様々な観点からプルーニング問題にアプローチし、異なるメトリクスを使ってプルーニングプロセスを導く。 しかし、これらの指標は主にモデルの「出力」または「重み」に焦点を当て、その「解釈」情報を無視している。 このギャップを埋めるために,モデルの解釈を活用し,モデルの入力と出力の両方の情報を活用することにより,新たな視点からチャネルプルーニング問題に対処することを提案する。 しかし, 既存の解釈手法は, プルーニングの非効率性や非コヒーレントな説明を予測できるため, 我々の目標を達成するために展開できない。 この課題に対して,実時間スムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入する。 我々は,放射基底関数(RBF)様関数による説明マスクの分布をパラメータ化し,自然画像の幾何学的先行をセレクタモデルの帰納バイアスに組み込む。 これにより, 説明のコンパクトな表現を得ることができ, プルーニング法の計算コストを低減できる。 我々はセレクタモデルを利用してネットワークプルーニングを操り、プルーンドモデルとオリジナルモデルとの説明表現の類似性を最大化する。 CIFAR-10とImageNetベンチマークデータセットの大規模な実験により,提案手法の有効性が示された。 我々の実装は \url{https://github.com/Alii-Ganjj/InterpretationsSteeredPruning} で利用可能です。

Convolutional Neural Networks (CNNs) compression is crucial to deploying these models in edge devices with limited resources. Existing channel pruning algorithms for CNNs have achieved plenty of success on complex models. They approach the pruning problem from various perspectives and use different metrics to guide the pruning process. However, these metrics mainly focus on the model's `outputs' or `weights' and neglect its `interpretations' information. To fill in this gap, we propose to address the channel pruning problem from a novel perspective by leveraging the interpretations of a model to steer the pruning process, thereby utilizing information from both inputs and outputs of the model. However, existing interpretation methods cannot get deployed to achieve our goal as either they are inefficient for pruning or may predict non-coherent explanations. We tackle this challenge by introducing a selector model that predicts real-time smooth saliency masks for pruned models. We parameterize the distribution of explanatory masks by Radial Basis Function (RBF)-like functions to incorporate geometric prior of natural images in our selector model's inductive bias. Thus, we can obtain compact representations of explanations to reduce the computational costs of our pruning method. We leverage our selector model to steer the network pruning by maximizing the similarity of explanatory representations for the pruned and original models. Extensive experiments on CIFAR-10 and ImageNet benchmark datasets demonstrate the efficacy of our proposed method. Our implementations are available at \url{https://github.com/Alii-Ganjj/InterpretationsSteeredPruning}
翻訳日:2022-09-08 12:06:35 公開日:2022-09-07
# 高次元(ロバスト)ワッサースタインアライメントに対するデータ依存的アプローチ

A Data-dependent Approach for High Dimensional (Robust) Wasserstein Alignment ( http://arxiv.org/abs/2209.02905v1 )

ライセンス: Link先を確認
Hu Ding, Wenjie Liu, Mingquan Ye(参考訳) 多くの実世界の問題は、2つの幾何学的パターンのアライメントとして定式化することができる。 これまで多くの研究が、コンピュータビジョンの分野における2dまたは3dパターンのアライメントに焦点を当ててきた。 近年,高次元のアライメント問題にいくつかの新しい応用が提案されている。 しかし、この研究はアルゴリズム的な側面ではまだ限られている。 我々の知る限りでは、既存のほとんどのアプローチは2次元および3次元のケースに対する単純な拡張であり、高い計算複雑性のような問題に悩まされることが多い。 本稿では,高次元幾何学パターンを圧縮する効果的な枠組みを提案する。 既存のアライメント法は圧縮幾何パターンに適用でき、時間の複雑さを大幅に削減できる。 我々の考えは、高次元データはしばしば本質的な次元が低いという観察にインスパイアされている。 我々のフレームワークは「データに依存した」アプローチであり、入力データの本質的な次元に依存する複雑さを持つ。 実験結果から, 圧縮パターン上でのアライメントアルゴリズムの実行は, 元のパターンと比較すると, 同様の特性が得られることがわかったが, 実行時(圧縮にかかる時間を含む)は著しく低い。

Many real-world problems can be formulated as the alignment between two geometric patterns. Previously, a great amount of research focus on the alignment of 2D or 3D patterns in the field of computer vision. Recently, the alignment problem in high dimensions finds several novel applications in practice. However, the research is still rather limited in the algorithmic aspect. To the best of our knowledge, most existing approaches are just simple extensions of their counterparts for 2D and 3D cases, and often suffer from the issues such as high computational complexities. In this paper, we propose an effective framework to compress the high dimensional geometric patterns. Any existing alignment method can be applied to the compressed geometric patterns and the time complexity can be significantly reduced. Our idea is inspired by the observation that high dimensional data often has a low intrinsic dimension. Our framework is a "data-dependent" approach that has the complexity depending on the intrinsic dimension of the input data. Our experimental results reveal that running the alignment algorithm on compressed patterns can achieve similar qualities, comparing with the results on the original patterns, but the runtimes (including the times cost for compression) are substantially lower.
翻訳日:2022-09-08 12:06:09 公開日:2022-09-07
# 生成カプセルモデルの推論と学習

Inference and Learning for Generative Capsule Models ( http://arxiv.org/abs/2209.03115v1 )

ライセンス: Link先を確認
Alfredo Nazabal, Nikolaos Tsagkas, Christopher K. I. Williams(参考訳) カプセルネットワーク(Hinton et al., 2018)は、オブジェクトとその部分の関係に関する知識と推論を符号化することを目的としている。 本稿では,このようなデータの生成モデルを定義し,シーン内の各モデルオブジェクトの変換と観察された部分のオブジェクトへの割り当てを推定するための変分アルゴリズムを導出する。 変動予測最大化に基づく対象モデルの学習アルゴリズムを導出する(Jordan et al., 1999)。 また,fischler and bolles (1981) のransac法に基づく代替推論アルゴリズムについても検討した。 これらの推論手法を (i)正方形や三角形などの複数の幾何学的対象から生成されたデータ、及び (ii)顔の部品モデルによるデータ。 kosiorekらによる最近の研究(2019年)では、この問題を解決するために、stacked capsule autoencoder(scaes)による償却推論が使用されています。

Capsule networks (see e.g. Hinton et al., 2018) aim to encode knowledge of and reason about the relationship between an object and its parts. In this paper we specify a generative model for such data, and derive a variational algorithm for inferring the transformation of each model object in a scene, and the assignments of observed parts to the objects. We derive a learning algorithm for the object models, based on variational expectation maximization (Jordan et al., 1999). We also study an alternative inference algorithm based on the RANSAC method of Fischler and Bolles (1981). We apply these inference methods to (i) data generated from multiple geometric objects like squares and triangles ("constellations"), and (ii) data from a parts-based model of faces. Recent work by Kosiorek et al. (2019) has used amortized inference via stacked capsule autoencoders (SCAEs) to tackle this problem -- our results show that we significantly outperform them where we can make comparisons (on the constellations data).
翻訳日:2022-09-08 12:05:52 公開日:2022-09-07
# 小型バイオメディカルトランスの有効性について

On the Effectiveness of Compact Biomedical Transformers ( http://arxiv.org/abs/2209.03182v1 )

ライセンス: Link先を確認
Omid Rohanian, Mohammadmahdi Nouriborji, Samaneh Kouchaki, David A. Clifton(参考訳) BioBERTのようなバイオメディカルコーパスで事前訓練された言語モデルは、最近下流のバイオメディカルタスクにおいて有望な結果を示した。 一方、既存の事前学習モデルの多くは、埋め込みサイズ、隠れ次元、層数などの要因により、資源集約的で計算的に重いものである。 自然言語処理(nlp)コミュニティは、刈り取り、量子化、知識蒸留といった技術を利用してこれらのモデルを圧縮する多くの戦略を開発しており、その結果、かなり速く、小さく、そしてその後、実際に使いやすくなった。 また,本論文では,バイオディスティルバート,BioTinyBERT,BioMobileBERT,DistilBioBERT,TinyBioBERT,CompactBioBERTの6つの軽量モデルを紹介する。 3つのバイオメディカルなタスクで全てのモデルを評価し、それらをBioBERT-v1.1と比較し、より大規模なモデルと同等の効率の良い軽量モデルを作成する。 実験に使用されたコードはhttps://github.com/nlpie-research/Compact-Biomedical-Transformersで公開されます。

Language models pre-trained on biomedical corpora, such as BioBERT, have recently shown promising results on downstream biomedical tasks. Many existing pre-trained models, on the other hand, are resource-intensive and computationally heavy owing to factors such as embedding size, hidden dimension, and number of layers. The natural language processing (NLP) community has developed numerous strategies to compress these models utilising techniques such as pruning, quantisation, and knowledge distillation, resulting in models that are considerably faster, smaller, and subsequently easier to use in practice. By the same token, in this paper we introduce six lightweight models, namely, BioDistilBERT, BioTinyBERT, BioMobileBERT, DistilBioBERT, TinyBioBERT, and CompactBioBERT which are obtained either by knowledge distillation from a biomedical teacher or continual learning on the Pubmed dataset via the Masked Language Modelling (MLM) objective. We evaluate all of our models on three biomedical tasks and compare them with BioBERT-v1.1 to create efficient lightweight models that perform on par with their larger counterparts. All the models will be publicly available on our Huggingface profile at https://huggingface.co/nlpie and the codes used to run the experiments will be available at https://github.com/nlpie-research/Compact-Biomedical-Transformers.
翻訳日:2022-09-08 12:02:47 公開日:2022-09-07
# 事前学習型分類器VGG-19による植物種分類

Plant Species Classification Using Transfer Learning by Pretrained Classifier VGG-19 ( http://arxiv.org/abs/2209.03076v1 )

ライセンス: Link先を確認
Thiru Siddharth, Bhupendra Singh Kirar, Dheeraj Kumar Agrawal(参考訳) ディープラーニングは現在、音声認識、コンピュータビジョン、画像分類、医療画像解析など、機械学習の最も重要な分野である。 植物認識は、葉を通して植物種を識別するために画像分類が用いられる領域の1つである。 植物学者は個人的な検査によって植物種を認識することにかなりの時間を費やした。 本稿では,スウェーデン葉の色像の解剖と植物種同定について述べる。 高精度化のために、事前訓練された分類器VGG-19の助けを借りて、転送学習を用いてタスクを完了する。 分類の4つの主要なプロセスは、画像前処理、画像増補、特徴抽出、認識であり、全体のモデル評価の一部として行われる。 vgg-19分類器は、畳み込み層、最大プーリング層、完全連結層などの予め定義された隠れた層を用いて葉の特性を把握し、最終的にソフトマックス層を使用してすべての植物クラスの特徴表現を生成する。 このモデルは、15のツリークラスを含むスウェーデンのリーフデータセットの側面に関連する知識を取得し、以前の研究よりも高い99.70%の精度で未知の植物の適切なクラスを予測するのに役立つ。

Deep learning is currently the most important branch of machine learning, with applications in speech recognition, computer vision, image classification, and medical imaging analysis. Plant recognition is one of the areas where image classification can be used to identify plant species through their leaves. Botanists devote a significant amount of time to recognizing plant species by personally inspecting. This paper describes a method for dissecting color images of Swedish leaves and identifying plant species. To achieve higher accuracy, the task is completed using transfer learning with the help of pre-trained classifier VGG-19. The four primary processes of classification are image preprocessing, image augmentation, feature extraction, and recognition, which are performed as part of the overall model evaluation. The VGG-19 classifier grasps the characteristics of leaves by employing pre-defined hidden layers such as convolutional layers, max pooling layers, and fully connected layers, and finally uses the soft-max layer to generate a feature representation for all plant classes. The model obtains knowledge connected to aspects of the Swedish leaf dataset, which contains fifteen tree classes, and aids in predicting the proper class of an unknown plant with an accuracy of 99.70% which is higher than previous research works reported.
翻訳日:2022-09-08 12:02:19 公開日:2022-09-07
# infact: 会話レコメンデーションのためのオンライン人間評価フレームワーク

INFACT: An Online Human Evaluation Framework for Conversational Recommendation ( http://arxiv.org/abs/2209.03213v1 )

ライセンス: Link先を確認
Ahtsham Manzoor, Dietmar jannach(参考訳) conversational recommender systems (crs) は対話型エージェントであり、マルチターン会話を通じてユーザーをレコメンデーションに関連した目標に支援する。 一般に、CRSは様々な次元で評価することができる。 今日のCRSは、主に、異なるベースラインと比較してアルゴリズムのパフォーマンスを評価するためのオフライン(計算)尺度に依存しています。 しかし、例えば、新たに生成された応答と地上の真実を比較するためのメトリクスが人間の知覚と相関しない場合、様々な代替の応答が与えられたダイアログの状況にも適している可能性があるため、オフライン測度には制限がある。 したがって、機械学習に基づくCRSモデルに関する現在の研究は、CRSのような高度にインタラクティブなシステムを評価するのに純粋なオフライン対策が十分でないことを知って、評価プロセスにおける人間の重要性を認めている。

Conversational recommender systems (CRS) are interactive agents that support their users in recommendation-related goals through multi-turn conversations. Generally, a CRS can be evaluated in various dimensions. Today's CRS mainly rely on offline(computational) measures to assess the performance of their algorithms in comparison to different baselines. However, offline measures can have limitations, for example, when the metrics for comparing a newly generated response with a ground truth do not correlate with human perceptions, because various alternative generated responses might be suitable too in a given dialog situation. Current research on machine learning-based CRS models therefore acknowledges the importance of humans in the evaluation process, knowing that pure offline measures may not be sufficient in evaluating a highly interactive system like a CRS.
翻訳日:2022-09-08 12:01:58 公開日:2022-09-07
# ランダム長エピソードMDPに対するモンテカルロUCBの収束性について

On the Convergence of Monte Carlo UCB for Random-Length Episodic MDPs ( http://arxiv.org/abs/2209.02864v1 )

ライセンス: Link先を確認
Zixuan Dong, Che Wang, Keith Ross(参考訳) 強化学習において、モンテカルロアルゴリズムはエピソディックの戻り値平均化によってq関数を更新する。 モンテカルロ UCB (MC-UCB) アルゴリズムでは、各状態における作用は、Q関数と UCB 探索項を最大化する作用であり、より頻度の低い反応の選択に偏っている。 mc-ucbの後悔の限界を確立する作業は盛んに行われているが、その仕事の大部分は問題の有限ホリゾンバージョンに焦点を当てており、各エピソードは一定数のステップの後に終了する。 このような有限水平問題に対して、最適ポリシーは現在の状態とエピソード内の時間の両方に依存する。 しかし、goやチェス、ロボットタスクといった多くの自然なエピソディクス問題では、エピソードはランダムな長さであり、最適なポリシーは静止している。 そのような環境では、MC-UCB の Q-函数が最適 Q 関数に収束するかどうかが明らかな問題であり、Q-ラーニングとは異なり、全ての MDP に対して収束しないと推測する。 それでも、ブラックジャックのような確率的 MDP や Go のような決定論的 MDP を含む大規模な MDP に対して、MC-UCB の Q-函数はほぼ確実に最適 Q 関数に収束することを示す。 この結果の直接的な結論は、すべての有限ホライゾン MDP に対してほぼ確実に収束するということである。 また、数値実験を行い、MC-UCBに関するさらなる知見を提供する。

In reinforcement learning, Monte Carlo algorithms update the Q function by averaging the episodic returns. In the Monte Carlo UCB (MC-UCB) algorithm, the action taken in each state is the action that maximizes the Q function plus a UCB exploration term, which biases the choice of actions to those that have been chosen less frequently. Although there has been significant work on establishing regret bounds for MC-UCB, most of that work has been focused on finite-horizon versions of the problem, for which each episode terminates after a constant number of steps. For such finite-horizon problems, the optimal policy depends both on the current state and the time within the episode. However, for many natural episodic problems, such as games like Go and Chess and robotic tasks, the episode is of random length and the optimal policy is stationary. For such environments, it is an open question whether the Q-function in MC-UCB will converge to the optimal Q function; we conjecture that, unlike Q-learning, it does not converge for all MDPs. We nevertheless show that for a large class of MDPs, which includes stochastic MDPs such as blackjack and deterministic MDPs such as Go, the Q-function in MC-UCB converges almost surely to the optimal Q function. An immediate corollary of this result is that it also converges almost surely for all finite-horizon MDPs. We also provide numerical experiments, providing further insights into MC-UCB.
翻訳日:2022-09-08 12:01:43 公開日:2022-09-07
# クラスタ数に応じたグループ行列に基づくグラフポーリング

Grouping-matrix based Graph Pooling with Adaptive Number of Clusters ( http://arxiv.org/abs/2209.02939v1 )

ライセンス: Link先を確認
Sung Moon Ko, Sungjun Cho, Dae-Woong Jeong, Sehui Han, Moontae Lee and Honglak Lee(参考訳) グラフプーリングは、グラフ内の階層構造をエンコードするための重要な操作である。 既存のグラフプーリングのほとんどは、グラフトポロジを効果的にキャプチャするノードクラスタリングタスクとして問題を定式化している。 従来の方法では、ハイパーパラメータとして適切な数のクラスタを指定するように求め、すべての入力グラフが同じ数のクラスタを共有すると仮定する。 しかし、クラスタの数が異なるインダクティブな設定では、適切なクラスタを学習するために、モデルがプール層でこのバリエーションを表現できなければならない。 そこで我々は,入力データに基づいて適切なクラスタ数を自動的に決定する,新しい微分可能なグラフプーリングアーキテクチャであるGMPoolを提案する。 主な直観は、プール演算子の二次形式として定義されるグルーピング行列を含み、ノードのペアの組合せのバイナリ分類確率を誘導する。 GMPoolは、まずグルーピング行列を計算し、分解することでプール演算子を得る。 分子特性予測タスクの大規模評価は,本手法が従来の手法より優れていることを示す。

Graph pooling is a crucial operation for encoding hierarchical structures within graphs. Most existing graph pooling approaches formulate the problem as a node clustering task which effectively captures the graph topology. Conventional methods ask users to specify an appropriate number of clusters as a hyperparameter, then assume that all input graphs share the same number of clusters. In inductive settings where the number of clusters can vary, however, the model should be able to represent this variation in its pooling layers in order to learn suitable clusters. Thus we propose GMPool, a novel differentiable graph pooling architecture that automatically determines the appropriate number of clusters based on the input data. The main intuition involves a grouping matrix defined as a quadratic form of the pooling operator, which induces use of binary classification probabilities of pairwise combinations of nodes. GMPool obtains the pooling operator by first computing the grouping matrix, then decomposing it. Extensive evaluations on molecular property prediction tasks demonstrate that our method outperforms conventional methods.
翻訳日:2022-09-08 12:01:16 公開日:2022-09-07
# 幾何学的マルチモーダル表現学習

Geometric multimodal representation learning ( http://arxiv.org/abs/2209.03299v1 )

ライセンス: Link先を確認
Yasha Ektefaie, George Dasoulas, Ayush Noori, Maha Farhat, Marinka Zitnik(参考訳) グラフ中心の人工知能(グラフAI)は、生物学の力学系から粒子物理学まで、自然界で広く使われている相互作用系をモデル化する上で大きな成功を収めた。 複数の帰納的バイアスを結合できるグラフニューラルネットワークのためのデータ呼び出しの多様性の増加。 しかし、適切な帰納バイアスがデータモダリティによって異なる可能性があるため、様々なソースからのデータを組み合わせることは困難である。 マルチモーダル学習手法は、複数のデータモダリティを融合し、この課題に対処する。 ここでは、グラフ中心のaiにおける140の研究を調査し、さまざまなデータ型がグラフを使って結合され、洗練されたマルチモーダルモデルに供給されることを認識します。 これらのモデルは、画像、言語、知識に基づくマルチモーダル学習に階層化される。 この分類に基づくマルチモーダルグラフ学習のためのアルゴリズム的青写真を構築した。 ブループリントは、適切な4つの異なるコンポーネントを選択することで、マルチモーダルデータを扱う最先端アーキテクチャをグループ化する手段として機能する。 この取り組みは、高度に複雑な実世界の問題に対する洗練されたマルチモーダルアーキテクチャの設計を標準化する道を開くことができる。

Graph-centric artificial intelligence (graph AI) has achieved remarkable success in modeling interacting systems prevalent in nature, from dynamical systems in biology to particle physics. The increasing heterogeneity of data calls for graph neural architectures that can combine multiple inductive biases. However, combining data from various sources is challenging because appropriate inductive bias may vary by data modality. Multimodal learning methods fuse multiple data modalities while leveraging cross-modal dependencies to address this challenge. Here, we survey 140 studies in graph-centric AI and realize that diverse data types are increasingly brought together using graphs and fed into sophisticated multimodal models. These models stratify into image-, language-, and knowledge-grounded multimodal learning. We put forward an algorithmic blueprint for multimodal graph learning based on this categorization. The blueprint serves as a way to group state-of-the-art architectures that treat multimodal data by choosing appropriately four different components. This effort can pave the way for standardizing the design of sophisticated multimodal architectures for highly complex real-world problems.
翻訳日:2022-09-08 12:00:19 公開日:2022-09-07
# 弱コロケーション回帰法:高次元集計データから隠れた確率力学を高速に解明する

Weak Collocation Regression method: fast reveal hidden stochastic dynamics from high-dimensional aggregate data ( http://arxiv.org/abs/2209.02628v2 )

ライセンス: Link先を確認
Liwei Lu, Zhijun Zeng, Yan Jiang, Yi Zhu, and Pipi Hu(参考訳) 確率データから隠れたダイナミクスを明らかにすることは、ランダム性がデータの進化に関与するため、難しい問題である。 確率データの軌跡が多くのシナリオで存在しない場合、問題は極めて複雑になる。 本稿では、ブラウン過程における密度関数の進化を規定するFokker-Planck(FP)方程式の弱い形式に基づいて、軌跡のない確率データの力学を効果的にモデル化するアプローチを提案する。 ガウス函数のコロケーションをFP方程式の弱形式のテスト関数として捉え、導関数をガウス函数に転移し、データの期待和で弱形式を近似する。 未知項の辞書表現により、線形系が構築され、回帰によって解決され、データの未知のダイナミクスが明らかにされる。 したがって,弱コロケーション回帰 (weak collocation regression, wcr) 法を用いて,弱形式,ガウス核のコロケーション,レグレッションの3つの主要成分を同定した。 数値実験により, 本手法は柔軟で高速であることを示し, 多次元問題における数秒以内のダイナミクスを明らかにし, 20次元などの高次元データに容易に拡張できることを示した。 WCRはまた、変数依存拡散と結合ドリフトを伴う複雑なタスクの隠れたダイナミクスを正しく識別することができ、ノイズが付加された場合に高い精度を達成する。

Revealing hidden dynamics from the stochastic data is a challenging problem as randomness takes part in the evolution of the data. The problem becomes exceedingly complex when the trajectories of the stochastic data are absent in many scenarios. Here we present an approach to effectively modeling the dynamics of the stochastic data without trajectories based on the weak form of the Fokker-Planck (FP) equation, which governs the evolution of the density function in the Brownian process. Taking the collocations of Gaussian functions as the test functions in the weak form of the FP equation, we transfer the derivatives to the Gaussian functions and thus approximate the weak form by the expectational sum of the data. With a dictionary representation of the unknown terms, a linear system is built and then solved by the regression, revealing the unknown dynamics of the data. Hence, we name the method with the Weak Collocation Regression (WCR) method for its three key components: weak form, collocation of Gaussian kernels, and regression. The numerical experiments show that our method is flexible and fast, which reveals the dynamics within seconds in multi-dimensional problems and can be easily extended to high-dimensional data such as 20 dimensions. WCR can also correctly identify the hidden dynamics of the complex tasks with variable-dependent diffusion and coupled drift, and the performance is robust, achieving high accuracy in the case with noise added.
翻訳日:2022-09-08 11:57:16 公開日:2022-09-07
# 不均衡大規模データセット上での機械学習手法を用いた掘削作業中の損失循環事象の分類に関する事例研究

A Case Study on the Classification of Lost Circulation Events During Drilling using Machine Learning Techniques on an Imbalanced Large Dataset ( http://arxiv.org/abs/2209.01607v2 )

ライセンス: Link先を確認
Toluwalase A. Olukoga, Yin Feng(参考訳) 本研究では,大規模不均衡掘削データセットを用いて,損失循環量の予測と分類を行う機械学習モデルを提案する。 我々は,容易に解釈可能な機械学習手法を用いて,大規模な掘削エンジニアリング課題に取り組むための再現可能なコア技術を示す。 イランのアザデガン油田層からのクラス不均衡問題を伴う65,000以上の記録データを用いた。 データセットの17のパラメータのうち11は、5つの失われた循環イベントの分類に使用される。 分類モデルの生成には,6つの基本機械学習アルゴリズムと4つのアンサンブル学習手法を用いた。 リニア識別分析(LDA)、ロジスティック回帰(LR)、サポートベクトルマシン(SVM)、分類と回帰木(CART)、k-Nearest Neighbors(KNN)、ガウスネーブベイズ(GNB)は6つの基本技術である。 また,ベイジングとアンサンブル学習を併用し,予測性能向上のための解の探索を行った。 これらのアルゴリズムの性能は、精度、精度、リコール、F1スコアの4つの指標を用いて測定される。 好ましい評価基準として、データ不均衡を表す重み付きF1スコアを選択する。 カート模型は, 平均重み付きf1-score 0.9904, 標準偏差 0.0015 の掘削流体循環損失の同定に最適であることが判明した。 アンサンブル学習手法を適用すると、決定木からなるランダムフォレストアンサンブルが最高の予測性能を示した。 完全重み付きF1スコア1.0の損失循環イベントを特定し、分類した。 また, PFI(Permutation Feature Importance)を用いて, 掘削中に消失した循環イベントを正確に認識する上で, 測定深度が最も重要な要因であることがわかった。

This study presents machine learning models that forecast and categorize lost circulation severity preemptively using a large class imbalanced drilling dataset. We demonstrate reproducible core techniques involved in tackling a large drilling engineering challenge utilizing easily interpretable machine learning approaches. We utilized a 65,000+ records data with class imbalance problem from Azadegan oilfield formations in Iran. Eleven of the dataset's seventeen parameters are chosen to be used in the classification of five lost circulation events. To generate classification models, we used six basic machine learning algorithms and four ensemble learning methods. Linear Discriminant Analysis (LDA), Logistic Regression (LR), Support Vector Machines (SVM), Classification and Regression Trees (CART), k-Nearest Neighbors (KNN), and Gaussian Naive Bayes (GNB) are the six fundamental techniques. We also used bagging and boosting ensemble learning techniques in the investigation of solutions for improved predicting performance. The performance of these algorithms is measured using four metrics: accuracy, precision, recall, and F1-score. The F1-score weighted to represent the data imbalance is chosen as the preferred evaluation criterion. The CART model was found to be the best in class for identifying drilling fluid circulation loss events with an average weighted F1-score of 0.9904 and standard deviation of 0.0015. Upon application of ensemble learning techniques, a Random Forest ensemble of decision trees showed the best predictive performance. It identified and classified lost circulation events with a perfect weighted F1-score of 1.0. Using Permutation Feature Importance (PFI), the measured depth was found to be the most influential factor in accurately recognizing lost circulation events while drilling.
翻訳日:2022-09-08 11:56:48 公開日:2022-09-07
# DM$^2$S$^2$:階層的モダリティを考慮した深層多モード列集合

DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention ( http://arxiv.org/abs/2209.03126v1 )

ライセンス: Link先を確認
Shunsuke Kitada, Yuki Iwazaki, Riku Togashi, Hitoshi Iyatomi(参考訳) デジタル広告やeコマースなど,さまざまなWebアプリケーションにおけるマルチモーダルデータの利用に対する関心が高まっている。 マルチモーダルデータから重要な情報を抽出する典型的な方法は、複数のエンコーダから特徴表現を組み合わせたミッドフュージョンアーキテクチャに依存している。 しかし、モダリティの数が増えるにつれて、連結多重モード特徴の次元性の増加やモダリティの欠如など、中間融合モデル構造に関する潜在的な問題が発生する。 これらの問題に対処するために,マルチモーダル入力を列の集合,すなわち深層マルチモーダル列集合(dm$^2$s$^2$)として考える新しい概念を提案する。 セットアウェアの概念は、複数のモダリティ間の関係をキャプチャする3つのコンポーネントで構成されています。 (a)BERTベースのエンコーダで、配列内の要素の相互及び内部の順序を処理する。 b)モダリティ内残留注意(IntraMRA)は、モダリティにおける要素の重要性を捉え、 (c) モダリティレベルの粒度を有する要素の重要性を高めるため, モダリティ間残留注意(InterMRA)。 我々の概念は、以前のセットアウェアモデルに匹敵する性能を示す。 さらに,学習したInterMRAおよびIntraMRA重みの可視化により,予測結果の解釈が可能であることを示す。

There is increasing interest in the use of multimodal data in various web applications, such as digital advertising and e-commerce. Typical methods for extracting important information from multimodal data rely on a mid-fusion architecture that combines the feature representations from multiple encoders. However, as the number of modalities increases, several potential problems with the mid-fusion model structure arise, such as an increase in the dimensionality of the concatenated multimodal features and missing modalities. To address these problems, we propose a new concept that considers multimodal inputs as a set of sequences, namely, deep multimodal sequence sets (DM$^2$S$^2$). Our set-aware concept consists of three components that capture the relationships among multiple modalities: (a) a BERT-based encoder to handle the inter- and intra-order of elements in the sequences, (b) intra-modality residual attention (IntraMRA) to capture the importance of the elements in a modality, and (c) inter-modality residual attention (InterMRA) to enhance the importance of elements with modality-level granularity further. Our concept exhibits performance that is comparable to or better than the previous set-aware models. Furthermore, we demonstrate that the visualization of the learned InterMRA and IntraMRA weights can provide an interpretation of the prediction results.
翻訳日:2022-09-08 11:56:15 公開日:2022-09-07
# Minecraft構築のためのオープンエンド進化

Open-Ended Evolution for Minecraft Building Generation ( http://arxiv.org/abs/2209.03108v1 )

ライセンス: Link先を確認
Matthew Barthet, Antonios Liapis, Georgios N. Yannakakis(参考訳) 本稿では,イノニティのオープンエンドかつ本質的な定義に従ってminecraftビルディングを進化させる手続き的コンテンツ生成手法を提案する。 この目的を達成するために、3次元オートエンコーダを用いて潜伏空間における個人の新規性を評価し、探索と変換の段階を交互に行う。 探索中、システムはCPPN-NEATを通じてCPPNの複数の個体群を進化させ、潜伏空間(現在のオートエンコーダによって定義される)における制約付き新規探索を行う。 補修と制約関数のセットを適用し,進化中の基本的な構造規則や制約に順守することを保証する。 変換中、我々は潜在空間の境界を再構築し、新しいコンテンツでオートエンコーダをトレーニングすることで、解空間の新たな興味深い領域を同定する。 本研究では、トランスフォーメーション中のオートエンコーダのトレーニング方法と、進化中の個体群の品質と多様性に与える影響を5つの異なるアプローチで評価した。 その結果、オートエンコーダをリトレーニングすることで、静的モデルよりもより良いオープンディビジョンの複雑さを実現できることが分かった。

This paper proposes a procedural content generator which evolves Minecraft buildings according to an open-ended and intrinsic definition of novelty. To realize this goal we evaluate individuals' novelty in the latent space using a 3D autoencoder, and alternate between phases of exploration and transformation. During exploration the system evolves multiple populations of CPPNs through CPPN-NEAT and constrained novelty search in the latent space (defined by the current autoencoder). We apply a set of repair and constraint functions to ensure candidates adhere to basic structural rules and constraints during evolution. During transformation, we reshape the boundaries of the latent space to identify new interesting areas of the solution space by retraining the autoencoder with novel content. In this study we evaluate five different approaches for training the autoencoder during transformation and its impact on populations' quality and diversity during evolution. Our results show that by retraining the autoencoder we can achieve better open-ended complexity compared to a static model, which is further improved when retraining using larger datasets of individuals with diverse complexities.
翻訳日:2022-09-08 11:55:50 公開日:2022-09-07
# 核化バンディットの2重インストゥルメンタル法

Dual Instrumental Method for Confounded Kernelized Bandits ( http://arxiv.org/abs/2209.03224v1 )

ライセンス: Link先を確認
Xueping Gong and Jiheng Zhang(参考訳) コンテキストバンディット問題は、様々な分野で広く応用される理論的に正当化された枠組みである。 この問題に関する以前の研究は通常、ノイズとコンテキストの独立性を必要とするが、我々の研究は、ノイズがコンテキストと報酬の両方に影響を与える潜在的共同創設者になる、より合理的な設定を考える。 このような統合設定はより現実的であり、より広い範囲のアプリケーションにも拡張できるだろう。 しかし、未解決の共同設立者は報酬関数の推定に偏りを生じさせ、大きな後悔を招くことになる。 共同設立者によってもたらされる課題に対処するために、我々は、真の報酬関数を正確に識別できる2つのインストゥルメンタル変数回帰を適用する。 この手法の収束率は、2種類の広く用いられている再生カーネルヒルベルト空間においてほぼ最適であることを示す。 したがって,共立バンディット問題の理論的保証に基づいて,計算効率と後悔の最適アルゴリズムを設計できる。 その結果,本提案手法がバンディット設定において有効であることを示す。

The contextual bandit problem is a theoretically justified framework with wide applications in various fields. While the previous study on this problem usually requires independence between noise and contexts, our work considers a more sensible setting where the noise becomes a latent confounder that affects both contexts and rewards. Such a confounded setting is more realistic and could expand to a broader range of applications. However, the unresolved confounder will cause a bias in reward function estimation and thus lead to a large regret. To deal with the challenges brought by the confounder, we apply the dual instrumental variable regression, which can correctly identify the true reward function. We prove the convergence rate of this method is near-optimal in two types of widely used reproducing kernel Hilbert spaces. Therefore, we can design computationally efficient and regret-optimal algorithms based on the theoretical guarantees for confounded bandit problems. The numerical results illustrate the efficacy of our proposed algorithms in the confounded bandit setting.
翻訳日:2022-09-08 11:55:09 公開日:2022-09-07
# 難易度ネット:長期音声認識における難易度予測学習

Difficulty-Net: Learning to Predict Difficulty for Long-Tailed Recognition ( http://arxiv.org/abs/2209.02960v1 )

ライセンス: Link先を確認
Saptarshi Sinha and Hiroki Ohashi(参考訳) ロングテールデータセットでは、ヘッドクラスはテールクラスよりも多くのトレーニングサンプルで構成されており、認識モデルがヘッドクラスに偏りが生じます。 重み付き損失はこの問題を緩和する最も一般的な方法の1つであり、近年の研究では、重みの分布を決定するために、従来のクラス周波数よりも、クラス拡散の方が良い手がかりである可能性が示唆されている。 前回の研究で難易度を定量化するためにヒューリスティックな定式化が用いられていたが,データセットの特性によって最適な定式化が変化することがわかった。 そこで本稿では,メタラーニングフレームワークにおいて,モデルの性能を用いて授業の難易度を予測することを学習するDifficulty-Netを提案する。 クラスが他のクラスのコンテキストで合理的に難易度を学習できるようにするため,相対的難易度と運転者損失という2つの重要な概念を新たに導入する。 前者はDifficulty-Netがクラスの難易度を計算する際に他のクラスを考慮に入れ、後者は学習を意味のある方向に導くのに不可欠である。 一般的なロングテールデータセットに対する大規模な実験により提案手法の有効性が示され、複数のロングテールデータセットに対して最先端の性能を達成した。

Long-tailed datasets, where head classes comprise much more training samples than tail classes, cause recognition models to get biased towards the head classes. Weighted loss is one of the most popular ways of mitigating this issue, and a recent work has suggested that class-difficulty might be a better clue than conventionally used class-frequency to decide the distribution of weights. A heuristic formulation was used in the previous work for quantifying the difficulty, but we empirically find that the optimal formulation varies depending on the characteristics of datasets. Therefore, we propose Difficulty-Net, which learns to predict the difficulty of classes using the model's performance in a meta-learning framework. To make it learn reasonable difficulty of a class within the context of other classes, we newly introduce two key concepts, namely the relative difficulty and the driver loss. The former helps Difficulty-Net take other classes into account when calculating difficulty of a class, while the latter is indispensable for guiding the learning to a meaningful direction. Extensive experiments on popular long-tailed datasets demonstrated the effectiveness of the proposed method, and it achieved state-of-the-art performance on multiple long-tailed datasets.
翻訳日:2022-09-08 11:54:37 公開日:2022-09-07
# マルチギガピクセルヒストロジー画像の分類のためのマルチスケールアテンションに基づくマルチインスタンス学習

Multi-Scale Attention-based Multiple Instance Learning for Classification of Multi-Gigapixel Histology Images ( http://arxiv.org/abs/2209.03041v1 )

ライセンス: Link先を確認
Made Satria Wibawa, Kwok-Wai Lo, Lawrence Young, Nasir Rajpoot(参考訳) 複数のギガピクセルの解像度を持つ組織像は、癌診断と予後に豊富な情報をもたらす。 ほとんどの場合、pixel-wiseアノテーションは労働集約的なタスクであるため、スライドレベルラベルのみが利用可能である。 本稿では,ヒストロジー画像の分類のための深層学習パイプラインを提案する。 複数のインスタンス学習を用いて,haematoxylinおよびeosin-stain(h&e)組織像に基づく鼻咽頭癌(npc)の潜伏膜蛋白1(lmp1)状態の予測を試みた。 我々はアグリゲーション層に対する残差接続による注意機構を利用した。 AUC, F1スコア0.936, 0.995, 0.862の3倍のクロスバリデーション実験を行った。 また,注意点を可視化することで,モデルの解釈可能性を調べることができる。 我々の知る限りでは、ディープラーニングを用いてNPC上のLMP1ステータスを予測する最初の試みである。

Histology images with multi-gigapixel of resolution yield rich information for cancer diagnosis and prognosis. Most of the time, only slide-level label is available because pixel-wise annotation is labour intensive task. In this paper, we propose a deep learning pipeline for classification in histology images. Using multiple instance learning, we attempt to predict the latent membrane protein 1 (LMP1) status of nasopharyngeal carcinoma (NPC) based on haematoxylin and eosin-stain (H&E) histology images. We utilised attention mechanism with residual connection for our aggregation layers. In our 3-fold cross-validation experiment, we achieved average accuracy, AUC and F1-score 0.936, 0.995 and 0.862, respectively. This method also allows us to examine the model interpretability by visualising attention scores. To the best of our knowledge, this is the first attempt to predict LMP1 status on NPC using deep learning.
翻訳日:2022-09-08 11:54:15 公開日:2022-09-07
# 胸部X線基礎モデルにおけるバイアスのリスク

Risk of Bias in Chest X-ray Foundation Models ( http://arxiv.org/abs/2209.02965v1 )

ライセンス: Link先を確認
Ben Glocker, Charles Jones, Melanie Bernhardt, Stefan Winzeck(参考訳) ファンデーションモデルは、AIのあらゆる応用におけるブレークスルーと見なされ、機能抽出のための堅牢で再利用可能なメカニズムを約束し、タスク固有の予測モデルのための大量の高品質なトレーニングデータの必要性を軽減する。 しかし、基礎モデルは、歴史的なデータセットに存在する既存のバイアスをエンコードし、強化する可能性さえある。 基礎モデルを精査する能力が限られているため、臨床意思決定のような安全上重要な応用において、その機会がリスクを上回るかどうかは不明である。 最近公表された胸部X線基礎モデルの統計バイアス分析では、生物性や人種的アイデンティティを含む保護された特徴をコード化しているように見えるため、下流アプリケーションにおけるサブグループ間で異なるパフォーマンスをもたらす可能性があるため、懸念点が見つかった。 医療アプリケーションの基礎モデルの研究は初期段階にあるが、害を避けるためにコミュニティにこれらのリスクを意識させることが重要だと考えている。

Foundation models are considered a breakthrough in all applications of AI, promising robust and reusable mechanisms for feature extraction, alleviating the need for large amounts of high quality training data for task-specific prediction models. However, foundation models may potentially encode and even reinforce existing biases present in historic datasets. Given the limited ability to scrutinize foundation models, it remains unclear whether the opportunities outweigh the risks in safety critical applications such as clinical decision making. In our statistical bias analysis of a recently published, and publicly available chest X-ray foundation model, we found reasons for concern as the model seems to encode protected characteristics including biological sex and racial identity, which may lead to disparate performance across subgroups in downstream applications. While research into foundation models for healthcare applications is in an early stage, we believe it is important to make the community aware of these risks to avoid harm.
翻訳日:2022-09-08 11:54:00 公開日:2022-09-07
# iPFI(Incremental Permutation Feature Importance) - データストリームのオンライン説明に向けて

Incremental Permutation Feature Importance (iPFI): Towards Online Explanations on Data Streams ( http://arxiv.org/abs/2209.01939v2 )

ライセンス: Link先を確認
Fabian Fumagalli, Maximilian Muschalik, Eyke H\"ullermeier, Barbara Hammer(参考訳) 説明可能な人工知能(XAI)は、主に静的学習シナリオに焦点を当てている。 私たちは、データが徐々にサンプリングされ、学習がバッチモードではなくインクリメンタルに行われる動的シナリオに興味を持っています。 本研究では,PFI(permutation feature importance)に類似した特徴量の特徴残差化に基づく,特徴量重要度(FI)尺度の効率的なインクリメンタルアルゴリズムを提案する。 概念ドリフトを含む動的モデリング条件下で,iPFIと呼ばれる効率的なモデルに依存しないアルゴリズムを提案する。 我々は予測と分散の観点から近似品質の理論的保証を証明する。 従来のバッチPFIと比較して,提案手法の理論的結果と有効性を検証するため,概念ドリフトを伴わないベンチマークデータについて,複数の実験を行った。

Explainable Artificial Intelligence (XAI) has mainly focused on static learning scenarios so far. We are interested in dynamic scenarios where data is sampled progressively, and learning is done in an incremental rather than a batch mode. We seek efficient incremental algorithms for computing feature importance (FI) measures, specifically, an incremental FI measure based on feature marginalization of absent features similar to permutation feature importance (PFI). We propose an efficient, model-agnostic algorithm called iPFI to estimate this measure incrementally and under dynamic modeling conditions including concept drift. We prove theoretical guarantees on the approximation quality in terms of expectation and variance. To validate our theoretical findings and the efficacy of our approaches compared to traditional batch PFI, we conduct multiple experimental studies on benchmark data with and without concept drift.
翻訳日:2022-09-08 11:51:15 公開日:2022-09-07
# 機械学習に関する調査

A Survey of Machine Unlearning ( http://arxiv.org/abs/2209.02299v2 )

ライセンス: Link先を確認
Thanh Tam Nguyen, Thanh Trung Huynh, Zhao Ren, Phi Le Nguyen, Alan Wee-Chung Liew, Hongzhi Yin, and Quoc Viet Hung Nguyen(参考訳) コンピュータシステムは何十年にもわたって大量の個人データを保持している。 一方、そのようなデータ豊富さは人工知能(AI)、特に機械学習(ML)モデルのブレークスルーを可能にする。 一方で、ユーザーのプライバシーを脅かし、人間とaiの間の信頼を弱める可能性がある。 最近の規制では、ユーザに関する個人情報は一般にコンピュータシステムから、特に要求に応じてMLモデルから削除することが要求されている(例えば「忘れられる権利」)。 バックエンドデータベースからデータを削除するのは簡単だが、mlモデルが古いデータを“記憶する”場合が多いため、aiコンテキストでは不十分である。 既存の敵攻撃は、訓練されたモデルから個人メンバーシップやトレーニングデータの属性を学習できることを証明した。 この現象は、機械学習モデルに特定のデータについて忘れさせる新しいパラダイム、すなわち機械学習の学習を要求する。 機械学習に関する最近の研究は、共通のフレームワークやリソースが不足しているため、この問題を完全に解決できなかった。 本稿では,その定義,シナリオ,機構,応用において,機械学習を徹底的に検討することを目的とする。 具体的には、最先端の研究のカテゴリのコレクションとして、機械学習とその様々な定式化、設計要件、削除要求、アルゴリズム、およびさまざまなmlアプリケーションでの使用を求める人々に幅広い参照を提供したいと考えています。 さらに、このパラダイムの重要な発見とトレンドを概説するとともに、機械学習の応用をまだ見ていないが、それでも大きなメリットがある新しい研究領域を強調したいと思います。 この調査は、ML研究者だけでなく、プライバシー技術の革新を目指す人たちにも貴重な参考になることを期待しています。 私たちのリソースはhttps://github.com/tamlhp/awesome-machine-unlearningにあります。

Computer systems hold a large amount of personal data over decades. On the one hand, such data abundance allows breakthroughs in artificial intelligence (AI), especially machine learning (ML) models. On the other hand, it can threaten the privacy of users and weaken the trust between humans and AI. Recent regulations require that private information about a user can be removed from computer systems in general and from ML models in particular upon request (e.g. the "right to be forgotten"). While removing data from back-end databases should be straightforward, it is not sufficient in the AI context as ML models often "remember" the old data. Existing adversarial attacks proved that we can learn private membership or attributes of the training data from the trained models. This phenomenon calls for a new paradigm, namely machine unlearning, to make ML models forget about particular data. It turns out that recent works on machine unlearning have not been able to solve the problem completely due to the lack of common frameworks and resources. In this survey paper, we seek to provide a thorough investigation of machine unlearning in its definitions, scenarios, mechanisms, and applications. Specifically, as a categorical collection of state-of-the-art research, we hope to provide a broad reference for those seeking a primer on machine unlearning and its various formulations, design requirements, removal requests, algorithms, and uses in a variety of ML applications. Furthermore, we hope to outline key findings and trends in the paradigm as well as highlight new areas of research that have yet to see the application of machine unlearning, but could nonetheless benefit immensely. We hope this survey provides a valuable reference for ML researchers as well as those seeking to innovate privacy technologies. Our resources are at https://github.com/tamlhp/awesome-machine-unlearning.
翻訳日:2022-09-08 11:51:00 公開日:2022-09-07
# k平均を用いた能動推論ポリシー空間の効率的な探索

Efficient search of active inference policy spaces using k-means ( http://arxiv.org/abs/2209.02550v2 )

ライセンス: Link先を確認
Alex B. Kiefer, and Mahault Albarracin(参考訳) 我々は、各ポリシーをベクトル空間への埋め込みにマッピングすることで、大きなポリシー空間を効率的に探索できるアクティブ推論におけるポリシー選択手法を開発した。 空間内の代表点の期待自由エネルギーをサンプリングし、この初期サンプルにおいて最も期待できる点についてより徹底的なポリシー探索を行う。 ポリシ埋め込み空間の作成には様々なアプローチを検討し,k-meansクラスタリングを用いて代表点を選択することを提案する。 目的指向グラフトラバース問題に適用し, 極端に大きなグラフに対して, ナイーブなポリシー選択が難解であることを示す。

We develop an approach to policy selection in active inference that allows us to efficiently search large policy spaces by mapping each policy to its embedding in a vector space. We sample the expected free energy of representative points in the space, then perform a more thorough policy search around the most promising point in this initial sample. We consider various approaches to creating the policy embedding space, and propose using k-means clustering to select representative points. We apply our technique to a goal-oriented graph-traversal problem, for which naive policy selection is intractable for even moderately large graphs.
翻訳日:2022-09-08 11:50:32 公開日:2022-09-07
# 局所線形変換による教師なし形状対応のための標準埋め込み学習

Learning Canonical Embeddings for Unsupervised Shape Correspondence with Locally Linear Transformations ( http://arxiv.org/abs/2209.02152v2 )

ライセンス: Link先を確認
Pan He, Patrick Emami, Sanjay Ranka, Anand Rangarajan(参考訳) 本稿では,一対の点雲間の教師なし形状対応学習に対する新しいアプローチを提案する。 従来の局所線形埋め込みアルゴリズム (lle) を, 非線形次元の低減のために設計し, 形状対応に応用する試みを初めて行った。 鍵となる考え方は、まず低次元点雲の高次元近傍保存埋め込みを取得し、次いで局所線型変換を用いてソースとターゲットの埋め込みを整列させることによって、形状間の密接な対応を見つけることである。 新たなLLEにインスパイアされた点雲再構成目標を用いて埋め込みを学習すると,正確な形状対応が得られることを示す。 より具体的には、このアプローチは、高次元近傍保存埋め込みを抽出し、埋め込み空間内の局所線形変換を推定し、再構成および目標形状の上に構築された確率的密度関数の分岐測度に基づくアライメントによって形状を再構築するエンドツーエンド学習可能な枠組みを含む。 提案手法では, 同一の普遍的/正準的埋め込み空間に配置する形状の埋め込みを強制し, 学習過程の正規化に役立ち, 信頼性の高い対応を見つけるために, 形状埋め込み間の簡単な近接アプローチを導出する。 包括的実験により、この新手法は、人間と非人間の両方の形状をカバーする標準形状対応ベンチマークデータセットに対する最先端アプローチよりも顕著に改善されていることが示された。

We present a new approach to unsupervised shape correspondence learning between pairs of point clouds. We make the first attempt to adapt the classical locally linear embedding algorithm (LLE) -- originally designed for nonlinear dimensionality reduction -- for shape correspondence. The key idea is to find dense correspondences between shapes by first obtaining high-dimensional neighborhood-preserving embeddings of low-dimensional point clouds and subsequently aligning the source and target embeddings using locally linear transformations. We demonstrate that learning the embedding using a new LLE-inspired point cloud reconstruction objective results in accurate shape correspondences. More specifically, the approach comprises an end-to-end learnable framework of extracting high-dimensional neighborhood-preserving embeddings, estimating locally linear transformations in the embedding space, and reconstructing shapes via divergence measure-based alignment of probabilistic density functions built over reconstructed and target shapes. Our approach enforces embeddings of shapes in correspondence to lie in the same universal/canonical embedding space, which eventually helps regularize the learning process and leads to a simple nearest neighbors approach between shape embeddings for finding reliable correspondences. Comprehensive experiments show that the new method makes noticeable improvements over state-of-the-art approaches on standard shape correspondence benchmark datasets covering both human and nonhuman shapes.
翻訳日:2022-09-08 11:50:20 公開日:2022-09-07
# STAD:低リソース関係抽出のための曖昧なデータによる自己学習

STAD: Self-Training with Ambiguous Data for Low-Resource Relation Extraction ( http://arxiv.org/abs/2209.01431v2 )

ライセンス: Link先を確認
Junjie Yu, Xing Wang, Jiangjiang Zhao, Chunjie Yang and Wenliang Chen(参考訳) 我々は,低リソース関係抽出のための簡易かつ効果的な自己学習手法STADを提案する。 このアプローチは最初に、教師モデルによって予測される確率に従って、自信のあるインスタンスと不確定なインスタンスという2つのグループに分類する。 主に自信のあるインスタンスのみを自己学習に使用するこれまでのほとんどの研究とは対照的に、不確実性のあるインスタンスを利用する。 そこで本研究では,不確定なインスタンスから曖昧だが有用なインスタンスを識別し,その関係を候補ラベル集合と負ラベル集合に分割する手法を提案する。 次に,不明瞭なインスタンスに対する負のラベル集合に対する集合負のトレーニング法と,自信のあるインスタンスに対する正のトレーニング法を提案する。 最後に,全てのデータから最終関係抽出システムを構築するための共同学習手法を提案する。 広く使われている2つのデータセットであるsemeval2010 task-8と低リソース設定で再設計された実験の結果、この新しいセルフトレーニングアプローチが、いくつかの競合するセルフトレーニングシステムと比較した場合、実際に有意かつ一貫した改善を達成していることを示している。 コードはhttps://github.com/jjyunlp/STADで公開されている。

We present a simple yet effective self-training approach, named as STAD, for low-resource relation extraction. The approach first classifies the auto-annotated instances into two groups: confident instances and uncertain instances, according to the probabilities predicted by a teacher model. In contrast to most previous studies, which mainly only use the confident instances for self-training, we make use of the uncertain instances. To this end, we propose a method to identify ambiguous but useful instances from the uncertain instances and then divide the relations into candidate-label set and negative-label set for each ambiguous instance. Next, we propose a set-negative training method on the negative-label sets for the ambiguous instances and a positive training method for the confident instances. Finally, a joint-training method is proposed to build the final relation extraction system on all data. Experimental results on two widely used datasets SemEval2010 Task-8 and Re-TACRED with low-resource settings demonstrate that this new self-training approach indeed achieves significant and consistent improvements when comparing to several competitive self-training systems. Code is publicly available at https://github.com/jjyunlp/STAD
翻訳日:2022-09-08 11:49:58 公開日:2022-09-07
# Layer or Representation Space: BERTベースの評価メトリクスはなぜロバストなのか?

Layer or Representation Space: What makes BERT-based Evaluation Metrics Robust? ( http://arxiv.org/abs/2209.02317v2 )

ライセンス: Link先を確認
Doan Nam Long Vu, Nafise Sadat Moosavi, Steffen Eger(参考訳) 最近のテキスト生成のための埋め込みベース評価指標の評価は、主に標準ベンチマークによる人間評価との相関の測定に基づいている。 しかし、これらのベンチマークは、主に単語埋め込みの事前学習に使われるものと同様のドメインに由来する。 このことは、埋め込みベースのメトリクスを事前学習データとは異なる語彙を含む新しい、ノイズの多い領域に一般化することへの懸念を引き起こす。 本稿では,テキスト生成のための埋め込みベースメトリクスとして最も普及しているbertscoreのロバスト性について検討する。 私たちはそれを示します (a)標準ベンチマークで人間の評価と最も高い相関関係を持つ埋め込み基準は、入力ノイズや未知のトークンの量が増加すると最も低い相関を持つことができる。 (b)事前学習されたモデルの第一層からの埋め込みは、すべてのメトリクスのロバスト性を改善する。 (c) 事前学習モデルの第一層から,トークンベースの埋め込みではなく,文字レベルの埋め込みを使用する場合に,高いロバスト性が達成される。

The evaluation of recent embedding-based evaluation metrics for text generation is primarily based on measuring their correlation with human evaluations on standard benchmarks. However, these benchmarks are mostly from similar domains to those used for pretraining word embeddings. This raises concerns about the (lack of) generalization of embedding-based metrics to new and noisy domains that contain a different vocabulary than the pretraining data. In this paper, we examine the robustness of BERTScore, one of the most popular embedding-based metrics for text generation. We show that (a) an embedding-based metric that has the highest correlation with human evaluations on a standard benchmark can have the lowest correlation if the amount of input noise or unknown tokens increases, (b) taking embeddings from the first layer of pretrained models improves the robustness of all metrics, and (c) the highest robustness is achieved when using character-level embeddings, instead of token-based embeddings, from the first layer of the pretrained model.
翻訳日:2022-09-08 11:49:34 公開日:2022-09-07
# CAMO-MOT:カメラ-LiDAR融合による3次元多物体追跡のための外観運動最適化

CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object Tracking with Camera-LiDAR Fusion ( http://arxiv.org/abs/2209.02540v2 )

ライセンス: Link先を確認
Li Wang, Xinyu Zhang, Wenyuan Qin, Xiaoyu Li, Lei Yang, Zhiwei Li, Lei Zhu, Hong Wang, Jun Li, and Huaping Liu(参考訳) 3d multi-object tracking (mot) は、連続的な動的検出における一貫性を保証する。 しかし、カメラベースの手法は閉塞性に悩まされており、LiDAR方式では物体の不規則な動きを正確に追跡することは困難である。 いくつかの融合法はうまく機能するが、排他的外見上の不確実な問題を考慮していない。 同時に、誤検出問題は追跡にも大きな影響を与えている。 そこで本稿では,カメラとライダーのデータを併用し,オクルージョンや誤検出によるトラッキング障害を著しく軽減する,外観・モーション最適化(camo-mot)を組み合わせた新しいカメラ・ライダー融合3d motフレームワークを提案する。 本報告では, 閉塞問題に対して, 最適物体の外観特徴を複数回効果的に選択するオクルージョンヘッドを初めて提案し, 閉塞の影響を低減した。 トラッキングにおける偽検出の影響を低減するため,3次元空間における位置推定と物体予測精度を向上させる信頼度スコアに基づく移動コスト行列を設計する。 既存のマルチオブジェクト追跡手法は単一のカテゴリのみを考慮しているため、マルチカテゴリのシーンでマルチオブジェクト追跡を実装するために、マルチカテゴリの損失を構築することも提案する。 KITTIとnuScenesの追跡ベンチマークで一連の検証実験が行われた。 提案手法は,KITTIテストデータセット上のすべてのマルチモーダルMOT手法の中で,最先端性能と最小IDS値(自動車では23,歩行者では137)を実現する。 提案手法は,75.3%のAMOTAを持つnuScenesテストデータセット上の全アルゴリズムの最先端性能を実現する。

3D Multi-object tracking (MOT) ensures consistency during continuous dynamic detection, conducive to subsequent motion planning and navigation tasks in autonomous driving. However, camera-based methods suffer in the case of occlusions and it can be challenging to accurately track the irregular motion of objects for LiDAR-based methods. Some fusion methods work well but do not consider the untrustworthy issue of appearance features under occlusion. At the same time, the false detection problem also significantly affects tracking. As such, we propose a novel camera-LiDAR fusion 3D MOT framework based on the Combined Appearance-Motion Optimization (CAMO-MOT), which uses both camera and LiDAR data and significantly reduces tracking failures caused by occlusion and false detection. For occlusion problems, we are the first to propose an occlusion head to select the best object appearance features multiple times effectively, reducing the influence of occlusions. To decrease the impact of false detection in tracking, we design a motion cost matrix based on confidence scores which improve the positioning and object prediction accuracy in 3D space. As existing multi-object tracking methods only consider a single category, we also propose to build a multi-category loss to implement multi-object tracking in multi-category scenes. A series of validation experiments are conducted on the KITTI and nuScenes tracking benchmarks. Our proposed method achieves state-of-the-art performance and the lowest identity switches (IDS) value (23 for Car and 137 for Pedestrian) among all multi-modal MOT methods on the KITTI test dataset. And our proposed method achieves state-of-the-art performance among all algorithms on the nuScenes test dataset with 75.3% AMOTA.
翻訳日:2022-09-08 11:49:19 公開日:2022-09-07
# 深層学習による2次元線描画からの3次元再構成の最適化

Deep Learning Assisted Optimization for 3D Reconstruction from Single 2D Line Drawings ( http://arxiv.org/abs/2209.02692v2 )

ライセンス: Link先を確認
Jia Zheng and Yifan Zhu and Kehan Wang and Qiang Zou and Zihan Zhou(参考訳) 本稿では,1本の線画から3次元物体の自動復元に関する長年の課題を再考する。 従来の最適化に基づく手法はコンパクトで正確な3Dモデルを生成することができるが、その成功率はその能力に大きく依存する。 (i)真の幾何学的制約の十分な集合を特定すること、及び (ii)数値最適化に適した初期値を選択すること。 これらの課題を踏まえて,深層ニューラルネットワークを訓練し,3次元対象における幾何学的実体(エッジ)間の対関係を検出し,頂点の初期深さ値を予測する。 cadモデルの大規模データセットを用いた実験では,幾何学的制約解決パイプラインでディープラーニングを活用することで,最適化に基づく3次元再構成の成功率を大幅に向上させることができる。

In this paper, we revisit the long-standing problem of automatic reconstruction of 3D objects from single line drawings. Previous optimization-based methods can generate compact and accurate 3D models, but their success rates depend heavily on the ability to (i) identifying a sufficient set of true geometric constraints, and (ii) choosing a good initial value for the numerical optimization. In view of these challenges, we propose to train deep neural networks to detect pairwise relationships among geometric entities (i.e., edges) in the 3D object, and to predict initial depth value of the vertices. Our experiments on a large dataset of CAD models show that, by leveraging deep learning in a geometric constraint solving pipeline, the success rate of optimization-based 3D reconstruction can be significantly improved.
翻訳日:2022-09-08 11:48:49 公開日:2022-09-07
# 回帰と分類における活性化関数の重要性 調査, 性能比較, 今後の方向性

How important are activation functions in regression and classification? A survey, performance comparison, and future directions ( http://arxiv.org/abs/2209.02681v2 )

ライセンス: Link先を確認
Ameya D. Jagtap and George Em Karniadakis(参考訳) 生体ニューロンにインスパイアされた活性化機能は、現実世界の多くの問題でよく使われる人工ニューラルネットワークの学習過程において重要な役割を果たす。 様々な活性化関数が分類や回帰タスクの文献で提案されている。 本研究では,これまで採用されてきたアクティベーション機能と現在の技術状況について調査する。 特に,長年にわたる活性化関数の様々な発展と,これらの活性化関数の欠点や限界について述べる。 また、整流器ユニットを含む古典的(固定)アクティベーション関数と適応的アクティベーション関数についても論じる。 キャラクタリゼーションに基づく活性化関数の分類を示すことに加え、応用に基づく活性化関数の分類も提示する。 この目的のために、MNIST、CIFAR-10、CIFAR-100などの分類データセットに対して、様々な固定および適応活性化関数の体系的比較を行う。 近年,科学計算に関わる問題を解くために,物理インフォームド機械学習フレームワークが登場している。 そこで本研究では,物理インフォームド機械学習フレームワークで使用されているアクティベーション関数の要件についても論じる。 さらに、TensorFlow、Pytorch、JAXといったさまざまな機械学習ライブラリを使用して、さまざまな固定および適応アクティベーション関数間で、さまざまな比較を行う。

Inspired by biological neurons, the activation functions play an essential part in the learning process of any artificial neural network commonly used in many real-world problems. Various activation functions have been proposed in the literature for classification as well as regression tasks. In this work, we survey the activation functions that have been employed in the past as well as the current state-of-the-art. In particular, we present various developments in activation functions over the years and the advantages as well as disadvantages or limitations of these activation functions. We also discuss classical (fixed) activation functions, including rectifier units, and adaptive activation functions. In addition to presenting the taxonomy of activation functions based on characterization, a taxonomy of activation functions based on applications is also presented. To this end, the systematic comparison of various fixed and adaptive activation functions is performed for classification data sets such as the MNIST, CIFAR-10, and CIFAR-100. In recent years, a physics-informed machine learning framework has emerged for solving problems related to scientific computations. To this purpose, we also discuss various requirements for activation functions that have been used in the physics-informed machine learning framework. Furthermore, various comparisons are made among different fixed and adaptive activation functions using various machine learning libraries such as TensorFlow, Pytorch, and JAX.
翻訳日:2022-09-08 11:48:37 公開日:2022-09-07
# 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う

The Best Decisions Are Not the Best Advice: Making Adherence-Aware Recommendations ( http://arxiv.org/abs/2209.01874v2 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement and Jean Pauphilet(参考訳) 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。 したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。 しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。 提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。 提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。 また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。

Many high-stake decisions follow an expert-in-loop structure in that a human operator receives recommendations from an algorithm but is the ultimate decision maker. Hence, the algorithm's recommendation may differ from the actual decision implemented in practice. However, most algorithmic recommendations are obtained by solving an optimization problem that assumes recommendations will be perfectly implemented. We propose an adherence-aware optimization framework to capture the dichotomy between the recommended and the implemented policy and analyze the impact of partial adherence on the optimal recommendation. We show that overlooking the partial adherence phenomenon, as is currently being done by most recommendation engines, can lead to arbitrarily severe performance deterioration, compared with both the current human baseline performance and what is expected by the recommendation algorithm. Our framework also provides useful tools to analyze the structure and to compute optimal recommendation policies that are naturally immune against such human deviations, and are guaranteed to improve upon the baseline policy.
翻訳日:2022-09-08 11:48:19 公開日:2022-09-07