このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230225となっている論文です。

PDF登録状況(公開日: 20230225)

TitleAuthorsAbstract論文公表日・翻訳日
# 高度な大規模言語モデルの落とし穴(と利点)について

On pitfalls (and advantages) of sophisticated large language models ( http://arxiv.org/abs/2303.17511v1 )

ライセンス: Link先を確認
Anna Strasser(参考訳) 大規模言語モデル(llms)に基づく自然言語処理は、ai研究の急成長分野である。 ニューラルネットワークが、パターン認識に基づくゲームや実践的なドメインで人間を上回ることが証明された後、私たちは今、人工知能が最終的に人間のコミュニケーションの領域に入る道の分岐点に立っているかもしれない。 しかし、これは深刻なリスクを伴う。 ニューラルネットワークの信頼性に関する固有の制限のため、LLMへの過度な依存は破壊的な結果をもたらす可能性がある。 人文テキストと機械生成テキストの区別がますます困難になるため、新たな倫理的課題に直面する。 これは、もはや検証不能な人間の著作物から始まり、新しい形態の盗作のような様々な種類の詐欺によって続く。 これはまた、プライバシーの権利の侵害、人間の偽造を流布する可能性、そして最後に、しかし、重要なこととして、大量の誤情報の拡散を可能にしている。

Natural language processing based on large language models (LLMs) is a booming field of AI research. After neural networks have proven to outperform humans in games and practical domains based on pattern recognition, we might stand now at a road junction where artificial entities might eventually enter the realm of human communication. However, this comes with serious risks. Due to the inherent limitations regarding the reliability of neural networks, overreliance on LLMs can have disruptive consequences. Since it will be increasingly difficult to distinguish between human-written and machine-generated text, one is confronted with new ethical challenges. This begins with the no longer undoubtedly verifiable human authorship and continues with various types of fraud, such as a new form of plagiarism. This also concerns the violation of privacy rights, the possibility of circulating counterfeits of humans, and, last but not least, it makes a massive spread of misinformation possible.
翻訳日:2023-04-02 18:11:12 公開日:2023-02-25
# 選択的データ開示による探索のインセンティブ

Incentivizing Exploration with Selective Data Disclosure ( http://arxiv.org/abs/1811.06026v6 )

ライセンス: Link先を確認
Nicole Immorlica, Jieming Mao, Aleksandrs Slivkins, Zhiwei Steven Wu(参考訳) 効率的な探索を促すレコメンデーションシステムを提案し設計する。 エージェントは順次到着し、アクションを選択し、固定だが未知のアクション特有のディストリビューションから引き出された報酬を受け取る。 このレコメンデーションシステムは、選択された元アンテの過去のエージェントのサブシーケンスからのアクションと報酬を各エージェントに提示する。 このように、エージェントはこれらのサブシーケンスによって中等化され、シーケンシャルな社会的学習に従事している。 我々は、フレキシブルな頻繁な行動モデルを用いて、探索に最適な後悔率を漸近的に達成し、事前作業に固有の合理性とコミットメントの仮定を緩和する。 効果的なレコメンデーションシステムの3つの構成要素として,個別のフォーカスグループ,グループアグリゲータ,インターレース情報構造を提案する。

We propose and design recommendation systems that incentivize efficient exploration. Agents arrive sequentially, choose actions and receive rewards, drawn from fixed but unknown action-specific distributions. The recommendation system presents each agent with actions and rewards from a subsequence of past agents, chosen ex ante. Thus, the agents engage in sequential social learning, moderated by these subsequences. We asymptotically attain optimal regret rate for exploration, using a flexible frequentist behavioral model and mitigating rationality and commitment assumptions inherent in prior work. We suggest three components of effective recommendation systems: independent focus groups, group aggregators, and interlaced information structures.
翻訳日:2023-03-25 04:51:45 公開日:2023-02-25
# 非負核回帰を用いた近傍およびグラフ構成

Neighborhood and Graph Constructions using Non-Negative Kernel Regression ( http://arxiv.org/abs/1910.09383v3 )

ライセンス: Link先を確認
Sarath Shekkizhar and Antonio Ortega(参考訳) データ駆動の近所の定義とグラフ構成は、機械学習や信号処理アプリケーションでよく使われる。 k-nearest neighbor~(knn)と$\epsilon$-neighborhoodメソッドは、計算の単純さのため、近所の選択に最もよく使われる方法である。 しかし、k や $\epsilon$ のようなこれらのメソッドに関連するパラメータの選択は、いまだにアドホックである。 この論文には2つの主な貢献がある。 まず,近傍構成がスパース信号近似問題と同値であることを示す,近傍選択の代替的視点を提案する。 第2に,よりスパース表現に繋がる近傍を求めるアルゴリズムとして,非負のカーネル回帰(nnk)を提案する。 NNKは信号表現に対する直交マッチング探索法と類似性があり、望ましい幾何学的および理論的性質を持っている。 実験が示す (i)近傍およびグラフ構築のためのnnkアルゴリズムのロバスト性 (ii)隣人の数をデータプロパティに適応させる能力、 (iii)地域間およびグラフベースの機械学習タスクにおいて優れた性能を示す。

Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
翻訳日:2023-03-25 04:24:32 公開日:2023-02-25
# 事前学習モデルを用いた抽象テキスト要約の分析

An Analysis of Abstractive Text Summarization Using Pre-trained Models ( http://arxiv.org/abs/2303.12796v1 )

ライセンス: Link先を確認
Tohida Rehman, Suchandan Das, Debarshi Kumar Sanyal, Samiran Chattopadhyay(参考訳) 現在、人々はgoogle、yahoo、bingなどの検索エンジンを使ってインターネット上の情報を見つける。 データの爆発により、ウェブページへのリンクではなく検索結果の関連要約が提供された場合に役立つ。 テキスト要約は,消費者が大量の情報を迅速に把握するための重要な手法となっている。本論文では,テキスト要約のための事前学習モデルが異なるデータセット上で評価される。 具体的には、Google/pegasus-cnn-dailymail、T5-base、facebook/bart-large-cnnという3つのトレーニング済みモデルを使用しました。 我々は、上記の3つのモデルから出力を得るために、CNN-dailymail、SAMSum、BillSumの3つの異なるデータセットを検討した。 事前トレーニングされたモデルは、ROUGHとBLEUメトリクスを使用して、これらの異なるデータセット、それぞれ2000の例と比較される。

People nowadays use search engines like Google, Yahoo, and Bing to find information on the Internet. Due to explosion in data, it is helpful for users if they are provided relevant summaries of the search results rather than just links to webpages. Text summarization has become a vital approach to help consumers swiftly grasp vast amounts of information.In this paper, different pre-trained models for text summarization are evaluated on different datasets. Specifically, we have used three different pre-trained models, namely, google/pegasus-cnn-dailymail, T5-base, facebook/bart-large-cnn. We have considered three different datasets, namely, CNN-dailymail, SAMSum and BillSum to get the output from the above three models. The pre-trained models are compared over these different datasets, each of 2000 examples, through ROUGH and BLEU metrics.
翻訳日:2023-03-25 02:51:36 公開日:2023-02-25
# 名前付きエンティティ認識に基づく研究ハイライトの自動生成

Named Entity Recognition Based Automatic Generation of Research Highlights ( http://arxiv.org/abs/2303.12795v1 )

ライセンス: Link先を確認
Tohida Rehman, Debarshi Kumar Sanyal, Prasenjit Majumder, Samiran Chattopadhyay(参考訳) 科学論文は伝統的に、論文を要約した要約によって序文で表される。 近年,論文の主な発見に焦点をあてた研究が,要約に加えて補完的な要約として現れている。 しかし、ハイライトは抽象論ほど一般的ではなく、多くの論文で欠落している。 本稿では,研究論文の異なるセクションを入力として,研究ハイライトを自動的に生成することを目的とする。 入力に名前付きエンティティ認識を用いることで、生成したハイライトの品質が向上するかどうかを検討する。 特に,2つの深層学習モデルを用いた。第1はポインタジェネレータネットワークであり,第2はカバレッジ機構を備えた第1モデルの強化である。 次に、各モデルを名前付きエンティティ認識機能で拡張する。 提案手法は,ハイライトを欠いた論文のハイライト作成に利用することができる。 実験の結果,名前付きエンティティ情報を追加することで,ROUGE, METEOR, BERTScoreによる深層学習に基づく要約器の性能が向上することがわかった。

A scientific paper is traditionally prefaced by an abstract that summarizes the paper. Recently, research highlights that focus on the main findings of the paper have emerged as a complementary summary in addition to an abstract. However, highlights are not yet as common as abstracts, and are absent in many papers. In this paper, we aim to automatically generate research highlights using different sections of a research paper as input. We investigate whether the use of named entity recognition on the input improves the quality of the generated highlights. In particular, we have used two deep learning-based models: the first is a pointer-generator network, and the second augments the first model with coverage mechanism. We then augment each of the above models with named entity recognition features. The proposed method can be used to produce highlights for papers with missing highlights. Our experiments show that adding named entity information improves the performance of the deep learning-based summarizers in terms of ROUGE, METEOR and BERTScore measures.
翻訳日:2023-03-25 02:51:22 公開日:2023-02-25
# ビデオ会議における割り込み検出

Interruptions detection in video conferences ( http://arxiv.org/abs/2303.02052v1 )

ライセンス: Link先を確認
Shmuel Horowitz, Dima Kagan, Galit Fuhrmann Alpert, and Michael Fire(参考訳) 近年,ビデオ会議(VC)の人気が高まっている。 その結果、VCユーザーの数は急増した。 VCの利用が急激な増加には、プライバシーとセキュリティに関するさまざまな課題が伴っている。 vc会議はzoombombingなどの様々なセキュリティ攻撃の標的となった。 他のVC関連の課題も現れた。 例えば、新型コロナウイルス(COVID-19)のロックダウンの間、教育者はオンライン環境において、長期にわたって学生が関わり続けるのに苦労して教えなければならなかった。 並行して、利用可能なVCビデオの数は指数関数的に増えている。 このように、ユーザと企業は、集中するデータ量内のVCミーティングで異常なセグメントを見つけることに制限される。 ほとんどの会議参加者に影響を及ぼすこのような異常な出来事は、セキュリティ攻撃や会議に参加する人や劇的なコンテンツを共有するような会議環境の変化など、時間の興味深いポイントの指標になり得る。 本稿では,VCデータ中の異常事象を検出するアルゴリズムを提案する。 われわれはvcが公開している録音をキュレートした。 このアルゴリズムを用いて,異常発生が検出された時間窓の抽出を行った。 提案手法は,複数ステップで複数の手法を組み合わせて,各フレームのユーザの顔を検出し,会議中の顔位置を追跡し,各フレームの各顔に対する表情のベクトル表現を生成するパイプラインである。 ベクトル表現は、参加者ごとのミーティング全体を通して表情の変化を監視するために使用される。 会議の気候の全体的な変化は、すべての参加者のパラメータを使って定量化され、イベント異常検出に変換される。 vcミーティングで異常イベントを自動的に検出する最初のオープンパイプラインである。 収集したデータセットに対して92.3%の精度で異常事象を検出する。

In recent years, video conferencing (VC) popularity has skyrocketed for a wide range of activities. As a result, the number of VC users surged sharply. The sharp increase in VC usage has been accompanied by various newly emerging privacy and security challenges. VC meetings became a target for various security attacks, such as Zoombombing. Other VC-related challenges also emerged. For example, during COVID lockdowns, educators had to teach in online environments struggling with keeping students engaged for extended periods. In parallel, the amount of available VC videos has grown exponentially. Thus, users and companies are limited in finding abnormal segments in VC meetings within the converging volumes of data. Such abnormal events that affect most meeting participants may be indicators of interesting points in time, including security attacks or other changes in meeting climate, like someone joining a meeting or sharing a dramatic content. Here, we present a novel algorithm for detecting abnormal events in VC data. We curated VC publicly available recordings, including meetings with interruptions. We analyzed the videos using our algorithm, extracting time windows where abnormal occurrences were detected. Our algorithm is a pipeline that combines multiple methods in several steps to detect users' faces in each video frame, track face locations during the meeting and generate vector representations of a facial expression for each face in each frame. Vector representations are used to monitor changes in facial expressions throughout the meeting for each participant. The overall change in meeting climate is quantified using those parameters across all participants, and translating them into event anomaly detection. This is the first open pipeline for automatically detecting anomaly events in VC meetings. Our model detects abnormal events with 92.3% precision over the collected dataset.
翻訳日:2023-03-12 03:49:07 公開日:2023-02-25
# アクティブ推論システムにおける制御フロー

Control flow in active inference systems ( http://arxiv.org/abs/2303.01514v1 )

ライセンス: Link先を確認
Chris Fields, Filippo Fabrocini, Karl Friston, James F. Glazebrook, Hananel Hazan, Michael Levin, and Antonino Marciano(参考訳) 生活システムは環境の複雑さと自由エネルギー資源へのアクセスの制限の両方に直面している。 これらの条件下での生存には、コンテキスト固有の方法で利用可能な知覚と行動資源を活性化または展開する制御システムが必要である。 ここで,自由エネルギー原理によって駆動されるアクティブ推論(したがってベイズ予測誤差最小化と見なすことができる)が実行されている場合,制御フロー系は常にテンソルネットワーク(tns)として表現できることを示す。 量子トポロジカルニューラルネットワークの汎用フレームワークにおいて,制御系としてのtnsがどのように実装できるかを示し,生体システムの多スケールモデリングにおけるこれらの結果の意義について考察する。

Living systems face both environmental complexity and limited access to free-energy resources. Survival under these conditions requires a control system that can activate, or deploy, available perception and action resources in a context specific way. We show here that when systems are described as executing active inference driven by the free-energy principle (and hence can be considered Bayesian prediction-error minimizers), their control flow systems can always be represented as tensor networks (TNs). We show how TNs as control systems can be implmented within the general framework of quantum topological neural networks, and discuss the implications of these results for modeling biological systems at multiple scales.
翻訳日:2023-03-12 03:48:30 公開日:2023-02-25
# 2種類の背景知識を持つ半教師付きクラスタリング:ペアワイズ制約とモノトニック性制約を融合する

Semi-supervised Clustering with Two Types of Background Knowledge: Fusing Pairwise Constraints and Monotonicity Constraints ( http://arxiv.org/abs/2302.14060v1 )

ライセンス: Link先を確認
Germ\'an Gonz\'alez-Almagro, Juan Luis Su\'arez, Pablo S\'anchez-Bermejo, Jos\'e-Ram\'on Cano, Salvador Garc\'ia(参考訳) 本研究では,2種類の背景知識(ペアワイズ制約とモノトニック制約)の存在下でクラスタリングを行う問題に対処する。 これを達成するために、単調性制約の下でクラスタリングを行うための正式な枠組みは、まず第一に定義され、特定の距離測度となる。 ペアワイズ制約は、提案する距離測度とペアワイズ制約に基づくペナルティ項を組み合わせた目的関数を設計することによって、後に統合され、両方の種類の情報を融合する。 この目的関数はEM最適化スキームで最適化できる。 提案手法は,前述した2種類の背景知識を扱うように設計された最初の手法であるため,この問題に対する最初のアプローチとして機能する。 我々の提案は、さまざまなベンチマークデータセットと、実際の研究ケースでテストされている。

This study addresses the problem of performing clustering in the presence of two types of background knowledge: pairwise constraints and monotonicity constraints. To achieve this, the formal framework to perform clustering under monotonicity constraints is, firstly, defined, resulting in a specific distance measure. Pairwise constraints are integrated afterwards by designing an objective function which combines the proposed distance measure and a pairwise constraint-based penalty term, in order to fuse both types of information. This objective function can be optimized with an EM optimization scheme. The proposed method serves as the first approach to the problem it addresses, as it is the first method designed to work with the two types of background knowledge mentioned above. Our proposal is tested in a variety of benchmark datasets and in a real-world case of study.
翻訳日:2023-03-01 19:18:19 公開日:2023-02-25
# マルチタスク学習による敵攻撃のスケーラブル化

Scalable Attribution of Adversarial Attacks via Multi-Task Learning ( http://arxiv.org/abs/2302.14059v1 )

ライセンス: Link先を確認
Zhongyi Guo and Keji Han and Yao Ge and Wei Ji and Yun Li(参考訳) ディープニューラルネットワーク(DNN)は、攻撃者が元の例、すなわち敵の例に知覚不能な摂動を加えるとき、推論フェーズ中に敵の攻撃によって簡単に騙される。 多くの研究は、敵の攻撃から守るための敵の検出と敵の訓練に焦点を当てている。 しかし、攻撃の起点、目標、および対応する攻撃に対する最も効果的な防御アルゴリズムについての洞察をディフェンダーが得るのに役立つ、敵対的な例の背後にあるツールチェーンを探求する作品はほとんどない。 このようなギャップを生かして,adversarial attribution problem(aap)と呼ばれる,逆の例を生成するためのツールチェーンを認識可能な手法を開発する必要がある。 本稿では、AAPを3つのシグネチャ(すなわち、攻撃アルゴリズム)、犠牲者モデル(犠牲者モデル)、ハイパーパラメータ(ハイパーパラメータ)の認識として定義する。 現在の作業は、aapを単一のラベル分類タスクに転送し、これらのシグネチャ間の関係を無視する。 前者は、署名の数が増えるにつれて、組合せ爆発問題に遭遇する。 後者は、AAPを単に単一のタスク問題として扱うことはできないと宣言します。 まず,敵対例の帰属性を検証する実験を行った。 さらに,これら3つのシグネチャを同時に認識するためのマルチタスク学習フレームワークであるmulti-task adversarial attribution (mtaa)を提案する。 MTAAには摂動抽出モジュール、対向のみ抽出モジュール、分類および回帰モジュールが含まれる。 攻撃アルゴリズムと対応するハイパーパラメータの関係を考慮に入れ、3つの認識タスクの重みを調整するために不確かさ重み付き損失を利用する。 MNISTとImageNetの実験結果は、提案フレームワークの実現可能性と拡張性、および誤報処理の有効性を示している。

Deep neural networks (DNNs) can be easily fooled by adversarial attacks during inference phase when attackers add imperceptible perturbations to original examples, i.e., adversarial examples. Many works focus on adversarial detection and adversarial training to defend against adversarial attacks. However, few works explore the tool-chains behind adversarial examples, which can help defenders to seize the clues about the originator of the attack, their goals, and provide insight into the most effective defense algorithm against corresponding attacks. With such a gap, it is necessary to develop techniques that can recognize tool-chains that are leveraged to generate the adversarial examples, which is called Adversarial Attribution Problem (AAP). In this paper, AAP is defined as the recognition of three signatures, i.e., {\em attack algorithm}, {\em victim model} and {\em hyperparameter}. Current works transfer AAP into single label classification task and ignore the relationship between these signatures. The former will meet combination explosion problem as the number of signatures is increasing. The latter dictates that we cannot treat AAP simply as a single task problem. We first conduct some experiments to validate the attributability of adversarial examples. Furthermore, we propose a multi-task learning framework named Multi-Task Adversarial Attribution (MTAA) to recognize the three signatures simultaneously. MTAA contains perturbation extraction module, adversarial-only extraction module and classification and regression module. It takes the relationship between attack algorithm and corresponding hyperparameter into account and uses the uncertainty weighted loss to adjust the weights of three recognition tasks. The experimental results on MNIST and ImageNet show the feasibility and scalability of the proposed framework as well as its effectiveness in dealing with false alarms.
翻訳日:2023-03-01 19:18:05 公開日:2023-02-25
# 運動パターンに基づくラグビーリーグ選手の位置群分離のためのパターンマイニングアルゴリズムの同定

Identification of pattern mining algorithm for rugby league players positional groups separation based on movement patterns ( http://arxiv.org/abs/2302.14058v1 )

ライセンス: Link先を確認
Victor Elijah Adeyemo, Anna Palczewska, Ben Jones, Dan Weaving(参考訳) スポーツビッグデータから運動パターンを抽出するためのパターンマイニングアルゴリズムの適用は,運動のより詳細な評価を容易にすることにより,トレーニングの特異性を向上させる。 各種パターンマイニングアルゴリズムは,プロラグビーリーグにおける選手の動きパターンと,抽出した動きパターンの類似性について,どのアルゴリズムが最適な動きパターンを見つけるかを検証することを目的としている。 3つのパターンマイニングアルゴリズム (l-length closed contiguous [lccspm], long common subsequence [lcs], aprioriclose) を用いてエリートラグビーフットボールフットボールリーグフッカー (n = 22 player) とウィンガー (n = 28 players) のマッチゲームの動きを319試合にわたってプロファイルした。 機械学習の分類アルゴリズムは、アルゴリズムの動作パターン間の類似度を識別するjaccard類似度スコアを用いて、どのアルゴリズムがプレー位置を分離するために最適な動作パターンを与えるかを特定するために用いられた。 LCCspm と LCS の運動パターンは、0.19 Jaccard の類似点を共有している。 AprioriClose 運動パターンは LCCspm パターンと LCS パターンと有意な類似性は認められなかった。 lccspmベストセパレート選手がプロファイリングしたクローズド連続運動パターンはプレーポジションへ移行した。 多層パーセプトロンアルゴリズムは91.02%の精度と精度、リコール、F1スコアをそれぞれ0.91の精度で達成した。 そこで,プレイヤー集団を分離するために,非連続運動パターンよりも閉連続(連続)の抽出を推奨する。

The application of pattern mining algorithms to extract movement patterns from sports big data can improve training specificity by facilitating a more granular evaluation of movement. As there are various pattern mining algorithms, this study aimed to validate which algorithm discovers the best set of movement patterns for player movement profiling in professional rugby league and the similarity in extracted movement patterns between the algorithms. Three pattern mining algorithms (l-length Closed Contiguous [LCCspm], Longest Common Subsequence [LCS] and AprioriClose) were used to profile elite rugby football league hookers (n = 22 players) and wingers (n = 28 players) match-games movements across 319 matches. Machine learning classification algorithms were used to identify which algorithm gives the best set of movement patterns to separate playing positions with Jaccard similarity score identifying the extent of similarity between algorithms' movement patterns. LCCspm and LCS movement patterns shared a 0.19 Jaccard similarity score. AprioriClose movement patterns shared no significant similarity with LCCspm and LCS patterns. The closed contiguous movement patterns profiled by LCCspm best-separated players into playing positions. Multi-layered Perceptron algorithm achieved the highest accuracy of 91.02% and precision, recall and F1 scores of 0.91 respectively. Therefore, we recommend the extraction of closed contiguous (consecutive) over non-consecutive movement patterns for separating groups of players.
翻訳日:2023-03-01 19:17:41 公開日:2023-02-25
# マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習

Cross-modal Contrastive Learning for Multimodal Fake News Detection ( http://arxiv.org/abs/2302.14057v1 )

ライセンス: Link先を確認
Longzheng Wang, Chuang Zhang, Hongbo Xu, Shuai Zhang, Xiaohan Xu, Siqi Wang(参考訳) 近年,マルチモーダルフェイクニュースの自動検出が注目されている。 既存の多くのアプローチは、マルチモーダルなニュース表現を生成するためにユニモーダル機能を融合させようとしている。 しかし,偽ニュース検出のための強力なクロスモーダルコントラスト学習手法は十分に活用されていない。 さらに、さまざまなモダリティから機能を集約して意思決定プロセスのパフォーマンスを高める方法も、まだ未解決の問題です。 そこで我々は,より正確な画像テキストアライメントを実現することを目的とした,マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークであるCOOLANTを提案する。 さらにアライメント精度を向上させるため,コントラストプロセス中に負サンプルの損失項を軟化するために補助タスクを利用する。 クロスモダリティ相関を学ぶためにクロスモダリティ融合モジュールを開発した。 注目誘導モジュールを用いたアテンションメカニズムを実装し、アライメントされた不動表現とモダリティ間の相関を効果的に解釈する。 最後に、COOLANTを評価し、TwitterとWeiboの2つの広く使われているデータセットの比較研究を行う。 実験の結果, 冷却剤は従来の方法よりも大きなマージンで勝っており, 2つのデータセットで最新の結果が得られた。

Automatic detection of multimodal fake news has gained a widespread attention recently. Many existing approaches seek to fuse unimodal features to produce multimodal news representations. However, the potential of powerful cross-modal contrastive learning methods for fake news detection has not been well exploited. Besides, how to aggregate features from different modalities to boost the performance of the decision-making process is still an open question. To address that, we propose COOLANT, a cross-modal contrastive learning framework for multimodal fake news detection, aiming to achieve more accurate image-text alignment. To further improve the alignment precision, we leverage an auxiliary task to soften the loss term of negative samples during the contrast process. A cross-modal fusion module is developed to learn the cross-modality correlations. An attention mechanism with an attention guidance module is implemented to help effectively and interpretably aggregate the aligned unimodal representations and the cross-modality correlations. Finally, we evaluate the COOLANT and conduct a comparative study on two widely used datasets, Twitter and Weibo. The experimental results demonstrate that our COOLANT outperforms previous approaches by a large margin and achieves new state-of-the-art results on the two datasets.
翻訳日:2023-03-01 19:17:11 公開日:2023-02-25
# 適応分類を用いたオンラインスパース特徴選択

Online Sparse Streaming Feature Selection Using Adapted Classification ( http://arxiv.org/abs/2302.14056v1 )

ライセンス: Link先を確認
RuiYang Xu, Di Wu, Xin Luo(参考訳) 従来の機能選択は学習前に機能領域を知る必要があり、オンラインストリーミング機能選択(OSFS)はオンザフライでストリーミング機能を処理するために提案されている。 既存の方法は、データを欠くことなく、特徴を関連性または無関係に分割し、無関係な特徴を削除することは、情報損失につながる可能性がある。 そこで我々は,ストリーミング特徴行列の完成と特徴相関の分割に着目し,適応型分類(OS2FS-AC)に基づくオンラインスパースストリーミング特徴選択を提案する。 本研究は潜伏因子分析(lfa)を用いて、欠落したデータを推定する。 さらに, 適応法を用いてしきい値を求め, 特徴を強く関連し, 弱く, 無関係な特徴に分割し, 弱相関をより多くの情報に分割する。 10個の実世界のデータセットの実験結果から、OS2FS-ACは最先端のアルゴリズムよりも性能が良いことが示された。

Traditional feature selections need to know the feature space before learning, and online streaming feature selection (OSFS) is proposed to process streaming features on the fly. Existing methods divide features into relevance or irrelevance without missing data, and deleting irrelevant features may lead to in-formation loss. Motivated by this, we focus on completing the streaming feature matrix and division of feature correlation and propose online sparse streaming feature selection based on adapted classification (OS2FS-AC). This study uses Latent Factor Analysis (LFA) to pre-estimate missed data. Besides, we use the adaptive method to obtain the threshold, divide the features into strongly relevant, weakly relevant, and irrelevant features, and then divide weak relevance with more information. Experimental results on ten real-world data sets demonstrate that OS2FS-AC performs better than state-of-the-art algo-rithms.
翻訳日:2023-03-01 19:16:51 公開日:2023-02-25
# 知的指導システムにおける大規模言語モデルとストーリーベースゲーム化の活用 : 設計に基づく研究

Leveraging Large Language Model and Story-Based Gamification in Intelligent Tutoring System to Scaffold Introductory Programming Courses: A Design-Based Research Study ( http://arxiv.org/abs/2302.12834v1 )

ライセンス: Link先を確認
Chen Cao(参考訳) プログラミングスキルは多くの教育パスやキャリア機会において急速に必須になりつつある。 しかし、多くの国際学生にとって、導入型プログラミングコースを教える伝統的なアプローチは、言語の複雑さ、事前のプログラミング知識の欠如、言語と文化の障壁のために、大きな課題となる可能性がある。 本研究では,大規模な言語モデルとゲーミフィケーションが,プログラミング学習の足場となり,導入プログラミングコースに所属する中国人学生の意識を高めるかを検討する。 本プロジェクトでは,中国の留学生の学習ニーズに適応するゲーミフィケーション・インテリジェント・チュータリングシステムを開発し,導入型コンピュータプログラミングコースの成功を支援する足場を提供する。

Programming skills are rapidly becoming essential for many educational paths and career opportunities. Yet, for many international students, the traditional approach to teaching introductory programming courses can be a significant challenge due to the complexities of the language, the lack of prior programming knowledge, and the language and cultural barriers. This study explores how large language models and gamification can scaffold coding learning and increase Chinese students sense of belonging in introductory programming courses. In this project, a gamification intelligent tutoring system was developed to adapt to Chinese international students learning needs and provides scaffolding to support their success in introductory computer programming courses.
翻訳日:2023-02-28 20:20:52 公開日:2023-02-25
# ソーシャルメディアによる時間と空間のロバストな言語に基づくメンタルヘルス評価

Robust language-based mental health assessments in time and space through social media ( http://arxiv.org/abs/2302.12952v1 )

ライセンス: Link先を確認
Siddharth Mangalik, Johannes C. Eichstaedt, Salvatore Giorgi, Jihu Mun, Farhan Ahmed, Gilvir Gill, Adithya V. Ganesan, Shashanka Subrahmanya, Nikita Soni, Sean A. P. Clouston, and H. Andrew Schwartz(参考訳) 身体的健康と比較すると、米国の人口メンタルヘルス測定は非常に粗い。 現在、疾病管理センター(Centers for Disease Control)やギャラップ(Gallup)などの人口調査において、メンタルヘルスは「精神的に不健康な日」または「悲しみ」を通じて広範に捉えられ、比較的稀な州や大都市圏の推計に限られている。 ソーシャルメディアデータの大規模分析を通じて、人口メンタルヘルスの堅牢な推定は、郡の毎週の推計よりもはるかに高い解像度で実現可能である。 本研究は,2つの主要な精神状態,うつ病と不安に対するメンタルヘルスの変化を推定するために,200万人のジオロケーションユーザからの12億ツイートのサンプルを使用したパイプラインを検証する。 言語に基づくメンタルヘルスアセスメントと、Gallupの様々なレベルの粒度に関する調査スコアの中間から大きな関連性を見出す(固定効果$\beta = .25$ to $1.58$; $p<.001$)。 言語ベースの評価は、毎週の時間スケールで人口のメンタルヘルスをコスト効率良くスケーラブルにモニタリングできる。 このような空間的にきめ細かい時系列は、社会的な出来事や政策の効果を監視し、人口健康やその他の分野における準実験的な研究デザインを可能にするのに適している。 米国のメンタルヘルス以外にも、この手法は幅広い心理学的結果に一般化し、従来の調査手段(ソーシャルメディアデータのみ)が利用可能でない非ソース環境でのコミュニティ測定を可能にする。

Compared to physical health, population mental health measurement in the U.S. is very coarse-grained. Currently, in the largest population surveys, such as those carried out by the Centers for Disease Control or Gallup, mental health is only broadly captured through "mentally unhealthy days" or "sadness", and limited to relatively infrequent state or metropolitan estimates. Through the large scale analysis of social media data, robust estimation of population mental health is feasible at much higher resolutions, up to weekly estimates for counties. In the present work, we validate a pipeline that uses a sample of 1.2 billion Tweets from 2 million geo-located users to estimate mental health changes for the two leading mental health conditions, depression and anxiety. We find moderate to large associations between the language-based mental health assessments and survey scores from Gallup for multiple levels of granularity, down to the county-week (fixed effects $\beta = .25$ to $1.58$; $p<.001$). Language-based assessment allows for the cost-effective and scalable monitoring of population mental health at weekly time scales. Such spatially fine-grained time series are well suited to monitor effects of societal events and policies as well as enable quasi-experimental study designs in population health and other disciplines. Beyond mental health in the U.S., this method generalizes to a broad set of psychological outcomes and allows for community measurement in under-resourced settings where no traditional survey measures - but social media data - are available.
翻訳日:2023-02-28 19:55:50 公開日:2023-02-25
# プロジェクションによるオペレータシステム

Operator Systems Generated by Projections ( http://arxiv.org/abs/2302.12951v1 )

ライセンス: Link先を確認
Roy Araiza and Travis Russell(参考訳) 線形関係の集合を満たす有限個の射影によって生成される作用素系の族と$k$-AOU空間を構築する。 この族は、生成射影を同じ関係を満たす任意の他の射影の集合に送る写像が完全に正であるという意味で普遍的である。 これらの作用素系は明示的に定義された作用素系の帰納的極限として構成される。 量子相関理論から非符号的関係となる線型関係を選択することにより、量子相関集合の階層に双対な順序ベクトル空間の階層を得る。 別の関係を考えることで、sic-povmの存在に新たな必要条件が見つかる。

We construct a family of operator systems and $k$-AOU spaces generated by a finite number of projections satisfying a set of linear relations. This family is universal in the sense that the map sending the generating projections to any other set of projections which satisfy the same relations is completely positive. These operator systems are constructed as inductive limits of explicitly defined operator systems. By choosing the linear relations to be the nonsignalling relations from quantum correlation theory, we obtain a hierarchy of ordered vector spaces dual to the hierarchy of quantum correlation sets. By considering another set of relations, we also find a new necessary condition for the existence of a SIC-POVM.
翻訳日:2023-02-28 19:55:24 公開日:2023-02-25
# deepoheat:3d-ic設計における超高速熱シミュレーション

DeepOHeat: Operator Learning-based Ultra-fast Thermal Simulation in 3D-IC Design ( http://arxiv.org/abs/2302.12949v1 )

ライセンス: Link先を確認
Ziyue Liu, Yixing Li, Jing Hu, Xinling Yu, Shinyu Shiau, Xin Ai, Zhiyu Zeng and Zheng Zhang(参考訳) 熱問題は3D集積回路(IC)設計において大きな関心事である。 3次元ICの熱最適化は、しばしば高価なPDEシミュレーションを必要とする。 ニューラルネットワークに基づく熱予測モデルは、目に見えない多くの新しい設計でリアルタイムな予測を行うことができる。 しかし、既存の研究は2次元温度場のみを解いたり、目に見えない設計(熱源や境界条件など)で新しい設計を一般化しなかったりしている。 本稿では,複数のパラメトリックあるいは非パラメトリックな設計構成を持つ熱方程式系の温度場を予測する物理知識を持つ演算子学習フレームワークであるDeepOHeatを初めて提案する。 このフレームワークは、複数の鍵 pde 構成の関数空間(例えば境界条件、電力マップ、熱伝達係数)から対応する解の関数空間(すなわち温度場)まで関数マップを学習し、鍵設計構成を変更することによって(一部のパラメータではなく)高速な熱解析と最適化を可能にする。 我々はDeepOHeatをいくつかの工業デザインケースでテストし、Cadence Design SystemsのCelsius 3Dと比較した。 その結果、未確認のテストケースでは、よく訓練されたDeepOHeatは、1000ドルから30000ドルまでの正確な結果が得られることがわかった。

Thermal issue is a major concern in 3D integrated circuit (IC) design. Thermal optimization of 3D IC often requires massive expensive PDE simulations. Neural network-based thermal prediction models can perform real-time prediction for many unseen new designs. However, existing works either solve 2D temperature fields only or do not generalize well to new designs with unseen design configurations (e.g., heat sources and boundary conditions). In this paper, for the first time, we propose DeepOHeat, a physics-aware operator learning framework to predict the temperature field of a family of heat equations with multiple parametric or non-parametric design configurations. This framework learns a functional map from the function space of multiple key PDE configurations (e.g., boundary conditions, power maps, heat transfer coefficients) to the function space of the corresponding solution (i.e., temperature fields), enabling fast thermal analysis and optimization by changing key design configurations (rather than just some parameters). We test DeepOHeat on some industrial design cases and compare it against Celsius 3D from Cadence Design Systems. Our results show that, for the unseen testing cases, a well-trained DeepOHeat can produce accurate results with $1000\times$ to $300000\times$ speedup.
翻訳日:2023-02-28 19:55:16 公開日:2023-02-25
# アジャイルモデリング: ループ内のドメインエキスパートによる画像分類

Agile Modeling: Image Classification with Domain Experts in the Loop ( http://arxiv.org/abs/2302.12948v1 )

ライセンス: Link先を確認
Otilia Stretcu, Edward Vendrow, Kenji Hata, Krishnamurthy Viswanathan, Vittorio Ferrari, Sasan Tavakkol, Wenlei Zhou, Aditya Avinash, Enming Luo, Neil Gordon Alldrin, MohammadHossein Bateni, Gabriel Berger, Andrew Bunner, Chun-Ta Lu, Javier A Rey, Ariel Fuxman(参考訳) マシンラーニングは、データマイニングからモデルトレーニングまで、さまざまな分野のドメインエキスパートに簡単にアクセスできない。 ドメインエキスパートはモデリングプロセスの中心に置かれるべきであり、私たちは"アジャイルモデリング"の問題を提起します。ドメインエキスパートが駆動するヒューマン・イン・ザ・ループのインタラクションを通じて、アイデアからよく訓練されたML分類器に視覚的な概念を変換するプロセスは、ドメインエキスパートの時間を最小化します。 本稿では,CLIP や ALIGN などの画像テキスト共同埋め込みの最近の進歩に基づいて,ドメインの専門家がリアルタイムに分類器を作成できる問題に対する解決策を提案する。 私たちは14のドメインエキスパートによるライブ実験を通じて、このソリューションの実現可能性を示します。 最後に、ドメインエキスパート主導のプロセスと従来のクラウドソーシングのパラダイムを比較し、難しい概念がドメインエキスパートに顕著な改善をもたらすことを見つけます。

Machine learning is not readily accessible to domain experts from many fields, blocked by issues ranging from data mining to model training. We argue that domain experts should be at the center of the modeling process, and we introduce the "Agile Modeling" problem: the process of turning any visual concept from an idea into a well-trained ML classifier through a human-in-the-loop interaction driven by the domain expert in a way that minimizes domain expert time. We propose a solution to the problem that enables domain experts to create classifiers in real-time and build upon recent advances in image-text co-embeddings such as CLIP or ALIGN to implement it. We show the feasibility of this solution through live experiments with 14 domain experts, each modeling their own concept. Finally, we compare a domain expert driven process with the traditional crowdsourcing paradigm and find that difficult concepts see pronounced improvements with domain experts.
翻訳日:2023-02-28 19:54:57 公開日:2023-02-25
# 依存対話法-アノテーション方式と事例研究

Dependency Dialogue Acts -- Annotation Scheme and Case Study ( http://arxiv.org/abs/2302.12944v1 )

ライセンス: Link先を確認
Jon Z. Cai, Brendan King, Margaret Perkoff, Shiran Dudy, Jie Cao, Marie Grace, Natalia Wojarnik, Ananya Ganesh, James H. Martin, Martha Palmer, Marilyn Walker and Jeffrey Flanigan(参考訳) 本稿では,多人数対話における話者意図の構造を捉える新しい枠組みである依存性対話法(DDA)を紹介する。 DDAは、既存の対話アノテーションフレームワークの機能を組み合わせて適応し、対話行為や修辞的関係に加えて、対話のマルチリレーショナル応答構造を強調している。 これは多人数会話における機能的,会話的,応答的構造を表す。 いくつかの重要な機能は、SWBD-DAMSLやISO 24617-2規格のような既存の対話アノテーションフレームワークとDDAを区別している。 まず、ddaは対話単位と対話コンテキストの関係構造を優先し、特定の発話に対する応答関係として対話行為と修辞関係の両方を注釈する。 第二に、DDAはダイアログのオーバーロードを受け入れ、アノテータはダイアログユニットごとに複数の応答関係とダイアログアクションを指定するように促す。 最後に、DDAは、話者が音声の計画と整理にフルダイアログコンテキストをどのように使っているかを適切に把握することを強調する。 これらの特徴により、DDAは複数の話者間の会話のダイナミクスに関して非常に表現力が高く、リコール指向である。 次に、DDAアノテーションフレームワークと、多人数・マルチスレッド会話におけるDDA構造に注釈をつけるケーススタディを示す。

In this paper, we introduce Dependency Dialogue Acts (DDA), a novel framework for capturing the structure of speaker-intentions in multi-party dialogues. DDA combines and adapts features from existing dialogue annotation frameworks, and emphasizes the multi-relational response structure of dialogues in addition to the dialogue acts and rhetorical relations. It represents the functional, discourse, and response structure in multi-party multi-threaded conversations. A few key features distinguish DDA from existing dialogue annotation frameworks such as SWBD-DAMSL and the ISO 24617-2 standard. First, DDA prioritizes the relational structure of the dialogue units and the dialog context, annotating both dialog acts and rhetorical relations as response relations to particular utterances. Second, DDA embraces overloading in dialogues, encouraging annotators to specify multiple response relations and dialog acts for each dialog unit. Lastly, DDA places an emphasis on adequately capturing how a speaker is using the full dialog context to plan and organize their speech. With these features, DDA is highly expressive and recall-oriented with regard to conversation dynamics between multiple speakers. In what follows, we present the DDA annotation framework and case studies annotating DDA structures in multi-party, multi-threaded conversations.
翻訳日:2023-02-28 19:54:37 公開日:2023-02-25
# 線形関数近似を用いた強化学習の指数硬度

Exponential Hardness of Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2302.12940v1 )

ライセンス: Link先を確認
Daniel Kane, Sihan Liu, Shachar Lovett, Gaurav Mahajan, Csaba Szepesv\'ari, Gell\'ert Weisz(参考訳) 強化学習理論の基本的な質問は: 与えられた特徴において最適値関数が線形であると仮定すると、それらを効率的に学べるだろうか? 教師付き学習におけるこの問題の対応する線形回帰は、統計的にも計算的にも効率的に解くことができる。 したがって、最近の研究 \cite{kane2022computational} が線形強化学習の計算統計的ギャップを示したとき、非常に驚きであった: 多項式サンプル複雑性アルゴリズムがあるにもかかわらず、NP = RP がなければ、この設定に多項式時間アルゴリズムは存在しない。 本研究では,Randomized Exponential Time hypothesisに基づく線形強化学習において,特徴次元と地平線で指数的に指数関数的な計算下界を示すために,それらの結果に基づいて構築する。 これを証明するために,学習者が未知のベクトルをユニットハイパーキューブで探索するラウンドベースゲームを構築した。 このゲームの報酬は、学習者が大きな報酬を得た場合、学習者の行動が3-SATの変種をシミュレートするために使用できるように選択される。 (a)各変数が有界な節数で現れること (b) インスタンスに解がなければ、節の(1-$\epsilon$)-フラクションを満足する解も存在しない。 この3-SAT変種は3-SATとほぼ同程度硬いことを示すために,標準的な縮小法を用いている。 最後に、地平線依存に最適化された下限が、最もよく知られた$\exp(\sqrt{H})$とほぼ一致することを示す。

A fundamental question in reinforcement learning theory is: suppose the optimal value functions are linear in given features, can we learn them efficiently? This problem's counterpart in supervised learning, linear regression, can be solved both statistically and computationally efficiently. Therefore, it was quite surprising when a recent work \cite{kane2022computational} showed a computational-statistical gap for linear reinforcement learning: even though there are polynomial sample-complexity algorithms, unless NP = RP, there are no polynomial time algorithms for this setting. In this work, we build on their result to show a computational lower bound, which is exponential in feature dimension and horizon, for linear reinforcement learning under the Randomized Exponential Time Hypothesis. To prove this we build a round-based game where in each round the learner is searching for an unknown vector in a unit hypercube. The rewards in this game are chosen such that if the learner achieves large reward, then the learner's actions can be used to simulate solving a variant of 3-SAT, where (a) each variable shows up in a bounded number of clauses (b) if an instance has no solutions then it also has no solutions that satisfy more than (1-$\epsilon$)-fraction of clauses. We use standard reductions to show this 3-SAT variant is approximately as hard as 3-SAT. Finally, we also show a lower bound optimized for horizon dependence that almost matches the best known upper bound of $\exp(\sqrt{H})$.
翻訳日:2023-02-28 19:54:17 公開日:2023-02-25
# 欠落属性付きグラフ上でのフェア属性補完

Fair Attribute Completion on Graph with Missing Attributes ( http://arxiv.org/abs/2302.12977v1 )

ライセンス: Link先を確認
Dongliang Guo, Zhixuan Chu, Sheng Li(参考訳) グラフ学習モデルにおける不公平さに取り組むことは難しい課題であり、グラフ上の不公平性の問題には属性と位相構造の両方が含まれる。 公正グラフ学習に関する既存の研究は、すべてのノードの属性がモデルトレーニングに利用可能であると仮定し、公正な予測を行う。 しかし実際には、データの欠如やプライバシ上の懸念から、一部のノードの属性にアクセスできない場合があるため、公正なグラフ学習がさらに困難になる。 本稿では,不備な情報を補完し,不備な属性を持つグラフに対する公正なノード埋め込みを学習するためのフェア属性補完法であるフェアACを提案する。 FairACは属性不足問題に対処するための注意機構を採用し、一方で属性の不公平性、すなわち属性完了による属性の不公平性とトポロジカル不公平性の2つのタイプを緩和する。 FairACは、様々な種類の同質グラフに取り組み、それらに対して公平な埋め込みを生成することができるため、ほとんどの下流タスクに適用することで、その公正さのパフォーマンスを向上させることができる。 我々の知る限り、FairACは、グラフ帰属完了とグラフの不公平問題に共同で対処する最初の方法である。 ベンチマークデータセットにおける実験結果から,本手法は,公正グラフ学習の最先端手法と比較して,精度の犠牲を少なく,公平性が向上することが示された。

Tackling unfairness in graph learning models is a challenging task, as the unfairness issues on graphs involve both attributes and topological structures. Existing work on fair graph learning simply assumes that attributes of all nodes are available for model training and then makes fair predictions. In practice, however, the attributes of some nodes might not be accessible due to missing data or privacy concerns, which makes fair graph learning even more challenging. In this paper, we propose FairAC, a fair attribute completion method, to complement missing information and learn fair node embeddings for graphs with missing attributes. FairAC adopts an attention mechanism to deal with the attribute missing problem and meanwhile, it mitigates two types of unfairness, i.e., feature unfairness from attributes and topological unfairness due to attribute completion. FairAC can work on various types of homogeneous graphs and generate fair embeddings for them and thus can be applied to most downstream tasks to improve their fairness performance. To our best knowledge, FairAC is the first method that jointly addresses the graph attribution completion and graph unfairness problems. Experimental results on benchmark datasets show that our method achieves better fairness performance with less sacrifice in accuracy, compared with the state-of-the-art methods of fair graph learning.
翻訳日:2023-02-28 19:47:35 公開日:2023-02-25
# 交通予測のための注意型空間時間グラフ畳み込みリカレントネットワーク

Attention-based Spatial-Temporal Graph Convolutional Recurrent Networks for Traffic Forecasting ( http://arxiv.org/abs/2302.12973v1 )

ライセンス: Link先を確認
Haiyang Liu, Chunjiang Zhu, Detian Zhang, Qing Li(参考訳) 交通予測は交通科学と人工知能における最も基本的な問題の一つである。 鍵となる課題は、現代の交通データの複雑な空間-時間依存と相関を効果的にモデル化することである。 しかし、既存の手法では、時間的関係と時間的相関を同時にモデル化することができず、複雑な時空間パターンに対して表現力を制限することができる。 本稿では,グラフ畳み込みリカレントモジュール(gcrn)とグローバルアテンションモジュールからなる,新たな空間-時間的ニューラルネットワークフレームワークであるアテンションベース空間-時間グラフ畳み込みリカレントネットワーク(astgcrn)を提案する。 特にGCRNは、グラフ構造を動的に学習し、空間的依存関係と局所的時間的関係をキャプチャするためのゲートリカレントユニットと適応グラフ畳み込みネットワークを統合している。 大域的時間的依存性を効果的に抽出するため,我々は時間的注意層を設計し,マルチヘッド・セルフアテンション,トランスフォーマー,インフォメータに基づく3つの独立したモジュールとして実装する。 5つの実トラフィックデータセットに対する大規模な実験は、ベースライン法よりも低いテストデータセットの平均MAE、RMSE、MAPEで、我々の3つのモデルの優れた予測性能を示した。

Traffic forecasting is one of the most fundamental problems in transportation science and artificial intelligence. The key challenge is to effectively model complex spatial-temporal dependencies and correlations in modern traffic data. Existing methods, however, cannot accurately model both long-term and short-term temporal correlations simultaneously, limiting their expressive power on complex spatial-temporal patterns. In this paper, we propose a novel spatial-temporal neural network framework: Attention-based Spatial-Temporal Graph Convolutional Recurrent Network (ASTGCRN), which consists of a graph convolutional recurrent module (GCRN) and a global attention module. In particular, GCRN integrates gated recurrent units and adaptive graph convolutional networks for dynamically learning graph structures and capturing spatial dependencies and local temporal relationships. To effectively extract global temporal dependencies, we design a temporal attention layer and implement it as three independent modules based on multi-head self-attention, transformer, and informer respectively. Extensive experiments on five real traffic datasets have demonstrated the excellent predictive performance of all our three models with all their average MAE, RMSE and MAPE across the test datasets lower than the baseline methods.
翻訳日:2023-02-28 19:46:55 公開日:2023-02-25
# ウェアラブルセンサデータの最適保存のためのパターン再構成に関する予備的検討

A Preliminary Study on Pattern Reconstruction for Optimal Storage of Wearable Sensor Data ( http://arxiv.org/abs/2302.12972v1 )

ライセンス: Link先を確認
Sazia Mahfuz and Farhana Zulkernine(参考訳) 医療データの効率的なクエリと検索は、多くの接続デバイスがペタバイト単位のイメージ、テキスト、モノのインターネット(IoT)センサーデータを継続的に生成することで、今日の重要な課題となっている。 医療データを効率的に保存するための1つのアプローチは、関連する特徴と代表的特徴を抽出し、継続的なストリーミングデータの代わりにそれらの特徴だけを保存することである。 しかし、データから保持できる情報コンテンツの量や、必要に応じて擬似オリジナルデータを再構築できるかどうかについて疑問を呈する。 類似した特徴抽出,記憶,復元を容易にすることで,ストリーミングデータの爆発によって直面する課題を解決することを目的とする。 本稿では,人間行動認識(har)センサデータの簡潔な特徴抽出と再構成のためのマルチオートエンコーダについて検討した。 多層パーセプトロン (mlp) 深層オートエンコーダは, 畳み込みオートエンコーダ, 長短項メモリ (lstm) オートエンコーダ, 畳み込みlstmオートエンコーダの3つの実装オートエンコーダと比較して, それぞれ11.18%, 49.99%, 72.35%のストレージ削減を達成した。 オートエンコーダのエンコードされた機能はサイズと寸法が小さく、ストレージスペースの削減に役立ちます。 高次元の表現では、ストレージの削減は低かった。 しかし, 関連情報の保持は高く, 再構成データに基づく分類によって検証された。

Efficient querying and retrieval of healthcare data is posing a critical challenge today with numerous connected devices continuously generating petabytes of images, text, and internet of things (IoT) sensor data. One approach to efficiently store the healthcare data is to extract the relevant and representative features and store only those features instead of the continuous streaming data. However, it raises a question as to the amount of information content we can retain from the data and if we can reconstruct the pseudo-original data when needed. By facilitating relevant and representative feature extraction, storage and reconstruction of near original pattern, we aim to address some of the challenges faced by the explosion of the streaming data. We present a preliminary study, where we explored multiple autoencoders for concise feature extraction and reconstruction for human activity recognition (HAR) sensor data. Our Multi-Layer Perceptron (MLP) deep autoencoder achieved a storage reduction of 90.18% compared to the three other implemented autoencoders namely convolutional autoencoder, Long-Short Term Memory (LSTM) autoencoder, and convolutional LSTM autoencoder which achieved storage reductions of 11.18%, 49.99%, and 72.35% respectively. Encoded features from the autoencoders have smaller size and dimensions which help to reduce the storage space. For higher dimensions of the representation, storage reduction was low. But retention of relevant information was high, which was validated by classification performed on the reconstructed data.
翻訳日:2023-02-28 19:46:22 公開日:2023-02-25
# BrainCLIP:fMRIからの自然視刺激復号のためのCLIPによる脳と視覚言語表現

BrainCLIP: Bridging Brain and Visual-Linguistic Representation via CLIP for Generic Natural Visual Stimulus Decoding from fMRI ( http://arxiv.org/abs/2302.12971v1 )

ライセンス: Link先を確認
Yulong Liu, Yongqiang Ma, Wei Zhou, Guibo Zhu, Nanning Zheng(参考訳) 知覚された自然画像の再構成や、fMRI信号からのカテゴリの復号は、非常に科学的に重要な課題である。 ペアサンプルの欠如により、既存のほとんどのメソッドは意味的に認識可能なリコンストラクションの生成に失敗し、新しいクラスへの一般化が困難である。 本研究では,視覚刺激の分類と再構築タスクを意味空間内で統一し,タスクに依存しない脳復号モデルを提案する。 我々は、脳活動、画像、テキスト間のモダリティギャップを橋渡しするCLIPのクロスモーダル一般化能力を活用するBrainCLIPと表現する。 具体的には、BrainCLIPはVAEベースのアーキテクチャで、fMRIパターンを視覚とテキストの監視を組み合わせたCLIP埋め込み空間に変換する。 以前の作品では視覚刺激のデコードにマルチモーダル監督を用いることは滅多にない。 本実験は,画像監督のみが存在する場合と比較して,テキストによる監視がデコードモデルの性能を著しく向上させることを示す。 BrainCLIPは、fMRI-to-image生成、fMRI-image-matching、fMRI-text-matchingといった複数のシナリオに適用できる。 最近提案されたfMRIベースの脳波復号法であるBraVLと比較して、BrainCLIPは新しいクラス分類タスクにおいて大幅に性能が向上する。 BrainCLIPはまた、高レベル画像の特徴の観点から、fMRIベースの自然画像再構成のための新しい最先端技術を確立する。

Reconstructing perceived natural images or decoding their categories from fMRI signals are challenging tasks with great scientific significance. Due to the lack of paired samples, most existing methods fail to generate semantically recognizable reconstruction and are difficult to generalize to novel classes. In this work, we propose, for the first time, a task-agnostic brain decoding model by unifying the visual stimulus classification and reconstruction tasks in a semantic space. We denote it as BrainCLIP, which leverages CLIP's cross-modal generalization ability to bridge the modality gap between brain activities, images, and texts. Specifically, BrainCLIP is a VAE-based architecture that transforms fMRI patterns into the CLIP embedding space by combining visual and textual supervision. Note that previous works rarely use multi-modal supervision for visual stimulus decoding. Our experiments demonstrate that textual supervision can significantly boost the performance of decoding models compared to the condition where only image supervision exists. BrainCLIP can be applied to multiple scenarios like fMRI-to-image generation, fMRI-image-matching, and fMRI-text-matching. Compared with BraVL, a recently proposed multi-modal method for fMRI-based brain decoding, BrainCLIP achieves significantly better performance on the novel class classification task. BrainCLIP also establishes a new state-of-the-art for fMRI-based natural image reconstruction in terms of high-level image features.
翻訳日:2023-02-28 19:45:50 公開日:2023-02-25
# 骨格に基づく行動認識のための時間チャネルトポロジー強化ネットワーク

Temporal-Channel Topology Enhanced Network for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2302.12967v1 )

ライセンス: Link先を確認
Jinzhao Luo, Lu Zhou, Guibo Zhu, Guojing Ge, Beiying Yang, Jinqiao Wang(参考訳) 骨格に基づく行動認識は、その効率性と堅牢性から近年人気を集めている。 現在のほとんどの手法はトポロジーモデリングにグラフ畳み込みネットワーク(GCN)を採用しているが、GCNベースの手法は長距離相関モデリングと一般化可能性に限られている。 対照的に、トポロジモデリングのための畳み込みニューラルネットワーク(CNN)の可能性は、十分に検討されていない。 本稿では,新しいCNNアーキテクチャであるTemporal-Channel Topology Enhanced Network (TCTE-Net)を提案し,骨格に基づく行動認識のための空間的および時間的トポロジを学習する。 tcte-netは、最も重要な特徴表現を識別するために、時間的チャネルフォーカスマトリックスを学習する時間的チャネルフォーカスモジュールと、空間的トポロジ的特徴を動的に学習する動的チャネルトポロジアテンションアテンションモジュールの2つのモジュールで構成されている。 我々は,NTU RGB+D,NTU RGB+D 120,FinGymデータセットについて実験を行った。 TCTE-NetはCNNベースの手法と比較して最先端の性能を示し、GCNベースの手法よりも優れた性能を実現する。 コードはhttps://github.com/aikuniverse/TCTE-Netで公開されている。

Skeleton-based action recognition has become popular in recent years due to its efficiency and robustness. Most current methods adopt graph convolutional network (GCN) for topology modeling, but GCN-based methods are limited in long-distance correlation modeling and generalizability. In contrast, the potential of convolutional neural network (CNN) for topology modeling has not been fully explored. In this paper, we propose a novel CNN architecture, Temporal-Channel Topology Enhanced Network (TCTE-Net), to learn spatial and temporal topologies for skeleton-based action recognition. The TCTE-Net consists of two modules: the Temporal-Channel Focus module, which learns a temporal-channel focus matrix to identify the most critical feature representations, and the Dynamic Channel Topology Attention module, which dynamically learns spatial topological features, and fuses them with an attention mechanism to model long-distance channel-wise topology. We conduct experiments on NTU RGB+D, NTU RGB+D 120, and FineGym datasets. TCTE-Net shows state-of-the-art performance compared to CNN-based methods and achieves superior performance compared to GCN-based methods. The code is available at https://github.com/aikuniverse/TCTE-Net.
翻訳日:2023-02-28 19:45:27 公開日:2023-02-25
# SUPS: 自動運転のためのシミュレーション地下駐車シナリオデータセット

SUPS: A Simulated Underground Parking Scenario Dataset for Autonomous Driving ( http://arxiv.org/abs/2302.12966v1 )

ライセンス: Link先を確認
Jiawei Hou, Qi Chen, Yurong Cheng, Guang Chen, Xiangyang Xue, Taiping Zeng, Jian Pu(参考訳) 自動運転の分野が拡大するにつれて、自動地下駐車が注目されている。 自動走行車は、環境情報を取得し、その位置を追跡し、シナリオの信頼性の高いマップを構築する。 メインストリームソリューションは、よく訓練されたニューラルネットワークと同時ローカライゼーションとマッピング(SLAM)メソッドで構成され、慎重にラベル付けされた多数の画像と複数のセンサー推定が必要である。 しかし、複数のセンサーを備えた地下駐車シナリオデータセットが欠如しており、SLAMタスクとセマンティックセグメンテーションやパーキングスロット検出といった知覚タスクの両方をサポートする。 本稿では,複数のセンサと複数のセマンティックラベルで複数のタスクをサポートし,タイムスタンプに従って連続した画像に整列する地下自動駐車シミュレーションデータセットSUPSを提案する。 私たちは、仮想シーンにおける既存のデータセットの欠陥、環境の変化、センサーの多様性とアクセシビリティについてカバーするつもりです。 具体的には、周囲の魚眼カメラ4台、前方のピンホールカメラ2台、深度カメラ1台、LiDAR、慣性測定ユニット(IMU)、GNSSのデータを記録している。 ピクセルレベルのセマンティックラベルはオブジェクト、特に矢印、駐車線、車線、スピードバンプなどのグラウンドサインに対して提供される。 認識,3次元再構成,深度推定,SLAMなどの相対的タスクをデータセットでサポートしています。 また、我々のデータセット上で最先端のSLAMアルゴリズムと知覚モデルを評価する。 最後に、Unity Engineをベースに構築された仮想3Dシーンをオープンソース化し、データセットをhttps://github.com/jarvishou829/SUPSでリリースします。

Automatic underground parking has attracted considerable attention as the scope of autonomous driving expands. The auto-vehicle is supposed to obtain the environmental information, track its location, and build a reliable map of the scenario. Mainstream solutions consist of well-trained neural networks and simultaneous localization and mapping (SLAM) methods, which need numerous carefully labeled images and multiple sensor estimations. However, there is a lack of underground parking scenario datasets with multiple sensors and well-labeled images that support both SLAM tasks and perception tasks, such as semantic segmentation and parking slot detection. In this paper, we present SUPS, a simulated dataset for underground automatic parking, which supports multiple tasks with multiple sensors and multiple semantic labels aligned with successive images according to timestamps. We intend to cover the defect of existing datasets with the variability of environments and the diversity and accessibility of sensors in the virtual scene. Specifically, the dataset records frames from four surrounding fisheye cameras, two forward pinhole cameras, a depth camera, and data from LiDAR, inertial measurement unit (IMU), GNSS. Pixel-level semantic labels are provided for objects, especially ground signs such as arrows, parking lines, lanes, and speed bumps. Perception, 3D reconstruction, depth estimation, and SLAM, and other relative tasks are supported by our dataset. We also evaluate the state-of-the-art SLAM algorithms and perception models on our dataset. Finally, we open source our virtual 3D scene built based on Unity Engine and release our dataset at https://github.com/jarvishou829/SUPS.
翻訳日:2023-02-28 19:45:06 公開日:2023-02-25
# 深層畳み込みニューラルネットワークにおける超パラメータ最適化のためのサロゲート支援高協調共進化アルゴリズム

A Surrogate-Assisted Highly Cooperative Coevolutionary Algorithm for Hyperparameter Optimization in Deep Convolutional Neural Network ( http://arxiv.org/abs/2302.12963v1 )

ライセンス: Link先を確認
An Chen, Zhigang Ren, Muyi Wang, Hui Chen, Haoxi Leng, Shuai Liu(参考訳) 畳み込みニューラルネットワーク(CNN)は近年顕著な成功を収めている。 しかし、その性能はアーキテクチャのハイパーパラメータに大きく依存しており、深部CNNの適切なハイパーパラメータを見つけることは、その高次元および計算に高価な特性のため、難しい最適化問題である。 このような問題から,チェーン型CNNに対する代理型高協調型ハイパーパラメータ最適化(SHCHO)アルゴリズムを提案する。 大きな探索空間を狭めるため、SHCHOはまず、重なり合うハイパーパラメータ相互作用構造に従ってCNN全体を複数のサブCNNに分解し、これらのハイパーパラメータサブセットを協調的に最適化する。 この過程で2つの協調機構が設計される。 1つは全てのサブcnnを調整してcnn全体の情報フローを再現し、マクロ協調を実現し、もう1つは関連する2つのサブcnnを同時に考慮して重なり合うコンポーネントに取り組み、それらの間のマイクロ協調を容易にする。 その結果、cnn全体に対して、適切なハイパーパラメータ構成を効果的に配置することができる。 さらに、SHCHOは、各サブCNNのハイパーパラメータ最適化を支援するために、高性能なサロゲート技術も採用している。 2つの広く使われている画像分類データセットの大規模な実験結果から、SHCHOはCNNの性能を大幅に改善できることが示された。

Convolutional neural networks (CNNs) have gained remarkable success in recent years. However, their performance highly relies on the architecture hyperparameters, and finding proper hyperparameters for a deep CNN is a challenging optimization problem owing to its high-dimensional and computationally expensive characteristics. Given these difficulties, this study proposes a surrogate-assisted highly cooperative hyperparameter optimization (SHCHO) algorithm for chain-styled CNNs. To narrow the large search space, SHCHO first decomposes the whole CNN into several overlapping sub-CNNs in accordance with the overlapping hyperparameter interaction structure and then cooperatively optimizes these hyperparameter subsets. Two cooperation mechanisms are designed during this process. One coordinates all the sub-CNNs to reproduce the information flow in the whole CNN and achieve macro cooperation among them, and the other tackles the overlapping components by simultaneously considering the involved two sub-CNNs and facilitates micro cooperation between them. As a result, a proper hyperparameter configuration can be effectively located for the whole CNN. Besides, SHCHO also employs the well-performing surrogate technique to assist in the hyperparameter optimization of each sub-CNN, thereby greatly reducing the expensive computational cost. Extensive experimental results on two widely-used image classification datasets indicate that SHCHO can significantly improve the performance of CNNs.
翻訳日:2023-02-28 19:44:37 公開日:2023-02-25
# スケーラブルな多言語キーワードスポッティングモデルのローカライズ

Locale Encoding For Scalable Multilingual Keyword Spotting Models ( http://arxiv.org/abs/2302.12961v1 )

ライセンス: Link先を確認
Pai Zhu, Hyun Jin Park, Alex Park, Angelo Scorza Scarpati, Ignacio Lopez Moreno(参考訳) KWS(Multilingual Keyword Spotting)システムは,複数の局所的な音声キーワードを検出する。 従来のモノリンガルなKWSapproachesは、開発・保守コストが高く、リソース共有の欠如のため、多言語シナリオには適さないが、この制限を克服するために、ロケール特徴結合と機能ワイド線形変調(FiLM)を備えた2つの局所条件付きユニバーサルモデルを提案する。 これらのモデルと2つのベースラインメソッドを比較する: locale特有の単言語kwと、すべてのデータに対してトレーニングされた単一のユニバーサルモデルである。 10以上のローカライズド言語データセットを用いた実験により、異なるノイズ条件における全てのローカライズ法に対するローカライズドモデルの精度が大幅に向上し、平均frrby 61% (相対) 向上した。

A Multilingual Keyword Spotting (KWS) system detects spokenkeywords over multiple locales. Conventional monolingual KWSapproaches do not scale well to multilingual scenarios because ofhigh development/maintenance costs and lack of resource sharing.To overcome this limit, we propose two locale-conditioned universalmodels with locale feature concatenation and feature-wise linearmodulation (FiLM). We compare these models with two baselinemethods: locale-specific monolingual KWS, and a single universalmodel trained over all data. Experiments over 10 localized languagedatasets show that locale-conditioned models substantially improveaccuracy over baseline methods across all locales in different noiseconditions.FiLMperformed the best, improving on average FRRby 61% (relative) compared to monolingual KWS models of similarsizes.
翻訳日:2023-02-28 19:44:14 公開日:2023-02-25
# カオス変分オートエンコーダに基づく逆数機械学習

Chaotic Variational Auto encoder-based Adversarial Machine Learning ( http://arxiv.org/abs/2302.12959v1 )

ライセンス: Link先を確認
Pavan Venkata Sainadh Reddy, Yelleti Vivek, Gopi Pranay, Vadlamani Ravi(参考訳) 機械学習(ML)は,ほぼすべての分野において,新たなコントリビューションとなっている。 これにより、さまざまな敵攻撃による不正行為の標的となり、MLモデルのパフォーマンスを阻害する。 EvasionとData-Poisonベースの攻撃は、特に金融、医療などにおいて、よく称賛されている。 そこで我々は,変分オートエンコーダ(VAE)による対数サンプル生成に基づく,計算コストの低い新たな攻撃機構を提案する。 ウェーブレットニューラルネットワーク(WNN)は,画像処理や音声処理,音声認識,時系列予測において計算効率が高いと考えられる。 本稿では,EncoderとDecoderがWNNネットワークを利用するVAE-Deep-Wavelet Neural Network(VAE-Deep-WNN)を提案する。 さらに,多層パーセプトロン(MLP)とDeep-WNNを併用したVAEのカオス変種を提案し,それぞれC-VAE-MLPとC-VAE-Deep-WNNと名付けた。 ここでは,潜在空間におけるランダムノイズを生成するためのロジスティックマップを用いた。 本稿では,VAEをベースとした敵対的サンプル生成を行い,ローンのデフォルトやクレジットカード詐欺,チャーンモデリングなど,金融・サイバーセキュリティドメイン関連の諸問題に応用し,ロジスティック回帰(LR)モデルと決定木(DT)モデルに対するエクスベイジョンとデータ・ポゾンの攻撃を行った。 結果は、VAE-Deep-WNNが残りのデータセットやモデルよりも優れていたことを示している。 しかし、そのカオス的な変種であるC-VAE-Deep-WNNは、ほとんどのデータセットにおいて、VAE-Deep-WNNとほぼ同様の性能を示した。

Machine Learning (ML) has become the new contrivance in almost every field. This makes them a target of fraudsters by various adversary attacks, thereby hindering the performance of ML models. Evasion and Data-Poison-based attacks are well acclaimed, especially in finance, healthcare, etc. This motivated us to propose a novel computationally less expensive attack mechanism based on the adversarial sample generation by Variational Auto Encoder (VAE). It is well known that Wavelet Neural Network (WNN) is considered computationally efficient in solving image and audio processing, speech recognition, and time-series forecasting. This paper proposed VAE-Deep-Wavelet Neural Network (VAE-Deep-WNN), where Encoder and Decoder employ WNN networks. Further, we proposed chaotic variants of both VAE with Multi-layer perceptron (MLP) and Deep-WNN and named them C-VAE-MLP and C-VAE-Deep-WNN, respectively. Here, we employed a Logistic map to generate random noise in the latent space. In this paper, we performed VAE-based adversary sample generation and applied it to various problems related to finance and cybersecurity domain-related problems such as loan default, credit card fraud, and churn modelling, etc., We performed both Evasion and Data-Poison attacks on Logistic Regression (LR) and Decision Tree (DT) models. The results indicated that VAE-Deep-WNN outperformed the rest in the majority of the datasets and models. However, its chaotic variant C-VAE-Deep-WNN performed almost similarly to VAE-Deep-WNN in the majority of the datasets.
翻訳日:2023-02-28 19:43:54 公開日:2023-02-25
# 時計を用いた暗黒物質探索のための量子気象アルゴリズム

Quantum metrology algorithms for dark matter searches with clocks ( http://arxiv.org/abs/2302.12956v1 )

ライセンス: Link先を確認
M. H. Zaheer, N. J. Matjelo, D. B. Hume, M. S. Safronova, and D. R. Leibrandt(参考訳) ダイナミックデカップリングのような量子アルゴリズムは、ノイズに対する感度を抑えながら、信号に対する量子センサーの感度を改善するために用いられる。 原子時計は最も感度の高い量子センサーの1つであり、最近のクロック技術の改善により、前例のない精度と精度を実現している。 これらの時計は基本定数の変動に非常に敏感であり、局所的な超光スカラー暗黒物質の理想的なプローブである。 トリウム229m異性体に基づく核時計では感度のさらなる改善が期待されている。 量子時計を用いた暗黒物質探索における様々な量子気象アルゴリズムの利用について検討する。 本稿では,新しい広帯域動的デカップリングアルゴリズムを提案し,これまでに提案・実証された量子メトロロジープロトコル,すなわち微分分光法と狭帯域動的デカップリングとの比較を行った。 本研究では,現実的なノイズ源を用いたスカラー暗黒物質探索の数値シミュレーションを行い,暗黒物質デコヒーレンスを推定する。 最後に, 真空紫外レーザーに関する技術的課題を回避したトリウム核遷移励起法について述べる。

Quantum algorithms such as dynamical decoupling can be used to improve the sensitivity of a quantum sensor to a signal while suppressing sensitivity to noise. Atomic clocks are among the most sensitive quantum sensors, with recent improvements in clock technology allowing for unprecedented precision and accuracy. These clocks are highly sensitive to variations in fundamental constants, making them ideal probes for local ultralight scalar dark matter. Further improvements to the sensitivity is expected in proposed nuclear clocks based on the thorium 229m isomer. We investigate the use of various quantum metrology algorithms in the search for dark matter using quantum clocks. We propose a new broadband dynamical decoupling algorithm and compare it with quantum metrology protocols that have been previously proposed and demonstrated, namely differential spectroscopy and narrowband dynamical decoupling. We conduct numerical simulations of scalar dark matter searches with realistic noise sources and accounting for dark matter decoherence. Finally, we discuss an alternative thorium nuclear transition excitation method that bypasses the technical challenges associated with vacuum ultraviolet lasers.
翻訳日:2023-02-28 19:43:27 公開日:2023-02-25
# DA-BEV:3次元物体検出のための奥行き認識型BEVトランス

DA-BEV: Depth Aware BEV Transformer for 3D Object Detection ( http://arxiv.org/abs/2302.13002v1 )

ライセンス: Link先を確認
Hao Zhang, Hongyang Li, Xingyu Liao, Feng Li, Shilong Liu, Lionel M. Ni, Lei Zhang(参考訳) 本稿では,鳥の目視におけるトランスフォーマーを用いた3次元物体検出のための暗黙的奥行き学習手法であるda-bevを提案する。 まず,画像特徴を問合せしてBEV機能を構築する際に,奥行きを考慮したDA-SCAモジュールを提案する。 次に,BEV機能をより深度対応にするために,物体とカメラを接続する各光線に沿って正負のBEV特徴をサンプリングすることにより,DCL(Depth-wise Contrastive Learning)と呼ばれる補助学習タスクを導入する。 DA-SCAとDCLは共同でBEV表現を改善し、より深く認識する。 DA-BEVは,ベースライン法であるBEVFormerと比較して,同じ条件下でnuScenes valの大幅な改善(+2.8 NDS)が得られることを示す。 DA-BEV は nuScenes テストで 60.0 NDS と 51.5mAP の強い結果を得る。 私たちはコードを公開します。

In this paper, we present DA-BEV, an implicit depth learning method for Transformer-based camera-only 3D object detection in bird's eye view (BEV). First, a Depth-Aware Spatial Cross-Attention (DA-SCA) module is proposed to take depth into consideration when querying image features to construct BEV features. Then, to make the BEV feature more depth-aware, we introduce an auxiliary learning task, called Depth-wise Contrastive Learning (DCL), by sampling positive and negative BEV features along each ray that connects an object and a camera. DA-SCA and DCL jointly improve the BEV representation and make it more depth-aware. We show that DA-BEV obtains significant improvement (+2.8 NDS) on nuScenes val under the same setting when compared with the baseline method BEVFormer. DA-BEV also achieves strong results of 60.0 NDS and 51.5mAP on nuScenes test with pre-trained VoVNet-99 as backbone. We will release our code.
翻訳日:2023-02-28 19:36:08 公開日:2023-02-25
# 継続的なフェデレーション学習のためのジェネレーティブリプレイの改善

Better Generative Replay for Continual Federated Learning ( http://arxiv.org/abs/2302.13001v1 )

ライセンス: Link先を確認
Daiqing Qi, Handong Zhao, Sheng Li(参考訳) フェデレートラーニング(Federated Learning)とは、分散サーバがクライアントのローカルデータにアクセスすることなく、コミュニケーションを通じて分散クライアントから学習できる技術である。 しかし、既存の連合学習は主に静的データを持つ単一のタスクシナリオに焦点を当てている。 本稿では, クライアントが新たなタスクを段階的に学習し, 履歴データを保存できないという, 限定ストレージやデータ保持ポリシなどの特定の理由から, 連立学習の問題を紹介する。 生成的再生に基づく手法は履歴データを保存せずに連続的な学習に有効であるが,この設定に適応することは困難である。 トレーニング中のクライアントの挙動を解析することにより,非IIDデータに対する分散トレーニングによる不安定なトレーニングプロセスが,顕著なパフォーマンス劣化をもたらすことがわかった。 この問題に対処するため,我々は,モデル統合と一貫性の強制という2つの単純かつ効果的なソリューションを備えたフェデシルモデルを提案する。 複数のベンチマークデータセットに対する実験結果から,本手法がベースラインを著しく上回ることを示す。

Federated learning is a technique that enables a centralized server to learn from distributed clients via communications without accessing the client local data. However, existing federated learning works mainly focus on a single task scenario with static data. In this paper, we introduce the problem of continual federated learning, where clients incrementally learn new tasks and history data cannot be stored due to certain reasons, such as limited storage and data retention policy. Generative replay based methods are effective for continual learning without storing history data, but adapting them for this setting is challenging. By analyzing the behaviors of clients during training, we find that the unstable training process caused by distributed training on non-IID data leads to a notable performance degradation. To address this problem, we propose our FedCIL model with two simple but effective solutions: model consolidation and consistency enforcement. Our experimental results on multiple benchmark datasets demonstrate that our method significantly outperforms baselines.
翻訳日:2023-02-28 19:35:50 公開日:2023-02-25
# 不正確なラベル分布学習

Inaccurate Label Distribution Learning ( http://arxiv.org/abs/2302.13000v1 )

ライセンス: Link先を確認
Zhiqiang Kou, Yuheng Jia, Xin Geng(参考訳) ラベル分布学習(LDL)は、ラベルの集合(ラベル分布(LD)と呼ばれる)のインスタンスとの関係を予測するためにモデルを訓練する。 以前のLCL法は、トレーニングインスタンスのLDが正確であると仮定していた。 しかし、トレーニングインスタンスに高度に正確なLDをアノテートするのは時間がかかり、非常にコストがかかるため、実際には、収集されたLDは通常不正確で、アノテートエラーによって乱される。 本稿では,まず,不正確なLDL,すなわちうるさいLDを用いたLCLモデルの開発について検討する。 具体的には、ノイズLD行列は理想的なLD行列とスパースノイズ行列の線形結合であると仮定する。 したがって、不正確なLDLは、不正確なLDから理想的なLDとノイズマトリックスを回復する逆問題となる。 この目的のために、ラベルの相関により理想的なLD行列が低ランクであると仮定する。 さらに,グラフが取得したインスタンスの局所的幾何学的構造を用いて,理想的なLD回復を支援する。 提案手法はグラフ正規化低ランク・スパース分解問題として定式化され,乗算器の交互方向法により数値解される。 本手法は,不正確なLDから比較的正確なLDを回収し,不正確なLDを用いた異なるLDL法の性能向上を図っている。

Label distribution learning (LDL) trains a model to predict the relevance of a set of labels (called label distribution (LD)) to an instance. The previous LDL methods all assumed the LDs of the training instances are accurate. However, annotating highly accurate LDs for training instances is time-consuming and very expensive, and in reality the collected LD is usually inaccurate and disturbed by annotating errors. For the first time, this paper investigates the problem of inaccurate LDL, i.e., developing an LDL model with noisy LDs. Specifically, we assume the noisy LD matrix is the linear combination of an ideal LD matrix and a sparse noisy matrix. Accordingly, inaccurate LDL becomes an inverse problem, i.e., recovering the ideal LD and noise matrix from the inaccurate LDs. To this end, we assume the ideal LD matrix is low-rank due to the correlation of labels. Besides, we use the local geometric structure of instances captured by a graph to assist the ideal LD recovery as if two instances are similar to each other, they are likely to share the same LD. The proposed model is finally formulated as a graph-regularized low-rank and sparse decomposition problem and numerically solved by the alternating direction method of multipliers. Extensive experiments demonstrate that our method can recover a relatively accurate LD from the inaccurate LD and promote the performance of different LDL methods with inaccurate LD.
翻訳日:2023-02-28 19:35:34 公開日:2023-02-25
# 学習したコンパクトメタデータを用いた生画像再構成

Raw Image Reconstruction with Learned Compact Metadata ( http://arxiv.org/abs/2302.12995v1 )

ライセンス: Link先を確認
Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex Kot, Bihan Wen(参考訳) 生画像はsrgb画像よりも優れている(線形性や細粒度量子化レベルなど)が、大きなストレージ要件のため一般ユーザでは広く使われていない。 ごく最近の研究は、原画像画素空間のサンプリングマスクを設計することで生画像の圧縮を提案し、最適化された画像表現と冗長なメタデータをもたらす。 本稿では,エンドツーエンドでメタデータとして機能する潜在空間におけるコンパクト表現を学ぶための新しい枠組みを提案する。 さらに,エントロピー推定法を改良した新しいsRGB誘導コンテキストモデルを提案する。 提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てる方法について述べる。 実験により,非圧縮sRGB画像とJPEG画像の両方のメタデータのサイズを小さくして,より優れた生画像再構成結果が得られることを示した。

While raw images exhibit advantages over sRGB images (e.g., linearity and fine-grained quantization level), they are not widely used by common users due to the large storage requirements. Very recent works propose to compress raw images by designing the sampling masks in the raw image pixel space, leading to suboptimal image representations and redundant metadata. In this paper, we propose a novel framework to learn a compact representation in the latent space serving as the metadata in an end-to-end manner. Furthermore, we propose a novel sRGB-guided context model with improved entropy estimation strategies, which leads to better reconstruction quality, smaller size of metadata, and faster speed. We illustrate how the proposed raw image compression scheme can adaptively allocate more bits to image regions that are important from a global perspective. The experimental results show that the proposed method can achieve superior raw image reconstruction results using a smaller size of the metadata on both uncompressed sRGB images and JPEG images.
翻訳日:2023-02-28 19:35:11 公開日:2023-02-25
# 負サンプリングによるセット対セットマッチングの一般化境界

Generalization Bounds for Set-to-Set Matching with Negative Sampling ( http://arxiv.org/abs/2302.12991v1 )

ライセンス: Link先を確認
Masanari Kimura(参考訳) 集合から集合へのマッチングという2つの要素のマッチングの問題は近年大きな注目を集めている。 特に、特に集合の各要素が画像であるような複雑な場合において、ニューラルネットワークをマッチング関数として作成することにより、良好な実験結果が得られることが報告されている。 しかし、そのようなブラックボックス関数とのセット・ツー・セットマッチングの理論解析は欠如している。 本稿では,そのタスクにおけるモデルの振る舞いを明らかにするために,セット・ツー・セットマッチングにおける一般化誤差解析を実行することを目的とする。

The problem of matching two sets of multiple elements, namely set-to-set matching, has received a great deal of attention in recent years. In particular, it has been reported that good experimental results can be obtained by preparing a neural network as a matching function, especially in complex cases where, for example, each element of the set is an image. However, theoretical analysis of set-to-set matching with such black-box functions is lacking. This paper aims to perform a generalization error analysis in set-to-set matching to reveal the behavior of the model in that task.
翻訳日:2023-02-28 19:34:56 公開日:2023-02-25
# 複数のラベルを補完する:相関認識補正アプローチ

Complementary to Multiple Labels: A Correlation-Aware Correction Approach ( http://arxiv.org/abs/2302.12987v1 )

ライセンス: Link先を確認
Yi Gao, Miao Xu, Min-Ling Zhang(参考訳) \textit{Complementary label learning} (CLL) には、アノテーションがインスタンスの関連ラベルの代わりに \emph{irrelevant} ラベルを与える必要がある。 現在、cllは遷移行列を推定することで多クラスデータで有望な性能を示している。 しかしながら、現在のマルチクラスCLL技術は、各インスタンスが1つのラベルに関連付けられていると仮定し、各インスタンスが複数のラベルに関連があると仮定するため、マルチラベルデータではうまく機能しない。 ここでは, 既存のラベルを無視して, マルチクラスCLLにおける推定遷移行列が, 複数ラベルのケースで歪むことができるか理論的に示す。 さらに, ML-CLL(textit{multi-labeled CLL)におけるラベル相関から遷移行列を計算するためには, ML-CLLでは利用できないマルチラベルデータが必要である。 この問題を解決するために,候補ラベルから遷移行列を推定する2段階法を提案する。 具体的には、まず、複数ラベル問題を一連のバイナリ分類問題に分解して初期遷移行列を推定し、ラベル相関により初期遷移行列を補正し、ラベル間の関係の付加を強制する。 さらに,提案手法は分類器の整合性を示すとともに,雑音に対するBCE損失過多の傾向を軽減するため,MSEベースの正規化器を導入する。 提案手法の有効性を実験的に検証した。

\textit{Complementary label learning} (CLL) requires annotators to give \emph{irrelevant} labels instead of relevant labels for instances. Currently, CLL has shown its promising performance on multi-class data by estimating a transition matrix. However, current multi-class CLL techniques cannot work well on multi-labeled data since they assume each instance is associated with one label while each multi-labeled instance is relevant to multiple labels. Here, we show theoretically how the estimated transition matrix in multi-class CLL could be distorted in multi-labeled cases as they ignore co-existing relevant labels. Moreover, theoretical findings reveal that calculating a transition matrix from label correlations in \textit{multi-labeled CLL} (ML-CLL) needs multi-labeled data, while this is unavailable for ML-CLL. To solve this issue, we propose a two-step method to estimate the transition matrix from candidate labels. Specifically, we first estimate an initial transition matrix by decomposing the multi-label problem into a series of binary classification problems, then the initial transition matrix is corrected by label correlations to enforce the addition of relationships among labels. We further show that the proposal is classifier-consistent, and additionally introduce an MSE-based regularizer to alleviate the tendency of BCE loss overfitting to noises. Experimental results have demonstrated the effectiveness of the proposed method.
翻訳日:2023-02-28 19:34:47 公開日:2023-02-25
# 弱教師付き人物探索のための自己相似性駆動スケール不変学習

Self-similarity Driven Scale-invariant Learning for Weakly Supervised Person Search ( http://arxiv.org/abs/2302.12986v1 )

ライセンス: Link先を確認
Benzhi Wang, Yang Yang, Jinlin Wu, Guo-jun Qi, Zhen Lei(参考訳) 弱教師付き人物探索は、境界ボックスアノテーションのみを持つ人物を共同で検出し、マッチングすることを目的としている。 既存のアプローチは通常、人の関係を探求することによって特徴を改善することに重点を置いている。 しかし、スケール変動問題はより深刻な障害であり、異なるスケール(解像度)の画像を所有することが多い。 一方、小規模画像では人物の情報が少ないため、生成された擬似ラベルの精度に影響を及ぼす。 一方、クロススケール画像の類似度は、人の同じスケールの画像の類似度よりも小さい場合が多く、マッチングの困難さが増大する。 本稿では,自己相似性駆動型スケール不変学習(ssl)という,新しい一段階フレームワークを提案することで,この問題に対処する。 スケール不変性は、異なるスケールで画像の同じ統計的性質を示す前に自己相似性に基づいて探索することができる。 そこで本研究では,前景に集中してネットワークを誘導し,ハードexemplarsによるスケール不変特徴を学習するマルチスケールexemplarブランチを提案する。 教師なしの方法で特徴の識別力を高めるために,訓練のための真のラベルを徐々に求める動的多ラベル予測を導入する。 異なる種類のラベルのないデータに対応でき、クラスタリングベースの戦略の補償として機能する。 PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。

Weakly supervised person search aims to jointly detect and match persons with only bounding box annotations. Existing approaches typically focus on improving the features by exploring relations of persons. However, scale variation problem is a more severe obstacle and under-studied that a person often owns images with different scales (resolutions). On the one hand, small-scale images contain less information of a person, thus affecting the accuracy of the generated pseudo labels. On the other hand, the similarity of cross-scale images is often smaller than that of images with the same scale for a person, which will increase the difficulty of matching. In this paper, we address this problem by proposing a novel one-step framework, named Self-similarity driven Scale-invariant Learning (SSL). Scale invariance can be explored based on the self-similarity prior that it shows the same statistical properties of an image at different scales. To this end, we introduce a Multi-scale Exemplar Branch to guide the network in concentrating on the foreground and learning scale-invariant features by hard exemplars mining. To enhance the discriminative power of the features in an unsupervised manner, we introduce a dynamic multi-label prediction which progressively seeks true labels for training. It is adaptable to different types of unlabeled data and serves as a compensation for clustering based strategy. Experiments on PRW and CUHK-SYSU databases demonstrate the effectiveness of our method.
翻訳日:2023-02-28 19:34:23 公開日:2023-02-25
# RipViz:パスライン行動学習によるリップ電流の検出

RipViz: Finding Rip Currents by Learning Pathline Behavior ( http://arxiv.org/abs/2302.12983v1 )

ライセンス: Link先を確認
Akila de Silva, Mona Zhao, Donald Stewart, Fahim Hasan Khan, Gregory Dusek, James Davis, and Alex Pang(参考訳) 本稿では,静止映像からリップ電流を抽出するハイブリッド機械学習・フロー解析機能検出手法RipVizを提案する。 リップ流は、海辺から海へと引きずり出す危険な強い潮流である。 ほとんどの人は自分に気づいていないか、自分が何に見えるか知らない。 例えば、ライフガードのような訓練を受けた人員でさえ、それらを特定するのに苦労している。 RipVizは、ソースビデオ上のリップ位置の可視化を、シンプルで分かりやすいものにする。 RipVizでは,光学的フローを用いて静止映像から非定常2次元ベクトル場を得る。 各ピクセルの動きは時間とともに分析される。 各シードポイントでは、単一の長いパスラインではなく短いパスラインのシーケンスがビデオのフレームを横切って追跡され、波の活動の準周期的流れの挙動をよりよく捉える。 海岸、サーフゾーン、および周辺地域の運動のため、これらの経路は非常に散らかっていて、理解できないように見える。 さらに、一般の聴衆はパスラインに精通しておらず、解釈の仕方を知らない場合もある。 これを解決するため,通常の流れにおけるリッピング電流を流れ異常として扱う。 通常の流れの挙動を学習するために,通常の海,前景,背景運動からの経路配列を持つLSTMオートエンコーダを訓練する。 テスト期間中、トレーニングされたLSTMオートエンコーダを使用して異常な経路(リッピングゾーン内のもの)を検出する。 このような異常な経路の起源は、ビデオの過程で、リップゾーン内のポイントとして提示される。 RipVizは完全に自動化されており、ユーザー入力を必要としない。 ドメインエキスパートからのフィードバックは、RipVizが広く使われる可能性があることを示唆している。

We present a hybrid machine learning and flow analysis feature detection method, RipViz, to extract rip currents from stationary videos. Rip currents are dangerous strong currents that can drag beachgoers out to sea. Most people are either unaware of them or do not know what they look like. In some instances, even trained personnel such as lifeguards have difficulty identifying them. RipViz produces a simple, easy to understand visualization of rip location overlaid on the source video. With RipViz, we first obtain an unsteady 2D vector field from the stationary video using optical flow. Movement at each pixel is analyzed over time. At each seed point, sequences of short pathlines, rather a single long pathline, are traced across the frames of the video to better capture the quasi-periodic flow behavior of wave activity. Because of the motion on the beach, the surf zone, and the surrounding areas, these pathlines may still appear very cluttered and incomprehensible. Furthermore, lay audiences are not familiar with pathlines and may not know how to interpret them. To address this, we treat rip currents as a flow anomaly in an otherwise normal flow. To learn about the normal flow behavior, we train an LSTM autoencoder with pathline sequences from normal ocean, foreground, and background movements. During test time, we use the trained LSTM autoencoder to detect anomalous pathlines (i.e., those in the rip zone). The origination points of such anomalous pathlines, over the course of the video, are then presented as points within the rip zone. RipViz is fully automated and does not require user input. Feedback from domain expert suggests that RipViz has the potential for wider use.
翻訳日:2023-02-28 19:34:01 公開日:2023-02-25
# 定量的サセプティビリティマッピングデータを用いた中脳構造物分割のための周波数ディスタングル学習

Frequency Disentangled Learning for Segmentation of Midbrain Structures from Quantitative Susceptibility Mapping Data ( http://arxiv.org/abs/2302.12980v1 )

ライセンス: Link先を確認
Guanghui Fu, Gabriel Jimenez, Sophie Loizillon, Lydia Chougar, Didier Dormont, Romain Valabregue, Ninon Burgos, St\'ephane Leh\'ericy, Daniel Racoceanu, Olivier Colliot, the ICEBERG Study Group(参考訳) ディープセグメンテーションモデルのトレーニングに十分な注釈付きサンプルが不足することが多い。 これは特に、QSM(Quantical Susceptibility Mapping)のような、一般的な画像モダリティの少ない場合である。 深層モデルは低周波から高周波までターゲット関数に適合する傾向があることが示されている。 そのような性質は、ディープラーニングモデルのより良いトレーニングに活用できるという仮説を立てることもできる。 本稿では,この特性を利用して周波数領域の絡み合いに基づく新しいトレーニング手法を提案する。 主なステップは2つある。 一 画像を高周波部分及び低周波部分へ拡張し、特徴学習すること。 二 タスクを完了するための周波数領域融合 このアプローチは、任意のバックボーンセグメンテーションネットワークで使用できる。 qsmデータから得られた赤核と象牙質核のセグメンテーションにこのアプローチを適用し,パーキンソン症候群の研究に特に関係している。 提案手法は,これらのタスクに対して大幅な性能向上をもたらすことを示す。 さらに,MSD(Messical Segmentation Decathlon)チャレンジの3つの公開データセットに適用した。 2つのMSDタスクでは、特に小さな訓練セットの状況下では、より小さいが、まだ大幅に改善された(Diceの7ポイントまで)。

One often lacks sufficient annotated samples for training deep segmentation models. This is in particular the case for less common imaging modalities such as Quantitative Susceptibility Mapping (QSM). It has been shown that deep models tend to fit the target function from low to high frequencies. One may hypothesize that such property can be leveraged for better training of deep learning models. In this paper, we exploit this property to propose a new training method based on frequency-domain disentanglement. It consists of two main steps: i) disentangling the image into high- and low-frequency parts and feature learning; ii) frequency-domain fusion to complete the task. The approach can be used with any backbone segmentation network. We apply the approach to the segmentation of the red and dentate nuclei from QSM data which is particularly relevant for the study of parkinsonian syndromes. We demonstrate that the proposed method provides considerable performance improvements for these tasks. We further applied it to three public datasets from the Medical Segmentation Decathlon (MSD) challenge. For two MSD tasks, it provided smaller but still substantial improvements (up to 7 points of Dice), especially under small training set situations.
翻訳日:2023-02-28 19:33:36 公開日:2023-02-25
# 自動ダビングにおける等時性向上のための共同翻訳と音声タイミングの最適化

Jointly Optimizing Translations and Speech Timing to Improve Isochrony in Automatic Dubbing ( http://arxiv.org/abs/2302.12979v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Brian Thompson, Prashant Mathur, Yogesh Virkar, Surafel M. Lakew, Marcello Federico(参考訳) 自動ダビング(AD)は、ビデオ中の元の音声をターゲット言語に翻訳するタスクである。 新しいターゲット言語音声は、アイソクロニーを満たすべきである。つまり、新しいスピーチは、口の動き、ポーズ、手振りなど、元の動画に合わせた時間でなければならない。 本稿では,生成した翻訳文の翻訳時間と翻訳文の翻訳時間の両方を直接最適化するモデルを訓練する。 本システムでは,システムアーキテクチャを単純化しつつ,従来の作業に比べて,元の発話のタイミングに合致した音声を生成する。

Automatic dubbing (AD) is the task of translating the original speech in a video into target language speech. The new target language speech should satisfy isochrony; that is, the new speech should be time aligned with the original video, including mouth movements, pauses, hand gestures, etc. In this paper, we propose training a model that directly optimizes both the translation as well as the speech duration of the generated translations. We show that this system generates speech that better matches the timing of the original speech, compared to prior work, while simplifying the system architecture.
翻訳日:2023-02-28 19:33:18 公開日:2023-02-25
# SynGen: ジェネレーティブアスペクトベースの知覚分析のための構文的プラグアンドプレイモジュール

SynGen: A Syntactic Plug-and-play Module for Generative Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2302.13032v1 )

ライセンス: Link先を確認
Chengze Yu, Taiqiang Wu, Jiayi Li, Xingyu Bai, Yujiu Yang(参考訳) Aspect-based Sentiment Analysis (ABSA)は、微粒なレベルでの感情分析タスクである。 近年、サブタスクを統一する能力と、上流の事前訓練タスクへの継続性により、ABSAに注目が集まっている。 しかし、これらの生成モデルは、隣接する単語に注意を喚起する隣り合う依存性の問題に苦しむ。 本稿では,プラグアンドプレイの構文情報認識モジュールである syngen を提案する。 プラグインモジュールとして、SynGenはどんな生成フレームワークのバックボーンにも簡単に適用できます。 我々のモジュールのキーとなる洞察は、注意課題に構文的帰納的バイアスを加え、適切なターゲット語に注意を向けることである。 我々の知る限りでは、私たちは、生成ABSAフレームワークに構文情報を導入する最初の人です。 我々のモジュール設計は,(1)バックボーンplmの構造的完全性を維持すること,(2)構文情報と本来の意味情報を分離すること,の2つの原則に基づいている。 4つの人気のあるABSAデータセットの実証的な結果から、SynGenの拡張モデルは、緩和されたラベル付け仕様とトレーニング使用量の少ない最先端モデルに匹敵するパフォーマンスを実現している。

Aspect-based Sentiment Analysis (ABSA) is a sentiment analysis task at fine-grained level. Recently, generative frameworks have attracted increasing attention in ABSA due to their ability to unify subtasks and their continuity to upstream pre-training tasks. However, these generative models suffer from the neighboring dependency problem that induces neighboring words to get higher attention. In this paper, we propose SynGen, a plug-and-play syntactic information aware module. As a plug-in module, our SynGen can be easily applied to any generative framework backbones. The key insight of our module is to add syntactic inductive bias to attention assignment and thus direct attention to the correct target words. To the best of our knowledge, we are the first one to introduce syntactic information to generative ABSA frameworks. Our module design is based on two main principles: (1) maintaining the structural integrity of backbone PLMs and (2) disentangling the added syntactic information and original semantic information. Empirical results on four popular ABSA datasets demonstrate that SynGen enhanced model achieves a comparable performance to the state-of-the-art model with relaxed labeling specification and less training consumption.
翻訳日:2023-02-28 19:27:02 公開日:2023-02-25
# MASS:コネクテッド自動運転における協調知覚の移動型センサスケジューリング

MASS: Mobility-Aware Sensor Scheduling of Cooperative Perception for Connected Automated Driving ( http://arxiv.org/abs/2302.13029v1 )

ライセンス: Link先を確認
Yukuan Jia, Ruiqing Mao, Yuxuan Sun, Sheng Zhou, and Zhisheng Niu(参考訳) タイムリーで信頼性の高い環境認識は、安全かつ効率的な自動運転の基盤である。 しかし、独立した知性の知覚は必然的に閉塞に苦しむ。 新しいパラダイムである協調知覚(collaborative perception, cp)は、他の視点、すなわち協調車両(cov)からのセンサデータを共有することによって救助される。 通信帯域が限られているため、視点と通信品質の両方を考慮して、最も有益なCoVをスケジュールすることが不可欠である。 既存の方法は、視覚マップのようなメタ情報交換に頼り、近隣の車両からの知覚の利得を予測し、余分な通信や処理オーバーヘッドを引き起こす。 本稿では,CPの分散スケジューリングのためのスケジューリング時学習という新しい手法を提案する。 この解により、CoVは過去の観測によって知覚利得を予測し、知覚利得の時間的連続性を活用することができる。 具体的には、スリーレスマルチアーム・バンドイット(RMAB)理論に基づく移動型センサスケジューリング(MASS)アルゴリズムを設計し、期待される平均知覚ゲインを最大化する。 期待平均学習後悔の上限が証明され、これはオンラインアルゴリズムの下位境界と対数係数に一致する。 現実的なトラヒックトレースで広範囲のシミュレーションが行われる。 その結果,提案したMASSアルゴリズムは,他の学習アルゴリズムと比較して,最大4.2%のリコール率を達成することができた。 最後に、LiDARフレームのトレースに関するケーススタディでは、MASSアルゴリズムの重要な要素である適応探索の優位性を定性的に示している。

Timely and reliable environment perception is fundamental to safe and efficient automated driving. However, the perception of standalone intelligence inevitably suffers from occlusions. A new paradigm, Cooperative Perception (CP), comes to the rescue by sharing sensor data from another perspective, i.e., from a cooperative vehicle (CoV). Due to the limited communication bandwidth, it is essential to schedule the most beneficial CoV, considering both the viewpoints and communication quality. Existing methods rely on the exchange of meta-information, such as visibility maps, to predict the perception gains from nearby vehicles, which induces extra communication and processing overhead. In this paper, we propose a new approach, learning while scheduling, for distributed scheduling of CP. The solution enables CoVs to predict the perception gains using past observations, leveraging the temporal continuity of perception gains. Specifically, we design a mobility-aware sensor scheduling (MASS) algorithm based on the restless multi-armed bandit (RMAB) theory to maximize the expected average perception gain. An upper bound on the expected average learning regret is proved, which matches the lower bound of any online algorithm up to a logarithmic factor. Extensive simulations are carried out on realistic traffic traces. The results show that the proposed MASS algorithm achieves the best average perception gain and improves recall by up to 4.2 percentage points compared to other learning-based algorithms. Finally, a case study on a trace of LiDAR frames qualitatively demonstrates the superiority of adaptive exploration, the key element of the MASS algorithm.
翻訳日:2023-02-28 19:26:44 公開日:2023-02-25
# リモートセンシング画像分類のための軽量ディープラーニングモデル

A Light-weight Deep Learning Model for Remote Sensing Image Classification ( http://arxiv.org/abs/2302.13028v1 )

ライセンス: Link先を確認
Lam Pham, Cam Le, Dat Ngo, Anh Nguyen, Jasmin Lampert, Alexander Schindler, Ian McLoughlin(参考訳) 本稿では,リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。 この目的のために、MobileNet V1/V2、ResNet 50/151V2、InceptionV3/InceptionResNetV2、EfficientNet B0/B7、DenseNet 121/201、ConNeXt Tiny/Largeといった様々なベンチマーク畳み込みニューラルネットワーク(CNN)アーキテクチャを評価した。 そして、最善の演奏モデルを選択して、教師・生徒の配置でコンパクトモデルを訓練する。 教師の知識蒸留は,複雑さを大幅に減らして高い性能を達成することを目的としている。 NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムよりも優れ、幅広いエッジデバイスに適用できる可能性がある。

In this paper, we present a high-performance and light-weight deep learning model for Remote Sensing Image Classification (RSIC), the task of identifying the aerial scene of a remote sensing image. To this end, we first valuate various benchmark convolutional neural network (CNN) architectures: MobileNet V1/V2, ResNet 50/151V2, InceptionV3/InceptionResNetV2, EfficientNet B0/B7, DenseNet 121/201, ConNeXt Tiny/Large. Then, the best performing models are selected to train a compact model in a teacher-student arrangement. The knowledge distillation from the teacher aims to achieve high performance with significantly reduced complexity. By conducting extensive experiments on the NWPU-RESISC45 benchmark, our proposed teacher-student models outperforms the state-of-the-art systems, and has potential to be applied on a wide rage of edge devices.
翻訳日:2023-02-28 19:26:15 公開日:2023-02-25
# 誤り訂正論理量子ビット間の量子絡み合いの保護

Protecting quantum entanglement between error-corrected logical qubits ( http://arxiv.org/abs/2302.13027v1 )

ライセンス: Link先を確認
Weizhou Cai, Xianghao Mu, Weiting Wang, Jie Zhou, Yuwei Ma, Xiaoxuan Pan, Ziyue Hua, Xinyu Liu, Guangming Xue, Haifeng Yu, Haiyan Wang, Yipu Song, Chang-Ling Zou, and Luyan Sun(参考訳) 絡み合いは、前世紀の物理学における最も重要な概念的進歩の1つであり、量子情報科学における最も重要な資源の一つでもある。 しかし、絡み合いは脆弱であり、アプリケーションの潜在的な利点はデコヒーレンスによって妨げられている。 本研究では,量子情報を空間的に分離したマイクロ波モードにエンコードすることで,ボソニック量子モジュールを用いたエンタングル論理量子ビット(elq)を実現する。 絡み合いは、繰り返し量子誤り補正により保護され、未保護のELQと比較して、浄化されたELQの誤差検出によるコヒーレンス時間が45$\%改善され、絡み合った物理量子ビットを超える。 さらに、論理量子ビットによるベルの不等式違反は、浄化後のベル信号B=2.250$\pm$0.019で初めて示され、古典的境界を13の標準偏差で上回った。 保護されたELQは将来の量子基盤の探索や量子ネットワークの応用に応用できる。

Entanglement represents one of the most important conceptual advances in physics during the last century and is also one of the most essential resources in quantum information science. However, entanglement is fragile and its potential advantages in applications are hindered by decoherence in practice. Here, we experimentally realize entangled logical qubits (ELQ) with a bosonic quantum module by encoding quantum information into spatially separated microwave modes. The entanglement is protected by repetitive quantum error correction, and the coherence time of the purified ELQ via error detection is improved by 45$\%$ compared with the unprotected ELQ and exceeds that of the entangled physical qubits. In addition, violation of the Bell inequality by logical qubits is demonstrated for the first time with the measured Bell signal B=2.250$\pm$0.019 after purification, surpassing the classical bound by 13 standard deviations. The protected ELQ could be applied in future explorations of quantum foundations and applications of quantum networks.
翻訳日:2023-02-28 19:25:53 公開日:2023-02-25
# DCLP: カリキュラムコントラスト学習を用いたニューラルアーキテクチャ予測器

DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning ( http://arxiv.org/abs/2302.13020v1 )

ライセンス: Link先を確認
Shenghe Zheng, Hongzhi Wang, Tianyu Mu(参考訳) ニューラル・アーキテクチャ・サーチ(nas)の性能評価フェーズにおいて、現在ニューラル・予測器は大きな可能性を秘めている。 評価プロセスにおける効率性にもかかわらず、効率的なnasのためのアーキテクチャ評価の少ない予測器を訓練することは困難である。 しかしながら、現在のアプローチのほとんどは、この問題を解決するために予測器の構造を改善することに関心があるが、ラベルなしデータに含まれる情報の完全な利用は、あまり調査されていない。 この問題に対処するために,DCLPと呼ばれるニューラル予測器のカリキュラム学習指導を用いたコントラスト学習フレームワークを導入する。 具体的には,提案した難易度測定器とトレーニングスケジューラを用いて事前学習中の正のサンプルの訓練順序を計画し,コントラスト学習器を用いてデータの表現を学習する。 既存の予測器と比較して,dclpは高い精度と効率性を示し,検索戦略と組み合わせた複数の検索空間において優れたアーキテクチャを探索する能力を示す。

Neural predictors currently show great potential in the performance evaluation phase of neural architecture search (NAS). Despite their efficiency in the evaluation process, it is challenging to train the predictor with fewer architecture evaluations for efficient NAS. However, most of the current approaches are more concerned with improving the structure of the predictor to solve this problem, while the full use of the information contained in unlabeled data is less explored. To address this issue, we introduce a contrastive learning framework with curriculum learning guidance for the neural predictor called DCLP. To be specific, we develop a plan for the training order of positive samples during pre-training through the proposed difficulty measurer and training scheduler, and utilize the contrastive learner to learn representations of data. Compared with existing predictors, we experimentally demonstrate that DCLP has high accuracy and efficiency, and also shows an encouraging ability to discover superior architectures in multiple search spaces when combined with search strategies.
翻訳日:2023-02-28 19:25:35 公開日:2023-02-25
# ソフトしきい値プルーニングのための統一フレームワーク

A Unified Framework for Soft Threshold Pruning ( http://arxiv.org/abs/2302.13019v1 )

ライセンス: Link先を確認
Yanqi Chen, Zhengyu Ma, Wei Fang, Xiawu Zheng, Zhaofei Yu, Yonghong Tian(参考訳) ソフトしきい値プルーニングは最先端のプルーニング手法の1つである。 しかし、従来の手法では、しきい値スケジューラを目的なく探索するか、単にしきい値スケジューラを訓練可能とし、統一的な観点からの理論的な説明を欠いている。 本研究では,スパースリカバリと圧縮センシングの古典的手法である反復収縮閾値保持アルゴリズム(ISTA)を用いて,暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。 この理論的枠組みの下では, 従来のソフトしきい値プルーニング研究で提案されたしきい値調整戦略は, L_1$-regularization 項の異なるスタイルで決定される。 さらに、我々のフレームワークに基づくしきい値スケジューリングの詳細な研究を通して、最適なしきい値スケジューラを導出する。 このスケジューラは$L_1$-regularization係数を安定に保ち、最適化の観点から時間不変の目的関数を意味する。 原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。 ニューラルネットワーク(resnet-50とmobilenet-v1)とspyking neural networks(sew resnet-18)の両方で、imagenetデータセット上で、その最先端のパフォーマンスを検証する。 この枠組みを基礎として,急激な乾燥訓練,早期刈り,初期化時の刈り込みなど,刈り込み手法のファミリーを導出する。 コードはhttps://github.com/Yanqi-Chen/LATSで公開されている。

Soft threshold pruning is among the cutting-edge pruning methods with state-of-the-art performance. However, previous methods either perform aimless searching on the threshold scheduler or simply set the threshold trainable, lacking theoretical explanation from a unified perspective. In this work, we reformulate soft threshold pruning as an implicit optimization problem solved using the Iterative Shrinkage-Thresholding Algorithm (ISTA), a classic method from the fields of sparse recovery and compressed sensing. Under this theoretical framework, all threshold tuning strategies proposed in previous studies of soft threshold pruning are concluded as different styles of tuning $L_1$-regularization term. We further derive an optimal threshold scheduler through an in-depth study of threshold scheduling based on our framework. This scheduler keeps $L_1$-regularization coefficient stable, implying a time-invariant objective function from the perspective of optimization. In principle, the derived pruning algorithm could sparsify any mathematical model trained via SGD. We conduct extensive experiments and verify its state-of-the-art performance on both Artificial Neural Networks (ResNet-50 and MobileNet-V1) and Spiking Neural Networks (SEW ResNet-18) on ImageNet datasets. On the basis of this framework, we derive a family of pruning methods, including sparsify-during-training, early pruning, and pruning at initialization. The code is available at https://github.com/Yanqi-Chen/LATS.
翻訳日:2023-02-28 19:25:15 公開日:2023-02-25
# 非対称チャネル上の量子誤り訂正表面符号の性能解析

Performance Analysis of Quantum Error-Correcting Surface Codes over Asymmetric Channels ( http://arxiv.org/abs/2302.13015v1 )

ライセンス: Link先を確認
Lorenzo Valentini, Diego Forlivesi, Marco Chiani(参考訳) 量子情報技術の効率的な実装における大きな課題の1つは、量子ノイズに対抗する方法である。 したがって、量子誤り訂正符号は量子コンピューティングと量子インターネットへの進化の第一の関心である。 本稿では,非対称量子チャネルと対称量子チャネルの両方において,実用実装において最も重要なクラスの一つである表面符号の性能を解析する。 シミュレーションにより確認された近似式を導出し、表面符号およびxzzx符号の性能評価を行い、非符号系に対する符号の利点を評価するための指標を提供する。 その結果,[[13, 1, 3]],[[[23, 1, 3/5]],[[[33, 1, 3/7]],[[[41, 1, 5]]]の表面符号など,表面符号の解析式を用いて性能を特徴付けることができた。

One of the main challenge for an efficient implementation of quantum information technologies is how to counteract quantum noise. Quantum error correcting codes are therefore of primary interest for the evolution towards quantum computing and quantum Internet. We here analyze the performance of surface codes, one of the most important class for practical implementations, on both symmetric and asymmetric quantum channels. We derive approximate expressions, confirmed by simulations, to evaluate the performance of surface codes and of XZZX codes, and provide a metric to assess the advantage of codes with respect to uncoded systems. Our findings allow to characterize the performance by means of analytical formulas of surface codes, like, for example, the [[13, 1, 3]], the [[23, 1, 3/5]], the [[33, 1, 3/7]], and the [[41, 1, 5]] surface codes.
翻訳日:2023-02-28 19:24:50 公開日:2023-02-25
# ゼロショット対話状態追跡のための知識としての選択融合

Choice Fusion as Knowledge for Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2302.13013v1 )

ライセンス: Link先を確認
Ruolin Su, Jingfeng Yang, Ting-Wei Wu, Biing-Hwang Juang(参考訳) 低コストで新しいドメインに対話システムをデプロイする必要性が高まっているため、望まれるドメインをトレーニングすることなくタスク指向の対話におけるユーザの要求を追跡するゼロショット対話状態追跡(DST)が注目を集めている。 従来の研究では、DSTにおけるドメイン内トレーニングの必要性を減らすためにQAデータを活用していたが、対話状態を追跡するための知識伝達と融合を明示的にモデル化することはできなかった。 この問題を解決するために,ドメインに依存しないQAデータセットに基づいて訓練されたCoFunDSTを提案し,T5事前学習言語モデルに基づくゼロショット対話状態生成の知識としてスロット値の候補選択を直接利用する。 具体的には、CoFunDSTは参照コンテキストに関連性の高い選択を選択し、デコーダを初期化してモデル出力を制限する。 実験の結果,提案モデルはマルチウォズ2.1のほとんどの領域において既存のゼロショットdstアプローチよりも精度が優れることがわかった。 広範分析により,QAからゼロショットDST学習を改善するための提案手法の有効性が示された。

With the demanding need for deploying dialogue systems in new domains with less cost, zero-shot dialogue state tracking (DST), which tracks user's requirements in task-oriented dialogues without training on desired domains, draws attention increasingly. Although prior works have leveraged question-answering (QA) data to reduce the need for in-domain training in DST, they fail to explicitly model knowledge transfer and fusion for tracking dialogue states. To address this issue, we propose CoFunDST, which is trained on domain-agnostic QA datasets and directly uses candidate choices of slot-values as knowledge for zero-shot dialogue-state generation, based on a T5 pre-trained language model. Specifically, CoFunDST selects highly-relevant choices to the reference context and fuses them to initialize the decoder to constrain the model outputs. Our experimental results show that our proposed model achieves outperformed joint goal accuracy compared to existing zero-shot DST approaches in most domains on the MultiWOZ 2.1. Extensive analyses demonstrate the effectiveness of our proposed approach for improving zero-shot DST learning from QA.
翻訳日:2023-02-28 19:24:35 公開日:2023-02-25
# ChatAug: テキストデータ拡張にChatGPTを活用する

ChatAug: Leveraging ChatGPT for Text Data Augmentation ( http://arxiv.org/abs/2302.13007v1 )

ライセンス: Link先を確認
Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Zihao Wu, Lin Zhao, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li(参考訳) テキストデータ拡張は、多くの自然言語処理(nlp)タスクにおける限られたサンプルサイズの課題を克服するための効果的な戦略である。 この課題は、ターゲット領域のデータが一般的に不足し、品質が低下する、少数の学習シナリオにおいて特に顕著である。 このような課題を緩和するための自然で広く利用されている戦略は、トレーニングデータに対するデータ拡張を実行し、データの不変性をよりよく捉え、サンプルサイズを増加させることである。 しかし、現在のテキストデータ拡張法は、生成されたデータの正しいラベル付けを保証できないか、または、生成されたデータの十分な多様性を保証できないか、または両方である。 本研究では,近年の大規模言語モデル,特にchatgptの開発に触発されて言語理解能力の向上を実証し,chatgpt(chataug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用し、人間の言語に親和性を持つモデルを提供する。 テキストデータ拡張アプローチchataugは、トレーニングサンプルの各文を、概念的に類似するが意味的に異なる複数のサンプルに分割する。 拡張されたサンプルは、下流モデルのトレーニングで使用できる。 少数の学習テキスト分類タスクにおける実験結果から,提案手法の精度と拡張サンプルの分布の観点から,最先端テキストデータ拡張法よりも優れた性能を示す。

Text data augmentation is an effective strategy for overcoming the challenge of limited sample sizes in many natural language processing (NLP) tasks. This challenge is especially prominent in the few-shot learning scenario, where the data in the target domain is generally much scarcer and of lowered quality. A natural and widely-used strategy to mitigate such challenges is to perform data augmentation on the training data to better capture the data invariance and increase the sample size. However, current text data augmentation methods either can not ensure the correct labeling of the generated data (lacking faithfulness) or can not ensure sufficient diversity in the generated data (lacking completeness), or both. Inspired by the recent success of large language models, especially the development of ChatGPT, which demonstrated improved language comprehension abilities, in this work, we propose a text data augmentation approach based on ChatGPT (named ChatAug). ChatGPT is trained on data with unparalleled linguistic richness and employs a reinforcement training process with large-scale human feedback, which endows the model with affinity to the naturalness of human language. Our text data augmentation approach ChatAug rephrases each sentence in the training samples into multiple conceptually similar but semantically different samples. The augmented samples can then be used in downstream model training. Experiment results on few-shot learning text classification tasks show the superior performance of the proposed ChatAug approach over state-of-the-art text data augmentation methods in terms of testing accuracy and distribution of the augmented samples.
翻訳日:2023-02-28 19:24:17 公開日:2023-02-25
# TBFormer:イメージフォージェリーローカライゼーションのための2分岐トランス

TBFormer: Two-Branch Transformer for Image Forgery Localization ( http://arxiv.org/abs/2302.13004v1 )

ライセンス: Link先を確認
Yaqi Liu, Binbin Lv, Xin Jin, Xiaoyu Chen, and Xiaokun Zhang(参考訳) Image forgery Localization は、高品質な識別特徴から微妙な痕跡を捉え、偽領域を識別することを目的としている。 本稿では,イメージフォージェリーローカライゼーションのための2つの特徴抽出分岐を持つTransformerスタイルのネットワークを提案し,その名称をTwo-Branch Transformer(TBFormer)と呼ぶ。 まず,rgbとノイズ領域の両方の特徴を識別可能なスタック化トランス層を利用して,2つの特徴抽出ブランチを精巧に設計する。 次に,2つの異なる領域から階層的特徴を効果的に融合するために,階層的特徴融合モジュール (ahfm) を提案する。 2つの特徴抽出ブランチは同じアーキテクチャであるが、それらの特徴は異なるドメインから抽出されるため、大きく異なる。 階層的特徴調査のための統合機能ドメインにそれらを組み込むために,位置対応を採用します。 最後に、特徴再構成のためにトランスフォーマーデコーダを構築し、予測マスクを生成する。 公開されているデータセットに対する大規模な実験は、提案モデルの有効性を示す。

Image forgery localization aims to identify forged regions by capturing subtle traces from high-quality discriminative features. In this paper, we propose a Transformer-style network with two feature extraction branches for image forgery localization, and it is named as Two-Branch Transformer (TBFormer). Firstly, two feature extraction branches are elaborately designed, taking advantage of the discriminative stacked Transformer layers, for both RGB and noise domain features. Secondly, an Attention-aware Hierarchical-feature Fusion Module (AHFM) is proposed to effectively fuse hierarchical features from two different domains. Although the two feature extraction branches have the same architecture, their features have significant differences since they are extracted from different domains. We adopt position attention to embed them into a unified feature domain for hierarchical feature investigation. Finally, a Transformer decoder is constructed for feature reconstruction to generate the predicted mask. Extensive experiments on publicly available datasets demonstrate the effectiveness of the proposed model.
翻訳日:2023-02-28 19:23:54 公開日:2023-02-25
# 量子非破壊測定による絡み合った原子アンサンブルの光学的および原子的デコヒーレンス

Optical and atomic decoherence in entangled atomic ensembles generated by quantum nondemolition measurements ( http://arxiv.org/abs/2302.13062v1 )

ライセンス: Link先を確認
Shuai Gao, Shuang Li, Manish Chaudhary, Matthew Prest, Ebubechukwu O. Ilo-Okeke, Valentin Ivannikov, and Tim Byrnes(参考訳) 量子非退化(qnd)測定により生成したエンタングル原子アンサンブルにおける光相拡散、光子損失および利得の形でのデコヒーレンスの影響について検討した。 光デコヒーレンスチャネルでは、順序演算子(IWOP)内での統合技術を用いて、デコヒーレンスを記述するクラウス演算子を得る。 異なるデコヒーレンスチャネルがスピン作用素のばらつき,絡み合いと相関基準,対数否定性,ベル-CHSH不等式など,様々な量に与える影響を解析した。 一般に、相関と絡み合いの滑らかな崩壊はデコヒーレンスの存在下で見られる。 様々な量が、短い相互作用時間範囲において、3つのデコヒーレンスの全種類のデコヒーレンスの下で非古典的性質を示すことが判明した。 以上の結果から,これらのQND測定はボース=アインシュタイン凝縮体間の絡み合い生成の最も有望な方法の一つであることがわかった。

We study the effects of decoherence in the form of optical phase diffusion, photon loss and gain, and atomic dephasing in entangled atomic ensembles produced via quantum nondemolition (QND) measurements. For the optical decoherence channels, we use the technique of integration within ordered operators (IWOP) to obtain the Kraus operators that describe the decoherence. We analyze the effect of different decoherence channels on a variety of quantities such as the variances of the spin operators, entanglement and correlation criteria, logarithmic negativity, and the Bell-CHSH inequality. We generally find a smooth decay of correlations and entanglement in the presence of decoherence. We find that various quantities retain showing non-classical properties under all three types of decoherence, in the short interaction time range. Our results show that such QND measurements are one of the most promising methods for entanglement generation between two Bose-Einstein condensates.
翻訳日:2023-02-28 19:17:51 公開日:2023-02-25
# DeepBrainPrint:脳MRI再同定のための新しいコントラストフレームワーク

DeepBrainPrint: A Novel Contrastive Framework for Brain MRI Re-Identification ( http://arxiv.org/abs/2302.13057v1 )

ライセンス: Link先を確認
Lemuel Puglisi (for the Alzheimer's Disease Neuroimaging Initiative), Frederik Barkhof, Daniel C. Alexander, Geoffrey JM Parker, Arman Eshaghi, Daniele Rav\`i(参考訳) MRIの最近の進歩は、大規模なデータセットの作成につながっている。 データ量の増加に伴い、これらのデータセット(再同定として知られるプロセス)内で同じ患者の以前のスキャンを見つけることが困難になっている。 そこで本研究では,同一患者の脳mriスキャンを検索するために,deepbrainprintというaiを利用した医用画像検索フレームワークを提案する。 当社のフレームワークは,3つの主要なイノベーションを伴う,半自己指導型のコントラスト型ディープラーニングアプローチです。 まず、自己監督パラダイムと教師付きパラダイムを組み合わせて、リアルタイムの画像検索に使用できるMRIスキャンから効果的な脳指紋を作成する。 第2に,特別な重み付け関数を用いてトレーニングを指導し,モデルの収束性を改善する。 第3に, 強度変化の有無(スキャンコントラストの違いなど)の再現性の向上と, 高齢者の年齢, 疾患の進行を考慮し, 新しい画像変換を導入する。 DeepBrainPrintは、アルツハイマー病神経画像イニシアチブ(ADNI)のT1強調脳MRIの大規模なデータセットと、異なる画像モダリティで検索性能を評価するために設計された合成データセットを用いてテストした。 以上の結果から,DeepBrainPrintは,単純な類似度指標や高度なコントラスト学習フレームワークなど,従来の手法よりも優れていた。

Recent advances in MRI have led to the creation of large datasets. With the increase in data volume, it has become difficult to locate previous scans of the same patient within these datasets (a process known as re-identification). To address this issue, we propose an AI-powered medical imaging retrieval framework called DeepBrainPrint, which is designed to retrieve brain MRI scans of the same patient. Our framework is a semi-self-supervised contrastive deep learning approach with three main innovations. First, we use a combination of self-supervised and supervised paradigms to create an effective brain fingerprint from MRI scans that can be used for real-time image retrieval. Second, we use a special weighting function to guide the training and improve model convergence. Third, we introduce new imaging transformations to improve retrieval robustness in the presence of intensity variations (i.e. different scan contrasts), and to account for age and disease progression in patients. We tested DeepBrainPrint on a large dataset of T1-weighted brain MRIs from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and on a synthetic dataset designed to evaluate retrieval performance with different image modalities. Our results show that DeepBrainPrint outperforms previous methods, including simple similarity metrics and more advanced contrastive deep learning frameworks.
翻訳日:2023-02-28 19:17:31 公開日:2023-02-25
# SATBA:空間的注意に基づく見えないバックドア攻撃

SATBA: An Invisible Backdoor Attack Based On Spatial Attention ( http://arxiv.org/abs/2302.13056v1 )

ライセンス: Link先を確認
Huasong Zhou, Zhenyu Wang and Xiaowei Xu(参考訳) AIセキュリティの新しい領域として、バックドア攻撃は近年注目を集めている。 毒付きサンプルからなる毒付きデータセットによるモデルトレーニングのプロセスを通じて、バックドアをdnnモデルに注入できることはよく知られている。 入射モデルによる良性試料の正当性予測は, トリガーパターンを含む有毒試料に対して異常に振る舞う。 既存の有毒サンプルのトリガーのほとんどは可視性であり、人間の視覚検査によって容易に発見でき、トリガー注入プロセスは天然サンプルとトリガーの特徴喪失を引き起こす。 そこで本稿では,satbaと呼ばれる新しいバックドアアタックを提案する。この攻撃は目に見えず,トリガーの損失を最小限に抑え,攻撃成功率とモデルの精度を向上させる。 空間的注意を通してデータの特徴を抽出し、クリーンデータに関連するトリガーパターンを生成し、u型モデルを用いて元のデータにトリガーを植え込む。 3つの標準データセット上での3つの画像分類DNNに対する攻撃の有効性を示す。 また,画像類似性に関する広範囲な実験を行い,提案する攻撃がバックドア防御に不可欠な実用的なステルス性をもたらすことを示した。

As a new realm of AI security, backdoor attack has drew growing attention research in recent years. It is well known that backdoor can be injected in a DNN model through the process of model training with poisoned dataset which is consist of poisoned sample. The injected model output correct prediction on benign samples yet behave abnormally on poisoned samples included trigger pattern. Most existing trigger of poisoned sample are visible and can be easily found by human visual inspection, and the trigger injection process will cause the feature loss of natural sample and trigger. To solve the above problems and inspire by spatial attention mechanism, we introduce a novel backdoor attack named SATBA, which is invisible and can minimize the loss of trigger to improve attack success rate and model accuracy. It extracts data features and generate trigger pattern related to clean data through spatial attention, poisons clean image by using a U-type models to plant a trigger into the original data. We demonstrate the effectiveness of our attack against three popular image classification DNNs on three standard datasets. Besides, we conduct extensive experiments about image similarity to show that our proposed attack can provide practical stealthiness which is critical to resist to backdoor defense.
翻訳日:2023-02-28 19:17:09 公開日:2023-02-25
# RETEXO: 分散グラフによるスケーラブルニューラルネットワークトレーニング

RETEXO: Scalable Neural Network Training over Distributed Graphs ( http://arxiv.org/abs/2302.13053v1 )

ライセンス: Link先を確認
Aashish Kolluri, Sarthak Choudhary, Bryan Hooi, Prateek Saxena(参考訳) グラフニューラルネットワークは、グラフデータよりも教師付き学習に有望なアプローチを提供する。 グラフデータは、特にプライバシーに敏感な場合や、中央でトレーニングするには大きすぎる場合、コラボレーティブトレーニング中の通信コストを最小限にしたい異なる処理ユニット(クライアント)間で分割されることが多い。 完全な分散設定は、そのような分割を極端に必要とし、1つのノードとその隣接エッジの機能のみが1つのクライアントプロセッサでローカルに保持される。 既存のGNNはそのようなセットアップでトレーニングするために設計されていない。 そこで,本研究では,学習中のコミュニケーション効率を向上させる既存gnnの新しいトランスフォーメーションであるretexoを提案する。 我々は,RETEXOが浅いGNNを訓練しても最大6桁の通信効率を向上し,ノード分類タスクの精度が最小限に抑えられたことを実験的に確認した。

Graph neural networks offer a promising approach to supervised learning over graph data. Graph data, especially when it is privacy-sensitive or too large to train on centrally, is often stored partitioned across disparate processing units (clients) which want to minimize the communication costs during collaborative training. The fully-distributed setup takes such partitioning to its extreme, wherein features of only a single node and its adjacent edges are kept locally with one client processor. Existing GNNs are not architected for training in such setups and incur prohibitive costs therein. We propose RETEXO, a novel transformation of existing GNNs that improves the communication efficiency during training in the fully-distributed setup. We experimentally confirm that RETEXO offers up to 6 orders of magnitude better communication efficiency even when training shallow GNNs, with a minimal trade-off in accuracy for supervised node classification tasks.
翻訳日:2023-02-28 19:16:50 公開日:2023-02-25
# CASIA-Iris-Africa: 大規模アフリカのアイリス画像データベース

CASIA-Iris-Africa: A Large-scale African Iris Image Database ( http://arxiv.org/abs/2302.13049v1 )

ライセンス: Link先を確認
Jawad Muhammad, Yunlong Wang, Junxing Hu, Kunbo Zhang, and Zhenan Sun(参考訳) アイリスバイオメトリクス(Iris Biometrics)は、ヒトの生理的変化に依存しないことが証明された、表現型バイオメトリクスの特徴である。 irisのバイオメトリックスに関する研究は、公に利用可能なirisデータベースによって、大きく進展している。 制約、モバイル、マルチスペクトル、合成、長距離、コンタクトレンズ、ライブネス検出など、虹彩生体認証の課題に取り組む研究者には、さまざまなデータベースが提供されている。 しかし、これらのデータベースにはアフリカ人はほとんどいないコーカサス系とアジア系がほとんど含まれている。 顔のバイオメトリックスにおける人種的偏見に関する多くの調査研究にもかかわらず、公的な領域に十分なアフリカ人の虹彩サンプルを含む人種的に多様な大規模データベースがないために、虹彩バイオメトリックスの研究はほとんど発表されていない。 さらに、これらのデータベースのほとんどは比較的少数の被写体とラベル付き画像を含んでいる。 本稿では,アフリカ人に対する人種バイアスの影響を仲介するために,アイリス認識コミュニティの補完データベースとして使用できる大規模アフリカデータベースcasia-iris-africaを提案する。 データベースには、年齢、性別、民族の属性を持つ1023人のアフリカ人被験者(2046人のアイリスクラス)の28,717枚の画像が含まれている。 特定のアプリケーションプロトコルのセットがデータベースに組み込まれ、データベースの可変性と拡張性が保証される。 データベース上のいくつかのオープンソースのSOTAアルゴリズムのパフォーマンス結果が提示され、ベースラインのパフォーマンスとして機能する。 他のデータベースの性能向上にもかかわらず、提案されたデータベースにおけるベースラインアルゴリズムのパフォーマンスが比較的低いことは、これらの虹彩認識アルゴリズムに人種バイアスが存在することを証明している。 データベースは当社のウェブサイトで利用可能になります。

Iris biometrics is a phenotypic biometric trait that has proven to be agnostic to human natural physiological changes. Research on iris biometrics has progressed tremendously, partly due to publicly available iris databases. Various databases have been available to researchers that address pressing iris biometric challenges such as constraint, mobile, multispectral, synthetics, long-distance, contact lenses, liveness detection, etc. However, these databases mostly contain subjects of Caucasian and Asian docents with very few Africans. Despite many investigative studies on racial bias in face biometrics, very few studies on iris biometrics have been published, mainly due to the lack of racially diverse large-scale databases containing sufficient iris samples of Africans in the public domain. Furthermore, most of these databases contain a relatively small number of subjects and labelled images. This paper proposes a large-scale African database named CASIA-Iris-Africa that can be used as a complementary database for the iris recognition community to mediate the effect of racial biases on Africans. The database contains 28,717 images of 1023 African subjects (2046 iris classes) with age, gender, and ethnicity attributes that can be useful in demographically sensitive studies of Africans. Sets of specific application protocols are incorporated with the database to ensure the database's variability and scalability. Performance results of some open-source SOTA algorithms on the database are presented, which will serve as baseline performances. The relatively poor performances of the baseline algorithms on the proposed database despite better performance on other databases prove that racial biases exist in these iris recognition algorithms. The database will be made available on our website: http://www.idealtest.org.
翻訳日:2023-02-28 19:16:34 公開日:2023-02-25
# human-in-the-loopスキーマの誘導

Human-in-the-Loop Schema Induction ( http://arxiv.org/abs/2302.13048v1 )

ライセンス: Link先を確認
Tianyi Zhang, Isaac Tham, Zhaoyi Hou, Jiaxuan Ren, Liyang Zhou, Hainiu Xu, Li Zhang, Lara J. Martin, Rotem Dror, Sha Li, Heng Ji, Martha Palmer, Susan Brown, Reece Suchocki, and Chris Callison-Burch(参考訳) スキーマインジェクションは、シナリオにおけるイベントの展開方法を説明するグラフ表現を構築する。 既存のアプローチは情報検索(IR)と情報抽出(IE)に基づいており、人間によるキュレーションが限られていることが多い。 GPT-3を応用した人型ループ型スケジューリングシステムについて述べる。 まず最初に,スキーマ要素生成の促進,要素の手動編集,スキーマグラフへの変換など,システムのさまざまなモジュールについて説明した。 システムと従来のシステムとを質的に比較することにより,従来のアプローチよりも容易に新しいドメインに移行できるだけでなく,対話型インターフェースによる人的キュレーションの努力も軽減できることを示した。

Schema induction builds a graph representation explaining how events unfold in a scenario. Existing approaches have been based on information retrieval (IR) and information extraction(IE), often with limited human curation. We demonstrate a human-in-the-loop schema induction system powered by GPT-3. We first describe the different modules of our system, including prompting to generate schematic elements, manual edit of those elements, and conversion of those into a schema graph. By qualitatively comparing our system to previous ones, we show that our system not only transfers to new domains more easily than previous approaches, but also reduces efforts of human curation thanks to our interactive interface.
翻訳日:2023-02-28 19:16:04 公開日:2023-02-25
# 負荷予測のためのディープラーニングアーキテクチャの探索:Covid-19パンデミックがモデル性能に与える影響の比較分析

In Search of Deep Learning Architectures for Load Forecasting: A Comparative Analysis and the Impact of the Covid-19 Pandemic on Model Performance ( http://arxiv.org/abs/2302.13046v1 )

ライセンス: Link先を確認
Sotiris Pelekis, Evangelos Karakolis, Francisco Silva, Vasileios Schoinas, Spiros Mouzakitis, Georgios Kormpakis, Nuno Amaro, John Psarras(参考訳) 電力網では、短期負荷予測(stlf)が重要であり、エネルギー市場におけるエネルギー企業の参加を可能にする一方で、信頼性、排出、コストの最適化に寄与する。 STLFは、複数のタイプの電気負荷からの活性および反応性の複雑な要求と、多くの外因性変数への依存のため、困難な課題である。 その中でも、新型コロナウイルス(covid-19)パンデミックのような特殊な状況が、負荷列の分散シフトの原因となることが多い。 本研究は, ニューラルベイズ拡張解析による時系列予測(N-BEATS), 長期記憶(LSTM), 時間畳み込みネットワーク(TCN)など, ディープラーニング(DL)アーキテクチャの比較研究を行い, その一方で, 新型コロナウイルスパンデミック時代のアウト・オブ・ディストリビューションの一般化能力について検討した。 パターンシーケンス予測(PSF)モデルがベースラインとして使用される。 ケーススタディは、ポルトガル全国15分解像度ネットロードタイムシリーズの日頭予測に焦点を当てている。 結果はエネルギー会社やネットワークオペレーターによって活用できる (i)最先端dlモデルによる予測ツールキットの強化 二 モデルパフォーマンスの危機イベントの重大な結果に気付くこと。 (iii)スマートグリッドコンテキスト内の高レベルモデル評価,展開,持続可能性ガイドとして。

In power grids, short-term load forecasting (STLF) is crucial as it contributes to the optimization of their reliability, emissions, and costs, while it enables the participation of energy companies in the energy market. STLF is a challenging task, due to the complex demand of active and reactive power from multiple types of electrical loads and their dependence on numerous exogenous variables. Amongst them, special circumstances, such as the COVID-19 pandemic, can often be the reason behind distribution shifts of load series. This work conducts a comparative study of Deep Learning (DL) architectures, namely Neural Basis Expansion Analysis Time Series Forecasting (N-BEATS), Long Short-Term Memory (LSTM), and Temporal Convolutional Networks (TCN), with respect to forecasting accuracy and training sustainability, meanwhile examining their out-of-distribution generalization capabilities during the COVID-19 pandemic era. A Pattern Sequence Forecasting (PSF) model is used as baseline. The case study focuses on day-ahead forecasts for the Portuguese national 15-minute resolution net load time series. The results can be leveraged by energy companies and network operators (i) to reinforce their forecasting toolkit with state-of-the-art DL models; (ii) to become aware of the serious consequences of crisis events on model performance; (iii) as a high-level model evaluation, deployment, and sustainability guide within a smart grid context.
翻訳日:2023-02-28 19:15:53 公開日:2023-02-25
# 限定クエリグラフ接続性テスト

Limited Query Graph Connectivity Test ( http://arxiv.org/abs/2302.13036v1 )

ライセンス: Link先を確認
Mingyu Guo, Jialiang Li, Aneta Neumann, Frank Neumann, Hung Nguyen(参考訳) 本稿では,限定クエリグラフ接続テストと呼ばれる組合せ最適化モデルを提案する。 エッジが2つの可能な状態(オン/オフ)を持つグラフを考える。 エッジの状態は最初に隠れている。 エッジをクエリしてその状態を明らかにすることができます。 ソース s と宛先 t が与えられた場合、経路(エッジのみからなる)と切断(オフエッジのみからなる)を識別することにより、s-t 接続性をテストする。 グラフ接続が確立されたかどうかに関わらず、Bクエリに制限されています。 期待されるクエリ数を最小化するクエリポリシーを設計することを目指している。 クエリ制限b(つまり、bをエッジの総数に設定することで)を削除すると、この問題は(単調)確率的ブール関数評価(sbfe)の特別な場合となる。 非常に高価なアルゴリズムが2つ存在する。 それらはそれぞれ O(3^m) と O(2^{2^k}) の上限としてよく知られており、m は辺の数、k は経路/切断の数である。 これらのアルゴリズムは実際にはうまくスケールしない。 我々はよりスケーラブルな完全アルゴリズムを提案する。 我々の正確なアルゴリズムは、下限が達成可能になるまで、性能下限を反復的に改善する。 正確なアルゴリズムがスケールしない場合でも、低境界を計算するための任意の時間アルゴリズムとして使用できる。 我々は多種多様な実用グラフを実験する。 大規模なグラフ(例えば数万のエッジ)であっても、結論に達するのにクエリはごくわずかであり、これはクエリ制限Bの背後にある実践的なモチベーションである。 小さなBの場合、我々の正確なアルゴリズムはうまくスケールする。 大きなBの場合、我々の正確なアルゴリズムはヒューリスティックに変換できる(つまり、常に5つのクエリしか残っていないふりをする)。 我々のヒューリスティックは、SBFEと関連する文献から移植された既存のヒューリスティックよりも優れています。

We propose a combinatorial optimisation model called Limited Query Graph Connectivity Test. We consider a graph whose edges have two possible states (on/off). The edges' states are hidden initially. We could query an edge to reveal its state. Given a source s and a destination t, we aim to test s-t connectivity by identifying either a path (consisting of only on edges) or a cut (consisting of only off edges). We are limited to B queries, after which we stop regardless of whether graph connectivity is established. We aim to design a query policy that minimizes the expected number of queries. If we remove the query limit B (i.e., by setting B to the total number of edges), then our problem becomes a special case of (monotone) Stochastic Boolean Function Evaluation (SBFE). There are two existing exact algorithms that are prohibitively expensive. They have best known upper bounds of O(3^m) and O(2^{2^k}) respectively, where m is the number of edges and k is the number of paths/cuts. These algorithms do not scale well in practice. We propose a significantly more scalable exact algorithm. Our exact algorithm works by iteratively improving the performance lower bound until the lower bound becomes achievable. Even when our exact algorithm does not scale, it can be used as an anytime algorithm for calculating lower bound. We experiment on a wide range of practical graphs. We observe that even for large graphs (i.e., tens of thousands of edges), it mostly takes only a few queries to reach conclusion, which is the practical motivation behind the query limit B. B is also an algorithm parameter that controls scalability. For small B, our exact algorithm scales well. For large B, our exact algorithm can be converted to a heuristic (i.e., always pretend that there are only 5 queries left). Our heuristic outperforms all existing heuristics ported from SBFE and related literature.
翻訳日:2023-02-28 19:15:30 公開日:2023-02-25
# 騒音は住宅価格に影響を及ぼすか? テッサロニキ市街地における事例研究

Does Noise Affect Housing Prices? A Case Study in the Urban Area of Thessaloniki ( http://arxiv.org/abs/2302.13034v1 )

ライセンス: Link先を確認
Georgios Kamtziridis, Dimitris Vrakas and Grigorios Tsoumakas(参考訳) 不動産市場は住宅価格を予測する様々な方法に依存しており、住宅または商業資産のデータセットに基づいて訓練されたモデルも含まれている。 ほとんどの研究は、基本的な特性特性や、アメニティからの距離や道路アクセシビリティといった都市特性などのデータを活用することで、より正確な機械学習モデルを作成する努力をしている。 騒音汚染などの環境要因は価格に影響を与える可能性があるが、この話題に関する研究は限られている。 理由の1つは、データの欠如である。 本稿では,ギリシャのテッサロニキ市を対象としたヘレニック環境エネルギー省が実施した研究に基づいて,汎用的な騒音汚染データセットを再構築し,公開する。 次に, xgboost のようなアンサンブル機械学習モデルをテッサロニキの異なる領域のプロパティデータに基づいて学習し, 解釈可能性評価手法を用いて, 騒音が価格に与える影響について検討する。 本研究は, 住宅価格に及ぼす騒音の影響を示すだけでなく, 同一都市の異なる地域において, 騒音の影響が著しく異なることを示す新しい騒音汚染データセットを提供する。

Real estate markets depend on various methods to predict housing prices, including models that have been trained on datasets of residential or commercial properties. Most studies endeavor to create more accurate machine learning models by utilizing data such as basic property characteristics as well as urban features like distances from amenities and road accessibility. Even though environmental factors like noise pollution can potentially affect prices, the research around this topic is limited. One of the reasons is the lack of data. In this paper, we reconstruct and make publicly available a general purpose noise pollution dataset based on published studies conducted by the Hellenic Ministry of Environment and Energy for the city of Thessaloniki, Greece. Then, we train ensemble machine learning models, like XGBoost, on property data for different areas of Thessaloniki to investigate the way noise influences prices through interpretability evaluation techniques. Our study provides a new noise pollution dataset that not only demonstrates the impact noise has on housing prices, but also indicates that the influence of noise on prices significantly varies among different areas of the same city.
翻訳日:2023-02-28 19:15:00 公開日:2023-02-25
# マルチモーダルデータを用いた現実シナリオにおける話者認識

Speaker Recognition in Realistic Scenario Using Multimodal Data ( http://arxiv.org/abs/2302.13033v1 )

ライセンス: Link先を確認
Saqlain Hussain Shah, Muhammad Saad Saeed, Shah Nawaz, Muhammad Haroon Yousaf(参考訳) 近年,YouTubeの大規模音声視覚情報を活用したセレブの顔と声の関連が確立されている。 大規模オーディオ視覚データセットの可用性は、標準畳み込みニューラルネットワークに基づく話者認識手法の開発に有効である。 そこで本稿は,大規模視聴覚情報を活用して話者認識作業を改善することを目的とする。 そこで本研究では,マルチモーダルシステムにおいて,顔と音声の協調表現を学習する2分岐ネットワークを提案する。 その後、2分岐ネットワークから特徴を抽出し、話者認識のための分類器を訓練する。 提案手法をVoxCeleb$1$という大規模オーディオ視覚データセット上で評価した。 その結果,顔情報の追加により話者認識の性能が向上した。 さらに,この結果から,顔と声の重複が示唆された。

In recent years, an association is established between faces and voices of celebrities leveraging large scale audio-visual information from YouTube. The availability of large scale audio-visual datasets is instrumental in developing speaker recognition methods based on standard Convolutional Neural Networks. Thus, the aim of this paper is to leverage large scale audio-visual information to improve speaker recognition task. To achieve this task, we proposed a two-branch network to learn joint representations of faces and voices in a multimodal system. Afterwards, features are extracted from the two-branch network to train a classifier for speaker recognition. We evaluated our proposed framework on a large scale audio-visual dataset named VoxCeleb$1$. Our results show that addition of facial information improved the performance of speaker recognition. Moreover, our results indicate that there is an overlap between face and voice.
翻訳日:2023-02-28 19:14:42 公開日:2023-02-25
# 関数近似を用いた確率効率の良いガウスニュートン時間差分学習法

Provably Efficient Gauss-Newton Temporal Difference Learning Method with Function Approximation ( http://arxiv.org/abs/2302.13087v1 )

ライセンス: Link先を確認
Zhifa Ke, Zaiwen Wen, Junyu Zhang(参考訳) 本稿では,FQI(Fitted Q-Iteration)の精神に基づき,関数近似を用いたQ値推定問題の解法としてガウスニュートン時間差分法(GNTD)を提案する。 各イテレーションにおいて、q-イテレーションに適合する非線形最小二乗部分問題を解く元のfqiとは異なり、gntd法は、このサブプロブレムを最適化するのに1つのガウスニュートンステップしかかからない \emph{inexact} fqiと見なすことができる。 GNTDのガウス・ニュートンのステップは、FQIの構造をより良く維持し、結果としてより収束させる。 本研究では, 線形, ニューラルネットワーク, 一般スムーズ関数近似の下でGNTDの有限サンプル非漸近収束を導出した。 特に、ニューラル TD に関する最近の研究は、サブ最適 $\mathcal{\mathcal{O}}(\epsilon^{-4})$サンプル複雑性しか保証していないが、GNTD は $\tilde{\mathcal{O}}(\epsilon^{-2})$ の改善された複雑性を得る。 最後に、オンラインおよびオフラインのrl問題の両方において、広範囲な実験を通して、この手法を検証する。 提案手法は,DQNを含むTD型よりも高い報酬と高速収束を示す。

In this paper, based on the spirit of Fitted Q-Iteration (FQI), we propose a Gauss-Newton Temporal Difference (GNTD) method to solve the Q-value estimation problem with function approximation. In each iteration, unlike the original FQI that solves a nonlinear least square subproblem to fit the Q-iteration, the GNTD method can be viewed as an \emph{inexact} FQI that takes only one Gauss-Newton step to optimize this subproblem, which is much cheaper in computation. Compared to the popular Temporal Difference (TD) learning, which can be viewed as taking a single gradient descent step to FQI's subproblem per iteration, the Gauss-Newton step of GNTD better retains the structure of FQI and hence leads to better convergence. In our work, we derive the finite-sample non-asymptotic convergence of GNTD under linear, neural network, and general smooth function approximations. In particular, recent works on neural TD only guarantee a suboptimal $\mathcal{\mathcal{O}}(\epsilon^{-4})$ sample complexity, while GNTD obtains an improved complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$. Finally, we validate our method via extensive experiments in both online and offline RL problems. Our method exhibits both higher rewards and faster convergence than TD-type methods, including DQN.
翻訳日:2023-02-28 19:08:41 公開日:2023-02-25
# UAVSNet: エンコーダデコーダアーキテクチャに基づくUAVイメージセグメンテーションネットワーク

UAVSNet: An Encoder-Decoder Architecture based UAV Image Segmentation Network ( http://arxiv.org/abs/2302.13084v1 )

ライセンス: Link先を確認
Satyawant Kumar, Abhishek Kumar, Dong-Gyu Lee(参考訳) 無人航空機(UAV)のドローンへの応用が増加しているため、都市景観理解のための空中画像のセグメンテーションが新たな研究機会となった。 空中画像は、スケール、オブジェクトの外観、複雑な背景において多くのバリエーションを持っている。 UAV画像のグローバルおよびローカルコンテキストにおける特徴の抽出におけるセマンティックセグメンテーションの課題は困難である。 本研究では,都市空域の正確なセマンティックセグメンテーションのためのUAVセグメンテーションネットワーク(UAVSNet)を提案する。 マルチスケールの特徴表現を使用するトランスフォーマーベースのエンコーダデコーダフレームワークである。 UAVSNetは、グローバルおよびローカルコンテキストの詳細をキャプチャする際の自己アテンションベースのトランスフォーマーフレームワークと畳み込み機構の利点を利用する。 これにより、ネットワークは航空画像の本質的特徴を正確に捉え、全体的な意味的にリッチな特徴表現を生成する。 提案するOverlap Token Embedding (OTE)モジュールは,マルチスケール機能を生成する。 ネットワークの特徴表現能力を高めるために,マルチスケール機能融合ポリシーを用いて,これらの特徴をさらに処理するデコーダネットワークを提案する。 提案手法は,64.35%のmIoUと74.64%のmIoUをそれぞれ達成し,UAVidとUrbanドローンのデータセットに対するネットワークの有効性を示す。

Due to an increased application of Unmanned Aerial Vehicle (UAV) devices like drones, segmentation of aerial images for urban scene understanding has brought a new research opportunity. Aerial images own so much variability in scale, object appearance, and complex background. The task of semantic segmentation when capturing the underlying features in a global and local context for the UAV images becomes challenging. In this work, we proposed a UAV Segmentation Network (UAVSNet) for precise semantic segmentation of urban aerial scenes. It is a transformer-based encoder-decoder framework that uses multi-scale feature representations. The UAVSNet exploits the advantage of a self-attention-based transformer framework and convolution mechanisms in capturing the global and local context details. This helps the network precisely capture the inherent feature of the aerial images and generate overall semantically rich feature representation. The proposed Overlap Token Embedding (OTE) module generates multi-scale features. A decoder network is proposed, which further processes these features using a multi-scale feature fusion policy to enhance the feature representation ability of the network. We show the effectiveness of the proposed network on UAVid and Urban drone datasets by achieving mIoU of 64.35% and 74.64%, respectively.
翻訳日:2023-02-28 19:08:11 公開日:2023-02-25
# 対実的拡張による知識グラフ補完

Knowledge Graph Completion with Counterfactual Augmentation ( http://arxiv.org/abs/2302.13083v1 )

ライセンス: Link先を確認
Heng Chang, Jie Cai, Jia Li(参考訳) グラフニューラルネットワーク(GNN)は近年,エンティティと関係の相互作用をモデル化することによって,知識グラフ補完(KGC)において大きな成功を収めている。 しかし、そのほとんどは、訓練段階で不均衡な関係分布を持つように見える観察されたグラフ構造から学ぶように設計されている。 知識グラフ上のエンティティ間の因果関係によって動機づけられた我々は、この欠陥を「エンティティの近傍が観察と異なる場合、その関係は存在するのか?」という反ファクト的な質問を通して探求する。 知識グラフ上の因果モデルを慎重に設計したインスタンス化により、コンテキストとしてのエンティティペアの表現、治療としての関係認識近傍の構造情報、結果としての合成三重項の妥当性について、応答する反事実関係を生成する。 さらに、KGs上のGNNベースのフレームワークと作成した対物関係を組み込んで、観測された対物関係と対物関係の両方から実体対表現の学習を増強する。 ベンチマーク実験の結果,提案手法が既存の手法よりも優れており,新たな結果が得られた。 さらに,提案手法は,予測の経路解釈を通じて,GNNベースのフレームワークの解釈可能性を高めることを実証する。

Graph Neural Networks (GNNs) have demonstrated great success in Knowledge Graph Completion (KGC) by modeling how entities and relations interact in recent years. However, most of them are designed to learn from the observed graph structure, which appears to have imbalanced relation distribution during the training stage. Motivated by the causal relationship among the entities on a knowledge graph, we explore this defect through a counterfactual question: "would the relation still exist if the neighborhood of entities became different from observation?". With a carefully designed instantiation of a causal model on the knowledge graph, we generate the counterfactual relations to answer the question by regarding the representations of entity pair given relation as context, structural information of relation-aware neighborhood as treatment, and validity of the composed triplet as the outcome. Furthermore, we incorporate the created counterfactual relations with the GNN-based framework on KGs to augment their learning of entity pair representations from both the observed and counterfactual relations. Experiments on benchmarks show that our proposed method outperforms existing methods on the task of KGC, achieving new state-of-the-art results. Moreover, we demonstrate that the proposed counterfactual relations-based augmentation also enhances the interpretability of the GNN-based framework through the path interpretations of predictions.
翻訳日:2023-02-28 19:07:50 公開日:2023-02-25
# ニューラルネットワークは本当にシンボリック概念をエンコードしているのか?

Does a Neural Network Really Encode Symbolic Concept? ( http://arxiv.org/abs/2302.13080v1 )

ライセンス: Link先を確認
Mingjie Li, Quanshi Zhang(参考訳) 近年,DNNによってモデル化された入力変数間の相互作用を抽出し,DNNによって符号化された概念として定義する研究が続いている。 しかし厳密に言えば、そのような相互作用が本当に意味のある概念を表すかどうかという確固たる保証はいまだに存在しない。 そこで本稿では,相互作用概念の信頼性を4つの観点から検討する。 広範囲にわたる実証研究により、よく訓練されたDNNは通常、人間の直感に部分的に整合したスパース、転送可能、差別的な概念を符号化することを示した。

Recently, a series of studies have tried to extract interactions between input variables modeled by a DNN and define such interactions as concepts encoded by the DNN. However, strictly speaking, there still lacks a solid guarantee whether such interactions indeed represent meaningful concepts. Therefore, in this paper, we examine the trustworthiness of interaction concepts from four perspectives. Extensive empirical studies have verified that a well-trained DNN usually encodes sparse, transferable, and discriminative concepts, which is partially aligned with human intuition.
翻訳日:2023-02-28 19:07:28 公開日:2023-02-25
# bop challenge 2022 特定剛体物体の検出, セグメンテーション, ポーズ推定について

BOP Challenge 2022 on Detection, Segmentation and Pose Estimation of Specific Rigid Objects ( http://arxiv.org/abs/2302.13075v1 )

ライセンス: Link先を確認
Martin Sundermeyer, Tomas Hodan, Yann Labbe, Gu Wang, Eric Brachmann, Bertram Drost, Carsten Rother, Jiri Matas(参考訳) 本稿では,RGB/RGB-D画像からの6Dオブジェクトのポーズ推定の分野における現状の把握を目的とした,一連の公開コンペティションの第4弾であるBOP Challenge 2022の評価手法,データセット,結果について述べる。 2022年には、ポーズ推定精度がさらに大幅に改善され、2019年の56.9 AR$_C$(Vidalなど)と2020年の69.8 AR$_C$(CosyPose)が、83.7 AR$_C$(GDRNPP)に移行した。 2019年以降に評価された49のポーズ推定方法のうち、トップ18は2022年のものだ。 2010年に導入され、2020年にも競争力のある結果を達成したポイントペア機能に基づくメソッドは、ディープラーニングの方法によって明らかに優れています。 合成-実領域間ギャップは再び大幅に減少し、ブレンダプロップの合成画像のみを訓練したgdrnppによって82.7ar$_c$が達成された。 最も高速なGDRNPPは80.5 AR$_C$に到達し、画像当たりの平均時間は0.23秒だった。 近年の6次元オブジェクトポーズ推定手法は,オブジェクトの検出・分離から始まっているため,COCO測定値に基づく2次元オブジェクト検出とセグメンテーション性能の評価も開始した。 2020年のMask R-CNNの結果と比較すると、検出は60.3から77.3 AP$_C$に改善され、セグメンテーションは40.5から58.7 AP$_C$に改善された。 オンライン評価システムは引き続き公開されており、以下で利用可能である。

We present the evaluation methodology, datasets and results of the BOP Challenge 2022, the fourth in a series of public competitions organized with the goal to capture the status quo in the field of 6D object pose estimation from an RGB/RGB-D image. In 2022, we witnessed another significant improvement in the pose estimation accuracy -- the state of the art, which was 56.9 AR$_C$ in 2019 (Vidal et al.) and 69.8 AR$_C$ in 2020 (CosyPose), moved to new heights of 83.7 AR$_C$ (GDRNPP). Out of 49 pose estimation methods evaluated since 2019, the top 18 are from 2022. Methods based on point pair features, which were introduced in 2010 and achieved competitive results even in 2020, are now clearly outperformed by deep learning methods. The synthetic-to-real domain gap was again significantly reduced, with 82.7 AR$_C$ achieved by GDRNPP trained only on synthetic images from BlenderProc. The fastest variant of GDRNPP reached 80.5 AR$_C$ with an average time per image of 0.23s. Since most of the recent methods for 6D object pose estimation begin by detecting/segmenting objects, we also started evaluating 2D object detection and segmentation performance based on the COCO metrics. Compared to the Mask R-CNN results from CosyPose in 2020, detection improved from 60.3 to 77.3 AP$_C$ and segmentation from 40.5 to 58.7 AP$_C$. The online evaluation system stays open and is available at: \href{http://bop.felk.cvut.cz/}{bop.felk.cvut.cz}.
翻訳日:2023-02-28 19:07:18 公開日:2023-02-25
# 動作セグメンテーションのためのテンポラリセグメントトランス

Temporal Segment Transformer for Action Segmentation ( http://arxiv.org/abs/2302.13074v1 )

ライセンス: Link先を確認
Zhichao Liu and Leshan Wang and Desen Zhou and Jian Wang and Songyang Zhang and Yang Bai and Errui Ding and Rui Fan(参考訳) 非トリミングビデオからヒューマンアクションを認識することは、アクティビティ理解において重要なタスクであり、長距離時間関係のモデリングにおいてユニークな課題となる。 近年の研究では,グローバルコンテキストモデリングにおいて,初期予測をアクションセグメントに変換する予測・再定義戦略が採用されている。 しかし、生成されたセグメント表現はしばしば騒がしく、不正確なセグメント境界、過剰セグメント、その他の問題を示す。 そこで本稿では,これらの問題に対処するために,ジョイントセグメント関係モデリングとデノイジングのための注意に基づく手法である \textit{temporal segment transformer} を提案する。 主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別し、セグメント間の時間的相関を捉えるためにセグメント間注意を用いることである。 洗練されたセグメント表現は、アクションラベルの予測とセグメント境界の調整に使用され、セグメントマスクからの投票に基づいて最終アクションセグメンテーションが生成される。 本稿では,このアーキテクチャが50Salads, GTEA, Breakfastベンチマークの最先端の精度を実現することを示す。 また, 設計の異なる成分の有効性を示すため, 広範囲のアブレーションを行った。

Recognizing human actions from untrimmed videos is an important task in activity understanding, and poses unique challenges in modeling long-range temporal relations. Recent works adopt a predict-and-refine strategy which converts an initial prediction to action segments for global context modeling. However, the generated segment representations are often noisy and exhibit inaccurate segment boundaries, over-segmentation and other problems. To deal with these issues, we propose an attention based approach which we call \textit{temporal segment transformer}, for joint segment relation modeling and denoising. The main idea is to denoise segment representations using attention between segment and frame representations, and also use inter-segment attention to capture temporal correlations between segments. The refined segment representations are used to predict action labels and adjust segment boundaries, and a final action segmentation is produced based on voting from segment masks. We show that this novel architecture achieves state-of-the-art accuracy on the popular 50Salads, GTEA and Breakfast benchmarks. We also conduct extensive ablations to demonstrate the effectiveness of different components of our design.
翻訳日:2023-02-28 19:06:45 公開日:2023-02-25
# 共同学習を用いた医用視覚質問応答

Medical visual question answering using joint self-supervised learning ( http://arxiv.org/abs/2302.13069v1 )

ライセンス: Link先を確認
Yuan Zhou, Jing Mei, Yiqin Yu, Tanveer Syeda-Mahmood(参考訳) VQA(Visual Question Answering)は、医用画像領域において最も活発な研究課題の一つである。 有名なVQA課題は、画像とテキストのモダリティの固有の多様性であり、医療用VQAタスクでは、ラベル付き画像問合せデータの限られたサイズに依存する別の重要な問題がある。 本研究では,大規模医用画像キャプチャデータから得られた画像-テキスト共同表現を活用し,小型医用VQAタスクに適応するエンコーダ・デコーダフレームワークを提案する。 エンコーダは、画像-テキスト二重モードに自己照準機構を組み込むとともに、複数の自己教師付き学習タスクにより、大規模医用画像キャプチャデータセットに個別に事前学習される。 その後、デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。 実験の結果,提案手法はベースライン法やSOTA法と比較して性能がよいことがわかった。

Visual Question Answering (VQA) becomes one of the most active research problems in the medical imaging domain. A well-known VQA challenge is the intrinsic diversity between the image and text modalities, and in the medical VQA task, there is another critical problem relying on the limited size of labelled image-question-answer data. In this study we propose an encoder-decoder framework that leverages the image-text joint representation learned from large-scaled medical image-caption data and adapted to the small-sized medical VQA task. The encoder embeds across the image-text dual modalities with self-attention mechanism and is independently pre-trained on the large-scaled medical image-caption dataset by multiple self-supervised learning tasks. Then the decoder is connected to the top of the encoder and fine-tuned using the small-sized medical VQA dataset. The experiment results present that our proposed method achieves better performance comparing with the baseline and SOTA methods.
翻訳日:2023-02-28 19:06:26 公開日:2023-02-25
# 絡み合った確率分布

Entangled probability distributions ( http://arxiv.org/abs/2302.13065v1 )

ライセンス: Link先を確認
Vladimir N. Chernega, Olga V. Man'ko, Vladimir I. Man'ko(参考訳) 複数の確率変数の絡み合った確率分布の概念を導入する。 これらの確率分布は、量子力学の確率表現における多モード量子状態を記述する。 絡み合った確率分布の例を考察する。

Concept of entangled probability distribution of several random variables is introduced. These probability distributions describe multimode quantum states in probability representation of quantum mechanics. Example of entangled probability distribution is considered.
翻訳日:2023-02-28 19:06:07 公開日:2023-02-25
# 散逸光力学カップリングによる$\mathcal{pt}-$symmetryとカオス制御

$\mathcal{PT}-$symmetry and chaos control via dissipative optomechanical coupling ( http://arxiv.org/abs/2302.13064v1 )

ライセンス: Link先を確認
S. R. Mbokop Tchounda, P. Djorw\'e, M. V. Tchakui, S. G. Nana Engo(参考訳) 我々は,利得と損失を許容する消散的,機械的に結合した光力学系について検討した。 利得(損失)は、純粋に分散した光機械キャビティと、青色(赤色)の電磁界で駆動される。 散逸結合を考慮すると、$\mathcal{PT}-$対称性相転移である例外点(EP)は純粋分散系と比較して低閾値駆動強度で発生する。 線形状態において、$\mathcal{PT}-$対称性は破壊されず、散逸結合は機械共振器間の強い結合を誘導し、エネルギー交換が増加する。 十分に強い駆動のために、システムは、$\mathcal{pt}-$symmetry が破られる非線形レジームに入る。 この体制では、機械共振器は純粋な分散系においてカオスビートのような挙動を示す。 散逸結合を切り替えることで、複雑なダイナミクスはオフにされ、システムに通常のダイナミクスを復元する。 この研究は、低閾値駆動強度で散逸$\mathcal{PT}-$対称系の量子現象を探索する方法を提案する。 また、光学や関連分野における複雑な力学を制御する新しい方法も提供する。

We study a dissipative, mechanically coupled optomechanical system that accommodates gain and loss. The gain (loss) is engineered by driven a purely dispersive optomechanical cavity with a blue-detuned (red-detuned) electromagnetic field. By taking into account the dissipative coupling, the Exceptional Point (EP), which is the $\mathcal{PT}-$symmetry phase transition, occurs at low threshold driving strength compared to the purely dispersive system. In the linear regime, the $\mathcal{PT}-$symmetry is unbroken and the dissipative coupling induces strong coupling between the mechanical resonators, leading to an increase in energy exchange. For sufficiently strong driving, the system enters into a nonlinear regime where the $\mathcal{PT}-$symmetry is broken. In this regime, the mechanical resonators exhibit chaotic beats like-behaviour in the purely dispersive system. By switching on the dissipative coupling, the complex dynamics is switched off, restoring regular dynamics to the system. This work suggests ways to probe quantum phenomena in dissipative $\mathcal{PT}-$symmetric systems at low-threshold driving strength. It also provides a new way to control complex dynamics in optomechanics and related fields.
翻訳日:2023-02-28 19:06:05 公開日:2023-02-25
# 時間変化を考慮したリアルタイム音声強調

Time-Variance Aware Real-Time Speech Enhancement ( http://arxiv.org/abs/2302.13063v1 )

ライセンス: Link先を確認
Chengyu Zheng, Yuan Zhou, Xiulian Peng, Yuan Zhang, Yan Lu(参考訳) 実世界の全二重通信アプリケーションでは時変要因がしばしば発生する。 それらの一部は、非定常環境騒音や様々な音響経路などの複雑な環境によって引き起こされ、一方、遠端信号と近端信号との動的遅延などの通信システムによって引き起こされる。 現在のエンドツーエンドディープニューラルネットワーク(DNN)ベースの手法は、通常、時間変動成分を暗黙的にモデル化し、リアルタイム音声強調における予測不可能な時間分散をほとんど扱えない。 そこで我々は,DNNベースのエンドツーエンドパイプラインの学習可能なプラグインとして導入可能な動的カーネル生成(DKG)モジュールを提案する。 具体的には、DKGモジュールは、各入力オーディオフレームに関する畳み込みカーネルを生成し、DNNモデルは、推論中の入力信号に応じて、その重みを動的に調整することができる。 実験の結果,dkgモジュールは,音響エコーキャンセラ (aec) と深部雑音抑圧 (dns) タスクにおいて,時間変化のシナリオでモデルの性能を向上できることが確認された。

Time-variant factors often occur in real-world full-duplex communication applications. Some of them are caused by the complex environment such as non-stationary environmental noises and varying acoustic path while some are caused by the communication system such as the dynamic delay between the far-end and near-end signals. Current end-to-end deep neural network (DNN) based methods usually model the time-variant components implicitly and can hardly handle the unpredictable time-variance in real-time speech enhancement. To explicitly capture the time-variant components, we propose a dynamic kernel generation (DKG) module that can be introduced as a learnable plug-in to a DNN-based end-to-end pipeline. Specifically, the DKG module generates a convolutional kernel regarding to each input audio frame, so that the DNN model is able to dynamically adjust its weights according to the input signal during inference. Experimental results verify that DKG module improves the performance of the model under time-variant scenarios, in the joint acoustic echo cancellation (AEC) and deep noise suppression (DNS) tasks.
翻訳日:2023-02-28 19:05:43 公開日:2023-02-25
# トピック指向要約のためのトピック選択グラフネットワーク

Topic-Selective Graph Network for Topic-Focused Summarization ( http://arxiv.org/abs/2302.13106v1 )

ライセンス: Link先を確認
Shi Zesheng, Zhou Yucheng(参考訳) プレトレーニング言語モデル(PLM)の成功により、既存のPLMベースの要約モデルは、その強力な生成能力を示している。 しかし、これらのモデルは汎用の要約データセットでトレーニングされ、生成された要約は異なる読者のニーズを満たすことができない。 トピックの要約を生成するために、トピック中心の要約に多くの取り組みがなされている。 しかし、これらは話題語を構成するプロンプトによってのみガイドされる要約を生成する。 これらの手法は成功したが、関連しない話題による文の乱れを無視し、注意モジュールによるトークン間の相互相互作用のみを行う。 本稿では,トピックarc認識の目的とトピック選択型グラフネットワークを提案する。 まず、トピックarc認識の目的は、モデルのトピックを識別する能力を内包するトレーニングのモデル化に使用される。 さらに、トピック選択グラフネットワークは、トピックarc認識の結果に基づいて、文章に対してトピックガイドによる相互対話を行うことができる。 実験ではNEWTSとCOVIDETデータセットについて広範な評価を行った。 その結果,本手法は最先端の性能を達成できることがわかった。

Due to the success of the pre-trained language model (PLM), existing PLM-based summarization models show their powerful generative capability. However, these models are trained on general-purpose summarization datasets, leading to generated summaries failing to satisfy the needs of different readers. To generate summaries with topics, many efforts have been made on topic-focused summarization. However, these works generate a summary only guided by a prompt comprising topic words. Despite their success, these methods still ignore the disturbance of sentences with non-relevant topics and only conduct cross-interaction between tokens by attention module. To address this issue, we propose a topic-arc recognition objective and topic-selective graph network. First, the topic-arc recognition objective is used to model training, which endows the capability to discriminate topics for the model. Moreover, the topic-selective graph network can conduct topic-guided cross-interaction on sentences based on the results of topic-arc recognition. In the experiments, we conduct extensive evaluations on NEWTS and COVIDET datasets. Results show that our methods achieve state-of-the-art performance.
翻訳日:2023-02-28 19:00:04 公開日:2023-02-25
# ライドバーグ原子のラマン超アレイのフラクタル量子異常ホール位相

Fractional quantum anomalous Hall phase for Raman superarray of Rydberg atoms ( http://arxiv.org/abs/2302.13104v1 )

ライセンス: Link先を確認
Ting-Fung Jeffrey Poon, Xin-Chi Zhou, Bao-Zong Wang, Tian-Hua Yang and Xiong-Jun Liu(参考訳) ライドバーグ原子配列は相関量子物質の量子シミュレーションのための有望なプラットフォームを提供し、大きな関心を集めている。 ここでは、Rydberg原子のラマン超アレイを用いた新しいストライプ格子モデルを提案し、分数量子異常ホール(FQAH)相を実現する。 本研究では,2種類のリドバーグ状態を実装し,ラマン支援双極子交換カップリングを用いて,適切な波長可変実験条件下でバルクギャップの大きいトポロジカルフラットバンドに分布するハードコアボゾンの最小qahモデルを実現する。 これにより、FQAH相がさらに達成され、探索可能となる。 特に,開境界におけるバルクエッジモードとカイラルエッジモード間の分数電荷トンネルにより特徴付けられる分数化クエンチダイナミクスを計測し,分数化励起を探索する新しいクエンチプロトコルを提案する。

Rydberg atom arrays offer promising platforms for quantum simulation of correlated quantum matter and raise great interests. Here we propose a novel stripe-lattice model with Raman superarray of Rydberg atoms to realize fractional quantum anomalous Hall (FQAH) phase. We implement two types of Rydberg states, arranged in a supperarray configuration and with Raman-assisted dipole-exchange couplings, to realize a minimal QAH model for hard-core bosons populated into a topological flat band with large bulk gap under proper tunable experimental condition. With this the FQAH phase can be further achieved and probed feasibly. In particular, we propose a novel quench protocol to probe the fractionalized excitations by measuring the correlated quench dynamics featured by fractional charge tunneling between bulk and chiral edge modes in the open boundary.
翻訳日:2023-02-28 18:59:50 公開日:2023-02-25
# クラウドソーシングラベルアグリゲーションにおける観測バイアスの緩和

Mitigating Observation Biases in Crowdsourced Label Aggregation ( http://arxiv.org/abs/2302.13100v1 )

ライセンス: Link先を確認
Ryosuke Ueda, Koh Takeuchi, Hisashi Kashima(参考訳) クラウドソーシングは、大量の人的資源から低コストで教師付き学習のためのラベル付きデータセットを効率的に取得するために広く利用されている。 しかし,クラウドソーシングから高品質な結果を得る上での技術的課題の1つは,人間が作業を行うという事実による変動性とバイアスに対処することであり,冗長に収集された応答を統合することで品質を改善するために様々な研究がなされている。 本研究では,クラウドソーシングにおける観察バイアスに着目した。 作業者の反応の頻度とタスクの複雑さの変化は、それらが応答の質と相関している場合、集約結果に影響を与える可能性がある。 また,因果推論に用いられる観測データバイアス除去法と組み合わせたクラウドソーシング応答の統計的集計手法を提案する。 人工的に注入されたスパムと凝固作業員を併用し, 実データと実データの両方を用いて実験を行った結果, 強い観察バイアスが存在する場合の凝集精度が向上し, スパムと凝固作業者の堅牢性が向上することが確認できた。

Crowdsourcing has been widely used to efficiently obtain labeled datasets for supervised learning from large numbers of human resources at low cost. However, one of the technical challenges in obtaining high-quality results from crowdsourcing is dealing with the variability and bias caused by the fact that it is humans execute the work, and various studies have addressed this issue to improve the quality by integrating redundantly collected responses. In this study, we focus on the observation bias in crowdsourcing. Variations in the frequency of worker responses and the complexity of tasks occur, which may affect the aggregation results when they are correlated with the quality of the responses. We also propose statistical aggregation methods for crowdsourcing responses that are combined with an observational data bias removal method used in causal inference. Through experiments using both synthetic and real datasets with/without artificially injected spam and colluding workers, we verify that the proposed method improves the aggregation accuracy in the presence of strong observation biases and robustness to both spam and colluding workers.
翻訳日:2023-02-28 18:59:33 公開日:2023-02-25
# hades: 均質な自動ドキュメント探索と要約

HADES: Homologous Automated Document Exploration and Summarization ( http://arxiv.org/abs/2302.13099v1 )

ライセンス: Link先を確認
Piotr Wilczy\'nski, Artur \.Z\'o{\l}kowski, Mateusz Krzyzi\'nski, Emilia Wi\'snios, Bartosz Pieli\'nski, Stanis{\l}aw Gizi\'nski, Julian Sienkiewicz, Przemys{\l}aw Biecek(参考訳) 本稿では,類似の構造を持つ文書の自動比較ツールhadesを紹介する。 HADESは、政策文書、法的行為、科学論文などの大量の文書を扱う専門家の仕事の合理化を目的としている。 このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。 このプロセスは、ドキュメントの比較を容易にする視覚化を備えたインタラクティブなWebアプリケーションで終わる。 HADESは、大量のドキュメントを扱う専門家の生産性を大幅に改善する可能性があり、比較文書分析に関連するタスクを完了するのに必要な時間と労力を削減できる。 私たちのパッケージはgithubで公開されています。

This paper introduces HADES, a novel tool for automatic comparative documents with similar structures. HADES is designed to streamline the work of professionals dealing with large volumes of documents, such as policy documents, legal acts, and scientific papers. The tool employs a multi-step pipeline that begins with processing PDF documents using topic modeling, summarization, and analysis of the most important words for each topic. The process concludes with an interactive web app with visualizations that facilitate the comparison of the documents. HADES has the potential to significantly improve the productivity of professionals dealing with high volumes of documents, reducing the time and effort required to complete tasks related to comparative document analysis. Our package is publically available on GitHub.
翻訳日:2023-02-28 18:59:13 公開日:2023-02-25
# 複雑で知覚的な概念を無視するベイズニューラルネットワーク

Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts ( http://arxiv.org/abs/2302.13095v1 )

ライセンス: Link先を確認
Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, Quanshi Zhang(参考訳) 本稿では,平均場変動型ベイズニューラルネットワーク(BNN)に着目し,BNNで符号化される可能性の低い概念を探索することにより,BNNの表現能力について検討する。 比較的小さな対話的概念のセットは、十分に訓練されたニューラルネットワークの知識表現の中に出現し、そのような概念はネットワーク出力を忠実に説明できる。 これに基づいて、我々の研究は、標準的なディープニューラルネットワーク(DNN)と比較して、BNNが複雑な概念をエンコードする可能性は低いことを証明した。 実験は我々の理論的証明を検証する。 より複雑な概念を符号化する傾向が必ずしも表現力の弱さを示唆するわけではないことに注意。

In this paper, we focus on mean-field variational Bayesian Neural Networks (BNNs) and explore the representation capacity of such BNNs by investigating which types of concepts are less likely to be encoded by the BNN. It has been observed and studied that a relatively small set of interactive concepts usually emerge in the knowledge representation of a sufficiently-trained neural network, and such concepts can faithfully explain the network output. Based on this, our study proves that compared to standard deep neural networks (DNNs), it is less likely for BNNs to encode complex concepts. Experiments verify our theoretical proofs. Note that the tendency to encode less complex concepts does not necessarily imply weak representation power, considering that complex concepts exhibit low generalization power and high adversarial vulnerability.
翻訳日:2023-02-28 18:58:55 公開日:2023-02-25
# 都市画像に基づく社会経済予測のための知識注入型コントラスト学習

Knowledge-infused Contrastive Learning for Urban Imagery-based Socioeconomic Prediction ( http://arxiv.org/abs/2302.13094v1 )

ライセンス: Link先を確認
Yu Liu, Xin Zhang, Jingtao Ding, Yanxin Xi, Yong Li(参考訳) 持続可能な開発目標のモニタリングには正確でタイムリーな社会経済統計が必要であるが、衛星・ストリートビュー画像のようなウェブ上のユビキタスで頻繁に更新される都市画像は社会経済予測の重要な情報源として現れている。 特に,近年の研究では,自己教師付きコントラスト学習と,都市イメージ表現学習のための手作業による類似度指標,さらに社会経済的予測が注目されている。 そこで本稿では,都市画像に基づく社会経済予測のための知識注入型コントラスト学習(KnowCL)モデルを提案する。 具体的には、まず知識グラフ(kg)を導入し、空間性、移動性などの都市知識を効果的にモデル化し、関連する意味空間と視覚空間における都市イメージの表現を学ぶためにニューラルネットワークベースのエンコーダを構築する。 最後に,知識注入のための意味表現と視覚表現の相互情報を最大化する,新しい画像-kgコントラスト損失を用いたクロスモダリティベースのコントラスト学習フレームワークを設計した。 3つのデータセットで社会経済予測に学習視覚表現を適用した大規模な実験は、ベースラインと比較すると$r^2$で30\%以上向上したknowclの優れた性能を示している。 特に,提案したKnowCLモデルは,衛星画像と街路画像の両方に適用可能であり,都市画像に基づく社会経済予測の洞察を提供する。

Monitoring sustainable development goals requires accurate and timely socioeconomic statistics, while ubiquitous and frequently-updated urban imagery in web like satellite/street view images has emerged as an important source for socioeconomic prediction. Especially, recent studies turn to self-supervised contrastive learning with manually designed similarity metrics for urban imagery representation learning and further socioeconomic prediction, which however suffers from effectiveness and robustness issues. To address such issues, in this paper, we propose a Knowledge-infused Contrastive Learning (KnowCL) model for urban imagery-based socioeconomic prediction. Specifically, we firstly introduce knowledge graph (KG) to effectively model the urban knowledge in spatiality, mobility, etc., and then build neural network based encoders to learn representations of an urban image in associated semantic and visual spaces, respectively. Finally, we design a cross-modality based contrastive learning framework with a novel image-KG contrastive loss, which maximizes the mutual information between semantic and visual representations for knowledge infusion. Extensive experiments of applying the learnt visual representations for socioeconomic prediction on three datasets demonstrate the superior performance of KnowCL with over 30\% improvements on $R^2$ compared with baselines. Especially, our proposed KnowCL model can apply to both satellite and street imagery with both effectiveness and transferability achieved, which provides insights into urban imagery-based socioeconomic prediction.
翻訳日:2023-02-28 18:58:32 公開日:2023-02-25
# 超スパース条件下でのLassoの平均ケース解析

Average case analysis of Lasso under ultra-sparse conditions ( http://arxiv.org/abs/2302.13093v1 )

ライセンス: Link先を確認
Koki Okajima, Xiangming Meng, Takashi Takahashi, Yoshiyuki Kabashima(参考訳) 我々は,リニアモデルにおける最小絶対収縮選択演算子(lasso)の性能を解析し,レグレプタ数n$が大きくなると,真のサポートサイズである$d$有限,すなわち超スパースケースを維持する。 この結果は、統計物理学における非厳密な複製法の新しい扱いに基づいており、これはN$,$d$とM$の観測数が同じ速度で無限大となるような問題設定にのみ適用されている。 分析により,n$ および $m$ のスケーリング,ノイズ分布,真の信号のプロファイルを仮定することなく,ガウス型センシング行列を用いてlassoの平均性能を評価することができる。 ノイズ分布の穏やかな条件下では、M$が$M = O(\log N)$として発散した場合、部分的および完全サポート回復に必要なサンプル複雑性の低い境界も提供される。 得られた完全サポート回復の限界は、ガウスノイズと$d$の発散を考慮すれば、以前の文献で与えられたことを一般化したものである。 広範な数値実験が我々の分析を強く支持している。

We analyze the performance of the least absolute shrinkage and selection operator (Lasso) for the linear model when the number of regressors $N$ grows larger keeping the true support size $d$ finite, i.e., the ultra-sparse case. The result is based on a novel treatment of the non-rigorous replica method in statistical physics, which has been applied only to problem settings where $N$ ,$d$ and the number of observations $M$ tend to infinity at the same rate. Our analysis makes it possible to assess the average performance of Lasso with Gaussian sensing matrices without assumptions on the scaling of $N$ and $M$, the noise distribution, and the profile of the true signal. Under mild conditions on the noise distribution, the analysis also offers a lower bound on the sample complexity necessary for partial and perfect support recovery when $M$ diverges as $M = O(\log N)$. The obtained bound for perfect support recovery is a generalization of that given in previous literature, which only considers the case of Gaussian noise and diverging $d$. Extensive numerical experiments strongly support our analysis.
翻訳日:2023-02-28 18:57:52 公開日:2023-02-25
# 学習画像圧縮のためのJNDに基づく知覚最適化

JND-Based Perceptual Optimization For Learned Image Compression ( http://arxiv.org/abs/2302.13092v1 )

ライセンス: Link先を確認
Feng Ding, Jian Jin, Lili Meng, Weisi Lin(参考訳) 近年,高効率な非線形変換やエンドツーエンド最適化フレームワークなどにより,画像の忠実度(psnrやms-ssimなど)が従来のハイブリッド画像符号化に比べて著しく向上している。 しかし、人間の視覚システム(HVS)の特徴を考慮に入れ、学習された画像の圧縮を知覚的品質に最適化する特徴は少ない。 この問題に対処するために,JNDに基づく知覚的品質損失を提案する。 異なる量子化パラメータ(qps)下での異なるトレーニングエポックにおける圧縮画像の歪み量が異なることを考慮し、歪み対応調整器を開発した。 これらを組み合わせることで、圧縮画像の歪みをJNDのガイダンスに割り当て、高い知覚品質を維持することができる。 これらすべての設計により、提案手法は、高いスケーラビリティとプラグ・アンド・プレイの利点を持つ様々な学習画像圧縮スキームに柔軟に適用できる。 Kodakデータセットを用いた実験結果から,提案手法は同一ビットレートのベースラインモデルよりも知覚品質が高いことが示された。

Recently, learned image compression schemes have achieved remarkable improvements in image fidelity (e.g., PSNR and MS-SSIM) compared to conventional hybrid image coding ones due to their high-efficiency non-linear transform, end-to-end optimization frameworks, etc. However, few of them take the Just Noticeable Difference (JND) characteristic of the Human Visual System (HVS) into account and optimize learned image compression towards perceptual quality. To address this issue, a JND-based perceptual quality loss is proposed. Considering that the amounts of distortion in the compressed image at different training epochs under different Quantization Parameters (QPs) are different, we develop a distortion-aware adjustor. After combining them together, we can better assign the distortion in the compressed image with the guidance of JND to preserve the high perceptual quality. All these designs enable the proposed method to be flexibly applied to various learned image compression schemes with high scalability and plug-and-play advantages. Experimental results on the Kodak dataset demonstrate that the proposed method has led to better perceptual quality than the baseline model under the same bit rate.
翻訳日:2023-02-28 18:57:32 公開日:2023-02-25
# DNNの一般化のための概念レベル説明

Concept-Level Explanation for the Generalization of a DNN ( http://arxiv.org/abs/2302.13091v1 )

ライセンス: Link先を確認
Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, Quanshi Zhang(参考訳) 本稿では,対話的概念の観点から,ディープニューラルネットワーク(DNN)の一般化能力を説明する。 近年の多くの研究は、学習過程で異なるDNNで観察されたDNNによって符号化されたインタラクティブな概念の明確な出現を定量化している。 そこで本研究では,各対話的概念の一般化力について検討し,異なる対話的概念の一般化力を用いて,DNN全体の一般化力を説明する。 具体的には、各インタラクティブな概念の複雑さを定義する。 単純な概念は複雑な概念よりもデータをテストする方がより一般化できる。 強い一般化力を持つDNNは通常、単純な概念をより早く学習し、より少ない複雑な概念を符号化する。 さらに重要なのは,複雑な概念を学習する上で,高い学習難易度と,複雑な概念の一般化力の低さの両方を説明する,ゆるやかなダイナミクスを見出すことだ。

This paper explains the generalization power of a deep neural network (DNN) from the perspective of interactive concepts. Many recent studies have quantified a clear emergence of interactive concepts encoded by the DNN, which have been observed on different DNNs during the learning process. Therefore, in this paper, we investigate the generalization power of each interactive concept, and we use the generalization power of different interactive concepts to explain the generalization power of the entire DNN. Specifically, we define the complexity of each interactive concept. We find that simple concepts can be better generalized to testing data than complex concepts. The DNN with strong generalization power usually learns simple concepts more quickly and encodes fewer complex concepts. More crucially, we discover the detouring dynamics of learning complex concepts, which explain both the high learning difficulty and the low generalization power of complex concepts.
翻訳日:2023-02-28 18:57:12 公開日:2023-02-25
# 2023年2月6日トルコ・Mw7.8地震:強震動と建物応答推定に関する予備報告

Kahramanmaras-Gaziantep, Turkiye Mw 7.8 Earthquake on February 6, 2023: Preliminary Report on Strong Ground Motion and Building Response Estimations ( http://arxiv.org/abs/2302.13088v1 )

ライセンス: Link先を確認
George Papazafeiropoulos, Vagelis Plevris(参考訳) 2023年2月6日,パザルシク,カーラマンマラス,トゥルキイェの現地時間04:17 (01:17 utc) に発生したリヒタースケール(モーメントマグニチュードスケール)に対するマグニチュード7.8の地震構造の影響を,オープンソースソフトウェアopenseismomatlabを用いた適切な地震記録の処理により検討した。 この地震は最大マグニチュード xi (extreme) に達し、9時間後にマグニチュード 7.5 の地震が発生し、1回目の地震から北東へ95 km の地点で発生した。 主地震の2つの代表的な地震記録について, ピークおよび累積地震計, 弾性応答スペクトル, 定数ダクティリティ(アイソダクティル)応答スペクトル, インクリメンタル解析曲線を算出した。 さらに, 大規模記録の加速度応答スペクトルを, トルコ地震符号の加速度設計スペクトルと比較した。 この研究に基づいて、構造は通常の設計レベルをはるかに超えて過負荷に晒されたと結論づけた。 これは相当な垂直地震成分と組み合わされ、この地域の多くの建物が崩壊する要因となった。 トルコの地震コードは、特に地震発生域において、高いスペクトル加速度値が規定されるように修正する必要がある。

The effects on structures of the earthquake with magnitude 7.8 on the Richter scale (moment magnitude scale) which took place in Pazarcik, Kahramanmaras, Turkiye at 04:17 a.m. local time (01:17 UTC) on February 6, 2023, are investigated by processing suitable seismic records using the open-source software OpenSeismoMatlab. The earthquake had a maximum Mercalli intensity of XI (Extreme) and it was followed by a Mw 7.5 earthquake nine hours later, centered 95 km to the north-northeast from the first. Peak and cumulative seismic measures as well as elastic response spectra, constant ductility (or isoductile) response spectra, and incremental dynamic analysis curves were calculated for two representative earthquake records of the main event. Furthermore, the acceleration response spectra of a large set of records were compared to the acceleration design spectrum of the Turkish seismic code. Based on the study, it is concluded that the structures were overloaded far beyond their normal design levels. This, in combination with considerable vertical seismic components, was a contributing factor towards the collapse of many buildings in the region. Modifications of the Turkish seismic code are required so that higher spectral acceleration values can be prescribed, especially in earthquake-prone regions.
翻訳日:2023-02-28 18:56:58 公開日:2023-02-25
# テキスト可読性評価のためのプロンプトに基づく学習

Prompt-based Learning for Text Readability Assessment ( http://arxiv.org/abs/2302.13139v1 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee(参考訳) 可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。 セq2seqモデル – T5 あるいは BART – が、与えられた2つのテキスト (ペアワイズ) から、どのテキストが困難であるかを識別できるように適応できることを実証する。 テキスト読みやすさのためのニューラルネットワークをテキストからテキストに書き起こすための探索的研究として,Seq2seqトレーニングおよびランキングに基づく読みやすさ評価アプローチにおける今後の研究に役立つヒントを報告する。 具体的には,9つの入力出力フォーマット/プレフィックスをテストし,最終的なモデル性能に大きな影響を与えることを示す。 また、テキストからテキストへの学習とペアワイズランキングの設定の組み合わせは 1)可読性指導のための複数並列テキスト簡易化データの利用と活用 2) 可読性(以前のクロスドメインの一般化)の一般的な概念のためにニューラルモデルを訓練する。 最終的に、Newselaの99.6%、OneStop Englishの98.7%のペアの分類精度を共同トレーニングアプローチで報告した。

We propose the novel adaptation of a pre-trained seq2seq model for readability assessment. We prove that a seq2seq model - T5 or BART - can be adapted to discern which text is more difficult from two given texts (pairwise). As an exploratory study to prompt-learn a neural network for text readability in a text-to-text manner, we report useful tips for future work in seq2seq training and ranking-based approach to readability assessment. Specifically, we test nine input-output formats/prefixes and show that they can significantly influence the final model performance. Also, we argue that the combination of text-to-text training and pairwise ranking setup 1) enables leveraging multiple parallel text simplification data for teaching readability and 2) trains a neural model for the general concept of readability (therefore, better cross-domain generalization). At last, we report a 99.6% pairwise classification accuracy on Newsela and a 98.7% for OneStopEnglish, through a joint training approach.
翻訳日:2023-02-28 18:50:08 公開日:2023-02-25
# 対話行動を用いた人間中心型安全ロボット強化学習フレームワーク

A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors ( http://arxiv.org/abs/2302.13137v1 )

ライセンス: Link先を確認
Shangding Gu, Alap Kshirsagar, Yali Du, Guang Chen, Yaodong Yang, Jan Peters, Alois Knoll(参考訳) ロボット応用のための強化学習アルゴリズムを現実世界に展開するには、ロボットとその環境の安全性を確保する必要がある。 安全ロボット強化学習(SRRL)は,ロボット共存の実現に向けた重要なステップである。 本稿では,安全な探索,安全価値アライメント,安全なコラボレーションという3段階からなる,人間中心のsrrlフレームワークを想定する。 これらの分野における研究ギャップを調べ,srrlにおける対話的行動の活用を提案する。 対話的な行動は、会話ロボットChatGPTのような人間とロボット間の双方向の情報伝達を可能にする。 対話行動はSRRLコミュニティからさらに注意が必要であると我々は主張する。 対話行動を伴うSRRLの堅牢性,効率性,透明性,適応性に関する4つのオープン課題について論じる。

Deployment of reinforcement learning algorithms for robotics applications in the real world requires ensuring the safety of the robot and its environment. Safe robot reinforcement learning (SRRL) is a crucial step towards achieving human-robot coexistence. In this paper, we envision a human-centered SRRL framework consisting of three stages: safe exploration, safety value alignment, and safe collaboration. We examine the research gaps in these areas and propose to leverage interactive behaviors for SRRL. Interactive behaviors enable bi-directional information transfer between humans and robots, such as conversational robot ChatGPT. We argue that interactive behaviors need further attention from the SRRL community. We discuss four open challenges related to the robustness, efficiency, transparency, and adaptability of SRRL with interactive behaviors.
翻訳日:2023-02-28 18:49:52 公開日:2023-02-25
# 重要度サンプリングに基づく相互情報最小化によるテキスト生成の公平性

Toward Fairness in Text Generation via Mutual Information Minimization based on Importance Sampling ( http://arxiv.org/abs/2302.13136v1 )

ライセンス: Link先を確認
Rui Wang, Pengyu Cheng, Ricardo Henao(参考訳) GPT2のような事前訓練された言語モデル(PLM)は、テキスト生成タスクにおいて顕著な経験的性能を達成した。 しかし、大規模な自然言語コーパスで事前訓練されたplmから生成されたテキストは、不利な集団に対する社会的偏見を示す可能性がある。 テキスト生成におけるPLMの公平性を改善するため,生成したテキスト文のセマンティクスとそれらの人口極性,すなわち文を参照する人口集団との間の相互情報の最小化を提案する。 このように、人口集団(例えば、男性や女性)の言及は、生成したテキストでどのように記述されるかから独立して、社会的偏見を効果的に緩和する。 さらに,本稿では,自然言語コーパスを活用した重要サンプリングにより,上記の相互情報の上限を効率的に推定する。 また, 脱バイアス後のPLMの言語モデリング能力を保った蒸留機構を提案する。 実世界のベンチマーク実験の結果から,提案手法は公平性と言語モデリング能力の両方において優れた性能をもたらすことが示された。

Pretrained language models (PLMs), such as GPT2, have achieved remarkable empirical performance in text generation tasks. However, pretrained on large-scale natural language corpora, the generated text from PLMs may exhibit social bias against disadvantaged demographic groups. To improve the fairness of PLMs in text generation, we propose to minimize the mutual information between the semantics in the generated text sentences and their demographic polarity, i.e., the demographic group to which the sentence is referring. In this way, the mentioning of a demographic group (e.g., male or female) is encouraged to be independent from how it is described in the generated text, thus effectively alleviating the social bias. Moreover, we propose to efficiently estimate the upper bound of the above mutual information via importance sampling, leveraging a natural language corpus. We also propose a distillation mechanism that preserves the language modeling ability of the PLMs after debiasing. Empirical results on real-world benchmarks demonstrate that the proposed method yields superior performance in term of both fairness and language modeling ability.
翻訳日:2023-02-28 18:49:41 公開日:2023-02-25
# 階層的ニーズ駆動エージェント学習システム:深層強化学習から多様な戦略へ

Hierarchical Needs-driven Agent Learning Systems: From Deep Reinforcement Learning To Diverse Strategies ( http://arxiv.org/abs/2302.13132v1 )

ライセンス: Link先を確認
Qin Yang(参考訳) このニーズは、システムが生き残り、進化するための必要性を記述し、エージェントが目標に向かって行動し、目的と行動への方向性を与える。 ニーズのMaslow階層に基づいて、エージェントは、アップグレードと進化の次の段階で発生する条件として、現在のレベルで一定の量のニーズを満たす必要がある。 特に、深層強化学習(dal)は、aiエージェント(ロボットなど)が行動や戦略を整理し最適化し、現在の状態やニーズ(期待されたユーティリティや報酬)に基づいて多様な戦略を開発するのに役立つ。 本稿では,DALに基づく新しい階層型要求駆動学習システムを紹介し,ベイジアンソフトアクター・クリティカル (BSAC) と呼ばれる新しいアプローチによる単一ロボットの実装について検討する。 そして、このトピックをマルチエージェントシステム(MAS)に拡張し、潜在的研究分野と方向性について議論する。

The needs describe the necessities for a system to survive and evolve, which arouses an agent to action toward a goal, giving purpose and direction to behavior. Based on Maslow hierarchy of needs, an agent needs to satisfy a certain amount of needs at the current level as a condition to arise at the next stage -- upgrade and evolution. Especially, Deep Reinforcement Learning (DAL) can help AI agents (like robots) organize and optimize their behaviors and strategies to develop diverse Strategies based on their current state and needs (expected utilities or rewards). This paper introduces the new hierarchical needs-driven Learning systems based on DAL and investigates the implementation in the single-robot with a novel approach termed Bayesian Soft Actor-Critic (BSAC). Then, we extend this topic to the Multi-Agent systems (MAS), discussing the potential research fields and directions.
翻訳日:2023-02-28 18:49:24 公開日:2023-02-25
# 4D作業予測のプロキシとしてのポイントクラウド予測

Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting ( http://arxiv.org/abs/2302.13130v1 )

ライセンス: Link先を確認
Tarasha Khurana, Peiyun Hu, David Held, Deva Ramanan(参考訳) 将来どのように世界が進化するかを予測することは、自律システムにおける運動計画に不可欠である。 従来の手法は、セマンティッククラスラベル、バウンディングボックス、都市のトラックやhdマップといった、コストのかかる人間のアノテーションに依存して動作を計画しているため、大きなラベルのないデータセットにスケールするのは困難である。 有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。 本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的に捉えるアルゴリズムを必要とすることを示す。 しかし自律システムは、センサーではなく、世界の予測を行うべきだ。 この目的のために,(1)と(2)を時空(4D)占有率予測の1つとして再放送することで決定する。 しかし、4Dの接地にはコストがかかるため、4Dの接地予測から4Dの接地予測からポイントクラウドデータを描画し、無意味なLiDARシーケンスで占有アルゴリズムを訓練し、テストすることができる。 これにより、さまざまなデータセット、センサー、車両間でポイントクラウド予測アルゴリズムを評価し、比較することができる。

Predicting how the world can evolve in the future is crucial for motion planning in autonomous systems. Classical methods are limited because they rely on costly human annotations in the form of semantic class labels, bounding boxes, and tracks or HD maps of cities to plan their motion and thus are difficult to scale to large unlabeled datasets. One promising self-supervised task is 3D point cloud forecasting from unannotated LiDAR sequences. We show that this task requires algorithms to implicitly capture (1) sensor extrinsics (i.e., the egomotion of the autonomous vehicle), (2) sensor intrinsics (i.e., the sampling pattern specific to the particular LiDAR sensor), and (3) the shape and motion of other objects in the scene. But autonomous systems should make predictions about the world and not their sensors. To this end, we factor out (1) and (2) by recasting the task as one of spacetime (4D) occupancy forecasting. But because it is expensive to obtain ground-truth 4D occupancy, we render point cloud data from 4D occupancy predictions given sensor extrinsics and intrinsics, allowing one to train and test occupancy algorithms with unannotated LiDAR sequences. This also allows one to evaluate and compare point cloud forecasting algorithms across diverse datasets, sensors, and vehicles.
翻訳日:2023-02-28 18:49:07 公開日:2023-02-25
# 路面カメラによる非侵入運転行動のキャラクタリゼーション

Non-Intrusive Driver Behavior Characterization From Road-Side Cameras ( http://arxiv.org/abs/2302.13125v1 )

ライセンス: Link先を確認
Pavana Pradeep Kumar, Krishna Kant, Amitangshu Pal(参考訳) 本論文では,ITS システムの路面カメラのみを用いて車体挙動を特徴付ける概念の実証を行う。 この方法の本質的な利点は、道路インフラストラクチャーに透過的かつ安価に実装でき、個々の車両や運転者の関与や意識を伴わずに、各車両の挙動をグローバルに把握できることである。 プログラム的に制御されたロボット車(異なる種類の車両の挙動をシミュレートする)と、車両の挙動を捉え解析するための外部ビデオカメラを備えた装置を用いて、外部ビデオ分析に基づく運転者の分類が、直接車両による特徴付けの精度の1~2倍以内の精度をもたらすことを示す。 また,残差誤差は主にオブジェクト識別と追跡のギャップに関係しており,より洗練された設定でさらに低減できることを示す。 キャラクタリゼーションは、交通の流れの安全性と性能、特に近日中に一般的になると思われる手動と自動車両の混合シナリオの両方を向上させるのに使うことができる。

In this paper, we demonstrate a proof of concept for characterizing vehicular behavior using only the roadside cameras of the ITS system. The essential advantage of this method is that it can be implemented in the roadside infrastructure transparently and inexpensively and can have a global view of each vehicle's behavior without any involvement of or awareness by the individual vehicles or drivers. By using a setup that includes programmatically controlled robot cars (to simulate different types of vehicular behaviors) and an external video camera set up to capture and analyze the vehicular behavior, we show that the driver classification based on the external video analytics yields accuracies that are within 1-2\% of the accuracies of direct vehicle-based characterization. We also show that the residual errors primarily relate to gaps in correct object identification and tracking and thus can be further reduced with a more sophisticated setup. The characterization can be used to enhance both the safety and performance of the traffic flow, particularly in the mixed manual and automated vehicle scenarios that are expected to be common soon.
翻訳日:2023-02-28 18:48:42 公開日:2023-02-25
# コミュニケーション認識協調学習のためのロボット群シミュレーション

Simulation of robot swarms for learning communication-aware coordination ( http://arxiv.org/abs/2302.13124v1 )

ライセンス: Link先を確認
Giorgia Adorni(参考訳) ロボティクス研究は協力的なマルチエージェント問題に焦点を当てており、エージェントは共通の目的を達成するために協力し、コミュニケーションしなければならない。 この課題に取り組むために,模倣学習アルゴリズムを探求する。 これらの方法は、すべてのエージェントの状態や観察を含む環境全体を知覚できる集中型全能コントローラの振る舞いのような専門家のデモンストレーションを観察することで、コントローラを学習する。 システムの状態に関する完全な知識を持つタスクの実行は比較的容易であるが、エージェントが状態に直接アクセスするわけではなく、観察にのみアクセスするため、現実のシナリオでは集中型ソリューションは実現できないかもしれない。 本課題を克服するために,全知集中型コントローラ,すなわちエージェントのセンサ読取と受信した通信から得られる入力局所的観測を行うエンド・ツー・エンドニューラルネットワークを訓練し,実行すべき動作と送信すべき通信を出力として生成する。 本研究は,ロボットを空間に均等に分散させ,その位置に応じて色づけする分散コントローラを用いた2つの協調作業に焦点を当てた。 エージェント間のメッセージの明示的な交換は、第2のタスクを解決するために要求されるが、第1のタスクでは、通信プロトコルは不要である。 実験は、平面ロボットのための高性能オープンソースシミュレータであるEnkiで行われ、平面上で進化するロボットの衝突検出と物理サポートが制限されている。 さらに、ロボットのグループを、リアルタイムの何百倍も高速にシミュレートできる。 結果は、コミュニケーション戦略の適用が分散モデルのパフォーマンスをいかに改善するかを示し、どのアクションをエキスパートコントローラと同じくらい正確かつ迅速に行うかを決定する。

Robotics research has been focusing on cooperative multi-agent problems, where agents must work together and communicate to achieve a shared objective. To tackle this challenge, we explore imitation learning algorithms. These methods learn a controller by observing demonstrations of an expert, such as the behaviour of a centralised omniscient controller, which can perceive the entire environment, including the state and observations of all agents. Performing tasks with complete knowledge of the state of a system is relatively easy, but centralised solutions might not be feasible in real scenarios since agents do not have direct access to the state but only to their observations. To overcome this issue, we train end-to-end Neural Networks that take as input local observations obtained from an omniscient centralised controller, i.e., the agents' sensor readings and the communications received, producing as output the action to be performed and the communication to be transmitted. This study concentrates on two cooperative tasks using a distributed controller: distributing the robots evenly in space and colouring them based on their position relative to others. While an explicit exchange of messages between the agents is required to solve the second task, in the first one, a communication protocol is unnecessary, although it may increase performance. The experiments are run in Enki, a high-performance open-source simulator for planar robots, which provides collision detection and limited physics support for robots evolving on a flat surface. Moreover, it can simulate groups of robots hundreds of times faster than real-time. The results show how applying a communication strategy improves the performance of the distributed model, letting it decide which actions to take almost as precisely and quickly as the expert controller.
翻訳日:2023-02-28 18:48:22 公開日:2023-02-25
# 注意GRUに基づくエンコーダデコーダを用いた抽象テキスト要約

Abstractive Text Summarization using Attentive GRU based Encoder-Decoder ( http://arxiv.org/abs/2302.13117v1 )

ライセンス: Link先を確認
Tohida Rehman, Suchandan Das, Debarshi Kumar Sanyal, Samiran Chattopadhyay(参考訳) 現代では至る所に膨大な情報が存在する。 したがって、その情報を評価し、有用かつしばしば要約された情報を抽出し、関連する目的に利用できるようにすることが極めて重要である。 この抽出は、人工知能、すなわち機械学習の重要な技術によって達成することができる。 実際、テキスト処理における機械学習の重要な応用として、自動テキスト要約が登場している。 本稿では,GRUベースのエンコーダとデコーダを用いて,英文要約器を構築した。 入力テキストの長いシーケンスを扱う問題を克服するために、bahdanau attention機構が追加された。 モデルのトレーニングには、ニュースサマリーデータセットが使用されている。 出力は文献の競争モデルより優れていることが観察される。 生成された要約は新聞の見出しとして使用できる。

In todays era huge volume of information exists everywhere. Therefore, it is very crucial to evaluate that information and extract useful, and often summarized, information out of it so that it may be used for relevant purposes. This extraction can be achieved through a crucial technique of artificial intelligence, namely, machine learning. Indeed automatic text summarization has emerged as an important application of machine learning in text processing. In this paper, an english text summarizer has been built with GRU-based encoder and decoder. Bahdanau attention mechanism has been added to overcome the problem of handling long sequences in the input text. A news-summary dataset has been used to train the model. The output is observed to outperform competitive models in the literature. The generated summary can be used as a newspaper headline.
翻訳日:2023-02-28 18:47:55 公開日:2023-02-25
# 確率的最短経路の2重定式化と自律走行車行動計画への応用

Dual Formulation for Chance Constrained Stochastic Shortest Path with Application to Autonomous Vehicle Behavior Planning ( http://arxiv.org/abs/2302.13115v1 )

ライセンス: Link先を確認
Rashid Alyassi and Majid Khonji(参考訳) 自動運転車は、周囲の動的障害物との衝突のリスクを制限しながら、その後の操作の期待性能を最適化する問題に直面している。 これらの障害物、例えばエージェント車両は、タイムリーで安全な方法で説明されるべき確率的遷移を示すことが多い。 制約付き確率的短経路問題(Constrained Stochastic Shortest Path problem, C-SSP)は、ある種の運用制約の下で確率的環境を計画するための形式主義である。 c-sspは計画問題の制約を指定できるが、安全クリティカルなアプリケーションで要求される制約違反の確率を制限することはできない。 本研究の最初の貢献は、確率制約付きssp (cc-ssp) に対する完全整数線形計画法である。 第二に、確率的政策のためにランダムな丸め手順が提示される。 第三に、CC-SSP形式は、複数の時間ステップにまたがる制約を考慮するために一般化可能であることを示す。 評価結果は,既存手法と比較してベンチマーク問題におけるアプローチの有用性を示した。

Autonomous vehicles face the problem of optimizing the expected performance of subsequent maneuvers while bounding the risk of collision with surrounding dynamic obstacles. These obstacles, such as agent vehicles, often exhibit stochastic transitions that should be accounted for in a timely and safe manner. The Constrained Stochastic Shortest Path problem (C-SSP) is a formalism for planning in stochastic environments under certain types of operating constraints. While C-SSP allows specifying constraints in the planning problem, it does not allow for bounding the probability of constraint violation, which is desired in safety-critical applications. This work's first contribution is an exact integer linear programming formulation for Chance-constrained SSP (CC-SSP) that attains deterministic policies. Second, a randomized rounding procedure is presented for stochastic policies. Third, we show that the CC-SSP formalism can be generalized to account for constraints that span through multiple time steps. Evaluation results show the usefulness of our approach in benchmark problems compared to existing approaches.
翻訳日:2023-02-28 18:47:45 公開日:2023-02-25
# 知識グラフを用いた複雑な問合せ回答のための逐次クエリエンコーディング

Sequential Query Encoding For Complex Query Answering on Knowledge Graphs ( http://arxiv.org/abs/2302.13114v1 )

ライセンス: Link先を確認
Jiaxin Bai, Tianshi Zheng, Yangqiu Song(参考訳) クエリエンコーディング(QE)は、CQAの高速で堅牢なソリューションとして提案されている。 符号化プロセスでは、既存のほとんどのQEメソッドがまず論理的クエリを実行可能な計算直環状グラフ(DAG)に解析し、次にニューラルネットワークを使って演算子をパラメータ化し、最後にこれらのニューラルネットワーク演算子を再帰的に実行する。 しかし、パラメータ化と実行のパラダイムは、単一のニューラルネットワークエンコーダによって構造的に単純化されるため、過度に複雑化する可能性がある。 一方、LSTMやTransformerのようなシーケンスエンコーダは、関連するタスクのセマンティックグラフの符号化に有効であることが証明された。 そこで我々は,CQAのクエリをエンコードする代わりに,シーケンシャルクエリ符号化(SQE)を提案する。 計算グラフのパラメータ化と実行の代わりに、SQEはまず検索ベースのアルゴリズムを使用して、計算グラフを一連のトークンに線形化し、次にシーケンスエンコーダを使用してベクトル表現を計算する。 次に、このベクトル表現をクエリ埋め込みとして使用し、類似度スコアに従って埋め込み空間から回答を取得する。 そのシンプルさにもかかわらず、sqeはfb15k、fb15k-237、nellで最先端のニューラルネットワーククエリエンコーディング性能を、29種類のin-distributionクエリを含む拡張ベンチマークで実証している。 さらなる実験では、SQEはトレーニングプロセス中にクエリタイプが観察されないアウト・オブ・ディストリビューションクエリに対して、同等の知識推論能力を示す。

Query encoding (QE) is proposed as a fast and robust solution to CQA. In the encoding process, most existing QE methods first parse the logical query into an executable computational direct-acyclic graph (DAG), then use neural networks to parameterize the operators, and finally, recursively execute these neuralized operators. However, the parameterization-and-execution paradigm may be potentially over-complicated, as it can be structurally simplified by a single neural network encoder. Meanwhile, sequence encoders, like LSTM and Transformer, proved to be effective for encoding semantic graphs in related tasks. Motivated by this, we propose sequential query encoding (SQE) as an alternative to encode queries for CQA. Instead of parameterizing and executing the computational graph, SQE first uses a search-based algorithm to linearize the computational graph to a sequence of tokens and then uses a sequence encoder to compute its vector representation. Then this vector representation is used as a query embedding to retrieve answers from the embedding space according to similarity scores. Despite its simplicity, SQE demonstrates state-of-the-art neural query encoding performance on FB15k, FB15k-237, and NELL on an extended benchmark including twenty-nine types of in-distribution queries. Further experiment shows that SQE also demonstrates comparable knowledge inference capability on out-of-distribution queries, whose query types are not observed during the training process.
翻訳日:2023-02-28 18:47:28 公開日:2023-02-25
# エネルギー自然勾配によるPINNの高精度化

Achieving High Accuracy with PINNs via Energy Natural Gradients ( http://arxiv.org/abs/2302.13163v1 )

ライセンス: Link先を確認
Johannes M\"uller, Marius Zeinhofer(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)の最適化アルゴリズムとして,エネルギー自然勾配降下法,ヘシアン誘導リーマン計量に対する自然勾配法,ディープリッツ法を提案する。 主動機として、エネルギーの自然勾配から生じる関数空間の更新方向が、モデルの接空間への直交射影のニュートン方向に対応することを示す。 実験により, エネルギー勾配降下は, 計算時間が大幅に長い場合であっても, 勾配降下やアダムのような標準最適化器を用いてPINNを訓練する際に得られるものよりも数桁小さい誤差で高精度な解が得られることを示した。

We propose energy natural gradient descent, a natural gradient method with respect to a Hessian-induced Riemannian metric as an optimization algorithm for physics-informed neural networks (PINNs) and the deep Ritz method. As a main motivation we show that the update direction in function space resulting from the energy natural gradient corresponds to the Newton direction modulo an orthogonal projection onto the model's tangent space. We demonstrate experimentally that energy natural gradient descent yields highly accurate solutions with errors several orders of magnitude smaller than what is obtained when training PINNs with standard optimizers like gradient descent or Adam, even when those are allowed significantly more computation time.
翻訳日:2023-02-28 18:40:43 公開日:2023-02-25
# 変圧器のサイバーセキュリティ問題

Cybersecurity Challenges of Power Transformers ( http://arxiv.org/abs/2302.13161v1 )

ライセンス: Link先を確認
Hossein Rahimpour, Joe Tusek, Alsharif Abuadbba, Aruna Seneviratne, Toan Phung, Ahmed Musleh, Boyu Liu(参考訳) 重要なインフラに対するサイバー脅威の高まりと、その破壊的な影響の可能性は大幅に増大している。 情報、データ分析、通信システムへの新たな電力グリッド技術への依存は、全電力ネットワークをサイバー脅威に脆弱にする。 電力トランスは電力グリッドの中で重要な役割を担い、後に工場のアドオンやインテリジェントな監視システムによって、トランスフォーマーのような臨界および長期リードタイムアセットの状況監視を改善するために一般的に拡張されている。 しかし、電源変圧器の接続性の向上は、サイバー攻撃の扉を開く。 そのため、サイバー脅威を検出し予防する必要性が重要になっている。 その第一歩は、電力変圧器に対するサイバー攻撃の可能性について、より深く理解することだ。 既存の文献の多くは配電網内のスマート機器に注意を払っており、提案手法の多くはモデルに基づく検出アルゴリズムに基づいている。 さらに、パワー要素、特にトランスミッションネットワーク内のトランスフォーマーのセキュリティ脆弱性に対処する作業はごくわずかである。 我々の知る限りでは、新たに登場したスマートトランスフォーマーに対するサイバーセキュリティの課題を体系的に研究する文献は存在しない。 本稿では、電力ネットワーク内の電力変圧器の脆弱性と攻撃ベクトル、攻撃シナリオ、攻撃に関連するリスクを探索することによって、この問題に対処する。

The rise of cyber threats on critical infrastructure and its potential for devastating consequences, has significantly increased. The dependency of new power grid technology on information, data analytic and communication systems make the entire electricity network vulnerable to cyber threats. Power transformers play a critical role within the power grid and are now commonly enhanced through factory add-ons or intelligent monitoring systems added later to improve the condition monitoring of critical and long lead time assets such as transformers. However, the increased connectivity of those power transformers opens the door to more cyber attacks. Therefore, the need to detect and prevent cyber threats is becoming critical. The first step towards that would be a deeper understanding of the potential cyber-attacks landscape against power transformers. Much of the existing literature pays attention to smart equipment within electricity distribution networks, and most methods proposed are based on model-based detection algorithms. Moreover, only a few of these works address the security vulnerabilities of power elements, especially transformers within the transmission network. To the best of our knowledge, there is no study in the literature that systematically investigate the cybersecurity challenges against the newly emerged smart transformers. This paper addresses this shortcoming by exploring the vulnerabilities and the attack vectors of power transformers within electricity networks, the possible attack scenarios and the risks associated with these attacks.
翻訳日:2023-02-28 18:40:31 公開日:2023-02-25
# ランダム投影林における点分散が$k$-nn探索に及ぼす影響

The Effect of Points Dispersion on the $k$-nn Search in Random Projection Forests ( http://arxiv.org/abs/2302.13160v1 )

ライセンス: Link先を確認
Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka(参考訳) 分割木は、$k$-nearest neighbor searchのための効率的なデータ構造である。 機械学習ライブラリは通常、$k$d-treesと呼ばれる特別な種類のパーティショニングツリーを使用して、$k$-nn検索を実行する。 残念ながら、$k$d-treesはベクトル量子化(VQ)誤差を減らすためにより多くの木レベルを必要とするため、高次元では非効率である。 ランダム射影木rptreesは、ランダム方向を使ってデータを分割することでこのスケーラビリティ問題を解決する。 rpTreesのコレクションはrpForestと呼ばれる。 rpForestの$k$-nn検索には2つの要因がある。 1)無作為な方向に沿った点の分散 2)rpForestにおけるrpTreeの数。 本研究では,これらの2つの要因が,異なる$k$値と異なるデータセットを持つ$k$-nn探索に与える影響について検討した。 木の数が多ければ多いほど、点の分散が$k$-nnの検索に非常に限定的な効果を持つことがわかった。 点の分散に関係なくランダムな方向を選択することで、元のrpTreeアルゴリズムを使うべきである。

Partitioning trees are efficient data structures for $k$-nearest neighbor search. Machine learning libraries commonly use a special type of partitioning trees called $k$d-trees to perform $k$-nn search. Unfortunately, $k$d-trees can be ineffective in high dimensions because they need more tree levels to decrease the vector quantization (VQ) error. Random projection trees rpTrees solve this scalability problem by using random directions to split the data. A collection of rpTrees is called rpForest. $k$-nn search in an rpForest is influenced by two factors: 1) the dispersion of points along the random direction and 2) the number of rpTrees in the rpForest. In this study, we investigate how these two factors affect the $k$-nn search with varying $k$ values and different datasets. We found that with larger number of trees, the dispersion of points has a very limited effect on the $k$-nn search. One should use the original rpTree algorithm by picking a random direction regardless of the dispersion of points.
翻訳日:2023-02-28 18:40:11 公開日:2023-02-25
# なぜディープフェイク検出器は失敗するのか?

Why Do Deepfake Detectors Fail? ( http://arxiv.org/abs/2302.13156v1 )

ライセンス: Link先を確認
Binh Le, Shahroz Tariq, Alsharif Abuadbba, Kristen Moore, Simon Woo(参考訳) 近年のディープフェイク技術の急速な進歩により、ビデオ、画像、オーディオといった極めて現実的な偽メディアが作成できるようになった。 これらの資料は、偽装、誤情報、さらには国家の安全保障に対する脅威など、人間の認証に重大な課題をもたらす。 これらの急速な進歩に対応するために、いくつかのディープフェイク検出アルゴリズムが提案され、ディープフェイク作成者とディープフェイク検出装置との間の武器競争が進行中である。 しかし、これらの検出器はしばしば信頼できず、しばしばディープフェイクの検出に失敗する。 本研究は,(1)人工物の前処理パイプライン,(2)防衛モデルの構築において,新しい未確認深度サンプルの生成が考慮されていないことなど,深度データの検出において直面する課題を明らかにする。 私たちの研究は、この分野におけるさらなる研究と開発の必要性を浮き彫りにしています。

Recent rapid advancements in deepfake technology have allowed the creation of highly realistic fake media, such as video, image, and audio. These materials pose significant challenges to human authentication, such as impersonation, misinformation, or even a threat to national security. To keep pace with these rapid advancements, several deepfake detection algorithms have been proposed, leading to an ongoing arms race between deepfake creators and deepfake detectors. Nevertheless, these detectors are often unreliable and frequently fail to detect deepfakes. This study highlights the challenges they face in detecting deepfakes, including (1) the pre-processing pipeline of artifacts and (2) the fact that generators of new, unseen deepfake samples have not been considered when building the defense models. Our work sheds light on the need for further research and development in this field to create more robust and reliable detectors.
翻訳日:2023-02-28 18:39:56 公開日:2023-02-25
# 指向拡散:注意誘導による物体配置の直接制御

Directed Diffusion: Direct Control of Object Placement through Attention Guidance ( http://arxiv.org/abs/2302.13153v1 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, J.P. Lewis, W. Bastiaan Kleijn, Thomas Leung(参考訳) DALLE-2、ImageN、Stable Diffusionなどのテキスト誘導拡散モデルでは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。 多くの場合、画像も非常に高品質である。 しかし、これらのモデルは、特定の位置関係にある文字など、いくつかの重要なオブジェクトを含むシーンを構成するのに苦労することが多い。 残念ながら、映画やアニメーション理論の文献で認識されているように、画像内の文字や物体の配置を「直接」する能力はストーリーテリングにおいて不可欠である。 この作業では、制御対象に対応するクロスアテンションマップにおいて、所望の位置に ``activation'' を注入し、残りのマップを減衰させ、必要な方向を提供するための特に簡単なアプローチをとる。 結果として得られたアプローチは、ストーリーブックのように、単一の画像から関連する画像のコレクションへのテキスト誘導拡散モデルの適用性を一般化するためのステップである。 我々の知識を最大限に活用するため,本手法は,既存の事前学習モデルを利用し,位置決めされた物体と背景とのコヒーレントブレンドを維持しつつ,複数の物体の位置制御を行う最初の拡散手法である。 さらに、実装には数行しか必要ありません。

Text-guided diffusion models such as DALLE-2, IMAGEN, and Stable Diffusion are able to generate an effectively endless variety of images given only a short text prompt describing the desired image content. In many cases the images are very high quality as well. However, these models often struggle to compose scenes containing several key objects such as characters in specified positional relationships. Unfortunately, this capability to ``direct'' the placement of characters and objects both within and across images is crucial in storytelling, as recognized in the literature on film and animation theory. In this work we take a particularly straightforward approach to providing the needed direction, by injecting ``activation'' at desired positions in the cross-attention maps corresponding to the objects under control, while attenuating the remainder of the map. The resulting approach is a step toward generalizing the applicability of text-guided diffusion models beyond single images to collections of related images, as in storybooks. To the best of our knowledge, our Directed Diffusion method is the first diffusion technique that provides positional control over multiple objects, while making use of an existing pre-trained model and maintaining a coherent blend between the positioned objects and the background. Moreover, it requires only a few lines to implement.
翻訳日:2023-02-28 18:39:39 公開日:2023-02-25
# 安全制約マルコフ決定過程に対するベルマンの最適性と強化学習原理について

On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process ( http://arxiv.org/abs/2302.13152v1 )

ライセンス: Link先を確認
Rahul Misra, Rafa{\l} Wisniewski and Carsten Skovmose Kalles{\o}e(参考訳) 安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。 具体的には、(有限状態と有限動作を持つ)マルコフ決定過程において、決定者のゴールは、ある確率的保証のある安全でない集合を避けながら、目標集合に到達することである。 したがって、任意の制御ポリシーに対するマルコフ連鎖は、定義によってターゲット集合と安全でない集合が存在するため、多重鎖となる。 意思決定者は、目標セットにナビゲートしながら(コスト関数に関して)最適である必要がある。 これは多目的最適化の問題を引き起こす。 ベルマンの最適性原理は、(反例で示されるように)下層のマルチチェーン構造を持つマルコフ決定問題に拘束されないという事実を強調した。 上記の多目的最適化問題をゼロサムゲームとして定式化し、その後ラグランジアンに対する非同期値反復スキームを構築する(シャプリーのアルゴリズムに類似)。 最後に,強化学習問題についても検討し,データからラグランジアンを学習するための修正q学習アルゴリズムを構築した。 また、ラグランジアンとそれに対応する誤差境界の学習に必要な反復数にもより低い境界を与える。

We study optimality for the safety-constrained Markov decision process which is the underlying framework for safe reinforcement learning. Specifically, we consider a constrained Markov decision process (with finite states and finite actions) where the goal of the decision maker is to reach a target set while avoiding an unsafe set(s) with certain probabilistic guarantees. Therefore the underlying Markov chain for any control policy will be multichain since by definition there exists a target set and an unsafe set. The decision maker also has to be optimal (with respect to a cost function) while navigating to the target set. This gives rise to a multi-objective optimization problem. We highlight the fact that Bellman's principle of optimality may not hold for constrained Markov decision problems with an underlying multichain structure (as shown by the counterexample). We resolve the counterexample by formulating the aforementioned multi-objective optimization problem as a zero-sum game and thereafter construct an asynchronous value iteration scheme for the Lagrangian (similar to Shapley's algorithm. Finally, we consider the reinforcement learning problem for the same and construct a modified Q-learning algorithm for learning the Lagrangian from data. We also provide a lower bound on the number of iterations required for learning the Lagrangian and corresponding error bounds.
翻訳日:2023-02-28 18:39:16 公開日:2023-02-25
# STACC: 文変換器を用いたコードコメント分類

STACC: Code Comment Classification using SentenceTransformers ( http://arxiv.org/abs/2302.13149v1 )

ライセンス: Link先を確認
Ali Al-Kaswan and Maliheh Izadi and Arie van Deursen(参考訳) コードコメントは、ソフトウェアアーチファクトに関する情報の鍵となるリソースである。 ユースケースによっては、いくつかのタイプのコメントだけが有用です。 そこで,これらのコメントを自動分類する手法を提案する。 本稿では、SentenceTransformersベースのバイナリ分類器であるSTACCを提案することで、このニーズに対処する。 これらの軽量分類器は、nlbseコードコメント分類ツール競合データセットでトレーニングおよびテストされ、ベースラインをかなりのマージンで上回り、ベースライン 0.31に対して平均的なf1スコア 0.74 となり、これは139%の改善である。 レプリケーションパッケージとモデル自体が公開されている。

Code comments are a key resource for information about software artefacts. Depending on the use case, only some types of comments are useful. Thus, automatic approaches to classify these comments are proposed. In this work, we address this need by proposing, STACC, a set of SentenceTransformers-based binary classifiers. These lightweight classifiers are trained and tested on the NLBSE Code Comment Classification tool competition dataset, and surpass the baseline by a significant margin, achieving an average F1 score of 0.74 against the baseline of 0.31, which is an improvement of 139%. A replication package, as well as the models themselves, are publicly available.
翻訳日:2023-02-28 18:38:56 公開日:2023-02-25
# 射影計測に基づくコヒーレンスの測定

Measures of coherence based on projective measurements ( http://arxiv.org/abs/2302.13148v1 )

ライセンス: Link先を確認
Azam Mani, Fatemeh Rezazadeh, Vahid Karimipour(参考訳) 我々は,実験能力が望ましい状態の基底を作るのに十分でない場合を包含するコヒーレンスの概念を一般化する。 単一原子の個々の対応が難しいため、これは実際的な重要性の状況である。 我々は、コヒーレンスの新しい尺度を定義し、非コヒーレント操作と最大コヒーレント状態を特徴付ける。 さらに、資源として最大コヒーレント状態から、非コヒーレント操作により、他の任意の状態と任意のゲートを全て生成できることを示す。 最後に, このコヒーレント状態の階層構造を, 実験室で利用可能な射影計測の精細化に依拠して強調する。

We generalize the concept of coherence to encompass the case where the experimental capabilities are not so fine to prepare a preferred basis of states, rather only a set of projectors are at disposal of the experimenter. Due to the difficulty of individual addressing of single atoms, this is a situation of practical importance. We define new measures of coherence, characterize the incoherent operations, and the maximally coherent states. Furthermore we show how from a maximally coherent state, as a resource, one can create every other arbitrary state and every arbitrary gate, by incoherent operations. Finally we emphasize the hierarchical structure of these coherent states, depending on the refinement of the projective measurements available in the laboratory.
翻訳日:2023-02-28 18:38:45 公開日:2023-02-25
# レグレッション・水平政策グラディエントの観点からのLQR制御の再検討

Revisiting LQR Control from the Perspective of Receding-Horizon Policy Gradient ( http://arxiv.org/abs/2302.13144v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Tamer Ba\c{s}ar(参考訳) 本稿では,制御アプリケーションのためのモデルフリー学習フレームワークであるreceding-horizon policy gradient(rhpg)の観点から,離散時間線形二次レギュレータ(lqr)問題を再検討する。 我々は,rhpg の最適 lqr 解に近い安定性および$\epsilon$ の制御ポリシーを学習するために,詳細なサンプル複雑性解析を行い,初期化のための安定化制御ポリシーを知る必要はない。 カルマンフィルタの学習におけるRHPGの最近の応用と組み合わせて、線形制御におけるRHPGの一般的な適用性および線形解析による推定を実証する。

We revisit in this paper the discrete-time linear quadratic regulator (LQR) problem from the perspective of receding-horizon policy gradient (RHPG), a newly developed model-free learning framework for control applications. We provide a fine-grained sample complexity analysis for RHPG to learn a control policy that is both stabilizing and $\epsilon$-close to the optimal LQR solution, and our algorithm does not require knowing a stabilizing control policy for initialization. Combined with the recent application of RHPG in learning the Kalman filter, we demonstrate the general applicability of RHPG in linear control and estimation with streamlined analyses.
翻訳日:2023-02-28 18:38:33 公開日:2023-02-25
# 物理情報ニューラルネットワークのためのアンサンブル学習--勾配促進アプローチ

Ensemble learning for Physics Informed Neural Networks: a Gradient Boosting approach ( http://arxiv.org/abs/2302.13143v1 )

ライセンス: Link先を確認
Zhiwei Fang, Sifan Wang, and Paris Perdikaris(参考訳) 物理学インフォームドニューラルネットワーク(PINN)の人気は着実に上昇しているが、この時点では、PINNはマルチスケールおよび特異摂動問題のシミュレーションには成功していない。 本研究では、物理情報ニューラルネットワーク(PINN)の性能を大幅に向上させる「段階的強化(gradient boosting)」と呼ばれる新たなトレーニングパラダイムを提案する。 与えられたPDEの解を1つのニューラルネットワークで直接学習するのではなく、ニューラルネットワークのシーケンスを用いてより優れた結果を得る。 このアプローチにより、従来のPINNにとって大きな課題となる問題を解決することができる。 数値実験により,有限要素法とピンの比較を含む様々なベンチマークによるアルゴリズムの有効性を示す。 さらに、この研究は、PINNでアンサンブル学習技術を採用するための扉を開き、PDEの解法をさらに改善する機会を提供する。

While the popularity of physics-informed neural networks (PINNs) is steadily rising, to this date, PINNs have not been successful in simulating multi-scale and singular perturbation problems. In this work, we present a new training paradigm referred to as "gradient boosting" (GB), which significantly enhances the performance of physics informed neural networks (PINNs). Rather than learning the solution of a given PDE using a single neural network directly, our algorithm employs a sequence of neural networks to achieve a superior outcome. This approach allows us to solve problems presenting great challenges for traditional PINNs. Our numerical experiments demonstrate the effectiveness of our algorithm through various benchmarks, including comparisons with finite element methods and PINNs. Furthermore, this work also unlocks the door to employing ensemble learning techniques in PINNs, providing opportunities for further improvement in solving PDEs.
翻訳日:2023-02-28 18:38:19 公開日:2023-02-25
# tractable diversity: perspective el によるスケーラブルなマルチパースペクティブオントロジー管理

Tractable Diversity: Scalable Multiperspective Ontology Management via Standpoint EL ( http://arxiv.org/abs/2302.13187v1 )

ライセンス: Link先を確認
Luc\'ia G\'omez \'Alvarez, Sebastian Rudolph and Hannes Strass(参考訳) 軽量記述論理ELのトラクタビリティにより、セマンティック相互運用性をサポートする大規模で広く使用されているオントロジーの構築が可能になった。 しかし、幅広いユーザベースを持つ包括的ドメインは、通常、コンテキスト依存であり、異なる視点の対象となるため、参照に有用でない強力な公理化と相反することが多い。 本稿では,EL のマルチモーダル拡張である Standpoint EL を紹介し,多種多様で相反するスタンドポイント(あるいはコンテキスト)に対するドメイン知識の統合表現を可能にする。 Standpoint EL は EL の好適な PTime 標準推論を示す一方で,空のスタンドポイントや厳格な役割,名目などの付加的な機能を導入することによって,標準的な推論タスクの難易度が向上する。

The tractability of the lightweight description logic EL has allowed for the construction of large and widely used ontologies that support semantic interoperability. However, comprehensive domains with a broad user base are often at odds with strong axiomatisations otherwise useful for inferencing, since these are usually context-dependent and subject to diverging perspectives. In this paper we introduce Standpoint EL, a multi-modal extension of EL that allows for the integrated representation of domain knowledge relative to diverse, possibly conflicting standpoints (or contexts), which can be hierarchically organised and put in relation to each other. We establish that Standpoint EL still exhibits EL's favourable PTime standard reasoning, whereas introducing additional features like empty standpoints, rigid roles, and nominals makes standard reasoning tasks intractable.
翻訳日:2023-02-28 18:31:37 公開日:2023-02-25
# 建設番号:グラフの作り方?

Construction numbers: How to build a graph? ( http://arxiv.org/abs/2302.13186v1 )

ライセンス: Link先を確認
Paul C. Kainen(参考訳) 経路、星、サイクル、および完全なグラフを構築する方法の数を頂点とエッジのシーケンスとしてカウントします。 この問題はスタンレーによって50年前に考えられたが、グラフ族に対応する明示的な配列はほとんど研究されていないようである。 コストベースの変種が導入され、アプリケーションが検討される。

We count the number of ways to build paths, stars, cycles, and complete graphs as a sequence of vertices and edges, where each edge follows both of its endpoints. The problem was considered 50 years ago by Stanley but the explicit sequences corresponding to graph families seem to have been little studied. A cost-based variant is introduced and applications are considered.
翻訳日:2023-02-28 18:31:21 公開日:2023-02-25
# 多様体上の分布の近似と推定のための深部生成モデルについて

On Deep Generative Models for Approximation and Estimation of Distributions on Manifolds ( http://arxiv.org/abs/2302.13183v1 )

ライセンス: Link先を確認
Biraj Dahal, Alex Havrilla, Minshuo Chen, Tuo Zhao, Wenjing Liao(参考訳) 生成ネットワークは分散学習において大きな成功を収めてきた。 多くの既存の実験では、生成ネットワークは低次元の簡単サンプル分布から高次元の複素データを生成することができる。 しかし、この現象は既存の理論では正当化できない。 広く知られている多様体仮説は、自然画像や信号のような実世界のデータセットは低次元の幾何学構造を示すと推測している。 本稿では,低次元多様体上でのデータ分布が支持されていることを仮定して,そのような低次元データ構造を考察する。 我々はwasserstein-1の損失の下で生成ネットワークの統計的保証を証明する。 ワッサーシュタイン-1の損失は、周囲のデータ次元ではなく内在次元に依存する速度でゼロに収束することを示す。 本理論は,データセットの低次元幾何構造を活用し,生成ネットワークの実用性を正当化する。 実際に望ましいデータ分布について、スムーズな仮定は必要ありません。

Generative networks have experienced great empirical successes in distribution learning. Many existing experiments have demonstrated that generative networks can generate high-dimensional complex data from a low-dimensional easy-to-sample distribution. However, this phenomenon can not be justified by existing theories. The widely held manifold hypothesis speculates that real-world data sets, such as natural images and signals, exhibit low-dimensional geometric structures. In this paper, we take such low-dimensional data structures into consideration by assuming that data distributions are supported on a low-dimensional manifold. We prove statistical guarantees of generative networks under the Wasserstein-1 loss. We show that the Wasserstein-1 loss converges to zero at a fast rate depending on the intrinsic dimension instead of the ambient data dimension. Our theory leverages the low-dimensional geometric structures in data sets and justifies the practical power of generative networks. We require no smoothness assumptions on the data distribution which is desirable in practice.
翻訳日:2023-02-28 18:31:14 公開日:2023-02-25
# 生成モデルにおけるデータコピー:形式的枠組み

Data-Copying in Generative Models: A Formal Framework ( http://arxiv.org/abs/2302.13181v1 )

ライセンス: Link先を確認
Robi Bhattacharjee, Sanjoy Dasgupta, Kamalika Chaudhuri(参考訳) 近年,深層ニューラルネットワークによるトレーニングデータの暗記の検出と対処への関心が高まっている。 meehanらによって「データコピー」と呼ばれる生成モデルの記憶のための形式的枠組みが提唱された。 アル(2020年)。 我々は、それらのフレームワークがある種のブラタント記憶の検出に失敗する可能性があることを示すために、彼らの作業の上に構築する。 これと非パラメトリック法の理論により、より局所的に適用されるデータコピーの代替的な定義を提供する。 データコピーの検出方法を提供し、十分なデータが利用可能であれば高い確率で動作することを示す。 また、信頼性検出のためのサンプル要求を特徴付ける低い境界も提供する。

There has been some recent interest in detecting and addressing memorization of training data by deep neural networks. A formal framework for memorization in generative models, called "data-copying," was proposed by Meehan et. al. (2020). We build upon their work to show that their framework may fail to detect certain kinds of blatant memorization. Motivated by this and the theory of non-parametric methods, we provide an alternative definition of data-copying that applies more locally. We provide a method to detect data-copying, and provably show that it works with high probability when enough data is available. We also provide lower bounds that characterize the sample requirement for reliable detection.
翻訳日:2023-02-28 18:31:02 公開日:2023-02-25
# MetaAID 2.0: 人間の制御可能な事前学習モデルによるメタバースアプリケーション開発のための拡張可能なフレームワーク

MetaAID 2.0: An Extensible Framework for Developing Metaverse Applications via Human-controllable Pre-trained Models ( http://arxiv.org/abs/2302.13173v1 )

ライセンス: Link先を確認
Hongyin Zhu(参考訳) 事前学習モデル(PM)は、コンテンツ生成において有望な結果を得た。 しかし、人間の創造性と想像力の空間は無限であり、既存のモデルがニーズを満たすかどうかはまだ不明である。 モデル生成コンテンツはコントロール不能な責任と潜在的な非倫理的な問題に直面します。 本稿では,人間の制御可能なPM情報フローに特化したMetaAID 2.0フレームワークを提案する。 PM情報の流れによって、人間は創造性を自律的に制御できる。 Universal Resource Identifier拡張(URI拡張)を通じて、モデルの出力の責任を制御することができる。 当社のフレームワークには、マルチモーダルデータを処理し、変換と生成をサポートするモジュールが含まれています。 URI拡張は、URI、詳細な記述、URI埋め込みで構成され、モデル出力のファジィ検索をサポートする。 この枠組みに基づいて,PM情報フローとURI埋め込みの実験を行い,システムの性能を実証した。

Pre-trained models (PM) have achieved promising results in content generation. However, the space for human creativity and imagination is endless, and it is still unclear whether the existing models can meet the needs. Model-generated content faces uncontrollable responsibility and potential unethical problems. This paper presents the MetaAID 2.0 framework, dedicated to human-controllable PM information flow. Through the PM information flow, humans can autonomously control their creativity. Through the Universal Resource Identifier extension (URI-extension), the responsibility of the model outputs can be controlled. Our framework includes modules for handling multimodal data and supporting transformation and generation. The URI-extension consists of URI, detailed description, and URI embeddings, and supports fuzzy retrieval of model outputs. Based on this framework, we conduct experiments on PM information flow and URI embeddings, and the results demonstrate the good performance of our system.
翻訳日:2023-02-28 18:30:52 公開日:2023-02-25
# 逆データ拡張を用いた深層学習に基づくマルチオーガンCTセグメンテーション

Deep Learning-based Multi-Organ CT Segmentation with Adversarial Data Augmentation ( http://arxiv.org/abs/2302.13172v1 )

ライセンス: Link先を確認
Shaoyan Pan, Shao-Yuan Lo, Min Huang, Chaoqiong Ma, Jacob Wynne, Tonghe Wang, Tian Liu, Xiaofeng Yang(参考訳) そこで本研究では,腹部ctにおける臓器・リスク(oar)の描出のための深層学習に基づくセグメンテーションアルゴリズムを改良し,放射線治療を容易にするための逆攻撃に基づくデータ拡張法を提案する。 本稿では,セグメンテーションネットワークに分散統計を学習させ,雑音に対する一般化とロバスト性を改善するための,医療画像(afa-mi)拡張のための広告機能攻撃を提案する。 afa-mi拡張は以下の3つのステップからなる。 1) セグメンテーションネットワークのエンコーダの中間特性に基づいてFGSM(Fast Gradient Sign Method)により対向雑音を生成する。 2) 生成された敵対的ノイズをネットワークに注入し、故意に性能を損なうこと。 3) クリーン機能と敵機能の両方でネットワークを最適化する。 心臓、左右の腎臓、肝臓、左右の肺、脊髄、胃を分割する実験を行った。 まず,nnunet と tt-vnet を用いた afa-mi 増強効果を腹腔用データセットと施設用データセットのテストデータから評価した。 さらに,AFA-MIがネットワークのノイズデータに対する堅牢性にどう影響するかを,ガウス雑音を付加して評価することで検証する。 Dice similarity Coefficient (DSC) を用いて、ボリュームベースの精度でネットワーク性能を定量的に評価する。 また,Hausdorff Distance (HD) を表面精度に応用した。 AFA-MI を用いた nnUnet は DSC = 0.85 と HD = 6.16 ミリ (mm) を達成し、TT-Vnet は DSC = 0.86 と HD = 5.62 mm を達成している。 AFA-MIは、ガウスノイズのある画像上でテストした場合、すべての輪郭精度を0.217 DSCスコアまで改善する。 AFA-MI増強はCT多臓器分割におけるセグメンテーション性能とロバスト性を向上させることが示されている。

In this work, we propose an adversarial attack-based data augmentation method to improve the deep-learning-based segmentation algorithm for the delineation of Organs-At-Risk (OAR) in abdominal Computed Tomography (CT) to facilitate radiation therapy. We introduce Adversarial Feature Attack for Medical Image (AFA-MI) augmentation, which forces the segmentation network to learn out-of-distribution statistics and improve generalization and robustness to noises. AFA-MI augmentation consists of three steps: 1) generate adversarial noises by Fast Gradient Sign Method (FGSM) on the intermediate features of the segmentation network's encoder; 2) inject the generated adversarial noises into the network, intentionally compromising performance; 3) optimize the network with both clean and adversarial features. Experiments are conducted segmenting the heart, left and right kidney, liver, left and right lung, spinal cord, and stomach. We first evaluate the AFA-MI augmentation using nnUnet and TT-Vnet on the test data from a public abdominal dataset and an institutional dataset. In addition, we validate how AFA-MI affects the networks' robustness to the noisy data by evaluating the networks with added Gaussian noises of varying magnitudes to the institutional dataset. Network performance is quantitatively evaluated using Dice Similarity Coefficient (DSC) for volume-based accuracy. Also, Hausdorff Distance (HD) is applied for surface-based accuracy. On the public dataset, nnUnet with AFA-MI achieves DSC = 0.85 and HD = 6.16 millimeters (mm); and TT-Vnet achieves DSC = 0.86 and HD = 5.62 mm. AFA-MI augmentation further improves all contour accuracies up to 0.217 DSC score when tested on images with Gaussian noises. AFA-MI augmentation is therefore demonstrated to improve segmentation performance and robustness in CT multi-organ segmentation.
翻訳日:2023-02-28 18:30:39 公開日:2023-02-25
# 脳波からの感情認識のための部分ラベル学習

Partial Label Learning for Emotion Recognition from EEG ( http://arxiv.org/abs/2302.13170v1 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) 完全教師付き学習は最近、基底真理ラベルを用いた大規模データセットのトレーニングにより、様々な脳波(eeg)学習タスクにおいて有望なパフォーマンスを達成している。 しかし、同様の感情を正確に区別することは困難であり、その結果、曖昧なラベル付け(複数の感情を1つのEEGインスタンスに記録する)が発生する。 この概念はモデル性能の低下を引き起こす可能性があり、基底真理は複数の候補ラベルに隠されている。 この問題に対処するために, 学習段階で候補ラベルから基底的真理を識別するために部分的ラベル学習(pll)が提案され, コンピュータビジョン領域において良好な性能を示している。 しかし、pll法は脳波表現学習や感情認識タスクにはまだ採用されていない。 本稿では,5つの感情クラスを含む感情データセット(SEED-V)を用いて,脳波からの感情認識のための6つの最先端PLLアプローチを適応・再実装する。 古典的および実世界の実験において,すべての手法の性能を評価する。 以上の結果から,PLL法は脳波からの感情計算において強い結果が得られ,完全教師付き学習に匹敵する性能が得られた。 また,多くのPLL法において,ラベルの曖昧さが重要なステップであることを示す。 その結果、ほとんどの場合、一様分布に従うのではなく、基礎的真理と類似性に基づいて候補ラベルが生成される場合、ラベルの曖昧さがモデルに有効であることが示唆された。 この発見は、実世界の情緒的タスクにラベル曖昧性に基づくPLL手法を用いることの可能性を示している。 この論文のソースコードは、https://github.com/guangyizhangbci/PLL-Emotion-EEGで公開しています。

Fully supervised learning has recently achieved promising performance in various electroencephalography (EEG) learning tasks by training on large datasets with ground truth labels. However, labeling EEG data for affective experiments is challenging, as it can be difficult for participants to accurately distinguish between similar emotions, resulting in ambiguous labeling (reporting multiple emotions for one EEG instance). This notion could cause model performance degradation, as the ground truth is hidden within multiple candidate labels. To address this issue, Partial Label Learning (PLL) has been proposed to identify the ground truth from candidate labels during the training phase, and has shown good performance in the computer vision domain. However, PLL methods have not yet been adopted for EEG representation learning or implemented for emotion recognition tasks. In this paper, we adapt and re-implement six state-of-the-art PLL approaches for emotion recognition from EEG on a large emotion dataset (SEED-V, containing five emotion classes). We evaluate the performance of all methods in classical and real-world experiments. The results show that PLL methods can achieve strong results in affective computing from EEG and achieve comparable performance to fully supervised learning. We also investigate the effect of label disambiguation, a key step in many PLL methods. The results show that in most cases, label disambiguation would benefit the model when the candidate labels are generated based on their similarities to the ground truth rather than obeying a uniform distribution. This finding suggests the potential of using label disambiguation-based PLL methods for real-world affective tasks. We make the source code of this paper publicly available at: https://github.com/guangyizhangbci/PLL-Emotion-EEG.
翻訳日:2023-02-28 18:30:08 公開日:2023-02-25
# SpectralNetのランダム射影木類似度測定

Random projection tree similarity metric for SpectralNet ( http://arxiv.org/abs/2302.13168v1 )

ライセンス: Link先を確認
Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka(参考訳) SpectralNetは、ニューラルネットワークを使用してデータを分離する埋め込みを見つけるグラフクラスタリング手法である。 これまでは$k$-nnグラフでしか使われておらず、通常は距離メトリック(例えばユークリッド距離)を使って構築されている。 k$-nnグラフは、その周りの局所統計によらず、一定の数の近傍を持つ点を制限する。 我々は乱射影木(rpTrees)に基づく新しいスペクトルネット類似度指標を提案した。 実験の結果, SpectralNet は rpTree 類似度を用いたクラスタリング精度が$k$-nn グラフと比較できることがわかった。 また,rpTreeパラメータがクラスタリング精度に影響を与えないことが判明した。 これらのパラメータには、葉の大きさと投影方向の選択が含まれる。 葉のサイズを$\log(n)$の順に保ち、最大分散度を求めるのではなく、点をランダムな方向に投影することが計算的に効率的である。

SpectralNet is a graph clustering method that uses neural network to find an embedding that separates the data. So far it was only used with $k$-nn graphs, which are usually constructed using a distance metric (e.g., Euclidean distance). $k$-nn graphs restrict the points to have a fixed number of neighbors regardless of the local statistics around them. We proposed a new SpectralNet similarity metric based on random projection trees (rpTrees). Our experiments revealed that SpectralNet produces better clustering accuracy using rpTree similarity metric compared to $k$-nn graph with a distance metric. Also, we found out that rpTree parameters do not affect the clustering accuracy. These parameters include the leaf size and the selection of projection direction. It is computationally efficient to keep the leaf size in order of $\log(n)$, and project the points onto a random direction instead of trying to find the direction with the maximum dispersion.
翻訳日:2023-02-28 18:29:30 公開日:2023-02-25
# 反強磁性体中のマグノンの量子特性に関するトランスモンプローブ

Transmon probe for quantum characteristics of magnons in antiferromagnets ( http://arxiv.org/abs/2302.13167v1 )

ライセンス: Link先を確認
Vahid Azimi-Mousolou, Anders Bergman, Anna Delin, Olle Eriksson, Manuel Pereiro, Danny Thonig, Erik Sj\"oqvist(参考訳) 反強磁性(AFM)材料におけるマグノンとその量子特性の検出は、ナノ磁性の研究とエネルギー効率のよい量子技術の発展において、多くの野心的な進歩を実現するための重要なステップである。 超伝導回路に基づくハイブリッドシステムの最近の発展は、異なる自由度を利用するエンジニアリング量子センサーの可能性をもたらす。 そこで本研究では, バイパルタイトAFM材料を用いたマグノン-光子-トランスモンハイブリッド化について検討し, バイパルタイトAFMにおけるトランスモンキュービットとマグノンのカップリングに有効であることを示す。 超伝導トランスモン量子ビットのラビ周波数を用いて,磁気的に目に見えないマグノンモード,そのキラル性,非局所性,二モードマグノン絡み合いなどの量子特性がいかに特徴づけられるかを実証する。

The detection of magnons and their quantum properties, especially in antiferromagnetic (AFM) materials, is a substantial step to realize many ambitious advances in the study of nanomagnetism and the development of energy efficient quantum technologies. The recent development of hybrid systems based on superconducting circuits provides the possibility of engineering quantum sensors that exploit different degrees of freedom. Here, we examine the magnon-photon-transmon hybridisation based on bipartite AFM materials, which gives rise to an effective coupling between a transmon qubit and magnons in a bipartite AFM. We demonstrate how magnetically invisible magnon modes, their chiralities and quantum properties such as nonlocality and two-mode magnon entanglement in bipartite AFMs can be characterized through the Rabi frequency of the superconducting transmon qubit.
翻訳日:2023-02-28 18:29:14 公開日:2023-02-25
# スペクトルクラスタリングとスペクトルネットのためのパラメータフリーグラフ削減

A parameter-free graph reduction for spectral clustering and SpectralNet ( http://arxiv.org/abs/2302.13165v1 )

ライセンス: Link先を確認
Mashaan Alshammari, John Stavrakakis, Masahiro Takatsuka(参考訳) スペクトルクラスタリングやSpectralNetのようなグラフベースのクラスタリング手法は、非凸形状のクラスタを検出するのに非常に効率的である。 一般的な$k$-meansとは異なり、グラフベースのクラスタリングメソッドは、各クラスタが単一の平均を持つと仮定しません。 しかし、これらの方法は、同じクラスタ内の頂点が大きな重みのエッジによって接続されるグラフを必要とする。 この目的を達成するために、多くの研究がパラメータを用いたグラフ削減手法を提案している。 残念ながら、これらのパラメータはデータセット毎に調整する必要がある。 本稿では,パラメータを必要としないグラフ削減手法を提案する。 第一に、各点$p$からその近傍までの距離は、同じ周囲密度を持つ隣人にのみ適応しきい値を用いてフィルタリングされる。 第二に、近接する近傍との類似性は計算され、高い類似性のみが保持される。 これら2つのフィルタリングステップを生き残るエッジは、スペクトルクラスタリングとSpectralNetに渡された構築されたグラフを形成する。 実験の結果,パラメータの設定によって他の手法の性能が変動する安定な代替案が得られた。

Graph-based clustering methods like spectral clustering and SpectralNet are very efficient in detecting clusters of non-convex shapes. Unlike the popular $k$-means, graph-based clustering methods do not assume that each cluster has a single mean. However, these methods need a graph where vertices in the same cluster are connected by edges of large weights. To achieve this goal, many studies have proposed graph reduction methods with parameters. Unfortunately, these parameters have to be tuned for every dataset. We introduce a graph reduction method that does not require any parameters. First, the distances from every point $p$ to its neighbors are filtered using an adaptive threshold to only keep neighbors with similar surrounding density. Second, the similarities with close neighbors are computed and only high similarities are kept. The edges that survive these two filtering steps form the constructed graph that was passed to spectral clustering and SpectralNet. The experiments showed that our method provides a stable alternative, where other methods performance fluctuated according to the setting of their parameters.
翻訳日:2023-02-28 18:28:56 公開日:2023-02-25
# nnUNet RASPP for Retinal OCT Fluid Detection, Segmentation and Generalization over Variations of Data Sources (特集:一般セッション)

nnUNet RASPP for Retinal OCT Fluid Detection, Segmentation and Generalisation over Variations of Data Sources ( http://arxiv.org/abs/2302.13195v1 )

ライセンス: Link先を確認
Nchongmaje Ndipenoch, Alina Miron, Zidong Wang and Yongmin Li(参考訳) 網膜の光学的コヒーレンス・トモグラフィー(OCT)は、網膜解剖の質的3次元可視化による眼の非侵襲的横断スキャンであり、網膜構造と病原体の存在を研究するために用いられる。 網膜octの出現は眼科に変化をもたらしており、眼球浮腫や可逆性盲目を引き起こす緑内障を含む多くの眼病原体の診断、監視、治療に最重要である。 しかし、網膜CT画像の品質はデバイスメーカーによって異なる。 ディープラーニング手法は、医療画像セグメンテーションコミュニティで成功を収めてきたが、成功のレベルが、異なるデバイスベンダーから収集されたOCT画像にまたがって一般化できるかどうかは不明だ。 本研究では nnUNet [8] の2つの変種を提案する。 標準のnnUNetと拡張されたビジョンコールnnUnet_RASPP (nU-Net with residual and Atrous spatial Pyramid Pooling)はいずれも堅牢で、複数のデバイスベンダーの画像間で一貫したハイパフォーマンスで一般化されている。 このアルゴリズムは、3つの医療センターの3つのデバイスベンダーから2つの網膜疾患の患者から取得されたmiccai 2017 retouch challengeデータセット[1]で検証された。 実験結果から,本アルゴリズムは,試験データセット上で,平均ダイススコア(ds)が84.0%,80.0%,83.0%,網膜内流体(irf),サブティル流体(srf),色素上皮剥離(ped)に対して82.3%の明確なマージンで,現在の最先端アルゴリズムを上回った。 また,試験データセット上の3つの流体クラスすべてに対する流体の存在を検出するために,曲線(auc)スコアの下で100%の完全領域を得た。

Retinal Optical Coherence Tomography (OCT), a noninvasive cross-sectional scan of the eye with qualitative 3D visualization of the retinal anatomy is use to study the retinal structure and the presence of pathogens. The advent of the retinal OCT has transformed ophthalmology and it is currently paramount for the diagnosis, monitoring and treatment of many eye pathogens including Macular Edema which impairs vision severely or Glaucoma that can cause irreversible blindness. However the quality of retinal OCT images varies among device manufacturers. Deep Learning methods have had their success in the medical image segmentation community but it is still not clear if the level of success can be generalised across OCT images collected from different device vendors. In this work we propose two variants of the nnUNet [8]. The standard nnUNet and an enhanced vision call nnUnet_RASPP (nnU-Net with residual and Atrous Spatial Pyramid Pooling) both of which are robust and generalise with consistent high performance across images from multiple device vendors. The algorithm was validated on the MICCAI 2017 RETOUCH challenge dataset [1] acquired from 3 device vendors across 3 medical centers from patients suffering from 2 retinal disease types. Experimental results show that our algorithms outperform the current state-of-the-arts algorithms by a clear margin for segmentation obtaining a mean Dice Score (DS) of 82.3% for the 3 retinal fluids scoring 84.0%, 80.0%, 83.0% for Intraretinal Fluid (IRF), Subretinal Fluid (SRF), and Pigment Epithelium Detachments (PED) respectively on the testing dataset. Also we obtained a perfect Area Under the Curve (AUC) score of 100% for the detection of the presence of fluid for all 3 fluid classes on the testing dataset.
翻訳日:2023-02-28 18:21:05 公開日:2023-02-25
# ロボット移動のためのDeepCPGポリシー

DeepCPG Policies for Robot Locomotion ( http://arxiv.org/abs/2302.13191v1 )

ライセンス: Link先を確認
Aditya M. Deshpande and Eric Hurd and Ali A. Minai and Manish Kumar(参考訳) 中枢パターン発生器(cpgs)は、足の動物の移動に対する観察されたリズム行動の神経基盤を形成する。 ネットワークに組織されたCPGダイナミクスは、複雑な移動行動の出現を可能にする。 本研究では,多足歩行ロボットにおける歩行行動の発達にインスピレーションを与える。 我々は,大規模ニューラルネットワークの層としてCPGを組み込んだ新しいDeepCPGポリシーを提案し,深層強化学習(DRL)における移動行動のエンドツーエンド学習を容易にする。 物理エンジンを用いた昆虫型ロボットにおける本手法の有効性を実証する。 従来のアプローチと比較して,高次元センサ空間 (ビジョン) においても,deepcpg ポリシーは効果的なロコモーション戦略のサンプル効率のよいエンドツーエンド学習を可能にする。 我々は,モジュール型ロボット構成とマルチエージェントdrlを用いて,deepcpgポリシーをスケールする。 以上の結果から,ロボットプラットフォーム上でのセンサやモータの統合は,これらのポリシーの組込み先をモジュール方式で段階的に複雑化する可能性が示唆された。 これらの結果は、生物学的原理に基づくより単純なシステムからより複雑なインテリジェントシステムをブートストラップする効果を示す。 最後に,DeepCPGが当初シミュレーションエンジンを用いてポリシーを学習し,その後,追加の微調整を行わずに現実のロボットに移行した概念実証昆虫型ロボットシステムの実験結果を示す。

Central Pattern Generators (CPGs) form the neural basis of the observed rhythmic behaviors for locomotion in legged animals. The CPG dynamics organized into networks allow the emergence of complex locomotor behaviors. In this work, we take this inspiration for developing walking behaviors in multi-legged robots. We present novel DeepCPG policies that embed CPGs as a layer in a larger neural network and facilitate end-to-end learning of locomotion behaviors in deep reinforcement learning (DRL) setup. We demonstrate the effectiveness of this approach on physics engine-based insectoid robots. We show that, compared to traditional approaches, DeepCPG policies allow sample-efficient end-to-end learning of effective locomotion strategies even in the case of high-dimensional sensor spaces (vision). We scale the DeepCPG policies using a modular robot configuration and multi-agent DRL. Our results suggest that gradual complexification with embedded priors of these policies in a modular fashion could achieve non-trivial sensor and motor integration on a robot platform. These results also indicate the efficacy of bootstrapping more complex intelligent systems from simpler ones based on biological principles. Finally, we present the experimental results for a proof-of-concept insectoid robot system for which DeepCPG learned policies initially using the simulation engine and these were afterwards transferred to real-world robots without any additional fine-tuning.
翻訳日:2023-02-28 18:20:23 公開日:2023-02-25
# 述語と対象の曖昧さ

Vagueness in Predicates and Objects ( http://arxiv.org/abs/2302.13189v1 )

ライセンス: Link先を確認
Brandon Bennett and Luc\'ia G\'omez \'Alvarez(参考訳) 古典意味論は、正確な参照対象の固定領域に関して、参照、述語、量化をモデル化できると仮定している。 非論理用語と量子化は、この領域の要素と部分集合の観点で直接解釈される。 我々は、曖昧さ、文脈、定義や意見の多様性などの要因により、この古典的な述語や対象を一般化し、意味の多様性を考慮する方法を模索する。 名前と述語表現の両方は、複数の意味的参照を与えられるか、ある変数のモデルを含む意味的参照と関連付けられる。 本稿では,述語とオブジェクトの両方に関して,いくつかの可変性モードに対応可能な,可変参照セマンティクスという意味論フレームワークを提案する。

Classical semantics assumes that one can model reference, predication and quantification with respect to a fixed domain of precise referent objects. Non-logical terms and quantification are then interpreted directly in terms of elements and subsets of this domain. We explore ways to generalise this classical picture of precise predicates and objects to account for variability of meaning due to factors such as vagueness, context and diversity of definitions or opinions. Both names and predicative expressions can be given either multiple semantic referents or be associated with semantic referents that incorporate some model of variability. We present a semantic framework, Variable Reference Semantics, that can accommodate several modes of variability in relation to both predicates and objects.
翻訳日:2023-02-28 18:20:06 公開日:2023-02-25