このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230422となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# H3+形成における摩擦としての非断熱結合 : 古典的機械的研究 Non-adiabatic coupling as friction in the formation of H3+: A classical mechanical study ( http://arxiv.org/abs/2304.13730v1 ) ライセンス: Link先を確認 | Michael Baer, Soumya Mukherjee, Satyam Ravi, Satrajit Adhikari, Narayanasami Sathyamurthy | (参考訳) ボルン=オッペンハイマー近似を超越し、非断熱結合項(NACT)を分子系の摩擦力と等価に扱うことにより、古典的な運動方程式はH3+のテストケースで解かれる。
基底電子状態に対するab慣性ポテンシャルエネルギー面と、そのnactとh3+の最初の励起状態を用いて、(d+,h2)衝突が十分に遅くなり、安定なdh2+のトラップと形成を生じさせることが示されている。 By going beyond the Born-Oppenheimer approximation and treating the non-adiabatic coupling terms (NACTs) as equivalent to a frictional force in a molecular system, the classical equations of motion are solved for a test case of H3+. Using an ab initio potential energy surface for the ground electronic state and its NACTs with the first excited state of H3+, it is shown that (D+, H2) collisions are slowed enough to result in trapping and formation of a stable DH2+. | 翻訳日:2023-04-30 07:10:28 公開日:2023-04-22 |
# 男性とのインタラクション:スコーピングのレビュー Interacting with Masculinities: A Scoping Review ( http://arxiv.org/abs/2304.13558v1 ) ライセンス: Link先を確認 | Katie Seaborn | (参考訳) ジェンダーは人間とコンピュータの相互作用(HCI)の分野でホットなトピックである。
私たちの計算生成物にジェンダーを埋め込む方法を評価することから、オンラインとオフのシステミック性差別を修正することに至るまで、作業は多岐にわたる。
ジェンダーは女性や女性を中心に構成されることが多いが、私たちは人類の性的な性質を認識し、男性や男らしさの回避を認め、女性や性的な人々を変化の中心的要因やターゲットとして負担することを避ける必要がある。
実際、批判的な声は、特権、権力、家父長の損害だけでなく、参加、複数、そして変革の観点から、男性性への焦点のシフトを要求している。
この目的のために、ACM Human Factors in Computing Systems (CHI) 会議に発行された126の論文のスコーピングレビューを通じて、HCIにおける30年間の男性学の歴史を紹介する。
私は、CHIと既存の文献に根ざしたプライマーとアジェンダを、今後の業務を指揮するために提供します。 Gender is a hot topic in the field of human-computer interaction (HCI). Work has run the gamut, from assessing how we embed gender in our computational creations to correcting systemic sexism, online and off. While gender is often framed around women and femininities, we must recognize the genderful nature of humanity, acknowledge the evasiveness of men and masculinities, and avoid burdening women and genderful folk as the central actors and targets of change. Indeed, critical voices have called for a shift in focus to masculinities, not only in terms of privilege, power, and patriarchal harms, but also participation, plurality, and transformation. To this end, I present a 30-year history of masculinities in HCI work through a scoping review of 126 papers published to the ACM Human Factors in Computing Systems (CHI) conference proceedings. I offer a primer and agenda grounded in the CHI and extant literatures to direct future work. | 翻訳日:2023-04-27 14:10:48 公開日:2023-04-22 |
# クラウドソーシングされたデータセットにおける「i'm」の誤訳 "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets ( http://arxiv.org/abs/2304.13557v1 ) ライセンス: Link先を確認 | Katie Seaborn, Yeongdae Kim | (参考訳) 仮想アシスタントが世界中で普及を続ける中、これらの音声ベースのシステムは様々な言語で自然にコミュニケーションする必要がある。
クラウドソーシングのイニシアチブは、自然言語処理(NLP)で使用する、大規模でオープンなデータセットの多言語翻訳に重点を置いている。
しかし、言語翻訳は一対一ではないことが多く、バイアスが入り込むことがある。
本稿では,クラウドソーシングによるtatoebaデータベースにおいて,英語と日本語間の代名詞の翻訳事例に注目した。
男性代名詞のバイアスは,複数の言語が他の方法で説明されているにもかかわらず,全体的にみられた。
重要な点は,女性,中性,非バイナリ代名詞の存在に対するニュアンス反応を反映した翻訳過程におけるバイアスを検出することである。
我々は代名詞の翻訳バイアスの問題を提起し、複数のNLPデータセットを組み込むための実用的な解決策を提供する。 As virtual assistants continue to be taken up globally, there is an ever-greater need for these speech-based systems to communicate naturally in a variety of languages. Crowdsourcing initiatives have focused on multilingual translation of big, open data sets for use in natural language processing (NLP). Yet, language translation is often not one-to-one, and biases can trickle in. In this late-breaking work, we focus on the case of pronouns translated between English and Japanese in the crowdsourced Tatoeba database. We found that masculine pronoun biases were present overall, even though plurality in language was accounted for in other ways. Importantly, we detected biases in the translation process that reflect nuanced reactions to the presence of feminine, neutral, and/or non-binary pronouns. We raise the issue of translation bias for pronouns and offer a practical solution to embed plurality in NLP data sets. | 翻訳日:2023-04-27 14:10:30 公開日:2023-04-22 |
# 言語のデッドエンドとアルファベットスープ:日本語アプリにおけるダークパターンの探索 Linguistic Dead-Ends and Alphabet Soup: Finding Dark Patterns in Japanese Apps ( http://arxiv.org/abs/2304.12811v1 ) ライセンス: Link先を確認 | Shun Hidaka, Sota Kobuki, Mizuki Watanabe, Katie Seaborn | (参考訳) ダークパターンは、ユーザインターフェースの偽りや悪意のある性質であり、エンドユーザは意図や期待と違うことをする。
現在、クリティカルコンピューティングにおいて重要な話題となっているが、ほとんどの作業は西洋の文脈で行われている。
アプリ市場が急成長している日本は、文化的にも言語的にも、デザイン基準、使用状況、価値観、言語に違いがあり、これらすべてがダークパターンの存在と表現に影響を与える可能性がある。
本研究では,日本市場で人気のモバイルアプリを200種類分析した。
ほとんどのアプリはダークパターンで、1アプリあたり平均3.9であることがわかった。
我々はまた、"Untranslation"と"Alphabet Soup"の形式で"Linguistic Dead-Ends"という新しいダークパターンのクラスを特定した。
デザインと研究の実践,特に今後のダークパターンの異文化研究における意義について概説する。 Dark patterns are deceptive and malicious properties of user interfaces that lead the end-user to do something different from intended or expected. While now a key topic in critical computing, most work has been conducted in Western contexts. Japan, with its booming app market, is a relatively uncharted context that offers culturally- and linguistically-sensitive differences in design standards, contexts of use, values, and language, all of which could influence the presence and expression of dark patterns. In this work, we analyzed 200 popular mobile apps in the Japanese market. We found that most apps had dark patterns, with an average of 3.9 per app. We also identified a new class of dark pattern: "Linguistic Dead-Ends" in the forms of "Untranslation" and "Alphabet Soup." We outline the implications for design and research practice, especially for future cross-cultural research on dark patterns. | 翻訳日:2023-04-26 20:33:32 公開日:2023-04-22 |
# 男性コード」を超越する:NLP文脈における男性ビアーゼの含意 Transcending the "Male Code": Implicit Masculine Biases in NLP Contexts ( http://arxiv.org/abs/2304.12810v1 ) ライセンス: Link先を確認 | Katie Seaborn, Shruti Chandra, Thibault Fabre | (参考訳) 批判的な奨学金は、バーチャルアシスタント(VA)のトレーニングに使われるデータセットにおける性別バイアスの問題を高めている。
多くの研究は言語、特に女性、少女、フェムメを識別する人々、およびジェンダークイマーの民族に対する明確な偏見、単語の埋め込みによる暗黙の関連、特に有毒な男性、性と性別の融合、および女性に対するダイアメトリックとして男性を性/性的な二分的フレーミングに焦点を合わせてきた。
しかし、男性性はどのように言語に"コード化"され、"男性"は言語的デフォルトとして仮定される:暗黙の男性性バイアスである。
そこで我々は2つの自然言語処理(NLP)データセットについて検討した。
ジェンダー言語が存在したとき、性別バイアス、特に男性バイアスもありました。
さらに、これらのバイアスは、NLPコンテキストとニュアンスドな方法で関連付けられている。
我々は、男女間のあいまいな関係を網羅するAVAという新しい辞書を提供する。 Critical scholarship has elevated the problem of gender bias in data sets used to train virtual assistants (VAs). Most work has focused on explicit biases in language, especially against women, girls, femme-identifying people, and genderqueer folk; implicit associations through word embeddings; and limited models of gender and masculinities, especially toxic masculinities, conflation of sex and gender, and a sex/gender binary framing of the masculine as diametric to the feminine. Yet, we must also interrogate how masculinities are "coded" into language and the assumption of "male" as the linguistic default: implicit masculine biases. To this end, we examined two natural language processing (NLP) data sets. We found that when gendered language was present, so were gender biases and especially masculine biases. Moreover, these biases related in nuanced ways to the NLP context. We offer a new dictionary called AVA that covers ambiguous associations between gendered language and the language of VAs. | 翻訳日:2023-04-26 20:33:18 公開日:2023-04-22 |
# 音声アシスタントは可愛く聞こえるか?
川井声楽のモデルに向けて Can Voice Assistants Sound Cute? Towards a Model of Kawaii Vocalics ( http://arxiv.org/abs/2304.12809v1 ) ライセンス: Link先を確認 | Katie Seaborn, Somang Nam, Julia Keckeis, Tatsuya Itagaki | (参考訳) かわいさ・弱さ・魅力の表現である「カワイ」という日本の概念は、世界的な文化輸出である。
作業は、視覚的外観、非言語行動、ロボットと仮想キャラクタの音におけるユーザ体験のデザイン特徴と要因として、カワイイネスを探求してきた。
本研究は, 音声アシスタントの声質, すなわち, 声質について検討することで, 声質が河井であるかどうかを検討するものである。
本研究は, カワイイの年齢差モデルから, 若年者および高齢者のコンピュータ音声のカワイイ性について, ユーザの知覚調査を行った。
その結果, 性別や年齢, 性別があいまい, 少女的, VA的特徴, 流布性, 人工性に交差していることがわかった。
本研究では, 声質, 認知評価, 行動反応, 情緒的報告の識別, 研究を通じて検証すべき川井音声学の初期モデルを提案する。 The Japanese notion of "kawaii" or expressions of cuteness, vulnerability, and/or charm is a global cultural export. Work has explored kawaii-ness as a design feature and factor of user experience in the visual appearance, nonverbal behaviour, and sound of robots and virtual characters. In this initial work, we consider whether voices can be kawaii by exploring the vocal qualities of voice assistant speech, i.e., kawaii vocalics. Drawing from an age-inclusive model of kawaii, we ran a user perceptions study on the kawaii-ness of younger- and older-sounding Japanese computer voices. We found that kawaii-ness intersected with perceptions of gender and age, i.e., gender ambiguous and girlish, as well as VA features, i.e., fluency and artificiality. We propose an initial model of kawaii vocalics to be validated through the identification and study of vocal qualities, cognitive appraisals, behavioural responses, and affective reports. | 翻訳日:2023-04-26 20:32:59 公開日:2023-04-22 |
# N2G:大規模言語モデルにおける解釈可能なニューロン表現の量子化のためのスケーラブルなアプローチ N2G: A Scalable Approach for Quantifying Interpretable Neuron Representations in Large Language Models ( http://arxiv.org/abs/2304.12918v1 ) ライセンス: Link先を確認 | Alex Foote, Neel Nanda, Esben Kran, Ionnis Konstas, Fazl Barez | (参考訳) 言語モデルにおける個々のニューロンの機能を理解することは、機械的解釈可能性の研究に不可欠である。
我々は、ニューロンとそのデータセットの例を取り出すツールである$\textbf{Neuron to Graph (N2G)}$を提案し、それらの例のニューロンの振る舞いを自動的に解釈可能なグラフに蒸留する。
これは、現在の手動メソッドよりもニューロンを解釈するための労働集約的なアプローチを示し、これらのメソッドを大規模言語モデル(llm)にスケールする。
我々は,重要なトークンのみを表示するために切断法と塩分法を使用し,より多様なサンプルを用いてデータセットの例を補足し,ニューロンの行動の程度をよりよく把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
N2Gは、LLM内のニューロンを可測品質の解釈可能な表現に変換することにより、スケーラブルな解釈可能性手法への一歩である。 Understanding the function of individual neurons within language models is essential for mechanistic interpretability research. We propose $\textbf{Neuron to Graph (N2G)}$, a tool which takes a neuron and its dataset examples, and automatically distills the neuron's behaviour on those examples to an interpretable graph. This presents a less labour intensive approach to interpreting neurons than current manual methods, that will better scale these methods to Large Language Models (LLMs). We use truncation and saliency methods to only present the important tokens, and augment the dataset examples with more diverse samples to better capture the extent of neuron behaviour. These graphs can be visualised to aid manual interpretation by researchers, but can also output token activations on text to compare to the neuron's ground truth activations for automatic validation. N2G represents a step towards scalable interpretability methods by allowing us to convert neurons in an LLM to interpretable representations of measurable quality. | 翻訳日:2023-04-26 20:06:38 公開日:2023-04-22 |
# 2層ワイドニューラルネットワークを用いた平均正方形誤差回帰に対するグラディエントDescentのインプリシトバイアス Implicit Bias of Gradient Descent for Mean Squared Error Regression with Two-Layer Wide Neural Networks ( http://arxiv.org/abs/2006.07356v4 ) ライセンス: Link先を確認 | Hui Jin, Guido Mont\'ufar | (参考訳) 広帯域ニューラルネットワークの勾配降下訓練とそれに対応する関数空間の暗黙バイアスについて検討する。
不定回帰の場合、幅=n$の浅いreluネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n^{- 1/2}$以内であり、その初期関数との差は、ネットワークパラメータの初期化に使用される確率分布に依存する曲率ペナルティによって重み付けられた第2導関数の最小の2-ノルムである。
様々な共通初期化手順の曲率ペナルティ関数を明示的に計算する。
例えば、一様分布を持つ非対称初期化は一定曲率のペナルティをもたらし、従って解関数は訓練データの自然な立方体スプライン補間である。
確率的勾配降下では、同じ暗黙のバイアス結果が得られる。
} 異なるアクティベーション関数に対して同様の結果が得られる。
多変量回帰に対しては類似の結果を示し、第二微分は分数ラプラシアンのラドン変換に置き換えられる。
一定のペナルティ関数をもたらす初期化スキームに対して、解は多調和スプラインである。
また, トレーニングトラジェクタを平滑化スプラインの軌道に捕捉し, 正則化強度を低下させることを示した。 We investigate gradient descent training of wide neural networks and the corresponding implicit bias in function space. For univariate regression, we show that the solution of training a width-$n$ shallow ReLU network is within $n^{- 1/2}$ of the function which fits the training data and whose difference from the initial function has the smallest 2-norm of the second derivative weighted by a curvature penalty that depends on the probability distribution that is used to initialize the network parameters. We compute the curvature penalty function explicitly for various common initialization procedures. For instance, asymmetric initialization with a uniform distribution yields a constant curvature penalty, and thence the solution function is the natural cubic spline interpolation of the training data. \hj{For stochastic gradient descent we obtain the same implicit bias result.} We obtain a similar result for different activation functions. For multivariate regression we show an analogous result, whereby the second derivative is replaced by the Radon transform of a fractional Laplacian. For initialization schemes that yield a constant penalty function, the solutions are polyharmonic splines. Moreover, we show that the training trajectories are captured by trajectories of smoothing splines with decreasing regularization strength. | 翻訳日:2023-04-26 01:57:31 公開日:2023-04-22 |
# 量子デバイスにおける量子ウォーク過程 Quantum walk processes in quantum devices ( http://arxiv.org/abs/2012.14386v2 ) ライセンス: Link先を確認 | Anandu Kalleri Madhu, Alexey A. Melnikov, Leonid E. Fedichkin, Alexander Alodjants, Ray-Kuang Lee | (参考訳) NISQ(Noisy Intermediate-Scale Quantum)デバイスとしての現在の量子コンピュータのシミュレーションとプログラミングは、現在の物理科学と情報科学の境界におけるホットトピックである。
量子ウォーク過程は多くの量子アルゴリズムにおいて基本的なサブルーチンを表し、物理現象の研究において重要な役割を果たす。
量子ウォーク過程のシミュレーションは古典プロセッサでは計算が難しい。
単一レジスタにおける量子ビットの忠実度と量子ビット数の改善により、量子ウォークシミュレーションを大幅に改善する可能性がある。
しかし、量子ウォークを量子レジスタでシミュレートする効率的な方法はまだ検討される必要がある。
ここでは,グラフ上の量子ウォークと量子回路の関係を考察する。
まず,量子回路を用いたグラフの取得法について検討する。
次に、グラフ上の量子ウォークを量子回路として表現する手法を探る。
具体的にはハイパーキューブグラフと任意のグラフについて検討する。
グラフと量子回路の関係を研究するアプローチは,量子コンピュータ上での量子ウォークアルゴリズムの効率的な実装に有効である。 Simulation and programming of current quantum computers as Noisy Intermediate-Scale Quantum (NISQ) devices represent a hot topic at the border of current physical and information sciences. The quantum walk process represents a basic subroutine in many quantum algorithms and plays an important role in studying physical phenomena. Simulating quantum walk processes is computationally challenging for classical processors. With an increasing improvement in qubits fidelity and qubits number in a single register, there is a potential to improve quantum walks simulations substantially. However, efficient ways to simulate quantum walks in qubit registers still have to be explored. Here, we explore the relationship between quantum walk on graphs and quantum circuits. Firstly, we discuss ways to obtain graphs provided quantum circuit. We then explore techniques to represent quantum walk on a graph as a quantum circuit. Specifically, we study hypercube graphs and arbitrary graphs. Our approach to studying the relationship between graphs and quantum circuits paves way for the efficient implementation of quantum walks algorithms on quantum computers. | 翻訳日:2023-04-26 01:21:58 公開日:2023-04-22 |
# データ品質問題に対するニューラルネットワークロバスト性向上のための変調層 A Modulation Layer to Increase Neural Network Robustness Against Data Quality Issues ( http://arxiv.org/abs/2107.08574v4 ) ライセンス: Link先を確認 | Mohamed Abdelhack, Jiaming Zhang, Sandhya Tripathi, Bradley A Fritz, Daniel Felsky, Michael S Avidan, Yixin Chen, Christopher R King | (参考訳) データ不足と品質は機械学習における一般的な問題であり、特に医療などの高度なアプリケーションにおいて問題となる。
開発者はしばしば、高品質のデータのみを使用して、慎重にキュレートされたデータセット上で機械学習モデルをトレーニングする。
本稿では,完全連結層の固定重みを付加入力の関数に置き換えることを含む,低品質で欠落したデータの影響を軽減するための新しいニューラルネットワーク修正を提案する。
これは、ニューロンの信頼性と他のデータの存在に基づいて、皮質が入力を上下に調整できる生物学的ニューラルネットワークの神経変調にインスパイアされている。
テストでは、信頼性スコアを変調信号として、変調層を持つモデルは、さらなる欠如を含むデータ品質の劣化に対してより堅牢であることが判明した。
これらのモデルは、インプテーションプロセスを完全にスキップすることでトレーニング時間を節約し、インプテーションが処理できない他のデータ品質指標の導入を可能にするので、インプテーションよりも優れている。
この結果から, 情報品質の低減を全接続層で明示的に考慮することにより, リアルタイムアプリケーションへの人工知能システムの展開が可能であることが示唆された。 Data missingness and quality are common problems in machine learning, especially for high-stakes applications such as healthcare. Developers often train machine learning models on carefully curated datasets using only high quality data; however, this reduces the utility of such models in production environments. We propose a novel neural network modification to mitigate the impacts of low quality and missing data which involves replacing the fixed weights of a fully-connected layer with a function of an additional input. This is inspired from neuromodulation in biological neural networks where the cortex can up- and down-regulate inputs based on their reliability and the presence of other data. In testing, with reliability scores as a modulating signal, models with modulating layers were found to be more robust against degradation of data quality, including additional missingness. These models are superior to imputation as they save on training time by completely skipping the imputation process and further allow the introduction of other data quality measures that imputation cannot handle. Our results suggest that explicitly accounting for reduced information quality with a modulating fully connected layer can enable the deployment of artificial intelligence systems in real-time applications. | 翻訳日:2023-04-26 01:00:50 公開日:2023-04-22 |
# 3次元表面解析のための連続フィルタによるメッシュ畳み込み Mesh Convolution with Continuous Filters for 3D Surface Parsing ( http://arxiv.org/abs/2112.01801v3 ) ライセンス: Link先を確認 | Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian | (参考訳) 3次元曲面の幾何学的特徴学習は、コンピュータグラフィックスや3dビジョンの多くの応用において重要である。
しかし、現在ディープラーニングは、必要な操作の欠如や効率的な実装のために、3D表面の階層的モデリングに遅れている。
本稿では,3次元トライアングルメッシュからの効果的な幾何学的特徴学習のための一連のモジュラー演算を提案する。
これらの操作には、新しいメッシュ畳み込み、効率的なメッシュデシメーション、関連するメッシュ(un)プールが含まれる。
メッシュ畳み込みは球面調和を正規直交基底として連続畳み込みフィルタを作成する。
メッシュデシメーションモジュールはGPUアクセラレーションされ、バッチ処理されたメッシュをオンザフライで処理できる。
われわれはこれらの操作をオープンソースで実装し、Picassoと呼ぶ。
Picassoは異種メッシュバッチ処理と処理をサポートする。
モジュラー操作を活用することで、PicassoNet++という名前の3次元表面の知覚解析のための新しい階層型ニューラルネットワークを提供する。
顕著な3Dベンチマークで形状解析とシーンセグメンテーションにおいて高い競争力を発揮する。
コード、データ、トレーニングされたモデルはhttps://github.com/EnyaHermite/Picasso.comで入手できる。 Geometric feature learning for 3D surfaces is critical for many applications in computer graphics and 3D vision. However, deep learning currently lags in hierarchical modeling of 3D surfaces due to the lack of required operations and/or their efficient implementations. In this paper, we propose a series of modular operations for effective geometric feature learning from 3D triangle meshes. These operations include novel mesh convolutions, efficient mesh decimation and associated mesh (un)poolings. Our mesh convolutions exploit spherical harmonics as orthonormal bases to create continuous convolutional filters. The mesh decimation module is GPU-accelerated and able to process batched meshes on-the-fly, while the (un)pooling operations compute features for up/down-sampled meshes. We provide open-source implementation of these operations, collectively termed Picasso. Picasso supports heterogeneous mesh batching and processing. Leveraging its modular operations, we further contribute a novel hierarchical neural network for perceptual parsing of 3D surfaces, named PicassoNet++. It achieves highly competitive performance for shape analysis and scene segmentation on prominent 3D benchmarks. The code, data and trained models are available at https://github.com/EnyaHermite/Picasso. | 翻訳日:2023-04-26 00:52:52 公開日:2023-04-22 |
# PatchCensor: エクササイズテストによるトランスフォーマーのパッチロバストネス認定 PatchCensor: Patch Robustness Certification for Transformers via Exhaustive Testing ( http://arxiv.org/abs/2111.10481v3 ) ライセンス: Link先を確認 | Yuheng Huang, Lei Ma, Yuanchun Li | (参考訳) 視覚トランスフォーマー(vit)は他の古典的ニューラルネットワークと同様に高度に非線形であることが知られており、自然と逆のパッチの摂動によって容易に騙される可能性がある。
この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。
本研究では,徹底的なテストを適用することで,ViTのパッチ堅牢性を証明することを目的としたPatchCensorを提案する。
最悪のパッチ攻撃シナリオを考慮して、証明可能な保証を提供しようとしています。
適応的に違反する可能性のある敵パッチに対する経験的防御とは異なり、認証された堅牢なアプローチは、特定の条件下で任意の攻撃に対して認証された精度を提供することができる。
しかし、既存の堅牢性認定は主に堅牢なトレーニングに基づいているため、かなりのトレーニング努力と通常のサンプルに対するモデルパフォーマンスの犠牲がしばしば必要である。
ギャップを埋めるために、PatchCensorは、頑健なモデルをトレーニングする代わりに異常な入力を検出し、必然的に精度を損なう可能性のある全ての入力に対して信頼性の高い結果を与えるよう要求することで、システム全体の堅牢性を改善することを目指している。
具体的には、各入力は、異なる変更された注目マスクを持つ複数の推論に投票することでテストされる。
これは完全なカバレッジテストと見ることができ、テスト時の推論に関する統計的保証を提供することができる。
我々の総合評価は、PatchCensorが高い認証精度(例えば、2%ピクセルの対向パッチでImageNetで67.1%)を達成できることを示し、同じクリーンな精度(画像Netで81.8%)を達成しつつ、最先端技術を大幅に上回っている。
また,マスキング戦略を単純に変更することで,異なるパッチサイズ(最大25%)を処理するための柔軟な構成もサポートする。 Vision Transformer (ViT) is known to be highly nonlinear like other classical neural networks and could be easily fooled by both natural and adversarial patch perturbations. This limitation could pose a threat to the deployment of ViT in the real industrial environment, especially in safety-critical scenarios. In this work, we propose PatchCensor, aiming to certify the patch robustness of ViT by applying exhaustive testing. We try to provide a provable guarantee by considering the worst patch attack scenarios. Unlike empirical defenses against adversarial patches that may be adaptively breached, certified robust approaches can provide a certified accuracy against arbitrary attacks under certain conditions. However, existing robustness certifications are mostly based on robust training, which often requires substantial training efforts and the sacrifice of model performance on normal samples. To bridge the gap, PatchCensor seeks to improve the robustness of the whole system by detecting abnormal inputs instead of training a robust model and asking it to give reliable results for every input, which may inevitably compromise accuracy. Specifically, each input is tested by voting over multiple inferences with different mutated attention masks, where at least one inference is guaranteed to exclude the abnormal patch. This can be seen as complete-coverage testing, which could provide a statistical guarantee on inference at the test time. Our comprehensive evaluation demonstrates that PatchCensor is able to achieve high certified accuracy (e.g. 67.1% on ImageNet for 2%-pixel adversarial patches), significantly outperforming state-of-the-art techniques while achieving similar clean accuracy (81.8% on ImageNet). Meanwhile, our technique also supports flexible configurations to handle different adversarial patch sizes (up to 25%) by simply changing the masking strategy. | 翻訳日:2023-04-26 00:52:21 公開日:2023-04-22 |
# 隠れた量子メモリ:誰かが見た時にメモリは存在するか? Hidden Quantum Memory: Is Memory There When Somebody Looks? ( http://arxiv.org/abs/2204.08298v3 ) ライセンス: Link先を確認 | Philip Taranto and Thomas J. Elliott and Simon Milz | (参考訳) 古典物理学では、メモリレス力学とマルコフ統計は同じである。
これは量子力学には当てはまらない、なぜなら量子測定は侵入的だからである。
ここでは、測定の侵襲性を超えて、古典的および量子的プロセス、すなわち隠れた量子メモリの可能性を区別する。
While Markovian statistics of classical processes can always be reproduced by a memoryless dynamical model, our main result shows that this is not true in quantum mechanics: We first provide an example of quantum non-Markovianity whose manifestation depends on whether or not a previous measurement is performed -- an impossible phenomenon for memoryless dynamics; we then strengthen this result by demonstrating statistics that are Markovian independent of how they are probed, but are nonetheless still incompatible with memoryless quantum dynamics.
そこで我々は,その生成にメモリを必要とする量子過程を探究し,マルコフ統計の存在を立証する。 In classical physics, memoryless dynamics and Markovian statistics are one and the same. This is not true for quantum dynamics, first and foremost because quantum measurements are invasive. Going beyond measurement invasiveness, here we derive a novel distinction between classical and quantum processes, namely the possibility of hidden quantum memory. While Markovian statistics of classical processes can always be reproduced by a memoryless dynamical model, our main result shows that this is not true in quantum mechanics: We first provide an example of quantum non-Markovianity whose manifestation depends on whether or not a previous measurement is performed -- an impossible phenomenon for memoryless dynamics; we then strengthen this result by demonstrating statistics that are Markovian independent of how they are probed, but are nonetheless still incompatible with memoryless quantum dynamics. Thus, we establish the existence of Markovian statistics gathered by probing a quantum process that nevertheless fundamentally require memory for their creation. | 翻訳日:2023-04-26 00:36:12 公開日:2023-04-22 |
# プログラマブル量子シミュレータにおけるトポロジカルマヨナモードの観測とブレイディング Observing and braiding topological Majorana modes on programmable quantum simulators ( http://arxiv.org/abs/2203.15083v2 ) ライセンス: Link先を確認 | Nikhil Harle, Oles Shtanko, Ramis Movassagh | (参考訳) 電子は不可分な素粒子であるが、パラドックス的にそれらの集まりは単一の電子の分数として作用し、エキゾチックで有用な性質を示す。
トポロジカル・マヨラナモード(英語版)として知られるそのような集合的励起は、望ましくない局所雑音などの摂動に対して自然に安定であり、量子情報を堅牢に保存することができる。
そのため、マヨラナモードはトポロジカル量子コンピューティングの基本的なプリミティブとして機能し、エラーに対するレジリエンスを提供する。
しかし、量子ハードウェアでのデモはいまだに解明されていない。
本稿では,超伝導量子プロセッサを量子シミュレータとして用いたトポロジカルマヨラナモードの同定とブレイディングを実証する。
周期駆動を受ける一次元格子上のフェルミオンをシミュレートすることにより、エッジに局在したマヨラナモードの存在を確認し、他の自明なモードと区別する。
ブレイディングとして知られるトポロジカル量子コンピューティングの基本的な論理演算をシミュレートするために,実験において正確なブレイディング統計量を示す非断熱的手法を提案する。
この研究はさらに、回路ベースのシミュレーションを用いて物質のトポロジカルモデルの研究に利用することができ、クラウドで動く量子シミュレーションの誰にでも長期の量子現象が実現可能であることを示した。 Electrons are indivisible elementary particles, yet paradoxically a collection of them can act as a fraction of a single electron, exhibiting exotic and useful properties. One such collective excitation, known as a topological Majorana mode, is naturally stable against perturbations, such as unwanted local noise, and can thereby robustly store quantum information. As such, Majorana modes serve as the basic primitive of topological quantum computing, providing resilience to errors. However, their demonstration on quantum hardware has remained elusive. Here, we demonstrate a verifiable identification and braiding of topological Majorana modes using a superconducting quantum processor as a quantum simulator. By simulating fermions on a one-dimensional lattice subject to a periodic drive, we confirm the existence of Majorana modes localized at the edges, and distinguish them from other trivial modes. To simulate a basic logical operation of topological quantum computing known as braiding, we propose a non-adiabatic technique, whose implementation reveals correct braiding statistics in our experiments. This work could further be used to study topological models of matter using circuit-based simulations, and shows that long-sought quantum phenomena can be realized by anyone in cloud-run quantum simulations, whereby accelerating fundamental discoveries in quantum science and technology. | 翻訳日:2023-04-26 00:34:25 公開日:2023-04-22 |
# TFLEX: 時間的知識グラフを用いた複雑な推論のための時間的特徴論理埋め込みフレームワーク TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph ( http://arxiv.org/abs/2205.14307v2 ) ライセンス: Link先を確認 | Xueyuan Lin, Chengjin Xu, Haihong E, Fenglong Su, Gengxian Zhou, Tianyi Hu, Ningyuan Li, Mingzhi Sun, Haoran Luo | (参考訳) 知識グラフ(KG)に対するマルチホップ論理推論は、多くの人工知能タスクにおいて基本的な役割を果たす。
静的なKGを推論するための最近の複雑なクエリ埋め込み(CQE)手法は、時間的知識グラフ(TKG)が完全には研究されていない。
TKGに対する推論には2つの課題がある。
1. クエリはエンティティやタイムスタンプに答えるべきです。
2. 演算子は、エンティティセット上のセットロジックとタイムスタンプセット上の時間ロジックの両方を考慮するべきである。
このギャップを埋めるために、TKGのマルチホップ論理的推論問題を定義する。
生成した3つのデータセットから,時間的複雑なクエリに対応するための時間的特徴論理埋め込みフレームワークTFLEXを提案する。
ベクトル論理を用いて時間的特徴論理埋め込みの論理部分を計算し、エンティティセット上の一階論理(FOL)の全ての操作を自然にモデル化する。
さらに,タイムスタンプセット上のベクトル論理を拡張し,(後,前,間)3つの余分な時間演算子に対応する。
多数のクエリパターンの実験により,本手法の有効性が示された。 Multi-hop logical reasoning over knowledge graph (KG) plays a fundamental role in many artificial intelligence tasks. Recent complex query embedding (CQE) methods for reasoning focus on static KGs, while temporal knowledge graphs (TKGs) have not been fully explored. Reasoning over TKGs has two challenges: 1. The query should answer entities or timestamps; 2. The operators should consider both set logic on entity set and temporal logic on timestamp set. To bridge this gap, we define the multi-hop logical reasoning problem on TKGs. With generated three datasets, we propose the first temporal CQE named Temporal Feature-Logic Embedding framework (TFLEX) to answer the temporal complex queries. We utilize vector logic to compute the logic part of Temporal Feature-Logic embeddings, thus naturally modeling all First-Order Logic (FOL) operations on entity set. In addition, our framework extends vector logic on timestamp set to cope with three extra temporal operators (After, Before and Between). Experiments on numerous query patterns demonstrate the effectiveness of our method. | 翻訳日:2023-04-26 00:25:23 公開日:2023-04-22 |
# レーダネットワーク構成のための自動アルゴリズム選択 Automated Algorithm Selection for Radar Network Configuration ( http://arxiv.org/abs/2205.03670v2 ) ライセンス: Link先を確認 | Quentin Renau, Johann Dreo, Alain Peres, Yann Semet, Carola Doerr, Benjamin Doerr | (参考訳) レーダーネットワークの構成は複雑な問題であり、シミュレータの助けを借りて専門家が手動で行うことが多い。
レーダの数や種類、およびレーダがカバーすべき異なる位置は、レーダ構成の問題の異なる事例を引き起こす。
これらのインスタンスの正確なモデリングは複雑であり、構成の質は、多数のパラメータ、内部レーダー処理、レーダーを配置する必要がある地形に依存する。
したがって、古典的な最適化アルゴリズムはこの問題には適用できず、我々は「試行錯誤」ブラックボックスアプローチに依存している。
本稿では、153のレーダネットワーク構成問題インスタンス上での13のブラックボックス最適化アルゴリズムの性能について検討する。
アルゴリズムは人間の専門家よりかなり優れている。
しかし、それらのランキングは、評価可能な構成の予算と、位置の標高プロファイルに依存する。
また,自動アルゴリズム選択手法についても検討する。
その結果,地形の標高からインスタンスの特徴を抽出するパイプラインは,目的関数から特徴を抽出する古典的,はるかに高価なアプローチと同等に動作することがわかった。 The configuration of radar networks is a complex problem that is often performed manually by experts with the help of a simulator. Different numbers and types of radars as well as different locations that the radars shall cover give rise to different instances of the radar configuration problem. The exact modeling of these instances is complex, as the quality of the configurations depends on a large number of parameters, on internal radar processing, and on the terrains on which the radars need to be placed. Classic optimization algorithms can therefore not be applied to this problem, and we rely on "trial-and-error" black-box approaches. In this paper, we study the performances of 13 black-box optimization algorithms on 153 radar network configuration problem instances. The algorithms perform considerably better than human experts. Their ranking, however, depends on the budget of configurations that can be evaluated and on the elevation profile of the location. We therefore also investigate automated algorithm selection approaches. Our results demonstrate that a pipeline that extracts instance features from the elevation of the terrain performs on par with the classical, far more expensive approach that extracts features from the objective function. | 翻訳日:2023-04-26 00:24:33 公開日:2023-04-22 |
# プライバシーポリシーに対する質問応答のための検索データ強化 Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies ( http://arxiv.org/abs/2204.08952v3 ) ライセンス: Link先を確認 | Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang | (参考訳) プライバシポリシに関する以前の研究では、質問応答(QA)タスクは、ユーザクエリが与えられたポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを特定するものである。
既存のラベル付きデータセットは(いくつかの関連するセグメントのみ)非常に不均衡であり、このドメインでのQAパフォーマンスを制限する。
本稿では,ラベルなしのポリシー文書から関連するテキストセグメントをキャプチャし,トレーニングセットのポジティブな例を拡張する,センセンシングレトリバーモデルに基づくデータ拡張フレームワークを開発した。
さらに、拡張データの多様性と品質を改善するために、複数の事前学習言語モデル(LM)を活用し、ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10 % F1)で高め、新しい最先端のF1スコア(50 %)を達成する。
我々のアブレーション研究は、我々のアプローチの有効性に関するさらなる洞察を提供する。 Prior studies in privacy policies frame the question answering (QA) task as identifying the most relevant text segment or a list of sentences from a policy document given a user query. Existing labeled datasets are heavily imbalanced (only a few relevant segments), limiting the QA performance in this domain. In this paper, we develop a data augmentation framework based on ensembling retriever models that captures the relevant text segments from unlabeled policy documents and expand the positive examples in the training set. In addition, to improve the diversity and quality of the augmented data, we leverage multiple pre-trained language models (LMs) and cascade them with noise reduction filter models. Using our augmented data on the PrivacyQA benchmark, we elevate the existing baseline by a large margin (10\% F1) and achieve a new state-of-the-art F1 score of 50\%. Our ablation studies provide further insights into the effectiveness of our approach. | 翻訳日:2023-04-26 00:23:26 公開日:2023-04-22 |
# ディラック物質のビームスプリッターと導波路を用いた電子量子光学 Electron quantum optics with beam splitters and waveguides in Dirac Matter ( http://arxiv.org/abs/2204.08305v2 ) ライセンス: Link先を確認 | Michael Forrester and Fedor Kusmartsev | (参考訳) 電子は粒子と波の両方として振る舞う。
このため、光子と同じような方法で制御することができ、下層のフェルミ海が最小限に励起されている場合、電子デバイスは光に基づくものと類似して設計することができる。
ここで、電子波動関数の分裂は、グラフェンに焦点を置きながら相対論的に記述されたトポロジカル絶縁体、液体ヘリウム、その他の系における電子状態に等しく適用できるディラック型物理学をサポートするシステムのために検討される。
電子ビームスプリッターとスーパーフォーカスはナノリボンの伝播とともに分析され、波形、系形状、エネルギーはすべて、確率密度を最大化するためにバランスをとる必要があることを示した。
これらの発見は、新しい量子電子光学の基礎となる。 An electron behaves as both a particle and a wave. On account of this it can be controlled in a similar way to a photon and electronic devices can be designed in analogy to those based on light when there is minimal excitation of the underlying Fermi sea. Here splitting of the electron wavefunction is explored for systems supporting Dirac type physics, with a focus on graphene but being equally applicable to electronic states in topological insulators, liquid helium, and other systems described relativistically. Electron beam-splitters and superfocusers are analysed along with propagation through nanoribbons, demonstrating that the waveform, system geometry, and energies all need to balance to maximise the probability density and hence lifetime of the flying electron. These findings form the basis for novel quantum electron optics. | 翻訳日:2023-04-26 00:23:09 公開日:2023-04-22 |
# 医療用OOD検出器を校正するInlier and Outlierの構築 Know Your Space: Inlier and Outlier Construction for Calibrating Medical OOD Detectors ( http://arxiv.org/abs/2207.05286v2 ) ライセンス: Link先を確認 | Vivek Narayanaswamy, Yamen Mubarka, Rushil Anirudh, Deepta Rajan, Andreas Spanias and Jayaraman J. Thiagarajan | (参考訳) 本稿では,医用画像分類器の安全な配置を実現するために,配電体外分布検知器(OOD)の開発に焦点をあてる。
適切なキャリブレーションデータセットのキュレーションの困難さに動機づけられた合成拡張は、異常値/外れ値仕様において非常に広く使われている。
データ拡張技術は急速な進歩を遂げてきたが、本論文は、ood検出器のキャリブレーションにおいて、拡張のタイプに加えて、イリアーと外れ値が合成される空間が重要な役割を担っていることを示す。
一般的なエネルギーベースOOD検出フレームワークを用いて,様々な画素空間外値とともに潜時空間不整合を合成することが最適プロトコルであることがわかった。
複数の医用画像ベンチマークによる実証研究に基づいて,我々は,様々なオープンセット認識設定における最先端のOOD検出(AUROCでは15.5%~35.%)を一貫して行うことを実証した。 We focus on the problem of producing well-calibrated out-of-distribution (OOD) detectors, in order to enable safe deployment of medical image classifiers. Motivated by the difficulty of curating suitable calibration datasets, synthetic augmentations have become highly prevalent for inlier/outlier specification. While there have been rapid advances in data augmentation techniques, this paper makes a striking finding that the space in which the inliers and outliers are synthesized, in addition to the type of augmentation, plays a critical role in calibrating OOD detectors. Using the popular energy-based OOD detection framework, we find that the optimal protocol is to synthesize latent-space inliers along with diverse pixel-space outliers. Based on empirical studies with multiple medical imaging benchmarks, we demonstrate that our approach consistently leads to superior OOD detection ($15\% - 35\%$ in AUROC) over the state-of-the-art in a variety of open-set recognition settings. | 翻訳日:2023-04-26 00:05:57 公開日:2023-04-22 |
# 生物学的に可塑性な学習規則と接続に基づく教師なしSTDPスパイキングニューラルネットワーク An Unsupervised STDP-based Spiking Neural Network Inspired By Biologically Plausible Learning Rules and Connections ( http://arxiv.org/abs/2207.02727v2 ) ライセンス: Link先を確認 | Yiting Dong, Dongcheng Zhao, Yang Li, Yi Zeng | (参考訳) バックプロパゲーションアルゴリズムはディープラーニングの急速な発展を促進しているが、大量のラベル付きデータに依存しており、人間の学習方法に大きなギャップがある。
人間の脳は、人間の脳内の様々な学習規則や構造を調整することで、自己組織的で教師なしの方法で様々な概念的知識を迅速に学習することができる。
スパイク刺激依存性可塑性(STDP)は脳の一般的な学習規則であるが、STDPだけで訓練されたスパイクニューラルネットワーク(SNN)は非効率であり、性能が良くない。
本稿では,短期的なシナプス可塑性から着想を得て適応的なシナプスフィルタを設計し,適応的なスパイキング閾値をニューロン可塑性として導入し,snsの表現能力を高める。
また、スパイクバランスを動的に調整し、ネットワークがより豊かな特徴を学ぶのに役立つ適応的な側方抑制接続を導入する。
教師なしスパイクニューラルネットワークのトレーニングの高速化と安定化を目的として,複数のサンプルとモーメントに基づいて重みを更新するサンプル時間バッチSTDP(STB-STDP)を設計した。
上記の3つの適応機構とstb-stdpを統合することで,非教師付きスパイクニューラルネットワークのトレーニングを高速化し,複雑なタスクにおける教師なしsnsの性能を向上させる。
MNISTおよびFashionMNISTデータセットにおける教師なしSTDPベースのSNNの最先端性能を実現する。
さらに,より複雑なCIFAR10データセットを検証した結果,アルゴリズムの優位性を十分に示している。
我々のモデルは、教師なしSTDPベースのSNNをCIFAR10に適用する最初の試みでもある。
同時に、小さなサンプル学習シナリオでは、同じ構造を用いる教師付きANNをはるかに超えます。 The backpropagation algorithm has promoted the rapid development of deep learning, but it relies on a large amount of labeled data and still has a large gap with how humans learn. The human brain can quickly learn various conceptual knowledge in a self-organized and unsupervised manner, accomplished through coordinating various learning rules and structures in the human brain. Spike-timing-dependent plasticity (STDP) is a general learning rule in the brain, but spiking neural networks (SNNs) trained with STDP alone is inefficient and perform poorly. In this paper, taking inspiration from short-term synaptic plasticity, we design an adaptive synaptic filter and introduce the adaptive spiking threshold as the neuron plasticity to enrich the representation ability of SNNs. We also introduce an adaptive lateral inhibitory connection to adjust the spikes balance dynamically to help the network learn richer features. To speed up and stabilize the training of unsupervised spiking neural networks, we design a samples temporal batch STDP (STB-STDP), which updates weights based on multiple samples and moments. By integrating the above three adaptive mechanisms and STB-STDP, our model greatly accelerates the training of unsupervised spiking neural networks and improves the performance of unsupervised SNNs on complex tasks. Our model achieves the current state-of-the-art performance of unsupervised STDP-based SNNs in the MNIST and FashionMNIST datasets. Further, we tested on the more complex CIFAR10 dataset, and the results fully illustrate the superiority of our algorithm. Our model is also the first work to apply unsupervised STDP-based SNNs to CIFAR10. At the same time, in the small-sample learning scenario, it will far exceed the supervised ANN using the same structure. | 翻訳日:2023-04-26 00:05:03 公開日:2023-04-22 |
# NLGツールを用いた創造的文章作成のためのEFL学生のアイデア生成戦略の理解 Understanding EFL Student Idea Generation Strategies for Creative Writing with NLG Tools ( http://arxiv.org/abs/2207.01484v3 ) ライセンス: Link先を確認 | David James Woo, Yanzhi Wang, Hengky Susanto, Kai Guo | (参考訳) 自然言語生成(英: Natural Language generation、NLG)とは、コンピュータシステムが情報から人間の理解可能な言語テキストを生成する人工知能のプロセスである。
外国語としての英語(英語版) (EFL) の学生がNLGツールを使うことは、創造的執筆の基礎となるアイデア生成を促進する可能性がある。
しかし、EFLの学生がNLGツールとどのように相互作用してアイデアを生み出すかについてはほとんど分かっていない。
本研究では,NLGツールを用いたアイデア検索,NLGツールによるアイデア評価,アイデア生成のためのNLGツールの選択において,EFL学生が採用する戦略を検討する。
4人の香港中学生がワークショップに参加し、nlgツールで生成された単語と単語からなるストーリーを書くことを学びました。
ワークショップの後、彼らはNLGツールを使った執筆経験を反映する質問に答えた。
論文のリフレクションをテーマとして分析した結果,NLGツールを用いたアイデア検索やアイデア評価において,学生が既存のアイデアを持つ可能性があることがわかった。
学生は、nlgツールによって生み出されたアイデアに対する嫌悪を示し、より多くのアイデアを生み出すnlgツールを選択した。
本研究は,アイデア生成にnlgツールを使用する場合のefl学生の関心事に対する理解を深め,授業クリエイティブライティングのためのnlgツールの実装を教育者の指導に伝える。 Natural language generation (NLG) is a process within artificial intelligence where computer systems produce human-comprehensible language texts from information. English as a foreign language (EFL) students' use of NLG tools might facilitate their idea generation, which is fundamental to creative writing. However, little is known about how EFL students interact with NLG tools to generate ideas. This study explores strategies adopted by EFL students when searching for ideas using NLG tools, evaluating ideas generated by NLG tools and selecting NLG tools for ideas generation. Four Hong Kong secondary school students attended workshops where they learned to write stories comprising their own words and words generated by NLG tools. After the workshops, they answered questions to reflect on their writing experience with NLG tools. In a thematic analysis of the written reflections, we found students may have existing ideas when searching for ideas and evaluating ideas with NLG tools. Students showed some aversion to ideas generated by NLG tools and selected NLG tools that generated a greater quantity of ideas. The findings inform our understanding of EFL students' concerns when using NLG tools for idea generation and can inform educators' instruction to implement NLG tools for classroom creative writing. | 翻訳日:2023-04-26 00:04:33 公開日:2023-04-22 |
# play&go corporation: 都市サイクタビリティを促進するエンドツーエンドソリューション Play&Go Corporate: An End-to-End Solution for Facilitating Urban Cyclability ( http://arxiv.org/abs/2209.02755v2 ) ライセンス: Link先を確認 | Antonio Bucchiarone, Simone Bassanelli, Massimiliano Luca, Simone Centellegher, Piergiorgio Cipriano, Luca Giovannini, Bruno Lepri, Annapaola Marconi | (参考訳) モビリティは現代の都市において基本的な役割を担っている。
市民がどのように都市環境を経験し、都市の中核サービスにアクセスし、都市生活に参加するかは、その移動組織と効率に強く依存している。
自治体が直面する課題は非常に野心的であり、一方、行政官は市民にモビリティーの権利を保証し、地方サービスへのアクセスを容易にし、一方、モビリティーシステムの経済的、社会的、環境的コストを最小限に抑える必要がある。
市町村は交通渋滞、道路安全、エネルギー依存、大気汚染といった問題に直面しているため、アクティブモビリティに基づく持続可能な移動習慣への移行が重要になっている。
サイクリングのようなアクティブモードは特に局所的な反復旅行(例えば、家庭から学校、家庭から仕事)のために奨励されるべきである。
この文脈では、通勤者が生み出す交通の対処と緩和には、供給(道路や車両など)だけでなく交通需要管理にも焦点を絞る革新的で協力的なアプローチを通じて、公共や民間の利害関係者を惹きつける必要がある。
本稿では,公共企業や民間企業の従業員を対象とした在宅型持続可能なモビリティキャンペーン(Bike2Work)の実現に向けた,都市サイクリングと具体的な利用を可能にする,Play&Go Corporateというエンドツーエンドソリューションを提案する。
提案手法の有効性を評価するために,第1にBike2Workモビリティキャンペーンに関連するユーザエクスペリエンスと行動変化を慎重に分析し,第2に,収集したデータを活用することによって,関与する自治体(すなわち北イタリア市フェラーラ)が都市循環性の向上にどのように役立つかを実証した。 Mobility plays a fundamental role in modern cities. How citizens experience the urban environment, access city core services, and participate in city life, strongly depends on its mobility organization and efficiency. The challenges that municipalities face are very ambitious: on the one hand, administrators must guarantee their citizens the right to mobility and to easily access local services; on the other hand, they need to minimize the economic, social, and environmental costs of the mobility system. Municipalities are increasingly facing problems of traffic congestion, road safety, energy dependency and air pollution, and therefore encouraging a shift towards sustainable mobility habits based on active mobility is of central importance. Active modes, such as cycling, should be particularly encouraged, especially for local recurrent journeys (e.g., home--to--school, home--to--work). In this context, addressing and mitigating commuter-generated traffic requires engaging public and private stakeholders through innovative and collaborative approaches that focus not only on supply (e.g., roads and vehicles) but also on transportation demand management. In this paper, we present an end-to-end solution, called Play&Go Corporate, for enabling urban cyclability and its concrete exploitation in the realization of a home-to-work sustainable mobility campaign (i.e., Bike2Work) targeting employees of public and private companies. To evaluate the effectiveness of the proposed solution we developed two analyses: the first to carefully analyze the user experience and any behaviour change related to the Bike2Work mobility campaign, and the second to demonstrate how exploiting the collected data we can potentially inform and guide the involved municipality (i.e., Ferrara, a city in Northern Italy) in improving urban cyclability. | 翻訳日:2023-04-25 23:58:12 公開日:2023-04-22 |
# ニューラルネットワークによるスタイルGANの潜時ダイナミクスのモデル化 Modelling Latent Dynamics of StyleGAN using Neural ODEs ( http://arxiv.org/abs/2208.11197v2 ) ライセンス: Link先を確認 | Weihao Xia and Yujiu Yang and Jing-Hao Xue | (参考訳) 本稿では,gansから独立反転潜在符号の軌跡を学習することにより,動画のダイナミックスをモデル化する。
各潜在コードは移動粒子として、潜在空間は高次元の力学系として考えることにより、シーケンス全体が初期潜在コードの連続軌道の離散時間観測と見なされる。
したがって、異なるフレームを表す潜在符号は、ニューラル常微分方程式でモデル化できる初期フレームの状態遷移として再構成される。
学習した連続軌道は無限フレーム補間と一貫したビデオ操作を可能にする。
後者のタスクは、全てのフレーム間の時間的一貫性を維持しながら、第1のフレームにコア操作を適用する必要があるという利点を生かして、ビデオ編集のために再導入される。
広範な実験により,本手法は最先端の性能を実現するが,計算量は少なくなることを示した。
コードはhttps://github.com/weihaox/dynode_releasedで入手できる。 In this paper, we propose to model the video dynamics by learning the trajectory of independently inverted latent codes from GANs. The entire sequence is seen as discrete-time observations of a continuous trajectory of the initial latent code, by considering each latent code as a moving particle and the latent space as a high-dimensional dynamic system. The latent codes representing different frames are therefore reformulated as state transitions of the initial frame, which can be modeled by neural ordinary differential equations. The learned continuous trajectory allows us to perform infinite frame interpolation and consistent video manipulation. The latter task is reintroduced for video editing with the advantage of requiring the core operations to be applied to the first frame only while maintaining temporal consistency across all frames. Extensive experiments demonstrate that our method achieves state-of-the-art performance but with much less computation. Code is available at https://github.com/weihaox/dynode_released. | 翻訳日:2023-04-25 23:55:55 公開日:2023-04-22 |
# 非古典性の評価基準の実験的実証 Experimental demonstration of the criterion for the prepare-and-measure nonclassicality ( http://arxiv.org/abs/2209.15209v2 ) ライセンス: Link先を確認 | Xiaoqian Zhang, Maolin Luo and Xiaoqi Zhou | (参考訳) 準備と測定理論は、物理系の次元性の観点から古典理論と量子力学の不整合性を明らかにする新しいタイプの量子パラドックスであり、与えられた量子状態がベルの非古典性を示すことができるかどうかを決定するのと同様に、与えられた量子状態が準備と測定の非古典性を示すことができるかどうかを決定するために、同様の基準が必要である。
最近、poderiniとal。
[植物相研究2,043106(2020)]は、このような非古典性の準備・測定の基準を提示した。
本研究は, 52種類の異なる量子状態がそれぞれ準備され, 試験され, 準備と測定の非古典性を示すことができるかどうかを判定し, 実験結果が理論的な期待値とよく一致していることを実験的に検証する。
ここで実験的に検証された基準は、将来の非古典性の準備と測定に関する研究に広く使われる可能性がある。 The prepare-and-measure theory is a new type of quantum paradox that reveals the incompatibility between classical theory and quantum mechanics in terms of the dimensionality of physical systems.Just as the Horodecki criterion can determine whether given quantum states are capable of exhibiting Bell nonclassicality, a similar criterion is needed for the prepare-and-measure theory to determine whether given uantum states can exhibit the prepare-and-measure nonclassicality. Recently, Poderini et al. [Phys. Rev. Research 2, 043106 (2020)] presented such a criterion for the prepare-and-measure nonclassicality. In this work, we experimentally validate this criterion -- 52 different sets of quantum states are prepared and tested one by one using this criterion to determine whether they can exhibit the prepare-and-measure nonclassicality, and the experimental results are in good agreement with the theoretical expectations. The criterion experimentally verified here has the potential to be widely used in future research on the prepare-and-measure nonclassicality. | 翻訳日:2023-04-25 23:47:08 公開日:2023-04-22 |
# MS-DCANet:多目的COVID-19医療画像のための新しいセグメンテーションネットワーク MS-DCANet: A Novel Segmentation Network For Multi-Modality COVID-19 Medical Images ( http://arxiv.org/abs/2210.12361v3 ) ライセンス: Link先を確認 | Xiaoyu Pan, Huazheng Zhu, Jinglong Du, Guangtao Hu, Baoru Han, Yuanyuan Jia | (参考訳) 新型コロナウイルス(COVID-19)パンデミックは公衆衛生の負担を増し、人間に深刻な災害をもたらした。
境界線がぼやけたり、コントラストが低いり、感染部位のサイズが異なる新型コロナウイルスの医療画像に特有な点については、モデルの複雑さを追加することでセグメンテーションの精度を向上させた研究者もいる。
しかし、このアプローチには厳しい制限がある。
計算複雑性とパラメータの数の増加は、実験室からクリニックへのモデル転送には好ましくない。
一方、現在のCOVID-19感染症のセグメンテーションDCNNベースの方法は、単一のモダリティにのみ適用される。
そこで本稿では,MS-DCANetと呼ばれる対称エンコーダ-デコーダセグメンテーションフレームワークを提案する。
Tokenized MLP blockは、Transformerに似たシフトウインドウ機構を用いて、自己注意を取得し、局所的な言語間セマンティック依存を実現する新しいアテンション方式である。
MS-DCANetはまた、いくつかのデュアルチャネルブロックとRes-ASPPブロックを使用して、受信フィールドを拡張し、マルチスケールの特徴を抽出する。
マルチモードのCOVID-19タスクでは、MS-DCANetは他のU字型モデルと比較して最先端のパフォーマンスを達成した。
正確さと複雑さをトレードオフできるのです。
提案モデルの強力な一般化能力を証明するため,他の課題(ISIC 2018とBAA)に適用し,良好な結果を得た。 The Coronavirus Disease 2019 (COVID-19) pandemic has increased the public health burden and brought profound disaster to humans. For the particularity of the COVID-19 medical images with blurred boundaries, low contrast and different sizes of infection sites, some researchers have improved the segmentation accuracy by adding model complexity. However, this approach has severe limitations. Increasing the computational complexity and the number of parameters is unfavorable for model transfer from laboratory to clinic. Meanwhile, the current COVID-19 infections segmentation DCNN-based methods only apply to a single modality. To solve the above issues, this paper proposes a symmetric Encoder-Decoder segmentation framework named MS-DCANet. We introduce Tokenized MLP block, a novel attention scheme that uses a shift-window mechanism similar to the Transformer to acquire self-attention and achieve local-to-global semantic dependency. MS-DCANet also uses several Dual Channel blocks and a Res-ASPP block to expand the receptive field and extract multi-scale features. On multi-modality COVID-19 tasks, MS-DCANet achieved state-of-the-art performance compared with other U-shape models. It can well trade off the accuracy and complexity. To prove the strong generalization ability of our proposed model, we apply it to other tasks (ISIC 2018 and BAA) and achieve satisfactory results. | 翻訳日:2023-04-25 23:38:55 公開日:2023-04-22 |
# ジャストラウンド:動的ロコモーションのメモリ効率向上を実現する量子化された観測空間 Just Round: Quantized Observation Spaces Enable Memory Efficient Learning of Dynamic Locomotion ( http://arxiv.org/abs/2210.08065v2 ) ライセンス: Link先を確認 | Lev Grossman and Brian Plancher | (参考訳) 深部強化学習(DRL)は、複雑なロボット動作を合成するための最も強力なツールの1つである。
しかし、DRLモデルのトレーニングは信じられないほど計算とメモリ集約であり、大きなトレーニングデータセットとバッファを再生する必要がある。
これは、環境に適応するためにエッジで学ぶ必要がある次世代のフィールドロボットにとって、課題となる。
本稿では,観測空間の量子化によってこの問題に対処し始める。
本手法は,4つのロボットロコモーションタスクと2つの最先端DRLアルゴリズム,PPO(On-policy Proximal Policy Optimization)とSAC(Off-policy Soft Actor-Critic)を用いて評価し,学習性能に影響を与えることなく,観測空間の量子化が全体のメモリコストを最大4.2倍削減することを発見した。 Deep reinforcement learning (DRL) is one of the most powerful tools for synthesizing complex robotic behaviors. But training DRL models is incredibly compute and memory intensive, requiring large training datasets and replay buffers to achieve performant results. This poses a challenge for the next generation of field robots that will need to learn on the edge to adapt to their environment. In this paper, we begin to address this issue through observation space quantization. We evaluate our approach using four simulated robot locomotion tasks and two state-of-the-art DRL algorithms, the on-policy Proximal Policy Optimization (PPO) and off-policy Soft Actor-Critic (SAC) and find that observation space quantization reduces overall memory costs by as much as 4.2x without impacting learning performance. | 翻訳日:2023-04-25 23:38:12 公開日:2023-04-22 |
# 言語モデルは現実的なタブラルデータジェネレータである Language Models are Realistic Tabular Data Generators ( http://arxiv.org/abs/2210.06280v2 ) ライセンス: Link先を確認 | Vadim Borisov, Kathrin Se{\ss}ler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci | (参考訳) タブラルデータは、最も古く、最もユビキタスな形式のデータである。
しかし、原データの特徴を持つ合成サンプルの生成は、表データにとって重要な課題である。
コンピュータビジョン領域からの多くの生成モデル、例えば変分オートエンコーダや生成逆数ネットワークは、表型データ生成に適用されているが、近年のトランスフォーマーベースの大規模言語モデル(LLM)への研究はあまり行われていない。
そこで本研究では, 自動回帰生成 LLM を利用して, 合成かつ高現実的な表形式データをサンプリングする GReaT (Generation of Realistic Tabular data) を提案する。
さらに、greatは、任意の機能のサブセットを条件付けすることで、表形式のデータ分布をモデル化できる。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
GReaTは、さまざまなサイズの異種特徴型を持つ多数の実世界および合成データセットに対して、最先端の性能を維持している。 Tabular data is among the oldest and most ubiquitous forms of data. However, the generation of synthetic samples with the original data's characteristics remains a significant challenge for tabular data. While many generative models from the computer vision domain, such as variational autoencoders or generative adversarial networks, have been adapted for tabular data generation, less research has been directed towards recent transformer-based large language models (LLMs), which are also generative in nature. To this end, we propose GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive generative LLM to sample synthetic and yet highly realistic tabular data. Furthermore, GReaT can model tabular data distributions by conditioning on any subset of features; the remaining features are sampled without additional overhead. We demonstrate the effectiveness of the proposed approach in a series of experiments that quantify the validity and quality of the produced data samples from multiple angles. We find that GReaT maintains state-of-the-art performance across numerous real-world and synthetic data sets with heterogeneous feature types coming in various sizes. | 翻訳日:2023-04-25 23:37:54 公開日:2023-04-22 |
# GammaE: 知識グラフの論理的クエリのためのガンマ埋め込み GammaE: Gamma Embeddings for Logical Queries on Knowledge Graphs ( http://arxiv.org/abs/2210.15578v2 ) ライセンス: Link先を確認 | Dong Yang, Peijun Qing, Yang Li, Haonan Lu, Xiaodong Lin | (参考訳) マルチホップ論理推論のための知識グラフ(KG)の埋め込みは多くのKGの大規模かつ複雑な構造のために難しい問題である。
近年、多くの有望な作品が、効率的に答えを見つけるために、エンティティやクエリを幾何学空間に投影している。
しかし、ネゲーションとユニオン演算子のモデル化は依然として困難である。
否定演算子は厳密な境界を持たず、重なり合う埋め込みを生成し、あいまいな答えを得る。
追加の制限は、ユニオン作用素が非閉化であり、一連のユニオン作用素を扱うモデルが弱まることである。
これらの問題に対処するため、我々は新しい確率的埋め込みモデル、すなわちガンマ埋め込み(Gamma Embeddings, GammaE)を提案し、エンティティとクエリを符号化し、KG上で異なるタイプのFOLクエリに応答する。
我々はガンマ分布の線形特性と強い境界サポートを利用して、エンティティやクエリのより多くの特徴をキャプチャし、モデルの不確実性を劇的に低減する。
さらに、gammaeは、クローズドユニオン演算子を設計するためにガンマ混合法を実装している。
GammaEの性能は3つの大きな論理クエリデータセットで検証される。
実験結果から,GammaEは公開ベンチマークにおいて最先端モデルよりも有意に優れていた。 Embedding knowledge graphs (KGs) for multi-hop logical reasoning is a challenging problem due to massive and complicated structures in many KGs. Recently, many promising works projected entities and queries into a geometric space to efficiently find answers. However, it remains challenging to model the negation and union operator. The negation operator has no strict boundaries, which generates overlapped embeddings and leads to obtaining ambiguous answers. An additional limitation is that the union operator is non-closure, which undermines the model to handle a series of union operators. To address these problems, we propose a novel probabilistic embedding model, namely Gamma Embeddings (GammaE), for encoding entities and queries to answer different types of FOL queries on KGs. We utilize the linear property and strong boundary support of the Gamma distribution to capture more features of entities and queries, which dramatically reduces model uncertainty. Furthermore, GammaE implements the Gamma mixture method to design the closed union operator. The performance of GammaE is validated on three large logical query datasets. Experimental results show that GammaE significantly outperforms state-of-the-art models on public benchmarks. | 翻訳日:2023-04-25 23:27:10 公開日:2023-04-22 |
# 実践ツールとしてのボヘミアン力学 Bohmian Mechanics as a Practical Tool ( http://arxiv.org/abs/2212.09671v2 ) ライセンス: Link先を確認 | Xabier Oianguren-Asua, Carlos F. Destefani, Matteo Villani, David K. Ferry, Xavier Oriols | (参考訳) 本章では,ボヘミアの力学とその微視的現実を記述する能力が,たとえ測定がなくても,現象学的にアクセス可能な情報(コペンハーゲン理論の支持者にも有用である)の予測を支援するために,計算ツールとして活用できる,いくつかのホットスポットを探索する。
As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system.
実際に最も重要なことは、たとえこれらの数に存在論的意味が与えられなくても、それらをシミュレートできるだけでなく、弱い値の実験で運用的に決定できるということに気づくことである。
したがって、それらは従う量子理論に関係なく量子系を特徴づける実用的な数となる。 In this chapter, we will take a trip around several hot-spots where Bohmian mechanics and its capacity to describe the microscopic reality, even in the absence of measurements, can be harnessed as computational tools, in order to help in the prediction of phenomenologically accessible information (also useful for the followers of the Copenhagen theory). As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system. Most importantly in practice, even if these numbers are given no ontological meaning, not only we will be able to simulate (thus, predict and talk about) them, but we will see that they can be operationally determined in a weak value experiment. Therefore, they will be practical numbers to characterize a quantum system irrespective of the followed quantum theory. | 翻訳日:2023-04-25 23:09:43 公開日:2023-04-22 |
# CC-FedAvg: 計算によってカスタマイズされたフェデレーション平均化 CC-FedAvg: Computationally Customized Federated Averaging ( http://arxiv.org/abs/2212.13679v2 ) ライセンス: Link先を確認 | Tingting Wu, Hao Zhang, Siyao Cheng, Jie Liu | (参考訳) フェデレーション学習(federated learning, fl)は,iot(internet of things)デバイスからの分散データをトレーニングする,新たなパラダイムだ。
本来は参加者に均一な能力を与える。
しかし、エネルギー予算の相違や並列無関係なタスクの実行といった異なる条件のため、参加者は実際に様々な計算資源を持っている。
計算予算が不十分な参加者は、制限された計算リソースの使用を適切に計画しなければならない。
この問題に対処するために,計算集約的な反復を伴わない局所モデル推定手法を提案する。
そこで本研究では,従来のローカルトレーニングを行うか,あるいは現在の計算予算に基づいて各ラウンドでモデル推定を行うかを決定することのできる,CC-FedAvg(Computationally Customized Federated Averaging)を提案する。
理論解析と徹底的な実験は、CC-FedAvgがリソース制約なしでFedAvgと同じ収束率と同等の性能を持つことを示している。
さらに、cc-fedavgはfedavgの計算効率の高いバージョンと見なすことができ、モデル性能を維持しつつ計算オーバーヘッドを大幅に削減することができる。 Federated learning (FL) is an emerging paradigm to train model with distributed data from numerous Internet of Things (IoT) devices. It inherently assumes a uniform capacity among participants. However, due to different conditions such as differing energy budgets or executing parallel unrelated tasks, participants have diverse computational resources in practice. Participants with insufficient computation budgets must plan for the use of restricted computational resources appropriately, otherwise they would be unable to complete the entire training procedure, resulting in model performance decline. To address the this issue, we propose a strategy for estimating local models without computationally intensive iterations. Based on it, we propose Computationally Customized Federated Averaging (CC-FedAvg), which allows participants to determine whether to perform traditional local training or model estimation in each round based on their current computational budgets. Both theoretical analysis and exhaustive experiments indicate that CC-FedAvg has the same convergence rate and comparable performance as FedAvg without resource constraints. Furthermore, CC-FedAvg can be viewed as a computation-efficient version of FedAvg that retains model performance while considerably lowering computation overhead. | 翻訳日:2023-04-25 21:26:04 公開日:2023-04-22 |
# 計算レキシケース選択確率はNP-Hardである Calculating lexicase selection probabilities is NP-Hard ( http://arxiv.org/abs/2301.06724v2 ) ライセンス: Link先を確認 | Emily Dolson | (参考訳) レキシケース選択下で選択される個々の解の確率を計算することは、進化的計算における最先端の親選択アルゴリズムであるレキシケース選択のより深い理論的理解を開発する上で重要な問題である。
この問題に対する高速な解決策を見つけることは、レキシケース選択の実際的な改善を開発するための努力にも意味がある。
ここでは、lex-probと呼ばれるこの問題がNP-Hardであることを証明する。
この証明は、よく知られたNP-Complete問題であるSATを多項式時間でlex-probに還元することで達成する。
この還元には、一般的なレキシケース選択であるepsilon-lexicase選択を標準レキシケース選択に還元する中間段階が含まれる。
この証明は、レキシケース選択の下で選択される個々の解の確率を計算する高速な計算方法を必要とする人に重要な実践的意味を持つ。
多項式時間で行うことは、完全に不可能ではないとしても、信じられないほど難しい。
したがって、ブルート・フォース・ソリューションを高速化するための近似アルゴリズムや実用的な最適化を見つけることは、おそらく価値がある。
この結果は、epsilon-lexicase selectionとlexicase selectionの関係と、lex-probと他のNP-Hard問題との関係について深い理論的意味を持つ。 Calculating the probability of an individual solution being selected under lexicase selection is an important problem in attempts to develop a deeper theoretical understanding of lexicase selection, a state-of-the art parent selection algorithm in evolutionary computation. Discovering a fast solution to this problem would also have implications for efforts to develop practical improvements to lexicase selection. Here, I prove that this problem, which I name lex-prob, is NP-Hard. I achieve this proof by reducing SAT, a well-known NP-Complete problem, to lex-prob in polynomial time. This reduction involves an intermediate step in which a popular variant of lexicase selection, epsilon-lexicase selection, is reduced to standard lexicase selection. This proof has important practical implications for anyone needing a fast way of calculating the probabilities of individual solutions being selected under lexicase selection. Doing so in polynomial time would be incredibly challenging, if not all-together impossible. Thus, finding approximation algorithms or practical optimizations for speeding up the brute-force solution is likely more worthwhile. This result also has deeper theoretical implications about the relationship between epsilon-lexicase selection and lexicase selection and the relationship between lex-prob and other NP-Hard problems. | 翻訳日:2023-04-25 21:17:10 公開日:2023-04-22 |
# グローバル収束保証を伴う確率的最適制御問題に対するポリシー勾配フレームワーク A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee ( http://arxiv.org/abs/2302.05816v2 ) ライセンス: Link先を確認 | Mo Zhou, Jianfeng Lu | (参考訳) 確率的最適制御問題に対するポリシー勾配法を連続的に検討する。
特に, 方針勾配法の連続時間限界として, 制御のための勾配流れを解析した。
勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
解析における主な新規性は局所最適制御関数の概念であり、イテレートの局所最適性を特徴付けるために導入された。 We consider policy gradient methods for stochastic optimal control problem in continuous time. In particular, we analyze the gradient flow for the control, viewed as a continuous time limit of the policy gradient method. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to characterize the local optimality of the iterate. | 翻訳日:2023-04-25 21:08:00 公開日:2023-04-22 |
# hybrik-transformerによる3次元人物ポーズと形状推定 3D Human Pose and Shape Estimation via HybrIK-Transformer ( http://arxiv.org/abs/2302.04774v4 ) ライセンス: Link先を確認 | Boris N. Oreshkin | (参考訳) HybrIKは解析的逆運動学とディープラーニングを組み合わせて、2次元単眼画像からより正確な3Dポーズ推定を生成する。
HybrIKは、(1)事前学習された畳み込みバックボーン、(2)2次元畳み込み特徴から3次元ポーズをリフトするデコンボリューション、(3)解析的逆運動学は、プラプシブルツイストとスイング角の学習分布を用いてディープラーニング予測を補正する。
本稿では,2次元から3次元への昇降モジュールを改良し,デコンボリューションをTransformerに置き換えることで,元のHybrIK法と比較して精度と計算効率が向上することを示す。
我々は、一般的なh36m、pw3d、coco、hp3dデータセットで結果を示す。
私たちのコードはhttps://github.com/boreshkinai/hybrik-transformerで公開しています。 HybrIK relies on a combination of analytical inverse kinematics and deep learning to produce more accurate 3D pose estimation from 2D monocular images. HybrIK has three major components: (1) pretrained convolution backbone, (2) deconvolution to lift 3D pose from 2D convolution features, (3) analytical inverse kinematics pass correcting deep learning prediction using learned distribution of plausible twist and swing angles. In this paper we propose an enhancement of the 2D to 3D lifting module, replacing deconvolution with Transformer, resulting in accuracy and computational efficiency improvement relative to the original HybrIK method. We demonstrate our results on commonly used H36M, PW3D, COCO and HP3D datasets. Our code is publicly available https://github.com/boreshkinai/hybrik-transformer. | 翻訳日:2023-04-25 21:07:53 公開日:2023-04-22 |
# Bell-CHSH不平等の違反に関する研究 A study of the violation of the Bell-CHSH inequality ( http://arxiv.org/abs/2302.02385v2 ) ライセンス: Link先を確認 | Silvio Paolo Sorella | (参考訳) 両部系におけるベル-CHSH不等式の不等式は、擬スピン作用素を用いて、系のヒルベルト空間のすべてのモードをペアでグループ化することで議論する。
我々は,Bell-CHSH不平等テストを実施するために,すでに1組のペアが採用されていることを指摘している。
このメカニズムは、n00n$状態とコヒーレントおよび絞られた状態の助けを借りて示される。 The violation of the Bell-CHSH inequality for bipartite systems is discussed by making use of the pseudospin operators which enable us to group all modes of the Hilbert space of the system in pairs. We point out that a single pair can be already employed to perform a test of the Bell-CHSH inequality in order to check out its violation. The mechanism is illustrated with the help of $N00N$ states as well as with coherent and squeezed states. | 翻訳日:2023-04-25 21:07:21 公開日:2023-04-22 |
# SATは排他的検索を必要とする SAT Requires Exhaustive Search ( http://arxiv.org/abs/2302.09512v5 ) ライセンス: Link先を確認 | Ke Xu, Guangyan Zhou | (参考訳) 本稿では, CSP(大域領域)とSAT(長節節)の極めて難しい例を構築することにより, 徹底的な探索なしにはそのような例は解決できないことを証明し, より弱い結論 P $\neq$ NP を導出する。
計算複雑性理論で現在使われているものとは全く異なる(そして欠落している)が、クルト・G・"{o}del が彼の有名な論理的不合理結果を証明する際に用いたものと似ている。
g\"{o}delの数学における形式的証明不可能性を証明するという結果が示すように、この論文の結果は計算の困難さを証明することは数学では難しくないことを示している。
具体的には, 3SAT のような多くの問題に対する下位境界の証明は, 徹底的な探索を避けるために, 様々な効果的な方法が考えられるため困難である。
しかし、非常に難しい例の場合、徹底的な検索が唯一の選択肢となり、その必要性を証明するのがより簡単になる。
これにより、SAT(長い節を持つ)と3-SATの分離は、3-SATと2-SATの分離よりもずっと簡単になる。
最後に,本論文の主な結果は,g\"{o}delの結果が示す構文と意味論の根本的な違いがcspとsatにも存在していることを示す。 In this paper, by constructing extremely hard examples of CSP (with large domains) and SAT (with long clauses), we prove that such examples cannot be solved without exhaustive search, which implies a weaker conclusion P $\neq$ NP. This constructive approach for proving impossibility results is very different (and missing) from those currently used in computational complexity theory, but is similar to that used by Kurt G\"{o}del in proving his famous logical impossibility results. Just as shown by G\"{o}del's results that proving formal unprovability is feasible in mathematics, the results of this paper show that proving computational hardness is not hard in mathematics. Specifically, proving lower bounds for many problems, such as 3-SAT, can be challenging because these problems have various effective strategies available for avoiding exhaustive search. However, in cases of extremely hard examples, exhaustive search may be the only viable option, and proving its necessity becomes more straightforward. Consequently, it makes the separation between SAT (with long clauses) and 3-SAT much easier than that between 3-SAT and 2-SAT. Finally, the main results of this paper demonstrate that the fundamental difference between the syntax and the semantics revealed by G\"{o}del's results also exists in CSP and SAT. | 翻訳日:2023-04-25 20:58:38 公開日:2023-04-22 |
# 動的誘導学習を用いたプログレッシブフュージョン変換器によるRGBT追跡 RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided Learning ( http://arxiv.org/abs/2303.14778v2 ) ライセンス: Link先を確認 | Yabin Zhu, Chenglong Li, Xiao Wang, Jin Tang, Zhixiang Huang | (参考訳) 既存のTransformerベースのRGBTトラッキング手法では、2つのモダリティを融合するためにクロスアテンションを使用するか、自己アテンションとクロスアテンションを使用してモダリティ固有情報とモダリティ共有情報の両方をモデル化する。
しかしながら、モダリティ間の顕著な外観ギャップは、融合過程における特定のモダリティの特徴表現能力を制限する。
そこで本研究では,ロバストなrgbt追跡のためのマルチモーダル表現に単一モダリティ情報を段階的に統合するプログレッシブ・フュージョントランスフォーマを提案する。
特にProFormerは、まず自己注意モジュールを使用してマルチモーダル表現を協調的に抽出し、次に2つの相互注意モジュールを使用してそれぞれ二重モーダルの特徴と相互作用する。
このように、モダリティ固有の情報はマルチモーダル表現で活性化することができる。
最後に、フィードフォワードネットワークを用いて、2つの相互作用したマルチモーダル表現を融合し、最終的なマルチモーダル表現をさらに強化する。
さらに、既存のRGBTトラッカーの学習手法は、最終分類のためにマルチモーダル特徴を1つに融合するか、競争的学習戦略を通じて単調分岐と融合分岐の関係を利用する。
しかし、単一のモダリティブランチの学習を無視したり、ひとつのブランチが適切に最適化されない結果になる。
これらの問題を解決するために,各分岐の表現能力を高めるために,順応的に優れた分岐を用いて他の分岐の学習を誘導する動的学習アルゴリズムを提案する。
提案するproformerは,rgbt210,rgbt234,lasher,vtuavデータセットに新たな最先端性能をセットする。 Existing Transformer-based RGBT tracking methods either use cross-attention to fuse the two modalities, or use self-attention and cross-attention to model both modality-specific and modality-sharing information. However, the significant appearance gap between modalities limits the feature representation ability of certain modalities during the fusion process. To address this problem, we propose a novel Progressive Fusion Transformer called ProFormer, which progressively integrates single-modality information into the multimodal representation for robust RGBT tracking. In particular, ProFormer first uses a self-attention module to collaboratively extract the multimodal representation, and then uses two cross-attention modules to interact it with the features of the dual modalities respectively. In this way, the modality-specific information can well be activated in the multimodal representation. Finally, a feed-forward network is used to fuse two interacted multimodal representations for the further enhancement of the final multimodal representation. In addition, existing learning methods of RGBT trackers either fuse multimodal features into one for final classification, or exploit the relationship between unimodal branches and fused branch through a competitive learning strategy. However, they either ignore the learning of single-modality branches or result in one branch failing to be well optimized. To solve these problems, we propose a dynamically guided learning algorithm that adaptively uses well-performing branches to guide the learning of other branches, for enhancing the representation ability of each branch. Extensive experiments demonstrate that our proposed ProFormer sets a new state-of-the-art performance on RGBT210, RGBT234, LasHeR, and VTUAV datasets. | 翻訳日:2023-04-25 20:41:02 公開日:2023-04-22 |
# 断熱ゲージポテンシャルに対するlandau-zener公式 A Landau-Zener formula for the Adiabatic Gauge Potential ( http://arxiv.org/abs/2303.12066v2 ) ライセンス: Link先を確認 | Gabriel Cardoso | (参考訳) 断熱定理により、時間依存量子系における非断熱遷移の確率は断熱極限で消滅する。
ランダウ・ツェナーの公式(LZ)は、この極限に近い確率の先頭の関数的挙動を与える。
一方、対断熱力学では、非断熱的遷移を抑制する余剰場を追加することで、有限駆動速度で効果的に断熱的進化を達成する:断熱的ゲージポテンシャル(agp)。
我々は, agp が遷移確率を抑制する機構について検討し, lz 式から正確に 0 に変更する。
定量的に、ハミルトニアンに AGP を加えることは、反断熱状態において消滅する断熱パラメータとは独立に、普遍的プレファクターによりLZ式を修飾する。
定性的には、この前提因子は複素時間平面内の異なる経路間の agp によって生成されるアハルノフ-ボーム相から生じると解釈できる。
最後に、これらの結果は可積分時間依存量子ハミルトニアンのクラスに拡張され、agpが可積分性条件を保っていることを証明できることを示した。 By the adiabatic theorem, the probability of non-adiabatic transitions in a time-dependent quantum system vanishes in the adiabatic limit. The Landau-Zener (LZ) formula gives the leading functional behavior of the probability close to this limit. On the other hand, in counterdiabatic dynamics, one achieves effectively adiabatic evolution at finite driving speed by adding an extra field which suppresses non-adiabatic transitions: the adiabatic gauge potential (AGP). We investigate the mechanism by which the AGP suppresses the transition probability, changing it from the LZ formula to exactly zero. Quantitatively, we find that adding the AGP to the Hamiltonian modifies the LZ formula by a universal prefactor, independent of the adiabatic parameter, which vanishes in the counterdiabatic regime. Qualitatively, this prefactor can be understood as arising from the Aharonov-Bohm phases generated by the AGP between different paths in the complex time plane. Finally, we show that these results extend to a class of integrable time-dependent quantum Hamiltonians by proving that the AGP preserves their integrability condition. | 翻訳日:2023-04-25 20:39:33 公開日:2023-04-22 |
# 顔成分関係を用いた交互表現学習 Kinship Representation Learning with Face Componential Relation ( http://arxiv.org/abs/2304.04546v3 ) ライセンス: Link先を確認 | Weng-Tai Su, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen | (参考訳) Kinship Recognitionは、2つの顔画像の被験者が近親者なのか非近親者なのかを判断することを目的としている。
しかし,従来の手法では,顔画像間の空間相関を考慮せず,ヒューリスティックな設計に重点を置いている。
本稿では,顔成分(目,鼻など)間の関係情報に埋め込まれた識別的親和性表現を学習することを目的とする。
この目的を達成するために,画像間の顔成分間の関係を交互に学習し,親族認識のための重要な顔領域を自動的に学習する顔成分関係ネットワークを提案する。
さらに,顔成分関係ネットワーク (facornet) を提案し,クロス・アテンションからの指導により損失関数を適用し,より識別的な特徴表現を学習する。
提案されたFaCoRNetは、最大の公的な親族認識FIWベンチマークにおいて、最先端の手法よりも大きなマージンで優れている。
コードは受理後に公開される予定だ。 Kinship recognition aims to determine whether the subjects in two facial images are kin or non-kin, which is an emerging and challenging problem. However, most previous methods focus on heuristic designs without considering the spatial correlation between face images. In this paper, we aim to learn discriminative kinship representations embedded with the relation information between face components (e.g., eyes, nose, etc.). To achieve this goal, we propose the Face Componential Relation Network, which learns the relationship between face components among images with a cross-attention mechanism, which automatically learns the important facial regions for kinship recognition. Moreover, we propose Face Componential Relation Network (FaCoRNet), which adapts the loss function by the guidance from cross-attention to learn more discriminative feature representations. The proposed FaCoRNet outperforms previous state-of-the-art methods by large margins for the largest public kinship recognition FIW benchmark. The code will be publicly released upon acceptance. | 翻訳日:2023-04-25 20:21:48 公開日:2023-04-22 |
# CCLAP:潜在拡散モデルによる制御可能な中国景観絵画生成 CCLAP: Controllable Chinese Landscape Painting Generation via Latent Diffusion Model ( http://arxiv.org/abs/2304.04156v2 ) ライセンス: Link先を確認 | Zhongqi Wang, Jie Zhang, Zhilong Ji, Jinfeng Bai, Shiguang Shan | (参考訳) 深層造形モデルの発展に伴い、近年は中国の風景画世代に大きな成功を収めている。
しかし、データの欠如やモデリング能力の制限などにより、中国の風景画生成に焦点を絞った作品はほとんどない。
そこで本研究では,潜伏拡散モデルに基づく特定の内容や様式の絵画を生成できるcclapという中国景観画生成手法を提案する。
具体的には、2つのカスケードモジュール、すなわちコンテンツジェネレータとスタイルアグリゲータで構成される。
コンテンツ生成モジュールは、入力テキスト固有の生成された絵画の内容を保証する。
スタイルアグリゲータモジュールは、参照画像に対応するスタイルの絵画を生成することである。
また、中国風景画の新たなデータセットであるクラップを収集し、総合的な評価を行う。
定性的および定量的な結果から,本手法が最先端の性能,特に芸術的・芸術的概念において達成できることが示唆された。
コードはhttps://github.com/Robin-WZQ/CCLAPで入手できる。 With the development of deep generative models, recent years have seen great success of Chinese landscape painting generation. However, few works focus on controllable Chinese landscape painting generation due to the lack of data and limited modeling capabilities. In this work, we propose a controllable Chinese landscape painting generation method named CCLAP, which can generate painting with specific content and style based on Latent Diffusion Model. Specifically, it consists of two cascaded modules, i.e., content generator and style aggregator. The content generator module guarantees the content of generated paintings specific to the input text. While the style aggregator module is to generate paintings of a style corresponding to a reference image. Moreover, a new dataset of Chinese landscape paintings named CLAP is collected for comprehensive evaluation. Both the qualitative and quantitative results demonstrate that our method achieves state-of-the-art performance, especially in artfully-composed and artistic conception. Codes are available at https://github.com/Robin-WZQ/CCLAP. | 翻訳日:2023-04-25 20:20:12 公開日:2023-04-22 |
# スケーラブルなテーマ埋め込みによる連続ニュースストリームからの教師なしストーリー発見 Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding ( http://arxiv.org/abs/2304.04099v2 ) ライセンス: Link先を確認 | Susik Yoon, Dongha Lee, Yunyi Zhang, Jiawei Han | (参考訳) 関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。
教師なしオンラインストーリー発見のための既存の研究の一般的なアプローチは、ニュース記事を象徴的あるいはグラフベースの埋め込みで表現し、ストーリーに漸進的にクラスタ化することである。
最近の大規模言語モデルは、埋め込みをさらに改善することが期待されているが、記事にすべての情報を無差別にエンコードすることで、モデルを直接採用することは、テキストリッチで進化するニュースストリームを扱うには効果がない。
そこで本研究では,テーマの共有を考慮し,記事やストーリーを動的に表現する,既成の事前学習文エンコーダを用いたテーマ埋め込みを提案する。
教師なしのオンラインストーリー発見のアイデアを実現するために,UTORYは,テーマとタイムアウェアの動的埋め込みと,軽量なストーリーサマリーを駆使した新規な適応クラスタリングという,2つの主要な手法で導入された。
実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることを示している。 Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings. | 翻訳日:2023-04-25 20:19:59 公開日:2023-04-22 |
# MS-LSTM:ビデオ予測領域における時空間多スケール表現の探索 MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain ( http://arxiv.org/abs/2304.07724v2 ) ライセンス: Link先を確認 | Zhifeng Ma, Hao Zhang, Jie Liu | (参考訳) 空間的および時間的次元における動きの劇的な変化は、映像予測タスクを極めて困難にする。
既存のRNNモデルは、モデルをより深くまたは拡張することで、より高い性能が得られる。
ビデオのマルチスケール機能は、レイヤを積み重ねることによってのみ得られるが、これは非効率であり、(メモリ、FLOP、トレーニング時間など)耐え難いトレーニングコストをもたらす。
そこで本研究では,MS-LSTMと呼ばれる時空間的マルチスケールモデルを提案する。
積層層に基づくMS-LSTMでは、時空間情報を完全にキャプチャする2つの効率的なマルチスケール設計が組み込まれている。
具体的には、ミラー化されたピラミッド構造を持つLSTMを用いて空間的マルチスケール表現を構築し、異なる畳み込みカーネルを持つLSTMを用いて時間的マルチスケール表現を構築する。
4つのビデオデータセット上の8つのベースラインモデルによる詳細な比較実験により、MS-LSTMの性能は向上するが、トレーニングコストは低下することが示された。 The drastic variation of motion in spatial and temporal dimensions makes the video prediction task extremely challenging. Existing RNN models obtain higher performance by deepening or widening the model. They obtain the multi-scale features of the video only by stacking layers, which is inefficient and brings unbearable training costs (such as memory, FLOPs, and training time). Different from them, this paper proposes a spatiotemporal multi-scale model called MS-LSTM wholly from a multi-scale perspective. On the basis of stacked layers, MS-LSTM incorporates two additional efficient multi-scale designs to fully capture spatiotemporal context information. Concretely, we employ LSTMs with mirrored pyramid structures to construct spatial multi-scale representations and LSTMs with different convolution kernels to construct temporal multi-scale representations. Detailed comparison experiments with eight baseline models on four video datasets show that MS-LSTM has better performance but lower training costs. | 翻訳日:2023-04-25 20:12:06 公開日:2023-04-22 |
# ChatGPTは株価変動を予測できるのか?
戻り予測可能性と大規模言語モデル Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models ( http://arxiv.org/abs/2304.07619v2 ) ライセンス: Link先を確認 | Alejandro Lopez-Lira and Yuehua Tang | (参考訳) ニュース見出しの感情分析を用いて株式市場のリターンを予測するため,ChatGPTや他の大規模言語モデルの可能性を検討する。
chatgptを使って、ある見出しが企業の株価に良い、悪い、あるいは関係のないニュースかどうかを示す。
そして、数値スコアを計算し、これらのchatgptスコアとその後の毎日の株式市場リターンとの正の相関関係を文書化する。
さらに、ChatGPTは従来の感情分析方法よりも優れています。
GPT-1, GPT-2, BERTのようなより基本的なモデルではリターンを正確に予測できないことが分かり、リターン予測能力は複雑なモデルの出現能力を示す。
この結果から,先進言語モデルを投資決定プロセスに組み込むことで,より正確な予測が得られ,量的トレーディング戦略の性能が向上することが示唆された。 We examine the potential of ChatGPT, and other large language models, in predicting stock market returns using sentiment analysis of news headlines. We use ChatGPT to indicate whether a given headline is good, bad, or irrelevant news for firms' stock prices. We then compute a numerical score and document a positive correlation between these ChatGPT scores and subsequent daily stock market returns. Further, ChatGPT outperforms traditional sentiment analysis methods. We find that more basic models such as GPT-1, GPT-2, and BERT cannot accurately forecast returns, indicating return predictability is an emerging capacity of complex models. Our results suggest that incorporating advanced language models into the investment decision-making process can yield more accurate predictions and enhance the performance of quantitative trading strategies. | 翻訳日:2023-04-25 20:11:48 公開日:2023-04-22 |
# 弁証的言語モデル評価:LLMのコモンセンス空間推論能力の初期評価 Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs ( http://arxiv.org/abs/2304.11164v1 ) ライセンス: Link先を確認 | Anthony G Cohn, Jose Hernandez-Orallo | (参考訳) 言語モデルは近年非常に人気があり、コモンセンス推論など、その能力について多くの主張がなされている。
コモンセンス推論のための以前の静的ベンチマークにおける現在の言語モデルのより優れた結果を考えると、代替弁証法について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
システムとの対話は一貫性をチェックし、逸話的な証拠を超えてこれらの境界をより安心させる機会を与えます。
本稿では,空間的推論(コモンセンス推論の基本的側面である)において,このような評価の質的な検討を行う。
本稿では,言語モデルの能力向上と,このような弁証的評価の体系化を両立させるために,今後の研究を提案する。 Language models have become very popular recently and many claims have been made about their abilities, including for commonsense reasoning. Given the increasingly better results of current language models on previous static benchmarks for commonsense reasoning, we explore an alternative dialectical evaluation. The goal of this kind of evaluation is not to obtain an aggregate performance value but to find failures and map the boundaries of the system. Dialoguing with the system gives the opportunity to check for consistency and get more reassurance of these boundaries beyond anecdotal evidence. In this paper we conduct some qualitative investigations of this kind of evaluation for the particular case of spatial reasoning (which is a fundamental aspect of commonsense reasoning). We conclude with some suggestions for future work both to improve the capabilities of language models and to systematise this kind of dialectical evaluation. | 翻訳日:2023-04-25 20:02:04 公開日:2023-04-22 |
# 人間-ロボットインタラクションにおける非言語クイズ : コミュニケーション研究の視点から Nonverbal Cues in Human-Robot Interaction: A Communication Studies Perspective ( http://arxiv.org/abs/2304.11293v1 ) ライセンス: Link先を確認 | Jacqueline Urakami, Katie Seaborn | (参考訳) 人々間のコミュニケーションは、幅広い非言語的手がかりによって特徴づけられる。
これらのキューを人間と対話するロボットや他の人工エージェントの設計に転送することで、より自然で、招待され、アクセス可能な体験を育むことができる。
本稿では,コミュニケーション研究の分野から引き出された5つの人間の感覚システム(視覚,聴覚,触覚,嗅覚,嗅覚)に対処する,人間とロボットのインタラクションのための決定的な非言語コード(HRI)について述べる。
本稿では,これらのコードがどのようにHRIの設計パターンに変換できるかを,通信研究とHRI文献のキュレートされたサンプルを用いて論じる。
非言語コードは人間のコミュニケーションにおいて必須のモードであるので、HRIにロボット非言語コードを統合することで、ロボットに「生き生き」や「社会的エージェンシー」の感覚を与えることができると我々は主張する。
我々は、HRIの分野における非言語コミュニケーションの取り組みを刺激し、人間とロボット間のコミュニケーションを改善するための研究の方向性を提案する。 Communication between people is characterized by a broad range of nonverbal cues. Transferring these cues into the design of robots and other artificial agents that interact with people may foster more natural, inviting, and accessible experiences. In this position paper, we offer a series of definitive nonverbal codes for human-robot interaction (HRI) that address the five human sensory systems (visual, auditory, haptic, olfactory, gustatory) drawn from the field of communication studies. We discuss how these codes can be translated into design patterns for HRI using a curated sample of the communication studies and HRI literatures. As nonverbal codes are an essential mode in human communication, we argue that integrating robotic nonverbal codes in HRI will afford robots a feeling of "aliveness" or "social agency" that would otherwise be missing. We end with suggestions for research directions to stimulate work on nonverbal communication within the field of HRI and improve communication between human and robots. | 翻訳日:2023-04-25 19:26:57 公開日:2023-04-22 |
# アプリレビューにおけるエネルギー関連課題の特定について On the Identification of the Energy related Issues from the App Reviews ( http://arxiv.org/abs/2304.11292v1 ) ライセンス: Link先を確認 | Noshin Nawal | (参考訳) アプリのエネルギ非効率性は、App Storeで広く議論されているアプリユーザーにとって大きな問題となる可能性がある。
これまでの研究では、エネルギー関連アプリのレビューを調査して、エネルギー関連ユーザのフィードバックの主要な原因やカテゴリを特定することが重要であった。
しかし、エネルギー関連アプリのレビューを自動的に抽出する研究は行われていない。
本稿では,エネルギー関連ユーザのフィードバックを自動的に抽出する様々な手法を実証的に研究する。
本研究では,複数の機械学習モデルの精度,f1スコア,実行時間と,関連する特徴の組み合わせ,比較的現代的なニューラルネットワークモデルを比較した。
合計60の機械学習モデルは、6つのニューラルネットワークアーキテクチャと3つのワード埋め込みモデルを使用して構築する30モデルと比較される。
本研究では,この大規模結果集合を開発者が移動可能な可視化ツールを開発した。
その結果,ニューラルネットワークは他の機械学習技術よりも優れており,F1スコアが0.935であることがわかった。
研究結果を再現するため,インタラクティブな可視化ツールをオープンソース化した。
最高の結果を特定し、エネルギー関連のレビューを抽出した後、開発者はアプリケーションのエネルギー非効率に責任を持つ可能性のある新興問題を自動的に調査するために、さまざまなテクニックを比較します。
従来使用されていた文字列マッチングを,最先端トピックモデリングアルゴリズムであるOBTMとAOLDAの2つを用いて実験した。
最後に、様々な機関の開発者や学生と共同で行われた質的研究を行い、これまで分類されたレビューから必要なトピックを特定するための好みを決定する。 The energy inefficiency of the apps can be a major issue for the app users which is discussed on App Stores extensively. Previous research has shown the importance of investigating the energy related app reviews to identify the major causes or categories of energy related user feedback. However, there is no study that efficiently extracts the energy related app reviews automatically. In this paper, we empirically study different techniques for automatic extraction of the energy related user feedback. We compare the accuracy, F1-score and run time of numerous machine-learning models with relevant feature combinations and relatively modern Neural Network-based models. In total, 60 machine learning models are compared to 30 models that we build using six neural network architectures and three word embedding models. We develop a visualization tool for this study through which a developer can traverse through this large-scale result set. The results show that neural networks outperform the other machine learning techniques and can achieve the highest F1-score of 0.935. To replicate the research results, we have open sourced the interactive visualization tool. After identifying the best results and extracting the energy related reviews, we further compare various techniques to help the developers automatically investigate the emerging issues that might be responsible for energy inefficiency of the apps. We experiment the previously used string matching with results obtained from applying two of the state-of-the-art topic modeling algorithms, OBTM and AOLDA. Finally, we run a qualitative study performed in collaboration with developers and students from different institutions to determine their preferences for identifying necessary topics from previously categorized reviews, which shows OBTM produces the most helpful results. | 翻訳日:2023-04-25 19:26:36 公開日:2023-04-22 |
# VisiTherS:人間のシルエットの可視熱赤外立体差の推定 VisiTherS: Visible-thermal infrared stereo disparity estimation of human silhouette ( http://arxiv.org/abs/2304.11291v1 ) ライセンス: Link先を確認 | Noreen Anwar, Philippe Duplessis-Guindon, Guillaume-Alexandre Bilodeau and Wassim Bouachir | (参考訳) 本稿では,人間のシルエットの差分を推定することに着目し,可視熱赤外立体視のための新しいアプローチを提案する。
可視熱赤外線ステレオは、両スペクトルのオクルージョンと異なるテクスチャのマッチング領域を含むいくつかの課題を提起する。
色、テクスチャ、形状の異なる2つのスペクトルのマッチングを見つけることは、タスクをさらに複雑にする。
上記の課題に対処するために,高分解能畳み込みニューラルネットワークを用いて2つのスペクトル間の関係をよりよく捉える手法を提案する。
そのため、機能抽出には修正されたHRNetバックボーンが使用される。
このHRNetバックボーンは、複数のスケールで特徴を抽出するときに細部やテクスチャをキャプチャし、ローカル情報とグローバル情報の両方を活用することができる。
可視領域と熱赤外領域をマッチングするために,2つの修正HRNetストリームを用いて各パッチの特徴を抽出する。
2つのストリームの特徴は結合と相関によって差を予測するために結合される。
公開データセットの結果は、$\leq$1ピクセルの誤差で約18ポイント改善することで、提案手法の有効性を示し、このタスクにおける精度向上の可能性を強調している。
VisiTherSのコードはGitHubで、https://github.com/philippeDG/VisiTherS.comのリンクで公開されている。 This paper presents a novel approach for visible-thermal infrared stereoscopy, focusing on the estimation of disparities of human silhouettes. Visible-thermal infrared stereo poses several challenges, including occlusions and differently textured matching regions in both spectra. Finding matches between two spectra with varying colors, textures, and shapes adds further complexity to the task. To address the aforementioned challenges, this paper proposes a novel approach where a high-resolution convolutional neural network is used to better capture relationships between the two spectra. To do so, a modified HRNet backbone is used for feature extraction. This HRNet backbone is capable of capturing fine details and textures as it extracts features at multiple scales, thereby enabling the utilization of both local and global information. For matching visible and thermal infrared regions, our method extracts features on each patch using two modified HRNet streams. Features from the two streams are then combined for predicting the disparities by concatenation and correlation. Results on public datasets demonstrate the effectiveness of the proposed approach by improving the results by approximately 18 percentage points on the $\leq$ 1 pixel error, highlighting its potential for improving accuracy in this task. The code of VisiTherS is available on GitHub at the following link https://github.com/philippeDG/VisiTherS. | 翻訳日:2023-04-25 19:26:14 公開日:2023-04-22 |
# 機械学習モデルにおける適切な知的財産保護機構の同定:透かし、フィンガープリント、モデルアクセス、アタックの体系化 Identifying Appropriate Intellectual Property Protection Mechanisms for Machine Learning Models: A Systematization of Watermarking, Fingerprinting, Model Access, and Attacks ( http://arxiv.org/abs/2304.11285v1 ) ライセンス: Link先を確認 | Isabell Lederer and Rudolf Mayer and Andreas Rauber | (参考訳) ML(Machine Learning)の商業的利用は拡大しており、同時に、MLモデルはトレーニングが複雑になり、コストも高まっているため、トレーニングされたモデルの知的財産保護(IPP)が圧迫的な問題となっている。
脅威、攻撃、防御をしっかり理解してIPを保護できる他のドメインとは異なり、この点におけるML関連の研究は非常に断片的だ。
これはまた、統一的な見解の欠如と、これらの側面の共通の分類が原因でもある。
本稿では,MLにおけるIPPに関する知見を体系化するとともに,書き込み時に提案された脅威や攻撃,防御に焦点をあてる。
我々は、MLにおけるIPの包括的脅威モデルを構築し、統合された分類において攻撃と防衛を分類し、MLとセキュリティコミュニティの両方から研究をブリッジする。 The commercial use of Machine Learning (ML) is spreading; at the same time, ML models are becoming more complex and more expensive to train, which makes Intellectual Property Protection (IPP) of trained models a pressing issue. Unlike other domains that can build on a solid understanding of the threats, attacks and defenses available to protect their IP, the ML-related research in this regard is still very fragmented. This is also due to a missing unified view as well as a common taxonomy of these aspects. In this paper, we systematize our findings on IPP in ML, while focusing on threats and attacks identified and defenses proposed at the time of writing. We develop a comprehensive threat model for IP in ML, categorizing attacks and defenses within a unified and consolidated taxonomy, thus bridging research from both the ML and security communities. | 翻訳日:2023-04-25 19:25:51 公開日:2023-04-22 |
# 反情報剤からの合意に基づく説明の信頼と信頼 Trust and Reliance in Consensus-Based Explanations from an Anti-Misinformation Agent ( http://arxiv.org/abs/2304.11279v1 ) ライセンス: Link先を確認 | Takane Ueno, Yeongdae Kim, Hiroki Oura, Katie Seaborn | (参考訳) コンセンサスの錯覚は、複数のソースに共通するコンセンサスがあると人々が信じるときに起こるが、ソースは同じであり、「真の」コンセンサスがない。
我々はこの現象を、ソーシャルメディア上でメタ認知を強化するために設計されたAIベースのインテリジェントエージェントの文脈で探求する。
誤情報、特にTwitterのようなプラットフォームでは、現在良い解決策が存在しないグローバルな問題です。
説明可能なAI(XAI)システムとして、エージェントはソーシャルメディアコンテンツの誤表現の性質について、その決定についての説明を提供する。
本稿では,XAIユーザエクスペリエンス(UX)の重要な要素としての信頼(態度)と信頼(行動)の役割と,それらがコンセンサスの錯覚に影響を与えているかどうかを検討した。
発見は信頼の影響ではなく、合意に基づく説明への依存の影響を示す。
この研究は、XAIを利用するアンチミス情報システムの設計、特にユーザ中心の説明の設計を導くかもしれない。 The illusion of consensus occurs when people believe there is consensus across multiple sources, but the sources are the same and thus there is no "true" consensus. We explore this phenomenon in the context of an AI-based intelligent agent designed to augment metacognition on social media. Misinformation, especially on platforms like Twitter, is a global problem for which there is currently no good solution. As an explainable AI (XAI) system, the agent provides explanations for its decisions on the misinformed nature of social media content. In this late-breaking study, we explored the roles of trust (attitude) and reliance (behaviour) as key elements of XAI user experience (UX) and whether these influenced the illusion of consensus. Findings show no effect of trust, but an effect of reliance on consensus-based explanations. This work may guide the design of anti-misinformation systems that use XAI, especially the user-centred design of explanations. | 翻訳日:2023-04-25 19:25:34 公開日:2023-04-22 |
# SAWU-Net:ハイパースペクトル画像のための空間アテンション重み付きアンミックスネットワーク SAWU-Net: Spatial Attention Weighted Unmixing Network for Hyperspectral Images ( http://arxiv.org/abs/2304.11320v1 ) ライセンス: Link先を確認 | Lin Qi, Xuewen Qin, Feng Gao, Junyu Dong, Xinbo Gao | (参考訳) ハイパースペクトルアンミックスは、ハイパースペクトル画像解釈において重要な課題である。
近年,ディープオートエンコーダによるハイパースペクトルアンミックス課題の解決に多大な努力が払われている。
しかし、既存のネットワークは主に混合画素からのスペクトル特徴抽出に重点を置いており、空間特徴の事前知識の活用は依然として不十分である。
そこで我々は,空間的注意ネットワークと重み付き未混合ネットワークをエンドツーエンドに学習し,より優れた空間的特徴利用を実現するための空間的注意ネットワークSAWU-Netを提案する。
特に,画素注目ブロックとウィンドウアテンションブロックから構成される空間アテンションモジュールを設計し,それぞれが画素ベースのスペクトル情報とパッチベースの空間情報を効率的にモデル化する。
重み付けアンミキシングフレームワークでは、中心画素の存在度は周囲のピクセルの粗い粒度によって動的に重み付けされる。
さらに、SAWU-Netは、空間的注意機構を通じて動的に適応的な空間重みを生成し、周囲のピクセルをより効果的に統合する。
実データと合成データを用いた実験の結果,提案する空間的注意機構の有効性を反映したsawu-netの精度と優越性が示された。 Hyperspectral unmixing is a critical yet challenging task in hyperspectral image interpretation. Recently, great efforts have been made to solve the hyperspectral unmixing task via deep autoencoders. However, existing networks mainly focus on extracting spectral features from mixed pixels, and the employment of spatial feature prior knowledge is still insufficient. To this end, we put forward a spatial attention weighted unmixing network, dubbed as SAWU-Net, which learns a spatial attention network and a weighted unmixing network in an end-to-end manner for better spatial feature exploitation. In particular, we design a spatial attention module, which consists of a pixel attention block and a window attention block to efficiently model pixel-based spectral information and patch-based spatial information, respectively. While in the weighted unmixing framework, the central pixel abundance is dynamically weighted by the coarse-grained abundances of surrounding pixels. In addition, SAWU-Net generates dynamically adaptive spatial weights through the spatial attention mechanism, so as to dynamically integrate surrounding pixels more effectively. Experimental results on real and synthetic datasets demonstrate the better accuracy and superiority of SAWU-Net, which reflects the effectiveness of the proposed spatial attention mechanism. | 翻訳日:2023-04-25 19:18:27 公開日:2023-04-22 |
# 画像と画像の変換のためのスペクトル正規化デュアルコントラスト正規化 Spectral normalized dual contrastive regularization for image-to-image translation ( http://arxiv.org/abs/2304.11319v1 ) ライセンス: Link先を確認 | Chen Zhao, Wei-Ling Cai, Zheng Yuan | (参考訳) 既存のイメージ・トゥ・イメージ(I2I)翻訳手法は、パッチワイドコントラスト学習をジェネレーティブ・アドバイサル・ネットワークに組み込むことで、最先端の性能を実現する。
しかしながら、パッチによるコントラスト学習は局所的なコンテンツの類似性のみに焦点を当てるが、生成された画像の品質に影響を与えるグローバル構造制約を無視する。
本稿では,2つのコントラスト正規化とスペクトル正規化に基づく新しい非ペアI2I翻訳フレームワーク,SN-DCRを提案する。
グローバルな構造とテクスチャの整合性を維持するため,異なる特徴空間を用いた二重コントラスト正規化を設計する。
生成した画像のグローバルな構造情報を改善するため,意味的特徴空間における対象領域の実際の画像と類似した生成画像のグローバルな意味構造を構築するために,意味的コントラスト的損失を定式化する。
画像からテクスチャのスタイルを抽出するためにGram Matricesを使用します。
同様に、生成画像のグローバルテクスチャ情報を改善するために、スタイルコントラストロスを設計する。
さらに,モデルの安定性を高めるため,スペクトル正規化畳み込みネットワークを発生器の設計に用いた。
SN-DCRの有効性を評価するための総合実験を行い,本手法が複数のタスクにおいてSOTAを実現することを示す。 Existing image-to-image(I2I) translation methods achieve state-of-the-art performance by incorporating the patch-wise contrastive learning into Generative Adversarial Networks. However, patch-wise contrastive learning only focuses on the local content similarity but neglects the global structure constraint, which affects the quality of the generated images. In this paper, we propose a new unpaired I2I translation framework based on dual contrastive regularization and spectral normalization, namely SN-DCR. To maintain consistency of the global structure and texture, we design the dual contrastive regularization using different feature spaces respectively. In order to improve the global structure information of the generated images, we formulate a semantically contrastive loss to make the global semantic structure of the generated images similar to the real images from the target domain in the semantic feature space. We use Gram Matrices to extract the style of texture from images. Similarly, we design style contrastive loss to improve the global texture information of the generated images. Moreover, to enhance the stability of model, we employ the spectral normalized convolutional network in the design of our generator. We conduct the comprehensive experiments to evaluate the effectiveness of SN-DCR, and the results prove that our method achieves SOTA in multiple tasks. | 翻訳日:2023-04-25 19:18:05 公開日:2023-04-22 |
# 誤情報検出のための半教師付きフレームワーク A Semi-Supervised Framework for Misinformation Detection ( http://arxiv.org/abs/2304.11318v1 ) ライセンス: Link先を確認 | Yueyang Liu, Zois Boukouvalas, and Nathalie Japkowicz | (参考訳) ソーシャルメディアにおける誤報の拡散は、社会問題として普及し、様々な社会的不安の原因となっている。
その普及度を測ることは非常に重要であり、機械学習は大きな可能性を秘めている。
しかし、この問題に機械学習を適用する場合、大きな課題が2つある。
第一に、ある面ではあまりにも一般的すぎるが、事実、誤報はソーシャルメディアで見られる投稿のごく一部にすぎない。
第二に、有用な分類器の訓練に必要な膨大なデータのラベル付けが非現実的になる。
これらの課題を考慮し、マイノリティクラスを膨らませるためにシミュレーションデータではなく、実際のデータを使うという他のアプローチよりも有利な極端なクラス不均衡に対処するための、単純な半教師付き学習フレームワークを提案する。
2組のcovid-19関連twitterデータをテストし,smote,adasyn,ganベースのデータ生成などの単純な古典的およびディープラーニングデータ生成手法と比較して,極めて不均衡なシナリオにおけるf1測定の大幅な改善を得た。 The spread of misinformation in social media outlets has become a prevalent societal problem and is the cause of many kinds of social unrest. Curtailing its prevalence is of great importance and machine learning has shown significant promise. However, there are two main challenges when applying machine learning to this problem. First, while much too prevalent in one respect, misinformation, actually, represents only a minor proportion of all the postings seen on social media. Second, labeling the massive amount of data necessary to train a useful classifier becomes impractical. Considering these challenges, we propose a simple semi-supervised learning framework in order to deal with extreme class imbalances that has the advantage, over other approaches, of using actual rather than simulated data to inflate the minority class. We tested our framework on two sets of Covid-related Twitter data and obtained significant improvement in F1-measure on extremely imbalanced scenarios, as compared to simple classical and deep-learning data generation methods such as SMOTE, ADASYN, or GAN-based data generation. | 翻訳日:2023-04-25 19:17:39 公開日:2023-04-22 |
# ニューラルネットワークを用いたモデル予測制御による不確実性緩和 Unmatched uncertainty mitigation through neural network supported model predictive control ( http://arxiv.org/abs/2304.11315v1 ) ライセンス: Link先を確認 | Mateus V. Gasparino, Prabhat K. Mishra, Girish Chowdhary | (参考訳) 本稿では,未知構造の非整合かつ有界な状態依存的不確実性を持つシステムに対する,ディープラーニングに基づくモデル予測制御(MPC)アルゴリズムを提案する。
我々は、学習ベースMPC(LBMPC)の最適化問題において、深層ニューラルネットワーク(DNN)をオラクルとして利用し、不一致を推定する。
一般に、DNNのような非パラメトリックオラクルは、その係数をリアルタイムで推定する技術的な困難のため、LBMPCでの使用が難しいと考えられている。
ニューラルネットワークの最後のレイヤの重みをリアルタイムで更新し,内部レイヤをオンラインに収集し,バッファに選択的に格納したトレーニングデータを用いて,より遅い時間スケールでトレーニングする,デュアルタイムスケール適応機構を採用する。
本結果は,ジェットエンジンの圧縮システムモデルに関する数値実験により検証した。
これらの結果は,提案手法がリアルタイムに実装可能であり,lbmpcの理論的保証を満たしていることを示している。 This paper presents a deep learning based model predictive control (MPC) algorithm for systems with unmatched and bounded state-action dependent uncertainties of unknown structure. We utilize a deep neural network (DNN) as an oracle in the underlying optimization problem of learning based MPC (LBMPC) to estimate unmatched uncertainties. Generally, non-parametric oracles such as DNN are considered difficult to employ with LBMPC due to the technical difficulties associated with estimation of their coefficients in real time. We employ a dual-timescale adaptation mechanism, where the weights of the last layer of the neural network are updated in real time while the inner layers are trained on a slower timescale using the training data collected online and selectively stored in a buffer. Our results are validated through a numerical experiment on the compression system model of jet engine. These results indicate that the proposed approach is implementable in real time and carries the theoretical guarantees of LBMPC. | 翻訳日:2023-04-25 19:17:18 公開日:2023-04-22 |
# 合理的に拡張された調和振動子ポテンシャル、等スペクトル族および不確実性関係 Rationally Extended Harmonic Oscillator potential, Isospectral Family and the Uncertainity Relations ( http://arxiv.org/abs/2304.11314v1 ) ライセンス: Link先を確認 | Rajesh Kumar, Rajesh Kumar Yadav and Avinash Khare | (参考訳) 我々は、従来のものと等スペクトルな有理拡張調和振動子ポテンシャルと、その解が例外となる$X_m$-エルミート多項式と結びついていることを考察し、その様々な重要な性質を$m$の異なる余次元に対して議論する。
異なる$m$に対して不確実性関係が得られ、基底状態において、$m$が増加するにつれて不確実性が増加することを示す。
この拡張調和振動子電位に対応する、正確に解けるアイソスペクトルポテンシャルの1つのパラメータ$(\lambda)$族を得る。
それぞれPurseyとAbhram-Mosesのポテンシャルを与える$\lambda=0$と$\lambda = -1$に対応する特別なケースについて議論する。
m$ と $\lambda$ の異なるポテンシャルの等スペクトル族全体の不確実性関係も計算される。 We consider the rationally extended harmonic oscillator potential which is isospectral to the conventional one and whose solutions are associated with the exceptional, $X_m$- Hermite polynomials and discuss its various important properties for different even codimension of $m$. The uncertainty relations are obtained for different $m$ and it is shown that for the ground state, the uncertainity increases as $m$ increases. A one parameter $(\lambda)$ family of exactly solvable isospectral potential corresponding to this extended harmonic oscillator potential is obtained. Special cases corresponding to the $\lambda=0$ and $\lambda = -1$, which give the Pursey and the Abhram-Moses potentials respectively, are discussed. The uncertainty relations for the entire isospectral family of potentials for different $m$ and $\lambda$ are also calculated. | 翻訳日:2023-04-25 19:17:01 公開日:2023-04-22 |
# BiTrackGAN: 顔の老化を抑制するためのカスケードサイクルGAN BiTrackGAN: Cascaded CycleGANs to Constraint Face Aging ( http://arxiv.org/abs/2304.11313v1 ) ライセンス: Link先を確認 | Tsung-Han Kuo, Zhenge Jia, Tei-Wei Kuo, Jingtong Hu | (参考訳) 現代のコンピュータビジョン技術の精度が向上し、多くのアクセス制御システムはより高速な識別のための顔認識機能を備えている。
高い認識精度を維持するためには、顔データベースを最新に保つ必要がある。
しかし、人間の努力によってシステムのユーザーの最新の顔写真を集めることは現実的ではない。
そこで本研究では,提案するネットワークのボトムアップトレーニング手法を提案する。
提案するネットワークは,BiTrackGANと呼ばれる2つのCycleGANブロックをカスケードする翻訳パイプラインである。
ボトムアップトレーニングにより、2つのCycleGANブロック、すなわち制約機構の間の理想的な中間状態が誘導される。
BiTrackGANは、他のCycleGAN関連法よりも合理的で多様な顔合成を実現する。
私たちの知る限り、CycleGANアプローチによるより合理的かつ正確な老化合成のための、新しく効果的な制約機構である。 With the increased accuracy of modern computer vision technology, many access control systems are equipped with face recognition functions for faster identification. In order to maintain high recognition accuracy, it is necessary to keep the face database up-to-date. However, it is impractical to collect the latest facial picture of the system's user through human effort. Thus, we propose a bottom-up training method for our proposed network to address this challenge. Essentially, our proposed network is a translation pipeline that cascades two CycleGAN blocks (a widely used unpaired image-to-image translation generative adversarial network) called BiTrackGAN. By bottom-up training, it induces an ideal intermediate state between these two CycleGAN blocks, namely the constraint mechanism. Experimental results show that BiTrackGAN achieves more reasonable and diverse cross-age facial synthesis than other CycleGAN-related methods. As far as we know, it is a novel and effective constraint mechanism for more reason and accurate aging synthesis through the CycleGAN approach. | 翻訳日:2023-04-25 19:16:46 公開日:2023-04-22 |
# 平均値推定のためのルックアヘッド拡散確率モデル Lookahead Diffusion Probabilistic Models for Refining Mean Estimation ( http://arxiv.org/abs/2304.11312v1 ) ライセンス: Link先を確認 | Guoqiang Zhang, Niwa Kenta, W. Bastiaan Kleijn | (参考訳) 本研究では, 深部ニューラルネットワーク(DNN)の出力と拡散確率モデル(DPM)の時間経過の相関を利用して, 後方過程における条件付きガウス分布の平均推定を改良するルックアヘッド拡散確率モデル(LA-DPM)を提案する。
典型的な DPM は DNN モデルに最新の状態 $\boldsymbol{z}_i$ と index $i$ を供給し、次に条件付きガウス分布の平均ベクトルを $\boldsymbol{z}_{i-1}$ で計算することで、元のデータサンプル $\boldsymbol{x}$ の推定値を得る。
DNNモデルに$(\boldsymbol{z}_{i+1},i+1)$と$(\boldsymbol{z}_{i+1},i)$を供給して得られる$(\boldsymbol{x},i)$の2つの推定値に対する外挿を行うことにより、$\boldsymbol{x}$のより正確な推定を計算することを提案する。
補間は、2つの連続した時間ステップに付加的な接続を導入することで既存のDPMの後方プロセスに容易に統合でき、微調整は不要である。
DDPM, DDIM, DEIS, S-PNDM, および高次DPM-Solversへの追加接続がFIDスコアにおいて顕著な性能向上をもたらすことを示した。 We propose lookahead diffusion probabilistic models (LA-DPMs) to exploit the correlation in the outputs of the deep neural networks (DNNs) over subsequent timesteps in diffusion probabilistic models (DPMs) to refine the mean estimation of the conditional Gaussian distributions in the backward process. A typical DPM first obtains an estimate of the original data sample $\boldsymbol{x}$ by feeding the most recent state $\boldsymbol{z}_i$ and index $i$ into the DNN model and then computes the mean vector of the conditional Gaussian distribution for $\boldsymbol{z}_{i-1}$. We propose to calculate a more accurate estimate for $\boldsymbol{x}$ by performing extrapolation on the two estimates of $\boldsymbol{x}$ that are obtained by feeding $(\boldsymbol{z}_{i+1},i+1)$ and $(\boldsymbol{z}_{i},i)$ into the DNN model. The extrapolation can be easily integrated into the backward process of existing DPMs by introducing an additional connection over two consecutive timesteps, and fine-tuning is not required. Extensive experiments showed that plugging in the additional connection into DDPM, DDIM, DEIS, S-PNDM, and high-order DPM-Solvers leads to a significant performance gain in terms of FID score. | 翻訳日:2023-04-25 19:16:30 公開日:2023-04-22 |
# Bethe-Born近似に基づく水素原子の同時電子-光子励起の新しい研究 Fresh study of simultaneous electron-photon excitation of a Hydrogen atom based on Bethe-Born approximation ( http://arxiv.org/abs/2304.11304v1 ) ライセンス: Link先を確認 | Behnam Nikoobakht | (参考訳) 強力なレーザー源の出現により、水素原子の励起状態の比較的大きな断面を観測できるようになった。
これは、直線偏極したn$-photonと高エネルギー電子の合同衝突の影響である。
このような過程において, レーザー磁場が電子の初期運動量と垂直あるいは平行であるジオメトリーの励起断面積を評価する。
遷移振幅を得るために、入射エネルギーが大きい電子に適した2次時間依存摂動理論とbethe-born近似を用いる。
振幅は非相対論的グリーン関数のストゥルミアン表現における水素原子のS-SおよびS-D遷移に対して計算される。
特に,初期状態が1S$,最終状態がn\in \lbrace 2,3,4,5\rbrace$である遷移の励起断面について検討する。
励起断面の運動量に対する特性依存性を示し, 考察した。
本研究は、高エネルギー投射体を処理した場合、Bethe-Born近似が同時電子光子励起過程の励起断面積に対して妥当な結果をもたらすことを示す。 The advent of powerful laser sources has made it possible to observe a relatively large cross section of the excited state of Hydrogen atom. This is due to the effect of joint collisions of a linearly polarized $N$-photon and high-energy electron. For such a process, we evaluate the excitation cross section for geometries, in which the laser field is perpendicular or parallel to the initial momentum of the electron. The second-order, time-dependent perturbation theory together with Bethe-Born approximation suitable for an electron with a large incident energy is employed to obtain the transition amplitude. The amplitudes are calculated for the S-S and S-D transitions of the Hydrogen atom in the Sturmian representation of the non-relativistic Green's function. In particular, we investigate the excitation cross sections for transitions, which have an initial state $1S$ and final state nS with $n\in \lbrace 2,3,4,5\rbrace$. The characteristic dependence of the excitation cross section on the momentum of the projectile is shown and discussed. Our investigation indicates that the Bethe-Born approximation yields reasonable results for the excitation cross section of the simultaneous electron photon excitation process when a high energy projectile is treated. | 翻訳日:2023-04-25 19:15:56 公開日:2023-04-22 |
# mawseo: 悪質なオンラインプロモーションのためのウィキ検索中毒 MAWSEO: Adversarial Wiki Search Poisoning for Illicit Online Promotion ( http://arxiv.org/abs/2304.11300v1 ) ライセンス: Link先を確認 | Zilong Lin, Zhengyi Li, Xiaojing Liao, XiaoFeng Wang, Xiaozhong Liu | (参考訳) Wiki検索中毒(Wiki search poisoning for illicit promotion)は、ウィキ記事の編集と、関連するクエリのWiki検索結果による不正なビジネスの促進を目的としたサイバー犯罪である。
本稿では,Wiki上のステルスブラックハットSEOが自動化可能であることを示す研究を報告する。
我々の技術はMAWSEOと呼ばれ、現実のサイバー犯罪の目的を達成するために、ランクアップ、破壊的検出回避、トピック関連性、セマンティック一貫性、プロモーションコンテンツのユーザ認識(警告はしない)など、敵対的な修正を用いています。
我々の評価とユーザスタディにより、MAWSEOは、最先端のWiki破壊検知器をバイパスし、アラームをトリガーすることなく、Wikiユーザーにプロモーションコンテンツを提供する、敵の破壊的編集を効果的かつ効率的に生成できることを示した。
さらに, ウィキエコシステムにおける攻撃に対するコヒーレンスに基づく検出および破壊行為検出の敵意訓練を含む潜在的防御について検討した。 As a prominent instance of vandalism edits, Wiki search poisoning for illicit promotion is a cybercrime in which the adversary aims at editing Wiki articles to promote illicit businesses through Wiki search results of relevant queries. In this paper, we report a study that, for the first time, shows that such stealthy blackhat SEO on Wiki can be automated. Our technique, called MAWSEO, employs adversarial revisions to achieve real-world cybercriminal objectives, including rank boosting, vandalism detection evasion, topic relevancy, semantic consistency, user awareness (but not alarming) of promotional content, etc. Our evaluation and user study demonstrate that MAWSEO is able to effectively and efficiently generate adversarial vandalism edits, which can bypass state-of-the-art built-in Wiki vandalism detectors, and also get promotional content through to Wiki users without triggering their alarms. In addition, we investigated potential defense, including coherence based detection and adversarial training of vandalism detection, against our attack in the Wiki ecosystem. | 翻訳日:2023-04-25 19:15:38 公開日:2023-04-22 |
# ダイナミックな$N$- Photon束放出 Dynamical $N$-photon bundle emission ( http://arxiv.org/abs/2304.11298v1 ) ライセンス: Link先を確認 | Fen Zou, Yong Li, Jie-Qiao Liao | (参考訳) 工学的多光子資源は、量子計測、量子リソグラフィ、生物センシングにおいて重要である。
ここでは,n$強相関光子の動的放出の概念を提案する。
これは2つのガウスパルス列によって駆動される回路量子電磁力学系で実現される。
基礎となる物理的メカニズムは、ターゲットの多光子状態の効率的かつ選択的な準備を可能にする刺激されたラマン断熱通路に依存する。
光子崩壊の助けを借りて、非常に純粋なn$-photonバンドルの放出がこの系で起こる。
特に、ダイナミックな$N$- Photon束の放出は、連続するパルス間の時間間隔を制御し、要求に応じてトリガーできる$N$- Photonガンとして振る舞うように調整することができる。
我々の研究は、量子情報処理や量子気象学に広く応用できる多光子源デバイスを実現するための道を開く。 Engineering multiphoton resources is of importance in quantum metrology, quantum lithography, and biological sensing. Here we propose a concept of dynamical emission of $N$ strongly-correlated photons. This is realized in a circuit quantum electrodynamical system driven by two Gaussian-pulse sequences. The underlying physical mechanism relies on the stimulated Raman adiabatic passage that allows efficient and selective preparation of target multiphoton states. Assisted by the photon decay, a highly pure $N$-photon bundle emission takes place in this system. In particular, the dynamical $N$-photon bundle emission can be tuned by controlling the time interval between consecutive pulses so that the device behaves as an $N$-photon gun, which can be triggered on demand. Our work opens up a route to achieve multiphoton source devices, which have wide potential applications in quantum information processing and quantum metrology. | 翻訳日:2023-04-25 19:15:15 公開日:2023-04-22 |
# 知識に基づく単語センスの曖昧化のためのセマンティックスペシャライゼーション Semantic Specialization for Knowledge-based Word Sense Disambiguation ( http://arxiv.org/abs/2304.11340v1 ) ライセンス: Link先を確認 | Sakae Mizuki and Naoaki Okazaki | (参考訳) 知識に基づくWord Sense Disambiguation (WSD) に対する有望なアプローチは、定義文で計算された文脈的埋め込みが、与えられた文中の対象語に対して計算されたものと最も近い感覚を選択することである。
このアプローチは、事前訓練された言語モデルによって計算された \textit{sense} と \textit{context} の埋め込みの類似性に依存する。
本稿では,文脈適応型埋め込みを語彙知識のみを用いてWSDタスクに適用するWSDのセマンティック特殊化を提案する。
キーとなる考え方は、ある意味において意味論的に関連づけられた感覚と文脈をより近づけ、異なる/無関係な感覚を遠くに送ることである。
この考え方は,感覚ペアに対するAttract-Repel目標と,コンテキストセンスペアに対する自己学習目標の協調最適化として実現し,元の埋め込みからの逸脱を制御した。
提案手法は, 従来の文脈適応型埋め込みよりも優れていた。
知識に基づくWSDで最先端のパフォーマンスを達成し、センスインベントリを使用したリグレードヒューリスティックと組み合わせた。
特殊埋め込みの類似性特性が鍵となる概念と一致することがわかった。
また、関連する/微分/非関連感覚間の埋め込みの(dis)相似性は、wsdのパフォーマンスとよく相関することがわかった。 A promising approach for knowledge-based Word Sense Disambiguation (WSD) is to select the sense whose contextualized embeddings computed for its definition sentence are closest to those computed for a target word in a given sentence. This approach relies on the similarity of the \textit{sense} and \textit{context} embeddings computed by a pre-trained language model. We propose a semantic specialization for WSD where contextualized embeddings are adapted to the WSD task using solely lexical knowledge. The key idea is, for a given sense, to bring semantically related senses and contexts closer and send different/unrelated senses farther away. We realize this idea as the joint optimization of the Attract-Repel objective for sense pairs and the self-training objective for context-sense pairs while controlling deviations from the original embeddings. The proposed method outperformed previous studies that adapt contextualized embeddings. It achieved state-of-the-art performance on knowledge-based WSD when combined with the reranking heuristic that uses the sense inventory. We found that the similarity characteristics of specialized embeddings conform to the key idea. We also found that the (dis)similarity of embeddings between the related/different/unrelated senses correlates well with the performance of WSD. | 翻訳日:2023-04-25 19:08:32 公開日:2023-04-22 |
# 抵抗型メモリ加速器シミュレーションに基づくディープニューラルネットワークの展開 A Deep Neural Network Deployment Based on Resistive Memory Accelerator Simulation ( http://arxiv.org/abs/2304.11337v1 ) ライセンス: Link先を確認 | Tejaswanth Reddy Maram, Ria Barnwal, Dr. Bindu B | (参考訳) 本研究の目的は、アプリケーションプログラミングインタフェース(API)であるCrossSimを用いて、Resistive RAM(ReRAM)クロスバーベースのシミュレーション環境において、ディープニューラルネットワーク(DNN)をトレーニングする過程を説明することである。
crosssim apiは、非線形およびノイズの多いreramデバイスでのトレーニング中の解の正確性に影響を与える要因を考慮して、ニューラルネットワークをシミュレートするように設計されている。
チップ上のデジタルコアのメモリアクセラレータとして機能するReRAMベースのニューラルコアは、プロセッサとSRAMとDRAM間のデータ転送を最小限にすることで、消費電力を大幅に削減することができる。
CrossSimは、実製造されたReRAMデバイスの実験的に導出されたデータセットから得られるルックアップテーブルを使用して、ニューラルネットワークのノイズの多い重量更新をデジタルに再現する。
CrossSimディレクトリは8つのデバイス構成で構成されており、異なる温度で動作する。
本研究の目的は、CrossSimを用いた乳がんウィスコンシン州(Diagnostic)データセット上でニューラルネットワークをトレーニングした結果を分析し、インナーコアウェイト更新と平均トレーニングとバリデーション損失をプロットして、すべてのデバイスの結果を調べることである。 The objective of this study is to illustrate the process of training a Deep Neural Network (DNN) within a Resistive RAM (ReRAM) Crossbar-based simulation environment using CrossSim, an Application Programming Interface (API) developed for this purpose. The CrossSim API is designed to simulate neural networks while taking into account factors that may affect the accuracy of solutions during training on non-linear and noisy ReRAM devices. ReRAM-based neural cores that serve as memory accelerators for digital cores on a chip can significantly reduce energy consumption by minimizing data transfers between the processor and SRAM and DRAM. CrossSim employs lookup tables obtained from experimentally derived datasets of real fabricated ReRAM devices to digitally reproduce noisy weight updates to the neural network. The CrossSim directory comprises eight device configurations that operate at different temperatures and are made of various materials. This study aims to analyse the results of training a Neural Network on the Breast Cancer Wisconsin (Diagnostic) dataset using CrossSim, plotting the innercore weight updates and average training and validation loss to investigate the outcomes of all the devices. | 翻訳日:2023-04-25 19:08:13 公開日:2023-04-22 |
# lipschitz-regularized variational autoencoderを用いた微分プライベートな合成データ生成 Differentially Private Synthetic Data Generation via Lipschitz-Regularised Variational Autoencoders ( http://arxiv.org/abs/2304.11336v1 ) ライセンス: Link先を確認 | Benedikt Gro{\ss}, Gerhard Wunder | (参考訳) 合成データは、プライバシー保護データ分析のための銀の弾丸として称賛されている。
もしレコードが本物でなければ、どうやって人のプライバシーを侵害するのか?
さらに、深層学習に基づく生成モデルを用いて、データから複雑な高次元分布を近似し、この学習分布から現実的なサンプルを描画する。
しかし、生成モデルは個々のトレーニング記録の多くの詳細を記憶する傾向があり、基礎となる機密的なトレーニングデータに近づきすぎる合成データを生成するため、例えば医療で遭遇したような強力なプライバシー規制に違反することが多い。
differential privacy(ディファレンシャルプライバシ、ディファレンシャルプライバシ)は、機密性の高い個人のデータの保護を保証するための、よく知られている最先端フレームワークである。
しかしながら、トレーニングメカニズムはトレーニングプロセス中に多くのノイズを発生させることが多く、これらのプライベートモデルの有用性を著しく損なう。
さらに悪いことに、厳格なプライバシー予算は、モデル品質を実際に適切に制御できないように、多くのトレーニングエポックを許さない。
本稿では, 変動オートエンコーダなどの生成モデルにおいて, 固有確率を直接利用したデータを生成する方法について検討する。
主なアイデアは、その上に別のノイズ機構を追加するのではなく、深層モデルの連続性モジュラーを適切に制約することである。
このアプローチでは,数学的に厳密なプライバシ保証を導出し,その有効性を実用実験で示す。 Synthetic data has been hailed as the silver bullet for privacy preserving data analysis. If a record is not real, then how could it violate a person's privacy? In addition, deep-learning based generative models are employed successfully to approximate complex high-dimensional distributions from data and draw realistic samples from this learned distribution. It is often overlooked though that generative models are prone to memorising many details of individual training records and often generate synthetic data that too closely resembles the underlying sensitive training data, hence violating strong privacy regulations as, e.g., encountered in health care. Differential privacy is the well-known state-of-the-art framework for guaranteeing protection of sensitive individuals' data, allowing aggregate statistics and even machine learning models to be released publicly without compromising privacy. The training mechanisms however often add too much noise during the training process, and thus severely compromise the utility of these private models. Even worse, the tight privacy budgets do not allow for many training epochs so that model quality cannot be properly controlled in practice. In this paper we explore an alternative approach for privately generating data that makes direct use of the inherent stochasticity in generative models, e.g., variational autoencoders. The main idea is to appropriately constrain the continuity modulus of the deep models instead of adding another noise mechanism on top. For this approach, we derive mathematically rigorous privacy guarantees and illustrate its effectiveness with practical experiments. | 翻訳日:2023-04-25 19:07:51 公開日:2023-04-22 |
# two birds, one stone: an unified framework for joint learning of image and video style transfers Two Birds, One Stone: A Unified Framework for Joint Learning of Image and Video Style Transfers ( http://arxiv.org/abs/2304.11335v1 ) ライセンス: Link先を確認 | Bohai Gu (1), Heng Fan (2), Libo Zhang (1) ((1) Institute of Software Chinese Academy of Sciences, (2) University of North Texas) | (参考訳) 現在の任意のスタイル転送モデルは、画像ドメインまたはビデオドメインに限られている。
映像と映像の転送を満足させるためには,画像領域と映像領域の訓練プロセスがそれぞれ異なるため,必然的に2つの異なるモデルが必要となる。
本稿では,画像とビデオの両方を対象とした統一スタイル転送フレームワークUniSTを導入することで,これを回避できることを示す。
UniSTのコアとなるドメインインタラクショントランスフォーマー(DIT)は、まず特定のドメイン内のコンテキスト情報を探索し、その後、共同学習のためにコンテキスト化されたドメイン情報と対話する。
特に、DITは、画像スタイル転送タスクのためのビデオからの時間情報の探索を可能にし、一方、映像スタイル転送のための画像からのリッチな外観テクスチャを可能にし、相互に利益をもたらす。
従来のマルチヘッド自己アテンションの計算量を考慮すると,DITのための簡易かつ効果的な軸方向多頭部自己アテンション(AMSA)が提案される。
本研究は,UniSTの有効性を検証するために,画像および映像スタイルの転送タスクについて広範な実験を行い,UniSTが両タスクの最先端アプローチに対して好適に動作することを示す。
コードと結果は公開されます。 Current arbitrary style transfer models are limited to either image or video domains. In order to achieve satisfying image and video style transfers, two different models are inevitably required with separate training processes on image and video domains, respectively. In this paper, we show that this can be precluded by introducing UniST, a Unified Style Transfer framework for both images and videos. At the core of UniST is a domain interaction transformer (DIT), which first explores context information within the specific domain and then interacts contextualized domain information for joint learning. In particular, DIT enables exploration of temporal information from videos for the image style transfer task and meanwhile allows rich appearance texture from images for video style transfer, thus leading to mutual benefits. Considering heavy computation of traditional multi-head self-attention, we present a simple yet effective axial multi-head self-attention (AMSA) for DIT, which improves computational efficiency while maintains style transfer performance. To verify the effectiveness of UniST, we conduct extensive experiments on both image and video style transfer tasks and show that UniST performs favorably against state-of-the-art approaches on both tasks. Our code and results will be released. | 翻訳日:2023-04-25 19:07:26 公開日:2023-04-22 |
# SAMによる入力増強:Segmentation Foundation Modelによる医用画像分割の促進 Input Augmentation with SAM: Boosting Medical Image Segmentation with Segmentation Foundation Model ( http://arxiv.org/abs/2304.11332v1 ) ライセンス: Link先を確認 | Yizhe Zhang, Tao Zhou, Peixian Liang, Danny Z. Chen | (参考訳) Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。
SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。
SAMは、セグメンテーション(イメージを意味のある領域に分割する)の一般的な知覚モデルと見なすことができる。
このように、医療画像セグメンテーションにこのような大きな基盤モデルを利用する方法が、新たな研究対象となっている。
本報告では,samは医用画像の高品質セグメンテーションを直ちに提供していないが,生成したマスク,特徴,安定性スコアは医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
特に,一般に用いられている医用画像分割モデル(U-Netなど)のイメージ入力をSAMで拡張する方法を示す。
2つのデータセットを用いた実験により,提案手法の有効性を示す。 The Segment Anything Model (SAM) is a recently developed large model for general-purpose segmentation for computer vision tasks. SAM was trained using 11 million images with over 1 billion masks and can produce segmentation results for a wide range of objects in natural scene images. SAM can be viewed as a general perception model for segmentation (partitioning images into semantically meaningful regions). Thus, how to utilize such a large foundation model for medical image segmentation is an emerging research target. This paper shows that although SAM does not immediately give high-quality segmentation for medical images, its generated masks, features, and stability scores are useful for building and training better medical image segmentation models. In particular, we demonstrate how to use SAM to augment image inputs for a commonly-used medical image segmentation model (e.g., U-Net). Experiments on two datasets show the effectiveness of our proposed method. | 翻訳日:2023-04-25 19:07:02 公開日:2023-04-22 |
# ビュー合成による自己指導型学習 Self-supervised Learning by View Synthesis ( http://arxiv.org/abs/2304.11330v1 ) ライセンス: Link先を確認 | Shaoteng Liu, Xiangyu Zhang, Tao Hu, Jiaya Jia | (参考訳) 本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。
従来の2D事前学習法とは異なり、VSAはマルチビューデータで事前訓練することができる。
各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成画像である。
VSAのデコーダには、ソースビューを値として、ソースポーズをキーとして、ターゲットポーズをクエリとして使用する、いくつかのクロスアテンションブロックがある。
彼らは目標のビューを合成するためにクロスアテンションを達成します。
この単純なアプローチは、大角ビュー合成を実現し、後者は、ModelNet40の3D分類、ShapeNet Core55、ScanObjectNNなどの下流タスクにおけるトランスフォーマーの適切な初期化である空間不変表現を学習する。
VSAは線形探索のために既存のメソッドを著しく上回り、微調整には競争力がある。
コードは公開される予定だ。 We present view-synthesis autoencoders (VSA) in this paper, which is a self-supervised learning framework designed for vision transformers. Different from traditional 2D pretraining methods, VSA can be pre-trained with multi-view data. In each iteration, the input to VSA is one view (or multiple views) of a 3D object and the output is a synthesized image in another target pose. The decoder of VSA has several cross-attention blocks, which use the source view as value, source pose as key, and target pose as query. They achieve cross-attention to synthesize the target view. This simple approach realizes large-angle view synthesis and learns spatial invariant representation, where the latter is decent initialization for transformers on downstream tasks, such as 3D classification on ModelNet40, ShapeNet Core55, and ScanObjectNN. VSA outperforms existing methods significantly for linear probing and is competitive for fine-tuning. The code will be made publicly available. | 翻訳日:2023-04-25 19:06:45 公開日:2023-04-22 |
# 積分近似の改良による拡散型サンプリングプロセスの高速化について On Accelerating Diffusion-Based Sampling Process via Improved Integration Approximation ( http://arxiv.org/abs/2304.11328v1 ) ライセンス: Link先を確認 | Guoqiang Zhang, Niwa Kenta, W. Bastiaan Kleijn | (参考訳) 1つの一般的な拡散に基づくサンプリング戦略は、逆常微分方程式(ODE)を効果的に解こうとするものである。
得られたODEソルバの係数は、ODE定式化、逆離散時間ステップ、および使用されるODE法により予め決定される。
本稿では,改良された積分近似(IIA)により,特定の係数を最適化することにより,人気のあるODEベースのサンプリングプロセスの高速化を検討する。
各逆時間ステップにおいて、選択された係数に対して平均二乗誤差(MSE)関数を最小化する。
MSEは、元のODEソルバを一連の微細な時間ステップに適用し、原理的には次の拡散隠れ状態を予測するためのより正確な積分近似を与える。
事前学習された拡散モデルが与えられた場合、特定の数の神経機能評価(nfes)のためのiaaの手順は、サンプルのバッチで1回だけ行う必要がある。
選択された係数に対する最小MSE (MMSE) による最適解は、後に復元され再利用され、サンプリングプロセスが高速化される。
EDMおよびDDIMの広範囲にわたる実験により、IIA法はNFEの数が小さい場合に顕著な性能向上をもたらすことが示された。 One popular diffusion-based sampling strategy attempts to solve the reverse ordinary differential equations (ODEs) effectively. The coefficients of the obtained ODE solvers are pre-determined by the ODE formulation, the reverse discrete timesteps, and the employed ODE methods. In this paper, we consider accelerating several popular ODE-based sampling processes by optimizing certain coefficients via improved integration approximation (IIA). At each reverse timestep, we propose to minimize a mean squared error (MSE) function with respect to certain selected coefficients. The MSE is constructed by applying the original ODE solver for a set of fine-grained timesteps which in principle provides a more accurate integration approximation in predicting the next diffusion hidden state. Given a pre-trained diffusion model, the procedure for IIA for a particular number of neural functional evaluations (NFEs) only needs to be conducted once over a batch of samples. The obtained optimal solutions for those selected coefficients via minimum MSE (MMSE) can be restored and reused later on to accelerate the sampling process. Extensive experiments on EDM and DDIM show the IIA technique leads to significant performance gain when the numbers of NFEs are small. | 翻訳日:2023-04-25 19:06:29 公開日:2023-04-22 |
# out-of-distribution generalizationにおける特徴学習の理解に向けて Towards Understanding Feature Learning in Out-of-Distribution Generalization ( http://arxiv.org/abs/2304.11327v1 ) ライセンス: Link先を確認 | Yongqiang Chen, Wei Huang, Kaiwen Zhou, Yatao Bian, Bo Han, James Cheng | (参考訳) out-of-distribution (ood) 一般化の失敗に対する一般的な説明は、経験的リスク最小化 (erm) で訓練されたモデルは、所望の不変な特徴ではなく、散発的な特徴を学ぶことである。
しかし、最近のいくつかの研究は、この説明に異議を唱え、深層ネットワークがOODの一般化に十分な良い特徴を既に学んでいたかもしれないことを見出した。
この議論は、様々なOOD一般化タスクにわたるトレーニングや微調整ニューラルネットとともに、分配内およびOODパフォーマンスの相関にも及んでいる。
これらの矛盾する現象を理解するため、理論的研究を行い、ERMが本質的に急激な特徴と不変な特徴の両方を学習していることを見出した。
一方,ERM事前学習における学習機能の品質は,OOD目標が新しい機能をほとんど学習しないため,最終的なOOD性能に大きな影響を及ぼす。
事前トレーニング中に基盤となるすべての有用な機能をキャプチャできないと、最終的なOODパフォーマンスがさらに制限される。
この問題を改善するため,我々は,すでに学習済みの機能を保持し,新たな機能を複数ラウンドで強化することにより,すべての有用な機能を学ぶようモデルに強制する機能拡張トレーニング(fat)を提案する。
各ラウンドにおいて、保持および拡張操作は、異なる特徴をキャプチャするトレーニングデータの異なるサブセットで実行される。
大規模な実験により、FATはよりリッチな特徴を効果的に学習し、様々な目的に適用した場合のOOD性能を継続的に改善することが示された。 A common explanation for the failure of out-of-distribution (OOD) generalization is that the model trained with empirical risk minimization (ERM) learns spurious features instead of the desired invariant features. However, several recent studies challenged this explanation and found that deep networks may have already learned sufficiently good features for OOD generalization. The debate extends to the in-distribution and OOD performance correlations along with training or fine-tuning neural nets across a variety of OOD generalization tasks. To understand these seemingly contradicting phenomena, we conduct a theoretical investigation and find that ERM essentially learns both spurious features and invariant features. On the other hand, the quality of learned features during ERM pre-training significantly affects the final OOD performance, as OOD objectives rarely learn new features. Failing to capture all the underlying useful features during pre-training will further limit the final OOD performance. To remedy the issue, we propose Feature Augmented Training (FAT ), to enforce the model to learn all useful features by retaining the already learned features and augmenting new ones by multiple rounds. In each round, the retention and augmentation operations are performed on different subsets of the training data that capture distinct features. Extensive experiments show that FAT effectively learns richer features and consistently improves the OOD performance when applied to various objectives. | 翻訳日:2023-04-25 19:06:07 公開日:2023-04-22 |
# 新型コロナウイルス感染拡大に伴うYouTube動画によるマスク使用実態調査 : 韓国を事例として An Investigation of Face Mask Use with Busking Videos on YouTube during COVID-19: a Case Study in South Korea ( http://arxiv.org/abs/2304.11324v1 ) ライセンス: Link先を確認 | Chen Wu, Xingjie Hao, Meiqi Hu, Chengguqiu Dai, Bo Du, Liangpei Zhang | (参考訳) マスク着用は、新型コロナウイルス感染のリスクを軽減し、感染をコントロールするための効果的な手段であり、感染拡大を緩和するためのより良い政策決定には利用調査が重要である。
現在の全世界での調査はほとんどが自己報告されており、保証は困難であり、マスク着用の割合を誇張する可能性がある。
そこで,2019年12月から2020年12月まで,大韓民国を中心に,大量の動画をYouTube上で収集し,屋外におけるマスク使用の客観的調査を報告した。
マスク着用率は、韓国の効果的な生殖数(Rt)と明らかな正の相関がみられ、韓国の人々が新型コロナウイルスの感染に敏感であることが示唆された。
韓国ではマスク着用率が他の一部の国よりも高く、6月と9月の2回の低下は2020年の一時的な緩和に相当する。
本研究は,公共のビッグデータデータを用いて,深層学習技術によるマスク使用の正確な世界的調査を行う可能性を示す。 Wearing face mask is an effective measure to reduce the risk of COVID-19 infections and control its transmission, thus its usage survey is important for better policy decision to mitigate the epidemic spread. Current existing worldwide surveys are mostly self-reported, whose accuracies are hard to guaranteed, and may exaggerate the percentage of face mask wearing. Therefore, we collected busking videos with a large amount on YouTube from December 2019 to December 2020, mainly from South Korea, and reported an objective investigation of face mask use in the crowds outdoor. It is found that the face mask wearing rate has an obvious positive correlation with effective reproductive number (Rt) in the South Korea, which indicates that the people in South Korea kept sensitive to the COVID-19 epidemic. The face mask wearing rate in South Korea is higher than some other countries, and two rate droppings in June and September also corresponds to the temporary remission in 2020. This study shows significant potentials to utilize public big video data to make an accurate worldwide survey of face mask use with the support of deep learning technology. | 翻訳日:2023-04-25 19:05:42 公開日:2023-04-22 |
# EEE - ネットワークベースの最適化パッチによる機械学習モデルの失敗の即時処理 EEE, Remediating the failure of machine learning models via a network-based optimization patch ( http://arxiv.org/abs/2304.11321v1 ) ライセンス: Link先を確認 | Ruiyuan Kang, Dimitrios Kyritsis, Panos Liatsis | (参考訳) ネットワークベースの最適化アプローチであるeeeは、事前トレーニングされたモデルの障害を修復するための検証可能状態推定を提供するために提案されている。
本研究の文脈において最も重要な指標である最適化効率と収束性を改善するために,検証プロセスからの誤差に基づく3面アプローチを踏襲する。
まず,高次元誤差情報を取得するための検証モジュールを設計することにより,エラーの情報内容を改善する。
次に,暗黙的誤りのみを学習する一連の誤り推定器を用い,制約付きアンサンブル探索を用いて高値データを集めることにより,誤り伝達の不確実性を低減する。
最後に、アンサンブル探索を用いて最も繁栄した状態を決定することにより、エラー利用の有効性が向上する。
提案手法の利点は, 多様な状態次元を持つ4つの実世界の工学的問題において実証される。
EEEは、効率と収束の点で、競争力があるか、一般的な最適化手法よりも優れていることが示されている。 A network-based optimization approach, EEE, is proposed for the purpose of providing validation-viable state estimations to remediate the failure of pretrained models. To improve optimization efficiency and convergence, the most important metrics in the context of this research, we follow a three-faceted approach based on the error from the validation process. Firstly, we improve the information content of the error by designing a validation module to acquire high-dimensional error information. Next, we reduce the uncertainty of error transfer by employing an ensemble of error estimators, which only learn implicit errors, and use Constrained Ensemble Exploration to collect high-value data. Finally, the effectiveness of error utilization is improved by using ensemble search to determine the most prosperous state. The benefits of the proposed framework are demonstrated on four real-world engineering problems with diverse state dimensions. It is shown that EEE is either as competitive or outperforms popular optimization methods, in terms of efficiency and convergence. | 翻訳日:2023-04-25 19:05:23 公開日:2023-04-22 |
# SAILER: 判例検索のための構造対応事前学習言語モデル SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval ( http://arxiv.org/abs/2304.11370v1 ) ライセンス: Link先を確認 | Haitao Li, Qingyao Ai, Jia Chen, Qian Dong, Yueyue Wu, Yiqun Liu, Chong Chen, Qi Tian | (参考訳) クエリケースの関連ケースを見つけることを目的とした訴訟検索は、インテリジェントな法的システムにおいて中心的な役割を果たす。
アドホック検索タスクで事前学習が成功したにもかかわらず、訴訟検索における効果的な事前学習戦略が検討されている。
一般的な文書と比較して、訴訟書類は典型的には論理的構造を持つ長いテキストシーケンスである。
しかし、既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
さらに、一般検索とは対照的に、法的ドメインの関連性は重要な法的要素に敏感である。
重要な法的要素の微妙な違いは、関連性の判断に大きな影響を及ぼす可能性がある。
しかし、一般的な目的のために設計された既存の事前訓練言語モデルは、法的要素を扱うために装備されていない。
これらの問題に対処するため,本論文では,LEgal ケース検索のための構造対応事前言語モデルである SAILER を提案する。
1) SILERは, 訴訟文書に含まれる構造情報を十分に活用し, 法律専門家が訴訟文書を閲覧する方法と同様, 重要な法的要素に注意を払っている。
2) SAILERは、非対称エンコーダデコーダアーキテクチャを用いて、いくつかの異なる事前学習目標を統合する。
このように、タスク間のリッチな意味情報を高密度ベクトルに符号化する。
(3)SAILERは、法的注釈データなしでも強力な識別能力を有する。
異なる料金で訴訟を正確に区別することができる。
提案手法は, 従来の判例検索手法よりもはるかに優れていることを示す。 Legal case retrieval, which aims to find relevant cases for a query case, plays a core role in the intelligent legal system. Despite the success that pre-training has achieved in ad-hoc retrieval tasks, effective pre-training strategies for legal case retrieval remain to be explored. Compared with general documents, legal case documents are typically long text sequences with intrinsic logical structures. However, most existing language models have difficulty understanding the long-distance dependencies between different structures. Moreover, in contrast to the general retrieval, the relevance in the legal domain is sensitive to key legal elements. Even subtle differences in key legal elements can significantly affect the judgement of relevance. However, existing pre-trained language models designed for general purposes have not been equipped to handle legal elements. To address these issues, in this paper, we propose SAILER, a new Structure-Aware pre-traIned language model for LEgal case Retrieval. It is highlighted in the following three aspects: (1) SAILER fully utilizes the structural information contained in legal case documents and pays more attention to key legal elements, similar to how legal experts browse legal case documents. (2) SAILER employs an asymmetric encoder-decoder architecture to integrate several different pre-training objectives. In this way, rich semantic information across tasks is encoded into dense vectors. (3) SAILER has powerful discriminative ability, even without any legal annotation data. It can distinguish legal cases with different charges accurately. Extensive experiments over publicly available legal benchmarks demonstrate that our approach can significantly outperform previous state-of-the-art methods in legal case retrieval. | 翻訳日:2023-04-25 18:59:49 公開日:2023-04-22 |
# 2部グラフ解析によるつぶやきの政治的意見の検出:スリップ集約グラフ畳み込みアプローチ Detecting Political Opinions in Tweets through Bipartite Graph Analysis: A Skip Aggregation Graph Convolution Approach ( http://arxiv.org/abs/2304.11367v1 ) ライセンス: Link先を確認 | Xingyu Peng, Zhenkun Zhou, Chong Zhang, Ke Xu | (参考訳) 世論は政治的意思決定を形作る上で重要な要素である。
今日では、ソーシャルメディアは、個人が政治的議論に参加し、自分の政治的見解を述べる上で不可欠なプラットフォームとなり、研究者に世論を分析する貴重なリソースを提供している。
本稿では、2020年の米国大統領選挙に焦点を当て、Twitterから大規模なデータセットを作成する。
ツイート中の政治的意見を検出するために,ユーザの投稿やリツイート行動に基づくユーザ-ツイート二部グラフを構築し,タスクをグラフニューラルネットワーク(gnn)ベースのノード分類問題に変換する。
そこで本研究では,グラフの2部構成性にもとづくツイートノードである2次の隣人からの情報をツイートノードに集約し,ユーザの行動情報を効果的に活用する,新しいスキップ集約機構を提案する。
実験結果から,提案モデルがいくつかの競争ベースラインを著しく上回ることがわかった。
さらなる分析により,ユーザの行動情報の重要性とスキップアグリゲーションの有効性が示された。 Public opinion is a crucial factor in shaping political decision-making. Nowadays, social media has become an essential platform for individuals to engage in political discussions and express their political views, presenting researchers with an invaluable resource for analyzing public opinion. In this paper, we focus on the 2020 US presidential election and create a large-scale dataset from Twitter. To detect political opinions in tweets, we build a user-tweet bipartite graph based on users' posting and retweeting behaviors and convert the task into a Graph Neural Network (GNN)-based node classification problem. Then, we introduce a novel skip aggregation mechanism that makes tweet nodes aggregate information from second-order neighbors, which are also tweet nodes due to the graph's bipartite nature, effectively leveraging user behavioral information. The experimental results show that our proposed model significantly outperforms several competitive baselines. Further analyses demonstrate the significance of user behavioral information and the effectiveness of skip aggregation. | 翻訳日:2023-04-25 18:59:28 公開日:2023-04-22 |
# 周期系におけるキャビティ誘起電荷移動:長さゲージ形式 Cavity-induced charge transfer in periodic systems: length-gauge formalism ( http://arxiv.org/abs/2304.11364v1 ) ライセンス: Link先を確認 | Ekaterina Vlasiuk, Valerii K. Kozin, Jelena Klinovaja, Daniel Loss, Ivan V. Iorsh, Ilya V. Tokatly | (参考訳) 光-物質相互作用を誘導する光子空洞の存在下で1次元周期格子系を扱うための長ゲージ形式を開発した。
形式主義の目的は、パワー・ジエナウ=ウーリー・ハミルトニアンの文脈で位置作用素を定義するときに生じる数学的曖昧さを取り除くことである。
次に、電子量子系と長波長のフォトニックキャビティモードとの相互作用を摂動的に解析するためにダイアグラム法を用いる。
逆対称性を破った米-meleモデルにおけるキャビティ誘起電荷の不均衡と分極の研究により, 正則性の多様性を示す。 We develop a length-gauge formalism for treating one-dimensional periodic lattice systems in the presence of a photon cavity inducing light-matter interaction. The purpose of the formalism is to remove mathematical ambiguities that occur when defining the position operator in the context of the Power-Zienau-Woolley Hamiltonian. We then use a diagrammatic approach to analyze perturbatively the interaction between an electronic quantum system and a photonic cavity mode of long wavelength. We illustrate the versatility of the formalism by studying the cavity-induced electric charge imbalance and polarization in the Rice-Mele model with broken inversion symmetry. | 翻訳日:2023-04-25 18:59:13 公開日:2023-04-22 |
# 消滅のデコヒーレンスというパズルの扉を閉じる Closing the Door on the Puzzle of Decoherence of Annihilation Quanta ( http://arxiv.org/abs/2304.11362v1 ) ライセンス: Link先を確認 | Siddharth Parashari, Damir Bosnar, Ivica Fri\v{s}\v{c}i\'c, Zdenka Kuncic, Mihael Makek | (参考訳) パラポジトロニウム消滅では、ポジトロントモグラフィを用いた医療画像における信号対バックグラウンドを改善する可能性から、新興ガンマ量子の偏光相関の探索が注目されている。
消滅量子は直交分極を持ち、絡み合った状態であると予測され、この性質を利用して背景に寄与する2つの非相関ガンマ光子と区別することができる。
先行コンプトン散乱による脱コヒーレンス過程後の脱コヒーレンス量子の偏極相関に関する最近の実験的研究は、脱コヒーレンス後の相関の強さに関してかなり異なる結論を示し、そのパズリングの性質を示した。
本研究は,単層ガンマ線偏光計を用いた角距離$0^\circ-50^\circ$におけるコンプトン散乱による脱コヒーレンス後の消滅量子の偏光相関を初めて行う。
さらに,30^\circ$でのコンプトン散乱後の偏光相関を,アクティブおよびパッシブ散乱素子と比較した。
その結果、偏光変調係数で表される相関は、直接光子で測定された相関値と比較して小さな散乱角(0^\circ-30^\circ$)では有意な差は見られず、50^\circ$散乱角では低い変調が観測された。 In para-positronium annihilation, exploration of the polarization correlations of the emerging gamma quanta has gained interest, since it offers a possibility to improve signal-to-background in medical imaging using Positron Emission Tomography. The annihilation quanta have orthogonal polarizations and are predicted to be in an entangled state and this property may be exploited to discriminate them from two uncorrelated gamma photons contributing to the background. Recent experimental studies of polarization correlations of the annihilation quanta after a decoherence process induced by a prior Compton scattering of one of them, had rather different conclusions regarding the strength of the correlation after the decoherence, showing its puzzling nature. In the present work, we perform for the first time, a study of the polarization correlations of annihilation quanta after decoherence via Compton scattering in the angular range $0^\circ-50^\circ$ using single-layer gamma ray polarimeters. In addition, we compare the measured polarization correlations after Compton scattering at $30^\circ$ with an active and a passive scatterer element. The results indicate that the correlation, expressed in terms of the polarimetric modulation factor, shows no significant difference at small scattering angles ($0^\circ-30^\circ$) compared to the correlation measured for direct photons, while lower modulation was observed for $50^\circ$ scattering angle. | 翻訳日:2023-04-25 18:59:00 公開日:2023-04-22 |
# 実顔自己摂動のみを用いた逆顔検出 Detecting Adversarial Faces Using Only Real Face Self-Perturbations ( http://arxiv.org/abs/2304.11359v1 ) ライセンス: Link先を確認 | Qian Wang, Yongqin Xian, Hefei Ling, Jinyuan Zhang, Xiaorui Lin, Ping Li, Jiazhong Chen, and Ning Yu | (参考訳) 敵の攻撃は、入力サンプルに特定のノイズを追加してターゲットシステムの機能を阻害することを目的としており、顔認識システムに適用された場合のセキュリティと堅牢性に潜在的な脅威をもたらす。
既存の防御技術は、特定の対向顔(adv面)の検出において高い精度を達成するが、新しい攻撃方法、特に全く異なるノイズパターンを持つGANベースの攻撃はそれらを回避し、より高い攻撃成功率に達する。
さらに悪いことに、既存の技術は防御を実装する前に攻撃データを必要とするため、防御者には見えない新たな攻撃を防衛することは現実的ではない。
本稿では,3つのヒューリスティックなノイズパターンを持つ実顔を摂動させることにより,adv面の固有一般性を検証し,擬似adv面を生成することを提案する。
実顔と自己摂動のみを使用してadv顔検出を訓練し、被害者の顔認証システムに無関係であり、目に見えない攻撃に無関係である。
そこで本研究では,adv-facesを分散データとして扱うことにより,異常局所色収差に着目したデータ自己摂動,決定境界正規化,最大プール型2値分類器からなる新しいadv-face検出用カスケードシステムを提案する。
LFWとCelebA-HQの8つの勾配ベースと2つのGANベースの攻撃を用いた実験により、本手法が様々な未知の敵攻撃に一般化できることが確認された。 Adversarial attacks aim to disturb the functionality of a target system by adding specific noise to the input samples, bringing potential threats to security and robustness when applied to facial recognition systems. Although existing defense techniques achieve high accuracy in detecting some specific adversarial faces (adv-faces), new attack methods especially GAN-based attacks with completely different noise patterns circumvent them and reach a higher attack success rate. Even worse, existing techniques require attack data before implementing the defense, making it impractical to defend newly emerging attacks that are unseen to defenders. In this paper, we investigate the intrinsic generality of adv-faces and propose to generate pseudo adv-faces by perturbing real faces with three heuristically designed noise patterns. We are the first to train an adv-face detector using only real faces and their self-perturbations, agnostic to victim facial recognition systems, and agnostic to unseen attacks. By regarding adv-faces as out-of-distribution data, we then naturally introduce a novel cascaded system for adv-face detection, which consists of training data self-perturbations, decision boundary regularization, and a max-pooling-based binary classifier focusing on abnormal local color aberrations. Experiments conducted on LFW and CelebA-HQ datasets with eight gradient-based and two GAN-based attacks validate that our method generalizes to a variety of unseen adversarial attacks. | 翻訳日:2023-04-25 18:58:34 公開日:2023-04-22 |
# 共同探索と識別訓練による記号表現の学習 Learning Symbolic Representations Through Joint GEnerative and DIscriminative Training ( http://arxiv.org/abs/2304.11357v1 ) ライセンス: Link先を確認 | Emanuele Sansone, Robin Manhaeve | (参考訳) 我々は,既存の自己教師付き学習目標と確率に基づく生成モデルを組み合わせたベイジアンフレームワークであるgediを紹介する。
このフレームワークは生成的アプローチと識別的アプローチの両方の利点を活用し、スタンドアローンソリューションよりも象徴的表現を改善した。
さらに、GEDIは、追加の監督やコストのかかる事前訓練ステップを必要とせずに、既存のニューロシンボリックフレームワークと簡単に統合およびトレーニングすることができる。
我々は,SVHN,CIFAR10,CIFAR100などの実世界のデータ実験を通じて,GEDIがクラスタリング性能において,既存の自己教師型学習戦略を著しく上回ることを示す。
さらにシンボリックなコンポーネントは、小さなデータレジームのパフォーマンスを改善するために、論理的な制約という形での知識を活用することができる。 We introduce GEDI, a Bayesian framework that combines existing self-supervised learning objectives with likelihood-based generative models. This framework leverages the benefits of both GEnerative and DIscriminative approaches, resulting in improved symbolic representations over standalone solutions. Additionally, GEDI can be easily integrated and trained jointly with existing neuro-symbolic frameworks without the need for additional supervision or costly pre-training steps. We demonstrate through experiments on real-world data, including SVHN, CIFAR10, and CIFAR100, that GEDI outperforms existing self-supervised learning strategies in terms of clustering performance by a significant margin. The symbolic component further allows it to leverage knowledge in the form of logical constraints to improve performance in the small data regime. | 翻訳日:2023-04-25 18:58:06 公開日:2023-04-22 |
# ポイントセットとセンターベースオフセットによる一段階多人数パーシング Single-stage Multi-human Parsing via Point Sets and Center-based Offsets ( http://arxiv.org/abs/2304.11356v1 ) ライセンス: Link先を確認 | Jiaming Chu, Lei Jin, Junliang Xing and Jian Zhao | (参考訳) 本研究は多人数パーシング問題を研究する。
既存の手法はトップダウンまたはボトムアップの2段階のパラダイムに従っており、通常は高価な計算コストがかかる。
代わりに,マルチヒューマン解析問題を2つのきめ細かい部分問題,すなわち人体と部分の位置付けに分解する,高性能なsmp(single-stage multi-human parse)ディープアーキテクチャを提案する。
smpは、バリセンタの位置の点の特徴を利用してセグメンテーションを取得し、人体のバリセンタから部品のバリセンタまでの一連のオフセットを生成し、グループ化プロセスなしで人体と部品をマッチングする。
SMP アーキテクチャ内では,生成したマスクアテンションによってインスタンスのグローバルな特徴を抽出するRefined Feature Retain モジュールと,予測セグメンテーションにより分類結果を洗練するためのトレーニング可能なプラグインモジュールであるMask of Interest Reclassify モジュールを提案する。
MHPv2.0データセットの大規模な実験は,提案手法の有効性と効率を最大化し,AP50pが2.1%,APvolpが1.0%,PCP50が1.2%を突破した。
特に,提案手法では,学習時間が少なく,より複雑なモデルアーキテクチャが必要となる。
さらなる研究を促進するために、ソースコード、トレーニング済みモデル、オンラインデモをリリースします。 This work studies the multi-human parsing problem. Existing methods, either following top-down or bottom-up two-stage paradigms, usually involve expensive computational costs. We instead present a high-performance Single-stage Multi-human Parsing (SMP) deep architecture that decouples the multi-human parsing problem into two fine-grained sub-problems, i.e., locating the human body and parts. SMP leverages the point features in the barycenter positions to obtain their segmentation and then generates a series of offsets from the barycenter of the human body to the barycenters of parts, thus performing human body and parts matching without the grouping process. Within the SMP architecture, we propose a Refined Feature Retain module to extract the global feature of instances through generated mask attention and a Mask of Interest Reclassify module as a trainable plug-in module to refine the classification results with the predicted segmentation. Extensive experiments on the MHPv2.0 dataset demonstrate the best effectiveness and efficiency of the proposed method, surpassing the state-of-the-art method by 2.1% in AP50p, 1.0% in APvolp, and 1.2% in PCP50. In particular, the proposed method requires fewer training epochs and a less complex model architecture. We will release our source codes, pretrained models, and online demos to facilitate further studies. | 翻訳日:2023-04-25 18:57:52 公開日:2023-04-22 |
# 媒体。
sars-cov-2 生成モデルによる絵画制作 Medium. Permeation: SARS-COV-2 Painting Creation by Generative Model ( http://arxiv.org/abs/2304.11354v1 ) ライセンス: Link先を確認 | Yuan-Fu Yang, Iuan-Kai Fang, Min Sun, Su-Chu Hsu | (参考訳) 空気中の粒子はSARS-CoV-2が人体に侵入する媒体である。
光は空中の浮遊粒子を反射し、人々がカラフルな世界を見ることができる。
印象派は、光の反射によって生成される色のスペクトルを探求する最も著名な美術学校である。
印象派の絵画や、世界中のアーティストによる新型コロナウイルスのイラストに色構造や色重ね合いの類似性が見られる。
代表音,色配置,印象派の絵画における色重ねの仕方によるコンピュータ化されたデータ分析により,私たちは,ジェネレーティブ・アドバーサリアル・ネットワークを用いて,コンピュータに新型コロナウイルスを印象派のスタイルで描くように訓練し,アートワーク「Medium.Permeation」を作成しました。
このアートワークは、14×14のマトリクスにランダムに生成された196のバイラル画像からなり、大規模な絵画を形成する。
さらに我々は、ビデオアートとして提示されるGradual Changeという拡張された作品を開発した。
グラフニューラルネットワークを用いて、新型コロナウイルスの196枚の絵を聴衆に段階的に提示する。
LEDテレビ画面の前には、色が連続的に変化する196枚のウイルス絵が現れる。
この大きなビデオ・ペインティングは、世界的な196カ国がこの流行に侵略され、全ての国がミュータントウイルスを継続的に感染させていることを象徴している。
ワクチン開発速度はウイルス変異の速さに追いつくことができない。
これはまた、印象派と新型コロナウイルスの共通点と比喩的な共生に基づく世界で初めての生成芸術でもある。
この研究はSARS-CoV-2による前例のない挑戦を警告し、世界は空気を媒介とする見えない敵を無視してはならないことを示唆している。 Airborne particles are the medium for SARS-CoV-2 to invade the human body. Light also reflects through suspended particles in the air, allowing people to see a colorful world. Impressionism is the most prominent art school that explores the spectrum of color created through color reflection of light. We find similarities of color structure and color stacking in the Impressionist paintings and the illustrations of the novel coronavirus by artists around the world. With computerized data analysis through the main tones, the way of color layout, and the way of color stacking in the paintings of the Impressionists, we train computers to draw the novel coronavirus in an Impressionist style using a Generative Adversarial Network to create our artwork "Medium. Permeation". This artwork is composed of 196 randomly generated viral pictures arranged in a 14 by 14 matrix to form a large-scale painting. In addition, we have developed an extended work: Gradual Change, which is presented as video art. We use Graph Neural Network to present 196 paintings of the new coronavirus to the audience one by one in a gradual manner. In front of LED TV screen, audience will find 196 virus paintings whose colors will change continuously. This large video painting symbolizes that worldwide 196 countries have been invaded by the epidemic, and every nation continuously pops up mutant viruses. The speed of vaccine development cannot keep up with the speed of virus mutation. This is also the first generative art in the world based on the common features and a metaphorical symbiosis between Impressionist art and the novel coronavirus. This work warns us of the unprecedented challenges posed by the SARS-CoV-2, implying that the world should not ignore the invisible enemy who uses air as a medium. | 翻訳日:2023-04-25 18:57:26 公開日:2023-04-22 |
# 多言語対応訓練と側方抑制を用いたルーマニア語多語表現検出 Romanian Multiword Expression Detection Using Multilingual Adversarial Training and Lateral Inhibition ( http://arxiv.org/abs/2304.11350v1 ) ライセンス: Link先を確認 | Andrei-Marius Avram, Verginica Barbu Mititelu and Dumitru-Clementin Cercel | (参考訳) マルチワード表現は、大規模かつ言語的に健全な自然言語処理技術を開発する上で重要な要素である。
本稿では、PARSEME v1.2共有タスク用にリリースされたコーパス上でのルーマニア語マルチワード式の自動識別の改善について述べる。
本手法は,最近導入された側方抑制層と逆行訓練に基づく多言語視点を想定し,多言語モデルの性能を高める。
これら2つの手法の助けを借り, PARSEME 1.2 版の主要な課題である, 未知のマルチワード表現を約2.7%改善する。
また,この競技の参加者が獲得したルーマニア語の結果よりも優れた結果が得られるため,この結果がSOTA性能であると考えられる。 Multiword expressions are a key ingredient for developing large-scale and linguistically sound natural language processing technology. This paper describes our improvements in automatically identifying Romanian multiword expressions on the corpus released for the PARSEME v1.2 shared task. Our approach assumes a multilingual perspective based on the recently introduced lateral inhibition layer and adversarial training to boost the performance of the employed multilingual language models. With the help of these two methods, we improve the F1-score of XLM-RoBERTa by approximately 2.7% on unseen multiword expressions, the main task of the PARSEME 1.2 edition. In addition, our results can be considered SOTA performance, as they outperform the previous results on Romanian obtained by the participants in this competition. | 翻訳日:2023-04-25 18:56:56 公開日:2023-04-22 |
# NaviNeRF:潜時セマンティックナビゲーションによるNeRFに基づく3次元表現の絡み合い NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation ( http://arxiv.org/abs/2304.11342v1 ) ライセンス: Link先を確認 | Baao Xie, Bohan Li, Zequn Zhang, Junting Dong, Xin Jin, Jingyu Yang, Wenjun Zeng | (参考訳) 3D表現のゆがみは、3Dデータの基本的な説明的要素を特定し、分解し、操作することを目的としています。
この課題は現在検討中であり、大きな課題をもたらします。
(i)3d表現は複雑であり、一般に2d画像よりも多くの情報を含んでいる。
(ii)多くの3次元表現は勾配に基づく最適化には適していない。
これらの課題に対処するために、NeRFを識別可能な3次元表現として使用し、潜在空間における解釈可能な意味方向を特定するための自己教師付きナビゲーションを導入する。
我々の知る限り、NaviNeRFと呼ばれるこの新しい手法は、先行や監督なしに細粒度の3D歪みを実現する最初の方法である。
具体的には、NaviNeRFは生成するNeRFパイプライン上に構築されており、アウターナビゲーションブランチとインナーリファインメントブランチを備えている。
外的ナビゲーションはグローバルビューの意味的な方向を識別することであり、内的洗練は細かな属性に向けられている。
相乗的損失はさらに2つの分岐を調整するために考案される。
大規模な実験により、NaviNeRFは従来の3D認識モデルよりもきめ細かい3D歪み能力を有することが示された。
その性能は、セマンティックや幾何の先行に依存する編集指向モデルに匹敵する。 3D representation disentanglement aims to identify, decompose, and manipulate the underlying explanatory factors of 3D data, which helps AI fundamentally understand our 3D world. This task is currently under-explored and poses great challenges: (i) the 3D representations are complex and in general contains much more information than 2D image; (ii) many 3D representations are not well suited for gradient-based optimization, let alone disentanglement. To address these challenges, we use NeRF as a differentiable 3D representation, and introduce a self-supervised Navigation to identify interpretable semantic directions in the latent space. To our best knowledge, this novel method, dubbed NaviNeRF, is the first work to achieve fine-grained 3D disentanglement without any priors or supervisions. Specifically, NaviNeRF is built upon the generative NeRF pipeline, and equipped with an Outer Navigation Branch and an Inner Refinement Branch. They are complementary -- the outer navigation is to identify global-view semantic directions, and the inner refinement dedicates to fine-grained attributes. A synergistic loss is further devised to coordinate two branches. Extensive experiments demonstrate that NaviNeRF has a superior fine-grained 3D disentanglement ability than the previous 3D-aware models. Its performance is also comparable to editing-oriented models relying on semantic or geometry priors. | 翻訳日:2023-04-25 18:56:41 公開日:2023-04-22 |
# トランスフォーマーをベースとしたLMは、約20億のトレーニングトークンで人間の読解回数を予測 Transformer-Based LM Surprisal Predicts Human Reading Times Best with About Two Billion Training Tokens ( http://arxiv.org/abs/2304.11389v1 ) ライセンス: Link先を確認 | Byung-Doh Oh, William Schuler | (参考訳) 近年の精神言語学的な研究は、言語モデルの品質と、人間の読解時間を予測するための予備的な推定能力の関係について矛盾する結論を導いてきた。
本研究の目的は, 学習データ量とモデルの能力に系統的に異なるトランスフォーマに基づく言語モデルから推定される推定値を評価することで, 人間の読書時間を予測することにある。
その結果、現代のモデル能力を持つほとんどの変種からの超越的な推定は、約20億のトレーニングトークンを見た後に最も適しており、その後、人間的な期待から逸脱し始めた。
さらに、新たに訓練された小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。
これらの結果から,トランスフォーマーをベースとした言語モデルでは,より大規模な事前学習型言語モデルから得られる不適合性に,膨大なトレーニングデータが関与していることが示唆された。 Recent psycholinguistic studies have drawn conflicting conclusions about the relationship between the quality of a language model and the ability of its surprisal estimates to predict human reading times, which has been speculated to be due to the large gap in both the amount of training data and model capacity across studies. The current work aims to consolidate these findings by evaluating surprisal estimates from Transformer-based language model variants that vary systematically in the amount of training data and model capacity on their ability to predict human reading times. The results show that surprisal estimates from most variants with contemporary model capacities provide the best fit after seeing about two billion training tokens, after which they begin to diverge from humanlike expectations. Additionally, newly-trained smaller model variants reveal a 'tipping point' at convergence, after which the decrease in language model perplexity begins to result in poorer fits to human reading times. These results suggest that the massive amount of training data is mainly responsible for the poorer fit achieved by surprisal from larger pre-trained language models, and that a certain degree of model capacity is necessary for Transformer-based language models to capture humanlike expectations. | 翻訳日:2023-04-25 18:50:22 公開日:2023-04-22 |
# 確率的論理推論を用いた逐次レコメンデーション Sequential Recommendation with Probabilistic Logical Reasoning ( http://arxiv.org/abs/2304.11383v1 ) ライセンス: Link先を確認 | Huanhuan Yuan, Pengpeng Zhao, Xuefeng Xian and Guanfeng Liu and Yanchi Liu and Victor S. Sheng and Lei Zhao | (参考訳) 深層学習と記号学習は、逐次勧告(SR)においてよく用いられる方法である。
最近のニューラルシンボリックSRモデルは、SRが同時に知覚能力と認知能力を備える可能性を示している。
しかし、ユーザーやアイテムを論理的推論で表現するといったオープンな問題のために、ニューラルネットワークの象徴的SRは依然として難しい問題である。
本稿では,ディープニューラルネットワーク(dnn)srモデルを論理推論と組み合わせ,確率的論理推論(sr-plrの略)を用いた逐次推奨という一般的な枠組みを提案する。
このフレームワークにより、SR-PLRはDNNと確率論理ネットワークに機能埋め込みとロジック埋め込みを分離することで、類似性マッチングと論理推論の両方の利点を享受できる。
ユーザの嗜好の不確実性と進化をよりよく捉えるため、SR-PLRはユーザとアイテムを確率論的手法で埋め込み、ユーザのインタラクションパターンに確率論的論理的推論を行う。
次に、dnnおよび論理ネットワークから学習した特徴と論理表現を連結して予測を行う。
最後に、様々なシーケンシャルレコメンデーションモデルに対する実験により、SR-PLRの有効性を示す。 Deep learning and symbolic learning are two frequently employed methods in Sequential Recommendation (SR). Recent neural-symbolic SR models demonstrate their potential to enable SR to be equipped with concurrent perception and cognition capacities. However, neural-symbolic SR remains a challenging problem due to open issues like representing users and items in logical reasoning. In this paper, we combine the Deep Neural Network (DNN) SR models with logical reasoning and propose a general framework named Sequential Recommendation with Probabilistic Logical Reasoning (short for SR-PLR). This framework allows SR-PLR to benefit from both similarity matching and logical reasoning by disentangling feature embedding and logic embedding in the DNN and probabilistic logic network. To better capture the uncertainty and evolution of user tastes, SR-PLR embeds users and items with a probabilistic method and conducts probabilistic logical reasoning on users' interaction patterns. Then the feature and logic representations learned from the DNN and logic network are concatenated to make the prediction. Finally, experiments on various sequential recommendation models demonstrate the effectiveness of the SR-PLR. | 翻訳日:2023-04-25 18:50:01 公開日:2023-04-22 |
# リモートセンシングデータ融合のための不完全マルチモーダル学習 Incomplete Multimodal Learning for Remote Sensing Data Fusion ( http://arxiv.org/abs/2304.11381v1 ) ライセンス: Link先を確認 | Yuxing Chen, Maofan Zhao, Lorenzo Bruzzone | (参考訳) 遠隔センシングデータ融合タスクにおけるマルチモーダルトランスフォーマーネットワークの成功には,自己注意操作によるマルチモーダル信号の接続機構が鍵となる。
しかし、従来のアプローチでは、トレーニングと推論の両方の間、全てのモダリティへのアクセスを前提としており、下流アプリケーションでモーダル不完全入力を扱う場合、深刻な劣化を引き起こす可能性がある。
この制限に対処するため,提案手法では,リモートセンシングデータ融合における不完全マルチモーダル学習の新しいモデルを導入する。
このアプローチは、教師付きおよび自己教師型事前訓練パラダイムの両方で使用することができ、Bi-LSTMの注意とマスク付き自己注意機構と組み合わせて学習された融合トークンを利用してマルチモーダル信号の収集を行う。
提案手法は,ネットワークトレーニングにおける入力としてランダムモダリティの組み合わせを許容しながら,事前学習における融合を容易にするために,再構成とコントラスト損失を用いる。
提案手法は,インスタンス/セマンティックセグメンテーションや土地被覆マッピングタスクなどのタスクに対して,推論中に不完全な入力を扱う場合の2つのマルチモーダルデータセットに対して,最先端のパフォーマンスを提供する。 The mechanism of connecting multimodal signals through self-attention operation is a key factor in the success of multimodal Transformer networks in remote sensing data fusion tasks. However, traditional approaches assume access to all modalities during both training and inference, which can lead to severe degradation when dealing with modal-incomplete inputs in downstream applications. To address this limitation, our proposed approach introduces a novel model for incomplete multimodal learning in the context of remote sensing data fusion. This approach can be used in both supervised and self-supervised pretraining paradigms and leverages the additional learned fusion tokens in combination with Bi-LSTM attention and masked self-attention mechanisms to collect multimodal signals. The proposed approach employs reconstruction and contrastive loss to facilitate fusion in pre-training while allowing for random modality combinations as inputs in network training. Our approach delivers state-of-the-art performance on two multimodal datasets for tasks such as building instance / semantic segmentation and land-cover mapping tasks when dealing with incomplete inputs during inference. | 翻訳日:2023-04-25 18:49:43 公開日:2023-04-22 |
# ガリレオ時空の量子化--空空間におけるマクスウェル方程式の再構成 Quantizing Galilean spacetime -- A reconstruction of Maxwell's equations in empty space ( http://arxiv.org/abs/2304.11380v1 ) ライセンス: Link先を確認 | Ulf Klein | (参考訳) 最近示されたように、非相対論的量子論は(質量的)粒子の古典解の連続体から射影法によって導出することができる。
本稿では,空空間におけるマクスウェル方程式が同じ手法で導出できることを示す。
この場合、出発点はガリレオ時空の構造を記述する無質量粒子に対する運動方程式の解の連続体である。
投影の結果、時空構造そのものは、速度の次元を持つ新しい基本定数 $c$ の出現によって変化する。
この最大速度 $c$ は無質量粒子に対してここで導出され、質量粒子に対してより早く導出される精度限界 $\hbar$ に類似している。
したがって、射影法は一般化量子化と解釈できる。
すべての基本体は連続的な粒子軌道の集合に遡ることができると推測し、この意味では粒子の概念は体の概念よりも基本的である。 As was recently shown, non-relativistic quantum theory can be derived by means of a projection method from a continuum of classical solutions for (massive) particles. In this paper we show that Maxwell's equations in empty space can be derived using the same method. In this case the starting point is a continuum of solutions of equations of motion for massless particles describing the structure of Galilean space-time. As a result of the projection, the space-time structure itself is changed by the appearance of a new fundamental constant $c$ with the dimension of a velocity. This maximum velocity $c$, derived here for massless particles, is analogous to the accuracy limit $\hbar$ derived earlier for massive particles. The projection method can thus be interpreted as a generalized quantization. We suspect that all fundamental fields can be traced back to continuous sets of particle trajectories, and that in this sense the particle concept is more fundamental than the field concept. | 翻訳日:2023-04-25 18:49:25 公開日:2023-04-22 |
# LiDAR2Map:オンラインカメラ蒸留によるLiDARに基づく意味マップ構築の防御 LiDAR2Map: In Defense of LiDAR-Based Semantic Map Construction Using Online Camera Distillation ( http://arxiv.org/abs/2304.11379v1 ) ライセンス: Link先を確認 | Song Wang and Wentong Li and Wenyu Liu and Xiaolu Liu and Jianke Zhu | (参考訳) 鳥眼ビュー(BEV)に基づくセマンティックマップの構築は、自律運転において重要な役割を果たす。
カメラ画像とは対照的に、LiDARは捉えた3D機能を本質的にBEV空間に投影する正確な3D観察を提供する。
しかしながら、バニラLiDARベースのBEV機能は、空間的特徴がほとんどテクスチャとセマンティックな手がかりを持たない多くの不確定ノイズを含むことが多い。
本稿では,LiDARを用いたセマンティックマップ構築手法を提案する。
具体的には、セマンティックマップ構築のための堅牢なマルチスケールBEV特徴を学習するBEVピラミッド特徴復号器を導入し、LiDAR方式の精度を大幅に向上させる。
LiDARデータにおける意味的手がかりの欠如による欠陥を軽減するために,画像からポイントクラウドへのセマンティック学習を容易にするオンラインカメラ対LiDAR蒸留方式を提案する。
我々の蒸留方式は,BEVのカメラからの意味情報を吸収する特徴レベルおよびロジットレベル蒸留からなる。
提案したLiDAR2Mapのセマンティックマップ構築に対する有効性は,27.9% mIoU以上の従来のLiDARベースの手法よりも優れ,最先端のカメラベースアプローチよりも優れていた。
ソースコードはhttps://github.com/songw-zju/lidar2map。 Semantic map construction under bird's-eye view (BEV) plays an essential role in autonomous driving. In contrast to camera image, LiDAR provides the accurate 3D observations to project the captured 3D features onto BEV space inherently. However, the vanilla LiDAR-based BEV feature often contains many indefinite noises, where the spatial features have little texture and semantic cues. In this paper, we propose an effective LiDAR-based method to build semantic map. Specifically, we introduce a BEV pyramid feature decoder that learns the robust multi-scale BEV features for semantic map construction, which greatly boosts the accuracy of the LiDAR-based method. To mitigate the defects caused by lacking semantic cues in LiDAR data, we present an online Camera-to-LiDAR distillation scheme to facilitate the semantic learning from image to point cloud. Our distillation scheme consists of feature-level and logit-level distillation to absorb the semantic information from camera in BEV. The experimental results on challenging nuScenes dataset demonstrate the efficacy of our proposed LiDAR2Map on semantic map construction, which significantly outperforms the previous LiDAR-based methods over 27.9% mIoU and even performs better than the state-of-the-art camera-based approaches. Source code is available at: https://github.com/songw-zju/LiDAR2Map. | 翻訳日:2023-04-25 18:49:11 公開日:2023-04-22 |
# simplymime: 指先でのコントロール SimplyMime: A Control at Our Fingertips ( http://arxiv.org/abs/2304.11377v1 ) ライセンス: Link先を確認 | Sibi Chakkaravarthy Sethuraman, Gaurav Reddy Tadkapally, Athresh Kiran, Saraju P. Mohanty, Anitha Subramanian | (参考訳) テレビ、セットトップボックス、ホームシアター、エアコンなどの消費者電子製品の利用は、テクノロジーが発展を続けるにつれて、現代社会でますます広まりつつある。
毎年、新しいデバイスが家庭に入ると、それらを操作するための複数の赤外線リモコンが蓄積され、エネルギーやリソースが浪費されるだけでなく、ユーザにとって面倒で雑然とした環境が生まれる。
本稿では,消費者電子製品のリモートコントロールの必要性を解消し,デバイスの追加を必要とせずに直感的な制御を実現する,SimplyMimeという新しいシステムを提案する。
simplymimeは、人工知能と人間とコンピューターのインタラクションを組み込んだダイナミックなハンドジェスチャー認識アーキテクチャを利用して、ユーザーがほとんどの消費者電子製品と簡単に対話できる高度なシステムを構築している。
さらに、SimplyMimeにはセキュリティ面があり、パームプリントを利用するユーザを認証し、認証することで、認証されたユーザだけがデバイスを制御できるようにする。
提案手法の動作ストリームにおけるジェスチャの検出と認識は,複数のベンチマークデータセットを用いて徹底的にテストされ,検証された。
提案手法の独特な利点の1つは最小限の計算パワー要件であり、幅広い状況において高い適応性と信頼性を有する。
本稿は,現在2次遠隔操作を必要とする全家電機器にこの技術を組み込むことにより,より効率的で持続可能な生活環境を実現することを提案する。 The utilization of consumer electronics, such as televisions, set-top boxes, home theaters, and air conditioners, has become increasingly prevalent in modern society as technology continues to evolve. As new devices enter our homes each year, the accumulation of multiple infrared remote controls to operate them not only results in a waste of energy and resources, but also creates a cumbersome and cluttered environment for the user. This paper presents a novel system, named SimplyMime, which aims to eliminate the need for multiple remote controls for consumer electronics and provide the user with intuitive control without the need for additional devices. SimplyMime leverages a dynamic hand gesture recognition architecture, incorporating Artificial Intelligence and Human-Computer Interaction, to create a sophisticated system that enables users to interact with a vast majority of consumer electronics with ease. Additionally, SimplyMime has a security aspect where it can verify and authenticate the user utilising the palmprint, which ensures that only authorized users can control the devices. The performance of the proposed method for detecting and recognizing gestures in a stream of motion was thoroughly tested and validated using multiple benchmark datasets, resulting in commendable accuracy levels. One of the distinct advantages of the proposed method is its minimal computational power requirements, making it highly adaptable and reliable in a wide range of circumstances. The paper proposes incorporating this technology into all consumer electronic devices that currently require a secondary remote for operation, thus promoting a more efficient and sustainable living environment. | 翻訳日:2023-04-25 18:48:47 公開日:2023-04-22 |
# AIボードゲームトーナメントで学生のエンゲージメントを刺激する Stimulating student engagement with an AI board game tournament ( http://arxiv.org/abs/2304.11376v1 ) ライセンス: Link先を確認 | Ken Hasselmann, Quentin Lurkin | (参考訳) 基本的なAIテクニックの強力な基盤は、より高度な概念を理解するための鍵となる。
先進的なAIやアルゴリズムのコースで後から見られる概念をより深く理解する上で,検索手法などのAI技術の導入が有効だと考えています。
我々は,2年生にボードゲームに適用する検索方法を紹介するプロジェクトベースかつコンペティションベースの独身コースを提案する。
2人のグループがネットワークプログラミングとAIメソッドを使用して、今年のボードゲームトーナメントに出場するためにAIエージェントを構築する必要があります。
学生は、プロジェクトの品質と最終トーナメントでの成績に基づいて評価される。
ゲーミフィケーションの導入は、競争ベースの学習という形で、学生にとってより良い学習体験をもたらすと信じている。 Strong foundations in basic AI techniques are key to understanding more advanced concepts. We believe that introducing AI techniques, such as search methods, early in higher education helps create a deeper understanding of the concepts seen later in more advanced AI and algorithms courses. We present a project-based and competition-based bachelor course that gives second-year students an introduction to search methods applied to board games. In groups of two, students have to use network programming and AI methods to build an AI agent to compete in a board game tournament-othello was this year's game. Students are evaluated based on the quality of their projects and on their performance during the final tournament. We believe that the introduction of gamification, in the form of competition-based learning, allows for a better learning experience for the students. | 翻訳日:2023-04-25 18:48:22 公開日:2023-04-22 |
# コントラスト学習と特徴追跡による衛星画像時系列における教師なしCD Unsupervised CD in satellite image time series by contrastive learning and feature tracking ( http://arxiv.org/abs/2304.11375v1 ) ライセンス: Link先を確認 | Yuxing Chen, Lorenzo Bruzzone | (参考訳) コントラスト学習を用いた教師なし変化検出は文学的手法の性能を著しく向上させたが,現在では2つの時間的変化検出シナリオのみに焦点を当てている。
画像時系列変化検出のための従来の最先端モデルでは、各シーンに合わせた擬似ラベルを使用して、スクラッチからモデルをクラスタリングまたはトレーニングするために学習した機能をしばしば使用する。
しかし、これらの手法は、画像時系列の時空間情報を利用することができず、見えないシナリオに一般化する。
本研究では,コントラスト学習と特徴追跡を用いた衛星画像時系列の教師なし変化検出手法を提案する。
事前学習したモデルから擬似ラベルを抽出し,特徴追跡を用いて画像時系列間で伝達することにより,擬似ラベルの一貫性を改善し,長期リモートセンシング画像時系列における季節変化の課題に対処する。
得られた擬似ラベルに対して,convlstmを用いた自己学習アルゴリズムを採用し,教師付きコントラスト損失とコントラストランダムウォークを用いて,時空間的特徴対応をさらに改善した。
そして、最終変更マップを生成するための事前訓練された多時的特徴の上に、完全連結層を微調整する。
2つのデータセットに関する包括的な実験を通じて、適合シナリオと推論シナリオの精度が一貫した改善を示す。 While unsupervised change detection using contrastive learning has been significantly improved the performance of literature techniques, at present, it only focuses on the bi-temporal change detection scenario. Previous state-of-the-art models for image time-series change detection often use features obtained by learning for clustering or training a model from scratch using pseudo labels tailored to each scene. However, these approaches fail to exploit the spatial-temporal information of image time-series or generalize to unseen scenarios. In this work, we propose a two-stage approach to unsupervised change detection in satellite image time-series using contrastive learning with feature tracking. By deriving pseudo labels from pre-trained models and using feature tracking to propagate them among the image time-series, we improve the consistency of our pseudo labels and address the challenges of seasonal changes in long-term remote sensing image time-series. We adopt the self-training algorithm with ConvLSTM on the obtained pseudo labels, where we first use supervised contrastive loss and contrastive random walks to further improve the feature correspondence in space-time. Then a fully connected layer is fine-tuned on the pre-trained multi-temporal features for generating the final change maps. Through comprehensive experiments on two datasets, we demonstrate consistent improvements in accuracy on fitting and inference scenarios. | 翻訳日:2023-04-25 18:48:09 公開日:2023-04-22 |
# カーボンニュートラルエッジコンピューティングに向けて - spotと将来の炭素市場を活用したエッジaiのグリーン化 Towards Carbon-Neutral Edge Computing: Greening Edge AI by Harnessing Spot and Future Carbon Markets ( http://arxiv.org/abs/2304.11374v1 ) ライセンス: Link先を確認 | Huirong Ma and Zhi Zhou and Xiaoxi Zhang and Xu Chen | (参考訳) エッジデバイスの人工知能(AI)応用のためのサービスとしての動的機械学習(ML)推論のプロビジョニングは、精度損失のトレードオフ、二酸化炭素排出、未知の将来コストなど、多くの課題に直面している。
さらに、多くの政府は、気候変動を逆転させるために二酸化炭素排出量をさらに削減するための炭素排出権(cer)を立ち上げた。
これらの課題に直面すると、炭素排出権に制限のあるMLタスクのオフロードを実現し、グリーンエッジAIを実現するため、必要なCERを購入するための長期的コスト予算の下での精度損失を最小限に抑えるために、共同MLタスクのオフロードとCER購入の問題を確立する。
しかし、資源価格の不確実性、CER購入価格、サイトの炭素強度、MLタスクの到着などを考慮すると、長期にわたってオンライン上での最適政策を決定することは困難である。
この難しさを克服するために、我々は2時間スケールのLyapunov最適化手法を活用し、$T$-slotのドリフト・プラス・ペナルティ手法により、CERを複数の時間スケールで購入するオンラインアルゴリズム(炭素先物市場および炭素スポット市場でオンデマンドで保存)を提案し、MLタスクのオフロード先を決定する。
さらに,$t$-slot問題のnp難易度を考慮して,資源制限付きランダム化従属丸化アルゴリズムを提案する。
実炭素強度トレースによって駆動される理論解析と広範囲なシミュレーション結果は,提案アルゴリズムの優れた性能を示す。 Provisioning dynamic machine learning (ML) inference as a service for artificial intelligence (AI) applications of edge devices faces many challenges, including the trade-off among accuracy loss, carbon emission, and unknown future costs. Besides, many governments are launching carbon emission rights (CER) for operators to reduce carbon emissions further to reverse climate change. Facing these challenges, to achieve carbon-aware ML task offloading under limited carbon emission rights thus to achieve green edge AI, we establish a joint ML task offloading and CER purchasing problem, intending to minimize the accuracy loss under the long-term time-averaged cost budget of purchasing the required CER. However, considering the uncertainty of the resource prices, the CER purchasing prices, the carbon intensity of sites, and ML tasks' arrivals, it is hard to decide the optimal policy online over a long-running period time. To overcome this difficulty, we leverage the two-timescale Lyapunov optimization technique, of which the $T$-slot drift-plus-penalty methodology inspires us to propose an online algorithm that purchases CER in multiple timescales (on-preserved in carbon future market and on-demanded in the carbon spot market) and makes decisions about where to offload ML tasks. Considering the NP-hardness of the $T$-slot problems, we further propose the resource-restricted randomized dependent rounding algorithm to help to gain the near-optimal solution with no help of any future information. Our theoretical analysis and extensive simulation results driven by the real carbon intensity trace show the superior performance of the proposed algorithms. | 翻訳日:2023-04-25 18:47:48 公開日:2023-04-22 |
# 非線形フォトニック結晶を用いたリートロッター積公式で定義される圧縮コヒーレント状態の生成 Generation of a squeezed coherent state defined with the Lie-Trotter product formula using a nonlinear photonic crystal ( http://arxiv.org/abs/2304.11373v1 ) ライセンス: Link先を確認 | Hiroo Azuma | (参考訳) 本稿では,非線形フォトニック結晶を用いた圧縮コヒーレント光発生法について検討する。
フォトニック結晶は入射光の群速度を減少させるため、二階非線形光感受性$\chi^{(2)}$の材料からなる場合、非線形材料とそれを通過する光との相互作用は強化され、発光光の量子状態は大幅に縮小される。
これにより、非線形フォトニック結晶を配置した共振キャビティを有する圧縮コヒーレント光を生成することができる。
このスクイーズドコヒーレント状態はリートローター積公式で定義され、その数学的表現は従来のスクイーズドコヒーレント状態とは異なる。
提案手法の物理パラメータを調整することにより, スクイーズレベルが15.9ドルdBの圧縮コヒーレント状態が得られることを示す。
光子の平均個数をビームスプリッタに1個または2個ずつ与え、圧縮光の流れを一対の絡み合った光に分割することにより、その絡み合いを定量的に推定する。
本論文は、H. Azuma, J. Physの続編である。
d:appl。
Phys
55, 315106 (2022). In this paper, we investigate how to generate squeezed coherent light using a nonlinear photonic crystal. Because the photonic crystal reduces the group velocity of the incident light, if it is composed of a material with a second-order nonlinear optical susceptibility $\chi^{(2)}$, the interaction between the nonlinear material and the light passing through it strengthens and the quantum state of the emitted light is largely squeezed. Thus, we can generate a squeezed coherent light with a resonating cavity in which the nonlinear photonic crystal is placed. This squeezed coherent state is defined with the Lie-Trotter product formula and its mathematical expression is different from those of conventional squeezed coherent states. We show that we can obtain this squeezed coherent state with a squeezing level $15.9$ dB practically by adjusting physical parameters for our proposed method. Feeding the squeezed light whose average number of photons is given by one or two into a beam splitter and splitting the flow of the squeezed light into a pair of entangled light beams, we estimate their entanglement quantitatively. This paper is a sequel to H. Azuma, J. Phys. D: Appl. Phys. 55, 315106 (2022). | 翻訳日:2023-04-25 18:46:54 公開日:2023-04-22 |
# stnet: リモートセンシング画像における変化検出のための時間的・時間的特徴融合ネットワーク STNet: Spatial and Temporal feature fusion network for change detection in remote sensing images ( http://arxiv.org/abs/2304.11422v1 ) ライセンス: Link先を確認 | Xiaowen Ma, Jiawei Yang, Tingfeng Hong, Mengting Ma, Ziyan Zhao, Tian Feng and Wei Zhang | (参考訳) リモートセンシング画像解析における重要な課題として、リモートセンシング変化検出(RSCD)は、空間的に共存したマルチ時間リモートセンシング画像から地域における関心の変化を特定し、局所的な発達を監視することを目的としている。
既存のRSCD法は通常、RSCDを二分分類タスクとして定式化し、単に特徴連結や特徴減算だけで関心の変化を表現し、より高密度に連結された変化表現によって空間的詳細を復元する。
本稿では,空間的・時間的特徴融合に基づくRSCDネットワークSTNetを提案する。
具体的には,時間的特徴融合(tff)モジュールをデザインし,興味の変化を強調するクロスタイムゲーティング機構を用いて,時間的特徴融合モジュールを合成し,空間的特徴融合モジュールを配置し,変化表現の空間的詳細を復元するクロススケール注意機構を用いて細かな情報をキャプチャする。
RSCDのための3つのベンチマークデータセットの実験結果から,提案手法が最先端の性能を実現することを示す。
コードはhttps://github.com/xwmaxwma/rschangeで入手できる。 As an important task in remote sensing image analysis, remote sensing change detection (RSCD) aims to identify changes of interest in a region from spatially co-registered multi-temporal remote sensing images, so as to monitor the local development. Existing RSCD methods usually formulate RSCD as a binary classification task, representing changes of interest by merely feature concatenation or feature subtraction and recovering the spatial details via densely connected change representations, whose performances need further improvement. In this paper, we propose STNet, a RSCD network based on spatial and temporal feature fusions. Specifically, we design a temporal feature fusion (TFF) module to combine bi-temporal features using a cross-temporal gating mechanism for emphasizing changes of interest; a spatial feature fusion module is deployed to capture fine-grained information using a cross-scale attention mechanism for recovering the spatial details of change representations. Experimental results on three benchmark datasets for RSCD demonstrate that the proposed method achieves the state-of-the-art performance. Code is available at https://github.com/xwmaxwma/rschange. | 翻訳日:2023-04-25 18:41:06 公開日:2023-04-22 |
# Pipeline MoE: パイプライン並列性を備えた柔軟なMoE実装 Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism ( http://arxiv.org/abs/2304.11414v1 ) ライセンス: Link先を確認 | Xin Chen, Hengheng Zhang, Xiaotao Gu, Kaifeng Bi, Lingxi Xie, Qi Tian | (参考訳) 現在、Mixture of Experts (MoE) モデルは、トレーニングと推論のためのサブ線形計算の複雑さを伴うスケーラビリティのため、大規模言語モデルの重要な選択肢となっている。
しかし、既存のmoeモデルは2つの重大な欠点を抱えている。
1)全発送・集結による極端内部通信とノード間通信のオーバーヘッド
2) 境界データ並列性とエキスパート次元のスケールに平行なエキスパートのために、バックボーンのスケーラビリティは限られている。
本稿では,並列フレームワークビューにおけるトレーニング効率の観点から,これらの欠点を体系的に解析し,それに対応するための新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
ppmoeは、tensor parallelを組み込んだエキスパート並列を構築し、単純なテンソルインデックススライシングとインナーノードall-reduceで通信集約的なall-to-allディスパッチとアグリゲーションを置き換える。
さらに、PPMoEがパイプライン並列を統合してバックボーンをさらに拡張するのは、柔軟性のある並列アーキテクチャのため便利である。
大規模な実験によると、PPMoEは既存のMoEアーキテクチャと比較して1.75ドル以上のスピードアップを達成するだけでなく、対応するバックボーンモデルの90ドル%のスループットを達成している。 The Mixture of Experts (MoE) model becomes an important choice of large language models nowadays because of its scalability with sublinear computational complexity for training and inference. However, existing MoE models suffer from two critical drawbacks, 1) tremendous inner-node and inter-node communication overhead introduced by all-to-all dispatching and gathering, and 2) limited scalability for the backbone because of the bound data parallel and expert parallel to scale in the expert dimension. In this paper, we systematically analyze these drawbacks in terms of training efficiency in the parallel framework view and propose a novel MoE architecture called Pipeline MoE (PPMoE) to tackle them. PPMoE builds expert parallel incorporating with tensor parallel and replaces communication-intensive all-to-all dispatching and gathering with a simple tensor index slicing and inner-node all-reduce. Besides, it is convenient for PPMoE to integrate pipeline parallel to further scale the backbone due to its flexible parallel architecture. Extensive experiments show that PPMoE not only achieves a more than $1.75\times$ speed up compared to existing MoE architectures but also reaches $90\%$ throughput of its corresponding backbone model that is $20\times$ smaller. | 翻訳日:2023-04-25 18:40:41 公開日:2023-04-22 |
# 外部映像知識とユーザネットワークを用いた映画レビューにおけるスポイラーの検出 Detecting Spoilers in Movie Reviews with External Movie Knowledge and User Networks ( http://arxiv.org/abs/2304.11411v1 ) ライセンス: Link先を確認 | Heng Wang, Wenqian Zhang, Yuyang Bai, Zhaoxuan Tan, Shangbin Feng, Qinghua Zheng, Minnan Luo | (参考訳) オンライン映画レビュープラットフォームは、映画業界と一般向けにクラウドソースによるフィードバックを提供しており、スポイラーレビューはユーザーエクスペリエンスを損なう。
スポイラーを自動的に識別するための予備的な研究努力は行われたが、レビュー内容そのものにのみ焦点をあてるだけで、ロバストなスポイラー検出には、映画に関する事実や知識、映画レビュープラットフォームにおけるユーザー行動などのコンテキストにレビューを組み込む必要がある。
これらの課題を踏まえ、まず、大規模ネットワークベースのスポイラー検出データセットlcsと、総合的かつ最新の映画知識ベースukmをキュレーションする。
次に,映画レビュープラットフォーム上での映画やユーザ活動の外部知識を考慮した,新しいマルチビュースポイラー検出フレームワークであるMVSDを提案する。
具体的には、MVSDは、多様なデータソースとその多視点特性をモデル化するための3つの相互接続した異種情報ネットワークを構築し、ノードレベルの分類としてスポイラー検出のための新しい異種グラフニューラルネットワークアーキテクチャを設計、採用する。
大規模な実験により、MVSDは2つのスポイラー検出データセットの最先端を推し進める一方、外部知識の導入とユーザインタラクションは堅牢なスポイラー検出を支援する。
私たちのデータとコードはhttps://github.com/Arthur-Heng/Spoiler-Detectionで公開されています。 Online movie review platforms are providing crowdsourced feedback for the film industry and the general public, while spoiler reviews greatly compromise user experience. Although preliminary research efforts were made to automatically identify spoilers, they merely focus on the review content itself, while robust spoiler detection requires putting the review into the context of facts and knowledge regarding movies, user behavior on film review platforms, and more. In light of these challenges, we first curate a large-scale network-based spoiler detection dataset LCS and a comprehensive and up-to-date movie knowledge base UKM. We then propose MVSD, a novel Multi-View Spoiler Detection framework that takes into account the external knowledge about movies and user activities on movie review platforms. Specifically, MVSD constructs three interconnecting heterogeneous information networks to model diverse data sources and their multi-view attributes, while we design and employ a novel heterogeneous graph neural network architecture for spoiler detection as node-level classification. Extensive experiments demonstrate that MVSD advances the state-of-the-art on two spoiler detection datasets, while the introduction of external knowledge and user interactions help ground robust spoiler detection. Our data and code are available at https://github.com/Arthur-Heng/Spoiler-Detection | 翻訳日:2023-04-25 18:40:20 公開日:2023-04-22 |
# ヒンディー語における依存長最小化の有界有理性 A bounded rationality account of dependency length minimization in Hindi ( http://arxiv.org/abs/2304.11410v1 ) ライセンス: Link先を確認 | Sidharth Ranjan and Titus von der Malsburg | (参考訳) 文中に構文的に関連のある単語を近接させることを目的としたDependenCY LENGTH MINIMIZATIONの原理は、効果的なコミュニケーションのために人間の言語の構造を普遍的に形成すると考えられている。
しかし、人間の言語システムにおいて依存性の長さが最小化される程度は、まだ完全には理解されていない。
典型的には、長短成分と後短長成分の配置は文全体の依存長を最小化することが知られている。
本研究では,主動詞の横に最短の副詞成分を置くだけで,従属長のグローバル最小化とは対照的にヒンディー語(sov言語)の語順選択が説明できるという仮説を検証した。
このアプローチを,動詞とその前言語的依存関係間の依存関係を短くするコスト効率のよい方法であるため,最小限の戦略として特徴づける。
このアプローチは、最適解の探索というよりはむしろ「速いが粗い」ヒューリスティックスによって決定が支配される境界有理性の観点から一致している。
この考え方に従えば,Hindi-Urdu Treebank corpus の実際のコーパス文は,依存性長の国際最小化よりも最小限の手法で説明できる。
さらに, コーパス文と反実的変種を区別する作業において, 主動詞に最も近い成分の係り受け長と構成長は, コーパスに現れる文が全係り受け長よりもはるかに優れた予測因子であることが判明した。
全体として,認知的資源制約は自然言語形成において重要な役割を担っていることが示唆された。 The principle of DEPENDENCY LENGTH MINIMIZATION, which seeks to keep syntactically related words close in a sentence, is thought to universally shape the structure of human languages for effective communication. However, the extent to which dependency length minimization is applied in human language systems is not yet fully understood. Preverbally, the placement of long-before-short constituents and postverbally, short-before-long constituents are known to minimize overall dependency length of a sentence. In this study, we test the hypothesis that placing only the shortest preverbal constituent next to the main-verb explains word order preferences in Hindi (a SOV language) as opposed to the global minimization of dependency length. We characterize this approach as a least-effort strategy because it is a cost-effective way to shorten all dependencies between the verb and its preverbal dependencies. As such, this approach is consistent with the bounded-rationality perspective according to which decision making is governed by "fast but frugal" heuristics rather than by a search for optimal solutions. Consistent with this idea, our results indicate that actual corpus sentences in the Hindi-Urdu Treebank corpus are better explained by the least effort strategy than by global minimization of dependency lengths. Additionally, for the task of distinguishing corpus sentences from counterfactual variants, we find that the dependency length and constituent length of the constituent closest to the main verb are much better predictors of whether a sentence appeared in the corpus than total dependency length. Overall, our findings suggest that cognitive resource constraints play a crucial role in shaping natural languages. | 翻訳日:2023-04-25 18:39:54 公開日:2023-04-22 |
# the devil is in the upsampling: アーキテクチャ上の決定は、より深いイメージでより簡単になる The Devil is in the Upsampling: Architectural Decisions Made Simpler for Denoising with Deep Image Prior ( http://arxiv.org/abs/2304.11409v1 ) ライセンス: Link先を確認 | Yilin Liu, Jiang Li, Yunkui Pang, Dong Nie, Pew-thian Yap | (参考訳) Deep Image Prior (DIP)は、一部のネットワークアーキテクチャが自然にスムーズなイメージに偏り、ノイズに抵抗することを示している。
Image denoisingはこのプロパティの即時適用です。
DIPは大規模なトレーニングセットの要件を取り除いているが、アーキテクチャ設計とノイズ適合という2つの現実的な課題をまだ示している。
既存の手法は、設計上の選択が画像とどのように対応するかを理解していないため、大きなデザイン空間から手作業やアーキテクチャの検索がほとんどである。
本研究では,DIPにおけるデノナイジング現象の主要因はアンリートアップサンプリングであることを示すため,周波数観点から解析を行った。
この発見は、残酷な検索なしにすべての画像に適したアーキテクチャを推定する戦略につながる。
広範な実験により、推定されたアーキテクチャは、最大95%のパラメータを持つ現在のメソッドよりも、テクスチャの詳細をデノベーションし、保存することが示されている。
パラメータの低い性質は、特に高いレベルのノイズに対して堅牢である。 Deep Image Prior (DIP) shows that some network architectures naturally bias towards smooth images and resist noises, a phenomenon known as spectral bias. Image denoising is an immediate application of this property. Although DIP has removed the requirement of large training sets, it still presents two practical challenges for denoising: architectural design and noise-fitting, which are often intertwined. Existing methods mostly handcraft or search for the architecture from a large design space, due to the lack of understanding on how the architectural choice corresponds to the image. In this study, we analyze from a frequency perspective to demonstrate that the unlearnt upsampling is the main driving force behind the denoising phenomenon in DIP. This finding then leads to strategies for estimating a suitable architecture for every image without a laborious search. Extensive experiments show that the estimated architectures denoise and preserve the textural details better than current methods with up to 95% fewer parameters. The under-parameterized nature also makes them especially robust to a higher level of noise. | 翻訳日:2023-04-25 18:39:23 公開日:2023-04-22 |
# LaMP: 大きな言語モデルがパーソナライゼーションに出会ったとき LaMP: When Large Language Models Meet Personalization ( http://arxiv.org/abs/2304.11406v1 ) ライセンス: Link先を確認 | Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani | (参考訳) 本稿では、自然言語理解と生成の現状におけるパーソナライズの重要性を強調し、パーソナライズされた出力を生成するための言語モデルのトレーニングと評価のための新しいベンチマークであるLaMPベンチマークを紹介する。
LaMPは、さまざまな言語タスクと、各ユーザプロファイルに対する複数のエントリを備えた総合的な評価フレームワークを提供する。
それは7つのパーソナライズされたタスクで構成され、3つの分類と4つのテキスト生成タスクにまたがる。
また,ユーザプロファイルからパーソナライズされた項目を検索し,大規模言語モデルのためのパーソナライズされたプロンプトを構築する検索拡張手法を提案する。
ベースラインゼロショットモデルと微調整モデルにより、プロファイル情報に影響を及ぼさないプロファイル拡張を用いたLMの方が、プロファイル情報よりも優れていることを示す。 This paper highlights the importance of personalization in the current state of natural language understanding and generation and introduces the LaMP benchmark -- a novel benchmark for training and evaluating language models for producing personalized outputs. LaMP offers a comprehensive evaluation framework with diverse language tasks and multiple entries for each user profile. It consists of seven personalized tasks, spanning three classification and four text generation tasks. We also propose a retrieval augmentation approach that retrieves personalized items from user profiles to construct personalized prompts for large language models. Our baseline zero-shot and fine-tuned model results indicate that LMs utilizing profile augmentation outperform their counterparts that do not factor in profile information. | 翻訳日:2023-04-25 18:39:05 公開日:2023-04-22 |
# SSN:SAR画像変化検出のためのストックウェル散乱ネットワーク SSN: Stockwell Scattering Network for SAR Image Change Detection ( http://arxiv.org/abs/2304.11404v1 ) ライセンス: Link先を確認 | Gong Chen, Yanan Zhao, Yi Wang, Kim-Hui Yap | (参考訳) 近年,合成開口レーダ(sar)による画像変化検出は,スペックルノイズの存在から,興味深いが難解な方向に進んでいる。
従来の学習駆動型手法と現代の学習駆動型手法の両方がこの課題を克服しようとしたが、深い畳み込みニューラルネットワーク(DCNN)ベースの手法は、解釈可能性の欠如と大きな計算能力の要求によって依然として妨げられている。
この欠点を克服するために、ウェーブレット散乱ネットワーク(WSN)とフーリエ散乱ネットワーク(FSN)を提案する。
本稿では,wsnとfsnのそれぞれの利点を組み合わせることで,ノイズ信号に対して広く適用されスペックル低減に有利なストックウェル変換に基づくストックウェル散乱ネットワーク(ssn)を提案する。
提案したSSNは、ノイズ耐性の特徴表現を提供し、SAR画像変化検出における最先端性能と高い計算効率を得る。
3つの実SAR画像データセットの実験結果から,提案手法の有効性が示された。 Recently, synthetic aperture radar (SAR) image change detection has become an interesting yet challenging direction due to the presence of speckle noise. Although both traditional and modern learning-driven methods attempted to overcome this challenge, deep convolutional neural networks (DCNNs)-based methods are still hindered by the lack of interpretability and the requirement of large computation power. To overcome this drawback, wavelet scattering network (WSN) and Fourier scattering network (FSN) are proposed. Combining respective merits of WSN and FSN, we propose Stockwell scattering network (SSN) based on Stockwell transform which is widely applied against noisy signals and shows advantageous characteristics in speckle reduction. The proposed SSN provides noise-resilient feature representation and obtains state-of-art performance in SAR image change detection as well as high computational efficiency. Experimental results on three real SAR image datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2023-04-25 18:38:52 公開日:2023-04-22 |
# エッジアテンションによる高速MRI再構成 Fast MRI Reconstruction via Edge Attention ( http://arxiv.org/abs/2304.11400v1 ) ライセンス: Link先を確認 | Hanhui Yang, Juncheng Li, Lok Ming Lui, Shihui Ying, Jun Shi, and Tieyong Zeng | (参考訳) 高速かつ正確なMRI再建は、現代臨床における重要な関心事である。
近年,MRI再構成に多くのDeep-Learning法が提案されているが,通常はサブサンプルk空間データから鋭い詳細を再構成することができない。
この問題を解決するために,エッジガイダンスを用いた画像再構成のための,軽量かつ高精度なエッジ注意MRI再構成ネットワーク(EAMRI)を提案する。
具体的には,ぼやけた画像から正確なエッジを直接予測する効率的なエッジ予測ネットワークを設計する。
一方,本研究では,抽出されたエッジプリエントを利用した画像再構成を誘導する新しいエッジアテンションモジュール(eam)を提案する。
EAMはまず入力画像とエッジをそれぞれQ_image、K_edge、V_imageに投影する。
そしてEAMはチャネル次元に沿ってQ_imageとK_edgeをペア化する。
1) エッジプリエントによって活性化される高周波画像の特徴をグローバルに検索することができる。
2) 計算負荷は, 従来の空間的注意よりも大幅に軽減される。
EAMの助けを借りて、予測されたエッジ先行は、精度の高いエッジで高品質なMR画像の再構成を効果的に導くことができる。
大規模な実験の結果,提案したEAMRIはパラメータが少ない他の手法よりも優れており,より正確なエッジを復元できることがわかった。 Fast and accurate MRI reconstruction is a key concern in modern clinical practice. Recently, numerous Deep-Learning methods have been proposed for MRI reconstruction, however, they usually fail to reconstruct sharp details from the subsampled k-space data. To solve this problem, we propose a lightweight and accurate Edge Attention MRI Reconstruction Network (EAMRI) to reconstruct images with edge guidance. Specifically, we design an efficient Edge Prediction Network to directly predict accurate edges from the blurred image. Meanwhile, we propose a novel Edge Attention Module (EAM) to guide the image reconstruction utilizing the extracted edge priors, as inspired by the popular self-attention mechanism. EAM first projects the input image and edges into Q_image, K_edge, and V_image, respectively. Then EAM pairs the Q_image with K_edge along the channel dimension, such that 1) it can search globally for the high-frequency image features that are activated by the edge priors; 2) the overall computation burdens are largely reduced compared with the traditional spatial-wise attention. With the help of EAM, the predicted edge priors can effectively guide the model to reconstruct high-quality MR images with accurate edges. Extensive experiments show that our proposed EAMRI outperforms other methods with fewer parameters and can recover more accurate edges. | 翻訳日:2023-04-25 18:38:35 公開日:2023-04-22 |
# mlに基づく無線nlos定位手法 : 入力表現と不確実性推定 ML-based Approaches for Wireless NLOS Localization: Input Representations and Uncertainty Estimation ( http://arxiv.org/abs/2304.11396v1 ) ライセンス: Link先を確認 | Rafayel Darbinyan, Hrant Khachatrian, Rafayel Mkrtchyan, Theofanis P. Raptis | (参考訳) 非線形(NLOS)ローカライゼーションの難しい問題は、多くの無線ネットワークアプリケーションにとって重要である。
利用可能なデータセットの欠如により、NLOSのローカライゼーションはML駆動の手法に対処することが難しくなったが、最近の合成データセット生成の発展は研究の新たな機会となった。
本稿では3つの異なる入力表現について述べる。
(i)単一無線無線経路機能
(ii)無線無線リンク機能(複数経路)、及び
(iii)画像に基づく表現。
後者の2つの新しい表現に触発されて、2つの畳み込みニューラルネットワーク(CNN)を設計し、NLOSのローカライゼーション性能を著しく改善していないが、よりリッチな予測出力をサポートでき、予測をより深く分析できることを示した。
特に、よりリッチな出力は、信頼できない予測の信頼できる識別を可能にし、与えられたインスタンスの上位K候補位置の予測をサポートする。
また,NLOSのローカライゼーションを向上するために収集すべきデータの種類について,様々な特徴(信号の出発角や到着角など)がモデルの性能に与える影響を計測する。
我々の洞察は、NLOSローカライゼーション性能を改善するために、より効率的なニューラルネットワークと入力表現を構築するための将来の取り組みを動機付けます。 The challenging problem of non-line-of-sight (NLOS) localization is critical for many wireless networking applications. The lack of available datasets has made NLOS localization difficult to tackle with ML-driven methods, but recent developments in synthetic dataset generation have provided new opportunities for research. This paper explores three different input representations: (i) single wireless radio path features, (ii) wireless radio link features (multi-path), and (iii) image-based representations. Inspired by the two latter new representations, we design two convolutional neural networks (CNNs) and we demonstrate that, although not significantly improving the NLOS localization performance, they are able to support richer prediction outputs, thus allowing deeper analysis of the predictions. In particular, the richer outputs enable reliable identification of non-trustworthy predictions and support the prediction of the top-K candidate locations for a given instance. We also measure how the availability of various features (such as angles of signal departure and arrival) affects the model's performance, providing insights about the types of data that should be collected for enhanced NLOS localization. Our insights motivate future work on building more efficient neural architectures and input representations for improved NLOS localization performance, along with additional useful application features. | 翻訳日:2023-04-25 18:38:17 公開日:2023-04-22 |
# lidarセマンティクスセグメンテーションのための3dから鳥眼視への知識蒸留 Knowledge Distillation from 3D to Bird's-Eye-View for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2304.11393v1 ) ライセンス: Link先を確認 | Feng Jiang, Heng Gao, Shoumeng Qiu, Haiqiang Zhang, Ru Wan and Jian Pu | (参考訳) LiDARポイントクラウドセグメンテーションは、自動運転シーン理解の最も基本的なタスクの1つである。
しかし、既存のモデルが高い推論速度と精度を同時に達成することは困難である。
例えば、Voxel-based method は精度よく動作し、Bird's-Eye-View (BEV) ベースのメソッドはリアルタイムな推論を実現できる。
本研究では,3dボクセルモデルからbevモデルへ豊富な知識を伝達する効果的な3d-bev知識蒸留法を開発した。
本フレームワークは,主にボクセル-ピラー蒸留モジュールとラベル-重蒸留モジュールの2つのモジュールから構成される。
Voxel-to-pillar蒸留は、中間層のためのBEV機能にスパース3D機能を蒸留し、BEVベースのモデルがより構造的および幾何学的な情報を認識できるようにする。
ラベル重量の蒸留は、より高い情報を持つ領域により注意を払うのに役立つ。
最後に,SemanticKITTIデータセットとParis-Lille-3Dの実験を行った。
semantickittiの結果は、特にオートバイや人といったクラスでテストセットが5%以上改善され、15%以上改善されていることを示している。
コードはhttps://github.com/fengjiang5/Knowledge-Distillation-from-Cylinder3D-to-PolarNetでアクセスできる。 LiDAR point cloud segmentation is one of the most fundamental tasks for autonomous driving scene understanding. However, it is difficult for existing models to achieve both high inference speed and accuracy simultaneously. For example, voxel-based methods perform well in accuracy, while Bird's-Eye-View (BEV)-based methods can achieve real-time inference. To overcome this issue, we develop an effective 3D-to-BEV knowledge distillation method that transfers rich knowledge from 3D voxel-based models to BEV-based models. Our framework mainly consists of two modules: the voxel-to-pillar distillation module and the label-weight distillation module. Voxel-to-pillar distillation distills sparse 3D features to BEV features for middle layers to make the BEV-based model aware of more structural and geometric information. Label-weight distillation helps the model pay more attention to regions with more height information. Finally, we conduct experiments on the SemanticKITTI dataset and Paris-Lille-3D. The results on SemanticKITTI show more than 5% improvement on the test set, especially for classes such as motorcycle and person, with more than 15% improvement. The code can be accessed at https://github.com/fengjiang5/Knowledge-Distillation-from-Cylinder3D-to-PolarNet. | 翻訳日:2023-04-25 18:37:54 公開日:2023-04-22 |
# 放射光源のための高エネルギー相関多光子X線回折の理論 Theory of high-energy correlated multiphoton x-ray diffraction for synchrotron radiation sources ( http://arxiv.org/abs/2304.11440v1 ) ライセンス: Link先を確認 | Arunangshu Debnath, Robin Santra | (参考訳) 放射光源を用いた高エネルギーX線回折測定の解釈に適した,非相対論的極限における多光子回折現象の理論的定式化について述べる。
近似の階層と極限ケースの体系的解析について述べる。
回折信号の畳み込み表現は、相関署名に寄与する物理資源の分類を可能にする。
この定式化は、弾性および非弾性回折散乱における相関符号の不在または存在を記述できる理論記述を開発することを目的としている。
これらの相関シグネチャを入力場変調多体電子密度相関の観点から解釈することは、構造イメージング研究の新しい展望を提供する。
より本質的には、関連する再構成アルゴリズムの理論的発展に必要なフレームワークを提供する。 We present a theoretical formulation for the multiphoton diffraction phenomenology in the nonrelativistic limit, suitable for interpreting high-energy x-ray diffraction measurements using synchrotron radiation sources. A hierarchy of approximations and the systematic analysis of limiting cases are presented. A convolutional representation of the diffraction signal allows classification of the physical resources contributing to the correlation signatures. The formulation is intended for developing a theoretical description capable of describing plausible absence or presence of correlation signatures in elastic and inelastic diffractive scattering. Interpreting these correlation signatures in terms of the incoming field modulated many-body electronic density correlations provides a novel perspective for structural imaging studies. More essentially, it offers a framework necessary for theoretical developments of associated reconstruction algorithms. | 翻訳日:2023-04-25 18:31:25 公開日:2023-04-22 |
# 教師なし異常検出のためのメタリアナーの構築 Constructing a meta-learner for unsupervised anomaly detection ( http://arxiv.org/abs/2304.11438v1 ) ライセンス: Link先を確認 | Ma{\l}gorzata Gutowska, Suzanne Little, Andrew McCarren | (参考訳) 非教師なし異常検出(unsupervised anomaly detection, aad)は、ネットワークセキュリティから医療や医療ツールに至るまで、幅広い実用用途に不可欠である。
問題の多様性のため、全てのADタスクに優れたアルゴリズムが1つも見つかっていない。
アルゴリズムの選択はアルゴリズム選択問題(ASP)として知られており、メタラーニングとオートMLを用いて教師なしの分類問題において広く検討されているが、教師なしのADタスクではほとんど注目されていない。
本研究では,ラベルなし入力データセットから生成された一連のメタ特徴を与えられた適切な教師なし広告アルゴリズムを識別する新しいメタラーニング手法を提案する。
提案するメタリアナーの性能は,現在のアートソリューションよりも優れている。
さらに, メタラーナー成分(メタモデル, メタ機能, ADアルゴリズムのベースセット)がメタラーナー全体の性能に与える影響について, 混合モデル統計解析を行った。
分析は1万以上のデータセットを使用して行われ、これは以前の研究よりもかなり大きい。
その結果,ADアルゴリズムの同定には比較的少数のメタ機能を用いることができるが,メタラーナーにおけるメタモデルの選択は大きな影響を与えることがわかった。 Unsupervised anomaly detection (AD) is critical for a wide range of practical applications, from network security to health and medical tools. Due to the diversity of problems, no single algorithm has been found to be superior for all AD tasks. Choosing an algorithm, otherwise known as the Algorithm Selection Problem (ASP), has been extensively examined in supervised classification problems, through the use of meta-learning and AutoML, however, it has received little attention in unsupervised AD tasks. This research proposes a new meta-learning approach that identifies an appropriate unsupervised AD algorithm given a set of meta-features generated from the unlabelled input dataset. The performance of the proposed meta-learner is superior to the current state of the art solution. In addition, a mixed model statistical analysis has been conducted to examine the impact of the meta-learner components: the meta-model, meta-features, and the base set of AD algorithms, on the overall performance of the meta-learner. The analysis was conducted using more than 10,000 datasets, which is significantly larger than previous studies. Results indicate that a relatively small number of meta-features can be used to identify an appropriate AD algorithm, but the choice of a meta-model in the meta-learner has a considerable impact. | 翻訳日:2023-04-25 18:31:14 公開日:2023-04-22 |
# Breaching FedMD: Paired-Logitsインバージョンアタックによるイメージリカバリ Breaching FedMD: Image Recovery via Paired-Logits Inversion Attack ( http://arxiv.org/abs/2304.11436v1 ) ライセンス: Link先を確認 | Hideaki Takahashi, Jingjing Liu, and Yang Liu | (参考訳) フェデレート・ラーニング・アンド・モデル蒸留(Federated Learning with Model Distillation, FedMD)は、一般のデータセットの出力ロジットのみを蒸留知識として送信する、新たな協調学習パラダイムである。
本稿では,公開データセットの出力ログの共有が,勾配を直接共有するよりも安全であるにもかかわらず,慎重に設計された悪意のある攻撃によるデータ露出のかなりのリスクが存在することを発見した。
本研究では、悪意のあるサーバが、サーバとクライアントモデル間の信頼ギャップを生かした逆ニューラルネットワークをトレーニングすることにより、FedMDとその変異体に対するPLI攻撃を注入できることを示す。
複数の顔認識データセットに関する実験では、公開データセットのみのサーバクライアントロジットをペアにすることで、fedmdのようなスキームの下で、悪意のあるサーバはテスト済みのすべてのベンチマークで、高い成功率でプライベートイメージを再構築することができる。 Federated Learning with Model Distillation (FedMD) is a nascent collaborative learning paradigm, where only output logits of public datasets are transmitted as distilled knowledge, instead of passing on private model parameters that are susceptible to gradient inversion attacks, a known privacy risk in federated learning. In this paper, we found that even though sharing output logits of public datasets is safer than directly sharing gradients, there still exists a substantial risk of data exposure caused by carefully designed malicious attacks. Our study shows that a malicious server can inject a PLI (Paired-Logits Inversion) attack against FedMD and its variants by training an inversion neural network that exploits the confidence gap between the server and client models. Experiments on multiple facial recognition datasets validate that under FedMD-like schemes, by using paired server-client logits of public datasets only, the malicious server is able to reconstruct private images on all tested benchmarks with a high success rate. | 翻訳日:2023-04-25 18:30:54 公開日:2023-04-22 |
# マルチビュークラスタリングのための低ランクテンソル空間における超ラプラス正則化概念分解 Hyper-Laplacian Regularized Concept Factorization in Low-rank Tensor Space for Multi-view Clustering ( http://arxiv.org/abs/2304.11435v1 ) ライセンス: Link先を確認 | Zixiao Yu, Lele Fu, Zhiling Cai, Zhoumin Lu | (参考訳) テンソル指向のマルチビューサブスペースクラスタリングは,高次相関評価やマルチビューデータのクラスタリング解析の改善に大きく貢献している。
しかし、既存の調査のほとんどは2つの欠陥によって妨げられている。
まず、自己表現に基づくテンソル部分空間学習は、通常、時間と空間の複雑さを誘導し、埋め込み空間における非線形局所構造を知覚することに制限される。
第2に、テンソル特異値分解(t-SVD)モデルは、それぞれの特異値を再分割する。
本稿では,マルチビュークラスタリングのための低ランクテンソル空間における超ラプラシアン正規化概念分解(hlrcf)を提案する。
具体的には、各ビューの潜在クラスタ単位の表現を探索するために、概念因子化を採用する。
さらに、ハイパーグラフラプラシアン正則化は、潜在空間における非線形局所構造を抽出する能力を持つモデルを与える。
異なるテンソル特異値が構造情報を不等式に関連付けることを考慮し、全てのクラスタワイズ表現からなるテンソルを制約する自己重み付きテンソル Schatten p-norm を開発する。
特に、小さいテンソルは低ランク最適化における時間と空間の複雑さを大幅に減少させる。
最後に、8つのベンチマークデータセットの実験結果から、HLRCFは他のマルチビュー手法よりも優れており、その優れた性能を示している。 Tensor-oriented multi-view subspace clustering has achieved significant strides in assessing high-order correlations and improving clustering analysis of multi-view data. Nevertheless, most of existing investigations are typically hampered by the two flaws. First, self-representation based tensor subspace learning usually induces high time and space complexity, and is limited in perceiving nonlinear local structure in the embedding space. Second, the tensor singular value decomposition (t-SVD) model redistributes each singular value equally without considering the diverse importance among them. To well cope with the issues, we propose a hyper-Laplacian regularized concept factorization (HLRCF) in low-rank tensor space for multi-view clustering. Specifically, we adopt the concept factorization to explore the latent cluster-wise representation of each view. Further, the hypergraph Laplacian regularization endows the model with the capability of extracting the nonlinear local structures in the latent space. Considering that different tensor singular values associate structural information with unequal importance, we develop a self-weighted tensor Schatten p-norm to constrain the tensor comprised of all cluster-wise representations. Notably, the tensor with smaller size greatly decreases the time and space complexity in the low-rank optimization. Finally, experimental results on eight benchmark datasets exhibit that HLRCF outperforms other multi-view methods, showingcasing its superior performance. | 翻訳日:2023-04-25 18:30:31 公開日:2023-04-22 |
# L3Cube-IndicSBERT:多言語BERTを用いた言語間文表現の学習方法 L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT ( http://arxiv.org/abs/2304.11434v1 ) ライセンス: Link先を確認 | Samruddhi Deode, Janhavi Gadre, Aditi Kajale, Ananya Joshi, Raviraj Joshi | (参考訳) 多言語SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングし、言語間の類似性とマイニングタスクに有用である。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
低リソース対象言語の翻訳NLIまたはSTSデータセットを集約し、バニラ多言語BERTモデルのSBERTライクな微調整を行う。
多言語BERTモデルは本質的に言語間学習者であり、明示的な言語間訓練を伴わないこの単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
本研究は,10主要言語に対する我々のアプローチの有効性を示すとともに,ドイツ語とフランス語に対する我々のアプローチの適用性を示す。
このアプローチを用いて,ヒンディー語,マラタイ語,カナダ語,テルグ語,マラヤラム語,タミル語,グジャラート語,オディア語,ベンガル語,パンジャービ語に特有な,最初の多言語文表現モデルであるL3Cube-IndicSBERTを提示する。
IndicSBERTは、強い言語間機能を示し、LaBSE、LASER、およびIndicの言語間および単言語間の文類似性タスクにおけるパラフレーズ-multilingual-mpnet-base-v2のような代替よりもはるかに優れている。
また,各言語を対象とした単言語SBERTモデルもリリースし,IndicSBERTがモノリンガルモデルと競合することを示す。
これらのモデルは埋め込み類似度スコアと分類精度を用いて評価されている。 The multilingual Sentence-BERT (SBERT) models map different languages to common representation space and are useful for cross-language similarity and mining tasks. We propose a simple yet effective approach to convert vanilla multilingual BERT models into multilingual sentence BERT models using synthetic corpus. We simply aggregate translated NLI or STS datasets of the low-resource target languages together and perform SBERT-like fine-tuning of the vanilla multilingual BERT model. We show that multilingual BERT models are inherent cross-lingual learners and this simple baseline fine-tuning approach without explicit cross-lingual training yields exceptional cross-lingual properties. We show the efficacy of our approach on 10 major Indic languages and also show the applicability of our approach to non-Indic languages German and French. Using this approach, we further present L3Cube-IndicSBERT, the first multilingual sentence representation model specifically for Indian languages Hindi, Marathi, Kannada, Telugu, Malayalam, Tamil, Gujarati, Odia, Bengali, and Punjabi. The IndicSBERT exhibits strong cross-lingual capabilities and performs significantly better than alternatives like LaBSE, LASER, and paraphrase-multilingual-mpnet-base-v2 on Indic cross-lingual and monolingual sentence similarity tasks. We also release monolingual SBERT models for each of the languages and show that IndicSBERT performs competitively with its monolingual counterparts. These models have been evaluated using embedding similarity scores and classification accuracy. | 翻訳日:2023-04-25 18:30:05 公開日:2023-04-22 |
# 逐次レコメンデーションのための条件付き雑音拡散 Conditional Denoising Diffusion for Sequential Recommendation ( http://arxiv.org/abs/2304.11433v1 ) ライセンス: Link先を確認 | Yu Wang, Zhiwei Liu, Liangwei Yang, Philip S. Yu | (参考訳) 生成モデルは、固有のデータ分布を学習することで不確実性を処理する能力から、大きな関心を集めている。
しかしながら、GAN(Generative Adversarial Networks)とVAE(VAE)という2つの顕著な生成モデルは、シーケンシャルレコメンデーションタスクにおいて最適なパフォーマンスを達成するのを妨げる課題を示す。
特に、GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊や過密な世代が生じる傾向にある。
シーケンシャルなレコメンデーションのスパースで騒々しい性質により、これらの問題がさらに悪化する。
これらの制約に対応して,シーケンスエンコーダ,クロス・アテンティブ・デノージング・デコーダ,ステップワイズディフューザを含む条件付きデノージング拡散モデルを提案する。
このアプローチは最適化と生成プロセスを合理化し、条件付き自己回帰的な方法でより簡単で扱いやすいステップに分割する。
さらに,クロスダイバージェンス損失とコントラスト損失の両方を組み込んだ新しい最適化スキーマを提案する。
この新しいトレーニングスキーマにより、モデルが高品質なシーケンス/イテム表現を生成できる一方で、崩壊を未然に防ぐことができる。
我々は4つのベンチマークデータセットの総合的な実験を行い、その有効性を示すモデルによって達成された優れた性能を示した。 Generative models have attracted significant interest due to their ability to handle uncertainty by learning the inherent data distributions. However, two prominent generative models, namely Generative Adversarial Networks (GANs) and Variational AutoEncoders (VAEs), exhibit challenges that impede achieving optimal performance in sequential recommendation tasks. Specifically, GANs suffer from unstable optimization, while VAEs are prone to posterior collapse and over-smoothed generations. The sparse and noisy nature of sequential recommendation further exacerbates these issues. In response to these limitations, we present a conditional denoising diffusion model, which includes a sequence encoder, a cross-attentive denoising decoder, and a step-wise diffuser. This approach streamlines the optimization and generation process by dividing it into easier and tractable steps in a conditional autoregressive manner. Furthermore, we introduce a novel optimization schema that incorporates both cross-divergence loss and contrastive loss. This novel training schema enables the model to generate high-quality sequence/item representations and meanwhile precluding collapse. We conducted comprehensive experiments on four benchmark datasets, and the superior performance achieved by our model attests to its efficacy. | 翻訳日:2023-04-25 18:29:32 公開日:2023-04-22 |
# クラウドエッジコラボレーションにおける垂直的フェデレーション学習のためのユニバーサル・アタック Universal Adversarial Backdoor Attacks to Fool Vertical Federated Learning in Cloud-Edge Collaboration ( http://arxiv.org/abs/2304.11432v1 ) ライセンス: Link先を確認 | Peng Chen, Xin Du, Zhihui Lu and Hongfeng Chai | (参考訳) Vertical Federated Learning(VFL)は、エッジノードがリソース制約のあるモノのインターネット(IoT)デバイスからなり、データをローカルに保持しながら人工知能(AI)モデルを協調的にトレーニングできるクラウドエッジコラボレーションパラダイムである。
このパラダイムにより、エッジとIoTデバイスのプライバシとセキュリティが改善され、VFLはAIoT(Artificial Intelligence of Things)システムの基本コンポーネントになる。
それでも、VFLの分割された構造は、敵がバックドアを注入するために利用することができ、VFL予測を操作できる。
本稿では,バイナリ分類タスクの文脈におけるVFLの脆弱性について検討する。
この目的のために,VFL におけるバックドア攻撃の脅威モデルを定義し,VFL の予測に悪影響を及ぼすユニバーサル・逆バックドア (UAB) 攻撃を導入する。
ユニバーサルトリガー生成とクリーンラベルバックドア注入からなるuab攻撃は、特定のイテレーションでのvflトレーニング中に組み込まれる。
これはvflサブプロブレムのユニバーサルトリガとモデルパラメータを交互に最適化することで達成される。
我々の研究は、分割されたVFLアーキテクチャではアクセスできない補助情報の知識を必要とするため、VFLのバックドアアタックの設計に関する既存の研究とは異なる。
対照的に、攻撃を実行するには追加のデータを必要としない。
LendingClubとZhongyuanのデータセットでは、我々のアプローチは既存の最先端の手法を超え、メインタスクのパフォーマンスを維持しながら、最大100倍のバックドアタスクパフォーマンスを実現しています。
本稿は,VFLの隠れたバックドアリスクを明らかにするために大きく進展し,将来的なセキュアなAIoT開発への道を開いたものである。 Vertical federated learning (VFL) is a cloud-edge collaboration paradigm that enables edge nodes, comprising resource-constrained Internet of Things (IoT) devices, to cooperatively train artificial intelligence (AI) models while retaining their data locally. This paradigm facilitates improved privacy and security for edges and IoT devices, making VFL an essential component of Artificial Intelligence of Things (AIoT) systems. Nevertheless, the partitioned structure of VFL can be exploited by adversaries to inject a backdoor, enabling them to manipulate the VFL predictions. In this paper, we aim to investigate the vulnerability of VFL in the context of binary classification tasks. To this end, we define a threat model for backdoor attacks in VFL and introduce a universal adversarial backdoor (UAB) attack to poison the predictions of VFL. The UAB attack, consisting of universal trigger generation and clean-label backdoor injection, is incorporated during the VFL training at specific iterations. This is achieved by alternately optimizing the universal trigger and model parameters of VFL sub-problems. Our work distinguishes itself from existing studies on designing backdoor attacks for VFL, as those require the knowledge of auxiliary information not accessible within the split VFL architecture. In contrast, our approach does not necessitate any additional data to execute the attack. On the LendingClub and Zhongyuan datasets, our approach surpasses existing state-of-the-art methods, achieving up to 100\% backdoor task performance while maintaining the main task performance. Our results in this paper make a major advance to revealing the hidden backdoor risks of VFL, hence paving the way for the future development of secure AIoT. | 翻訳日:2023-04-25 18:29:08 公開日:2023-04-22 |
# ビデオキャプションのための深層学習の展望 A Review of Deep Learning for Video Captioning ( http://arxiv.org/abs/2304.11431v1 ) ライセンス: Link先を確認 | Moloud Abdar, Meenakshi Kollati, Swaraja Kuraparthi, Farhad Pourpanah, Daniel McDuff, Mohammad Ghavamzadeh, Shuicheng Yan, Abduallah Mohamed, Abbas Khosravi, Erik Cambria, Fatih Porikli | (参考訳) ビデオキャプション(VC)は、コンピュータビジョン、自然言語処理(NLP)、言語学、人間とコンピュータの相互作用の分野で橋渡しを行う、高速で学際的な研究分野である。
本質的に、VCはビデオを理解し、それを言語で記述する。
キャプションは、よりアクセスしやすいインターフェース(低視野ナビゲーションなど)からビデオ質問応答(V-QA)、ビデオ検索、コンテンツ生成に至るまで、多くのアプリケーションで使用されている。
この調査では、ディープラーニングベースのVC、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵ネットワーク、高密度ビデオキャプション(DVC)などを対象としている。
この分野で使用されるデータセットと評価指標、およびVCの限界、応用、課題、今後の方向性について論じる。 Video captioning (VC) is a fast-moving, cross-disciplinary area of research that bridges work in the fields of computer vision, natural language processing (NLP), linguistics, and human-computer interaction. In essence, VC involves understanding a video and describing it with language. Captioning is used in a host of applications from creating more accessible interfaces (e.g., low-vision navigation) to video question answering (V-QA), video retrieval and content generation. This survey covers deep learning-based VC, including but, not limited to, attention-based architectures, graph networks, reinforcement learning, adversarial networks, dense video captioning (DVC), and more. We discuss the datasets and evaluation metrics used in the field, and limitations, applications, challenges, and future directions for VC. | 翻訳日:2023-04-25 18:28:36 公開日:2023-04-22 |
# チェスゲームにおける統計的解析 : 空間制御と先端点 Statistical analysis of chess games: space control and tipping points ( http://arxiv.org/abs/2304.11425v1 ) ライセンス: Link先を確認 | Marc Barthelemy | (参考訳) チェスゲームの動作は通常、プロのプレイヤーによってケースバイケースで分析されるが、大規模なゲームデータベースが利用可能であるため、ゲームの別のアプローチを想定できる。
ここで、我々は全く異なる視点を採用し、統計学的観点からチェスゲームの動きを分析する。
まず,空間的特性とピースの位置に着目し,ゲーム中の可能な動き数とその結果に正の相関性を示す。
次に、部品のヒートマップを調査して、部品の空間分布が、エンジン(ストックフィッシュなど)よりも人間のプレイヤーによって異なることを示した: エンジンは、何世紀にもわたって人間が行ったのとは全く異なる方法で部品を使用しているように見える。
これらのヒートマップは、プレイヤーが自分のピースの使い方を特徴づける距離を作ることもできます。
第2部では、stockfishが見つけた最良の動きと第2の最良の動きに注目し、その評価の差を調査します。
チェスの試合中に 異なる体制を見つけました
quiet' では$\delta$ は小さく、両方のプレイヤーに多くのパスが可能だことを示している。
対照的に 'tipping point' が特徴の 'volatile' も存在し、$\Delta$ が大きくなる。
このチップングポイントでは、選択した動きによって結果が完全に切り替えられる。
また、多くのゲームにおいて、$\Delta$の分布は、$P(\Delta)\sim \Delta^{-\beta}$と、ユニバーサルな(人間プレイヤーやエンジンのための)指数、約$\beta\approx 1.8$の電力法によっても適用できることがわかった。
したがって、ゲームにおいてチップポイントに遭遇する確率は無視できない。
最後に, ポーン鎖の構造, 部品間の相互作用グラフ, 臨界点の定量的定義など, チェスゲームについて定量的に理解するための研究の方向性について述べる。 Moves in chess games are usually analyzed on a case-by-case basis by professional players, but thanks to the availability of large game databases, we can envision another approach of the game. Here, we indeed adopt a very different point of view, and analyze moves in chess games from a statistical point of view. We first focus on spatial properties and the location of pieces and show that the number of possible moves during a game is positively correlated with its outcome. We then study heatmaps of pieces and show that the spatial distribution of pieces varies less between human players than with engines (such as Stockfish): engines seem to use pieces in a very different way as human did for centuries. These heatmaps also allow us to construct a distance between players that characterizes how they use their pieces. In a second part, we focus on the best move and the second best move found by Stockfish and study the difference $\Delta$ of their evaluation. We found different regimes during a chess game. In a `quiet' regime, $\Delta$ is small, indicating that many paths are possible for both players. In contrast, there are also `volatile' regimes characterized by a `tipping point', for which $\Delta$ becomes large. At these tipping points, the outcome could then switch completely depending on the move chosen. We also found that for a large number of games, the distribution of $\Delta$ can be fitted by a power law $P(\Delta)\sim \Delta^{-\beta}$ with an exponent that seems to be universal (for human players and engines) and around $\beta\approx 1.8$. The probability to encounter a tipping point in a game is therefore far from being negligible. Finally, we conclude by mentioning possible directions of research for a quantitative understanding of chess games such as the structure of the pawn chain, the interaction graph between pieces, or a quantitative definition of critical points. | 翻訳日:2023-04-25 18:28:21 公開日:2023-04-22 |
# sacanet:リモートセンシング画像の意味セグメンテーションのためのシーン認識クラスアテンションネットワーク SACANet: scene-aware class attention network for semantic segmentation of remote sensing images ( http://arxiv.org/abs/2304.11424v1 ) ライセンス: Link先を確認 | Xiaowen Ma, Rui Che, Tingfeng Hong, Mengting Ma, Ziyan Zhao, Tian Feng and Wei Zhang | (参考訳) 空間的注意機構は、長距離依存をモデル化する能力から、リモートセンシング画像のセマンティックセグメンテーションに広く利用されている。
空間的注意機構を取り入れた多くの方法は、画像内の画素間の直接的な関係を利用してコンテキスト情報を集約し、画素のシーン認識を無視した(つまり、画素が位置するシーンのグローバルなコンテキストを認識して相対的な位置を認識する)。
地上物体の空間的相関を考慮した文脈モデルによるシーン認識の利点を考慮し,より洗練された空間的注意機構を組み込んだシーン認識モジュールを設計する。
さらに,リモートセンシング画像におけるクラス内大きなばらつきを考慮せずに,一般の注目機構が過度な背景雑音を発生させる問題に対処する,地域クラスアテンション機構を提案する。
本稿では,シーン認識とクラスアテンションを統合し,リモートセンシング画像のセマンティックセグメンテーションのためのシーン認識クラスアテンションネットワーク(SACANet)を提案する。
3つのデータセットの実験結果は、SACANetが他の最先端の手法より優れ、その有効性を検証することを示している。
コードはhttps://github.com/xwmaxwma/rssegmentationで入手できる。 Spatial attention mechanism has been widely used in semantic segmentation of remote sensing images given its capability to model long-range dependencies. Many methods adopting spatial attention mechanism aggregate contextual information using direct relationships between pixels within an image, while ignoring the scene awareness of pixels (i.e., being aware of the global context of the scene where the pixels are located and perceiving their relative positions). Given the observation that scene awareness benefits context modeling with spatial correlations of ground objects, we design a scene-aware attention module based on a refined spatial attention mechanism embedding scene awareness. Besides, we present a local-global class attention mechanism to address the problem that general attention mechanism introduces excessive background noises while hardly considering the large intra-class variance in remote sensing images. In this paper, we integrate both scene-aware and class attentions to propose a scene-aware class attention network (SACANet) for semantic segmentation of remote sensing images. Experimental results on three datasets show that SACANet outperforms other state-of-the-art methods and validate its effectiveness. Code is available at https://github.com/xwmaxwma/rssegmentation. | 翻訳日:2023-04-25 18:27:45 公開日:2023-04-22 |
# OmniLabel: 言語ベースのオブジェクト検出のためのベンチマーク OmniLabel: A Challenging Benchmark for Language-Based Object Detection ( http://arxiv.org/abs/2304.11463v1 ) ライセンス: Link先を確認 | Samuel Schulter, Vijay Kumar B G, Yumin Suh, Konstantinos M. Dafnis, Zhixing Zhang, Shiyu Zhao, Dimitris Metaxas | (参考訳) 言語に基づくオブジェクト検出は、通常のカテゴリ名を超えて、画像内のオブジェクトを記述する自然なインターフェースを構築するための有望な方向である。
近年の手法はその方向への大きな進歩を示しているが、適切な評価は不十分である。
OmniLabelでは,新しいタスク定義,データセット,評価指標を提案する。
このタスクは、標準およびオープン語彙の検出と参照式を仮定する。
25K以上のイメージに28K以上のユニークなオブジェクト記述があるOmniLabelは、自然にオープンな語彙設定で、多種多様な複雑なオブジェクト記述を伴う挑戦的なベンチマークを提供する。
さらに、既存のベンチマークとの主な違いは、オブジェクト記述が1つ、複数、あるいは全くオブジェクトを参照できるため、自由形式のテキストで否定的な例を提供するということです。
提案手法では,大きなラベル空間を処理し,強固な言語ベースラインの評価により検証する修正平均精度指標を用いて性能を判断する。
OmniLabelは言語ベースの検出に関する将来の研究に挑戦的なテストベッドを提供する。 Language-based object detection is a promising direction towards building a natural interface to describe objects in images that goes far beyond plain category names. While recent methods show great progress in that direction, proper evaluation is lacking. With OmniLabel, we propose a novel task definition, dataset, and evaluation metric. The task subsumes standard- and open-vocabulary detection as well as referring expressions. With more than 28K unique object descriptions on over 25K images, OmniLabel provides a challenging benchmark with diverse and complex object descriptions in a naturally open-vocabulary setting. Moreover, a key differentiation to existing benchmarks is that our object descriptions can refer to one, multiple or even no object, hence, providing negative examples in free-form text. The proposed evaluation handles the large label space and judges performance via a modified average precision metric, which we validate by evaluating strong language-based baselines. OmniLabel indeed provides a challenging test bed for future research on language-based detection. | 翻訳日:2023-04-25 18:21:33 公開日:2023-04-22 |
# リカレントニューラルネットワークと長期短期記憶ネットワーク--チュートリアルとサーベイ Recurrent Neural Networks and Long Short-Term Memory Networks: Tutorial and Survey ( http://arxiv.org/abs/2304.11461v1 ) ライセンス: Link先を確認 | Benyamin Ghojogh, Ali Ghodsi | (参考訳) 本稿では、リカレントニューラルネットワーク(RNN)、Long Short-Term Memory Network(LSTM)およびそれらの変種について解説する。
まず、動的システムとRNNの時間によるバックプロパゲーションから始める。
次に, 長期依存関係における勾配の消失と爆発の問題を考察する。
この問題を解決するために,近距離重み行列,遅延時間,リーク単位,エコー状態ネットワークについて述べる。
次に、LSTMゲートと細胞、LSTMの歴史と変種、Gated Recurrent Units (GRU)を紹介する。
最後に、双方向RNN、双方向LSTM、および言語モデル(ELMo)ネットワークを両方向のシーケンスを処理するために導入する。 This is a tutorial paper on Recurrent Neural Network (RNN), Long Short-Term Memory Network (LSTM), and their variants. We start with a dynamical system and backpropagation through time for RNN. Then, we discuss the problems of gradient vanishing and explosion in long-term dependencies. We explain close-to-identity weight matrix, long delays, leaky units, and echo state networks for solving this problem. Then, we introduce LSTM gates and cells, history and variants of LSTM, and Gated Recurrent Units (GRU). Finally, we introduce bidirectional RNN, bidirectional LSTM, and the Embeddings from Language Model (ELMo) network, for processing a sequence in both directions. | 翻訳日:2023-04-25 18:21:17 公開日:2023-04-22 |
# 急激なモデル変更による強化学習 Reinforcement Learning with an Abrupt Model Change ( http://arxiv.org/abs/2304.11460v1 ) ライセンス: Link先を確認 | Wuxia Chen, Taposh Banerjee, Jemin George, and Carl Busart | (参考訳) 強化学習の問題は、環境やモデルが変化するところにあると考えられる。
このような問題に対してエージェントが最適な長期割引報酬を達成するために適用できるアルゴリズムを提案する。
アルゴリズムはモデルフリーであり、環境と相互作用することで最適なポリシーを学ぶ。
提案アルゴリズムは, 高い最適性特性を有することを示す。
また,シミュレーション結果を用いてアルゴリズムの有効性を示す。
提案手法は,これらの問題に存在する報酬検出の基本的なトレードオフを活用し,最も迅速な変化検出アルゴリズムを用いてモデル変化を検出する。
モデル変更の迅速な検出とスマート初期化戦略のための勧告が提供されている。 The problem of reinforcement learning is considered where the environment or the model undergoes a change. An algorithm is proposed that an agent can apply in such a problem to achieve the optimal long-time discounted reward. The algorithm is model-free and learns the optimal policy by interacting with the environment. It is shown that the proposed algorithm has strong optimality properties. The effectiveness of the algorithm is also demonstrated using simulation results. The proposed algorithm exploits a fundamental reward-detection trade-off present in these problems and uses a quickest change detection algorithm to detect the model change. Recommendations are provided for faster detection of model changes and for smart initialization strategies. | 翻訳日:2023-04-25 18:21:04 公開日:2023-04-22 |
# HUSTの学術写本から情報抽出へのアプローチ An approach to extract information from academic transcripts of HUST ( http://arxiv.org/abs/2304.11454v1 ) ライセンス: Link先を確認 | Nguyen Quang Hieu, Nguyen Le Quy Duong, Le Quang Hoa, Nguyen Quang Dat | (参考訳) 多くのベトナムの学校では、成績は依然として手動でデータベースに入力されている。
したがって、このプロセスの自動化は非常に必要であり、学術文献から情報を取り出すことができれば達成できる。
本稿では,改良CRNNモデルを用いて,垂直線1008本,水平線3859本,手書きテストスコア2139本を用いて,126文字から情報抽出を行った。
そして、このモデルはベースラインモデルと比較される。
その結果, 縦線認識では99.6%, 横線認識では100%, 手書きテストスコア認識では96.11%の精度でベースラインモデルを大幅に上回っていることがわかった。 In many Vietnamese schools, grades are still being inputted into the database manually, which is not only inefficient but also prone to human error. Thus, the automation of this process is highly necessary, which can only be achieved if we can extract information from academic transcripts. In this paper, we test our improved CRNN model in extracting information from 126 transcripts, with 1008 vertical lines, 3859 horizontal lines, and 2139 handwritten test scores. Then, this model is compared to the Baseline model. The results show that our model significantly outperforms the Baseline model with an accuracy of 99.6% in recognizing vertical lines, 100% in recognizing horizontal lines, and 96.11% in recognizing handwritten test scores. | 翻訳日:2023-04-25 18:20:56 公開日:2023-04-22 |
# 偏光線における励起子波パケットダイナミクスの理論的解析 Theoretical Analysis of Exciton Wave Packet Dynamics in Polaritonic Wires ( http://arxiv.org/abs/2304.11453v1 ) ライセンス: Link先を確認 | Gustavo J. R. Aroeira, Raphael F. Ribeiro, Kyle Kairys | (参考訳) 本研究では、無秩序な損失極性ワイヤにおけるエキシトン波パケットの進化に関する包括的研究を行う。
本シミュレーションでは, 強い光物質結合下での弾道的, 拡散的, サブ拡散的励起子のダイナミクスのシグネチャを明らかにし, 定性的に異なる輸送現象間の遷移に伴う典型的な時間スケールを同定する。
計算シミュレーションから信頼性の高い時間依存データを生成するために必要な分子サブシステムと放射場を,低コストで最適に切り離す。
波動関数のフォトニック部分の時間発展は、多くのキャビティモードが非自明な方法でダイナミクスに寄与していることを示している。
したがって、相当な精度で励起子伝播を記述するにはかなりの数のフォトンモードが必要である。
分子系と共鳴する光子モードの優位性の欠如は、疾患の存在と欠如の両方において、興味深く議論されている。
本稿では,コヒーレントな分子間エネルギー輸送と静的障害が重要な役割を担う理論モデルの開発と実験の解析に対する研究の意義について論じる。 We present a comprehensive study of exciton wave packet evolution in disordered lossless polaritonic wires. Our simulations reveal signatures of ballistic, diffusive, and subdiffusive exciton dynamics under strong light-matter coupling and identify the typical timescales associated with the transitions between these qualitatively distinct transport phenomena. We determine optimal truncations of the molecular subsystem and radiation field required for generating reliable time-dependent data from computational simulations at affordable cost. The time evolution of the photonic part of the wave function reveals that many cavity modes contribute to the dynamics in a non-trivial fashion. Hence, a sizable number of photon modes is needed to describe exciton propagation with reasonable accuracy. We find and discuss an intriguingly common lack of dominance of the photon mode on resonance with the molecular system both in the presence and absence of disorder. We discuss the implications of our investigations to the development of theoretical models and analysis of experiments where coherent intermolecular energy transport and static disorder play an important role. | 翻訳日:2023-04-25 18:20:43 公開日:2023-04-22 |
# Dilated-UNet:Dilated TransformerとU-Netアーキテクチャを用いた高速かつ高精度な医用画像分割手法 Dilated-UNet: A Fast and Accurate Medical Image Segmentation Approach using a Dilated Transformer and U-Net Architecture ( http://arxiv.org/abs/2304.11450v1 ) ライセンス: Link先を確認 | Davoud Saadati, Omid Nejati Manzari, Sattar Mirzakuchaki | (参考訳) 医用画像分割は、コンピュータ支援診断・治療システムの開発に不可欠であるが、依然として多くの困難に直面している。
近年,CNNをベースとしたエンコーダ・デコーダアーキテクチャは,医用画像のセグメンテーションにおいて効果的に適用されているが,グローバルな文脈や空間的関係の学習には限界がある。
デコーダとエンコーダの両方にトランスフォーマーを組み込もうとする研究者もいるが、計算の複雑さが高いため、このアプローチにはさらなる改善が必要である。
本稿では,拡張トランスフォーマーブロックとu-netアーキテクチャを組み合わせることで,医用画像の高精度・高速セグメンテーションを実現する。
イメージパッチはトークンに変換され、u字型のエンコーダ-デコーダアーキテクチャに供給される。
エンコーダは階層的なDilated TransformerとNorighborhood AttentionとDilated Neorhood Attention Transformerを組み合わせて、局所的および疎グローバルな注意を抽出する。
実験の結果, isic や synapse などの医用画像セグメンテーションデータセットでは, 拡張不均一が他のモデルよりも優れていることがわかった。 Medical image segmentation is crucial for the development of computer-aided diagnostic and therapeutic systems, but still faces numerous difficulties. In recent years, the commonly used encoder-decoder architecture based on CNNs has been applied effectively in medical image segmentation, but has limitations in terms of learning global context and spatial relationships. Some researchers have attempted to incorporate transformers into both the decoder and encoder components, with promising results, but this approach still requires further improvement due to its high computational complexity. This paper introduces Dilated-UNet, which combines a Dilated Transformer block with the U-Net architecture for accurate and fast medical image segmentation. Image patches are transformed into tokens and fed into the U-shaped encoder-decoder architecture, with skip-connections for local-global semantic feature learning. The encoder uses a hierarchical Dilated Transformer with a combination of Neighborhood Attention and Dilated Neighborhood Attention Transformer to extract local and sparse global attention. The results of our experiments show that Dilated-UNet outperforms other models on several challenging medical image segmentation datasets, such as ISIC and Synapse. | 翻訳日:2023-04-25 18:20:26 公開日:2023-04-22 |
# Dehazing-NeRF: ヘイズ画像からのニューラルラジアンス場 Dehazing-NeRF: Neural Radiance Fields from Hazy Images ( http://arxiv.org/abs/2304.11448v1 ) ライセンス: Link先を確認 | Tian Li, LU Li, Wei Wang, Zhangchi Feng | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は近年,3Dシーンの再現や新しいビュー・シンセサイザーの大幅な品質向上により注目されている。
しかし, 大気中の粒子による大気光と物体光の散乱による画像劣化は, 撮影シーンの再現性を大幅に低下させる可能性がある。
この問題に対処するために,画像入力からNRFをクリアに復元する手法であるDehazing-NeRFを提案する。
提案手法は,大気散乱モデルを用いてヘイズ画像の物理像化過程をシミュレートし,大気散乱モデルとクリーンなNeRFモデルとを併用して画像デハジングと新しいビュー合成の両面において学習する。
従来のアプローチとは異なり、Dehazing-NeRFは、入力としてハズ画像のみを持つ教師なしの手法であり、手動で設計したデハズ先行に頼らない。
大気散乱モデルとNeRF3D画像から推定した深度を併用することにより, 形状整合性を維持しつつ, 単像脱ハージングの問題点を突破する。
さらに、情報損失による画像品質の劣化を軽減するため、モデルトレーニングプロセスにおいて、大気の整合性やコントラスト識別損失と同様に、ソフトマージン整合性正規化が対処される。
画像デハージングと新しいビュー画像合成の両面において,本手法は単一画像デハージングとNeRFの単純な組み合わせよりも優れていることを示す。 Neural Radiance Field (NeRF) has received much attention in recent years due to the impressively high quality in 3D scene reconstruction and novel view synthesis. However, image degradation caused by the scattering of atmospheric light and object light by particles in the atmosphere can significantly decrease the reconstruction quality when shooting scenes in hazy conditions. To address this issue, we propose Dehazing-NeRF, a method that can recover clear NeRF from hazy image inputs. Our method simulates the physical imaging process of hazy images using an atmospheric scattering model, and jointly learns the atmospheric scattering model and a clean NeRF model for both image dehazing and novel view synthesis. Different from previous approaches, Dehazing-NeRF is an unsupervised method with only hazy images as the input, and also does not rely on hand-designed dehazing priors. By jointly combining the depth estimated from the NeRF 3D scene with the atmospheric scattering model, our proposed model breaks through the ill-posed problem of single-image dehazing while maintaining geometric consistency. Besides, to alleviate the degradation of image quality caused by information loss, soft margin consistency regularization, as well as atmospheric consistency and contrast discriminative loss, are addressed during the model training process. Extensive experiments demonstrate that our method outperforms the simple combination of single-image dehazing and NeRF on both image dehazing and novel view image synthesis. | 翻訳日:2023-04-25 18:19:59 公開日:2023-04-22 |
# 後方誤差解析のレンズによる高速拡散確率モデルサンプリング Fast Diffusion Probabilistic Model Sampling through the lens of Backward Error Analysis ( http://arxiv.org/abs/2304.11446v1 ) ライセンス: Link先を確認 | Yansong Gao, Zhihong Pan, Xin Zhou, Le Kang, Pratik Chaudhari | (参考訳) denoising diffusion probabilistic models (ddpms) は強力な生成モデルの一種である。
過去数年間、DDPMが高忠実度サンプルを生成する大きな成功を目撃してきた。
DDPMの顕著な制限は、遅いサンプリング手順である。
DDPMは通常、サンプルを生成するために数百から数千の連続関数評価(ステップ)を必要とする。
本稿では,高い試料品質を維持しつつ,ステップの少ないDDPMの高速サンプリング法を提案する。
DDPMの推論過程は、連続極限における対応する拡散常微分方程式(拡散ODE)を近似する。
この研究は、DDPMの拡散ODEとサンプル品質に後方誤差がどう影響するかを分析する。
本稿では,長時間の逆方向誤差を動的に変調することに基づいて, RBEスケジュール(textbf{Restricting Backward Error schedule)を高速サンプリングする手法を提案する。
我々の手法はDDPMをそれ以上の訓練なしに加速する。
実験の結果,rbeスケジュールによるサンプリングは,ベンチマークデータセット上で8~20の機能評価で高品質なサンプルを生成することがわかった。
我々は、ImageNet $128\times128$で8つの関数評価で12.01 FIDを達成し、以前のベースラインサンプリングよりも20\times$のスピードアップを実現した。 Denoising diffusion probabilistic models (DDPMs) are a class of powerful generative models. The past few years have witnessed the great success of DDPMs in generating high-fidelity samples. A significant limitation of the DDPMs is the slow sampling procedure. DDPMs generally need hundreds or thousands of sequential function evaluations (steps) of neural networks to generate a sample. This paper aims to develop a fast sampling method for DDPMs requiring much fewer steps while retaining high sample quality. The inference process of DDPMs approximates solving the corresponding diffusion ordinary differential equations (diffusion ODEs) in the continuous limit. This work analyzes how the backward error affects the diffusion ODEs and the sample quality in DDPMs. We propose fast sampling through the \textbf{Restricting Backward Error schedule (RBE schedule)} based on dynamically moderating the long-time backward error. Our method accelerates DDPMs without any further training. Our experiments show that sampling with an RBE schedule generates high-quality samples within only 8 to 20 function evaluations on various benchmark datasets. We achieved 12.01 FID in 8 function evaluations on the ImageNet $128\times128$, and a $20\times$ speedup compared with previous baseline samplers. | 翻訳日:2023-04-25 18:19:34 公開日:2023-04-22 |
# チャネル・アテンションとドメイン・adversarial trainingを用いたセグメンテーションのためのcnnの染色不分散の改善 Improving Stain Invariance of CNNs for Segmentation by Fusing Channel Attention and Domain-Adversarial Training ( http://arxiv.org/abs/2304.11445v1 ) ライセンス: Link先を確認 | Kudaibergen Abutalip, Numan Saeed, Mustaqeem Khan, Abdulmotaleb El Saddik | (参考訳) 異なるスライド合成技術、化学薬品、スキャナ構成などの染色プロトコルの変動性は、スライド画像全体(wsis)の多様なセットをもたらす可能性がある。
この分布シフトは、未知のサンプルに対するディープラーニングモデルの性能に悪影響を及ぼし、新しい計算病理学アプリケーションを開発する上で大きな課題となる。
本研究では,セマンティックセグメンテーションのための単一ソース設定における変化を染色するために,畳み込みニューラルネットワーク(CNN)の一般化性を向上させる手法を提案する。
最近の研究では、スタイルの特徴は主に以前のネットワーク層における共分散として存在することが示されている。
本研究は,これらの特徴を検出できるチャネルアテンション機構の設計と,提案するステンドインバリアントトレーニング方式の修正を行う。
我々は、以前のレイヤの出力を再検討し、それらをステンド-逆行訓練ブランチに渡す。
本稿では,マルチセンタ・マルチステインデータセットの手法を評価し,解釈可能性解析によりその効果を示す。
提案手法は, 各種評価指標を用いて, 他の手法と比較して, ベースラインと競争性能を大幅に改善する。
また,本法と染色増強法を組み合わせると,相互に有益な結果が得られ,他の手法よりも優れることを示した。
全体として,我々の研究は計算病理学の分野に大きく貢献している。 Variability in staining protocols, such as different slide preparation techniques, chemicals, and scanner configurations, can result in a diverse set of whole slide images (WSIs). This distribution shift can negatively impact the performance of deep learning models on unseen samples, presenting a significant challenge for developing new computational pathology applications. In this study, we propose a method for improving the generalizability of convolutional neural networks (CNNs) to stain changes in a single-source setting for semantic segmentation. Recent studies indicate that style features mainly exist as covariances in earlier network layers. We design a channel attention mechanism based on these findings that detects stain-specific features and modify the previously proposed stain-invariant training scheme. We reweigh the outputs of earlier layers and pass them to the stain-adversarial training branch. We evaluate our method on multi-center, multi-stain datasets and demonstrate its effectiveness through interpretability analysis. Our approach achieves substantial improvements over baselines and competitive performance compared to other methods, as measured by various evaluation metrics. We also show that combining our method with stain augmentation leads to mutually beneficial results and outperforms other techniques. Overall, our study makes significant contributions to the field of computational pathology. | 翻訳日:2023-04-25 18:19:16 公開日:2023-04-22 |
# 演算子代数量子誤差補正のための安定化器形式 Stabilizer Formalism for Operator Algebra Quantum Error Correction ( http://arxiv.org/abs/2304.11442v1 ) ライセンス: Link先を確認 | Guillaume Dauphinais, David W. Kribs and Michael Vasmer | (参考訳) 従来の量子誤り訂正符号(qec)とpoulinによる演算子量子誤り訂正符号(oqec)の定式化を一般化した、演算子代数量子誤り訂正(oaqec)と呼ばれる一般的な量子エラー補正フレームワークの安定化形式を導入する。
この構成は、ハイブリッド古典量子安定器符号を生成し、与えられた符号に対して修正可能なパウリ誤差を完全に特徴づける定理を定式化し、qecおよびoqec安定化器形式の基本定理を一般化する。
我々は形式主義に動機づけられたベーコン・ソー符号のハイブリッド版を発見し、定理を適用してそれらの符号の距離を与える結果を得る。
最近のハイブリッドサブスペースのコード構造が形式主義によってどのように捉えられているかを示し、またキューディットにどのように拡張されているかを示す。 We introduce a stabilizer formalism for the general quantum error correction framework called operator algebra quantum error correction (OAQEC), which generalizes Gottesman's formulation for traditional quantum error correcting codes (QEC) and Poulin's for operator quantum error correction and subsystem codes (OQEC). The construction generates hybrid classical-quantum stabilizer codes and we formulate a theorem that fully characterizes the Pauli errors that are correctable for a given code, generalizing the fundamental theorems for the QEC and OQEC stabilizer formalisms. We discover hybrid versions of the Bacon-Shor subsystem codes motivated by the formalism, and we apply the theorem to derive a result that gives the distance of such codes. We show how some recent hybrid subspace code constructions are captured by the formalism, and we also indicate how it extends to qudits. | 翻訳日:2023-04-25 18:18:54 公開日:2023-04-22 |
# 物理モデル学習のための物理誘導生成対向ネットワーク Physics-guided generative adversarial network to learn physical models ( http://arxiv.org/abs/2304.11488v1 ) ライセンス: Link先を確認 | Kazuo Yonekura | (参考訳) 本稿では、物理的に妥当なソリューションを学ぶために、ディープニューラルネットワーク(DNN)のガイド付きトレーニングの概念を説明する。
DNNは物理学や力学の現象を予測するために広く使われている。
DNNの問題点の1つは、出力が必ずしも物理方程式を満たすとは限らないことである。
物理方程式を考える1つのアプローチは、損失関数に方程式の残余を加えることである。
PINNの特徴の1つは、物理方程式とそれに対応する残差がニューラルネットワークモデルの一部として実装されなければならないことである。
さらに、残差は常に小さい値に収束するとは限らない。
提案モデルは、GANアーキテクチャを用いて、ニューラルネットワークの出力が物理と一致しているかどうかを判断する物理誘導生成対向ネットワーク(PG-GAN)である。
提案手法は,ユーザビリティを評価するための簡単な問題に適用された。 This short note describes the concept of guided training of deep neural networks (DNNs) to learn physically reasonable solutions. DNNs are being widely used to predict phenomena in physics and mechanics. One of the issues of DNNs is that their output does not always satisfy physical equations. One approach to consider physical equations is adding a residual of equations into the loss function; this is called physics-informed neural network (PINN). One feature of PINNs is that the physical equations and corresponding residual must be implemented as part of a neural network model. In addition, the residual does not always converge to a small value. The proposed model is a physics-guided generative adversarial network (PG-GAN) that uses a GAN architecture in which physical equations are used to judge whether the neural network's output is consistent with physics. The proposed method was applied to a simple problem to assess its potential usability. | 翻訳日:2023-04-25 18:12:05 公開日:2023-04-22 |
# 視力変換器 -高分解能・大規模キャノピー高さマッピングのための新しいアプローチ Vision Transformers, a new approach for high-resolution and large-scale mapping of canopy heights ( http://arxiv.org/abs/2304.11487v1 ) ライセンス: Link先を確認 | Ibrahim Fayad, Philippe Ciais, Martin Schwartz, Jean-Pierre Wigneron, Nicolas Baghdadi, Aur\'elien de Truchis, Alexandre d'Aspremont, Frederic Frappart, Sassan Saatchi, Agnes Pellissier-Tanon and Hassan Bazzi | (参考訳) 森林林高の正確な時間的モニタリングは,森林動態,生物多様性,炭素沈降,森林の劣化,森林伐採を評価する上で重要である。
近年の深層学習技術の進歩と、膨大な宇宙搭載リモートセンシングデータを組み合わせることで、高空間および時間分解能で天蓋の高さをマッピングする前例のない機会が得られている。
壁対壁キャノピー高さマッピングの最近の技術は、光学・レーダーセンサからのリモートセンシングされた2d情報をlidar計測による樹木の垂直構造に関連付けている。
ディープラーニングアルゴリズムを用いた研究は、キャノピーの高さを正確にマッピングする上で有望な性能を示す一方で、アーキテクチャのタイプや損失関数による制限がある。
さらに, 熱帯林に分布するキャノピー高のマッピングは未だ研究が進んでおらず, 光・レーダセンサからの信号飽和, 雲被覆, 時にはLiDARの浸透能力の制限などにより, 高いキャノピーの正確な高度推定は困難である。
ここでは,ガーナの多様な景観にまたがる10mの高さを,分類(離散)と回帰(連続)損失関数を同時に最適化した新しいビジョントランスフォーマ(vit)モデルでマッピングする。
このモデルは、従来の畳み込み型アプローチ(convnets)よりも精度が良く、連続損失関数のみに最適化されている。
vitモデルの結果,提案する離散的/連続的損失により,高木(35m以上)の感度が著しく向上し,他の手法では飽和効果が示された。
ViTによって生成された高さマップは、畳み込みモデルと比較して、より優れた地中サンプリング距離とスパース植生に対する感度を持つ。
我々のViTモデルは参照データセットと比較してRMSEが3.12m、ConvNetモデルはRMSEが4.3mである。 Accurate and timely monitoring of forest canopy heights is critical for assessing forest dynamics, biodiversity, carbon sequestration as well as forest degradation and deforestation. Recent advances in deep learning techniques, coupled with the vast amount of spaceborne remote sensing data offer an unprecedented opportunity to map canopy height at high spatial and temporal resolutions. Current techniques for wall-to-wall canopy height mapping correlate remotely sensed 2D information from optical and radar sensors to the vertical structure of trees using LiDAR measurements. While studies using deep learning algorithms have shown promising performances for the accurate mapping of canopy heights, they have limitations due to the type of architectures and loss functions employed. Moreover, mapping canopy heights over tropical forests remains poorly studied, and the accurate height estimation of tall canopies is a challenge due to signal saturation from optical and radar sensors, persistent cloud covers and sometimes the limited penetration capabilities of LiDARs. Here, we map heights at 10 m resolution across the diverse landscape of Ghana with a new vision transformer (ViT) model optimized concurrently with a classification (discrete) and a regression (continuous) loss function. This model achieves better accuracy than previously used convolutional based approaches (ConvNets) optimized with only a continuous loss function. The ViT model results show that our proposed discrete/continuous loss significantly increases the sensitivity for very tall trees (i.e., > 35m), for which other approaches show saturation effects. The height maps generated by the ViT also have better ground sampling distance and better sensitivity to sparse vegetation in comparison to a convolutional model. Our ViT model has a RMSE of 3.12m in comparison to a reference dataset while the ConvNet model has a RMSE of 4.3m. | 翻訳日:2023-04-25 18:11:51 公開日:2023-04-22 |
# Perfectionism Search Algorithm (PSA): 効率的なメタヒューリスティック最適化手法 Perfectionism Search Algorithm (PSA): An Efficient Meta-Heuristic Optimization Approach ( http://arxiv.org/abs/2304.11486v1 ) ライセンス: Link先を確認 | A. Ghodousian, M. Mollakazemiha, N. Karimian | (参考訳) 本稿では, 完全主義の心理学的側面に基づく, 完全主義探索アルゴリズム (psa) と呼ばれる新しい集団型メタヒューリスティック最適化アルゴリズムを提案する。
PSAアルゴリズムはヒューイットとフレットによって提案された完全主義の最も一般的なモデルの一つである。
PSAアルゴリズムの各イテレーションにおいて、異なる型と完全主義的振る舞いの側面を模倣して新しい解が生成される。
PSAの性能を十分に把握するために,本論文から35個のベンチマーク関数を選択することにより,様々な非線形最適化問題を用いて提案アルゴリズムを検証した。
これらの問題の解は、多くの複雑で実用的な工学最適化問題に適用された11の有名なメタヒューリスティックと比較された。
その結果,他のよく知られたアルゴリズムと比較して,提案アルゴリズムの高性能性を確認した。 This paper proposes a novel population-based meta-heuristic optimization algorithm, called Perfectionism Search Algorithm (PSA), which is based on the psychological aspects of perfectionism. The PSA algorithm takes inspiration from one of the most popular model of perfectionism, which was proposed by Hewitt and Flett. During each iteration of the PSA algorithm, new solutions are generated by mimicking different types and aspects of perfectionistic behavior. In order to have a complete perspective on the performance of PSA, the proposed algorithm is tested with various nonlinear optimization problems, through selection of 35 benchmark functions from the literature. The generated solutions for these problems, were also compared with 11 well-known meta-heuristics which had been applied to many complex and practical engineering optimization problems. The obtained results confirm the high performance of the proposed algorithm in comparison to the other well-known algorithms. | 翻訳日:2023-04-25 18:11:18 公開日:2023-04-22 |
# ギャング関連ソーシャルメディア通信の識別における語彙バイアスの理解 Understanding Lexical Biases when Identifying Gang-related Social Media Communications ( http://arxiv.org/abs/2304.11485v1 ) ライセンス: Link先を確認 | Dhiraj Murthy, Constantine Caramanis, Koustav Rudra | (参考訳) ギャング関連の活動に関わる個人は、FacebookやTwitterなどの主流のソーシャルメディアを使って、お化けや脅し、悲しみや追悼を表現している。
しかし、コミュニティメンバーのニーズに応えるために、ソーシャルメディアソースを通じてギャング関連活動の影響を特定することは、独特の課題である。
これには、ギャング活動によって影響を受ける個人のトレーニングデータを倫理的に識別することの難しさや、これらの個人からのツイートで一般的に使用される非標準言語スタイルを説明する必要性が含まれる。
本研究は,カウンセラーやコンフリクトメディエーター,学術・専門訓練プログラムなど,地域医療資源を必要とする個人を効率的に識別する上で,自然言語処理ツールが有効であることを示す。
当社のバイナリロジスティック分類器は,シカゴに関連するギャング関連ツイートのサンプルを用いて,ギャング関連暴力の影響を受ける個人を特定する上で,基準を上回っていることを実証する。
最終的に、ツイートの言語は極めて関連性が高く、‘ビッグデータ’メソッドや機械学習モデルを使用することで、言語がモデルのパフォーマンスにどう影響するか、集団間でどのように差別化されるのかをよりよく理解する必要があります。 Individuals involved in gang-related activity use mainstream social media including Facebook and Twitter to express taunts and threats as well as grief and memorializing. However, identifying the impact of gang-related activity in order to serve community member needs through social media sources has a unique set of challenges. This includes the difficulty of ethically identifying training data of individuals impacted by gang activity and the need to account for a non-standard language style commonly used in the tweets from these individuals. Our study provides evidence of methods where natural language processing tools can be helpful in efficiently identifying individuals who may be in need of community care resources such as counselors, conflict mediators, or academic/professional training programs. We demonstrate that our binary logistic classifier outperforms baseline standards in identifying individuals impacted by gang-related violence using a sample of gang-related tweets associated with Chicago. We ultimately found that the language of a tweet is highly relevant and that uses of ``big data'' methods or machine learning models need to better understand how language impacts the model's performance and how it discriminates among populations. | 翻訳日:2023-04-25 18:11:03 公開日:2023-04-22 |
# 重みに基づく領域適応型マスク Weight-based Mask for Domain Adaptation ( http://arxiv.org/abs/2304.11479v1 ) ライセンス: Link先を確認 | Eunseop Lee, Inhan Kim and Daijin Kim | (参考訳) コンピュータビジョンにおいて、unsupervised domain adaptation (UDA) は、ラベル豊富なソースドメインから完全にラベルのないターゲットドメインへ知識を転送するアプローチである。
従来のUDAアプローチには2つの問題がある。
最初の問題は、クラス分類器がソースサンプルのみを使用してトレーニングされるため、ソースドメインに偏る可能性があることである。
2つめは、前景と背景に関係なく、以前のアプローチが画像レベルの特徴を調整することだが、分類器は前景機能を必要とする。
これらの問題を解決するために,ドメインIgnore Module (DIM) とSemantic Enhancement Module (SEM) からなるWeight-based Mask Network (WEMNet) を導入する。
DIMはドメイン識別器の重みによってドメインに依存しない特徴表現を取得し、カテゴリを予測する。
さらに、SEMは分類器重みを用いたクラス関連特徴表現を取得し、ドメイン適応のための前景特徴に焦点を当てる。
大規模な実験結果から,提案したWEMNetは,UDAデータセットの競合精度より優れていた。 In computer vision, unsupervised domain adaptation (UDA) is an approach to transferring knowledge from a label-rich source domain to a fully-unlabeled target domain. Conventional UDA approaches have two problems. The first problem is that a class classifier can be biased to the source domain because it is trained using only source samples. The second is that previous approaches align image-level features regardless of foreground and background, although the classifier requires foreground features. To solve these problems, we introduce Weight-based Mask Network (WEMNet) composed of Domain Ignore Module (DIM) and Semantic Enhancement Module (SEM). DIM obtains domain-agnostic feature representations via the weight of the domain discriminator and predicts categories. In addition, SEM obtains class-related feature representations using the classifier weight and focuses on the foreground features for domain adaptation. Extensive experimental results reveal that the proposed WEMNet outperforms the competitive accuracy on representative UDA datasets. | 翻訳日:2023-04-25 18:10:43 公開日:2023-04-22 |
# LLM+P: 最適計画精度で大規模言語モデルを構築する LLM+P: Empowering Large Language Models with Optimal Planning Proficiency ( http://arxiv.org/abs/2304.11477v1 ) ライセンス: Link先を確認 | Bo Liu and Yuqian Jiang and Xiaohan Zhang and Qiang Liu and Shiqi Zhang and Joydeep Biswas and Peter Stone | (参考訳) 最先端のチャットボットは、日常生活で起こる多くの一般的な質問に対して、妥当な答えを提供することができます。
しかし、今のところLLMは長期計画問題を確実に解決できない。
対照的に、古典的なプランナーは、問題が形式化された方法で与えられると、効率的な検索アルゴリズムを使用して、正しい、あるいは最適なプランを素早く識別することができる。
本稿では,従来のプランナの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
LLM+Pは計画問題の自然言語記述を受け取り、その問題を自然言語で解くための正しい(あるいは最適な)計画を返す。
LLM+Pは、まず、言語記述を計画ドメイン定義言語(PDDL)で記述されたファイルに変換し、次に古典的なプランナーを活用して解決策を素早く見つけ、発見されたソリューションを自然言語に翻訳する。
LLM+Pとともに、一般的な計画シナリオから得られる様々なベンチマーク問題を定義する。
これらのベンチマーク問題を総合的に検討した結果, LLM+P はほとんどの問題に対して最適解を提供することができる一方で, LLM はほとんどの問題に対して可能な計画も提供できないことがわかった。
コードと結果はhttps://github.com/Cranial-XIX/llm-pddl.gitで公開されている。 Large language models (LLMs) have demonstrated remarkable zero-shot generalization abilities: state-of-the-art chatbots can provide plausible answers to many common questions that arise in daily life. However, so far, LLMs cannot reliably solve long-horizon planning problems. By contrast, classical planners, once a problem is given in a formatted way, can use efficient search algorithms to quickly identify correct, or even optimal, plans. In an effort to get the best of both worlds, this paper introduces LLM+P, the first framework that incorporates the strengths of classical planners into LLMs. LLM+P takes in a natural language description of a planning problem, then returns a correct (or optimal) plan for solving that problem in natural language. LLM+P does so by first converting the language description into a file written in the planning domain definition language (PDDL), then leveraging classical planners to quickly find a solution, and then translating the found solution back into natural language. Along with LLM+P, we define a diverse set of different benchmark problems taken from common planning scenarios. Via a comprehensive set of experiments on these benchmark problems, we find that LLM+P is able to provide optimal solutions for most problems, while LLMs fail to provide even feasible plans for most problems.\footnote{The code and results are publicly available at https://github.com/Cranial-XIX/llm-pddl.git. | 翻訳日:2023-04-25 18:10:23 公開日:2023-04-22 |
# (ベクトル)空間は最終フロンティアではない:プログラム合成としての製品探索 (Vector) Space is Not the Final Frontier: Product Search as Program Synthesis ( http://arxiv.org/abs/2304.11473v1 ) ライセンス: Link先を確認 | Jacopo Tagliabue and Ciro Greco | (参考訳) eコマースが成長を続けるにつれ、MLと情報検索のためのNLPへの巨額の投資が続いている。
ベクトル空間モデルは、深層学習の出現とともにベクトル化自体が大きく変化したとしても、製品検索における検索モデルに支配的であるが、プログラム合成は、多くのクエリや市場でかなりの数のプレイヤーに大きな利点をもたらす、というコントラリア的手法で論じている。
提案手法の産業的意義を詳述し,実装の詳細をスケッチし,toosoで同様のシステムを構築した経験から,共通する異論に対処した。 As ecommerce continues growing, huge investments in ML and NLP for Information Retrieval are following. While the vector space model dominated retrieval modelling in product search - even as vectorization itself greatly changed with the advent of deep learning -, our position paper argues in a contrarian fashion that program synthesis provides significant advantages for many queries and a significant number of players in the market. We detail the industry significance of the proposed approach, sketch implementation details, and address common objections drawing from our experience building a similar system at Tooso. | 翻訳日:2023-04-25 18:10:01 公開日:2023-04-22 |
# 音声感情認識のための事前学習音声と音声埋め込みの比較検討 A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition ( http://arxiv.org/abs/2304.11472v1 ) ライセンス: Link先を確認 | Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma | (参考訳) 事前学習モデル(ptm)は、音声と音声の領域において大きな可能性を秘めている。
これらのモデルから活用された埋め込みは、様々な下流タスクに応用された学習アルゴリズムのインプットとして機能する。
このような重要な課題のひとつは、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある音声感情認識(SER)である。
PTM埋め込みは、SERの進歩に役立っているが、組込みモデルアーキテクチャ、事前訓練に使用されるデータ、続く事前訓練手順など、複数の面を考慮したこれらのPTM埋め込みの包括的比較は欠落している。
PTM埋め込みの徹底的な比較は、より高速で効率的なモデル開発を支援し、実際のシナリオへの展開を可能にする。
本研究では,この研究ギャップを利用して,8つの音声および音声PTM(wav2vec 2.0, data2vec, wavLM, UniSpeech-SAT, wav2clip, YAMNet, x-vector, ECAPA)から抽出した埋め込みの比較分析を行う。
本研究では,3つのアルゴリズム (XGBoost, Random Forest, FCN) を学習し, 4つの音声感情データセット (CREMA-D, TESS, SAVEE, Emo-DB) を用いた実験的検討を行った。
本研究の結果から, 話者認識のためのPTMから学習したアルゴリズムと, wav2clip と UniSpeech-SAT を併用することにより, 最高の性能が得られることが示された。
これは、話者認識訓練中に、トーン、アクセント、ピッチなどの多数の音声特徴に関する情報を取り出すモデルにより、話者認識 PTM からの埋め込みによるトップパフォーマンスが最も高い可能性が示唆される。
この研究からの洞察は、serに関連するアプリケーションの埋め込みの選択における将来の研究に役立つだろう。 Pre-trained models (PTMs) have shown great promise in the speech and audio domain. Embeddings leveraged from these models serve as inputs for learning algorithms with applications in various downstream tasks. One such crucial task is Speech Emotion Recognition (SER) which has a wide range of applications, including dynamic analysis of customer calls, mental health assessment, and personalized language learning. PTM embeddings have helped advance SER, however, a comprehensive comparison of these PTM embeddings that consider multiple facets such as embedding model architecture, data used for pre-training, and the pre-training procedure being followed is missing. A thorough comparison of PTM embeddings will aid in the faster and more efficient development of models and enable their deployment in real-world scenarios. In this work, we exploit this research gap and perform a comparative analysis of embeddings extracted from eight speech and audio PTMs (wav2vec 2.0, data2vec, wavLM, UniSpeech-SAT, wav2clip, YAMNet, x-vector, ECAPA). We perform an extensive empirical analysis with four speech emotion datasets (CREMA-D, TESS, SAVEE, Emo-DB) by training three algorithms (XGBoost, Random Forest, FCN) on the derived embeddings. The results of our study indicate that the best performance is achieved by algorithms trained on embeddings derived from PTMs trained for speaker recognition followed by wav2clip and UniSpeech-SAT. This can relay that the top performance by embeddings from speaker recognition PTMs is most likely due to the model taking up information about numerous speech features such as tone, accent, pitch, and so on during its speaker recognition training. Insights from this work will assist future studies in their selection of embeddings for applications related to SER. | 翻訳日:2023-04-25 18:09:50 公開日:2023-04-22 |
# 3d-intphys:より一般化した3dグラウンド視覚直感物理への挑戦 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive Physics under Challenging Scenes ( http://arxiv.org/abs/2304.11470v1 ) ライセンス: Link先を確認 | Haotian Xue, Antonio Torralba, Joshua B. Tenenbaum, Daniel LK Yamins, Yunzhu Li, Hsiao-Yu Tung | (参考訳) 視覚的なシーンが与えられた場合、人間は与えられた行動の下でシーンがどのように進化するかについて強い直感を持つ。
直感は、しばしば視覚的直感的物理学と呼ばれ、広範囲な試行錯誤に頼ることなく、望ましい結果を達成するためにシーンを操作する効果的な計画を作ることができる重要な能力である。
本稿では,流体を伴う複雑なシーンの映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
提案手法は, 条件付きニューラルラジアンスフィールド(NeRF)方式の視覚フロントエンドと3次元ポイントベースダイナミックス予測バックエンドで構成され, 基礎環境の構造を捉えるために, 強いリレーショナルおよび構造的帰納バイアスを課すことができる。
シミュレータからの高密度な点軌道の監督に依存する既存の直感的な点ベースダイナミクスとは違って、我々は要求を緩和し、複数ビューのRGB画像や(不完全な)インスタンスマスクへのアクセスのみを前提としている。
これにより、正確な点推定と追跡が困難あるいは不可能なシナリオを扱うことができる。
シミュレーションで流体, 粒状物質, 固形物を含む3つの挑戦シナリオを含むデータセットを生成する。
データセットには密集した粒子情報が含まれないため、従来の3dベースの直感的な物理パイプラインはほとんどそれに対応できない。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
また,トレーニングを済ませば,外挿条件下での複雑なシナリオにおいて,モデルが強力な一般化を実現することを示す。 Given a visual scene, humans have strong intuitions about how a scene can evolve over time under given actions. The intuition, often termed visual intuitive physics, is a critical ability that allows us to make effective plans to manipulate the scene to achieve desired outcomes without relying on extensive trial and error. In this paper, we present a framework capable of learning 3D-grounded visual intuitive physics models from videos of complex scenes with fluids. Our method is composed of a conditional Neural Radiance Field (NeRF)-style visual frontend and a 3D point-based dynamics prediction backend, using which we can impose strong relational and structural inductive bias to capture the structure of the underlying environment. Unlike existing intuitive point-based dynamics works that rely on the supervision of dense point trajectory from simulators, we relax the requirements and only assume access to multi-view RGB images and (imperfect) instance masks acquired using color prior. This enables the proposed model to handle scenarios where accurate point estimation and tracking are hard or impossible. We generate datasets including three challenging scenarios involving fluid, granular materials, and rigid objects in the simulation. The datasets do not include any dense particle information so most previous 3D-based intuitive physics pipelines can barely deal with that. We show our model can make long-horizon future predictions by learning from raw images and significantly outperforms models that do not employ an explicit 3D representation space. We also show that once trained, our model can achieve strong generalization in complex scenarios under extrapolate settings. | 翻訳日:2023-04-25 18:09:16 公開日:2023-04-22 |
# 学習する範囲を増やす:ネステッド部分空間における適応ベイズ最適化 Increasing the Scope as You Learn: Adaptive Bayesian Optimization in Nested Subspaces ( http://arxiv.org/abs/2304.11468v1 ) ライセンス: Link先を確認 | Leonard Papenmeier, Luigi Nardi, Matthias Poloczek | (参考訳) 近年の進歩は、ベイズ最適化(BO)の範囲を数十次元の高価なブラックボックス関数にまで拡大し、例えば生命科学、ニューラルアーキテクチャサーチ、ロボティクスなどの影響のある応用を解き放つことを目指している。
しかし,高次元ベイズ最適化(HDBO)の最先端手法は,ある不確定な仮定が満たされていない場合,次元数の増加やリスク失敗などによって性能低下に悩まされることが明らかとなった。
本稿では、ネストしたランダムな部分空間の新たなファミリを利用したBAxUSを提案し、その問題に最適化する空間を適応させる。
これにより、理論的保証を通じて断定する失敗のリスクを取り除きながら、高いパフォーマンスが保証されます。
包括的な評価により、BAxUSは幅広いアプリケーションに対して最先端の手法よりも優れた結果が得られることが示された。 Recent advances have extended the scope of Bayesian optimization (BO) to expensive-to-evaluate black-box functions with dozens of dimensions, aspiring to unlock impactful applications, for example, in the life sciences, neural architecture search, and robotics. However, a closer examination reveals that the state-of-the-art methods for high-dimensional Bayesian optimization (HDBO) suffer from degrading performance as the number of dimensions increases or even risk failure if certain unverifiable assumptions are not met. This paper proposes BAxUS that leverages a novel family of nested random subspaces to adapt the space it optimizes over to the problem. This ensures high performance while removing the risk of failure, which we assert via theoretical guarantees. A comprehensive evaluation demonstrates that BAxUS achieves better results than the state-of-the-art methods for a broad set of applications. | 翻訳日:2023-04-25 18:08:47 公開日:2023-04-22 |
# プロンプティングによる大規模言語モデルの性能向上 Boosting Theory-of-Mind Performance in Large Language Models via Prompting ( http://arxiv.org/abs/2304.11490v1 ) ライセンス: Link先を確認 | Shima Rahimi Moghaddam, Christopher J. Honey | (参考訳) 大規模言語モデル(llm)は2023年に多くのタスクで優れているが、複雑な推論では依然として課題に直面している。
エージェントの信念、目標、精神状態を理解することを必要とする理論・オブ・ミンド(ToM)タスクは、人間を含む常識的推論に不可欠であり、この分野におけるLLMのパフォーマンスを高めることが不可欠である。
本研究では, GPT-4 と 3 つの GPT-3.5 変種 (Davinci-2, Davinci-3, GPT-3.5-Turbo) のTOM 性能を測定し, テキスト内学習の有効性を検討した。
思考推論の2ショット連鎖とステップバイステップ思考指示を特徴とするプロンプトを評価した。
人間のフィードバックからの強化学習(RLHF)で訓練したLSM(Davinci-2を除く全てのモデル)は、文脈内学習によりToMの精度を向上させた。
GPT-4はゼロショットで最高の性能を示し、80%の精度に達したが、それでもテストセットの87%の精度には届かなかった。
しかし、インコンテキスト学習のプロンプトを供給された場合、全てのRLHF学習LLMは80%ToMの精度を達成し、GPT-4は100%に達した。
これらの結果は、適切なプロンプトがLLM ToM推論を促進することを示し、LLM認知能力の文脈依存性を強調している。 Large language models (LLMs) excel in many tasks in 2023, but they still face challenges in complex reasoning. Theory-of-mind (ToM) tasks, which require understanding agents' beliefs, goals, and mental states, are essential for common-sense reasoning involving humans, making it crucial to enhance LLM performance in this area. This study measures the ToM performance of GPT-4 and three GPT-3.5 variants (Davinci-2, Davinci-3, GPT-3.5-Turbo), and investigates the effectiveness of in-context learning in improving their ToM comprehension. We evaluated prompts featuring two-shot chain of thought reasoning and step-by-step thinking instructions. We found that LLMs trained with Reinforcement Learning from Human Feedback (RLHF) (all models excluding Davinci-2) improved their ToM accuracy via in-context learning. GPT-4 performed best in zero-shot settings, reaching nearly 80% ToM accuracy, but still fell short of the 87% human accuracy on the test set. However, when supplied with prompts for in-context learning, all RLHF-trained LLMs exceeded 80% ToM accuracy, with GPT-4 reaching 100%. These results demonstrate that appropriate prompting enhances LLM ToM reasoning, and they underscore the context-dependent nature of LLM cognitive capacities. | 翻訳日:2023-04-25 18:00:03 公開日:2023-04-22 |
# ChatGPTは人間生成ラベルを再現できるか?
ソーシャル・コンピューティングの課題に関する研究 Can ChatGPT Reproduce Human-Generated Labels? A Study of Social Computing Tasks ( http://arxiv.org/abs/2304.10145v2 ) ライセンス: Link先を確認 | Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson | (参考訳) ChatGPTのリリースにより、大きな言語モデル(LLM)が人間のインテリジェンスに取って代わる可能性があることが判明した。
本稿では,ChatGPTがソーシャル・コンピューティング・タスクにおいて人為的ラベルアノテーションを再現する可能性について考察する。
このような成果は、社会コンピューティング研究のコストと複雑さを大幅に削減することができる。
そこで、ChatGPTを用いて、姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出を含む5つのセミナルデータセットをラバーする。
この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
ChatGPTは平均精度0.609を得る。
感情分析データセットのパフォーマンスは最高であり、ChatGPTは64.9%のツイートを正しく注釈付けしている。
しかし、パフォーマンスは個々のラベルによって大きく異なります。
この研究は、新しい分析ラインを開き、人的アノテーションタスクに対するchatgptの利用に関する将来の研究の基盤として機能すると信じています。 The release of ChatGPT has uncovered a range of possibilities whereby large language models (LLMs) can substitute human intelligence. In this paper, we seek to understand whether ChatGPT has the potential to reproduce human-generated label annotations in social computing tasks. Such an achievement could significantly reduce the cost and complexity of social computing research. As such, we use ChatGPT to relabel five seminal datasets covering stance detection (2x), sentiment analysis, hate speech, and bot detection. Our results highlight that ChatGPT does have the potential to handle these data annotation tasks, although a number of challenges remain. ChatGPT obtains an average accuracy 0.609. Performance is highest for the sentiment analysis dataset, with ChatGPT correctly annotating 64.9% of tweets. Yet, we show that performance varies substantially across individual labels. We believe this work can open up new lines of analysis and act as a basis for future research into the exploitation of ChatGPT for human annotation tasks. | 翻訳日:2023-04-25 11:20:28 公開日:2023-04-22 |
# cornerformer: きめ細かい構造再構築のためのコーナー表現の強化 CornerFormer: Boosting Corner Representation for Fine-Grained Structured Reconstruction ( http://arxiv.org/abs/2304.07072v3 ) ライセンス: Link先を確認 | Hongbo Tian and Yulong Li and Linzhi Huang and Yue Yang and Xiangang Li and Weihong Deng | (参考訳) 構造化再構成は非自明な密集した予測問題であり、ラスター画像から構造情報(例えば、建物角とエッジ)を抽出し、それを2次元平面グラフに再構成する。
一般的なセグメンテーションや検出問題と比較すると、構造的推論に全体幾何学的情報を活用する能力に大きく依存する。
現在の変圧器ベースのアプローチは、第1モデルのコーナーを検出し、第2モデルのエッジ(コーナーペア)を分類する、2段階的な方法でこの問題に取り組む。
しかし、2段階を異なるモデルに分離し、バックボーンエンコーダのみを共有する。
既存のモデリング戦略と異なり,コーナー表現法が強化されている。
1) 異なる粒度で特徴を共有することにより,コーナー検出とエッジ予測の知識を融合させる。
2)角膜候補は4つの熱マップチャネルにおいてその方向を示す。
質的および定量的評価により,提案手法は隣接する角や微小な縁などの細粒構造をよりよく再構成できることが証明された。
その結果、Cornerでは+1.9\%@F-1、Edgeでは+3.0\%@F-1で最先端モデルより優れている。 Structured reconstruction is a non-trivial dense prediction problem, which extracts structural information (\eg, building corners and edges) from a raster image, then reconstructs it to a 2D planar graph accordingly. Compared with common segmentation or detection problems, it significantly relays on the capability that leveraging holistic geometric information for structural reasoning. Current transformer-based approaches tackle this challenging problem in a two-stage manner, which detect corners in the first model and classify the proposed edges (corner-pairs) in the second model. However, they separate two-stage into different models and only share the backbone encoder. Unlike the existing modeling strategies, we present an enhanced corner representation method: 1) It fuses knowledge between the corner detection and edge prediction by sharing feature in different granularity; 2) Corner candidates are proposed in four heatmap channels w.r.t its direction. Both qualitative and quantitative evaluations demonstrate that our proposed method can better reconstruct fine-grained structures, such as adjacent corners and tiny edges. Consequently, it outperforms the state-of-the-art model by +1.9\%@F-1 on Corner and +3.0\%@F-1 on Edge. | 翻訳日:2023-04-25 11:19:50 公開日:2023-04-22 |