このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230607となっている論文です。

PDF登録状況(公開日: 20230607)

TitleAuthorsAbstract論文公表日・翻訳日
# Java 用マテリアルのソフトウェア請求書作成の課題

Challenges of Producing Software Bill Of Materials for Java ( http://arxiv.org/abs/2303.11102v2 )

ライセンス: Link先を確認
Musard Balliu, Benoit Baudry, Sofia Bobadilla, Mathias Ekstedt, Martin Monperrus, Javier Ron, Aman Sharma, Gabriel Skoglund, C\'esar Soto-Valero, Martin Wittlinger(参考訳) SBOM(Software Bill of Materials)は、ソフトウェアサプライチェーン硬化のバックボーンとなることを約束する。 6つのツールと、彼らが複雑なオープンソースjavaプロジェクトで生み出すsbomの正確さを深く掘り下げた。 我々の新しい知見は、SBOMの正確な生産と使用の難しさを明らかにしている。

Software bills of materials (SBOM) promise to become the backbone of software supply chain hardening. We deep-dive into 6 tools and the accuracy of the SBOMs they produce for complex open-source Java projects. Our novel insights reveal some hard challenges for the accurate production and usage of SBOMs.
翻訳日:2023-10-24 12:54:24 公開日:2023-06-07
# Javaの品質保証ツールに関する総合的研究

A Comprehensive Study on Quality Assurance Tools for Java ( http://arxiv.org/abs/2305.16812v2 )

ライセンス: Link先を確認
Han Liu, Sen Chen, Ruitao Feng, Chengwei Liu, Kaixuan Li, Zhengzi Xu, Liming Nie, Yang Liu, Yixiang Chen(参考訳) 品質保証(QA)ツールはますます注目を集め、開発者に広く利用されている。 QA技術の幅広いソリューションを考えると、QAツールを評価することは依然として問題である。 現存する研究のほとんどは以下の方法で制限されている。 (i)スキャニングルール解析を考慮せずにツールを比較する。 (ii)研究方法論とベンチマークデータセットによるツールの有効性については意見が一致しない。 (iii)警告の役割を別々に分析しない。 (iv)時間パフォーマンスの分析に関する大規模な研究は行われていない。 これらの問題を解決するため、本稿では、既存の148のJava QAツールのリストから、6つのフリーまたはオープンソースツールを体系的に選択する。 総合的な研究を行い,多次元のツール評価を行うため,まずスキャンルールをCWEにマッピングし,スキャンルールの範囲と粒度を解析した。 次に,これらのツールの有効性を調べるために,1,425件のバグを含む5つのベンチマーク実験を行った。 さらに,実際のラベル付きバグと警告を比較し,バグ検出におけるそれらの役割を調べることで,警告の有効性について検討した。 最後に、これらのツールの時間パフォーマンスを1,049プロジェクトについて評価した。 包括的な調査に基づく有用な発見は、開発者がツールを改善し、QAツールを選択するための提案を提供するのに役立つ。

Quality assurance (QA) tools are receiving more and more attention and are widely used by developers. Given the wide range of solutions for QA technology, it is still a question of evaluating QA tools. Most existing research is limited in the following ways: (i) They compare tools without considering scanning rules analysis. (ii) They disagree on the effectiveness of tools due to the study methodology and benchmark dataset. (iii) They do not separately analyze the role of the warnings. (iv) There is no large-scale study on the analysis of time performance. To address these problems, in the paper, we systematically select 6 free or open-source tools for a comprehensive study from a list of 148 existing Java QA tools. To carry out a comprehensive study and evaluate tools in multi-level dimensions, we first mapped the scanning rules to the CWE and analyze the coverage and granularity of the scanning rules. Then we conducted an experiment on 5 benchmarks, including 1,425 bugs, to investigate the effectiveness of these tools. Furthermore, we took substantial effort to investigate the effectiveness of warnings by comparing the real labeled bugs with the warnings and investigating their role in bug detection. Finally, we assessed these tools' time performance on 1,049 projects. The useful findings based on our comprehensive study can help developers improve their tools and provide users with suggestions for selecting QA tools.
翻訳日:2023-10-24 05:25:52 公開日:2023-06-07
# サイバーセキュリティリスク評価分析システムへの入力としての評価を行う多目的ファズーの開発

Development of a Multi-purpose Fuzzer to Perform Assessment as Input to a Cybersecurity Risk Assessment and Analysis System ( http://arxiv.org/abs/2306.04284v1 )

ライセンス: Link先を確認
Jack Hance, Jeremy Straub(参考訳) ファジィングは、入力の自動適応を通じて、サイバーセキュリティリスクのソフトウェアやシステムをテストするために利用される。 ソフトウェアバグの特定や,脆弱性の発生や異常な操作,システムの障害発生などの誤った設定が容易になる。 特定のシステムをテストするために,多くのファジィザが開発されているが,本論文では,構成ファイルを利用するソフトウェアやサイバー物理システムをテストするための,汎用ファジィザを提案する。 このファザーは、システムやソフトウェアの欠陥や脆弱性の検出を容易にする一方で、デバイス操作に対する設定の影響の判断も行う。 この後の能力は、サイバーセキュリティリスク評価および分析システムにおけるデバイスのモデリングを促進する。 本稿では,提案手法の性能について述べるとともに評価する。 また、このファザがサイバーセキュリティのリスク評価と分析システムの一部としてどのように機能するかについても詳述している。

Fuzzing is utilized for testing software and systems for cybersecurity risk via the automated adaptation of inputs. It facilitates the identification of software bugs and misconfigurations that may create vulnerabilities, cause abnormal operations or result in systems' failure. While many fuzzers have been purpose-developed for testing specific systems, this paper proposes a generalized fuzzer that provides a specific capability for testing software and cyber-physical systems which utilize configuration files. While this fuzzer facilitates the detection of system and software defects and vulnerabilities, it also facilitates the determination of the impact of settings on device operations. This later capability facilitates the modeling of the devices in a cybersecurity risk assessment and analysis system. This paper describes and assesses the performance of the proposed fuzzer technology. It also details how the fuzzer operates as part of the broader cybersecurity risk assessment and analysis system.
翻訳日:2023-10-24 04:15:27 公開日:2023-06-07
# ethereumスマートコントラクトの脆弱性に対するsolidityコンパイラ更新の影響に関する実証的研究

An Empirical Study of Impact of Solidity Compiler Updates on Vulnerabilities in Ethereum Smart Contracts ( http://arxiv.org/abs/2306.04250v1 )

ライセンス: Link先を確認
Chihiro Kado, Naoto Yanai, Jason Paul Cruz, Kyosuke Yamashita, Shingo Okamura(参考訳) ethereumスマートコントラクトの脆弱性は、しばしば深刻な財政的損傷を引き起こす。 Solidityコンパイラは脆弱性を防ぐために更新されているが、私たちの知る限り、その効果は明らかにされていない。 本稿では,ethereumスマートコントラクトの脆弱性のコンパイラバージョンが与える影響について概説する。 この目的のために、Ethereumブロックチェーン内のSolidityソースコードと503,572のコントラクトを収集し、その脆弱性を分析しました。 重大度の高い3つの脆弱性(例えば、ロックマネー、tx.origin、unchecked call)については、solidityコンパイラのメジャーアップデートにより、その出現率が低下することを示している。 そして、次の4つの重要な洞察を見つけました。 まず、バージョン0.6のリリース後、ロックマネーの出現率が低下した。 第二に、コンパイラの更新にかかわらず、tx.originの使用の出現率は著しく低い。 第3に、バージョン0.8では未チェック呼び出しの出現率は減少したが、コードクローンを含むさまざまな要因により依然として高いままである。 第4に,コードクローンの解析により,コードクローンを除去することにより,未確認呼び出しの出現率をさらに低減できることを示す。

Vulnerabilities of Ethereum smart contracts often cause serious financial damage. Whereas the Solidity compiler has been updated to prevent vulnerabilities, its effectiveness has not been revealed so far, to the best of our knowledge. In this paper, we shed light on the impact of compiler versions of vulnerabilities of Ethereum smart contracts. To this end, we collected 503,572 contracts with Solidity source codes in the Ethereum blockchain and then analyzed their vulnerabilities. For three vulnerabilities with high severity, i.e., Locked Money, Using tx.origin, and Unchecked Call, we show that their appearance rates are decreased by virtue of major updates of the Solidity compiler. We then found the following four key insights. First, after the release of version 0.6, the appearance rate for Locked Money has decreased. Second, regardless of compiler updates, the appearance rate for Using tx.origin is significantly low. Third, although the appearance rate for Unchecked Call has decreased in version 0.8, it still remains high due to various factors, including code clones. Fourth, through analysis of code clones, our promising results show that the appearance rate for Unchecked Call can be further decreased by removing the code clones.
翻訳日:2023-10-24 04:14:51 公開日:2023-06-07
# 物質科学のための最適結晶グラフ生成

Optimized Crystallographic Graph Generation for Material Science ( http://arxiv.org/abs/2307.05380v1 )

ライセンス: Link先を確認
Astrid Klipfel and Ya\"el Fr\'egier and Adlane Sayede and Zied Bouraoui(参考訳) グラフニューラルネットワークは、化学、特に物質科学の発見に適用される機械学習で広く使われている。 しかし、結晶材料では、ニューラルネットワークの幾何学的情報からグラフベースの表現を生成することは簡単な作業ではない。 結晶の周期性は、超並列環境下でリアルタイムに処理される効率的な実装を必要とする。 新たな物質発見のグラフに基づく生成モデルを訓練することを目的として,GPU最適化における周期構造のカットオフグラフとk-アネレスグラフを生成する効率的なツールを提案する。 我々は、ニューラルネットワークアーキテクチャのトレーニング中にリアルタイムでグラフを生成するPytorch互換フレームワークであるpyMatGraphを提供する。 このツールは、構造のグラフを更新でき、生成モデルが幾何を更新でき、gpu側での前方伝播中に更新されたグラフを処理できます。 私たちのコードはhttps://github.com/aklipf/mat-graph.comで公開されています。

Graph neural networks are widely used in machine learning applied to chemistry, and in particular for material science discovery. For crystalline materials, however, generating graph-based representation from geometrical information for neural networks is not a trivial task. The periodicity of crystalline needs efficient implementations to be processed in real-time under a massively parallel environment. With the aim of training graph-based generative models of new material discovery, we propose an efficient tool to generate cutoff graphs and k-nearest-neighbours graphs of periodic structures within GPU optimization. We provide pyMatGraph a Pytorch-compatible framework to generate graphs in real-time during the training of neural network architecture. Our tool can update a graph of a structure, making generative models able to update the geometry and process the updated graph during the forward propagation on the GPU side. Our code is publicly available at https://github.com/aklipf/mat-graph.
翻訳日:2023-10-23 17:55:09 公開日:2023-06-07
# 変圧器を用いた時空間データ解析によるビジネス軌道のロック解除

Unlocking Insights into Business Trajectories with Transformer-based Spatio-temporal Data Analysis ( http://arxiv.org/abs/2306.10034v1 )

ライセンス: Link先を確認
Muhammad Arslan, Christophe Cruz(参考訳) ビジネスの世界は絶えず進化しており、カーブの前にいるためには、市場のトレンドとパフォーマンスを深く理解する必要がある。 本稿では、ニュース記事データを用いたビジネストラジェクトリのモデル化により、この要件に対処する。

The world of business is constantly evolving and staying ahead of the curve requires a deep understanding of market trends and performance. This article addresses this requirement by modeling business trajectories using news articles data.
翻訳日:2023-06-26 01:49:49 公開日:2023-06-07
# 音声間会議における再現性の検討--縦断的・比較的視点から

Investigating Reproducibility at Interspeech Conferences: A Longitudinal and Comparative Perspective ( http://arxiv.org/abs/2306.10033v1 )

ライセンス: Link先を確認
Mohammad Arvan, A. Seza Do\u{g}ru\"oz, Natalie Parde(参考訳) 再現性は、分野をまたがる科学の進歩にとって重要な側面であり、オープンサイエンスの障壁を減らすことは、interspeech 2023のテーマの焦点領域である。 ソースコードの可用性は再現性を促進する指標の1つである。 しかしながら、Interspeechカンファレンスの再現率について、この分野の他のカンファレンスと比べては、あまり知られていない。 このギャップを埋めるために,音声および言語処理分野の7つのカンファレンスで27,717の論文を調査した。 他のカンファレンスに広く受け入れられた論文があるにも関わらず、Interspeechはソースコードの可用性を最大40%削減している。 我々の研究で遭遇した困難を報告することに加え、さらなる研究の再現性を高めるための勧告と可能な方向性も提供する。

Reproducibility is a key aspect for scientific advancement across disciplines, and reducing barriers for open science is a focus area for the theme of Interspeech 2023. Availability of source code is one of the indicators that facilitates reproducibility. However, less is known about the rates of reproducibility at Interspeech conferences in comparison to other conferences in the field. In order to fill this gap, we have surveyed 27,717 papers at seven conferences across speech and language processing disciplines. We find that despite having a close number of accepted papers to the other conferences, Interspeech has up to 40% less source code availability. In addition to reporting the difficulties we have encountered during our research, we also provide recommendations and possible directions to increase reproducibility for further studies.
翻訳日:2023-06-26 01:49:42 公開日:2023-06-07
# FOOCTTS:サッカー解説者のための音響環境を用いたアラビア語音声の生成

FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator ( http://arxiv.org/abs/2306.07936v1 )

ライセンス: Link先を確認
Massa Baali, Ahmed Ali(参考訳) 本稿では,背景雑音を伴う音声を生成するサッカー解説者のための自動パイプラインFOOCTTSを提案する。 アプリケーションはユーザからテキストを取得し、母音化などのテキスト前処理を適用し、次にコメンテーターの音声合成装置が続く。 パイプラインには、データラベリングのためのアラビア自動音声認識、CTCセグメンテーション、音声にマッチする転写母音化、TTSの微調整が含まれていた。 本システムは,サッカーコメンテータ記録の15分以内の音響環境下で音声を生成することができる。 我々のプロトタイプは一般化可能で、異なるドメインや言語に容易に適用できます。

This paper presents FOOCTTS, an automatic pipeline for a football commentator that generates speech with background crowd noise. The application gets the text from the user, applies text pre-processing such as vowelization, followed by the commentator's speech synthesizer. Our pipeline included Arabic automatic speech recognition for data labeling, CTC segmentation, transcription vowelization to match speech, and fine-tuning the TTS. Our system is capable of generating speech with its acoustic environment within limited 15 minutes of football commentator recording. Our prototype is generalizable and can be easily applied to different domains and languages.
翻訳日:2023-06-18 12:31:54 公開日:2023-06-07
# ERA5リアナリシスデータを用いた熱帯サイクロン検出のためのアンサンブル機械学習手法

An Ensemble Machine Learning Approach for Tropical Cyclone Detection Using ERA5 Reanalysis Data ( http://arxiv.org/abs/2306.07291v1 )

ライセンス: Link先を確認
Gabriele Accarino (1), Davide Donno (1), Francesco Immorlano (1 and 2), Donatello Elia (1), Giovanni Aloisio (1 and 2) ((1) Advanced Scientific Computing Division, Centro Euro-Mediterraneo sui Cambiamenti Climatici, Lecce, Italy, (2) Department of Innovation Engineering, University of Salento, Lecce, Italy)(参考訳) 熱帯サイクロン(tcs)は自然界で見られる最も破壊的な現象として数えられる。 毎年、世界の平均90TCが熱帯水域で発生し、地球温暖化によってより強く、より大きく、より破壊的になっている。 このような現象の正確な検出と追跡は、気象と気候科学の研究の重要かつ興味深い分野となっている。 伝統的に、TCは主観的閾値に依存する決定論的追跡スキームを用いて、大規模な気候データセットで特定されてきた。 機械学習(ml)モデルは、利用可能なデータから入力された気候ドライバとtcセンターの地理的位置のマッピングを捉える能力があるため、決定論的アプローチを補完することができる。 そこで本研究では,TC中心座標の位置を求めるMLアンサンブル手法を提案し,TCM分類とローカライゼーションの両方を1つのエンドツーエンド学習タスクに組み込む。 このアンサンブルは、入力データにおけるTCの存在に同意する異なるMLモデルのTC中心推定と組み合わせる。 ERA5の再分析は、気候管理のための国際ベストトラックアーカイブと共同でモデルトレーニングと試験に使用された。 その結果, ML手法は, サンプルデータから得られる優れた一般化機能を提供するTC検出に適していることがわかった。 特に、モデルのトレーニングに使用されるものよりも低いTCカテゴリを正確に検出することができた。 これに加えて、アンサンブル・アプローチは、単一モデルTCセンター推定に対するTCローカライズ性能をさらに向上させ、提案手法の優れた性能を実証した。

Tropical Cyclones (TCs) are counted among the most destructive phenomena that can be found in nature. Every year, globally an average of 90 TCs occur over tropical waters, and global warming is making them stronger, larger and more destructive. The accurate detection and tracking of such phenomena have become a relevant and interesting area of research in weather and climate science. Traditionally, TCs have been identified in large climate datasets through the use of deterministic tracking schemes that rely on subjective thresholds. Machine Learning (ML) models can complement deterministic approaches due to their ability to capture the mapping between the input climatic drivers and the geographical position of the TC center from the available data. This study presents a ML ensemble approach for locating TC center coordinates, embedding both TC classification and localization in a single end-to-end learning task. The ensemble combines TC center estimates of different ML models that agree about the presence of a TC in input data. ERA5 reanalysis were used for model training and testing jointly with the International Best Track Archive for Climate Stewardship records. Results showed that the ML approach is well-suited for TC detection providing good generalization capabilities on out of sample data. In particular, it was able to accurately detect lower TC categories than those used for training the models. On top of this, the ensemble approach was able to further improve TC localization performance with respect to single model TC center estimates, demonstrating the good capabilities of the proposed approach.
翻訳日:2023-06-18 12:30:45 公開日:2023-06-07
# IsoEx: イベントログのサイバー調査を処理するための説明不能なアプローチ

IsoEx: an explainable unsupervised approach to process event logs cyber investigation ( http://arxiv.org/abs/2306.09260v1 )

ライセンス: Link先を確認
Pierre Lavieille and Ismail Alaoui Hassani Atlas(参考訳) 39秒 2023年の2回の連続サイバー攻撃のタイムラプスです。 つまり、この要約を読み終える頃には、世界のどこかで、さらに1、2件のサイバー攻撃が起きたことになる。 サイバー脅威の頻度が高くなったこの文脈では、セキュリティオペレーションセンター(SOC)とコンピュータ緊急対応チーム(CERT)が圧倒される可能性がある。 サイバーセキュリティチームの調査努力を緩和し、さらに付加価値の高いタスクに集中するために、マシンラーニングのアプローチとメソッドが登場し始めた。 本稿では, 汚染装置の調査中に異常かつ潜在的に問題のあるコマンドラインを検出する新しい手法であるisoexを提案する。 IsoExは、コマンドラインのログ構造と親子関係を利用して、従来のメソッドよりも高い精度を達成する一連の機能を中心に構築されている。 異常を検出するために、IsoExは高度に敏感かつ軽量な教師なしの異常検出技術を利用する。 この論文の重要な貢献は、機能そのものとeXplainable Artificial Intelligence(XAI)技術と視覚化の応用を通じて達成された解釈可能性に重点を置いていることである。 SOCおよびCERTチームによる手法の採用を確実にするためには、ログ調査のための機械学習に関する現在の文献は、説明可能性の問題に適切に対処していない、と論文は主張する。 この方法は,企業のSOCとCERTをサポートするために構築された実環境において有効であることが証明された。

39 seconds. That is the timelapse between two consecutive cyber attacks as of 2023. Meaning that by the time you are done reading this abstract, about 1 or 2 additional cyber attacks would have occurred somewhere in the world. In this context of highly increased frequency of cyber threats, Security Operation Centers (SOC) and Computer Emergency Response Teams (CERT) can be overwhelmed. In order to relieve the cybersecurity teams in their investigative effort and help them focus on more added-value tasks, machine learning approaches and methods started to emerge. This paper introduces a novel method, IsoEx, for detecting anomalous and potentially problematic command lines during the investigation of contaminated devices. IsoEx is built around a set of features that leverages the log structure of the command line, as well as its parent/child relationship, to achieve a greater accuracy than traditional methods. To detect anomalies, IsoEx resorts to an unsupervised anomaly detection technique that is both highly sensitive and lightweight. A key contribution of the paper is its emphasis on interpretability, achieved through the features themselves and the application of eXplainable Artificial Intelligence (XAI) techniques and visualizations. This is critical to ensure the adoption of the method by SOC and CERT teams, as the paper argues that the current literature on machine learning for log investigation has not adequately addressed the issue of explainability. This method was proven efficient in a real-life environment as it was built to support a company\'s SOC and CERT
翻訳日:2023-06-18 12:12:51 公開日:2023-06-07
# 局所性によるアベリア対称性の非普遍性

Locality Induced Non-Universality for Abelian Symmetries ( http://arxiv.org/abs/2306.05435v1 )

ライセンス: Link先を確認
Sarvagya Jain(参考訳) 量子コンピューティングでよく知られた結果によれば、複合システム上のユニタリ変換は2ドルのローカルユニタリを使って生成できる。 興味深いことに、この普遍性は対称性の存在に留まらない。 本稿では,すべてのアベリア対称性に対する非ユニバーサリティ結果の類似性について検討する。

According to a well-known result in quantum computing, any unitary transformation on a composite system can be generated using $2$-local unitaries. Interestingly, this universality need not hold in the presence of symmetries. In this paper, we study the analogues of the non-universality results for all Abelian symmetries.
翻訳日:2023-06-12 16:02:58 公開日:2023-06-07
# checkgpt を使って chatgpt が生成したアカデミックライティングを検出する

Check Me If You Can: Detecting ChatGPT-Generated Academic Writing using CheckGPT ( http://arxiv.org/abs/2306.05524v1 )

ライセンス: Link先を確認
Zeyan Liu, Zijun Yao, Fengjun Li, Bo Luo(参考訳) ChatGPTが注目を浴びる中、学術的な執筆に大規模言語モデル(LLM)を利用することは、コミュニティでかなりの議論と関心を惹きつけてきた。 LLM-Generated Content (LLM-content) を検出するためにかなりの研究努力がなされているが、ほとんどの試みはまだ初期段階にある。 本稿では, LLM の学術的誤用に対する懸念に対処するために, データセット, 証拠, アルゴリズムを提供することにより, LLM の生成する学術的著作を検出するための総合的研究を行う。 GPABenchmarkは、CS、物理学、人文科学、社会科学(HSS)の研究論文の、人文・人文・人文・人文・人文・人文・社会科学の600,000サンプルのベンチマークデータセットである。 既存のオープンソースおよび商用 GPT 検出器は GPABenchmark に不満足な性能を示し,特に GPT をポリレートしたテキストに対して有効である。 また,150名以上の参加者を対象としたユーザ調査により,経験豊富な教員や研究者を含む人間ユーザに対して,gpt生成した抽象概念の同定が極めて困難であることが示された。 次に,汎用表現モジュールと減衰BiLSTM分類モジュールからなる新しいLCMコンテンツ検出器であるCheckGPTについて述べる。 実験の結果,checkgptはタスク特化検出器と統一検出器の平均分類精度98%から99%を達成した。 checkgptは高度に転送可能で、チューニングなしではニュース記事など新しいドメインで90%の精度を達成でき、ターゲットドメインで約2000サンプルをチューニングしたモデルでは98%の精度を達成している。 最後に,CheckGPTから得られた説明可能性について,LLMによるテキスト生成の鍵となる振る舞いを明らかにする。

With ChatGPT under the spotlight, utilizing large language models (LLMs) for academic writing has drawn a significant amount of discussions and concerns in the community. While substantial research efforts have been stimulated for detecting LLM-Generated Content (LLM-content), most of the attempts are still in the early stage of exploration. In this paper, we present a holistic investigation of detecting LLM-generate academic writing, by providing a dataset, evidence, and algorithms, in order to inspire more community effort to address the concern of LLM academic misuse. We first present GPABenchmark, a benchmarking dataset of 600,000 samples of human-written, GPT-written, GPT-completed, and GPT-polished abstracts of research papers in CS, physics, and humanities and social sciences (HSS). We show that existing open-source and commercial GPT detectors provide unsatisfactory performance on GPABenchmark, especially for GPT-polished text. Moreover, through a user study of 150+ participants, we show that it is highly challenging for human users, including experienced faculty members and researchers, to identify GPT-generated abstracts. We then present CheckGPT, a novel LLM-content detector consisting of a general representation module and an attentive-BiLSTM classification module, which is accurate, transferable, and interpretable. Experimental results show that CheckGPT achieves an average classification accuracy of 98% to 99% for the task-specific discipline-specific detectors and the unified detectors. CheckGPT is also highly transferable that, without tuning, it achieves ~90% accuracy in new domains, such as news articles, while a model tuned with approximately 2,000 samples in the target domain achieves ~98% accuracy. Finally, we demonstrate the explainability insights obtained from CheckGPT to reveal the key behaviors of how LLM generates texts.
翻訳日:2023-06-12 15:35:11 公開日:2023-06-07
# 共同創設者数を分散させたニューラルネットワークを用いた一般治療効果の因果的推論

Causal Inference of General Treatment Effects using Neural Networks with A Diverging Number of Confounders ( http://arxiv.org/abs/2009.07055v6 )

ライセンス: Link先を確認
Xiaohong Chen, Ying Liu, Shujie Ma, Zheng Zhang(参考訳) 因果効果の推定は行動学、社会学、経済学、生物医学の第一目標である。 非確立状態下では、共同設立者に対する調整は、共同設立者に対する結果および/または治療に関するニュアンス機能を見積もる必要がある。 本稿では,サンプルサイズに応じて共変量数が増加することを許された場合,feedforward artificial neural network (anns) を用いた汎用的治療効果の効率的な推定のための最適化フレームワークについて検討する。 我々は, ANNによるニュアンス関数を推定し, ニュアンス関数が混合ソボレフ空間に属する場合に, ANNの近似器に拘束される新しい近似誤差を開発する。 この状況下での次元の呪いを軽減できることを示す。 さらに,提案する治療効果推定器の整合性と漸近的正規性を確立し,重み付けブートストラップ法を適用して推論を行う。 提案手法はシミュレーション研究と実データ応用によって示される。

The estimation of causal effects is a primary goal of behavioral, social, economic and biomedical sciences. Under the unconfoundedness condition, adjustment for confounders requires estimating the nuisance functions relating outcome and/or treatment to confounders. This paper considers a generalized optimization framework for efficient estimation of general treatment effects using feedforward artificial neural networks (ANNs) when the number of covariates is allowed to increase with the sample size. We estimate the nuisance function by ANNs, and develop a new approximation error bound for the ANNs approximators when the nuisance function belongs to a mixed Sobolev space. We show that the ANNs can alleviate the curse of dimensionality under this circumstance. We further establish the consistency and asymptotic normality of the proposed treatment effects estimators, and apply a weighted bootstrap procedure for conducting inference. The proposed methods are illustrated via simulation studies and a real data application.
翻訳日:2023-06-09 22:47:21 公開日:2023-06-07
# 平行パンケーキを超えて:非球面ガウス混合に対する準多項時間保証

Beyond Parallel Pancakes: Quasi-Polynomial Time Guarantees for Non-Spherical Gaussian Mixtures ( http://arxiv.org/abs/2112.05445v2 )

ライセンス: Link先を確認
Rares-Darius Buhai, David Steurer(参考訳) k\geq 2$ Gaussian 成分と未知の手段と未知の共分散(すべての成分について同一視される)の混合を考える、すなわち、異なる成分は、十分大きな定数 $C\ge 1$ に対して、最大$k^{-C}$ で統計的重複を持つ。 従来の統計クエリ [DKS17] と格子ベースの [BRST21, GVV22] 下界は、そのような混合物を(純粋な)ガウスと区別しても指数関数的に難しい($k$)という公式な証拠を与える。 このような硬さは, 混合重量が指数関数的に小さい場合にのみ出現し, 多項式的に低い有界混合重量の場合, 非自明なアルゴリズム保証は準多項式時間で可能であることを示す。 具体的には,最小混合重量の時間準多項式を用いた2乗法に基づくアルゴリズムを開発した。 このアルゴリズムは、$k\ge 2$ well-separated Gaussian componentと(純粋な)ガウス分布の混合を確実に区別することができる。 証明として、アルゴリズムは、2つの混合成分を分離する入力サンプルの2分割、すなわち、2分割の両側は少なくとも1つのコンポーネントのサンプルポイントのほとんどを含む。 共線形平均の特別な場合、このアルゴリズムは、混合物の成分とほぼ一致する入力サンプルの$k$-clusteringを出力する。 同様のクラスタリングは、任意の2つの混合成分間の重なりが$k$で低い有界準多項である場合(さらに$k$で上位有界多項式である場合)にも保証される。 重要な技術的要素は、最小混合重みで慎重に選択された2つの階数対数モーメントに対応する多項式の比で、うまく分離されたガウス成分の方向を分離する特性である。

We consider mixtures of $k\geq 2$ Gaussian components with unknown means and unknown covariance (identical for all components) that are well-separated, i.e., distinct components have statistical overlap at most $k^{-C}$ for a large enough constant $C\ge 1$. Previous statistical-query [DKS17] and lattice-based [BRST21, GVV22] lower bounds give formal evidence that even distinguishing such mixtures from (pure) Gaussians may be exponentially hard (in $k$). We show that this kind of hardness can only appear if mixing weights are allowed to be exponentially small, and that for polynomially lower bounded mixing weights non-trivial algorithmic guarantees are possible in quasi-polynomial time. Concretely, we develop an algorithm based on the sum-of-squares method with running time quasi-polynomial in the minimum mixing weight. The algorithm can reliably distinguish between a mixture of $k\ge 2$ well-separated Gaussian components and a (pure) Gaussian distribution. As a certificate, the algorithm computes a bipartition of the input sample that separates a pair of mixture components, i.e., both sides of the bipartition contain most of the sample points of at least one component. For the special case of colinear means, our algorithm outputs a $k$-clustering of the input sample that is approximately consistent with the components of the mixture. We obtain similar clustering guarantees also for the case that the overlap between any two mixture components is lower bounded quasi-polynomially in $k$ (in addition to being upper bounded polynomially in $k$). A key technical ingredient is a characterization of separating directions for well-separated Gaussian components in terms of ratios of polynomials that correspond to moments of two carefully chosen orders logarithmic in the minimum mixing weight.
翻訳日:2023-06-09 22:38:40 公開日:2023-06-07
# 有限スペクトル/テンポラル支援信号に対する特異双スペクトルインバージョン

Unique Bispectrum Inversion for Signals with Finite Spectral/Temporal Support ( http://arxiv.org/abs/2111.06479v3 )

ライセンス: Link先を確認
Samuel Pinilla, Kumar Vijay Mishra, Brian M. Sadler(参考訳) 二重スペクトル(bispectrum)とも呼ばれる三重相関スペクトルからの信号の検索は、幅広い信号処理問題で発生する。 従来の手法では、基礎となる信号に対するbispectrumの正確な反転を提供していない。 本稿では,信号の帯域幅が$B$であるバイスペクトル関数(BF)の少なくとも$3B$の測定から,有限スペクトル支援(帯域制限信号)の信号を一意に回収する手法を提案する。 我々のアプローチは時間制限信号にも拡張する。 非凸目的関数を最小化する2段階信頼領域アルゴリズムを提案する。 まず, スペクトルアルゴリズムにより信号の近似を行い, 得られた初期化を勾配反復の系列に基づいて洗練する。 数値実験により,提案アルゴリズムはBFの帯域/時間制限信号から,完全かつアンサンプされた観測を推定できることが示唆された。

Retrieving a signal from its triple correlation spectrum, also called bispectrum, arises in a wide range of signal processing problems. Conventional methods do not provide an accurate inversion of bispectrum to the underlying signal. In this paper, we present an approach that uniquely recovers signals with finite spectral support (band-limited signals) from at least $3B$ measurements of its bispectrum function (BF), where $B$ is the signal's bandwidth. Our approach also extends to time-limited signals. We propose a two-step trust region algorithm that minimizes a non-convex objective function. First, we approximate the signal by a spectral algorithm and then refine the attained initialization based on a sequence of gradient iterations. Numerical experiments suggest that our proposed algorithm is able to estimate band-/time-limited signals from its BF for both complete and undersampled observations.
翻訳日:2023-06-09 22:38:06 公開日:2023-06-07
# 連続時間線形システムにおける強化学習方針

Reinforcement Learning Policies in Continuous-Time Linear Systems ( http://arxiv.org/abs/2109.07630v3 )

ライセンス: Link先を確認
Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh(参考訳) 確率微分方程式に従う線形力学系は標準模型である。 既知のシステムの最適制御には豊富な文献があるが、問題はモデルの不確実性の下で技術的に困難であり、結果はほとんどない。 我々は、この問題の研究を開始し、二次コスト関数を最小化するための最適なアクションを学習(かつ同時にデプロイ)することを目指している。 実際、この作業は、継続的システムにおける探索とエクスプロイトのバランスをとるという重要な課題を包括的に解決する最初のものです。 パラメータ推定を慎重にランダム化し、パラメータ数に乗じて2乗の時間で成長する後悔境界という性能保証を確立することで、最適な行動の学習を迅速に行うオンラインポリシーを提案する。 飛行制御タスクのポリシーの実装は、その有効性を示す。 さらに,不正確な系の力学に対する鋭い安定性を証明し,準最適動作による無限小後悔を厳格に特定する。 この結果を得るために, 行列摂動に対する新しい固有値-感度解析を行い, 確率積分の比較比の上界を定式化し, 新たな方針分化法を提案する。 本分析は,連続時間強化学習における基本的な課題を浮き彫りにし,同様の問題に対する有用な基礎を示唆する。

Linear dynamical systems that obey stochastic differential equations are canonical models. While optimal control of known systems has a rich literature, the problem is technically hard under model uncertainty and there are hardly any results. We initiate study of this problem and aim to learn (and simultaneously deploy) optimal actions for minimizing a quadratic cost function. Indeed, this work is the first that comprehensively addresses the crucial challenge of balancing exploration versus exploitation in continuous-time systems. We present online policies that learn optimal actions fast by carefully randomizing the parameter estimates, and establish their performance guarantees: a regret bound that grows with square-root of time multiplied by the number of parameters. Implementation of the policy for a flight-control task demonstrates its efficacy. Further, we prove sharp stability results for inexact system dynamics and tightly specify the infinitesimal regret caused by sub-optimal actions. To obtain the results, we conduct a novel eigenvalue-sensitivity analysis for matrix perturbation, establish upper-bounds for comparative ratios of stochastic integrals, and introduce the new method of policy differentiation. Our analysis sheds light on fundamental challenges in continuous-time reinforcement learning and suggests a useful cornerstone for similar problems.
翻訳日:2023-06-09 22:37:16 公開日:2023-06-07
# 相互作用を持つ一般化オーブリー・アンドルーモデルにおける行列積状態をもつ多体移動エッジの探索

In search of a many-body mobility edge with matrix product states in a Generalized Aubry-Andr\'e model with interactions ( http://arxiv.org/abs/2012.09853v2 )

ライセンス: Link先を確認
Nicholas Pomata, Sriram Ganeshan, Tzu-Chieh Wei(参考訳) 本稿では,シフト反転行列積状態 (simps) アルゴリズム [phys. rev. lett. 118, 017201 (2017)] を用いた一般化 aubry-andr\'e (gaa) モデルにおける多体移動エッジの可能性について検討する。 非相互作用GAAモデルは、自己双対誘導移動エッジを持つ1次元準周期モデルである。 相互作用の場合の多体移動性エッジを探索するために、エネルギー分解された方法で多体状態をターゲットにするシンプの利点を活用し、いくつかの状態が収束するためにすべての多体状態が局所化される必要はない。 解析の結果, 単一粒子移動エッジの存在下での標的状態は, 「MBL様」完全収束状態とSIMPSが収束しない完全非局在状態に一致しないことがわかった。 我々は, 完全に収束するパラメータ, `MBL-like' 局所化状態, SIMPSが収束しない非局在化パラメータについて, アルゴリズムの出力をベンチマークする。 中間の場合、パラメータが単一粒子移動エッジを生成する場合、より大きな結合次元における切断位置の関数としてエントロピー振動を発生させる多体状態が見つかる。 これらの大きな結合次元での振動は、完全局所化ベンチマークでも見られるが、完全非局在化ベンチマークでは見られないが、バンドエッジと中心の両方で発生し、非熱状態への収束を示す可能性がある(局所化または臨界)。

We investigate the possibility of a many-body mobility edge in the generalized Aubry-Andr\'e (GAA) model with interactions using the Shift-Invert Matrix Product States (SIMPS) algorithm [Phys. Rev. Lett. 118, 017201 (2017)]. The non-interacting GAA model is a one-dimensional quasiperiodic model with a self-duality-induced mobility edge. To search for a many-body mobility edge in the interacting case, we exploit the advantages of SIMPS that it targets many-body states in an energy-resolved fashion and does not require all many-body states to be localized for some to converge. Our analysis indicates that the targeted states in the presence of the single-particle mobility edge match neither `MBL-like' fully-converged localized states nor the fully delocalized case where SIMPS fails to converge. We benchmark the algorithm's output both for parameters that give fully converged, `MBL-like' localized states and for delocalized parameters where SIMPS fails to converge. In the intermediate cases, where the parameters produce a single-particle mobility edge, we find many-body states that develop entropy oscillations as a function of cut position at larger bond dimensions. These oscillations at larger bond dimensions, which are also found in the fully-localized benchmark but not the fully-delocalized benchmark, occur both at the band edge and center and may indicate convergence to a non-thermal state (either localized or critical).
翻訳日:2023-06-09 22:36:18 公開日:2023-06-07
# 対数比較によるランキングの効率的な計算

Efficient computation of rankings from pairwise comparisons ( http://arxiv.org/abs/2207.00076v2 )

ライセンス: Link先を確認
M. E. J. Newman(参考訳) ブラッドリー・テリーモデルを用いて, 個人, チーム, オブジェクトのランク付けを, ペアによる比較に基づいて検討した。 このモデルにおけるランク推定は、ほぼ1世紀前にツェルメロが導入した単純な反復アルゴリズムを用いて行われる。 ここでは、同じ結果を返すことができるが、それよりもはるかに高速で、場合によっては100倍以上高速なイテレーションについて説明する。 本稿では,このアルゴリズムをサンプルデータセットに適用し,その収束に関する多くの結果を導出する。

We study the ranking of individuals, teams, or objects, based on pairwise comparisons between them, using the Bradley-Terry model. Estimates of rankings within this model are commonly made using a simple iterative algorithm first introduced by Zermelo almost a century ago. Here we describe an alternative and similarly simple iteration that provably returns identical results but does so much faster -- over a hundred times faster in some cases. We demonstrate this algorithm with applications to a range of example data sets and derive a number of results regarding its convergence.
翻訳日:2023-06-09 20:50:11 公開日:2023-06-07
# ニューラルネットワークのダイナミクス理解のための二次モデル

Quadratic models for understanding neural network dynamics ( http://arxiv.org/abs/2205.11787v2 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin(参考訳) ニューラルネットワークは幅が大きくなるにつれて線形モデルによって近似できるが、広いニューラルネットワークの特定の特性は線形モデルでは捉えられない。 本研究では,最近提案されたニューラル・クアドラティック・モデルが,学習率の高いモデルをトレーニングする際に生じる"カタパルト・フェーズ"(Lewkowycz et al. 2020)を示すことを示す。 次に、ニューラル二次モデルの挙動が一般化において、特にカタパルト相におけるニューラルネットワークの挙動と平行であることを示す。 さらに,2次モデルがニューラルネットワーク解析の有効なツールであることを示す。

While neural networks can be approximated by linear models as their width increases, certain properties of wide neural networks cannot be captured by linear models. In this work we show that recently proposed Neural Quadratic Models can exhibit the "catapult phase" [Lewkowycz et al. 2020] that arises when training such models with large learning rates. We then empirically show that the behaviour of neural quadratic models parallels that of neural networks in generalization, especially in the catapult phase regime. Our analysis further demonstrates that quadratic models can be an effective tool for analysis of neural networks.
翻訳日:2023-06-09 20:48:55 公開日:2023-06-07
# 有向非巡回グラフ構造を持つ一般ニューラルネットワークの線形性への遷移

Transition to Linearity of General Neural Networks with Directed Acyclic Graph Architecture ( http://arxiv.org/abs/2205.11786v2 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Mikhail Belkin(参考訳) 本稿では,任意の有向非巡回グラフに対応するフィードフォワードニューラルネットワークが,その「幅」が無限大に近づくにつれて線形性へ遷移することを示す。 これらの一般的なネットワークの幅は、入力層と第1層を除いて、ニューロンの最小緯度で特徴づけられる。 本研究は,線形性への遷移を基礎とする数学的構造を明らかにし,ニューラルネットワークカーネルの線形性や一貫性への遷移を特徴付けることを目的とした最近の研究を一般化するものである。

In this paper we show that feedforward neural networks corresponding to arbitrary directed acyclic graphs undergo transition to linearity as their "width" approaches infinity. The width of these general networks is characterized by the minimum in-degree of their neurons, except for the input and first layers. Our results identify the mathematical structure underlying transition to linearity and generalize a number of recent works aimed at characterizing transition to linearity or constancy of the Neural Tangent Kernel for standard architectures.
翻訳日:2023-06-09 20:48:44 公開日:2023-06-07
# Retain-Resample-Release (R3) サンプリングによる物理インフォームドニューラルネットワークの伝搬不良の軽減

Mitigating Propagation Failures in Physics-informed Neural Networks using Retain-Resample-Release (R3) Sampling ( http://arxiv.org/abs/2207.02338v3 )

ライセンス: Link先を確認
Arka Daw, Jie Bu, Sifan Wang, Paris Perdikaris, Anuj Karpatne(参考訳) 偏微分方程式(PDE)の近似における物理情報ニューラルネットワーク(PINN)の成功にもかかわらず、複雑なPDEを含む問題において、PINNは正しい解に収束できないことがある。 これはピンの「失敗モード」を特徴付ける最近のいくつかの研究に反映されているが、ピンの故障モードとサンプリング戦略の関連性の完全な理解が欠けている。 本稿では,訓練ピンが初期および境界条件点から内部点への解の「伝播」の成功に依存していることを仮定し,ピンの故障モードの新しい視点を提案する。 提案手法が不十分なPINNは,高不均衡なPDE残場を特徴とする伝播障害が発生した場合,自明な解で立ち往生する可能性があることを示す。 そこで本研究では,高pde残差領域のコロケーション点を計算オーバーヘッドの少ない領域に漸進的に蓄積できる,新しいホールド・リサンプル・リリースサンプリング(r3)アルゴリズムを提案する。 時間依存PDEを解きながら因果関係の原理を尊重するR3サンプリングの拡張を提案する。 我々は,R3サンプリングの挙動を理論的に解析し,様々なPDE問題に対するベースラインと比較し,その有効性と効率を実証した。

Despite the success of physics-informed neural networks (PINNs) in approximating partial differential equations (PDEs), PINNs can sometimes fail to converge to the correct solution in problems involving complicated PDEs. This is reflected in several recent studies on characterizing the "failure modes" of PINNs, although a thorough understanding of the connection between PINN failure modes and sampling strategies is missing. In this paper, we provide a novel perspective of failure modes of PINNs by hypothesizing that training PINNs relies on successful "propagation" of solution from initial and/or boundary condition points to interior points. We show that PINNs with poor sampling strategies can get stuck at trivial solutions if there are propagation failures, characterized by highly imbalanced PDE residual fields. To mitigate propagation failures, we propose a novel Retain-Resample-Release sampling (R3) algorithm that can incrementally accumulate collocation points in regions of high PDE residuals with little to no computational overhead. We provide an extension of R3 sampling to respect the principle of causality while solving time-dependent PDEs. We theoretically analyze the behavior of R3 sampling and empirically demonstrate its efficacy and efficiency in comparison with baselines on a variety of PDE problems.
翻訳日:2023-06-09 20:39:00 公開日:2023-06-07
# メモリ制約下でのオートコンプリートのための小文字モデル

Small Character Models Match Large Word Models for Autocomplete Under Memory Constraints ( http://arxiv.org/abs/2210.03251v2 )

ライセンス: Link先を確認
Ganesh Jawahar, Subhabrata Mukherjee, Debadeepta Dey, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan, Caio Cesar Teodoro Mendes, Gustavo Henrique de Rosa, Shital Shah(参考訳) オートコンプリート(autocomplete)は、ユーザがプロンプトと呼ばれるテキストを入力して、モデルによってセマンティクス的にコヒーレントな継続を生成するタスクである。 このタスクの既存の作業は主に、単語ベースの言語モデルが非常に効果的である高周波ユーザプロンプトパターン(または集中プロンプト)を持つデータセット(eメール、チャットなど)に焦点を当てている。 本研究では,低頻度ユーザのプロンプトパターン(例えば,第93回アカデミー賞のプロンプトなど)からなる,より困難なオープンドメイン設定について検討し,文字ベースの言語モデルの有効性を実証する。 メモリ制限された設定(エッジデバイスやスマートフォンなど)下では,文字ベースの表現が全体のモデルサイズ(パラメーター)を低減するのに有効である。 我々は、WikiText-103ベンチマークを用いて、モデルサイズを制御した場合、文字モデルがオートコンプリートタスクの正確な一致精度で単語モデルに匹敵することを示す。 例えば、20Mパラメータのキャラクタモデルがバニラ設定における80Mパラメータのワードモデルと類似して動作することを示す。 さらに,合成情報形式における帰納的バイアスと大単語モデルからの表現伝達を取り入れ,文字モデルを改善する新しい手法を提案する。 この作業で使用されるデータセットとコードはhttps://github.com/UBC-NLP/char_autocomplete.comで公開されている。

Autocomplete is a task where the user inputs a piece of text, termed prompt, which is conditioned by the model to generate semantically coherent continuation. Existing works for this task have primarily focused on datasets (e.g., email, chat) with high frequency user prompt patterns (or focused prompts) where word-based language models have been quite effective. In this work, we study the more challenging open-domain setting consisting of low frequency user prompt patterns (or broad prompts, e.g., prompt about 93rd academy awards) and demonstrate the effectiveness of character-based language models. We study this problem under memory-constrained settings (e.g., edge devices and smartphones), where character-based representation is effective in reducing the overall model size (in terms of parameters). We use WikiText-103 benchmark to simulate broad prompts and demonstrate that character models rival word models in exact match accuracy for the autocomplete task, when controlled for the model size. For instance, we show that a 20M parameter character model performs similar to an 80M parameter word model in the vanilla setting. We further propose novel methods to improve character models by incorporating inductive bias in the form of compositional information and representation transfer from large word models. Datasets and code used in this work are available at https://github.com/UBC-NLP/char_autocomplete.
翻訳日:2023-06-09 20:29:59 公開日:2023-06-07
# 集中治療における電子健康記録を用いたcovid-19予測モデリングの総合ベンチマーク

A Comprehensive Benchmark for COVID-19 Predictive Modeling Using Electronic Health Records in Intensive Care ( http://arxiv.org/abs/2209.07805v3 )

ライセンス: Link先を確認
Junyi Gao, Yinghao Zhu, Wenqing Wang, Yasha Wang, Wen Tang, Ewen M. Harrison, Liantao Ma(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の医療システムに重荷を課し、大きな社会的破壊と経済的な損失をもたらした。 電子健康記録(ehr)データを用いた集中治療室におけるcovid-19患者の死亡予測のような臨床予測タスクを行うために、多くのディープラーニングモデルが提案されている。 臨床応用での最初の成功にもかかわらず、現在ベンチマーク結果の欠如により、適切な比較を行い、臨床利用の最適なモデルを選択することができる。 さらに、従来の予測タスクの定式化と集中治療における現実的な臨床実践との間には相違がある。 これらのギャップを埋めるために,集中治療室におけるアウトカム特異的長期予測と早期死亡予測という2つの臨床予測課題を提案する。 この2つのタスクは、covid-19患者の臨床試験に対応するために、naive long-of-stay と death prediction タスクから適応される。 5つの機械学習モデル,6つの基本的なディープラーニングモデル,ehrデータ専用に設計された6つのディープラーニング予測モデルなど,2つのタスクにおいて17の最先端予測モデルを評価する。 2つの現実世界のCOVID-19 EHRデータセットのデータを用いて、ベンチマーク結果を提供する。 1つのデータセットは調査を必要とせずに公開されており、別のデータセットは要求に応じてアクセスすることができる。 2つのタスクに対して公正かつ再現可能なベンチマーク結果を提供する。 すべての実験結果とモデルをオンラインプラットフォームにデプロイします。 また、臨床医や研究者がプラットフォームにデータをアップロードして、トレーニング済みのモデルを使って素早く予測結果を得られるようにもしています。 私たちは、COVID-19予測モデリングのためのディープラーニングと機械学習の研究をさらに促進したいと考えています。

The COVID-19 pandemic has posed a heavy burden to the healthcare system worldwide and caused huge social disruption and economic loss. Many deep learning models have been proposed to conduct clinical predictive tasks such as mortality prediction for COVID-19 patients in intensive care units using Electronic Health Record (EHR) data. Despite their initial success in certain clinical applications, there is currently a lack of benchmarking results to achieve a fair comparison so that we can select the optimal model for clinical use. Furthermore, there is a discrepancy between the formulation of traditional prediction tasks and real-world clinical practice in intensive care. To fill these gaps, we propose two clinical prediction tasks, Outcome-specific length-of-stay prediction and Early mortality prediction for COVID-19 patients in intensive care units. The two tasks are adapted from the naive length-of-stay and mortality prediction tasks to accommodate the clinical practice for COVID-19 patients. We propose fair, detailed, open-source data-preprocessing pipelines and evaluate 17 state-of-the-art predictive models on two tasks, including 5 machine learning models, 6 basic deep learning models and 6 deep learning predictive models specifically designed for EHR data. We provide benchmarking results using data from two real-world COVID-19 EHR datasets. One dataset is publicly available without needing any inquiry and another dataset can be accessed on request. We provide fair, reproducible benchmarking results for two tasks. We deploy all experiment results and models on an online platform. We also allow clinicians and researchers to upload their data to the platform and get quick prediction results using our trained models. We hope our efforts can further facilitate deep learning and machine learning research for COVID-19 predictive modeling.
翻訳日:2023-06-09 20:28:49 公開日:2023-06-07
# 混雑依存型大規模避難計画のためのシミュレーション支援最適化

Simulation-Assisted Optimization for Large-Scale Evacuation Planning with Congestion-Dependent Delays ( http://arxiv.org/abs/2209.01535v6 )

ライセンス: Link先を確認
Kazi Ashik Islam, Da Qi Chen, Madhav Marathe, Henning Mortveit, Samarth Swarup, Anil Vullikanti(参考訳) 避難計画は災害管理の重要な部分である。 しかしながら、平均避難時間や避難完了時間の最小化などの目的を持ったルーティングとスケジューリングという2つの重要なコンポーネントの協調最適化は、計算的に難しい問題である。 MIP-LNSは、数学的最適化によるヒューリスティック探索を利用して、様々な目的関数を最適化するスケーラブルな最適化手法である。 また,エージェントベースシミュレーションとmip-lnを組み合わせることで,混雑による遅延を推定し,遅延を考慮した最適計画を求める手法であるmip-lns-simを提案する。 テキサス州ヒューストンのハリス郡を 研究地域として使っています MIP-LNSは、与えられた時間制限の中で、3つの異なるメトリクスの観点から既存の方法よりも優れた解を求めることを示す。 しかし、混雑依存性の遅延を考慮すると、MIP-LNS-SIMは複数のパフォーマンス指標においてMIP-LNSより優れる。 さらに, MIP-LNS-SIMは, MIP-LNSと比較して, 推定避難完了時間の誤差が有意に低い。

Evacuation planning is a crucial part of disaster management. However, joint optimization of its two essential components, routing and scheduling, with objectives such as minimizing average evacuation time or evacuation completion time, is a computationally hard problem. To approach it, we present MIP-LNS, a scalable optimization method that utilizes heuristic search with mathematical optimization and can optimize a variety of objective functions. We also present the method MIP-LNS-SIM, where we combine agent-based simulation with MIP-LNS to estimate delays due to congestion, as well as, find optimized plans considering such delays. We use Harris County in Houston, Texas, as our study area. We show that, within a given time limit, MIP-LNS finds better solutions than existing methods in terms of three different metrics. However, when congestion dependent delay is considered, MIP-LNS-SIM outperforms MIP-LNS in multiple performance metrics. In addition, MIP-LNS-SIM has a significantly lower percent error in estimated evacuation completion time compared to MIP-LNS.
翻訳日:2023-06-09 20:28:23 公開日:2023-06-07
# 量子プロセッサ上のノイズのシミュレーション:量子ビットと共鳴2レベルシステムバスの相互作用

Simulating noise on a quantum processor: interactions between a qubit and resonant two-level system bath ( http://arxiv.org/abs/2211.08535v2 )

ライセンス: Link先を確認
Yujin Cho, Dipti Jasrasaria, Keith G. Ray, Daniel M. Tennant, Vincenzo Lordi, Jonathan L DuBois, and Yaniv J. Rosen(参考訳) 材料欠陥は基本的に超伝導量子ビットのコヒーレンス時間を制限し、完全に欠陥のないデバイスを製造することは不可能である。 したがって、実際の量子プロセッサ設計において欠陥と量子ビットの間の相互作用を理解することが不可欠である。 我々は、標準的なトンネルモデル、量子ビット内の電場分布、オープン量子系力学を組み込んだモデルを構築し、現在の2レベルシステム(TLS)理論の理解から導出する。 具体的には、キュービット表面に分散された100万のTLSから始まり、キュービットに最も強く結合された200のシステムを選択する。 次に、共振TLS欠陥の時間依存性密度行列をモデル化するために、キュービットとTLS浴の間のコヒーレント結合を明示的に含むリンドブラディアンシミュレーションを行う。 最も強く結合された200個のTLSは、クォービットエネルギー緩和時間を正確に記述できる。 この研究は、電場が強い領域にある共鳴TLSが、ジョセフソン接合から遠くに位置するとしても、クビット緩和時間に大きな影響を与えることを確認した。 同様に、ジョセフソン接合にある強結合共振TLSは、より強く結合されたTLSがジョセフソン接合から遠く離れている場合、量子ビット緩和時間の短縮を保証しない。 TLSと量子ビットの結合強度に加えて、このモデルはデバイスとTLS緩和時間の幾何学が量子ビット力学において重要な役割を果たすことを予測している。 我々の研究は、量子ビットコヒーレンス時間を改善した将来の量子プロセッサ設計のためのガイダンスを提供することができる。

Material defects fundamentally limit the coherence times of superconducting qubits, and manufacturing completely defect-free devices is not yet possible. Therefore, understanding the interactions between defects and a qubit in a real quantum processor design is essential. We build a model that incorporates the standard tunneling model, the electric field distributions in the qubit, and open quantum system dynamics, and draws from the current understanding of two-level system (TLS) theory. Specifically, we start with one million TLSs distributed on the surface of a qubit and pick the 200 systems that are most strongly coupled to the qubit. We then perform a full Lindbladian simulation that explicitly includes the coherent coupling between the qubit and the TLS bath to model the time dependent density matrix of resonant TLS defects and the qubit. We find that the 200 most strongly coupled TLSs can accurately describe the qubit energy relaxation time. This work confirms that resonant TLSs located in areas where the electric field is strong can significantly affect the qubit relaxation time, even if they are located far from the Josephson junction. Similarly, a strongly-coupled resonant TLS located in the Josephson junction does not guarantee a reduced qubit relaxation time if a more strongly coupled TLS is far from the Josephson junction. In addition to the coupling strengths between TLSs and the qubit, the model predicts that the geometry of the device and the TLS relaxation time play a significant role in qubit dynamics. Our work can provide guidance for future quantum processor designs with improved qubit coherence times.
翻訳日:2023-06-09 20:22:38 公開日:2023-06-07
# 動的解釈可能な変化点検出

Dynamic Interpretable Change Point Detection ( http://arxiv.org/abs/2211.03991v2 )

ライセンス: Link先を確認
Kopal Garg and Jennifer Yu and Tina Behrouzi and Sana Tonekaboni and Anna Goldenberg(参考訳) 時系列における変化点(CP)の特定は、金融や医療などさまざまな分野におけるより良い意思決定を導き、潜在的なリスクや機会に対するタイムリーな対応を促進するために不可欠である。 既存の変化点検出(CPD)法は多次元特徴の関節分布の変化の追跡に限界がある。 さらに、異なるタイプのCPが異なる検出方法を必要とするため、同じ時系列内で効果的に一般化できない。 多次元時系列の体積が増加し続けるにつれて、時系列特徴の相関構造の変化など、複雑なCPの様々なタイプの取り込みが重要になっている。 既存の手法の限界を克服するため,時間変化グラフラッソ (TVGL) を用いて時間経過に伴う多次元特徴間の相関パターンの変化を識別する手法であるTiVaCPDを提案する。 MMDとTVGLのスコアは、両統計検査のパワーを生かした類似度に基づく新しいアンサンブル法を用いて合成される。 各種CPの同定・特徴化におけるTiVaCPDの性能評価を行い,本手法が実世界のCPDデータセットにおける最先端手法よりも優れていることを示す。 さらに、TiVaCPDスコアがCPのタイプを特徴付け、変化ダイナミクスの解釈を促進することを実証し、現実のアプリケーションに対する洞察を提供する。

Identifying change points (CPs) in a time series is crucial to guide better decision making across various fields like finance and healthcare and facilitating timely responses to potential risks or opportunities. Existing Change Point Detection (CPD) methods have a limitation in tracking changes in the joint distribution of multidimensional features. In addition, they fail to generalize effectively within the same time series as different types of CPs may require different detection methods. As the volume of multidimensional time series continues to grow, capturing various types of complex CPs such as changes in the correlation structure of the time-series features has become essential. To overcome the limitations of existing methods, we propose TiVaCPD, an approach that uses a Time-Varying Graphical Lasso (TVGL) to identify changes in correlation patterns between multidimensional features over time, and combines that with an aggregate Kernel Maximum Mean Discrepancy (MMD) test to identify changes in the underlying statistical distributions of dynamic time windows with varying length. The MMD and TVGL scores are combined using a novel ensemble method based on similarity measures leveraging the power of both statistical tests. We evaluate the performance of TiVaCPD in identifying and characterizing various types of CPs and show that our method outperforms current state-of-the-art methods in real-world CPD datasets. We further demonstrate that TiVaCPD scores characterize the type of CPs and facilitate interpretation of change dynamics, offering insights into real-life applications.
翻訳日:2023-06-09 20:21:47 公開日:2023-06-07
# 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係

A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models ( http://arxiv.org/abs/2210.12023v3 )

ライセンス: Link先を確認
Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf and Mrinmaya Sachan(参考訳) 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。 同時に、これらのモデルのロバスト性も疑問視され、近年の研究により、モデルが解を生成する際に問題記述の浅いパターンに依存することが示されている。 行動テストという概念に基づいて,入力における様々な要因の因果効果,例えば問題テキストの表面形式,オペランド,そして出力解の数学演算子をピン留めする新しい枠組みを提案する。 直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。 フレームワークを数学の単語問題のテストベッドに適用します。 しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。

We have recently witnessed a number of impressive results on hard mathematical reasoning problems with language models. At the same time, the robustness of these models has also been called into question; recent works have shown that models can rely on shallow patterns in the problem description when generating a solution. Building on the idea of behavioral testing, we propose a novel framework, which pins down the causal effect of various factors in the input, e.g., the surface form of the problem text, the operands, and math operators on the output solution. By grounding the behavioral analysis in a causal graph describing an intuitive reasoning process, we study the behavior of language models in terms of robustness and sensitivity to direct interventions in the input space. We apply our framework on a test bed of math word problems. Our analysis shows that robustness does not appear to continuously improve as a function of size, but the GPT-3 Davinci models (175B) achieve a dramatic improvement in both robustness and sensitivity compared to all other GPT variants.
翻訳日:2023-06-09 20:20:33 公開日:2023-06-07
# automoe: 効率的なニューラルマシン翻訳のための適応計算を伴う異種混合処理

AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation ( http://arxiv.org/abs/2210.07535v2 )

ライセンス: Link先を確認
Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah, Sebastien Bubeck, Jianfeng Gao(参考訳) ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。 既存のMoEの作業は、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。 さらに、既存のMoEの作業は、計算上の制約(FLOP、遅延など)を考慮していない。 この目的のために,不均一なMoEを計算制約下で設計するフレームワークであるAutoMoEを開発した。 automoeは、ニューラルネットワーク検索(nas)を活用して、4倍の推論スピードアップ(cpu)を持つ効率的なスパースmoeサブトランスフォーマーと、密閉トランスフォーマーよりもbleuスコアが同等で、nmt用のベンチマークデータセットを集約したmoeswitchtransformerの1ブルーポイント以内の手動設計トランスフォーマーをフラップする。 密度が高く、疎に活性化されるトランスフォーマーモジュール(例えば、何人の専門家が配置するか?サイズは?)を持つ不均一な探索空間では、入力内の異なるトークンに対して異なる計算量を使用することができる。 適応性は、異なるサイズの専門家にトークンを送信するルーティング決定から生まれます。 AutoMoEのコード、データ、トレーニングされたモデルはhttps://aka.ms/AutoMoE.com/で入手できる。

Mixture-of-Expert (MoE) models have obtained state-of-the-art performance in Neural Machine Translation (NMT) tasks. Existing works in MoE mostly consider a homogeneous design where the same number of experts of the same size are placed uniformly throughout the network. Furthermore, existing MoE works do not consider computational constraints (e.g., FLOPs, latency) to guide their design. To this end, we develop AutoMoE -- a framework for designing heterogeneous MoE's under computational constraints. AutoMoE leverages Neural Architecture Search (NAS) to obtain efficient sparse MoE sub-transformers with 4x inference speedup (CPU) and FLOPs reduction over manually designed Transformers, with parity in BLEU score over dense Transformer and within 1 BLEU point of MoE SwitchTransformer, on aggregate over benchmark datasets for NMT. Heterogeneous search space with dense and sparsely activated Transformer modules (e.g., how many experts? where to place them? what should be their sizes?) allows for adaptive compute -- where different amounts of computations are used for different tokens in the input. Adaptivity comes naturally from routing decisions which send tokens to experts of different sizes. AutoMoE code, data, and trained models are available at https://aka.ms/AutoMoE.
翻訳日:2023-06-09 20:19:12 公開日:2023-06-07
# 遅延プリコンディショナによる微分プライベート適応最適化

Differentially Private Adaptive Optimization with Delayed Preconditioners ( http://arxiv.org/abs/2212.00309v2 )

ライセンス: Link先を確認
Tian Li, Manzil Zaheer, Ken Ziyu Liu, Sashank J. Reddi, H. Brendan McMahan, Virginia Smith(参考訳) プライバシノイズは、微分プライベートモデルトレーニングで適応最適化器を使用することの利点を否定する可能性がある。 従来の研究は、適応最適化の有効性を高めるために補助情報(例えば、公開データ)を使用することでこの問題に対処する。 本研究では,補助データを用いずに個人適応最適化において,勾配幾何を推定し,効率的に適応する手法について検討する。 そこで本研究では,遅延プリコンディショナー(dp^2)を用いた,適応型プリコンディショナーの適応性を高めるための簡易な手法として,適応型プリコンディショナー(dp^2)を提案する。 理論的には、凸問題と非凸問題の両方に対する収束保証を提供し、遅延とプライバシノイズ低減のトレードオフを分析する。 実世界の複数のデータセットにまたがってdp^2を探索し,非適応ベースラインと比較して収束速度を最大4倍向上し,補助データを必要とする最先端最適化手法の性能に適合できることを実証した。

Privacy noise may negate the benefits of using adaptive optimizers in differentially private model training. Prior works typically address this issue by using auxiliary information (e.g., public data) to boost the effectiveness of adaptive optimization. In this work, we explore techniques to estimate and efficiently adapt to gradient geometry in private adaptive optimization without auxiliary data. Motivated by the observation that adaptive methods can tolerate stale preconditioners, we propose differentially private adaptive training with delayed preconditioners (DP^2), a simple method that constructs delayed but less noisy preconditioners to better realize the benefits of adaptivity. Theoretically, we provide convergence guarantees for our method for both convex and non-convex problems, and analyze trade-offs between delay and privacy noise reduction. Empirically, we explore DP^2 across several real-world datasets, demonstrating that it can improve convergence speed by as much as 4x relative to non-adaptive baselines and match the performance of state-of-the-art optimization methods that require auxiliary data.
翻訳日:2023-06-09 20:11:06 公開日:2023-06-07
# 弱教師付きコード生成のための明示的知識伝達

Explicit Knowledge Transfer for Weakly-Supervised Code Generation ( http://arxiv.org/abs/2211.16740v3 )

ライセンス: Link先を確認
Zhangir Azerbayev, Ansong Ni, Hailey Schoelkopf, Dragomir Radev(参考訳) 大規模言語モデル(LLM)は、数ショットの学習によって強力なコード生成能力を得ることができる。 対照的に、より小さなモデルで優れた性能を達成するためには、教師付き微調整が必要である。 このような微調整には多数のタスク固有のnlコードペアが必要である。 本稿では,弱教師付きデータを用いてllmのコード生成能力をより小さなモデルに転送することを試みる。 より具体的には、教師のLLMの少数ショット機能を用いてNL符号ペアを作成し、正しさと微調整を行う明示的知識伝達(EKT)を提案する。 gsm8kデータセットから数学用語問題に対するコードソリューションを生成するタスクについてektを評価した。 EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識伝達の別の形態である知識蒸留よりも優れることがわかった。 GPT-Neo 1.3Bモデルでは、EKTをGPT-Jの教師でトレーニングし、GSM8kで12.4%のパス@100を達成する一方、知識蒸留でトレーニングした同じ学生と教師は3.7%のパス@100しか得られない。 また,EKTを用いた教師よりも生徒モデルの方が優れていることを示す。

Large language models (LLMs) can acquire strong code-generation capabilities through few-shot learning. In contrast, supervised fine-tuning is still needed for smaller models to achieve good performance. Such fine-tuning demands a large number of task-specific NL-code pairs, which are expensive to obtain. In this paper, we attempt to transfer the code generation ability of an LLM to a smaller model with the aid of weakly-supervised data. More specifically, we propose explicit knowledge transfer (EKT), which uses the few-shot capabilities of a teacher LLM to create NL-code pairs that we then filter for correctness and fine-tune the student on. We evaluate EKT on the task of generating code solutions to math word problems from the GSM8k dataset. We find that EKT not only yields better performance than training with expert iteration, but also outperforms knowledge distillation, another form of knowledge transfer. A GPT-Neo 1.3B model trained using EKT with a GPT-J teacher achieves a 12.4% pass@100 on GSM8k, while the same student and teacher trained with knowledge distillation yield only a 3.7% pass@100. We also show that it is possible for a student model to outperform the teacher using EKT.
翻訳日:2023-06-09 20:10:44 公開日:2023-06-07
# 等変光場畳み込み・変圧器

Equivariant Light Field Convolution and Transformer ( http://arxiv.org/abs/2212.14871v2 )

ライセンス: Link先を確認
Yinshuang Xu, Jiahui Lei, Kostas Daniilidis(参考訳) 3次元再構成と新しいビューレンダリングは、インプットビューがカバレッジとビュー間のベースラインで不十分な場合、幾何学的プリエントから大きな恩恵を受ける。 2d画像からの幾何学的事前の深層学習では、各画像は2d$の正準フレームで表現され、前者は与えられたまたは学習された3d$の正準フレームで学習される。 本稿では、カメラの相対的なポーズのみを考慮し、3次元の光空間における$SE(3)$-equivariantの畳み込みと変圧器を提案することにより、フレーム変換を座標する複数のビューから事前学習方法を示す。 これにより、座標フレームの選択に同変のままの光場を作成することができる。 我々の研究で定義された光場は、放射場と光線空間に定義された特徴場の両方を指す。 我々は、光場の領域である光線空間を$se(3)$の等質空間としてモデル化し、光線空間における$se(3)$-同変畳み込みを導入する。 畳み込みの出力領域に依存すると、畳み込みベースの$SE(3)$-equivariant map from ray space to ray space and to $\mathbb{R}^3$。 我々の数学的枠組みは、光線空間における$SE(3)$-equivariant attentionへの畳み込みを超えて行くことができる。 本稿では, 等変畳み込みとトランスフォーマーを, 等変ニューラルネットワークレンダリングと3d$再構成のタスクで調整し, 適応する方法を示す。 変換拡張を行わずにロト翻訳データセットのロバストな結果を得ることにより,$SE(3)$-equivarianceを示す。

3D reconstruction and novel view rendering can greatly benefit from geometric priors when the input views are not sufficient in terms of coverage and inter-view baselines. Deep learning of geometric priors from 2D images often requires each image to be represented in a $2D$ canonical frame and the prior to be learned in a given or learned $3D$ canonical frame. In this paper, given only the relative poses of the cameras, we show how to learn priors from multiple views equivariant to coordinate frame transformations by proposing an $SE(3)$-equivariant convolution and transformer in the space of rays in 3D. This enables the creation of a light field that remains equivariant to the choice of coordinate frame. The light field as defined in our work, refers both to the radiance field and the feature field defined on the ray space. We model the ray space, the domain of the light field, as a homogeneous space of $SE(3)$ and introduce the $SE(3)$-equivariant convolution in ray space. Depending on the output domain of the convolution, we present convolution-based $SE(3)$-equivariant maps from ray space to ray space and to $\mathbb{R}^3$. Our mathematical framework allows us to go beyond convolution to $SE(3)$-equivariant attention in the ray space. We demonstrate how to tailor and adapt the equivariant convolution and transformer in the tasks of equivariant neural rendering and $3D$ reconstruction from multiple views. We demonstrate $SE(3)$-equivariance by obtaining robust results in roto-translated datasets without performing transformation augmentation.
翻訳日:2023-06-09 20:01:32 公開日:2023-06-07
# multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning ( http://arxiv.org/abs/2212.10773v2 )

ライセンス: Link先を確認
Zhiyang Xu, Ying Shen, Lifu Huang(参考訳) 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。 しかし、ビジョンやマルチモーダルタスクについては、まだ検討されていない。 本稿では,11のカテゴリをカバーする47の多様なマルチモーダルタスクからなる,最初のマルチモーダル命令チューニングベンチマークデータセットであるmultiinstructを紹介する。 各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。 我々は,OFAをマルチモーダル・インストラクション・チューニングの基礎となる事前学習モデルとみなし,その性能を向上させるために,大規模なNatural Instructionsデータセットを活用するために複数のトランスファー学習戦略を検討する。 実験の結果,未認識のマルチモーダルタスクにおけるゼロショット性能が強く,テキストのみの命令からの転送学習の利点が示された。 また、モデルが様々な命令に対してどれほど敏感であるかを評価するために、感性という新しい評価指標も設計する。 本結果から,各タスクに対する多様なタスクや命令を微調整した後,モデルが様々な命令に敏感でないことが示唆された。

Instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it's still not explored for vision and multimodal tasks. In this work, we introduce MultiInstruct, the first multimodal instruction tuning benchmark dataset that consists of 47 diverse multimodal tasks covering 11 broad categories. Each task is designed at least with 5,000 instances (input-out pairs) from existing open-source datasets and 5 expert-written instructions. We take OFA as the base pre-trained model for multimodal instruction tuning, and to improve its performance, we explore multiple transfer learning strategies to leverage the large-scale Natural Instructions dataset. Experimental results demonstrate its strong zero-shot performance on various unseen multimodal tasks and the benefit of transfer learning from text-only instructions. We also design a new evaluation metric: Sensitivity, to evaluate how sensitive the model is to the variety of instructions. Our results indicate that the model is less sensitive to the varying instructions after finetuning on a diverse set of tasks and instructions for each task.
翻訳日:2023-06-09 20:00:23 公開日:2023-06-07
# Aharonov-Bohm効果を用いた電磁レンズ

Electromagnetic lensing using the Aharonov-Bohm effect ( http://arxiv.org/abs/2301.09980v2 )

ライセンス: Link先を確認
Makoto Tokoro Schreiber, Cathal Cassidy, Menour Saidani, Matthias Wolf(参考訳) Aharonov-Bohm効果により,古典的電磁場のない領域における磁気ベクトルポテンシャルを用いた新しい電磁レンズの概念を理論的および実験的に実証した。 本発明のトロイド形レンズは、その焦点長と反対極性な球面収差係数で凸又は凹面に調整可能な電磁レンズを提供する。 この新しいレンズは、従来の電磁場と静電場に基づくレンズの利点を組み合わせて、荷電粒子系の光学設計の新しい可能性を開く。 より一般的に、これらの結果は、単純なフラックス線を超えた位相が考慮され、磁気ベクトルポテンシャルの物理的重要性を支持するならば、アハロノフ・ボーム効果は単純なステップシフトを超えて荷電粒子波面を形成できることを示している。

We demonstrate theoretically and experimentally a new electromagnetic lensing concept using the magnetic vector potential - in a region free of classical electromagnetic fields - via the Aharonov-Bohm effect. This toroid-shaped lens with poloidal current flow allows for electromagnetic lensing which can be tuned to be convex or concave with a spherical aberration coefficient of opposite polarity to its focal length. This new lens combines the advantages of traditional electromagnetic and electrostatic field-based lenses and opens up new possibilities for the optical design of charged-particle systems. More generally, these results demonstrate that the Aharonov-Bohm effect can shape charged particle wavefronts beyond simple step shifts if topologies beyond simple flux lines are considered and supports the physical significance of the magnetic vector potential.
翻訳日:2023-06-09 19:50:35 公開日:2023-06-07
# DynGFN:GFlowNetを用いた遺伝子制御ネットワークのベイズ推定に向けて

DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with GFlowNets ( http://arxiv.org/abs/2302.04178v2 )

ライセンス: Link先を確認
Lazar Atanackovic, Alexander Tong, Jason Hartford, Leo J. Lee, Bo Wang, Yoshua Bengio(参考訳) 細胞生物学における大きな課題の1つは、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する遺伝子制御ネットワーク(GRN)を推論することである。 1) 規制ネットワークは本質的に循環的であるため、grnを有向非循環グラフ(dag)としてモデル化すべきではなく、2) 観測は重要な測定ノイズを持つので、典型的なサンプルサイズでは、データが与えられた可能性のあるグラフの大きな同値クラスが常に存在し、この不確かさを捉える方法を求めている。 既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。 本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。 速度情報へのアクセスがあるので,ベイズ構造学習問題を動的系のスパース同定問題として扱うことができ,循環フィードバックループを時間を通じて捉えることができる。 本研究の目的は, 離散構造上の不確実性をモデル化することであり, 生成フローネットワーク(GFlowNets)を用いて, 結合空間の後方分布を推定することである。 提案手法は, 従来のベイズ構造学習法と比較して, 循環構造の分布をよりよくカプセル化した後部学習法であることが示唆された。

One of the grand challenges of cell biology is inferring the gene regulatory network (GRN) which describes interactions between genes and their products that control gene expression and cellular function. We can treat this as a causal discovery problem but with two non-standard challenges: (1) regulatory networks are inherently cyclic so we should not model a GRN as a directed acyclic graph (DAG), and (2) observations have significant measurement noise, so for typical sample sizes there will always be a large equivalence class of graphs that are likely given the data, and we want methods that capture this uncertainty. Existing methods either focus on challenge (1), identifying cyclic structure from dynamics, or on challenge (2) learning complex Bayesian posteriors over DAGs, but not both. In this paper we leverage the fact that it is possible to estimate the "velocity" of gene expression with RNA velocity techniques to develop an approach that addresses both challenges. Because we have access to velocity information, we can treat the Bayesian structure learning problem as a problem of sparse identification of a dynamical system, capturing cyclic feedback loops through time. Since our objective is to model uncertainty over discrete structures, we leverage Generative Flow Networks (GFlowNets) to estimate the posterior distribution over the combinatorial space of possible sparse dependencies. Our results indicate that our method learns posteriors that better encapsulate the distributions of cyclic structures compared to counterpart state-of-the-art Bayesian structure learning approaches.
翻訳日:2023-06-09 19:42:48 公開日:2023-06-07
# デジタルマーケティングコンテンツデザインのためのニューラルインサイト

Neural Insights for Digital Marketing Content Design ( http://arxiv.org/abs/2302.01416v3 )

ライセンス: Link先を確認
Fanjie Kong, Yuan Li, Houssam Nassif, Tanner Fiez, Ricardo Henao, Shreya Chakrabarti(参考訳) デジタルマーケティングでは、新しいwebサイトコンテンツの実験が顧客エンゲージメントを向上させる重要なレバーの1つだ。 しかし、マーケティングコンテンツを成功させることは、明確な指針に欠ける手作業と時間を要するプロセスである。 本稿では,コンテンツ作成とオンライン実験のループを閉じるために,マーケターが過去のデータに基づくAIによる行動可能な洞察を提供することにより,創造プロセスを改善する。 本稿では、マーケティングコンテンツデザインからインサイトをスコアし抽出するニューラルネットワークシステム、すなわち、マルチモーダルニューラルネットワークがマーケティングコンテンツの魅力を予測し、ポストホック属性法は、マーケターが特定のマーケティングロケーションでコンテンツを改善するための実用的なインサイトを生成する。 私たちの洞察は、与えられた現在のコンテンツの利点と欠点を指摘するだけでなく、過去のデータに基づいたデザインレコメンデーションも提供します。 評価モデルと洞察は定量的にも質的にもうまく機能することを示す。

In digital marketing, experimenting with new website content is one of the key levers to improve customer engagement. However, creating successful marketing content is a manual and time-consuming process that lacks clear guiding principles. This paper seeks to close the loop between content creation and online experimentation by offering marketers AI-driven actionable insights based on historical data to improve their creative process. We present a neural-network-based system that scores and extracts insights from a marketing content design, namely, a multimodal neural network predicts the attractiveness of marketing contents, and a post-hoc attribution method generates actionable insights for marketers to improve their content in specific marketing locations. Our insights not only point out the advantages and drawbacks of a given current content, but also provide design recommendations based on historical data. We show that our scoring model and insights work well both quantitatively and qualitatively.
翻訳日:2023-06-09 19:41:07 公開日:2023-06-07
# 再利用可能なデータ排気を伴う無限動作コンテキストバンディット

Infinite Action Contextual Bandits with Reusable Data Exhaust ( http://arxiv.org/abs/2302.08551v2 )

ライセンス: Link先を確認
Mark Rucker, Yinglun Zhu, Paul Mineiro(参考訳) 無限のアクションコンテキストのバンディットに対して、後悔の平滑化と回帰の削減は、アクションセットに依存しない計算コストを伴う最先端のオンラインパフォーマンスをもたらす。 これにより、オフラインモデル選択などのダウンストリームデータサイエンスプロセスの実行が抑制される。 本稿では,オンライン計算コストの増大と引き換えに,スムーズさ(つまり,アクションセットとはいまだに独立している)の順にのみ,その重み付けを適切に定義するオンラインアルゴリズムについて述べる。 これにより、運用シナリオにおけるスムーズな後悔の導入に対する重要な障害が取り除かれる。

For infinite action contextual bandits, smoothed regret and reduction to regression results in state-of-the-art online performance with computational cost independent of the action set: unfortunately, the resulting data exhaust does not have well-defined importance-weights. This frustrates the execution of downstream data science processes such as offline model selection. In this paper we describe an online algorithm with an equivalent smoothed regret guarantee, but which generates well-defined importance weights: in exchange, the online computational cost increases, but only to order smoothness (i.e., still independent of the action set). This removes a key obstacle to adoption of smoothed regret in production scenarios.
翻訳日:2023-06-09 19:30:30 公開日:2023-06-07
# ピースワイズアフィンサロゲートを用いた混合変数を用いた大域的および選好的最適化

Global and Preference-based Optimization with Mixed Variables using Piecewise Affine Surrogates ( http://arxiv.org/abs/2302.04686v2 )

ライセンス: Link先を確認
Mengjia Zhu, Alberto Bemporad(参考訳) 混合変数、すなわち数値的およびカテゴリー的性質の変数を含む最適化問題は、特に複雑な制約が存在する場合、解決が困難である。 さらに、目的関数が複雑なシミュレーションや実験の結果である場合、評価はコストがかかる可能性がある。 本稿では,対象関数を可逆サンプル上で分割的にアフィンサロゲートすることにより,中規模(符号化後約100変数,制約20変数)までの線形制約付き混合変数問題を解くための新しいサーロゲート型大域最適化アルゴリズムを提案する。 本稿では,2種類の探索関数を導入し,混合整数線形計画解法を用いて実現可能な領域を効率的に探索する。 また,このアルゴリズムの選好ベースのバージョンも提供し,サンプル間のペアワイズ比較のみを取得可能とし,対象関数の最小化は未定のままである。 2つのアルゴリズムは、制約のない混合変数ベンチマーク問題でテストされる。 その結果,提案アルゴリズムは,少数の取得において,既存の手法よりも優れた,あるいは同等の結果が得られることがわかった。

Optimization problems involving mixed variables, i.e., variables of numerical and categorical nature, can be challenging to solve, especially in the presence of complex constraints. Moreover, when the objective function is the result of a complicated simulation or experiment, it may be expensive to evaluate. This paper proposes a novel surrogate-based global optimization algorithm to solve linearly constrained mixed-variable problems up to medium-large size (around 100 variables after encoding and 20 constraints) based on constructing a piecewise affine surrogate of the objective function over feasible samples. We introduce two types of exploration functions to efficiently search the feasible domain via mixed-integer linear programming solvers. We also provide a preference-based version of the algorithm, which can be used when only pairwise comparisons between samples can be acquired while the underlying objective function to minimize remains unquantified. The two algorithms are tested on mixed-variable benchmark problems with and without constraints. The results show that, within a small number of acquisitions, the proposed algorithms can often achieve better or comparable results than other existing methods.
翻訳日:2023-06-09 19:29:52 公開日:2023-06-07
# 可変オートエンコーダと物理バイアスを組み合わせた顕微鏡データ解析

Combining Variational Autoencoders and Physical Bias for Improved Microscopy Data Analysis ( http://arxiv.org/abs/2302.04216v2 )

ライセンス: Link先を確認
Arpan Biswas, Maxim Ziatdinov and Sergei V. Kalinin(参考訳) 電子顕微鏡と走査型プローブ顕微鏡は、脳波や4D STEMのような画像や超分光データのような、幅広い構造、物理的、化学的性質に関する情報を含む膨大な量のデータを生成する。 これらのデータから貴重な洞察を抽出するためには、位相、強磁性変種、それらの間の境界など、物理的に分離したデータ領域を特定することが重要である。 本稿では,データ内の可変性の要因を分離するために可変オートエンコーダの能力と,潜在表現に対応する画像の不連続性の総長を最小化しようとする物理駆動損失関数を組み合わせた物理拡張機械学習手法を提案する。 本手法はNiO-LSMO, BiFeO3, グラフェンなど様々な材料に適用される。 その結果,大量の画像データから有意な情報を抽出する手法の有効性が示された。 コードと分析ワークフローの実装を含む完全なノートブックはhttps://github.com/arpanbiswas52/PaperNotebooksで入手できる。

Electron and scanning probe microscopy produce vast amounts of data in the form of images or hyperspectral data, such as EELS or 4D STEM, that contain information on a wide range of structural, physical, and chemical properties of materials. To extract valuable insights from these data, it is crucial to identify physically separate regions in the data, such as phases, ferroic variants, and boundaries between them. In order to derive an easily interpretable feature analysis, combining with well-defined boundaries in a principled and unsupervised manner, here we present a physics augmented machine learning method which combines the capability of Variational Autoencoders to disentangle factors of variability within the data and the physics driven loss function that seeks to minimize the total length of the discontinuities in images corresponding to latent representations. Our method is applied to various materials, including NiO-LSMO, BiFeO3, and graphene. The results demonstrate the effectiveness of our approach in extracting meaningful information from large volumes of imaging data. The fully notebook containing implementation of the code and analysis workflow is available at https://github.com/arpanbiswas52/PaperNotebooks
翻訳日:2023-06-09 19:29:12 公開日:2023-06-07
# 量子プログラマとしてのschr\"odinger:ステアリングによる絡み合いの推定

Schr\"odinger as a Quantum Programmer: Estimating Entanglement via Steering ( http://arxiv.org/abs/2303.07911v2 )

ライセンス: Link先を確認
Aby Philip, Soorya Rethinasamy, Vincent Russo, Mark M. Wilde(参考訳) 絡み合いの定量化は、量子状態の資源性を測定するための重要なタスクである。 ここでは, 量子ステアリング効果を用いて一般二成分状態の分離性をテストし, 定量化する量子アルゴリズムを開発した。 我々の分離性テストは、関心状態の浄化を準備する計算限定クライアントと、還元されたシステムを純積状態の確率的アンサンブルに操ろうとする計算非有界サーバの2つを含む分散量子計算からなる。 実用的なアルゴリズムを設計するために、パラメータ化ユニタリ回路と古典最適化技術を組み合わせてサーバの役割を置き換え、必要な計算を行う。 その結果は変分量子ステアリングアルゴリズム (VQSA) であり、今日の量子コンピュータの能力によく適合する改良された分離性テストである。 次に,ノイズ量子シミュレータ上でのvqsaをシミュレートし,実験例の収束特性を求める。 また,vqsaから得られた結果のベンチマークを行うために,古典的コンピュータ上で実行可能な半定値プログラムを開発した。 この結果から, ステアリング, 絡み合い, 量子アルゴリズム, 量子計算複雑性理論との有意義な関係が得られた。 彼らはまた、VQSAにおけるパラメータ化中間回路の測定値を示し、分散VQAに対する第一種応用を示す。

Quantifying entanglement is an important task by which the resourcefulness of a quantum state can be measured. Here we develop a quantum algorithm that tests for and quantifies the separability of a general bipartite state, by making use of the quantum steering effect, the latter originally discovered by Schr\"odinger. Our separability test consists of a distributed quantum computation involving two parties: a computationally limited client, who prepares a purification of the state of interest, and a computationally unbounded server, who tries to steer the reduced systems to a probabilistic ensemble of pure product states. To design a practical algorithm, we replace the role of the server by a combination of parameterized unitary circuits and classical optimization techniques to perform the necessary computation. The result is a variational quantum steering algorithm (VQSA), which is a modified separability test that is better suited for the capabilities of quantum computers available today. We then simulate our VQSA on noisy quantum simulators and find favorable convergence properties on the examples tested. We also develop semidefinite programs, executable on classical computers, that benchmark the results obtained from our VQSA. Our findings here thus provide a meaningful connection between steering, entanglement, quantum algorithms, and quantum computational complexity theory. They also demonstrate the value of a parameterized mid-circuit measurement in a VQSA and represent a first-of-its-kind application for a distributed VQA.
翻訳日:2023-06-09 19:21:53 公開日:2023-06-07
# 知識コンパイルによるニューラルネットワーク分類器のシャップ説明スコアの効率的な計算

Efficient Computation of Shap Explanation Scores for Neural Network Classifiers via Knowledge Compilation ( http://arxiv.org/abs/2303.06516v2 )

ライセンス: Link先を確認
Leopoldo Bertossi and Jorge E. Leon(参考訳) Shapスコアの使用は、Explainable AIで広く使われている。 しかし、特にニューラルネットワークのようなブラックボックスの分類器で処理された場合、計算は一般には難解である。 最近の研究では、Shapを効率的に計算できるオープンボックスブール回路分類器のクラスが明らかにされている。 効率的なシェープ計算のために,バイナリニューラルネットワークをそれらの回路に変換する方法を示す。 論理ベースの知識コンパイル技術を用いています。 私たちの実験で示しているように、パフォーマンスの向上は巨大です。

The use of Shap scores has become widespread in Explainable AI. However, their computation is in general intractable, in particular when done with a black-box classifier, such as neural network. Recent research has unveiled classes of open-box Boolean Circuit classifiers for which Shap can be computed efficiently. We show how to transform binary neural networks into those circuits for efficient Shap computation. We use logic-based knowledge compilation techniques. The performance gain is huge, as we show in the light of our experiments.
翻訳日:2023-06-09 19:21:28 公開日:2023-06-07
# 非有界ガウス混合モデルの多項式時間とプライベート学習

Polynomial Time and Private Learning of Unbounded Gaussian Mixture Models ( http://arxiv.org/abs/2303.04288v2 )

ライセンス: Link先を確認
Jamil Arbas, Hassan Ashtiani and Christopher Liaw(参考訳) 本稿では,$d$-dimensional Gaussian Mixture Models (GMM) のパラメータを$k$コンポーネントでプライベートに推定する問題について検討する。 そこで我々は,この問題を非民間企業に還元する手法を開発した。 これにより、既存の非プライベートなアルゴリズムをブラックボックス方式で民営化できますが、サンプルの複雑さと実行時間のオーバーヘッドは少なくなります。 本フレームワークの主な応用例として,Moitra と Valiant [MV10] の非プライベートアルゴリズムをブラックボックスとして,GMM を学習するための$(\varepsilon, \delta)$-differentially privateアルゴリズムを開発した。 これにより、パラメータの有界性を仮定せずにgmmをプライベートに学習する最初のサンプル複雑性上限時間と1次多項式時間アルゴリズムが得られる。 解析の一環として、独立な興味を持つことができる高次元ガウスの総変分距離に対して(定数係数まで)厳密な下界を証明した。

We study the problem of privately estimating the parameters of $d$-dimensional Gaussian Mixture Models (GMMs) with $k$ components. For this, we develop a technique to reduce the problem to its non-private counterpart. This allows us to privatize existing non-private algorithms in a blackbox manner, while incurring only a small overhead in the sample complexity and running time. As the main application of our framework, we develop an $(\varepsilon, \delta)$-differentially private algorithm to learn GMMs using the non-private algorithm of Moitra and Valiant [MV10] as a blackbox. Consequently, this gives the first sample complexity upper bound and first polynomial time algorithm for privately learning GMMs without any boundedness assumptions on the parameters. As part of our analysis, we prove a tight (up to a constant factor) lower bound on the total variation distance of high-dimensional Gaussians which can be of independent interest.
翻訳日:2023-06-09 19:21:02 公開日:2023-06-07
# 量子ビットアレイにおけるフラックスクロストークの学習による校正

Learning-based Calibration of Flux Crosstalk in Transmon Qubit Arrays ( http://arxiv.org/abs/2303.03347v2 )

ライセンス: Link先を確認
Cora N. Barrett, Amir H. Karamlou, Sarah E. Muschinske, Ilan T. Rosen, Jochen Braum\"uller, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, William D. Oliver(参考訳) 磁束可変データとカプラ量子ビットからなる超伝導量子プロセッサは、量子計算に有望なプラットフォームである。 しかし、磁束制御線と構成量子ビット間の磁束クロストークは、量子ビット周波数の精密制御を阻害し、このプラットフォームをスケールさせることが困難である。 高忠実度デジタルおよびアナログ量子演算を実装するには、フラックスクロストークを特徴付ける必要がある。 本稿では,学習に基づくキャリブレーションプロトコルを導入し,16個のフラックス可変トランスモンキュービットの配列をキャリブレーションすることにより,その実験性能を示す。 提案プロトコルの拡張性を示すため,トランスモン量子ビットのより大きな配列に対するクロストーク行列学習手順をシミュレートした。 中央値の量子ビット周波数誤差を300ドル未満に保ちながら,システムサイズの線形スケーリングを実証的に観察した。

Superconducting quantum processors comprising flux-tunable data and coupler qubits are a promising platform for quantum computation. However, magnetic flux crosstalk between the flux-control lines and the constituent qubits impedes precision control of qubit frequencies, presenting a challenge to scaling this platform. In order to implement high-fidelity digital and analog quantum operations, one must characterize the flux crosstalk and compensate for it. In this work, we introduce a learning-based calibration protocol and demonstrate its experimental performance by calibrating an array of 16 flux-tunable transmon qubits. To demonstrate the extensibility of our protocol, we simulate the crosstalk matrix learning procedure for larger arrays of transmon qubits. We observe an empirically linear scaling with system size, while maintaining a median qubit frequency error below $300$ kHz.
翻訳日:2023-06-09 19:20:43 公開日:2023-06-07
# オフライン強化学習による人間の行動に影響を与える学習

Learning to Influence Human Behavior with Offline Reinforcement Learning ( http://arxiv.org/abs/2303.02265v3 )

ライセンス: Link先を確認
Joey Hong, Anca Dragan, Sergey Levine(参考訳) 人と対話する場合、AIエージェントは世界の状態に影響を与えるだけでなく、エージェントに反応する人々の行動や、その根底にある意図や戦略にも影響を及ぼす。 この影響を考慮し、活用することは、人間の行動がほぼ最適であると仮定できるような環境で、主に研究されてきた。 代わりに、人間のサブ最適化を捉える必要のある設定での影響に焦点を当てます。 例えば、認知バイアスや情報の欠如によって、人々があまりうまく機能しないような協調的なタスクを想像してください。 ほぼ最適な人間の行動はここでは機能しないので、エージェントは実際の人間のデータから学ぶ必要がある。 しかし、人間とオンラインで実験することは、潜在的に危険であり、環境の忠実度の高いシミュレーターを作成することは、しばしば非現実的です。 したがって、人間と人間の相互作用のオフラインデータセットから学ぶことに集中する。 我々の観察では、オフライン強化学習(RL)は、観察された人間-人間の行動の要素を拡張し、組み合わせることで、最適な人間に効果的に影響を与えることができる。 オフラインRLは2つの課題を効果的に解決できることを示した。 まず,様々なタスクにおける人間と人間とサブ最適インタラクションのデータセットから学習することで,エージェントは,新たなタスクにおいても人間をよりよいパフォーマンスへと導くための影響戦略を学習できることを示す。 第二に、人間の行動のモデリングと条件付けにより、オフラインRLは人間の行動だけでなく、その基盤となる戦略にも影響を与え、その戦略の変化に適応できることを示す。

When interacting with people, AI agents do not just influence the state of the world -- they also influence the actions people take in response to the agent, and even their underlying intentions and strategies. Accounting for and leveraging this influence has mostly been studied in settings where it is sufficient to assume that human behavior is near-optimal: competitive games, or general-sum settings like autonomous driving alongside human drivers. Instead, we focus on influence in settings where there is a need to capture human suboptimality. For instance, imagine a collaborative task in which, due either to cognitive biases or lack of information, people do not perform very well -- how could an agent influence them towards more optimal behavior? Assuming near-optimal human behavior will not work here, and so the agent needs to learn from real human data. But experimenting online with humans is potentially unsafe, and creating a high-fidelity simulator of the environment is often impractical. Hence, we focus on learning from an offline dataset of human-human interactions. Our observation is that offline reinforcement learning (RL) can learn to effectively influence suboptimal humans by extending and combining elements of observed human-human behavior. We demonstrate that offline RL can solve two challenges with effective influence. First, we show that by learning from a dataset of suboptimal human-human interaction on a variety of tasks -- none of which contains examples of successful influence -- an agent can learn influence strategies to steer humans towards better performance even on new tasks. Second, we show that by also modeling and conditioning on human behavior, offline RL can learn to affect not just the human's actions but also their underlying strategy, and adapt to changes in their strategy.
翻訳日:2023-06-09 19:20:26 公開日:2023-06-07
# 電力制約深層学習によるロバスト非線形フィードバック符号化

Robust Non-Linear Feedback Coding via Power-Constrained Deep Learning ( http://arxiv.org/abs/2304.13178v2 )

ライセンス: Link先を確認
Junghoon Kim, Taejoon Kim, David Love, Christopher Brinton(参考訳) フィードバック可能な通信のためのコードの設計は、長年のオープンな問題であった。 非線形な深層学習に基づく符号化方式に関する最近の研究は、線形符号よりも通信信頼性が大幅に向上しているが、チャネル上での前方およびフィードバックノイズの存在に対して脆弱である。 本稿では,チャネルノイズに対するロバスト性を大幅に向上させる非線形フィードバック符号のファミリーを開発した。 私たちのオートエンコーダベースのアーキテクチャは、ビットの連続ブロックに基づいてコードを学習するように設計されており、ノイズの多いチャネル上でのエンコーダとデコーダの物理的分離を克服するために、ビット単位での処理よりもノイズの少ないアドバンテージを得ます。 さらに,ハードウェア制約を学習最適化に明示的に組み込むため,エンコーダの電力制御層を開発し,平均電力制約が漸近的に満たされることを示す。 数値実験により,本手法は実効的なフォワードノイズやフィードバックノイズよりも広いマージンでフィードバック符号よりも優れており,非線形符号の挙動に関する情報理論的洞察を提供する。 さらに, 長いブロック長条件下では, フィードバックノイズが高くなると, 標準誤り訂正符号がフィードバック符号より好まれることがわかった。

The design of codes for feedback-enabled communications has been a long-standing open problem. Recent research on non-linear, deep learning-based coding schemes have demonstrated significant improvements in communication reliability over linear codes, but are still vulnerable to the presence of forward and feedback noise over the channel. In this paper, we develop a new family of non-linear feedback codes that greatly enhance robustness to channel noise. Our autoencoder-based architecture is designed to learn codes based on consecutive blocks of bits, which obtains de-noising advantages over bit-by-bit processing to help overcome the physical separation between the encoder and decoder over a noisy channel. Moreover, we develop a power control layer at the encoder to explicitly incorporate hardware constraints into the learning optimization, and prove that the resulting average power constraint is satisfied asymptotically. Numerical experiments demonstrate that our scheme outperforms state-of-the-art feedback codes by wide margins over practical forward and feedback noise regimes, and provide information-theoretic insights on the behavior of our non-linear codes. Moreover, we observe that, in a long blocklength regime, canonical error correction codes are still preferable to feedback codes when the feedback noise becomes high.
翻訳日:2023-06-09 19:12:50 公開日:2023-06-07
# 未知のダイナミクスによる長期公正性

Long-Term Fairness with Unknown Dynamics ( http://arxiv.org/abs/2304.09362v2 )

ライセンス: Link先を確認
Tongxin Yin, Reilly Raab, Mingyan Liu, Yang Liu(参考訳) 機械学習はミオプティックに社会的不平等を補強するが、平等な結果を動的に求めるためにも用いられる。 本稿では,オンライン強化学習の文脈における長期公正性を定式化する。 この定式化は、人口状態に固有の運転株式など、公正性の静的な定式化に組み込むことができない動的制御目的を満たすことができる。 このフレーミングによってアルゴリズムが未知のダイナミクスに適応できることを実証し、より望ましい平衡に向けて分類器人口システムを駆動する短期的インセンティブを犠牲にすることで証明する。 提案手法では,オンライン学習における最近の研究に適応するアルゴリズムを開発する。 本アルゴリズムは,人口集団間の統計的規則性として,累積損失と累積フェアネス違反の同時確率境界を実現する。 提案手法は,筋タイプ分類器の再訓練をベースラインとして繰り返し行うことと,安全性保証を欠いた深層強化学習アルゴリズムと比較した。 我々の実験は進化ゲーム理論に従って人間の人口をモデル化し、実世界のデータセットを統合する。

While machine learning can myopically reinforce social inequalities, it may also be used to dynamically seek equitable outcomes. In this paper, we formalize long-term fairness in the context of online reinforcement learning. This formulation can accommodate dynamical control objectives, such as driving equity inherent in the state of a population, that cannot be incorporated into static formulations of fairness. We demonstrate that this framing allows an algorithm to adapt to unknown dynamics by sacrificing short-term incentives to drive a classifier-population system towards more desirable equilibria. For the proposed setting, we develop an algorithm that adapts recent work in online learning. We prove that this algorithm achieves simultaneous probabilistic bounds on cumulative loss and cumulative violations of fairness (as statistical regularities between demographic groups). We compare our proposed algorithm to the repeated retraining of myopic classifiers, as a baseline, and to a deep reinforcement learning algorithm that lacks safety guarantees. Our experiments model human populations according to evolutionary game theory and integrate real-world datasets.
翻訳日:2023-06-09 19:11:47 公開日:2023-06-07
# 軌道自由準密度汎関数論

Orbital-Free Quasi-Density Functional Theory ( http://arxiv.org/abs/2304.09056v3 )

ライセンス: Link先を確認
Carlos L. Benavides-Riveros(参考訳) ウィグナー関数は、マクロ世界における非古典的効果を探索するために広く用いられる。 ここでは,フェルミオン系とボソニック系の1体ウィグナー準確率を計算するための軌道自由関数フレームワークを開発した。 鍵変数は準密度であるため、この理論はパウリポテンシャルの発見や軌道自由密度汎関数理論の運動エネルギー近似の問題を回避するのに特に適している。 原理の証明として、光学格子のビルディングブロックに対する普遍汎関数は、1-ボディ還元密度行列の対応する汎関数の変換、縮小、および回転によって生じることを見出し、これらの汎関数理論間の強い結合を示す。 さらに Wigner negativity と $v$-representability の概念を関連付け、負の Wigner 関数を持つ基底状態の多様体を求める。

Wigner functions are broadly used to probe non-classical effects in the macroscopic world. Here we develop an orbital-free functional framework to compute the 1-body Wigner quasi-probability for both fermionic and bosonic systems. Since the key variable is a quasi-density, this theory is particularly well suited to circumvent the problem of finding the Pauli potential or approximating the kinetic energy in orbital-free density functional theory. As proof of principle, we find that the universal functional for the building block of optical lattices results from a translation, a contraction, and a rotation of the corresponding functional of the 1-body reduced density matrix, indicating a strong connection between these functional theories. Furthermore, we relate the concepts of Wigner negativity and $v$-representability, and find a manifold of ground states with negative Wigner functions.
翻訳日:2023-06-09 19:11:32 公開日:2023-06-07
# 量子状態の相関測度と量子チャネルの情報特性

Correlation measures of a quantum state and information characteristics of a quantum channel ( http://arxiv.org/abs/2304.05388v3 )

ライセンス: Link先を確認
M.E. Shirokov(参考訳) 本稿では,2部量子状態の基本相関測度と量子チャネルの基本情報特性の相互関係について論じる。 無限次元二成分系における(最適化されていない)量子ディスコードの性質を記述する。 特に、一般化されたKoashi-Winter関係を用いて、量子不協和がゼロである状態が量子古典的であることを保証する単純な条件が得られる。 無限一方向の古典的相関を持つ状態に対する2つの量子ディスコードの定義を提案し解析した。 Koashi-Winter と Xi-Lu-Wang-Li の関係の一般化版は、チャネルの出力と補流チャネル(入力状態の所定のアンサンブルのチャネルの関数として)におけるホレボ情報に対する高度な連続性境界、ホレボ容量と入力次元または入力エネルギー境界に依存する量子チャネルの非正規化プライベート容量を得るために用いられる。 また、非測定サブシステムに作用する量子チャネルの下での量子不協和の単調性と局所的な測定のエントロピー低減の「ドップペルガンガー」である量子チャネルの性質についても論じる。

We discuss the interconnections between basic correlation measures of a bipartite quantum state and basic information characteristics of a quantum channel, focusing on the benefits of these interconnections for solving specific problems concerning the characteristics of both types. We describe properties of the (unoptimized and optimized) quantum discord in infinite-dimensional bipartite systems. In particular, using the generalized Koashi-Winter relation, a simple condition is obtained that guarantees that a state with zero quantum discord is quantum-classical. Two possible definitions of the quantum discord for states with infinite one-way classical correlation are proposed and analysed. The generalized versions of Koashi-Winter and Xi-Lu-Wang-Li relations are used to obtain advanced continuity bounds for the Holevo information at the outputs of a channel and its complementary channel (as functions of a channel for a given ensemble of input states), for the Holevo capacity and the unregularized private capacity of a quantum channel depending either on the input dimension or on the input energy bound. We also discuss the properties of quantum channels which are "doppelgangers" of the monotonicity of the quantum discord and the entropy reduction of a local measurement under quantum channels acting on an unmeasured subsystem.
翻訳日:2023-06-09 19:11:17 公開日:2023-06-07
# ねじれた量子状態のユニタリ同値

Unitary equivalence of twisted quantum states ( http://arxiv.org/abs/2305.06293v2 )

ライセンス: Link先を確認
N. V. Filina and S. S. Baturin(参考訳) 我々は、ツイスト量子状態の時間ダイナミクスを示す。 我々は、よく知られた定常ランダウ状態と、ハミルトニアンが線形エネルギー散逸を考慮していても、進化するツイスト状態の間に明示的な関係を見出す。 このユニタリ接続を利用して非定常ランダウ状態を分析し,その性質を明らかにした。 提案した変換は、古典的エルマコフ方程式と定常ランダウ状態上で計算された行列要素の解に基づいて、進化したツイスト状態に対する異なる演算子平均値の簡易評価を可能にする。 提案された形式論は解析を著しく単純化し、ツイスト量子波パケットの散逸進化のさらなる理論的発展のための便利なツールとなるかもしれない。

We present the time dynamics of twisted quantum states. We find an explicit connection between the well-known stationary Landau state and an evolving twisted state, even when the Hamiltonian accounts for linear energy dissipation. Utilizing this unitary connection, we analyze nonstationary Landau states and unveil some of their properties. The proposed transformation enables simple evaluation of different operator mean values for the evolving twisted state based on the solution to the classical Ermakov equation and matrix elements calculated on the stationary Landau states. The suggested formalism may significantly simplify analysis and become a convenient tool for further theoretical development on the dissipative evolution of the twisted quantum wave packet.
翻訳日:2023-06-09 19:02:45 公開日:2023-06-07
# BUCA:unsupervised Commonsense Question Answeringへのバイナリ分類アプローチ

BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering ( http://arxiv.org/abs/2305.15932v2 )

ライセンス: Link先を確認
Jie He and Simon Chi Lok U and V\'ictor Guti\'errez-Basulto and Jeff Z. Pan(参考訳) unsupervised commonsense reasoning (ucr) は、commonsense reasoningデータセットの構築が高価で、必然的に範囲が限られているため、ますます人気が高まっている。 UCRの一般的なアプローチは、外部知識(例えば知識グラフ)を持つ言語モデルを微調整することであるが、これは通常、多くのトレーニング例を必要とする。 本稿では,下流の複数質問応答タスクを,その合理的性に応じてすべての候補回答をランク付けすることで,より単純な二分分類タスクに変換することを提案する。 この目的のために、モデルをトレーニングするために、知識グラフトリプルを合理的で不合理なテキストに変換する。 総合的な実験結果から,様々な選択質問応答ベンチマークに対するアプローチの有効性が示された。 さらに、既存のKGを使ったUCRアプローチと比較して、データ空腹は少ない。 私たちのコードはhttps://github.com/probe2/bucaで利用可能です。

Unsupervised commonsense reasoning (UCR) is becoming increasingly popular as the construction of commonsense reasoning datasets is expensive, and they are inevitably limited in their scope. A popular approach to UCR is to fine-tune language models with external knowledge (e.g., knowledge graphs), but this usually requires a large number of training examples. In this paper, we propose to transform the downstream multiple choice question answering task into a simpler binary classification task by ranking all candidate answers according to their reasonableness. To this end, for training the model, we convert the knowledge graph triples into reasonable and unreasonable texts. Extensive experimental results show the effectiveness of our approach on various multiple choice question answering benchmarks. Furthermore, compared with existing UCR approaches using KGs, ours is less data hungry. Our code is available at https://github.com/probe2/BUCA.
翻訳日:2023-06-09 18:52:31 公開日:2023-06-07
# デジタルポンド : 家庭と企業のための新しい形態のお金」に対する反応

Response to "The digital pound: a new form of money for households and businesses" ( http://arxiv.org/abs/2305.09059v4 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) この文書は、イングランド銀行とhm財務省が発行した諮問論文「the digital pound: a new form of money for households and business?」に対する回答であり、2020年の「central bank digital currency: opportunities, challenges and design」や2021年の「new forms of digital money」を含むシリーズの最新文書である。 コンサルテーション・ペーパー(Consultation Paper)は、イングランド銀行がイギリスで小売用に採用した中央銀行デジタル通貨(CBDC)に関する文書である。 本書の第3部では、協議質問について直接取り上げなければならない。

This document constitutes a response to a Consultation Paper published by the Bank of England and HM Treasury, "The digital pound: a new form of money for households and businesses?", the latest document in a series that includes "Central Bank Digital Currency: opportunities, challenges and design" in 2020 and "New forms of digital money" in 2021. The Consultation Paper concerns the adoption of central bank digital currency (CBDC) for retail use in the United Kingdom by the Bank of England. We shall address the consultation questions directly in the third section of this document.
翻訳日:2023-06-09 18:49:55 公開日:2023-06-07
# パリティ校正

Parity Calibration ( http://arxiv.org/abs/2305.18655v2 )

ライセンス: Link先を確認
Youngseog Chung, Aaron Rumack, Chirag Gupta(参考訳) 逐次回帰設定では、意思決定者は、将来の観測の実際の値よりも、将来の観測が現在の観測よりも増加するか減少するかを主に懸念することができる。 この文脈では、時系列における増加(または「パリティ」)事象の予測のキャリブレーションの目標を捉えたパリティキャリブレーションの概念を導入する。 出力の予測分布からパリティ確率を抽出できるが,そのような戦略が理論的予測不可能と実用性能の低下につながることを示す。 次に,最初のタスクは回帰であるが,パリティキャリブレーションは2次キャリブレーションとして表現できることを示した。 そこで本研究では,オンラインバイナリキャリブレーション手法を用いてパリティキャリブレーションを行う。 提案手法は, 疫学, 気象予報, 核融合におけるモデルベース制御における実例研究における有効性を示す。

In a sequential regression setting, a decision-maker may be primarily concerned with whether the future observation will increase or decrease compared to the current one, rather than the actual value of the future observation. In this context, we introduce the notion of parity calibration, which captures the goal of calibrated forecasting for the increase-decrease (or "parity") event in a timeseries. Parity probabilities can be extracted from a forecasted distribution for the output, but we show that such a strategy leads to theoretical unpredictability and poor practical performance. We then observe that although the original task was regression, parity calibration can be expressed as binary calibration. Drawing on this connection, we use an online binary calibration method to achieve parity calibration. We demonstrate the effectiveness of our approach on real-world case studies in epidemiology, weather forecasting, and model-based control in nuclear fusion.
翻訳日:2023-06-09 18:43:36 公開日:2023-06-07
# X線イメージング、MRI、核イメージングの事例研究

Case Studies on X-Ray Imaging, MRI and Nuclear Imaging ( http://arxiv.org/abs/2306.02055v2 )

ライセンス: Link先を確認
Shuvra Sarker, Angona Biswas, MD Abdullah Al Nasim, Md Shahin Ali, Sai Puppala, Sajedul Talukder(参考訳) 医療イメージングの分野は医学において必須の分野であり、体内組織や臓器の画像を撮影するために様々な形態の放射線が関与している。 これらの画像は臨床診断に不可欠であり,本章では重篤な疾患の診断におけるx線,mri,核画像の利用について検討する。 しかし、これらの画像の手動による評価と保存は困難で時間がかかる。 この問題に対処するために、人工知能(ai)ベースの技術、特にディープラーニング(dl)は、画像モダリティから体系的な特徴抽出と分類にますます普及し、医師の迅速かつ正確な診断を支援する。 本稿では,aiベースのアプローチ,特に畳み込みニューラルネットワーク(cnn)を用いて,医療画像技術による疾患検出を支援する方法について注目する。 CNNは生の入力画像から特徴を抽出する能力から画像解析において一般的に用いられる手法であり,本研究の主要な議論領域となる。 そこで本研究では,CNNを医療画像技術を用いた疾患診断分野として検討している。

The field of medical imaging is an essential aspect of the medical sciences, involving various forms of radiation to capture images of the internal tissues and organs of the body. These images provide vital information for clinical diagnosis, and in this chapter, we will explore the use of X-ray, MRI, and nuclear imaging in detecting severe illnesses. However, manual evaluation and storage of these images can be a challenging and time-consuming process. To address this issue, artificial intelligence (AI)-based techniques, particularly deep learning (DL), have become increasingly popular for systematic feature extraction and classification from imaging modalities, thereby aiding doctors in making rapid and accurate diagnoses. In this review study, we will focus on how AI-based approaches, particularly the use of Convolutional Neural Networks (CNN), can assist in disease detection through medical imaging technology. CNN is a commonly used approach for image analysis due to its ability to extract features from raw input images, and as such, will be the primary area of discussion in this study. Therefore, we have considered CNN as our discussion area in this study to diagnose ailments using medical imaging technology.
翻訳日:2023-06-09 18:31:56 公開日:2023-06-07
# データ拡張のための生成型adversarial network

Generative Adversarial Networks for Data Augmentation ( http://arxiv.org/abs/2306.02019v2 )

ライセンス: Link先を確認
Angona Biswas, MD Abdullah Al Nasim, Al Imran, Anika Tabassum Sejuty, Fabliha Fairooz, Sai Puppala, Sajedul Talukder(参考訳) 医療分野でAIモデルをトレーニングするための利用可能なデータセットを拡張する方法のひとつは、データ拡張にGAN(Generative Adversarial Networks)を使用することだ。 GANはジェネレータネットワークを使用して新しいデータサンプルを作成し、識別ネットワークによって評価され、実際のサンプルと類似性を決定する。 判別器ネットワークは実サンプルと合成サンプルを区別するように教えられ、一方生成システムは実サンプルとよく似たデータを生成するように訓練されている。 このプロセスは、生成ネットワークが本物のデータと区別できない合成データを生成するまで繰り返される。 GANは、データ拡張、画像生成、ドメイン適応など、さまざまなタスクで医療画像解析に利用されてきた。 利用可能なデータセットを増やすために使用できる合成サンプルを生成することができ、特に大量の真のデータを取得することは困難または非倫理的である。 しかし, 医用画像におけるGANの使用は, 医用画像が高品質で, 臨床現場での使用に適していることを保証するために, 依然として研究の活発な領域である点に注意が必要である。

One way to expand the available dataset for training AI models in the medical field is through the use of Generative Adversarial Networks (GANs) for data augmentation. GANs work by employing a generator network to create new data samples that are then assessed by a discriminator network to determine their similarity to real samples. The discriminator network is taught to differentiate between actual and synthetic samples, while the generator system is trained to generate data that closely resemble real ones. The process is repeated until the generator network can produce synthetic data that is indistinguishable from genuine data. GANs have been utilized in medical image analysis for various tasks, including data augmentation, image creation, and domain adaptation. They can generate synthetic samples that can be used to increase the available dataset, especially in cases where obtaining large amounts of genuine data is difficult or unethical. However, it is essential to note that the use of GANs in medical imaging is still an active area of research to ensure that the produced images are of high quality and suitable for use in clinical settings.
翻訳日:2023-06-09 18:31:37 公開日:2023-06-07
# タンパク質グラフのための神経埋め込み

Neural Embeddings for Protein Graphs ( http://arxiv.org/abs/2306.04667v1 )

ライセンス: Link先を確認
Francesco Ceccarelli, Lorenzo Giusti, Sean B. Holden, Pietro Li\`o(参考訳) タンパク質は多くの生物で働き、その結果、タンパク質の効率的な表現法の開発は大規模な生物学研究の進展に不可欠である。 現在のアプローチのほとんどは、タンパク質の配列と構造に含まれる豊富な情報を統合するのに苦労している。 本稿では,タンパク質グラフ間の構造距離を保存するエンコーダ関数を学習することにより,タンパク質グラフを幾何学的ベクトル空間に埋め込む新しい枠組みを提案する。 グラフニューラルネットワーク (GNN) とLarge Language Models (LLM) を用いることで,提案するフレームワークは構造と配列を意識したタンパク質表現を生成する。 本研究は, タンパク質構造の比較に成功し, 構造アライメントに基づく従来のアプローチに比べ, 大幅なスピードアップを実現していることを示す。 本手法は, タンパク質構造分類の課題において顕著な結果が得られ, 特に他の研究と比較した場合, トレーニングデータと同一分布のサンプルを用いて, 平均F1スコアが26%向上し, 32%の試験結果が得られた。 本手法は薬剤の優先順位付け,薬物再資源化,疾患サブタイプ分析などの分野に適用できる。

Proteins perform much of the work in living organisms, and consequently the development of efficient computational methods for protein representation is essential for advancing large-scale biological research. Most current approaches struggle to efficiently integrate the wealth of information contained in the protein sequence and structure. In this paper, we propose a novel framework for embedding protein graphs in geometric vector spaces, by learning an encoder function that preserves the structural distance between protein graphs. Utilizing Graph Neural Networks (GNNs) and Large Language Models (LLMs), the proposed framework generates structure- and sequence-aware protein representations. We demonstrate that our embeddings are successful in the task of comparing protein structures, while providing a significant speed-up compared to traditional approaches based on structural alignment. Our framework achieves remarkable results in the task of protein structure classification; in particular, when compared to other work, the proposed method shows an average F1-Score improvement of 26% on out-of-distribution (OOD) samples and of 32% when tested on samples coming from the same distribution as the training data. Our approach finds applications in areas such as drug prioritization, drug re-purposing, disease sub-type analysis and elsewhere.
翻訳日:2023-06-09 18:24:50 公開日:2023-06-07
# PET画像再構成における深部後方サンプリングによる不確かさの推定

Estimating Uncertainty in PET Image Reconstruction via Deep Posterior Sampling ( http://arxiv.org/abs/2306.04664v1 )

ライセンス: Link先を確認
Tin Vla\v{s}i\'c, Tomislav Matuli\'c and Damir Ser\v{s}i\'c(参考訳) PET(ポジトロン・エミッション・トモグラフィ)は、特定の脳疾患の評価においてしばしば用いられる重要な機能的医用画像撮影技術である。 PET画像の再構成手法の大半は、反復的および深層学習であり、関連する不確実性を定量化せずに単一の推定値を返す。 不適切さとノイズのため、単一の解は誤解を招くか不正確である。 したがって、PET画像再構成における不確実性の尺度を提供することは、医療従事者が重要な決定を下すのに役立つ。 本稿では,PET画像再構成における深層学習に基づく不確実性定量化手法を提案する。 本手法は,ベイズ逆転の後方からのサンプリングを推定する条件付き生成逆数ネットワークを訓練することに基づく。 従来の再構成法と高画質の磁気共鳴画像から得られた低線量PETスキャンからの再構成を条件とし、対応する標準線量PETスキャンの再構成を推定する。 提案モデルでは,高品質な後続サンプルを生成し,物理的に有意な不確かさを推定する。

Positron emission tomography (PET) is an important functional medical imaging technique often used in the evaluation of certain brain disorders, whose reconstruction problem is ill-posed. The vast majority of reconstruction methods in PET imaging, both iterative and deep learning, return a single estimate without quantifying the associated uncertainty. Due to ill-posedness and noise, a single solution can be misleading or inaccurate. Thus, providing a measure of uncertainty in PET image reconstruction can help medical practitioners in making critical decisions. This paper proposes a deep learning-based method for uncertainty quantification in PET image reconstruction via posterior sampling. The method is based on training a conditional generative adversarial network whose generator approximates sampling from the posterior in Bayesian inversion. The generator is conditioned on reconstruction from a low-dose PET scan obtained by a conventional reconstruction method and a high-quality magnetic resonance image and learned to estimate a corresponding standard-dose PET scan reconstruction. We show that the proposed model generates high-quality posterior samples and yields physically-meaningful uncertainty estimates.
翻訳日:2023-06-09 18:24:28 公開日:2023-06-07
# U-PASS:自動睡眠停止のための不確実性誘導ディープラーニングパイプライン

U-PASS: an Uncertainty-guided deep learning Pipeline for Automated Sleep Staging ( http://arxiv.org/abs/2306.04663v1 )

ライセンス: Link先を確認
Elisabeth R. M. Heremans, Nabeel Seedat, Bertien Buyse, Dries Testelmans, Mihaela van der Schaar, Maarten De Vos(参考訳) 医療などの重要な分野で機械学習がますます普及するにつれて、機械学習システムの安全性と信頼性が最重要となる。 信頼性の重要な要素は不確実性を推定する能力であり、高い信頼性と低い信頼性の領域を識別でき、エラーのリスクを最小限に抑えるのに役立つ。 本研究では,データ取得,トレーニング,モデル展開を含むプロセスの各段階における不確実性推定を含む臨床応用に適した,U-PASSと呼ばれる機械学習パイプラインを提案する。 トレーニングプロセスは、教師付き事前訓練ステップと半教師付き微調整ステップとに分けられる。 不確実性に基づくディープラーニングパイプラインを睡眠ステージングの難しい問題に適用し,各ステージのパフォーマンスを体系的に向上させることを示す。 トレーニングデータセットを最適化し、積極的に情報的サンプルを求め、最も不確実なサンプルを専門家に延期することにより、高齢者睡眠時無呼吸患者の挑戦的臨床データセットに対して、専門家レベルの精度を85%向上させ、ベースライン精度を75%以上向上させた。 U-PASSは、機械学習パイプラインに不確実性推定を組み込むための有望なアプローチである。

As machine learning becomes increasingly prevalent in critical fields such as healthcare, ensuring the safety and reliability of machine learning systems becomes paramount. A key component of reliability is the ability to estimate uncertainty, which enables the identification of areas of high and low confidence and helps to minimize the risk of error. In this study, we propose a machine learning pipeline called U-PASS tailored for clinical applications that incorporates uncertainty estimation at every stage of the process, including data acquisition, training, and model deployment. The training process is divided into a supervised pre-training step and a semi-supervised finetuning step. We apply our uncertainty-guided deep learning pipeline to the challenging problem of sleep staging and demonstrate that it systematically improves performance at every stage. By optimizing the training dataset, actively seeking informative samples, and deferring the most uncertain samples to an expert, we achieve an expert-level accuracy of 85% on a challenging clinical dataset of elderly sleep apnea patients, representing a significant improvement over the baseline accuracy of 75%. U-PASS represents a promising approach to incorporating uncertainty estimation into machine learning pipelines, thereby improving their reliability and unlocking their potential in clinical settings.
翻訳日:2023-06-09 18:24:12 公開日:2023-06-07
# 生成AIによる場所識別の理解

Understanding Place Identity with Generative AI ( http://arxiv.org/abs/2306.04662v1 )

ライセンス: Link先を確認
Kee Moon Jang and Junda Chen and Yuhao Kang and Junghwan Kim and Jinhyung Lee and F\'abio Duarte(参考訳) 研究者たちは、人々が構築された環境をどのように認識するかを理解し、都市の集合的な場所アイデンティティを構築することを目標として、新しい形式のデータを常に活用している。 生成人工知能(AI)モデルの最近の進歩により、大量のデータから学んだ現実的な表現が作成できるようになった。 本研究では,フィルタ付き記述と画像で評価された都市の場所識別を捉える際に,テキスト情報や視覚情報源として生成aiの可能性をテストすることを目的とした。 私たちは、ChatGPTとDALL-E2という2つの生成AIモデルに対して、31のグローバルな都市の位置の同一性について質問した。 生成aiはその信頼性に関する倫理的懸念を提起してきたので、実際の都市環境に類似したパターンを示すかどうかを比較検討した。 特に、googleから検索されたテキストと画像の出力とwikipediaのデータを比較した。 以上の結果から, 生成型AIモデルは, 識別可能な都市の集合像を捉え得る可能性が示唆された。 この研究は、構築された環境の人間の知覚を理解するための生成aiの能力を探る最初の試みの1つです。 将来の研究機会と潜在的な限界について議論することで、都市デザイン文学に貢献する。

Researchers are constantly leveraging new forms of data with the goal of understanding how people perceive the built environment and build the collective place identity of cities. Latest advancements in generative artificial intelligence (AI) models have enabled the production of realistic representations learned from vast amounts of data. In this study, we aim to test the potential of generative AI as the source of textual and visual information in capturing the place identity of cities assessed by filtered descriptions and images. We asked questions on the place identity of a set of 31 global cities to two generative AI models, ChatGPT and DALL-E2. Since generative AI has raised ethical concerns regarding its trustworthiness, we performed cross-validation to examine whether the results show similar patterns to real urban settings. In particular, we compared the outputs with Wikipedia data for text and images searched from Google for image. Our results indicate that generative AI models have the potential to capture the collective image of cities that can make them distinguishable. This study is among the first attempts to explore the capabilities of generative AI in understanding human perceptions of the built environment. It contributes to urban design literature by discussing future research opportunities and potential limitations.
翻訳日:2023-06-09 18:23:48 公開日:2023-06-07
# ハイブリッドアクター・クリティカル強化学習に基づく適応周波数グリーンライト最適速度アドバイザ

Adaptive Frequency Green Light Optimal Speed Advisory based on Hybrid Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2306.04660v1 )

ライセンス: Link先を確認
Ming Xu, Dongyu Zuo(参考訳) green light optimal speed advisory (glosa) システムは、グリーンインターバルの間、交差点を通過する速度を車両に提案し、交差点での停止数とアイドル時間を最小限に抑えることにより、交通渋滞と燃料消費量を減らす。 しかし、従来の研究では、GLOSAアルゴリズムの最適化に重点を置いており、GLOSAシステムによる速度勧告の頻度を無視している。 具体的には、各決定ステップでスピードアドバイザリープロファイルを提供し、結果として冗長なアドバイザリーが得られ、一方、動的トラフィックに適応できない車両の最適な速度を1回だけ計算する研究もある。 本稿では,ハイブリッド・アクタ・ネットワークを用いたアクタ-クリティック・アーキテクチャを用いたh-ppo(hybrid proximal policy optimization)に基づく適応周波数glosa(af-glosa)モデルを提案する。 ハイブリッドアクターネットワークは、アドバイザリー周波数を出力する個別アクターと、加速度プロファイルを出力する連続アクターとから構成される。 さらに,移動効率と燃料消費の両方を考慮した新しい報酬関数を設計する。 AF-GLOSAモデルは, 従来のGLOSA法と学習に基づくGLOSA法と比較して, SUMOの信号機との3車線交点において, 3種類の交通密度で評価される。 その結果, AF-GLOSAモデルでは, 平均停止時間, 燃料消費量, CO2排出量を削減できることがわかった。

Green Light Optimal Speed Advisory (GLOSA) system suggests speeds to vehicles to assist them in passing through intersections during green intervals, thus reducing traffic congestion and fuel consumption by minimizing the number of stops and idle times at intersections. However, previous research has focused on optimizing the GLOSA algorithm, neglecting the frequency of speed advisory by the GLOSA system. Specifically, some studies provide speed advisory profile at each decision step, resulting in redundant advisory, while others calculate the optimal speed for the vehicle only once, which cannot adapt to dynamic traffic. In this paper, we propose an Adaptive Frequency GLOSA (AF-GLOSA) model based on Hybrid Proximal Policy Optimization (H-PPO), which employs an actor-critic architecture with a hybrid actor network. The hybrid actor network consists of a discrete actor that outputs advisory frequency and a continuous actor that outputs acceleration profiles. Additionally, we design a novel reward function that considers both travel efficiency and fuel consumption. The AF-GLOSA model is evaluated in comparison to traditional GLOSA and learning-based GLOSA methods in a three-lane intersection with a traffic signal in SUMO, under three different levels of traffic density. The results demonstrate that the AF-GLOSA model performs best in reducing average stop times, fuel consumption and CO2 emissions.
翻訳日:2023-06-09 18:23:30 公開日:2023-06-07
# 有機的相互作用から学ぶオープン言語モデルの改善

Improving Open Language Models by Learning from Organic Interactions ( http://arxiv.org/abs/2306.04707v1 )

ライセンス: Link先を確認
Jing Xu, Da Ju, Joshua Lane, Mojtaba Komeili, Eric Michael Smith, Megan Ung, Morteza Behrooz, William Ngan, Rashel Moritz, Sainbayar Sukhbaatar, Y-Lan Boureau, Jason Weston, Kurt Shuster(参考訳) 我々はBlenderBot 3xを紹介した。BlenderBot 3は会話モデルであるBlenderBot 3のアップデートであり、そのスキルと安全性の両方を改善するために、システムに参加するユーザのオーガニックな会話とフィードバックデータを用いて訓練されている。 我々は,さらなる進展を促すため,研究コミュニティが使用する非識別対話データを公開する。 有機データを使ったトレーニングモデルは、高品質な会話とフィードバックの両方に加えて、敵対的かつ有害な行動も含んでいるため、難しい。 我々は,モデルから無害あるいは有毒な反応に騙そうとする人々からの学習を回避しつつ,支援教師からの学習を可能にする技術を研究する。 BlenderBot 3xはどちらもBlenderBot 3との会話で好まれており、挑戦的な状況においてより安全なレスポンスを生成することが示されている。 現在のモデルはまだ完璧には程遠いが、この研究で探求されたテクニックを継続的に活用することでさらなる改善が達成できると考えている。

We present BlenderBot 3x, an update on the conversational model BlenderBot 3, which is now trained using organic conversation and feedback data from participating users of the system in order to improve both its skills and safety. We are publicly releasing the participating de-identified interaction data for use by the research community, in order to spur further progress. Training models with organic data is challenging because interactions with people "in the wild" include both high quality conversations and feedback, as well as adversarial and toxic behavior. We study techniques that enable learning from helpful teachers while avoiding learning from people who are trying to trick the model into unhelpful or toxic responses. BlenderBot 3x is both preferred in conversation to BlenderBot 3, and is shown to produce safer responses in challenging situations. While our current models are still far from perfect, we believe further improvement can be achieved by continued use of the techniques explored in this work.
翻訳日:2023-06-09 18:13:34 公開日:2023-06-07
# robust-defreg:グラフ畳み込みニューラルネットワークに基づく頑健な変形可能な点クラウド登録法

Robust-DefReg: A Robust Deformable Point Cloud Registration Method based on Graph Convolutional Neural Networks ( http://arxiv.org/abs/2306.04701v1 )

ライセンス: Link先を確認
Sara Monji-Azad, Marvin Kinz, J\"urgen Hesser(参考訳) ポイントクラウド登録は、対応するポイントセット間の変換を推定することを目的としたコンピュータビジョンにおける基本的な問題である。 特に、非剛性登録は、様々なレベルの変形、ノイズ、外れ値、データ不完全性といった課題に対処する。 本稿では,グラフ畳み込みネットワーク(gcnn)に基づくロバストな非剛性点クラウド登録手法であるロバストdefregを提案する。 Robust-DefRegはエンドツーエンドパイプライン内の粗大な登録アプローチであり、粗大なメソッドと細かなメソッドの両方の利点を活用する。 この方法はグローバル特徴を学習し、ソースとターゲットポイントクラウド間の対応を見つけ、適切な初期アライメントを可能にし、その後、詳細な登録を行う。 全ての課題にまたがる高い精度と堅牢性の同時達成は、既存の研究では報告されていないため、ロバスト・デフレグ法の重要な目的である。 提案手法は計算効率を保ちながら大変形の高精度化を実現する。 この手法には3つの主要な特性がある:高い精度、異なる課題に対する堅牢性、計算効率である。 実験結果から,ロバスト・デフレグは非剛点クラウド登録における今後の研究の基盤となるアーキテクチャとして大きな可能性を示唆している。 Robust-DefRegのソースコードが公開されている。

Point cloud registration is a fundamental problem in computer vision that aims to estimate the transformation between corresponding sets of points. Non-rigid registration, in particular, involves addressing challenges including various levels of deformation, noise, outliers, and data incompleteness. This paper introduces Robust-DefReg, a robust non-rigid point cloud registration method based on graph convolutional networks (GCNNs). Robust-DefReg is a coarse-to-fine registration approach within an end-to-end pipeline, leveraging the advantages of both coarse and fine methods. The method learns global features to find correspondences between source and target point clouds, to enable appropriate initial alignment, and subsequently fine registration. The simultaneous achievement of high accuracy and robustness across all challenges is reported less frequently in existing studies, making it a key objective of the Robust-DefReg method. The proposed method achieves high accuracy in large deformations while maintaining computational efficiency. This method possesses three primary attributes: high accuracy, robustness to different challenges, and computational efficiency. The experimental results show that the proposed Robust-DefReg holds significant potential as a foundational architecture for future investigations in non-rigid point cloud registration. The source code of Robust-DefReg is available.
翻訳日:2023-06-09 18:13:16 公開日:2023-06-07
# ニューラルテンプレート正規化による異なる視点からの3次元再構成

DiViNeT: 3D Reconstruction from Disparate Views via Neural Template Regularization ( http://arxiv.org/abs/2306.04699v1 )

ライセンス: Link先を確認
Aditya Vora, Akshay Gadi Patil, Hao Zhang(参考訳) 本稿では3つの異なるRGB画像を入力として用いたボリュームレンダリングに基づくニューラルサーフェス再構成手法を提案する。 我々のキーとなる考え方は、非常に悪用され、DiViNetと呼ばれる方法を残した再構築を2段階で行うことです。 第1段階では、3dのガウス関数の形でテンプレートを学習し、3dの監督なしで異なるシーンを横断する。 再構成段階では、予測テンプレートがアンカーとして機能し、スパース領域の表面の ``stitch' を支援する。 本手法は, 表面形状を完備するだけでなく, 若干の異なる入力視点から表面細部を合理的に再構成できることを実証する。 dtu と blendedmvs データセットでは,このようなスパースビューが存在する場合において,既存メソッドの最高の再構成品質を達成し,かつ,高精細ビューを入力として使用する場合の競合メソッドと同等に実行する。

We present a volume rendering-based neural surface reconstruction method that takes as few as three disparate RGB images as input. Our key idea is to regularize the reconstruction, which is severely ill-posed and leaving Our method, coined DiViNet, operates in two stages. The first stage learns the templates, in the form of 3D Gaussian functions, across different scenes, without 3D supervision. In the reconstruction stage, our predicted templates serve as anchors to help ``stitch'' the surfaces over sparse regions. We demonstrate that our approach is not only able to complete the surface geometry but also reconstructs surface details to a reasonable extent from few disparate input views. On the DTU and BlendedMVS datasets, our approach achieves the best reconstruction quality among existing methods in the presence of such sparse views, and performs on par, if not better, with competing methods when dense views are employed as inputs.
翻訳日:2023-06-09 18:12:54 公開日:2023-06-07
# ConceptBed:テキスト・画像拡散モデルの概念学習能力の評価

ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.04695v1 )

ライセンス: Link先を確認
Maitreya Patel and Tejas Gokhale and Chitta Baral and Yezhou Yang(参考訳) 視覚概念を理解し、これらの概念をイメージから複製し構成する能力は、コンピュータビジョンの中心的な目標である。 テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、画像の大規模データベースとその記述から学習することで、高定義と現実的な画像品質の生成につながっている。 しかし、T2Iモデルの評価は、光リアリズムと視覚的理解の質的な基準に重点を置いている。 新たな視覚概念の学習と合成におけるt2iモデルの能力を定量化するために,284のユニークな視覚概念,5kのユニークな概念構成,33kの複合テキストプロンプトからなる大規模データセットであるconceptbedを導入する。 そこで本研究では,T2Iジェネレータが生成した概念と,地上の真理画像に含まれる概念のアライメントを測定するために,オラクル概念分類器の信頼性を利用した評価指標である概念信頼度偏差(CCD)を提案する。 対象,属性,スタイルのいずれかである視覚的概念を評価し,構成性の4次元(計数,属性,関係,行動)を評価する。 我々の人間による研究は、CCDが概念に対する人間の理解と非常に相関していることを示している。 この結果から,既存のアプローチが克服に苦慮している概念の学習と構成性維持のトレードオフを指摘する。

The ability to understand visual concepts and replicate and compose these concepts from images is a central goal for computer vision. Recent advances in text-to-image (T2I) models have lead to high definition and realistic image quality generation by learning from large databases of images and their descriptions. However, the evaluation of T2I models has focused on photorealism and limited qualitative measures of visual understanding. To quantify the ability of T2I models in learning and synthesizing novel visual concepts, we introduce ConceptBed, a large-scale dataset that consists of 284 unique visual concepts, 5K unique concept compositions, and 33K composite text prompts. Along with the dataset, we propose an evaluation metric, Concept Confidence Deviation (CCD), that uses the confidence of oracle concept classifiers to measure the alignment between concepts generated by T2I generators and concepts contained in ground truth images. We evaluate visual concepts that are either objects, attributes, or styles, and also evaluate four dimensions of compositionality: counting, attributes, relations, and actions. Our human study shows that CCD is highly correlated with human understanding of concepts. Our results point to a trade-off between learning the concepts and preserving the compositionality which existing approaches struggle to overcome.
翻訳日:2023-06-09 18:12:33 公開日:2023-06-07
# ロバスト・最適宇宙解析のためのマルチスケール流れ

Multiscale Flow for Robust and Optimal Cosmological Analysis ( http://arxiv.org/abs/2306.04689v1 )

ライセンス: Link先を確認
Biwei Dai and Uros Seljak(参考訳) 弱レンズ化などの2次元宇宙データの場レベル確率をモデル化し,サンプルを生成する生成正規化フローであるMultiscale Flowを提案する。 マルチスケールフローはウェーブレットベースで宇宙場の階層的な分解を行い、次に異なるウェーブレット成分を正規化フローとしてモデル化する。 元の宇宙論場の対数様相は、各ウェーブレット項の対数様相を総和することで回復することができる。 この分解により、異なるスケールから情報を分離し、未知のスケール依存体系のようなデータ内の分布シフトを識別できる。 結果として生じる可能性分析は、これらの体系を識別できるだけでなく、マルチスケールフローが次元の減少を伴わずに現場で完全な可能性を学ぶことができるという意味で、最適にすることができる。 宇宙論的な推論のための弱レンズ化モックデータセットにマルチスケールフローを適用し、パワースペクトルやピーク数といった従来の要約統計と、散乱変換や畳み込みニューラルネットワークのような新しい機械学習に基づく要約統計を著しく上回ることを示す。 さらに,マルチスケールフローは,バリオン効果などのトレーニングデータにない分布変化を識別できることを示す。 最後に、マルチスケールフローを用いて、弱いレンズデータの現実的なサンプルを生成することを実証する。

We propose Multiscale Flow, a generative Normalizing Flow that creates samples and models the field-level likelihood of two-dimensional cosmological data such as weak lensing. Multiscale Flow uses hierarchical decomposition of cosmological fields via a wavelet basis, and then models different wavelet components separately as Normalizing Flows. The log-likelihood of the original cosmological field can be recovered by summing over the log-likelihood of each wavelet term. This decomposition allows us to separate the information from different scales and identify distribution shifts in the data such as unknown scale-dependent systematics. The resulting likelihood analysis can not only identify these types of systematics, but can also be made optimal, in the sense that the Multiscale Flow can learn the full likelihood at the field without any dimensionality reduction. We apply Multiscale Flow to weak lensing mock datasets for cosmological inference, and show that it significantly outperforms traditional summary statistics such as power spectrum and peak counts, as well as novel Machine Learning based summary statistics such as scattering transform and convolutional neural networks. We further show that Multiscale Flow is able to identify distribution shifts not in the training data such as baryonic effects. Finally, we demonstrate that Multiscale Flow can be used to generate realistic samples of weak lensing data.
翻訳日:2023-06-09 18:12:10 公開日:2023-06-07
# 相関初期状態を用いた可積分スピン鎖のチューナブル超拡散

Tunable superdiffusion in integrable spin chains using correlated initial states ( http://arxiv.org/abs/2306.04682v1 )

ライセンス: Link先を確認
Hansveer Singh, Michael H. Kolodrubetz, Sarang Gopalakrishnan and Romain Vasseur(参考訳) 可積分スピン鎖は弾道的に伝播する粒子のみをホストするが、それでも拡散スピン輸送を特徴付けることができる。 この拡散スピン輸送は、初期状態の磁化ガウスゆらぎから受け継いだ準粒子電荷ゆらぎに由来する。 準長距離相関を持つ初期状態のアンサンブルが、チューニング可能な動的指数を持つ超拡散スピン輸送をもたらすことを示す。 数値シミュレーションで予測を実証し,有限時間および有限サイズ効果から偏差がどのように生じるかを説明する。

Although integrable spin chains only host ballistically propagating particles they can still feature diffusive spin transport. This diffusive spin transport originates from quasiparticle charge fluctuations inherited from the initial state's magnetization Gaussian fluctuations. We show that ensembles of initial states with quasi-long range correlations lead to superdiffusive spin transport with a tunable dynamical exponent. We substantiate our prediction with numerical simulations and explain how deviations arise from finite time and finite size effects.
翻訳日:2023-06-09 18:11:48 公開日:2023-06-07
# 修正量子回帰定理とKubo-Martin-Schwinger条件との整合性

Modified quantum regression theorem and consistency with Kubo-Martin-Schwinger condition ( http://arxiv.org/abs/2306.04677v1 )

ライセンス: Link先を確認
Sakil Khan, Bijay Kumar Agarwalla, and Sachin Jain(参考訳) オープン量子システムにおける相関関数を計算する標準的なツールである標準量子回帰定理により得られた2点相関関数の長い時間限界は、クボ=マルティン=シュウィンガー平衡条件を系-バスカップリングの非ゼロ次数に従わないことを示した。 次に、最近開発された開量子系に対するハイゼンベルク作用素法および '`{\it weak}" マルコフ近似を適用することにより、KMS条件を尊重するだけでなく、特定の極限における特定のパラダイムモデルに対する正確な解を予測できる新しい量子回帰定理を導出する。 また、修正された量子回帰定理が正確な解と一致しない場合、標準量子回帰定理よりも常によく機能することを示した。

We show that the long-time limit of the two-point correlation function obtained via the standard quantum regression theorem, a standard tool to compute correlation functions in open quantum systems, does not respect the Kubo-Martin-Schwinger equilibrium condition to the non-zero order of the system-bath coupling. We then follow the recently developed Heisenberg operator method for open quantum systems and by applying a ``{\it weak}" Markov approximation, derive a new modified version of the quantum regression theorem that not only respects the KMS condition but further predicts exact answers for certain paradigmatic models in specific limits. We also show that in cases where the modified quantum regression theorem does not match with exact answers, it always performs better than the standard quantum regression theorem.
翻訳日:2023-06-09 18:11:41 公開日:2023-06-07
# 生成モデル評価指標の欠陥の暴露と拡散モデルの不公平な処理

Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models ( http://arxiv.org/abs/2306.04675v1 )

ライセンス: Link先を確認
George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T. Taylor, Gabriel Loaiza-Ganem(参考訳) 本研究では,多種多様なデータセットにまたがる多種多様な画像ベース生成モデルを体系的に研究し,特徴抽出器と評価指標の理解と改良を行う。 心理物理学におけるベストプラクティスを用いて、生成標本に対する人間のイメージリアリズムの知覚を計測し、これまでで最大の生成モデル評価実験を行い、既存の測定基準が人間の評価と強く相関しないことを見出した。 生成モデルの全体的な性能,忠実度,多様性,記憶度を評価するための16の現代的な指標と比較して,人間の判断による拡散モデルの最先端の知覚的現実性は,FIDなどの一般的に報告されている指標に反映されない。 この相違は生成標本の多様性によって説明されないが、一つの原因はインセプションV3への過剰依存である。 これらの欠陥に対処するために,個別のネットワークで符号化された意味情報がトレーニング手順に強く依存していることを発見し,DINOv2-ViT-L/14が生成モデルのよりリッチな評価を可能にすることを示す。 次に,生成モデルがcifar10のような単純で小さなデータセットのトレーニング例を記憶しているが,imagenetのような複雑なデータセットでは必ずしもそうではないことを示す。 しかし,本実験では,現在の計測値が正しく記憶を検出できないこと,不適合やモード縮小といった他の現象と記憶を区別できないこと,などが示されている。 生成モデルのさらなる開発と評価を容易にするため、生成した画像データセット、人体評価データ、モジュールライブラリをリリースし、https://github.com/layer6ai-labs/dgm-evalで8種類のエンコーダに対して16の共通メトリクスを計算する。

We systematically study a wide variety of image-based generative models spanning semantically-diverse datasets to understand and improve the feature extractors and metrics used to evaluate them. Using best practices in psychophysics, we measure human perception of image realism for generated samples by conducting the largest experiment evaluating generative models to date, and find that no existing metric strongly correlates with human evaluations. Comparing to 16 modern metrics for evaluating the overall performance, fidelity, diversity, and memorization of generative models, we find that the state-of-the-art perceptual realism of diffusion models as judged by humans is not reflected in commonly reported metrics such as FID. This discrepancy is not explained by diversity in generated samples, though one cause is over-reliance on Inception-V3. We address these flaws through a study of alternative self-supervised feature extractors, find that the semantic information encoded by individual networks strongly depends on their training procedure, and show that DINOv2-ViT-L/14 allows for much richer evaluation of generative models. Next, we investigate data memorization, and find that generative models do memorize training examples on simple, smaller datasets like CIFAR10, but not necessarily on more complex datasets like ImageNet. However, our experiments show that current metrics do not properly detect memorization; none in the literature is able to separate memorization from other phenomena such as underfitting or mode shrinkage. To facilitate further development of generative models and their evaluation we release all generated image datasets, human evaluation data, and a modular library to compute 16 common metrics for 8 different encoders at https://github.com/layer6ai-labs/dgm-eval.
翻訳日:2023-06-09 18:11:25 公開日:2023-06-07
# トランスフォーマーを用いた2次元物体検出

2D Object Detection with Transformers: A Review ( http://arxiv.org/abs/2306.04670v1 )

ライセンス: Link先を確認
Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker and Muhammad Zeshan Afzal(参考訳) 自然言語処理(NLP)におけるトランスフォーマーの性能向上は、コンピュータビジョンタスクにおけるその利用について研究者を喜ばせている。 他のコンピュータビジョンタスクと同様に、Detection TRansformer (DETR) は、提案生成と後処理のステップを必要とせず、セット予測問題として検出を考慮し、オブジェクト検出タスクのためのトランスフォーマーを導入している。 これは、特に画像中のオブジェクトの数が比較的小さいシナリオにおいて、オブジェクト検出のための最先端(SOTA)メソッドである。 DETRの成功にもかかわらず、訓練の収束が遅くなり、小さなオブジェクトのパフォーマンスが低下する。 したがって、これらの問題に対処するために多くの改良が提案され、DETRの大幅な改良につながった。 2020年以降、トランスフォーマーによる物体検出が注目され、目覚ましい性能を見せている。 視覚におけるトランスフォーマーに関する調査は数多く行われているが、トランスフォーマーを用いた2次元物体検出の進歩に関するレビューはいまだに欠けている。 本稿では,DeTRの最近の進展について,21の論文を詳述する。 まず、自己アテンション、オブジェクトクエリ、入力機能エンコーディングといったトランスフォーマーの基本モジュールから始めます。 次に、バックボーン修正、クエリ設計、アテンション改善など、DETRの最近の進歩について紹介する。 また、全ての検出トランスを性能とネットワーク設計の観点から比較する。 本研究は,オブジェクト検出領域におけるトランスフォーマーの適用に向けた既存の課題の解決に対する研究者の関心を高めることを願っている。 研究者は、このWebページで、新しい検出トランスフォーマーの改善に従うことができる。

Astounding performance of Transformers in natural language processing (NLP) has delighted researchers to explore their utilization in computer vision tasks. Like other computer vision tasks, DEtection TRansformer (DETR) introduces transformers for object detection tasks by considering the detection as a set prediction problem without needing proposal generation and post-processing steps. It is a state-of-the-art (SOTA) method for object detection, particularly in scenarios where the number of objects in an image is relatively small. Despite the success of DETR, it suffers from slow training convergence and performance drops for small objects. Therefore, many improvements are proposed to address these issues, leading to immense refinement in DETR. Since 2020, transformer-based object detection has attracted increasing interest and demonstrated impressive performance. Although numerous surveys have been conducted on transformers in vision in general, a review regarding advancements made in 2D object detection using transformers is still missing. This paper gives a detailed review of twenty-one papers about recent developments in DETR. We begin with the basic modules of Transformers, such as self-attention, object queries and input features encoding. Then, we cover the latest advancements in DETR, including backbone modification, query design and attention refinement. We also compare all detection transformers in terms of performance and network design. We hope this study will increase the researcher's interest in solving existing challenges towards applying transformers in the object detection domain. Researchers can follow newer improvements in detection transformers on this webpage available at: https://github.com/mindgarage-shan/trans_object_detection_survey
翻訳日:2023-06-09 18:10:49 公開日:2023-06-07
# SMRVIS:非破壊検査のための3次元超音波からの点雲抽出

SMRVIS: Point cloud extraction from 3-D ultrasound for non-destructive testing ( http://arxiv.org/abs/2306.04668v1 )

ライセンス: Link先を確認
Lisa Y.W. Tang(参考訳) 画像分割問題として超音波ボリュームからの点雲抽出法を提案する。 この便利な定式化を通じて、U-Netアーキテクチャの様々な変種を探索する簡単なプロトタイプを開発し、評価した。 本報告では,「超音波画像解析における深層学習」と題する公開課題への挑戦の一環として,5個のラベル付き超音波ボリュームと84個の未ラベルボリュームのトレーニングデータセットを用いた実験結果について報告する。 ソースコードは、GitHub URL \url{https://github.com/lisatwyw/smrvis}で研究コミュニティと共有されている。

We propose to formulate point cloud extraction from ultrasound volumes as an image segmentation problem. Through this convenient formulation, a quick prototype exploring various variants of the U-Net architecture was developed and evaluated. This report documents the experimental results compiled using a training dataset of 5 labelled ultrasound volumes and 84 unlabelled volumes that got completed in a two-week period as part of a challenge submission to an open challenge entitled ``Deep Learning in Ultrasound Image Analysis''. Source code is shared with the research community at this GitHub URL \url{https://github.com/lisatwyw/smrvis}.
翻訳日:2023-06-09 18:10:15 公開日:2023-06-07
# 自由フェルミオン分布は学ぶのが難しい

Free Fermion Distributions Are Hard to Learn ( http://arxiv.org/abs/2306.04731v1 )

ライセンス: Link先を確認
Alexander Nietner(参考訳) 自由フェルミオンは最もよく研究されている量子系である。 しかし、自由フェルミオン分布の学習の複雑さについてはほとんど分かっていない。 本研究では, 粒子数非保存の場合において, このタスクの硬さを確立する。 特に,期待値から学習する一般的なタスクに対して情報理論的硬度結果を与えるとともに,アルゴリズムがサンプルへのアクセスを与えられた場合,確率密度関数を学習するためのLPN仮定に基づく計算硬度結果を与える。

Free fermions are some of the best studied quantum systems. However, little is known about the complexity of learning free-fermion distributions. In this work we establish the hardness of this task in the particle number non-preserving case. In particular, we give an information theoretical hardness result for the general task of learning from expectation values and, in the more general case when the algorithm is given access to samples, we give a computational hardness result based on the LPN assumption for learning the probability density function.
翻訳日:2023-06-09 18:04:11 公開日:2023-06-07
# 確率的自然閾値アルゴリズム

Stochastic Natural Thresholding Algorithms ( http://arxiv.org/abs/2306.04730v1 )

ライセンス: Link先を確認
Rachel Grotheer, Shuang Li, Anna Ma, Deanna Needell, and Jing Qin(参考訳) スパース信号の回復は、医療画像やリモートセンシングなど、様々な応用における最も基本的な問題の1つである。 シャープ信号回復問題を解くために、ハードしきい値演算子の族に基づく多くのグリーディアルゴリズムを開発した。 最近では、計算効率を向上したNatural Thresholding (NT) が提案されている。 本稿では,線形測度で決定論的バージョンから一般目的関数で確率的バージョンまでNTを拡張することにより,確率的自然しきい値アルゴリズムの収束保証を提案する。 また,santの性能を示すために,線形および非線形測定に関する様々な数値実験を行った。

Sparse signal recovery is one of the most fundamental problems in various applications, including medical imaging and remote sensing. Many greedy algorithms based on the family of hard thresholding operators have been developed to solve the sparse signal recovery problem. More recently, Natural Thresholding (NT) has been proposed with improved computational efficiency. This paper proposes and discusses convergence guarantees for stochastic natural thresholding algorithms by extending the NT from the deterministic version with linear measurements to the stochastic version with a general objective function. We also conduct various numerical experiments on linear and nonlinear measurements to demonstrate the performance of StoNT.
翻訳日:2023-06-09 18:04:02 公開日:2023-06-07
# Prompter: 対話状態追跡ドメイン適応のためのゼロショット適応プレフィックス

Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation ( http://arxiv.org/abs/2306.04724v1 )

ライセンス: Link先を確認
Taha Aksu, Min-Yen Kan, Nancy F. Chen(参考訳) 対話状態追跡(DST)分野における課題は、教師付きデータ、ゼロショットドメイン適応を使わずにモデルを新しいドメインに適応させることである。 パラメータ効率変換学習(PETL)はその堅牢性からこの問題に対処する可能性がある。 しかしながら、ゼロショットシナリオにはまだ適用されていない。 提案手法であるPrompterでは,各レイヤの自己保持機構のキーと値に結合した動的プレフィックスを生成するために,ターゲットドメインスロットの記述を用いる。 これにより、ゼロショットでプレフィックスチューニングを使用できる。 Prompterは、MultiWOZベンチマークとSGDベンチマークの両方で、以前の方法より優れている。 分析の結果,prompterはスロット記述のセマンティクスを利用するだけでなく,会話中にスロットがどれだけ頻繁に現れるかが分かる。 さらに、プロンプターの利得は、ベースラインと比較して「無」値の対話スロットを区別する能力の改善による。

A challenge in the Dialogue State Tracking (DST) field is adapting models to new domains without using any supervised data, zero-shot domain adaptation. Parameter-Efficient Transfer Learning (PETL) has the potential to address this problem due to its robustness. However, it has yet to be applied to the zero-shot scenarios, as it is not clear how to apply it unsupervisedly. Our method, Prompter, uses descriptions of target domain slots to generate dynamic prefixes that are concatenated to the key and values at each layer's self-attention mechanism. This allows for the use of prefix-tuning in zero-shot. Prompter outperforms previous methods on both the MultiWOZ and SGD benchmarks. In generating prefixes, our analyses find that Prompter not only utilizes the semantics of slot descriptions but also how often the slots appear together in conversation. Moreover, Prompter's gains are due to its improved ability to distinguish "none"-valued dialogue slots, compared against baselines.
翻訳日:2023-06-09 18:03:53 公開日:2023-06-07
# AI生成テキストのロバスト検出のための固有次元推定

Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts ( http://arxiv.org/abs/2306.04723v1 )

ライセンス: Link先を確認
Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko and Evgeny Burnaev(参考訳) AIが生成するコンテンツの品質が急速に向上したことで、人間とAIが生成するテキストの区別が難しくなる。 そのため, テキスト領域に不変な人文の性質や, 多様な人文の習熟度などを調べることがますます重要になり, どのような言語でも容易に計算でき, 生成モデルやサンプリング手法によらず, 自然テキストとAI生成テキストを頑健に分離することができる。 本研究では,人間のテキストの不変性,すなわち与えられたテキストサンプルの埋め込みの集合の根底にある多様体の内在的次元性を提案する。 自然言語における流用テキストの平均固有次元は、いくつかのアルファベットベースの言語で9ドル、中国語で7ドル前後で推移しているのに対し、各言語でAI生成テキストが生成する固有次元の平均固有次元は、人為的な分布とAI生成された分布とを明確に区別して$\approx 1.5$以下である。 この特性により、スコアベースの人工テキスト検出器を構築することができる。 提案する検出器の精度は,テキスト領域,ジェネレータモデル,ヒューマンライター熟練度レベルにおいて安定であり,モデル非依存およびクロスドメインシナリオにおいてsoma検出器を有意差で上回っている。

Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it becomes increasingly important to study the properties of human texts that are invariant over text domains and various proficiency of human writers, can be easily calculated for any language, and can robustly separate natural and AI-generated texts regardless of the generation model and sampling method. In this work, we propose such an invariant of human texts, namely the intrinsic dimensionality of the manifold underlying the set of embeddings of a given text sample. We show that the average intrinsic dimensionality of fluent texts in natural language is hovering around the value $9$ for several alphabet-based languages and around $7$ for Chinese, while the average intrinsic dimensionality of AI-generated texts for each language is $\approx 1.5$ lower, with a clear statistical separation between human-generated and AI-generated distributions. This property allows us to build a score-based artificial text detector. The proposed detector's accuracy is stable over text domains, generator models, and human writer proficiency levels, outperforming SOTA detectors in model-agnostic and cross-domain scenarios by a significant margin.
翻訳日:2023-06-09 18:03:36 公開日:2023-06-07
# 視線を信じないで - 機能の可視化の信頼性について

Don't trust your eyes: on the (un)reliability of feature visualizations ( http://arxiv.org/abs/2306.04719v1 )

ライセンス: Link先を確認
Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau, Wieland Brendel, Been Kim(参考訳) ニューラルネットワークはどのようにピクセルからパターンを抽出するか? 機能の可視化は、最適化によって非常に活性化したパターンを視覚化することで、この重要な質問に答えようとしている。 今日、可視化手法は、機械的な解釈可能性の一種として、ニューラルネットワークの内部動作に関する我々の知識の基礎を形成している。 機能可視化はどの程度信頼できるのか? 我々は,自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために,特徴可視化を騙すネットワーク回路の開発に着手する。 特徴視覚化は標準入力とは全く異なる処理を受けており、ニューラルネットワークが自然言語をどのように処理するかを「説明」する能力に疑問を呈している。 特徴視覚化によって確実に理解できる関数の集合は極めて小さく、一般的なブラックボックスニューラルネットワークを含まないことを証明した理論によるこの経験的発見を裏付ける。 そのため、より信頼性の高い特徴視覚化を実現するために、特定の構造を強制するネットワークの開発が期待できる。

How do neural networks extract patterns from pixels? Feature visualizations attempt to answer this important question by visualizing highly activating patterns through optimization. Today, visualization methods form the foundation of our knowledge about the internal workings of neural networks, as a type of mechanistic interpretability. Here we ask: How reliable are feature visualizations? We start our investigation by developing network circuits that trick feature visualizations into showing arbitrary patterns that are completely disconnected from normal network behavior on natural input. We then provide evidence for a similar phenomenon occurring in standard, unmanipulated networks: feature visualizations are processed very differently from standard input, casting doubt on their ability to "explain" how neural networks process natural images. We underpin this empirical finding by theory proving that the set of functions that can be reliably understood by feature visualization is extremely small and does not include general black-box neural networks. Therefore, a promising way forward could be the development of networks that enforce certain structures in order to ensure more reliable feature visualizations.
翻訳日:2023-06-09 18:03:09 公開日:2023-06-07
# 制御変数を用いたニューラルシンボリック回帰

Neural Symbolic Regression using Control Variables ( http://arxiv.org/abs/2306.04718v1 )

ライセンス: Link先を確認
Xieting Chu, Hongjue Zhao, Enze Xu, Hairong Qi, Minghan Chen, Huajie Shao(参考訳) シンボリック回帰(SR)は、データから解析数学的表現を発見するための強力な手法であり、結果の良好な解釈可能性から自然科学の様々な応用を見出す。 しかし、複数の変数を含む複雑な方程式を扱う場合、既存の手法はスケーラビリティの問題に直面している。 そこで本研究では,制御変数を利用して精度とスケーラビリティの両立を図るニューラルシンボリック回帰法であるsrcvを提案する。 中心となる考え方は、多変数のシンボリック回帰を単変数のSR問題の集合に分解し、ボトムアップ的に組み合わせることである。 提案手法は4段階のプロセスを含む。 まず,深層ニューラルネットワーク(dnn)を用いて観測データからデータ生成法を学習する。 次に、データジェネレータを使用して、入力変数を制御することにより、ある変数のサンプルを生成する。 第三に、対応する数学的表現を推定するために単変量記号回帰が適用される。 最後に、ステップ2とステップ3を繰り返して、完了まで段階的に変数を1つずつ追加します。 複数のベンチマークデータセットにおいて,本手法の性能を評価する。 実験結果から,SRCVは複数の変数を持つ数学的表現の発見において,最先端のベースラインを著しく上回ることがわかった。 さらに、記号回帰の探索空間を実質的に減少させることができる。 ソースコードは公開時には公開される予定だ。

Symbolic regression (SR) is a powerful technique for discovering the analytical mathematical expression from data, finding various applications in natural sciences due to its good interpretability of results. However, existing methods face scalability issues when dealing with complex equations involving multiple variables. To address this challenge, we propose SRCV, a novel neural symbolic regression method that leverages control variables to enhance both accuracy and scalability. The core idea is to decompose multi-variable symbolic regression into a set of single-variable SR problems, which are then combined in a bottom-up manner. The proposed method involves a four-step process. First, we learn a data generator from observed data using deep neural networks (DNNs). Second, the data generator is used to generate samples for a certain variable by controlling the input variables. Thirdly, single-variable symbolic regression is applied to estimate the corresponding mathematical expression. Lastly, we repeat steps 2 and 3 by gradually adding variables one by one until completion. We evaluate the performance of our method on multiple benchmark datasets. Experimental results demonstrate that the proposed SRCV significantly outperforms state-of-the-art baselines in discovering mathematical expressions with multiple variables. Moreover, it can substantially reduce the search space for symbolic regression. The source code will be made publicly available upon publication.
翻訳日:2023-06-09 18:02:52 公開日:2023-06-07
# AGIQA-3K:AI生成画像品質評価のためのオープンデータベース

AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2306.04717v1 )

ライセンス: Link先を確認
Chunyi Li, Zicheng Zhang, Haoning Wu, Wei Sun, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin(参考訳) テキスト画像生成モデルの急速な進歩により、AI生成画像(AGI)はエンターテイメント、教育、ソーシャルメディアなどに広く応用されている。 しかし,agi間の品質のばらつきが大きいことから,人間の主観的評価と整合する品質モデルの必要性が急務である。 この問題に対処するために、様々な人気AGIモデル、異なるプロンプトとモデルパラメータを通してAGIを生成し、知覚的品質とテキスト-画像アライメントの主観的スコアを収集し、これまでで最も包括的なAGI主観的品質データベースAGIQA-3Kを構築した。 さらに,本データベース上で,現在の画質評価モデル(iqa)と人間の知覚との一貫性を評価するためのベンチマーク実験を行い,主観的テキスト対画像アライメントの評価性能を著しく向上する階段方向を提案する。 我々は、AGIQA-3Kの微粒な主観的スコアがその後のAGI品質モデルに刺激を与え、人間の主観的知覚機構を知覚レベルとアライメントレベルの両方に適合させ、将来のAGIモデルの生成結果を最適化すると考えている。 データベースは \url{https://github.com/lcysyzxdxc/AGIQA-3k-Database} でリリースされる。

With the rapid advancements of the text-to-image generative model, AI-generated images (AGIs) have been widely applied to entertainment, education, social media, etc. However, considering the large quality variance among different AGIs, there is an urgent need for quality models that are consistent with human subjective ratings. To address this issue, we extensively consider various popular AGI models, generated AGI through different prompts and model parameters, and collected subjective scores at the perceptual quality and text-to-image alignment, thus building the most comprehensive AGI subjective quality database AGIQA-3K so far. Furthermore, we conduct a benchmark experiment on this database to evaluate the consistency between the current Image Quality Assessment (IQA) model and human perception, while proposing StairReward that significantly improves the assessment performance of subjective text-to-image alignment. We believe that the fine-grained subjective scores in AGIQA-3K will inspire subsequent AGI quality models to fit human subjective perception mechanisms at both perception and alignment levels and to optimize the generation result of future AGI models. The database is released on \url{https://github.com/lcysyzxdxc/AGIQA-3k-Database}.
翻訳日:2023-06-09 18:02:34 公開日:2023-06-07
# UniBoost: ゼロショットビジョンランゲージタスクの強化のための教師なしユニモーダル事前トレーニング

UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot Vision-Language Tasks ( http://arxiv.org/abs/2306.04715v1 )

ライセンス: Link先を確認
Yanan Sun and Zihan Zhong and Qi Fan and Chi-Keung Tang and Yu-Wing Tai(参考訳) マルチモーダルモデルの大規模共同訓練(例えばCLIP)は多くの視覚言語タスクにおいて優れた性能を示した。 しかし、事前学習のための画像テキストペアは画像とテキストの交点に限定されており、実際のデータの大規模な分布をカバーする能力は制限されている。 逆に、教師なしの手法でテキストや画像データだけで訓練されたユニモーダルモデルは、多様な実世界のデータの広範なカバレッジを達成でき、画像とテキストの同時存在を要求されない。 本稿では,事前学習として大規模非教師なしユニモーダルモデルを用いることにより,画像テキストペアモデルのゼロショット性能を向上させることを実証する。 我々の徹底的な研究は、事前訓練されたモデルが両方のモダリティの豊かな表現を学習し、画像とテキストが相互にどのように関連しているかを理解する能力を向上させることを検証する。 実験の結果, PASCAL-5$^i$と6.2%(27.2%$\rightarrow$ 33.4%)で, COCO-20$^i$セマンティックセマンティックセグメンテーションでそれぞれ6.5%(52.3%$\rightarrow$58.8%)を達成できた。 両方のモダリティの表現を学習することで、ユニモーダル事前学習はより広範なカバレッジを提供し、修正ミスを減らし、現実世界のデータにおけるより複雑な特徴やパターンをキャプチャし、特にゼロショットビジョン言語タスクのパフォーマンスを向上させることができる。

Large-scale joint training of multimodal models, e.g., CLIP, have demonstrated great performance in many vision-language tasks. However, image-text pairs for pre-training are restricted to the intersection of images and texts, limiting their ability to cover a large distribution of real-world data, where noise can also be introduced as misaligned pairs during pre-processing. Conversely, unimodal models trained on text or image data alone through unsupervised techniques can achieve broader coverage of diverse real-world data and are not constrained by the requirement of simultaneous presence of image and text. In this paper, we demonstrate that using large-scale unsupervised unimodal models as pre-training can enhance the zero-shot performance of image-text pair models. Our thorough studies validate that models pre-trained as such can learn rich representations of both modalities, improving their ability to understand how images and text relate to each other. Our experiments show that unimodal pre-training outperforms state-of-the-art CLIP-based models by 6.5% (52.3% $\rightarrow$ 58.8%) on PASCAL-5$^i$ and 6.2% (27.2% $\rightarrow$ 33.4%) on COCO-20$^i$ semantic segmentation under zero-shot setting respectively. By learning representations of both modalities, unimodal pre-training offers broader coverage, reduced misalignment errors, and the ability to capture more complex features and patterns in the real-world data resulting in better performance especially for zero-shot vision-language tasks.
翻訳日:2023-06-09 18:02:08 公開日:2023-06-07
# 高輝度LHCにおけるデータ圧縮のための地球モーバー距離の微分

Differentiable Earth Mover's Distance for Data Compression at the High-Luminosity LHC ( http://arxiv.org/abs/2306.04712v1 )

ライセンス: Link先を確認
Rohan Shenoy and Javier Duarte and Christian Herwig and James Hirschauer and Daniel Noonan and Maurizio Pierini and Nhan Tran and Cristina Mantilla Suarez(参考訳) 地球移動器距離(Earth mover's distance、EMD)は画像認識と分類に有用な指標であるが、通常の実装は微分可能ではなく、勾配降下による他のアルゴリズムを訓練するための損失関数として使うには遅すぎる。 本稿では,畳み込みニューラルネットワーク(CNN)を用いて,EMDの微分可能かつ高速な近似を学習し,計算集約型EMD実装の代替として使用できることを示す。 この微分可能な近似を、cernの高輝度lhcにおけるデータ圧縮のためのautoencoder-inspired neural network(encoder nn)のトレーニングに適用する。 このエンコーダNNの目標は、粒子検出器内のエネルギー蓄積の分布に関する情報を保存しながらデータを圧縮することである。 EMD CNNを用いて訓練したエンコーダNNの性能が平均二乗誤差に基づく損失関数付きトレーニングよりも優れていることを示す。

The Earth mover's distance (EMD) is a useful metric for image recognition and classification, but its usual implementations are not differentiable or too slow to be used as a loss function for training other algorithms via gradient descent. In this paper, we train a convolutional neural network (CNN) to learn a differentiable, fast approximation of the EMD and demonstrate that it can be used as a substitute for computing-intensive EMD implementations. We apply this differentiable approximation in the training of an autoencoder-inspired neural network (encoder NN) for data compression at the high-luminosity LHC at CERN. The goal of this encoder NN is to compress the data while preserving the information related to the distribution of energy deposits in particle detectors. We demonstrate that the performance of our encoder NN trained using the differentiable EMD CNN surpasses that of training with loss functions based on mean squared error.
翻訳日:2023-06-09 18:01:28 公開日:2023-06-07
# ペアワイズフレーム評価によるデジタル病理モデルの統計的ベンチマークの改善

Improved statistical benchmarking of digital pathology models using pairwise frames evaluation ( http://arxiv.org/abs/2306.04709v1 )

ライセンス: Link先を確認
Ylaine Gerardin, John Shamshoian, Judy Shen, Nhat Le, Jamie Prezioso, John Abel, Isaac Finberg, Daniel Borders, Raymond Biju, Michael Nercessian, Vaed Prasad, Joseph Lee, Spencer Wyman, Sid Gupta, Abigail Emerson, Bahar Rahsepar, Darpan Sanghavi, Ryan Leung, Limin Yu, Archit Khosla, Amaro Taylor-Weiner(参考訳) ネステッドペアワイズフレーム(Nested pairwise frames)は、サンプルパッチのセット上の手動の病理医アノテーションに対して、細胞または組織のデジタル病理モデルの相対的なベンチマークを行う方法である。 高レベルでは、候補モデルと病理医のアノテーションの一致と、病理医のアノテーション間の一致を比較する。 この評価フレームワークは、手動の病理医アノテーションをモデル検証の基礎的真理の源として利用する際の、データサイズとアノテーションの変動に関する基本的な問題に対処する。 組織分類,細胞分類,細胞数予測タスクのためのネストペアワイズフレームの評価を行い,h&eで維持されたメラノーマデータセットにデプロイされた細胞および組織モデルの結果を示す。

Nested pairwise frames is a method for relative benchmarking of cell or tissue digital pathology models against manual pathologist annotations on a set of sampled patches. At a high level, the method compares agreement between a candidate model and pathologist annotations with agreement among pathologists' annotations. This evaluation framework addresses fundamental issues of data size and annotator variability in using manual pathologist annotations as a source of ground truth for model validation. We implemented nested pairwise frames evaluation for tissue classification, cell classification, and cell count prediction tasks and show results for cell and tissue models deployed on an H&E-stained melanoma dataset.
翻訳日:2023-06-09 18:01:13 公開日:2023-06-07
# 機械学習によるパーキンソン病のサブタイプと進展の解析, 同定および予測

Analysis, Identification and Prediction of Parkinson's disease sub-types and progression through Machine Learning ( http://arxiv.org/abs/2306.04748v1 )

ライセンス: Link先を確認
Ashwin Ram(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、様々な患者の軌跡を持つ神経変性疾患であるが、根本原因や症状の進行についてはほとんど理解されていない。 パーキンソンの進歩マーカーイニシアチブ(PPMI)は、多様な患者コホートから包括的な縦断データを収集し、バイオマーカーを特定し、介入の進展を支援する。 PPMIデータベースを用いた110以上の機械学習研究にもかかわらず、大多数は診断予測のための教師付きモデルに焦点を当てており、これは患者の多様性と進行の理解に限られている。 本稿では,パーキンソン病の進行を正確に予測するサブタイプを特定するために,教師付きと教師なしの機械学習手法を組み合わせることで,このギャップに対処する。 これまでの研究に基づいて,プログレッシブ・パーキンソンズ・マーカーズ・イニシアチブ(ppmi)データベースから得られた5年間の縦断データを用いて,教師なし患者のクラスタリングと現在および将来の症状の予測を統合し,研究を再現・拡張した。 本研究は, 患者の不均一性, パーソナライズされた介入の可能性について, 基礎疾患の軌跡と症状の正確な予測を行った。 教師付きモデルと教師なしモデルの統合は、潜在部分群を明らかにする有望な道を示し、パーキンソン病の進行の複雑さを理解する。

Parkinson's disease (PD) is a prevalent neurodegenerative disorder with varying patient trajectories, yet little is understood about the underlying causes and symptom progression. The Parkinson's Progression Markers Initiative (PPMI) has collected comprehensive longitudinal data from diverse patient cohorts to identify biomarkers and aid in the development of interventions. Despite over 110 machine learning studies using the PPMI database, the majority have focused on supervised models for diagnosis prediction, which has limited impact on understanding patient variability and progression. This paper addresses this gap by combining supervised and unsupervised machine learning methods to identify subtypes that accurately predict disease progression in Parkinson's patients. Building upon previous work, we replicate and extend the study by integrating unsupervised patient clustering and prediction of present and future symptoms using 5 additional years of longitudinal data from the Progressive Parkinson's Markers Initiative (PPMI) database. Our findings demonstrate accurate prediction of disease trajectories and symptoms at baseline, offering valuable insights into patient heterogeneity and the potential for personalized interventions. The integration of supervised and unsupervised models presents a promising avenue for uncovering latent subgroups and understanding the complexity of Parkinson's disease progression.
翻訳日:2023-06-09 17:53:12 公開日:2023-06-07
# 社会科学における下流統計的推論のための大規模言語モデルアノテーションの利用:設計に基づく半教師付き学習

Using Large Language Model Annotations for Valid Downstream Statistical Inference in Social Science: Design-Based Semi-Supervised Learning ( http://arxiv.org/abs/2306.04746v1 )

ライセンス: Link先を確認
Naoki Egami, Musashi Jacobs-Harukawa, Brandon M. Stewart, Hanying Wei(参考訳) 計算社会科学(css)では、研究者は文書を分析して社会・政治現象を説明する。 多くのシナリオでは、CSS研究者がまずドキュメントのラベルを取得し、2番目のステップで解釈可能な回帰分析を使用してラベルを説明する。 大規模言語モデル(LLM)の最近の進歩は、文書を安価に注釈付けすることでCSS研究のコストを下げることができるが、そのようなサロゲートラベルは不完全でバイアスが多い。 css研究の基礎となる漸近的不偏性や適切な不確実性定量化といった統計的特性を保証しつつ,下流統計解析にllmsの出力を用いる新しいアルゴリズムを提案する。 LLM予測サロゲートラベルを下流統計解析に直接使用すると,80~90\%の高いサロゲート精度であっても,かなりのバイアスと不確実な信頼区間が生じる。 これを解決するために,設計に基づく半教師付き学習(DSL)推定器を提案する。 dslは、サロゲートラベルと少数のゴールド標準ラベルを組み合わせるために二重ロバスト手順を採用している。 本手法は,金標準ラベリングのためのサンプリング文書の確率を制御することにより,厳密な仮定を必要とせず,任意のバイアスを受ける場合でも,下流統計解析の正当な推論を保証する。 理論的解析と実験の結果から、DSLは統計的保証のない予測のみに焦点を当てた既存の代替手段に匹敵するルート平均2乗誤差を達成しつつ、有効な統計的推測を提供することが示された。

In computational social science (CSS), researchers analyze documents to explain social and political phenomena. In most scenarios, CSS researchers first obtain labels for documents and then explain labels using interpretable regression analyses in the second step. The recent advancements in large language models (LLMs) can lower costs for CSS research by annotating documents cheaply at scale, but such surrogate labels are often imperfect and biased. We present a new algorithm for using outputs from LLMs for downstream statistical analyses while guaranteeing statistical properties -- like asymptotic unbiasedness and proper uncertainty quantification -- which are fundamental to CSS research. We show that direct use of LLM-predicted surrogate labels in downstream statistical analyses leads to substantial bias and invalid confidence intervals, even with high surrogate accuracy of 80--90\%. To address this, we build on debiased machine learning to propose the design-based semi-supervised learning (DSL) estimator. DSL employs a doubly-robust procedure to combine surrogate labels with a smaller number of gold-standard labels. Our approach guarantees valid inference for downstream statistical analyses, even when surrogates are arbitrarily biased, without requiring stringent assumptions, by controlling the probability of sampling documents for gold-standard labeling. Both our theoretical analysis and experimental results show that DSL provides valid statistical inference while achieving root mean squared errors comparable to existing alternatives that focus only on prediction without statistical guarantees.
翻訳日:2023-06-09 17:52:44 公開日:2023-06-07
# ヒトのラベルのない野生の点雲からの3次元ヒトキーポイントの推定

3D Human Keypoints Estimation From Point Clouds in the Wild Without Human Labels ( http://arxiv.org/abs/2306.04745v1 )

ライセンス: Link先を確認
Zhenzhen Weng, Alexander S. Gorban, Jingwei Ji, Mahyar Najibi, Yin Zhou, Dragomir Anguelov(参考訳) 点雲から3d人間のキーポイント検出器を教師付きで訓練するには、大量の高品質のラベルが必要となる。 大量の人点雲を捕捉することは比較的容易であるが、3Dキーポイントの注釈付けは高価で主観的で、エラーの傾向があり、特にロングテールケース(稀なポーズ、スクーター乗りなど)では困難である。 本稿では,人間ラベルのない点群から3次元の関節位置を学習するためのアプローチであるKey Point LeaningにインスパイアされたGC-KPL - Geometry Consistencyを提案する。 我々は、人体の構造と運動を考慮した新しい教師なし損失定式化によってこれを達成する。 Waymo Open Datasetからの大規模なトレーニングセットを人間の注釈付きキーポイントなしでトレーニングすることで、完全に教師されたアプローチと比較して合理的なパフォーマンスを実現することができることを示す。 さらに、バックボーンは教師なしのトレーニングの恩恵を受け、キーポイントのダウンストリームの少数ショット学習に役立ち、ラベル付きトレーニングデータの10%のみを微調整することで、セット全体の微調整に匹敵するパフォーマンスが得られる。 我々は、GC-KPLがデータセット全体のトレーニングにおいて、SoTAよりも大きなマージンで優れ、ラベルのない大量のデータを効率的に活用できることを実証した。

Training a 3D human keypoint detector from point clouds in a supervised manner requires large volumes of high quality labels. While it is relatively easy to capture large amounts of human point clouds, annotating 3D keypoints is expensive, subjective, error prone and especially difficult for long-tail cases (pedestrians with rare poses, scooterists, etc.). In this work, we propose GC-KPL - Geometry Consistency inspired Key Point Leaning, an approach for learning 3D human joint locations from point clouds without human labels. We achieve this by our novel unsupervised loss formulations that account for the structure and movement of the human body. We show that by training on a large training set from Waymo Open Dataset without any human annotated keypoints, we are able to achieve reasonable performance as compared to the fully supervised approach. Further, the backbone benefits from the unsupervised training and is useful in downstream fewshot learning of keypoints, where fine-tuning on only 10 percent of the labeled training data gives comparable performance to fine-tuning on the entire set. We demonstrated that GC-KPL outperforms by a large margin over SoTA when trained on entire dataset and efficiently leverages large volumes of unlabeled data.
翻訳日:2023-06-09 17:52:15 公開日:2023-06-07
# WOUAF:テキスト・画像拡散モデルにおけるユーザ属性とフィンガープリントの軽量化

WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.04744v1 )

ライセンス: Link先を確認
Changhoon Kim, Kyle Min, Maitreya Patel, Sheng Cheng, Yezhou Yang(参考訳) 生成モデルの急速な進歩は、テキスト記述から超現実的画像の作成を容易にし、誤情報などの社会的懸念を同時にエスカレートさせた。 従来の偽検出メカニズムは、いくつかの緩和を提供するが、悪意ある合成画像の使用に対する責任を負うには不十分である。 本稿では,生成した画像に対して責任を負うフィンガープリントのモデル化手法を提案する。 提案手法は,各ユーザのユニークなデジタル指紋に基づいて生成モデルを修正し,ユーザに追跡可能な結果コンテンツにユニークな識別子をインプリントする。 安定拡散モデルを用いたt2iタスクに微調整を組み込んだこのアプローチは、出力品質への影響を最小限に抑えながら、ほぼ完全な帰属精度を示す。 我々は, 悪意のあるユーザが指紋を検知しようとする場合と, 本手法の包括的理解を有する場合の2つのシナリオにおいて, 本手法の秘密を厳密に検証する。 また,エンドユーザーが通常実行する様々な画像処理処理に対するアプローチの堅牢性を評価する。 本手法は,安定拡散モデルの広範囲な評価を通じて,説明可能なモデル分布と責任のある使用のための有望で新しい方法を提案する。

The rapid advancement of generative models, facilitating the creation of hyper-realistic images from textual descriptions, has concurrently escalated critical societal concerns such as misinformation. Traditional fake detection mechanisms, although providing some mitigation, fall short in attributing responsibility for the malicious use of synthetic images. This paper introduces a novel approach to model fingerprinting that assigns responsibility for the generated images, thereby serving as a potential countermeasure to model misuse. Our method modifies generative models based on each user's unique digital fingerprint, imprinting a unique identifier onto the resultant content that can be traced back to the user. This approach, incorporating fine-tuning into Text-to-Image (T2I) tasks using the Stable Diffusion Model, demonstrates near-perfect attribution accuracy with a minimal impact on output quality. We rigorously scrutinize our method's secrecy under two distinct scenarios: one where a malicious user attempts to detect the fingerprint, and another where a user possesses a comprehensive understanding of our method. We also evaluate the robustness of our approach against various image post-processing manipulations typically executed by end-users. Through extensive evaluation of the Stable Diffusion models, our method presents a promising and novel avenue for accountable model distribution and responsible use.
翻訳日:2023-06-09 17:51:51 公開日:2023-06-07
# sciencebenchmark:sqlシステムへの自然言語評価のための複雑な実世界ベンチマーク

ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural Language to SQL Systems ( http://arxiv.org/abs/2306.04743v1 )

ライセンス: Link先を確認
Yi Zhang, Jan Deriu, George Katsogiannis-Meimarakis, Catherine Kosten, Georgia Koutrika, Kurt Stockinger(参考訳) natural language to sql systems (nl-to-sql) は最近、自然言語からsqlへのクエリ変換の精度が大幅に向上していることを示した。 この改善は、トランスフォーマーベースの言語モデルの出現と、NL-to-SQLシステムを評価するデファクト標準であるSpiderベンチマークの人気によるものだ。 上位nl-to-sqlシステムは最大85\%のアキュラシーに達する。 しかし、スパイダーは主にテーブル、列、エントリがほとんどない単純なデータベースを含んでおり、現実的な設定を反映していない。 さらに、ドメイン固有のコンテンツを持つ複雑な実世界のデータベースは、nl/sql-pair形式で利用可能なトレーニングデータが少なく、既存のnl-sqlシステムのパフォーマンスが低下する。 本稿では,3つの実世界の高ドメイン固有データベースを対象とした複雑なNL-to-SQLベンチマークであるScienceBenchmarkを紹介する。 この新しいベンチマークでは、SQLの専門家とドメインの専門家が、各ドメインに高品質なNL/SQLペアを作成した。 さらに,GPT-3を用いて生成した合成データを用いて,少ない量の人為的データを拡張した。 Spiderの上位パフォーマンスシステムがベンチマークで非常に低いパフォーマンスを達成するため、我々のベンチマークは非常に難しいことを示しています。 複雑なドメイン向けにnl-to-sqlシステムを作成し、合成データを付加した、少量の手作りのトレーニングデータを持つ。 私たちの知る限り、sciencebenchmarkは複雑な実世界の科学データベースで設計された最初のnl-to-sqlベンチマークであり、ドメインの専門家によって慎重に検証されたトレーニングとテストデータを含んでいる。

Natural Language to SQL systems (NL-to-SQL) have recently shown a significant increase in accuracy for natural language to SQL query translation. This improvement is due to the emergence of transformer-based language models, and the popularity of the Spider benchmark - the de-facto standard for evaluating NL-to-SQL systems. The top NL-to-SQL systems reach accuracies of up to 85\%. However, Spider mainly contains simple databases with few tables, columns, and entries, which does not reflect a realistic setting. Moreover, complex real-world databases with domain-specific content have little to no training data available in the form of NL/SQL-pairs leading to poor performance of existing NL-to-SQL systems. In this paper, we introduce ScienceBenchmark, a new complex NL-to-SQL benchmark for three real-world, highly domain-specific databases. For this new benchmark, SQL experts and domain experts created high-quality NL/SQL-pairs for each domain. To garner more data, we extended the small amount of human-generated data with synthetic data generated using GPT-3. We show that our benchmark is highly challenging, as the top performing systems on Spider achieve a very low performance on our benchmark. Thus, the challenge is many-fold: creating NL-to-SQL systems for highly complex domains with a small amount of hand-made training data augmented with synthetic data. To our knowledge, ScienceBenchmark is the first NL-to-SQL benchmark designed with complex real-world scientific databases, containing challenging training and test data carefully validated by domain experts.
翻訳日:2023-06-09 17:51:31 公開日:2023-06-07
# 縦断検診における対応するusビューの自動検索

Automatic retrieval of corresponding US views in longitudinal examinations ( http://arxiv.org/abs/2306.04739v1 )

ライセンス: Link先を確認
Hamideh Kerdegari, Tran Huy Nhat Phung1, Van Hao Nguyen, Thi Phuong Thao Truong, Ngoc Minh Thu Le, Thanh Phuong Le, Thi Mai Thao Le, Luigi Pisani, Linda Denehy, Vital Consortium, Reza Razavi, Louise Thwaites, Sophie Yacoub, Andrew P. King, and Alberto Gomez(参考訳) 骨格筋萎縮は、長期ベッドで過ごす集中治療室(ICU)で重篤な疾患を患う患者によく起こる。 筋質量は患者の退院前に理学療法によって回復しなければならず、超音波画像を用いて経時的に筋肉の大きさを測定することで回復過程を評価することがしばしば行われる。 しかしながら、これらの手動測定は、特にスキャンは、通常異なる日と、異なる演算子によって取得されるため、大きなばらつきを被る。 本稿では,異なるスキャン時間で類似の超音波筋像を自動検索する,自己指導型コントラスト学習手法を提案する。 ICUで取得した67例のデータを用いて3種類のモデルを比較した。 その結果,AUCを73.52%,自動セグメンテーションモデルと組み合わせた場合,横断領域で5.7%以上/-0.24%の誤差が得られた。 さらに,本モデルを用いた筋力検索の有効性について検討した。

Skeletal muscle atrophy is a common occurrence in critically ill patients in the intensive care unit (ICU) who spend long periods in bed. Muscle mass must be recovered through physiotherapy before patient discharge and ultrasound imaging is frequently used to assess the recovery process by measuring the muscle size over time. However, these manual measurements are subject to large variability, particularly since the scans are typically acquired on different days and potentially by different operators. In this paper, we propose a self-supervised contrastive learning approach to automatically retrieve similar ultrasound muscle views at different scan times. Three different models were compared using data from 67 patients acquired in the ICU. Results indicate that our contrastive model outperformed a supervised baseline model in the task of view retrieval with an AUC of 73.52% and when combined with an automatic segmentation model achieved 5.7%+/-0.24% error in cross-sectional area. Furthermore, a user study survey confirmed the efficacy of our model for muscle view retrieval.
翻訳日:2023-06-09 17:51:06 公開日:2023-06-07
# マルチアース2023-地球環境ワークショップにおけるマルチモーダル学習と課題

MultiEarth 2023 -- Multimodal Learning for Earth and Environment Workshop and Challenge ( http://arxiv.org/abs/2306.04738v1 )

ライセンス: Link先を確認
Miriam Cha, Gregory Angelides, Mark Hamilton, Andy Soszynski, Brandon Swenson, Nathaniel Maidel, Phillip Isola, Taylor Perron, Bill Freeman(参考訳) マルチモーダル・ラーニング・フォー・アース・エコ環境ワークショップ(MultiEarth 2023)は、連続的に収集される大量のリモートセンシングデータを活用することで、地球生態系の健康状態のモニタリングと分析を目的とした第2回CVPRワークショップである。 このワークショップの主な目的は、地球と環境科学のコミュニティとマルチモーダル表現学習コミュニティを集結させ、環境モニタリングの支援に技術的進歩を利用する新しい方法を探求することである。 MultiEarth Workshopはまた、アマゾン熱帯雨林の監視に重点を置く公共の課題を整理することで、マルチモーダルリモートセンシング情報を処理するための共通のベンチマークの提供も目指している。 これらの課題には、森林破壊の推定、森林火災の検出、合成開口レーダ(SAR)画像の可視領域への変換、環境トレンドの予測などが含まれる。 本稿では,課題ガイドライン,データセット,評価指標について述べる。 私たちのチャレンジwebサイトはhttps://sites.google.com/view/rainforest-challenge/multiearth-2023で閲覧できます。

The Multimodal Learning for Earth and Environment Workshop (MultiEarth 2023) is the second annual CVPR workshop aimed at the monitoring and analysis of the health of Earth ecosystems by leveraging the vast amount of remote sensing data that is continuously being collected. The primary objective of this workshop is to bring together the Earth and environmental science communities as well as the multimodal representation learning communities to explore new ways of harnessing technological advancements in support of environmental monitoring. The MultiEarth Workshop also seeks to provide a common benchmark for processing multimodal remote sensing information by organizing public challenges focused on monitoring the Amazon rainforest. These challenges include estimating deforestation, detecting forest fires, translating synthetic aperture radar (SAR) images to the visible domain, and projecting environmental trends. This paper presents the challenge guidelines, datasets, and evaluation metrics. Our challenge website is available at https://sites.google.com/view/rainforest-challenge/multiearth-2023.
翻訳日:2023-06-09 17:50:51 公開日:2023-06-07
# BU-CVKit:独立性追跡・分析のための拡張可能なコンピュータビジョンフレームワーク

BU-CVKit: Extendable Computer Vision Framework for Species Independent Tracking and Analysis ( http://arxiv.org/abs/2306.04736v1 )

ライセンス: Link先を確認
Mahir Patel, Lucas Carstensen, Yiwen Gu, Michael E. Hasselmo, Margrit Betke(参考訳) 学際的コンピュータビジョン(CV)研究の大きなボトルネックは、CVや非CV研究者による最先端のCVモデルの再利用と抽象化を容易にするフレームワークの欠如である。 ここでは,チェーン可能なプロセッサを用いた研究パイプライン作成を可能にするコンピュータビジョンフレームワークであるbu-cvkitを紹介する。 コミュニティはフレームワークの作業のプラグインを作成できるため、最小限のオーバーヘッドで作業の再使用性、アクセシビリティ、公開性が向上する。 さらに、bu-cvkitのポーズ推定パッケージ用のユーザインタフェースであるmuseqpose kitを提供し、インストールされたプラグインを自動的にスキャンし、ユーザが提供するメタデータに基づいてそれらのインターフェースをプログラム的に生成する。 また、アノテーション、3D再構成、再プロジェクション、カメラキャリブレーションなどの標準ポーズ推定機能に対するソフトウェアサポートも提供する。 最後に、我々のフレームワーク用に作成されたサンプルプラグインを通して生成された行動神経科学パイプラインの例を示す。

A major bottleneck of interdisciplinary computer vision (CV) research is the lack of a framework that eases the reuse and abstraction of state-of-the-art CV models by CV and non-CV researchers alike. We present here BU-CVKit, a computer vision framework that allows the creation of research pipelines with chainable Processors. The community can create plugins of their work for the framework, hence improving the re-usability, accessibility, and exposure of their work with minimal overhead. Furthermore, we provide MuSeqPose Kit, a user interface for the pose estimation package of BU-CVKit, which automatically scans for installed plugins and programmatically generates an interface for them based on the metadata provided by the user. It also provides software support for standard pose estimation features such as annotations, 3D reconstruction, reprojection, and camera calibration. Finally, we show examples of behavioral neuroscience pipelines created through the sample plugins created for our framework.
翻訳日:2023-06-09 17:50:30 公開日:2023-06-07
# バイアス評価のための大規模言語モデルのソフトプロンプトチューニング

Soft-prompt Tuning for Large Language Models to Evaluate Bias ( http://arxiv.org/abs/2306.04735v1 )

ライセンス: Link先を確認
Jacob-Junqi Tian, David Emerson, Sevil Zanjani Miyandoab, Deval Pandya, Laleh Seyyed-Kalantari, Faiza Khan Khattak(参考訳) 近年,ラベル付きデータも必要とせず,良好な結果が得られるという利点から,大規模言語モデルの普及が盛んに行われている。 しかし、モデルパフォーマンスを改善するために最適なプロンプトを得るためには、プロンプトチューニングが必要である。 本稿では,感情分類タスクにおけるソフト・プロンプト・チューニングを用いて,Open Pre-trained Transformer (OPT)やGalactica言語モデルなどの大規模言語モデル(LLM)のバイアスを定量化する。 これらのモデルは、特定の集団に偏りやすい現実世界のデータに基づいて訓練されているため、これらの根本的な問題を特定することが重要である。 ソフトプロンプトを使ってバイアスを評価することで、手動でデザインされたプロンプトによって引き起こされる人間のバイアス注入を避けるという余分な利点が得られます。 グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。 LLMは様々なアプリケーションで業界で使われてきたため、これらのモデルを実際にデプロイする前にバイアスを特定することが不可欠である。 当社はパイプラインをオープンソース化し、業界研究者に彼らのユースケースに私たちの作業を適用するように促しています。

Prompting large language models has gained immense popularity in recent years due to the advantage of producing good results even without the need for labelled data. However, this requires prompt tuning to get optimal prompts that lead to better model performances. In this paper, we explore the use of soft-prompt tuning on sentiment classification task to quantify the biases of large language models (LLMs) such as Open Pre-trained Transformers (OPT) and Galactica language model. Since these models are trained on real-world data that could be prone to bias toward certain groups of populations, it is important to identify these underlying issues. Using soft-prompts to evaluate bias gives us the extra advantage of avoiding the human-bias injection that can be caused by manually designed prompts. We check the model biases on different sensitive attributes using the group fairness (bias) and find interesting bias patterns. Since LLMs have been used in the industry in various applications, it is crucial to identify the biases before deploying these models in practice. We open-source our pipeline and encourage industry researchers to adapt our work to their use cases.
翻訳日:2023-06-09 17:50:15 公開日:2023-06-07
# 機械学習クロネッカー係数

Machine-Learning Kronecker Coefficients ( http://arxiv.org/abs/2306.04734v1 )

ライセンス: Link先を確認
Kyu-Hwan Lee(参考訳) クロネッカー係数は対称群の2つの既約表現のテンソル積の分解多重性である。 一般線型群の類似であるリトルウッド-リチャードソン係数とは異なり、クロネッカー係数の既知の組合せ的記述はなく、与えられたクロネッカー係数が 0 であるか否かを決定するのはnp-ハード問題である。 本稿では,近距離近傍,畳み込みニューラルネットワーク,勾配ブースティング決定木などの標準機械学習アルゴリズムを用いて,与えられたクロネッカー係数がゼロか否かを予測できることを示す。 以上の結果から,このバイナリ分類を高い精度で効率的に行うことができる(0.98$)。

The Kronecker coefficients are the decomposition multiplicities of the tensor product of two irreducible representations of the symmetric group. Unlike the Littlewood--Richardson coefficients, which are the analogues for the general linear group, there is no known combinatorial description of the Kronecker coefficients, and it is an NP-hard problem to decide whether a given Kronecker coefficient is zero or not. In this paper, we show that standard machine-learning algorithms such as Nearest Neighbors, Convolutional Neural Networks and Gradient Boosting Decision Trees may be trained to predict whether a given Kronecker coefficient is zero or not. Our results show that a trained machine can efficiently perform this binary classification with high accuracy ($\approx 0.98$).
翻訳日:2023-06-09 17:49:56 公開日:2023-06-07
# 研究チャットボットの公開展開におけるhciの側面--ユーザスタディ、デザイン推奨、オープンチャレンジ

The HCI Aspects of Public Deployment of Research Chatbots: A User Study, Design Recommendations, and Open Challenges ( http://arxiv.org/abs/2306.04765v1 )

ライセンス: Link先を確認
Morteza Behrooz, William Ngan, Joshua Lane, Giuliano Morse, Benjamin Babcock, Kurt Shuster, Mojtaba Komeili, Moya Chen, Melanie Kambadur, Y-Lan Boureau, Jason Weston(参考訳) 研究チャットボットの公開展開は、必要なリスク・ベネフィット分析を伴う微妙な話題である。 このようなモデルをデプロイする責任があるかどうかについては,近年は頻繁に議論されているが,目標をより効果的に達成するために,インターフェースが採用すべきインタラクションパラダイムや設計アプローチにはあまり注目されていない。 我々は,最近の研究チャットボットで実施した混合手法のユーザ調査を報告し,このスコープに関わるhci質問に対して,ポーズ,グラウンド,そして回答を試みることを目的とする。 エージェントの抽象人為的表現は,ユーザの知覚に重要な影響を与え,AIの説明可能性の提供はフィードバック率に影響を与え,チャット体験の2つの(ディジタルおよび外部)レベルは意図的に設計されるべきである。 我々は,デザインレコメンデーションと,研究コミュニティにさらなる焦点をあてる領域を提供する。

Publicly deploying research chatbots is a nuanced topic involving necessary risk-benefit analyses. While there have recently been frequent discussions on whether it is responsible to deploy such models, there has been far less focus on the interaction paradigms and design approaches that the resulting interfaces should adopt, in order to achieve their goals more effectively. We aim to pose, ground, and attempt to answer HCI questions involved in this scope, by reporting on a mixed-methods user study conducted on a recent research chatbot. We find that abstract anthropomorphic representation for the agent has a significant effect on user's perception, that offering AI explainability may have an impact on feedback rates, and that two (diegetic and extradiegetic) levels of the chat experience should be intentionally designed. We offer design recommendations and areas of further focus for the research community.
翻訳日:2023-06-09 17:45:15 公開日:2023-06-07
# $(d+1)$ランダムユニタリ回路における絡み合い成長と最小膜

Entanglement Growth and Minimal Membranes in $(d+1)$ Random Unitary Circuits ( http://arxiv.org/abs/2306.04764v1 )

ライセンス: Link先を確認
Piotr Sierant and Marco Schir\`o and Maciej Lewenstein and Xhek Turkeshi(参考訳) 多体系における絡み合い成長の性質を理解することは、量子物理学における基本的な問題の一つである。 本稿では,ランダムユニタリ回路下で進化した$(d+1)$ qubit 格子の絡み合いゆらぎと分布を特徴付けることにより,この問題を研究する。 クリフォードゲートに着目して、1ドルd\le 4$次元のランダム回路の広範な数値シミュレーションを行う。 以上の結果から, 2成分の絡み合いエントロピーの成長特性は, $(d+1)$弾性媒質中のd$-次元膜の粗化指数によって特徴づけられることがわかった。

Understanding the nature of entanglement growth in many-body systems is one of the fundamental questions in quantum physics. Here, we study this problem by characterizing the entanglement fluctuations and distribution of $(d+1)$ qubit lattice evolved under a random unitary circuit. Focusing on Clifford gates, we perform extensive numerical simulations of random circuits in $1\le d\le 4$ dimensions. Our findings demonstrate that properties of growth of bipartite entanglement entropy are characterized by the roughening exponents of a $d$-dimensional membrane in a $(d+1)$ elastic medium.
翻訳日:2023-06-09 17:44:58 公開日:2023-06-07
# 全スライド画像の文脈認識型自己教師付き学習

Context-Aware Self-Supervised Learning of Whole Slide Images ( http://arxiv.org/abs/2306.04763v1 )

ライセンス: Link先を確認
Milan Aryal, Nasim Yahyasoltani(参考訳) グラフとしてスライド画像全体(WSI)を提示することで、がん診断のためのより効率的で正確な学習フレームワークが可能になる。 単一のwsiが数十億のピクセルで構成されており、計算病理学に必要な膨大な注釈付きデータセットが不足しているという事実から、畳み込みニューラルネットワーク(cnn)のような典型的なディープラーニングアプローチを用いたwsisからの学習の問題は困難である。 さらに、wsisのダウンサンプリングは、がん検出に不可欠なデータの損失につながる可能性がある。 本稿では,新しい2段階学習手法を提案する。 腫瘍周囲のトポロジ的特徴などの文脈は、がんのグレーディングや診断に重要な情報を保持する可能性があるため、WSIの領域間のすべての依存関係を捉えるグラフ表現は非常に直感的である。 グラフ畳み込みネットワーク(GCN)は腫瘍および隣接組織からのコンテキストを含むように展開され、ラベルなしデータによるトレーニングを強化するために自己教師付き学習が使用される。 より具体的には、スライド全体がグラフとして示され、ノードはwsiからのパッチに対応する。 提案したフレームワークは、前立腺癌および腎癌のWSIを用いてテストされる。 自己教師機構による性能改善を評価するために,事前訓練された自己教師層を用いずに,提案した文脈認識モデルを検証した。 全体モデルは、MIL(Multi-instance Learning)ベースや他の既存のアプローチと比較される。

Presenting whole slide images (WSIs) as graph will enable a more efficient and accurate learning framework for cancer diagnosis. Due to the fact that a single WSI consists of billions of pixels and there is a lack of vast annotated datasets required for computational pathology, the problem of learning from WSIs using typical deep learning approaches such as convolutional neural network (CNN) is challenging. Additionally, WSIs down-sampling may lead to the loss of data that is essential for cancer detection. A novel two-stage learning technique is presented in this work. Since context, such as topological features in the tumor surroundings, may hold important information for cancer grading and diagnosis, a graph representation capturing all dependencies among regions in the WSI is very intuitive. Graph convolutional network (GCN) is deployed to include context from the tumor and adjacent tissues, and self-supervised learning is used to enhance training through unlabeled data. More specifically, the entire slide is presented as a graph, where the nodes correspond to the patches from the WSI. The proposed framework is then tested using WSIs from prostate and kidney cancers. To assess the performance improvement through self-supervised mechanism, the proposed context-aware model is tested with and without use of pre-trained self-supervised layer. The overall model is also compared with multi-instance learning (MIL) based and other existing approaches.
翻訳日:2023-06-09 17:44:38 公開日:2023-06-07
# SKG:セマンティック知識グラフを用いた学術論文の多言語情報検索・分析フレームワーク

SKG: A Versatile Information Retrieval and Analysis Framework for Academic Papers with Semantic Knowledge Graphs ( http://arxiv.org/abs/2306.04758v1 )

ライセンス: Link先を確認
Yamei Tu, Rui Qiu, Han-Wei Shen(参考訳) 近年,研究論文の数が指数関数的に増加しており,効率的な情報抽出と知識発見のための新しい手法の開発が重要である。 このニーズに対処するために,抽象文やメタ情報から意味概念を統合してコーパスを表現するセマンティック知識グラフ(SKG)を提案する。 SKGは、高い多様性と豊富な情報コンテンツが格納されているため、学術文献における様々なセマンティッククエリをサポートすることができる。 非構造化テキストから知識を抽出するために,エンティティ抽出とエンティティ正規化のための半教師付きパイプラインを含む知識抽出モジュールを開発した。 また、概念を他のメタ情報と統合してskgを構築するためのオントロジーを作成しました。 さらに,様々な意味的問合せをskg上で柔軟かつインタラクティブに行う方法を示すデータフローシステムを設計し,開発する。 本手法の有効性を実証するために,可視化文献に基づく研究を行い,skgの有用性を示す実世界のユースケースを提供する。 この作業のデータセットとコードはhttps://osf.io/aqv8p/? view_only=2c26b36e3e3941ce999df47e4616207f。

The number of published research papers has experienced exponential growth in recent years, which makes it crucial to develop new methods for efficient and versatile information extraction and knowledge discovery. To address this need, we propose a Semantic Knowledge Graph (SKG) that integrates semantic concepts from abstracts and other meta-information to represent the corpus. The SKG can support various semantic queries in academic literature thanks to the high diversity and rich information content stored within. To extract knowledge from unstructured text, we develop a Knowledge Extraction Module that includes a semi-supervised pipeline for entity extraction and entity normalization. We also create an ontology to integrate the concepts with other meta information, enabling us to build the SKG. Furthermore, we design and develop a dataflow system that demonstrates how to conduct various semantic queries flexibly and interactively over the SKG. To demonstrate the effectiveness of our approach, we conduct the research based on the visualization literature and provide real-world use cases to show the usefulness of the SKG. The dataset and codes for this work are available at https://osf.io/aqv8p/?view_only=2c26b36e3e3941ce999df47e4616207f.
翻訳日:2023-06-09 17:43:57 公開日:2023-06-07
# インストラクテヴァール:大規模言語モデルの体系的評価に向けて

INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2306.04757v1 )

ライセンス: Link先を確認
Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria(参考訳) インストラクションをチューニングした大規模言語モデルは自然言語処理に革命をもたらし、会話エージェントのような応用に大きな可能性を示している。 GPT-4のようなこれらのモデルは、言語を習得するだけでなく、数学、コーディング、医学、法学といった分野で複雑なタスクを解くことができる。 その印象的な能力にもかかわらず、多くのモデルのブラックボックスの性質と全体的評価研究の欠如により、その潜在能力に関する包括的な理解がまだ残っていない。 このような課題に対処するため,我々は,命令調整型大規模言語モデル用に特別に設計された,より包括的な評価スイートinstructevalを提案する。 従来の研究とは異なり、我々の評価は、問題解決、筆記能力、人的価値への適応に基づくモデルの厳密な評価を含む。 我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。 その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。 オープンソースモデルは印象的な書き込み能力を示しているが、問題解決とアライメントの改善の余地は十分にある。 オープンソースコミュニティによるモデルの開発は急速に進んでいるが、これらのモデルに関する主張をサポートするための厳格な評価の必要性も強調している。 InSTRUCTEVAL を通じて,インストラクションチューニングモデルとそれらの能力向上のより深い理解を促進することを目的としている。 INSTRUCTEVALはhttps://github.com/declare-lab/instruct-eval.comで公開されている。

Instruction-tuned large language models have revolutionized natural language processing and have shown great potential in applications such as conversational agents. These models, such as GPT-4, can not only master language but also solve complex tasks in areas like mathematics, coding, medicine, and law. Despite their impressive capabilities, there is still a lack of comprehensive understanding regarding their full potential, primarily due to the black-box nature of many models and the absence of holistic evaluation studies. To address these challenges, we present INSTRUCTEVAL, a more comprehensive evaluation suite designed specifically for instruction-tuned large language models. Unlike previous works, our evaluation involves a rigorous assessment of models based on problem-solving, writing ability, and alignment to human values. We take a holistic approach to analyze various factors affecting model performance, including the pretraining foundation, instruction-tuning data, and training methods. Our findings reveal that the quality of instruction data is the most crucial factor in scaling model performance. While open-source models demonstrate impressive writing abilities, there is substantial room for improvement in problem-solving and alignment. We are encouraged by the rapid development of models by the open-source community, but we also highlight the need for rigorous evaluation to support claims made about these models. Through INSTRUCTEVAL, we aim to foster a deeper understanding of instruction-tuned models and advancements in their capabilities. INSTRUCTEVAL is publicly available at https://github.com/declare-lab/instruct-eval.
翻訳日:2023-06-09 17:43:27 公開日:2023-06-07
# 線形収束型ganインバージョンベースアルゴリズムによるデセプションのリバースエンジニアリング

A Linearly Convergent GAN Inversion-based Algorithm for Reverse Engineering of Deceptions ( http://arxiv.org/abs/2306.04756v1 )

ライセンス: Link先を確認
Darshan Thaker, Paris Giampouras, Ren\'e Vidal(参考訳) 信頼できるディープラーニングシステムの開発における重要な側面は、これらのシステムを敵の攻撃に対して堅牢にする戦略を考案することである。 これらの攻撃に対する防御の開発に焦点をあてる研究は長いが、近年、研究者たちは攻撃プロセスのリバースエンジニアリングの方法を研究し始めている。 これにより、複数の攻撃モデルに対する防御だけでなく、脅威モデルを分類することが可能になります。 しかし、リバースエンジニアリングプロセスの理論的保証は依然として欠けている。 保証を与える現在のアプローチは、データが線形部分空間の結合にあるという仮定に基づいているが、これはより複雑なデータセットに対する妥当な仮定ではない。 本稿では,先行研究を基礎として,クリーンデータがganの範囲内にあることを仮定し,偽りのリバースエンジニアリングのための新しい枠組みを提案する。 信号と攻撃を分類するために、GAN反転問題とブロックスパース回復問題を共同で解決する。 文献で初めて,この問題に対する決定論的線形収束保証を提供する。 また,いくつかの非線形データセットに対する提案手法のメリットを,最先端手法と比較して実証的に示す。

An important aspect of developing reliable deep learning systems is devising strategies that make these systems robust to adversarial attacks. There is a long line of work that focuses on developing defenses against these attacks, but recently, researchers have began to study ways to reverse engineer the attack process. This allows us to not only defend against several attack models, but also classify the threat model. However, there is still a lack of theoretical guarantees for the reverse engineering process. Current approaches that give any guarantees are based on the assumption that the data lies in a union of linear subspaces, which is not a valid assumption for more complex datasets. In this paper, we build on prior work and propose a novel framework for reverse engineering of deceptions which supposes that the clean data lies in the range of a GAN. To classify the signal and attack, we jointly solve a GAN inversion problem and a block-sparse recovery problem. For the first time in the literature, we provide deterministic linear convergence guarantees for this problem. We also empirically demonstrate the merits of the proposed approach on several nonlinear datasets as compared to state-of-the-art methods.
翻訳日:2023-06-09 17:42:56 公開日:2023-06-07
# 深部多解像度フラクタルテクスチャの計算モデルと異常脳組織分節への応用

Computational Modeling of Deep Multiresolution-Fractal Texture and Its Application to Abnormal Brain Tissue Segmentation ( http://arxiv.org/abs/2306.04754v1 )

ライセンス: Link先を確認
A. Temtam, L. Pei, and K. Iftekharuddin(参考訳) 多分解能分数ブラウン運動(fbm)の計算モデルは、確率的多スケールフラクタルテクスチャ特徴抽出と異常脳組織分節の機械学習に有効である。 さらに、深層多分解能法は、ピクセルワイド脳組織セグメンテーションに用いられている。 ロバスト組織分節と体積測定は、より客観的に疾患の重荷を定量化し、疾患に対する治療反応の追跡を改善することができる。 しかし, 深部多分解能フラクタルテクスチャの計算モデリングは, エレガントな特徴学習をもたらす可能性がある。 そこで本研究では,マルチレゾリューションfbmモデルとディープマルチレゾリューション解析を数学的に結合したマルチレゾリューションフラクタル深層ニューラルネットワーク(mfdnn)の新しいモデリング手法を提案する。 提案する3次元mfdnnモデルでは,脳腫瘍分割のための大量のmri画像データを解析することにより,マルチレゾリューションの確率的テクスチャ特徴を推定できる。 提案するmfdnnを用いて,脳mri画像中の腫瘍組織に対する確率的深部マルチレゾリューションフラクタルテクスチャの特徴を推定する。 MFDNNモデルは、最新のBRATS 2021 Challengesデータセットを用いて、1251例の脳腫瘍セグメンテーションを用いて評価されている。 Diceオーバーラップスコア, Husdorff 距離および関連する不確実性推定を用いたモデルの評価は, 文献における最先端手法と比較して, 異常脳組織セグメンテーションにおいて良好な, あるいは同等の性能を示す。 インデックス用語:計算モデリング、多分解能分数ブラウン運動(fbm)、深部マルチレゾリューション分析、フラクタル次元(fd)、テクスチャ特徴、脳腫瘍の分節化、ディープラーニング。

Computational modeling of Multiresolution- Fractional Brownian motion (fBm) has been effective in stochastic multiscale fractal texture feature extraction and machine learning of abnormal brain tissue segmentation. Further, deep multiresolution methods have been used for pixel-wise brain tissue segmentation. Robust tissue segmentation and volumetric measurement may provide more objective quantification of disease burden and offer improved tracking of treatment response for the disease. However, we posit that computational modeling of deep multiresolution fractal texture features may offer elegant feature learning. Consequently, this work proposes novel modeling of Multiresolution Fractal Deep Neural Network (MFDNN) and its computational implementation that mathematically combines a multiresolution fBm model and deep multiresolution analysis. The proposed full 3D MFDNN model offers the desirable properties of estimating multiresolution stochastic texture features by analyzing large amount of raw MRI image data for brain tumor segmentation. We apply the proposed MFDNN to estimate stochastic deep multiresolution fractal texture features for tumor tissues in brain MRI images. The MFDNN model is evaluated using 1251 patient cases for brain tumor segmentation using the most recent BRATS 2021 Challenges dataset. The evaluation of the proposed model using Dice overlap score, Husdorff distance and associated uncertainty estimation offers either better or comparable performances in abnormal brain tissue segmentation when compared to the state-of-the-art methods in the literature. Index Terms: Computational Modeling, Multiresolution Fractional Brownian Motion (fBm), Deep Multiresolution Analysis, Fractal Dimension (FD), Texture Features, Brain tumor segmentation, Deep Learning.
翻訳日:2023-06-09 17:42:35 公開日:2023-06-07
# 特別な関心タグのためのopenstreetmapのデータカバレッジ、豊かさ、品質:wayside crosses -- ケーススタディ

Data coverage, richness, and quality of OpenStreetMap for special interest tags: wayside crosses -- a case study ( http://arxiv.org/abs/2306.04752v1 )

ライセンス: Link先を確認
Philipp Weigell(参考訳) OpenStreetMapのような自発的な地理情報プロジェクト(生データへのアクセスと利用)は調査のための宝庫である。 文化的な話題 都市計画 サービスのアクセシビリティなどです 懸念事項の1つは、データの信頼性と正確性である。 道路や博物館のような主流のトピックでは、データの完全性と正確性が非常に高いことが判明したが、特に西洋では、ニッチなトピックには明確ではない。 さらに、分析の多くは、OpenStreetMapデータベースが90億以上の要素に成長した約10年前のものである。 ヨーロッパ,ドイツ,バイエルンにおける道路横断のオープンストリートマップデータや地域文化の相違や,バイエルン,ドイツ,バイエルンにおける種類について検討した。 バイエルンでは、内部および公式データセットおよび他のプロキシと比較することにより、データの完全性、論理的一貫性、位置的、時間的および主題的正確性を評価する。 その後、特定のケースのユーザビリティと、ニッチなトピックに対するOpenStreetMapデータの利用を一般化する。 バイエルンにある十字架の約6~3分の1がデータベースに記録されており、ほとんどの場合、位置精度は50メートル以上と推定されている。 また, 資料の言語的特徴, 建築材料の使用状況, 干拓時期, データセットから推定可能なその他の詳細についても論じる。 ニッチトピックに対するデータ品質とカバレッジは期待を超えるが、地域によって大きく異なり、データセットを徹底的に分解しなければ信頼できない。

Volunteered Geographic Information projects like OpenStreetMap which allow accessing and using the raw data, are a treasure trove for investigations - e.g. cultural topics, urban planning, or accessibility of services. Among the concerns are the reliability and accurateness of the data. While it was found that for mainstream topics, like roads or museums, the data completeness and accuracy is very high, especially in the western world, this is not clear for niche topics. Furthermore, many of the analyses are almost one decade old in which the OpenStreetMap-database grew to over nine billion elements. Based on OpenStreetMap-data of wayside crosses and other cross-like objects regional cultural differences and prevalence of the types within Europe, Germany and Bavaria are investigated. For Bavaria, internally and by comparing to an official dataset and other proxies the data completeness, logical consistency, positional, temporal, and thematic accuracy is assessed. Subsequently, the usability for the specific case and to generalize for the use of OpenStreetMap data for niche topics. It is estimated that about one sixth to one third of the crosses located within Bavaria are recorded in the database and positional accuracy is better than 50 metres in most cases. In addition, linguistic features of the inscriptions, the usage of building materials, dates of erection and other details deducible from the dataset are discussed. It is found that data quality and coverage for niche topics exceeds expectations but varies strongly by region and should not be trusted without thorough dissection of the dataset.
翻訳日:2023-06-09 17:41:56 公開日:2023-06-07
# ラクダはどこまで行けますか。 オープンリソースのインストラクションチューニングの現状を探る

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources ( http://arxiv.org/abs/2306.04751v1 )

ライセンス: Link先を確認
Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi(参考訳) 本研究では,オープン命令追従データセットを用いた命令チューニング言語モデルの最近の進歩について検討する。 オープンモデルは最先端のプロプライエタリモデルと同等であるという最近の主張にもかかわらず、これらの主張はしばしば限定的な評価を伴っており、ボード全体の比較と様々なリソースの有用性の決定が困難である。 我々は、6.7Bから65Bのパラメータから、手作業によるキュレート(OpenAssistantなど)から合成・蒸留(Alpacaなど)までの12の命令データセットをトレーニングし、それらの事実的知識、推論、多言語性、コーディング、そして、自動的、モデルベース、人間ベースのメトリクスの収集を通じて、それらを体系的に評価する。 さらに、高品質なオープンリソースの組み合わせを微調整した命令調整モデルスイートであるT\"uluを紹介します。 我々の実験では、異なる命令チューニングデータセットは特定のスキルを解明または拡張できるが、単一のデータセット(または組み合わせ)はすべての評価で最高のパフォーマンスを提供する。 興味深いことに、モデルと人間の嗜好に基づく評価は、ベンチマークベースの評価で表されるモデル能力の違いを反映せず、本研究で実施されるシステム評価のタイプの必要性が示唆されている。 評価の結果,ChatGPTの性能は平均83%,GPT-4性能は68%であり,このギャップを埋めるためには,より良いベースモデルの構築と指導訓練データの構築にさらなる投資が必要であることが示唆された。 我々は、65B T\"uluを完全に微調整したモデルと、将来の研究を促進するためのコード、データ、評価フレームワークをhttps://github.com/allenai/open-instructでリリースしています。

In this work we explore recent advances in instruction-tuning language models on a range of open instruction-following datasets. Despite recent claims that open models can be on par with state-of-the-art proprietary models, these claims are often accompanied by limited evaluation, making it difficult to compare models across the board and determine the utility of various resources. We provide a large set of instruction-tuned models from 6.7B to 65B parameters in size, trained on 12 instruction datasets ranging from manually curated (e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and systematically evaluate them on their factual knowledge, reasoning, multilinguality, coding, and open-ended instruction following abilities through a collection of automatic, model-based, and human-based metrics. We further introduce T\"ulu, our best performing instruction-tuned model suite finetuned on a combination of high-quality open resources. Our experiments show that different instruction-tuning datasets can uncover or enhance specific skills, while no single dataset (or combination) provides the best performance across all evaluations. Interestingly, we find that model and human preference-based evaluations fail to reflect differences in model capabilities exposed by benchmark-based evaluations, suggesting the need for the type of systemic evaluation performed in this work. Our evaluations show that the best model in any given evaluation reaches on average 83% of ChatGPT performance, and 68% of GPT-4 performance, suggesting that further investment in building better base models and instruction-tuning data is required to close the gap. We release our instruction-tuned models, including a fully finetuned 65B T\"ulu, along with our code, data, and evaluation framework at https://github.com/allenai/open-instruct to facilitate future research.
翻訳日:2023-06-09 17:41:29 公開日:2023-06-07
# 医用画像用オートmlシステム

AutoML Systems For Medical Imaging ( http://arxiv.org/abs/2306.04750v1 )

ライセンス: Link先を確認
Tasmia Tahmida Jidney, Angona Biswas, MD Abdullah Al Nasim, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Mofazzal Hossain, Dr. Md Azim Ullah(参考訳) 医療画像解析における機械学習の統合は、医師が提供した医療の質を大幅に向上させる。 人間の専門知識とコンピュータシステムの組み合わせにより、診断精度が向上する。 自動機械学習アプローチは、ニューラルネットワーク検索と転送学習技術を利用して、カスタムイメージ認識モデルの作成を単純化する。 医療画像技術は、診断や手続きのために内部臓器や身体部位の画像を非侵襲的に作成するために用いられる。 本稿では, 医療画像におけるAutoMLの潜在的な応用, 戦略, 技術について, 理論的, 実証的証拠を通じて概説する。

The integration of machine learning in medical image analysis can greatly enhance the quality of healthcare provided by physicians. The combination of human expertise and computerized systems can result in improved diagnostic accuracy. An automated machine learning approach simplifies the creation of custom image recognition models by utilizing neural architecture search and transfer learning techniques. Medical imaging techniques are used to non-invasively create images of internal organs and body parts for diagnostic and procedural purposes. This article aims to highlight the potential applications, strategies, and techniques of AutoML in medical imaging through theoretical and empirical evidence.
翻訳日:2023-06-09 17:40:53 公開日:2023-06-07
# XInsight:フローベースの説明付きGNNのためのモデルインサイト

XInsight: Revealing Model Insights for GNNs with Flow-based Explanations ( http://arxiv.org/abs/2306.04791v1 )

ライセンス: Link先を確認
Eli Laird, Ayesh Madushanka, Elfi Kraka, Corey Clark(参考訳) グラフニューラルネットワークの進歩は近年急速に成長し、薬物発見、医学診断、レコメンデーターシステムなど多くの新しい発展を遂げている。 この進歩は重要であるが、多くのネットワークは「ブラックボックス」であり、ネットワークが学習している「何」を正確に理解していない。 薬物発見のような多くの高リスクアプリケーションは、ユーザーがエラーを認識し、新しい知識を見つけるために、モデルから人間の知的な説明を必要とする。 したがって、AIの利点を享受するためには、説明可能なAIアルゴリズムの開発が不可欠である。 本稿では,GFlowNets を用いたモデル説明の分布を生成する eXplainable Insight (XInsight) と呼ばれる GNN のための説明可能性アルゴリズムを提案する。 GFlowNetsは報酬に比例した確率を持つオブジェクトを生成するため、XInsightは最大報酬サンプルのみを学習する従来の方法と比較して、さまざまな説明を生成できる。 我々は、MUTAGデータセットによる変異原性化合物の分類と、オープンソースで公開した合成データセットによる非環状グラフの分類という、2つのグラフ分類タスクで訓練されたGNNの説明を生成することで、XInsightを実証する。 qsarモデルを用いて生成した化合物を解析することにより,xinsightの説明の有用性を示し,変異原性の相関関係が知られている脂肪親和性によって,xinsightが群集する化合物を生成することを見出した。 以上の結果から,xinsightはモデルが示す基礎的な関係を明らかにするための説明の分布を生成する。 また、モデル内の隠れた関係を発見でき、さらなる分析のための貴重なガイダンスを提供するため、多様な説明を生成することの重要性を強調します。

Progress in graph neural networks has grown rapidly in recent years, with many new developments in drug discovery, medical diagnosis, and recommender systems. While this progress is significant, many networks are `black boxes' with little understanding of the `what' exactly the network is learning. Many high-stakes applications, such as drug discovery, require human-intelligible explanations from the models so that users can recognize errors and discover new knowledge. Therefore, the development of explainable AI algorithms is essential for us to reap the benefits of AI. We propose an explainability algorithm for GNNs called eXplainable Insight (XInsight) that generates a distribution of model explanations using GFlowNets. Since GFlowNets generate objects with probabilities proportional to a reward, XInsight can generate a diverse set of explanations, compared to previous methods that only learn the maximum reward sample. We demonstrate XInsight by generating explanations for GNNs trained on two graph classification tasks: classifying mutagenic compounds with the MUTAG dataset and classifying acyclic graphs with a synthetic dataset that we have open-sourced. We show the utility of XInsight's explanations by analyzing the generated compounds using QSAR modeling, and we find that XInsight generates compounds that cluster by lipophilicity, a known correlate of mutagenicity. Our results show that XInsight generates a distribution of explanations that uncovers the underlying relationships demonstrated by the model. They also highlight the importance of generating a diverse set of explanations, as it enables us to discover hidden relationships in the model and provides valuable guidance for further analysis.
翻訳日:2023-06-09 17:33:14 公開日:2023-06-07
# Absformer: Unsupervised Multi-Document Abstractive Summarizationのためのトランスフォーマーベースモデル

Absformer: Transformer-based Model for Unsupervised Multi-Document Abstractive Summarization ( http://arxiv.org/abs/2306.04787v1 )

ライセンス: Link先を確認
Mohamed Trabelsi and Huseyin Uzunalioglu(参考訳) MDS(Multi-document summarization)は、複数の文書のテキストを簡潔な要約に要約するタスクである。 生成された要約は、数文の形で重要なコンテンツを提供することで、多くの文書を読む時間を節約できる。 抽象MDSは、自然言語生成技術を用いて複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。 本稿では,接頭辞サマリーが提供されていない文書しか存在しない教師なしの抽象的mds設定を考察し,教師なしの要約サマリ生成のための新しいトランスフォーマを提案する。 本手法は,文書を意味的に類似したグループにクラスタ化するために,マスク付き言語モデリング(MLM)目標を用いてトランスフォーマーベースのエンコーダを事前訓練する第1ステップと,文書クラスタの抽象的な要約を生成するトランスフォーマーベースのデコーダをトレーニングする第2ステップから構成される。 我々の知る限り、トランスフォーマーベースのモデルをうまく組み込んで、教師なし抽象的MDSタスクを解決するのに成功しました。 我々は,異なるドメインの3つの実世界のデータセットを用いてアプローチを評価し,最先端の抽象的手法による評価指標の大幅な改善と,異なるドメインのデータセットへの一般化を実証した。

Multi-document summarization (MDS) refers to the task of summarizing the text in multiple documents into a concise summary. The generated summary can save the time of reading many documents by providing the important content in the form of a few sentences. Abstractive MDS aims to generate a coherent and fluent summary for multiple documents using natural language generation techniques. In this paper, we consider the unsupervised abstractive MDS setting where there are only documents with no groundtruh summaries provided, and we propose Absformer, a new Transformer-based method for unsupervised abstractive summary generation. Our method consists of a first step where we pretrain a Transformer-based encoder using the masked language modeling (MLM) objective as the pretraining task in order to cluster the documents into semantically similar groups; and a second step where we train a Transformer-based decoder to generate abstractive summaries for the clusters of documents. To our knowledge, we are the first to successfully incorporate a Transformer-based model to solve the unsupervised abstractive MDS task. We evaluate our approach using three real-world datasets from different domains, and we demonstrate both substantial improvements in terms of evaluation metrics over state-of-the-art abstractive-based methods, and generalization to datasets from different domains.
翻訳日:2023-06-09 17:32:49 公開日:2023-06-07
# 解釈可能な深層クラスタリング

Interpretable Deep Clustering ( http://arxiv.org/abs/2306.04785v1 )

ライセンス: Link先を確認
Jonathan Svirsky, Ofir Lindenbaum(参考訳) クラスタリングは、データ分析の第一歩として広く使われている基本的な学習タスクである。 例えば、生物学者はしばしばクラスター割り当てを使ってゲノム配列、医療記録、画像を分析する。 ダウンストリーム分析は一般的にクラスタレベルで実行されるため、実践者は信頼性と解釈可能なクラスタリングモデルを求める。 インスタンスとクラスタレベルで解釈可能なクラスタ割り当てを予測する、新しいディープラーニングフレームワークを提案する。 まず,各データポイントから情報的特徴のサブセットを識別するための自己教師あり手順を提案する。 そして,クラスタ割り当てを予測するモデルと,クラスタレベルの特徴選択につながるゲート行列を設計する。 提案手法は,合成および実データを用いてクラスタ割り当てを確実に予測できることを示す。 さらに,本モデルがサンプルおよびクラスタレベルで解釈可能な結果をもたらすことを検証した。

Clustering is a fundamental learning task widely used as a first step in data analysis. For example, biologists often use cluster assignments to analyze genome sequences, medical records, or images. Since downstream analysis is typically performed at the cluster level, practitioners seek reliable and interpretable clustering models. We propose a new deep-learning framework that predicts interpretable cluster assignments at the instance and cluster levels. First, we present a self-supervised procedure to identify a subset of informative features from each data point. Then, we design a model that predicts cluster assignments and a gate matrix that leads to cluster-level feature selection. We show that the proposed method can reliably predict cluster assignments using synthetic and real data. Furthermore, we verify that our model leads to interpretable results at a sample and cluster level.
翻訳日:2023-06-09 17:32:24 公開日:2023-06-07
# 航空ロボット群を用いた乱流中をナビゲートする学習--協調的深層強化学習アプローチ

Learning to Navigate in Turbulent Flows with Aerial Robot Swarms: A Cooperative Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2306.04781v1 )

ライセンス: Link先を確認
Diego Pati\~no and Siddharth Mayya and Juan Calderon and Kostas Daniilidis and David Salda\~na(参考訳) 乱流環境における空中操作は流れのカオス的挙動のために難しい問題である。 この問題は、空飛ぶロボットチームが乱流風条件下で協調的な動きをしようとするとさらに複雑になる。 本論文では, 乱流中を走行する新しいマルチロボット制御器を提案し, ネスト制御アーキテクチャを用いて乱流補償から軌道追従制御を分離する。 従来の研究とは異なり,本手法では特定の時間と空間における気流の補償は行わない。 代わりに,本手法は,チームに対する効果に基づいて,フローを補償することを学ぶ。 これは、グラフ畳み込みニューラルネットワーク(GCNN)ベースのアーキテクチャによって実装された、深層強化学習アプローチによって実現されている。 我々のアプローチは、大きなロボットチーム – それぞれのロボットが隣人の情報のみを使用するため – に順調に拡大し、トレーニングで見られるよりも大きなロボットチームに一般化します。 シミュレーション実験により, ロボット群における情報共有により乱流補償が向上し, 異なるチーム構成に対する手法の柔軟性が実証された。

Aerial operation in turbulent environments is a challenging problem due to the chaotic behavior of the flow. This problem is made even more complex when a team of aerial robots is trying to achieve coordinated motion in turbulent wind conditions. In this paper, we present a novel multi-robot controller to navigate in turbulent flows, decoupling the trajectory-tracking control from the turbulence compensation via a nested control architecture. Unlike previous works, our method does not learn to compensate for the air-flow at a specific time and space. Instead, our method learns to compensate for the flow based on its effect on the team. This is made possible via a deep reinforcement learning approach, implemented via a Graph Convolutional Neural Network (GCNN)-based architecture, which enables robots to achieve better wind compensation by processing the spatial-temporal correlation of wind flows across the team. Our approach scales well to large robot teams -- as each robot only uses information from its nearest neighbors -- , and generalizes well to robot teams larger than seen in training. Simulated experiments demonstrate how information sharing improves turbulence compensation in a team of aerial robots and demonstrate the flexibility of our method over different team configurations.
翻訳日:2023-06-09 17:32:12 公開日:2023-06-07
# 行動ゲーム理論における損失関数

Loss Functions for Behavioral Game Theory ( http://arxiv.org/abs/2306.04778v1 )

ライセンス: Link先を確認
Greg d'Eon, Sophie Greenwood, Kevin Leyton-Brown, and James Wright(参考訳) 行動ゲーム理論者はみな、人間の行動の予測モデルを評価するために実験データを使用する。 しかし、これらの評価における損失関数の選択は、誤差率、負の対数類似度、クロスエントロピー、ブライアスコア、L2エラーが共通の選択であるなど、大きく異なる。 我々は、損失関数がこのタスクにどのような意味を持つかという問題に対する原理的な答えを提供し、損失関数が満足すべきであると主張するデシデラタを形式化しようとする。 我々は、これらの公理を全て満たし、正方形L2誤差を含む「対角有界ブレグマン発散」をダブする損失関数の族を構築する。 実際、二乗l2エラーは、実際に比較的一般的に使用される唯一の許容される損失であり、行動ゲーム理論家への継続使用を推奨する。

Behavioral game theorists all use experimental data to evaluate predictive models of human behavior. However, they differ greatly in their choice of loss function for these evaluations, with error rate, negative log-likelihood, cross-entropy, Brier score, and L2 error all being common choices. We attempt to offer a principled answer to the question of which loss functions make sense for this task, formalizing desiderata that we argue loss functions should satisfy. We construct a family of loss functions, which we dub "diagonal bounded Bregman divergences", that satisfy all of these axioms and includes the squared L2 error. In fact, the squared L2 error is the only acceptable loss that is relatively commonly used in practice; we thus recommend its continued use to behavioral game theorists.
翻訳日:2023-06-09 17:31:51 公開日:2023-06-07
# 不変因果集合被覆機

Invariant Causal Set Covering Machines ( http://arxiv.org/abs/2306.04777v1 )

ライセンス: Link先を確認
Thibaud Godon, Baptiste Bauvin, Pascal Germain, Jacques Corbeil, Alexandre Drouin(参考訳) 決定木のような規則に基づくモデルは、その解釈可能な性質から実践者にアピールする。 しかし、そのようなモデルを生成する学習アルゴリズムは、しばしば散発的な関連に弱いため、因果関係のある洞察を抽出することは保証されていない。 本研究では, 因果予測文学のアイデアに基づいて, 因果関係を確実に回避する二値規則の結合/分離のための古典的集合被覆マシンアルゴリズムの拡張である不変因果集合被覆マシンを提案する。 本手法が多項式時間に興味のある変数の因果親を同定できることを理論的および実証的に証明する。

Rule-based models, such as decision trees, appeal to practitioners due to their interpretable nature. However, the learning algorithms that produce such models are often vulnerable to spurious associations and thus, they are not guaranteed to extract causally-relevant insights. In this work, we build on ideas from the invariant causal prediction literature to propose Invariant Causal Set Covering Machines, an extension of the classical Set Covering Machine algorithm for conjunctions/disjunctions of binary-valued rules that provably avoids spurious associations. We demonstrate both theoretically and empirically that our method can identify the causal parents of a variable of interest in polynomial time.
翻訳日:2023-06-09 17:31:36 公開日:2023-06-07
# マトリックスの完成度向上のための爆発観測バイアス

Exploiting Observation Bias to Improve Matrix Completion ( http://arxiv.org/abs/2306.04775v1 )

ライセンス: Link先を確認
Sean Mann, Charlotte Park, Devavrat Shah(参考訳) 本稿では,Ma と Chen が導入したモデルに類似したモデルを用いて,入出力をバイアス的に明らかにする行列補完の変種を考える。 一般的にそうであるように、この観察バイアスを不利として扱う代わりに、私たちの目標は、バイアスと関心の結果の間の共有情報を利用して予測を改善することです。 これに対し,我々は単純な二段階アルゴリズムを提案する。 (i) 観測パターンを完全に観測された雑音行列と解釈し、従来の行列補完法を観測パターンに適用し、潜在要因間の距離を推定する。 (II) 得られた特徴を教師あり学習に応用し, 行方不明な観察を示唆する。 我々は,教師付き学習パラメトリックレートと競合する有限サンプル誤差率を確立し,観察されていない共変量へのアクセスに匹敵する学習性能を示唆する。 実世界のデータセットを用いた経験的評価は、従来の行列補完法に比べて平均2乗誤差が30倍小さいという、類似のパフォーマンス向上を反映している。

We consider a variant of matrix completion where entries are revealed in a biased manner, adopting a model akin to that introduced by Ma and Chen. Instead of treating this observation bias as a disadvantage, as is typically the case, our goal is to exploit the shared information between the bias and the outcome of interest to improve predictions. Towards this, we propose a simple two-stage algorithm: (i) interpreting the observation pattern as a fully observed noisy matrix, we apply traditional matrix completion methods to the observation pattern to estimate the distances between the latent factors; (ii) we apply supervised learning on the recovered features to impute missing observations. We establish finite-sample error rates that are competitive with the corresponding supervised learning parametric rates, suggesting that our learning performance is comparable to having access to the unobserved covariates. Empirical evaluation using a real-world dataset reflects similar performance gains, with our algorithm's estimates having 30x smaller mean squared error compared to traditional matrix completion methods.
翻訳日:2023-06-09 17:31:25 公開日:2023-06-07
# refinevis: 時間的注意を細分化したビデオインスタンスセグメンテーション

RefineVIS: Video Instance Segmentation with Temporal Attention Refinement ( http://arxiv.org/abs/2306.04774v1 )

ライセンス: Link先を確認
Andre Abrantes, Jiang Wang, Peng Chu, Quanzeng You, Zicheng Liu(参考訳) 本稿では,ビデオインスタンス分割のためのRefineVIS (VIS) という新しいフレームワークを紹介し,フレームと正確なセグメンテーションマスクの良好なオブジェクト結合を実現する。 RefineVISは、オフザシェルフフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する: フレーム間でオブジェクトを関連付けるためのアソシエーション表現と、正確なセグメンテーションマスクを生成するセグメンテーション表現である。 コントラスト学習は時間的に安定した関連表現を学習するために利用される。 時間的注意改善(tar)モジュールは、時間的関係と新しい時間的対比分別技術を利用して識別的セグメント化表現を学習する。 本手法はオンラインとオフラインの両方の推論をサポートする。 YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。 視覚化によると、TARモジュールはより正確なインスタンスセグメンテーションマスクを生成することができる。

We introduce a novel framework called RefineVIS for Video Instance Segmentation (VIS) that achieves good object association between frames and accurate segmentation masks by iteratively refining the representations using sequence context. RefineVIS learns two separate representations on top of an off-the-shelf frame-level image instance segmentation model: an association representation responsible for associating objects across frames and a segmentation representation that produces accurate segmentation masks. Contrastive learning is utilized to learn temporally stable association representations. A Temporal Attention Refinement (TAR) module learns discriminative segmentation representations by exploiting temporal relationships and a novel temporal contrastive denoising technique. Our method supports both online and offline inference. It achieves state-of-the-art video instance segmentation accuracy on YouTube-VIS 2019 (64.4 AP), Youtube-VIS 2021 (61.4 AP), and OVIS (46.1 AP) datasets. The visualization shows that the TAR module can generate more accurate instance segmentation masks, particularly for challenging cases such as highly occluded objects.
翻訳日:2023-06-09 17:31:08 公開日:2023-06-07
# 完全ガイドおよび位相同期Ti:PPLN導波路の量子センシングへの応用

Fully guided and phase locked Ti:PPLN waveguide squeezing for applications in quantum sensing ( http://arxiv.org/abs/2306.04767v1 )

ライセンス: Link先を確認
Renato Domeneguetti, Michael Stefszky, Harald Herrmann, Christine Silberhorn, Ulrik L. Andersen, Jonas S. Neergaard-Nielsen, and Tobias Gehring(参考訳) 本報告では, チタンを分散した周期的非線形共振器を用いた単モードスクイーズ生成のための完全ガイド構成について報告する。 連続波レーザービームを供給し、圧縮されたフィールドを単モード繊維で回収し、有用なスクイージングの最大3.17(9)dBを繊維で得る。 このようなファイバーカップリング装置の有用性を示すため, 生成した圧縮光をファイバベース位相検出実験に応用し, 0.35dBの信号対雑音比の量子化を図った。 さらに, 共振条件に対する光屈折の影響を調べた結果, 高出力で系の不安定性を引き起こすことが示唆された。

This work reports a fully guided setup for single-mode squeezing generation on integrated titanium-indiffused periodically poled nonlinear resonators. A continuous wave laser beam is delivered and the squeezed field is collected by single-mode fibers, where up to -3.17(9) dB of useful squeezing is available in fibers. To showcase the usefulness of such a fiber-coupled device, we applied the generated squeezed light in a fiber-based phase sensing experiment, showing a quantum enhancement in the signal-to-noise ratio of 0.35 dB. Moreover, our investigation of photorefraction's impact on the cavity resonance condition suggests that it causes system instabilities at high powers.
翻訳日:2023-06-09 17:30:45 公開日:2023-06-07
# 補助知識グラフを用いた$d \gg n$の表層深層学習の実現

Enabling tabular deep learning when $d \gg n$ with an auxiliary knowledge graph ( http://arxiv.org/abs/2306.04766v1 )

ライセンス: Link先を確認
Camilo Ruiz, Hongyu Ren, Kexin Huang, Jure Leskovec(参考訳) 機械学習モデルは、豊富なラベル付きサンプルを持つデータセットで強力なパフォーマンスを示す。 しかし、非常に高い$d$-dimensional機能を持つグラフデータセットでは、制限付き$n$サンプル(例えば$d \gg n$)では、オーバーフィッティングのリスクのため、機械学習モデルは強力なパフォーマンスを達成するのに苦労する。 ここでのキーとなる洞察は、多種多様な知識グラフ(KG)として構造化できる入力特徴を記述する補助的なドメイン情報が多いことである。 入力特徴を記述した補助的なKGを用いて,多層パーセプトロン(MLP)を正規化することにより,$d \gg n$で表データに対して高い性能を実現するPLATOを提案する。 PLATOでは、各入力機能は補助KGのノードに対応する。 mlpの第1層では、各入力特徴も重みベクトルに対応している。 PLATOは、補助KGの類似ノードに対応する2つの入力特徴がMLPの第1層に類似した重みベクトルを持つべきであるという帰納バイアスに基づいている。 platoはこのインダクティブバイアスを、学習可能なメッセージパッシング関数を介してkg内の対応するノードから各入力特徴の重みベクトルを推論することで捉えている。 6$d \gg n$データセットで、platoは13の最先端のベースラインを最大10.19%上回っている。

Machine learning models exhibit strong performance on datasets with abundant labeled samples. However, for tabular datasets with extremely high $d$-dimensional features but limited $n$ samples (i.e. $d \gg n$), machine learning models struggle to achieve strong performance due to the risk of overfitting. Here, our key insight is that there is often abundant, auxiliary domain information describing input features which can be structured as a heterogeneous knowledge graph (KG). We propose PLATO, a method that achieves strong performance on tabular data with $d \gg n$ by using an auxiliary KG describing input features to regularize a multilayer perceptron (MLP). In PLATO, each input feature corresponds to a node in the auxiliary KG. In the MLP's first layer, each input feature also corresponds to a weight vector. PLATO is based on the inductive bias that two input features corresponding to similar nodes in the auxiliary KG should have similar weight vectors in the MLP's first layer. PLATO captures this inductive bias by inferring the weight vector for each input feature from its corresponding node in the KG via a trainable message-passing function. Across 6 $d \gg n$ datasets, PLATO outperforms 13 state-of-the-art baselines by up to 10.19%.
翻訳日:2023-06-09 17:30:33 公開日:2023-06-07
# 統一医療画像セグメンテーションのための生成的テキスト誘導3次元視覚言語前訓練

Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation ( http://arxiv.org/abs/2306.04811v1 )

ライセンス: Link先を確認
Yinda Chen, Che Liu, Wei Huang, Sibo Cheng, Rossella Arcucci, Zhiwei Xiong(参考訳) VLP(Vision-Language Pretraining)は、アノテーションなしで画像のテキスト記述から視覚表現を学ぶ際、顕著な能力を示した。 しかし、有効なVLPは、医療領域で不足するリソースである大規模な画像テキストペアを必要とする。 さらに、従来のvlpは2d画像に限定され、医用画像は3dで多彩なモダリティを包含しているため、学習プロセスがより困難になる。 これらの課題に対処するために、VLPから3D画像までをテキスト記述に頼らずに拡張するGTGM(Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation)を提案する。 特に、gtgmは3d医療画像から医用テキストを生成するために、大言語モデル(llm)を使用している。 この合成テキストは、3D視覚表現学習を監督するために使用される。 さらに,拡張3次元医用画像パッチ間の一貫した視覚的表現を育成し,厳密な正負のサンプルペアリングに関連するバイアスを効果的に軽減するために,ネガティブフリーのコントラスト学習目標戦略を導入した。 x線ct(ct)、mri(mri)、電子顕微鏡(em)の3つの画像モードのgtgmを13以上のデータセットで評価した。 GTGMの様々な医用画像セグメンテーションタスクにおける優れたパフォーマンスは、ペアテキストの必要性を回避しつつ、VLPを3Dの医用画像に拡張することで、その有効性と汎用性を示している。

Vision-Language Pretraining (VLP) has demonstrated remarkable capabilities in learning visual representations from textual descriptions of images without annotations. Yet, effective VLP demands large-scale image-text pairs, a resource that suffers scarcity in the medical domain. Moreover, conventional VLP is limited to 2D images while medical images encompass diverse modalities, often in 3D, making the learning process more challenging. To address these challenges, we present Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation (GTGM), a framework that extends of VLP to 3D medical images without relying on paired textual descriptions. Specifically, GTGM utilizes large language models (LLM) to generate medical-style text from 3D medical images. This synthetic text is then used to supervise 3D visual representation learning. Furthermore, a negative-free contrastive learning objective strategy is introduced to cultivate consistent visual representations between augmented 3D medical image patches, which effectively mitigates the biases associated with strict positive-negative sample pairings. We evaluate GTGM on three imaging modalities - Computed Tomography (CT), Magnetic Resonance Imaging (MRI), and electron microscopy (EM) over 13 datasets. GTGM's superior performance across various medical image segmentation tasks underscores its effectiveness and versatility, by enabling VLP extension into 3D medical imagery while bypassing the need for paired text.
翻訳日:2023-06-09 17:24:41 公開日:2023-06-07
# 相関情報最大化:重み対称性のない深層ニューラルネットワークに対する生物学的にプラザブルなアプローチ

Correlative Information Maximization: A Biologically Plausible Approach to Supervised Deep Neural Networks without Weight Symmetry ( http://arxiv.org/abs/2306.04810v1 )

ライセンス: Link先を確認
Bariscan Bozkurt, Cengiz Pehlevan, Alper T Erdogan(参考訳) バックプロパゲーションアルゴリズムは、大規模な人工ニューラルネットワークのトレーニングで顕著な成功を収めてきたが、その生物学的な評価は議論の余地があり、脳がそれに似た教師付き学習機構を使用しているかどうかには疑問が残る。 本稿では,生体神経ネットワークにおける信号伝達を前方方向と後方方向の両方で記述する手法として,レイヤアクティベーション間の相関情報最大化を提案する。 この新しいフレームワークは、従来のニューラルネットワークとバックプロパゲーションアルゴリズムの生物学的可視性に関する多くの懸念に対処する。 対応する目的の座標降下に基づく最適化は、ラベル付き監督データを取り付ける平均二乗誤差損失関数と組み合わせられ、樹状処理と側方抑制ニューロンによるマルチコンパートメント錐体ニューロンのより生物学的に現実的なネットワークをエミュレートするニューラルネットワーク構造をもたらす。 さらに,本手法は,前方および後方の信号伝搬経路間の重み対称性問題に対する自然な解決法であり,従来のバックプロパゲーションアルゴリズムの可能性に対する重要な批判である。 これは、相関的な相互情報目的の2つの代替形式を活用することで達成される。 これらの代替案は本質的に重量対称性の問題のない前方および後方予測ネットワークに導かれ、この長年の課題に対する説得力のある解決策となった。

The backpropagation algorithm has experienced remarkable success in training large-scale artificial neural networks, however, its biological-plausibility is disputed, and it remains an open question whether the brain employs supervised learning mechanisms akin to it. Here, we propose correlative information maximization between layer activations as an alternative normative approach to describe the signal propagation in biological neural networks in both forward and backward directions. This new framework addresses many concerns about the biological-plausibility of conventional artificial neural networks and the backpropagation algorithm. The coordinate descent-based optimization of the corresponding objective, combined with the mean square error loss function for fitting labeled supervision data, gives rise to a neural network structure that emulates a more biologically realistic network of multi-compartment pyramidal neurons with dendritic processing and lateral inhibitory neurons. Furthermore, our approach provides a natural resolution to the weight symmetry problem between forward and backward signal propagation paths, a significant critique against the plausibility of the conventional backpropagation algorithm. This is achieved by leveraging two alternative, yet equivalent forms of the correlative mutual information objective. These alternatives intrinsically lead to forward and backward prediction networks without weight symmetry issues, providing a compelling solution to this long-standing challenge.
翻訳日:2023-06-09 17:24:10 公開日:2023-06-07
# ブラックボックスシーケンシャル意思決定システムの自律能力評価

Autonomous Capability Assessment of Black-Box Sequential Decision-Making Systems ( http://arxiv.org/abs/2306.04806v1 )

ライセンス: Link先を確認
Pulkit Verma, Rushang Karia, Siddharth Srivastava(参考訳) ユーザは自分のAIシステムに何ができるかを理解し、安全に使用するためには不可能である。 しかし、ユーザが進化するシーケンシャル意思決定(SDM)機能でAIシステムを評価することができるという問題は比較的検討されている。 本稿では,ブラックボックス型aiシステムの計画と動作をモデル化する新しい手法と,それらの能力が確率的な設定で実行するための効果と要件について述べる。 ブラックボックスのSDMシステムと効果的に対話し、その能力を記述する解釈可能な確率モデルを学ぶことができる能動的学習手法を提案する。 エージェントの正しいモデルに学習プロセスが収束することが保証されている条件を理論的に分析し、異なるエージェントに対する経験的評価とシミュレーションシナリオにより、このアプローチがほとんど一般化できず、サンプル効率の良い方法で任意のブラックボックスSDMエージェントの能力を効果的に記述できることを示した。

It is essential for users to understand what their AI systems can and can't do in order to use them safely. However, the problem of enabling users to assess AI systems with evolving sequential decision making (SDM) capabilities is relatively understudied. This paper presents a new approach for modeling the capabilities of black-box AI systems that can plan and act, along with the possible effects and requirements for executing those capabilities in stochastic settings. We present an active-learning approach that can effectively interact with a black-box SDM system and learn an interpretable probabilistic model describing its capabilities. Theoretical analysis of the approach identifies the conditions under which the learning process is guaranteed to converge to the correct model of the agent; empirical evaluations on different agents and simulated scenarios show that this approach is few-shot generalizable and can effectively describe the capabilities of arbitrary black-box SDM agents in a sample-efficient manner.
翻訳日:2023-06-09 17:23:46 公開日:2023-06-07
# IP行列モデルにおけるクリロフ複雑性

Krylov complexity in the IP matrix model ( http://arxiv.org/abs/2306.04805v1 )

ライセンス: Link先を確認
Norihiro Iizuka, Mitsuhiro Nishida(参考訳) IP行列モデルは、隣接高調波発振器と基本高調波発振器からなる単純な大容量N$量子力学モデルである。 これは以前AdSブラックホールのゲージ理論双対のおもちゃモデルとして導入されたモデルである。 大きな n$ 極限では、基本コリレータのシュウィンガー・ダイソン方程式を解くことができ、十分高い温度では、熱分解と情報損失の鍵となるシグネチャを示し、コリレータは時間的に指数関数的に崩壊し、スペクトル密度は連続的かつ空隙なくなっていく。 このモデルにおいて, ランチョス係数をb_n$とし, 十分高い温度下では, 対数補正によりn$で線形に成長し, 一定の条件下では最も速い成長速度の1つである。 その結果、クリロフの複雑性は時間とともに指数関数的に増加する($\sim \exp\left({{\cal{o}}{\left(\sqrt{t}\right) }}\right)。 これらの結果から, 十分に高温のIPモデルはカオスであることが示唆された。

The IP matrix model is a simple large $N$ quantum mechanical model made up of an adjoint harmonic oscillator plus a fundamental harmonic oscillator. It is a model introduced previously as a toy model of the gauge theory dual of an AdS black hole. In the large $N$ limit, one can solve the Schwinger-Dyson equation for the fundamental correlator, and at sufficiently high temperature, this model shows key signatures of thermalization and information loss; the correlator decay exponentially in time, and the spectral density becomes continuous and gapless. We study the Lanczos coefficients $b_n$ in this model and at sufficiently high temperature, it grows linearly in $n$ with logarithmic corrections, which is one of the fastest growth under certain conditions. As a result, the Krylov complexity grows exponentially in time as $\sim \exp\left({{\cal{O}}{\left(\sqrt{t}\right) }}\right)$. These results indicate that the IP model at sufficiently high temperature is chaotic.
翻訳日:2023-06-09 17:23:29 公開日:2023-06-07
# 言語モデルを用いた個人用表データ生成

Privately generating tabular data using language models ( http://arxiv.org/abs/2306.04803v1 )

ライセンス: Link先を確認
Alexandre Sablayrolles, Yue Wang, Brian Karrer(参考訳) テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。 本稿では,表の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案する。 このアプローチは,限界分布に基づく代替手法を好む小規模であっても,複数のデータセットにわたる表データモデリングにおいて,競合的な結果が得られることを示す。

Privately generating synthetic data from a table is an important brick of a privacy-first world. We propose and investigate a simple approach of treating each row in a table as a sentence and training a language model with differential privacy. We show this approach obtains competitive results in modelling tabular data across multiple datasets, even at small scales that favor alternative methods based on marginal distributions.
翻訳日:2023-06-09 17:23:12 公開日:2023-06-07
# 医療のためのナレッジグラフに関する調査 : リソース、アプリケーション、およびpromise

A Survey on Knowledge Graphs for Healthcare: Resources, Applications, and Promises ( http://arxiv.org/abs/2306.04802v1 )

ライセンス: Link先を確認
Hejie Cui, Jiaying Lu, Shiyu Wang, Ran Xu, Wenjing Ma, Shaojun Yu, Yue Yu, Xuan Kan, Chen Ling, Joyce Ho, Fei Wang, Carl Yang(参考訳) 医療知識グラフ(Healthcare knowledge graphs, HKGs)は、医療知識を構造化され解釈可能な方法で組織化するための有望なツールとして登場し、医療概念とその関係を包括的に把握している。 しかし、データの不均一性や範囲の限定といった課題は残っており、hkgの分野でさらなる研究の必要性を強調している。 本研究は,hkgsの包括的概要を初めて概観する。 我々は,hkg構築のためのパイプラインとキー技術(スクラッチから統合まで)と共通利用アプローチ(モデルフリーとモデルベース)を要約する。 研究者に貴重なリソースを提供するため、我々は既存のHKG(リソースはhttps://github.com/lujiaying/Awesome-HealthCare-KnowledgeBaseで利用可能)を、取得したデータタイプとアプリケーションドメインに基づいて整理し、関連する統計情報を補完する。 応用セクションでは、さまざまな医療領域におけるHKGの変革的影響を、詳細な基礎科学研究からハイレベルな臨床決定支援まで、探究する。 最後に,大規模言語モデルの時代における包括的かつ正確なhkg作成の機会に着目し,医療提供に革命をもたらす可能性を示し,臨床予測の解釈可能性と信頼性を高めた。

Healthcare knowledge graphs (HKGs) have emerged as a promising tool for organizing medical knowledge in a structured and interpretable way, which provides a comprehensive view of medical concepts and their relationships. However, challenges such as data heterogeneity and limited coverage remain, emphasizing the need for further research in the field of HKGs. This survey paper serves as the first comprehensive overview of HKGs. We summarize the pipeline and key techniques for HKG construction (i.e., from scratch and through integration), as well as the common utilization approaches (i.e., model-free and model-based). To provide researchers with valuable resources, we organize existing HKGs (The resource is available at https://github.com/lujiaying/Awesome-HealthCare-KnowledgeBase) based on the data types they capture and application domains, supplemented with pertinent statistical information. In the application section, we delve into the transformative impact of HKGs across various healthcare domains, spanning from fine-grained basic science research to high-level clinical decision support. Lastly, we shed light on the opportunities for creating comprehensive and accurate HKGs in the era of large language models, presenting the potential to revolutionize healthcare delivery and enhance the interpretability and reliability of clinical prediction.
翻訳日:2023-06-09 17:23:05 公開日:2023-06-07
# クリフォード摂動理論による量子回路期待値のシミュレーション

Simulating quantum circuit expectation values by Clifford perturbation theory ( http://arxiv.org/abs/2306.04797v1 )

ライセンス: Link先を確認
Tomislav Begu\v{s}i\'c and Kasra Hejazi and Garnet Kin-Lic Chan(参考訳) 量子回路の古典的シミュレーションは、短期の量子デバイスのベンチマークにおいて重要となる。 クリフォード群に属するゲートが古典的コンピュータ上で効率的にシミュレートできるという事実は、非クリフォードゲートの数でのみ指数関数的にスケールする様々な方法の動機となった。 ここでは、クリフォードゲートと非クリフォードパウリ回転からなる回路の期待値問題を考察し、ハイゼンベルク図における指数的に増大するパウリ項の和のトランケーションに基づくヒューリスティックな摂動的アプローチを導入する。 e3lin2問題に対する量子近似最適化アルゴリズム (qaoa) ベンチマークで数値計算を行い, クリフォード回路における局所可観測器のコヒーレントおよび非コヒーレント誤差の定量化に本手法が有効であることを示す。 以上の結果から,本手法は大規模ニアクリフォード回路の期待値の近似化に有効な代替手段であることが示唆された。

The classical simulation of quantum circuits is of central importance for benchmarking near-term quantum devices. The fact that gates belonging to the Clifford group can be simulated efficiently on classical computers has motivated a range of methods that scale exponentially only in the number of non-Clifford gates. Here, we consider the expectation value problem for circuits composed of Clifford gates and non-Clifford Pauli rotations, and introduce a heuristic perturbative approach based on the truncation of the exponentially growing sum of Pauli terms in the Heisenberg picture. Numerical results are shown on a Quantum Approximate Optimization Algorithm (QAOA) benchmark for the E3LIN2 problem and we also demonstrate how this method can be used to quantify coherent and incoherent errors of local observables in Clifford circuits. Our results indicate that this systematically improvable perturbative method offers a viable alternative to exact methods for approximating expectation values of large near-Clifford circuits.
翻訳日:2023-06-09 17:22:38 公開日:2023-06-07
# Sparse Adaptive Bottleneck Centroid-Encoder を用いた特徴選択

Feature Selection using Sparse Adaptive Bottleneck Centroid-Encoder ( http://arxiv.org/abs/2306.04795v1 )

ライセンス: Link先を確認
Tomojit Ghosh, Michael Kirby(参考訳) 2つ以上のクラスを識別する特徴を決定するために,新しい非線形モデルであるsparse adaptive bottleneck centroid-encoder (sabce)を提案する。 本アルゴリズムは,環境空間におけるクラスセンタロイドを再構築しながらグループ内の識別的特徴を抽出し,ボトルネック層に付加的なペナルティ項を用いてクラス内散乱を減少させ,異なるクラスセンタロイドの分離を増加させることを目的としている。 モデルは、入力層に1対1の接続を持つスパーシティプロモーティング層(SPL)を有する。 第一の目的は、入力データから不要な機能をフィルタするスパース層の$l_{2,1}$ノルムを最小化することである。 訓練中, クラスセンタロイドをアップデートし, アダマール積とスパース層の重みを取り, 対象から無関係な特徴を無視することで, クラスセンタロイドを更新した。 そこで,提案手法は,全セントロイドではなく,クラスセントロイドの臨界成分を再構築する。 このアルゴリズムは、生体、画像、音声、加速度センサーデータを含む様々な現実世界のデータセットに適用される。 提案手法を,教師付きコンクリートオートエンコーダ (SCAE) ,特徴選択ネットワーク (FsNet) ,確率ゲート (STG) ,ラッソネット (LassoNet) など,最先端の機能選択技術と比較した。 実験により, SABCEの特徴は, シークエンサーテストセットの他の手法よりも高い分類精度を示し, 新たな結果が得られた。

We introduce a novel nonlinear model, Sparse Adaptive Bottleneck Centroid-Encoder (SABCE), for determining the features that discriminate between two or more classes. The algorithm aims to extract discriminatory features in groups while reconstructing the class centroids in the ambient space and simultaneously use additional penalty terms in the bottleneck layer to decrease within-class scatter and increase the separation of different class centroids. The model has a sparsity-promoting layer (SPL) with a one-to-one connection to the input layer. Along with the primary objective, we minimize the $l_{2,1}$-norm of the sparse layer, which filters out unnecessary features from input data. During training, we update class centroids by taking the Hadamard product of the centroids and weights of the sparse layer, thus ignoring the irrelevant features from the target. Therefore the proposed method learns to reconstruct the critical components of class centroids rather than the whole centroids. The algorithm is applied to various real-world data sets, including high-dimensional biological, image, speech, and accelerometer sensor data. We compared our method to different state-of-the-art feature selection techniques, including supervised Concrete Autoencoders (SCAE), Feature Selection Networks (FsNet), Stochastic Gates (STG), and LassoNet. We empirically showed that SABCE features often produced better classification accuracy than other methods on the sequester test sets, setting new state-of-the-art results.
翻訳日:2023-06-09 17:22:17 公開日:2023-06-07
# モデル, データ, 特徴の相互作用について

On the Joint Interaction of Models, Data, and Features ( http://arxiv.org/abs/2306.04793v1 )

ライセンス: Link先を確認
Yiding Jiang, Christina Baek, J. Zico Kolter(参考訳) データから特徴を学習することは深層学習の特徴の1つであるが、深層学習における特徴が果たす役割に関する理論的理解はまだ初歩的である。 このギャップに対処するために、機能を通してデータとモデル間の相互作用を経験的に分析する新しいツール、インタラクションテンソルを導入する。 インタラクションテンソルでは、機能がどのようにデータに分散され、異なるランダムな種を持つモデルが異なる特徴をどのように学習するかについて、いくつかの重要な観察を行います。 これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。 この枠組みの下では、単一の仮説の期待精度とペア仮説の一致はどちらも閉じた形で導出することができる。 提案手法は,未ラベルデータのみを用いて一般化誤差を推定できるGDE(Generalization Disagreement Equality)など,経験的に観察された現象を説明できることを示す。 さらに,本理論は,gdeを破る自然データ分布の明示的な構成も提供する。 このようにして、この研究は、機能学習に対する理解に価値ある新たな洞察をもたらすと信じています。

Learning features from data is one of the defining characteristics of deep learning, but our theoretical understanding of the role features play in deep learning is still rudimentary. To address this gap, we introduce a new tool, the interaction tensor, for empirically analyzing the interaction between data and model through features. With the interaction tensor, we make several key observations about how features are distributed in data and how models with different random seeds learn different features. Based on these observations, we propose a conceptual framework for feature learning. Under this framework, the expected accuracy for a single hypothesis and agreement for a pair of hypotheses can both be derived in closed-form. We demonstrate that the proposed framework can explain empirically observed phenomena, including the recently discovered Generalization Disagreement Equality (GDE) that allows for estimating the generalization error with only unlabeled data. Further, our theory also provides explicit construction of natural data distributions that break the GDE. Thus, we believe this work provides valuable new insight into our understanding of feature learning.
翻訳日:2023-06-09 17:21:47 公開日:2023-06-07
# 観測因果解析における生成モデルの利用について

On the Use of Generative Models in Observational Causal Analysis ( http://arxiv.org/abs/2306.04792v1 )

ライセンス: Link先を確認
Nimrod Megiddo(参考訳) 観測データの因果分析には仮説生成モデルの利用が提案されている。 特定のモデルのまさに仮定は、ある変数のセットに対するコミットメントであり、それゆえ特定の原因のセットへのコミットメントである。 共同確率分布の推定は、他者の観測値の観点から変数の値を予測するのに有用であるが、因果関係を推定するには不十分である。 このモデルは単一の観測可能な分布を記述しており、観測された分布から逸脱する介入の連鎖はできない。

The use of a hypothetical generative model was been suggested for causal analysis of observational data. The very assumption of a particular model is a commitment to a certain set of variables and therefore to a certain set of possible causes. Estimating the joint probability distribution of can be useful for predicting values of variables in view of the observed values of others, but it is not sufficient for inferring causal relationships. The model describes a single observable distribution and cannot a chain of effects of intervention that deviate from the observed distribution.
翻訳日:2023-06-09 17:21:31 公開日:2023-06-07
# 時間的特徴の類似性予測による実世界ビデオの物体中心学習

Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities ( http://arxiv.org/abs/2306.04829v1 )

ライセンス: Link先を確認
Andrii Zadaianchuk and Maximilian Seitzer and Georg Martius(参考訳) 教師なしのビデオベースのオブジェクト中心学習は、大きなラベルのないビデオコレクションから構造化された表現を学ぶ有望な方法だが、以前のアプローチは制限されたドメインの現実世界のデータセットにしか拡張できなかった。 近年,事前学習した自己教師付き特徴の再構成は,制約のない実世界の画像データセットにオブジェクト中心の表現をもたらすことが示されている。 本稿では,このような事前学習した特徴を時間的特徴類似性損失の形で利用する方法を提案する。 この損失は画像パッチ間の時間的相関を符号化し、物体発見のための動きバイアスを導入する自然な方法である。 この損失が、挑戦的な合成moviデータセットにおける最先端のパフォーマンスをもたらすことを実証する。 特徴再構成損失と組み合わせて使用すると、YouTube-VISのような制約のないビデオデータセットにスケールする最初のオブジェクト中心のビデオモデルとなる。

Unsupervised video-based object-centric learning is a promising avenue to learn structured representations from large, unlabeled video collections, but previous approaches have only managed to scale to real-world datasets in restricted domains. Recently, it was shown that the reconstruction of pre-trained self-supervised features leads to object-centric representations on unconstrained real-world image datasets. Building on this approach, we propose a novel way to use such pre-trained features in the form of a temporal feature similarity loss. This loss encodes temporal correlations between image patches and is a natural way to introduce a motion bias for object discovery. We demonstrate that this loss leads to state-of-the-art performance on the challenging synthetic MOVi datasets. When used in combination with the feature reconstruction loss, our model is the first object-centric video model that scales to unconstrained video datasets such as YouTube-VIS.
翻訳日:2023-06-09 17:13:59 公開日:2023-06-07
# 線形ランダムスパンニング木を用いた高速かつ効果的なGNN訓練

Fast and Effective GNN Training with Linearized Random Spanning Trees ( http://arxiv.org/abs/2306.04828v1 )

ライセンス: Link先を確認
Francesco Bonchi, Claudio Gentile, Andr\'e Panisson, Fabio Vitale(参考訳) グラフ構造化データを用いて,教師付きノード分類タスクにおいて,GNNをトレーニングするための新しい効果的でスケーラブルなフレームワークを提案する。 提案手法は,入力ネットワークから抽出したランダムスパンニング木を線形化することにより得られた経路グラフの列の重み更新操作を改良する。 パスグラフは、元のグラフの本質的なトポロジー情報とノード情報を保持するように設計されている。 同時にパスグラフの幅はより軽量なGNNトレーニングを可能にし、スケーラビリティに加えて、オーバースカッシングやオーバースムーシングといった古典的なトレーニング問題を緩和するのに役立ちます。 我々は,多くの実世界のグラフベンチマークに関する広範な実験を行い,このフレームワークをグラフ畳み込みネットワークに適用し,トレーニング速度とテスト精度を,よく知られたベースラインと比較して同時に改善したことを示す。

We present a new effective and scalable framework for training GNNs in supervised node classification tasks, given graph-structured data. Our approach increasingly refines the weight update operations on a sequence of path graphs obtained by linearizing random spanning trees extracted from the input network. The path graphs are designed to retain essential topological and node information of the original graph. At the same time, the sparsity of path graphs enables a much lighter GNN training which, besides scalability, helps in mitigating classical training issues, like over-squashing and over-smoothing. We carry out an extensive experimental investigation on a number of real-world graph benchmarks, where we apply our framework to graph convolutional networks, showing simultaneous improvement of both training speed and test accuracy, as compared to well-known baselines.
翻訳日:2023-06-09 17:13:47 公開日:2023-06-07
# Sparse Linear Centroid-Encoder:特徴選択のための凸法

Sparse Linear Centroid-Encoder: A Convex Method for Feature Selection ( http://arxiv.org/abs/2306.04824v1 )

ライセンス: Link先を確認
Tomojit Ghosh, Michael Kirby(参考訳) 本稿では,新しい特徴選択手法であるSparse Linear Centroid-Encoder (SLCE)を提案する。 このアルゴリズムは、ある点をそのクラスセントロイドとして再構成するために線形変換を使用し、同時に$\ell_1$-normペナルティを用いて入力データから不要な特徴をフィルタリングする。 最適化問題の元々の定式化は非凸であるが、各ステップが凸である2段階のアプローチを提案する。 最初のステップでは、行列 $A$ 上の凸最適化問題である線形 Centroid-Encoder を解く。 2番目のステップでは、$A$を固定しながら、対角行列の$B$上のスパース解のみを探索する。 Sparse Support Vector MachinesやLassoのような他の線形手法とは異なり、Sparse Linear Centroid-Encoderはマルチクラスデータに単一モデルを使用する。 本稿では,提案モデルの詳細な実験分析を行い,高次元生体データを含む各種データセットのスパーシティを促進することを示す。 実験の結果、slceは最先端のニューラルネットワークに基づく特徴選択技術よりも優れた性能を示すことがわかった。

We present a novel feature selection technique, Sparse Linear Centroid-Encoder (SLCE). The algorithm uses a linear transformation to reconstruct a point as its class centroid and, at the same time, uses the $\ell_1$-norm penalty to filter out unnecessary features from the input data. The original formulation of the optimization problem is nonconvex, but we propose a two-step approach, where each step is convex. In the first step, we solve the linear Centroid-Encoder, a convex optimization problem over a matrix $A$. In the second step, we only search for a sparse solution over a diagonal matrix $B$ while keeping $A$ fixed. Unlike other linear methods, e.g., Sparse Support Vector Machines and Lasso, Sparse Linear Centroid-Encoder uses a single model for multi-class data. We present an in-depth empirical analysis of the proposed model and show that it promotes sparsity on various data sets, including high-dimensional biological data. Our experimental results show that SLCE has a performance advantage over some state-of-the-art neural network-based feature selection techniques.
翻訳日:2023-06-09 17:13:31 公開日:2023-06-07
# 対話システムのスキルルーティングにおけるテールトラフィックロバスト性向上のためのデータ拡張

Data Augmentation for Improving Tail-traffic Robustness in Skill-routing for Dialogue Systems ( http://arxiv.org/abs/2306.04823v1 )

ライセンス: Link先を確認
Ting-Wei Wu, Fatemeh Sheikholeslami, Mohammad Kachuee, Jaeyoung Do, Sungjin Lee(参考訳) 大規模な会話システムは通常、ユーザ要求を適切なスキルと解釈にルーティングするためにスキルルーティングコンポーネントに依存します。 このようなシステムでは、エージェントは何千ものスキルや解釈を提供し、要求の自然な頻度によってロングテールの分布を生み出す。 例えば、演劇音楽に関するサンプルは、劇場のショータイムを求めるものよりも数千倍多い可能性がある。 さらに、MLベースのスキルルーティングに使用される入力は、しばしば文字列、埋め込みベクトル、カテゴリー的およびスカラー的特徴の異種混合であり、拡張ベースのロングテール学習アプローチを困難にしている。 スキルルーティングのロバスト性を改善するため,ロングテールデータシステムにおけるヘテロジニアスなスキルルーティングデータの強化とロバストな操作を目的としたトレーニングを提案する。 条件付きエンコーダ・デコーダ生成フレームワークを多種多用し、元のデータフィールドを乱し、合成トレーニングデータを作成する。 提案手法の有効性を実証するため,商用会話システムからの実世界データを用いた広範囲な実験を行った。 実験結果に基づいて,提案手法は,スキルルーティングレプリケーションタスクにおいて,トラフィックインスタンスが10K未満の意図を80%以上(63点中51点)改善する。

Large-scale conversational systems typically rely on a skill-routing component to route a user request to an appropriate skill and interpretation to serve the request. In such system, the agent is responsible for serving thousands of skills and interpretations which create a long-tail distribution due to the natural frequency of requests. For example, the samples related to play music might be a thousand times more frequent than those asking for theatre show times. Moreover, inputs used for ML-based skill routing are often a heterogeneous mix of strings, embedding vectors, categorical and scalar features which makes employing augmentation-based long-tail learning approaches challenging. To improve the skill-routing robustness, we propose an augmentation of heterogeneous skill-routing data and training targeted for robust operation in long-tail data regimes. We explore a variety of conditional encoder-decoder generative frameworks to perturb original data fields and create synthetic training data. To demonstrate the effectiveness of the proposed method, we conduct extensive experiments using real-world data from a commercial conversational system. Based on the experiment results, the proposed approach improves more than 80% (51 out of 63) of intents with less than 10K of traffic instances in the skill-routing replication task.
翻訳日:2023-06-09 17:13:11 公開日:2023-06-07
# ViViTトレーニングの最適化:行動認識のための時間とメモリ削減

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition ( http://arxiv.org/abs/2306.04822v1 )

ライセンス: Link先を確認
Shreyank N Gowda, Anurag Arnab, Jonathan Huang(参考訳) 本稿では,ビデオトランスのトレーニング時間とメモリ消費がもたらす課題について,ViViT(Video Vision Transformer)モデル,特にFactized Encoderバージョンに着目し,アクション認識タスクのベースラインとして取り上げる。 因子化エンコーダの変種は、多くの最先端のアプローチで採用されている後期融合アプローチに従っている。 ViViTの様々な変種の間で、良好な速度/精度のトレードオフを目論んでいるにもかかわらず、その相当なトレーニング時間とメモリ要件は、依然として導入に重大な障壁となっている。 本手法は, このバリアを低減し, トレーニング中に空間変圧器を凍結するという考え方に基づいている。 これは、素直に行えば、精度の低いモデルにつながる。 しかし,(1)時間変換器(時間情報処理を担当するモジュール)を適切に初期化することにより,(2)凍結した空間表現(入力画像の領域に選択的にフォーカスするモジュール)を時間変換器に接続するコンパクトなアダプタモデルを導入することにより,空間変換器の凍結の利点を,精度を損なうことなく享受できることを示す。 提案したトレーニング戦略は,6ベンチマーク以上の広範な実験を通じて,トレーニングコスト($\sim 50\%$)とメモリ使用量を大幅に削減すると同時に,ベースラインモデルと比較して最大1.79\%の性能向上を図っている。 さらに,空間トランスフォーマーとしてより大きな画像トランスフォーマーモデルを活用する機能や,同じメモリ消費でより多くのフレームにアクセスする機能も備えている。

In this paper, we address the challenges posed by the substantial training time and memory consumption associated with video transformers, focusing on the ViViT (Video Vision Transformer) model, in particular the Factorised Encoder version, as our baseline for action recognition tasks. The factorised encoder variant follows the late-fusion approach that is adopted by many state of the art approaches. Despite standing out for its favorable speed/accuracy tradeoffs among the different variants of ViViT, its considerable training time and memory requirements still pose a significant barrier to entry. Our method is designed to lower this barrier and is based on the idea of freezing the spatial transformer during training. This leads to a low accuracy model if naively done. But we show that by (1) appropriately initializing the temporal transformer (a module responsible for processing temporal information) (2) introducing a compact adapter model connecting frozen spatial representations ((a module that selectively focuses on regions of the input image) to the temporal transformer, we can enjoy the benefits of freezing the spatial transformer without sacrificing accuracy. Through extensive experimentation over 6 benchmarks, we demonstrate that our proposed training strategy significantly reduces training costs (by $\sim 50\%$) and memory consumption while maintaining or slightly improving performance by up to 1.79\% compared to the baseline model. Our approach additionally unlocks the capability to utilize larger image transformer models as our spatial transformer and access more frames with the same memory consumption.
翻訳日:2023-06-09 17:12:50 公開日:2023-06-07
# 良いデータか、大きなデータか、データなしか? バイオメディカルペーパー研究における3つのアプローチの比較

Good Data, Large Data, or No Data? Comparing Three Approaches in Developing Research Aspect Classifiers for Biomedical Papers ( http://arxiv.org/abs/2306.04820v1 )

ライセンス: Link先を確認
Shreya Chandrasekhar, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang(参考訳) 特に新型コロナウイルス(covid-19)パンデミックの間、科学出版物の急速な成長は、研究者が最新の進歩を効率的に理解するためのツールの必要性を強調している。 科学文献を理解する上で重要な要素は研究側面の分類であり、文を背景、目的、方法、発見に分類する。 本研究では,クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響を検討する。 具体的には,大規模で自動計算されたPubMed 200K RCTデータセットを使用することによる潜在的なメリットについて検討し,LLaMA,GPT-3,ChatGPT,GPT-4などの大規模言語モデル(LLM)の有効性を評価する。 その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。 また、GPT-4は良好に機能するが、CODA-19データセット上で調整されたSciBERTモデルよりも優れており、目標タスクに対する専用およびタスク対応データセットの重要性を強調している。 私たちのコードはhttps://github.com/crowd-ai-lab/coda-19-expで利用可能です。

The rapid growth of scientific publications, particularly during the COVID-19 pandemic, emphasizes the need for tools to help researchers efficiently comprehend the latest advancements. One essential part of understanding scientific literature is research aspect classification, which categorizes sentences in abstracts to Background, Purpose, Method, and Finding. In this study, we investigate the impact of different datasets on model performance for the crowd-annotated CODA-19 research aspect classification task. Specifically, we explore the potential benefits of using the large, automatically curated PubMed 200K RCT dataset and evaluate the effectiveness of large language models (LLMs), such as LLaMA, GPT-3, ChatGPT, and GPT-4. Our results indicate that using the PubMed 200K RCT dataset does not improve performance for the CODA-19 task. We also observe that while GPT-4 performs well, it does not outperform the SciBERT model fine-tuned on the CODA-19 dataset, emphasizing the importance of a dedicated and task-aligned datasets dataset for the target task. Our code is available at https://github.com/Crowd-AI-Lab/CODA-19-exp.
翻訳日:2023-06-09 17:12:18 公開日:2023-06-07
# SiBBlInGS:国別グラフを用いた類似性駆動型ビルディングブロック推論

SiBBlInGS: Similarity-driven Building-Block Inference using Graphs across States ( http://arxiv.org/abs/2306.04817v1 )

ライセンス: Link先を確認
Noga Mudrik, Gal Mishne, Adam S. Charles(参考訳) 多次元時系列に基づく意味のあるビルディングブロック(BB)を抽出するための解釈可能な手法は、複雑なシステムにおける貴重な洞察を見つけるのに不可欠である。 しかし、既存の技術は、直交性の仮定への依存、状態間および状態内変動性の不十分な取り込み、様々な期間のセッションを扱うことができないなど、現実のシステムに適用性を制限する限界に遭遇する。 本稿では,状態間のグラフを用いた類似性に基づくビルディングブロック推論のフレームワークを提案する。 SiBBlInGSは、BB発見のためのグラフベースの辞書学習アプローチを採用し、データ内の状態間関係と状態間関係の両方を同時に検討し、非直交成分を抽出し、状態間のセッション数と持続時間の変化を可能にする。 さらに、SiBBlInGSはBB構造と心房内時間変動の交叉変化を可能にし、状態固有のBBと状態不変のBBを識別し、状態間のBB類似性のレベルを制御するための教師付きおよびデータ駆動のアプローチを提供する。 我々は,SiBBlInGSを合成および実世界のデータ上で実証し,複雑な現象のメカニズムとその様々な分野のデータへの適用性についての知見を提供する。

Interpretable methods for extracting meaningful building blocks (BBs) underlying multi-dimensional time series are vital for discovering valuable insights in complex systems. Existing techniques, however, encounter limitations that restrict their applicability to real-world systems, like reliance on orthogonality assumptions, inadequate incorporation of inter- and intra-state variability, and incapability to handle sessions of varying duration. Here, we present a framework for Similarity-driven Building Block Inference using Graphs across States (SiBBlInGS). SiBBlInGS employs a graph-based dictionary learning approach for BB discovery, simultaneously considers both inter- and intra-state relationships in the data, can extract non-orthogonal components, and allows for variations in session counts and duration across states. Additionally, SiBBlInGS allows for cross-state variations in BB structure and per-trial temporal variability, can identify state-specific vs state-invariant BBs, and offers both supervised and data-driven approaches for controlling the level of BB similarity between states. We demonstrate SiBBlInGS on synthetic and real-world data to highlight its ability to provide insights into the underlying mechanisms of complex phenomena and its applicability to data in various fields.
翻訳日:2023-06-09 17:11:59 公開日:2023-06-07
# SGDにおけるカタパルト:訓練損失のスパイクと特徴学習による一般化への影響

Catapults in SGD: spikes in the training loss and their impact on generalization through feature learning ( http://arxiv.org/abs/2306.04815v1 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin(参考訳) 本稿ではまず,ニューラルネットワークを確率勾配降下法(SGD)でトレーニングした場合のトレーニング損失におけるスパイクの共通発生について説明する。 sgdのトレーニング損失のスパイクが「カタパルト」であることを示す。これはもともとgdで観測された最適化現象であり,学習率が高い[lewkowycz et al. 2020]。 これらのカタパルトはgdとsgdの両方において、接核の最上位固有ベクトルにまたがる低次元部分空間に存在することが実証的に示されている。 第2に,カタパルトが,真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示すことによって,カタパルトがより一般化に寄与することを示す。 さらに、SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上することを示した。

In this paper, we first present an explanation regarding the common occurrence of spikes in the training loss when neural networks are trained with stochastic gradient descent (SGD). We provide evidence that the spikes in the training loss of SGD are "catapults", an optimization phenomenon originally observed in GD with large learning rates in [Lewkowycz et al. 2020]. We empirically show that these catapults occur in a low-dimensional subspace spanned by the top eigenvectors of the tangent kernel, for both GD and SGD. Second, we posit an explanation for how catapults lead to better generalization by demonstrating that catapults promote feature learning by increasing alignment with the Average Gradient Outer Product (AGOP) of the true predictor. Furthermore, we demonstrate that a smaller batch size in SGD induces a larger number of catapults, thereby improving AGOP alignment and test performance.
翻訳日:2023-06-09 17:11:37 公開日:2023-06-07
# 知識グラフ補完のための推論ベンチマークの再検討

Revisiting Inferential Benchmarks for Knowledge Graph Completion ( http://arxiv.org/abs/2306.04814v1 )

ライセンス: Link先を確認
Shuwen Liu, Bernardo Cuenca Grau, Ian Horrocks, Egor V. Kostylev(参考訳) 知識グラフ(KG)の完備化は、不完全なKGを不足した事実で拡張する問題である。 KG完了のための機械学習アプローチの重要な特徴は、推論パターンを学習する能力であり、予測された事実は、これらのパターンをKGに適用する結果である。 しかしながら、標準補完ベンチマークは、与えられたKGのランダムな分割であり、従って推論パターンの因果関係を捉えないため、パターンを学習するモデルの能力を評価するのに適していない。 そこで本研究では,KG完了ベンチマークを設計するための新しい手法を提案する。ルールの応用結果であるような論理的ルールのセット,ルールの先行する前提マッチングルールとそれに対応する結論を含むトレーニングセット,ルールをトレーニングセットに適用した結果からなるテストセット,負の例は,ルールセットに関連付けられていない学習ルールからモデルを排除するように設計されている。 我々は,提案手法を用いて,複数のベンチマークを生成し,既存のKG補完システムを広範囲に評価する。 本研究は,既存のモデルが不完全なkgsから推論パターンを誘導する能力に関する新たな知見を提供する。

Knowledge Graph (KG) completion is the problem of extending an incomplete KG with missing facts. A key feature of Machine Learning approaches for KG completion is their ability to learn inference patterns, so that the predicted facts are the results of applying these patterns to the KG. Standard completion benchmarks, however, are not well-suited for evaluating models' abilities to learn patterns, because the training and test sets of these benchmarks are a random split of a given KG and hence do not capture the causality of inference patterns. We propose a novel approach for designing KG completion benchmarks based on the following principles: there is a set of logical rules so that the missing facts are the results of the rules' application; the training set includes both premises matching rule antecedents and the corresponding conclusions; the test set consists of the results of applying the rules to the training set; the negative examples are designed to discourage the models from learning rules not entailed by the rule set. We use our methodology to generate several benchmarks and evaluate a wide range of existing KG completion systems. Our results provide novel insights on the ability of existing models to induce inference patterns from incomplete KGs.
翻訳日:2023-06-09 17:11:18 公開日:2023-06-07
# ループノベルティ世代における人間

Human in the Loop Novelty Generation ( http://arxiv.org/abs/2306.04813v1 )

ライセンス: Link先を確認
Mark Bercasio, Allison Wong, Dustin Dannenhauer(参考訳) 新たな予期せぬ状況を克服するための人工知能アプローチの開発は、難しい未解決の問題である。 斬新な宿泊施設における最先端技術への挑戦の1つは、新しい状況に対するパフォーマンスを評価するためのテストフレームワークが利用可能であることである。 近年のScience BirdsやMonopolyのようなドメインにおける新規性生成アプローチは、検索中に人間のドメインの専門知識を活用して新しい新規性を発見する。 このようなアプローチは、ノベルティ生成が起こる前に人間の指導を導入し、シミュレーション環境に直接ロードできるノベルティを生み出す。 本稿では,ドメイン依存型人間指導を必要としない環境(シミュレーション領域を含む)の抽象モデルを用いた新規性生成手法を提案する。 鍵となる結果は、生成可能なノベルティのより大きな無限の空間であり、トレードオフは、生成後のノベルティの選択とフィルタリングに人間のガイダンスを必要とする要件である。 当社のオープンソースノベルティジェネレーションライブラリを使用して,モノポリーとvisdoomという2つのドメインのベースラインエージェントをテストしています。 提案手法は,モノポリードメインとビズドゥームドメインの両方において,新規性を4時間以内に開発,実装,テスト,修正できることを示す。

Developing artificial intelligence approaches to overcome novel, unexpected circumstances is a difficult, unsolved problem. One challenge to advancing the state of the art in novelty accommodation is the availability of testing frameworks for evaluating performance against novel situations. Recent novelty generation approaches in domains such as Science Birds and Monopoly leverage human domain expertise during the search to discover new novelties. Such approaches introduce human guidance before novelty generation occurs and yield novelties that can be directly loaded into a simulated environment. We introduce a new approach to novelty generation that uses abstract models of environments (including simulation domains) that do not require domain-dependent human guidance to generate novelties. A key result is a larger, often infinite space of novelties capable of being generated, with the trade-off being a requirement to involve human guidance to select and filter novelties post generation. We describe our Human-in-the-Loop novelty generation process using our open-source novelty generation library to test baseline agents in two domains: Monopoly and VizDoom. Our results shows the Human-in-the-Loop method enables users to develop, implement, test, and revise novelties within 4 hours for both Monopoly and VizDoom domains.
翻訳日:2023-06-09 17:10:55 公開日:2023-06-07
# 確率制御におけるオフポリシー評価のための$k$-nearest-neighbor再サンプリング

$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control ( http://arxiv.org/abs/2306.04836v1 )

ライセンス: Link先を確認
Michael Giegrich, Roel Oomen, Christoph Reisinger(参考訳) 異なる方針の下で生成された決定過程のエピソードを含む履歴データから、政策のパフォーマンスを推定するための新しい$k$-nearest neighbor resampling手順を提案する。 我々は,連続的な状態行動空間と選択された行動によって引き起こされるシステムインヒーレント確率性を有する環境における現状に決定論的に依存するフィードバックポリシーに注目した。 このような設定は広範囲の高スループットアプリケーションで一般的であり、確率的制御の文脈で積極的に研究されている。 我々の手順は、類似の状態/作用対(計量的な意味で)が同様の報酬や状態遷移と関連していることを悪用する。 これにより,モンテカルロ法と同様に軌道をシミュレートすることで,オフポリシー評価(ope)に基づく反事実推定問題に対処することができる。 他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。 これらの性質により,提案手法は確率制御環境に特に有用である。 本手法は,弱い前提条件下でのOPE設定におけるポリシーの性能と,独立した遷移ではなくエピソード全体を含むデータセットに対して,統計的に一貫性があることを実証する。 整合性を確立するために,局所平均化に関する非パラメトリック統計学の有名な結果であるストーンの定理を一般化し,エピソードデータとOPEに基づく反実推定を含む。 数値実験により,線形2次制御器,リミットオーダーブックでの取引実行,オンライン確率ビンパッキングなど,様々な確率制御設定におけるアルゴリズムの有効性が示された。

We propose a novel $K$-nearest neighbor resampling procedure for estimating the performance of a policy from historical data containing realized episodes of a decision process generated under a different policy. We focus on feedback policies that depend deterministically on the current state in environments with continuous state-action spaces and system-inherent stochasticity effected by chosen actions. Such settings are common in a wide range of high-stake applications and are actively investigated in the context of stochastic control. Our procedure exploits that similar state/action pairs (in a metric sense) are associated with similar rewards and state transitions. This enables our resampling procedure to tackle the counterfactual estimation problem underlying off-policy evaluation (OPE) by simulating trajectories similarly to Monte Carlo methods. Compared to other OPE methods, our algorithm does not require optimization, can be efficiently implemented via tree-based nearest neighbor search and parallelization and does not explicitly assume a parametric model for the environment's dynamics. These properties make the proposed resampling algorithm particularly useful for stochastic control environments. We prove that our method is statistically consistent in estimating the performance of a policy in the OPE setting under weak assumptions and for data sets containing entire episodes rather than independent transitions. To establish the consistency, we generalize Stone's Theorem, a well-known result in nonparametric statistics on local averaging, to include episodic data and the counterfactual estimation underlying OPE. Numerical experiments demonstrate the effectiveness of the algorithm in a variety of stochastic control settings including a linear quadratic regulator, trade execution in limit order books and online stochastic bin packing.
翻訳日:2023-06-09 17:03:00 公開日:2023-06-07
# インダクティビティによるグラフニューラルネットワーク上の反事実推論の強化

Empowering Counterfactual Reasoning over Graph Neural Networks through Inductivity ( http://arxiv.org/abs/2306.04835v1 )

ライセンス: Link先を確認
Samidha Verma, Burouj Armgaan, Sourav Medya, Sayan Ranu(参考訳) グラフニューラルネットワーク(GNN)には、薬物発見、レコメンデーションエンジン、チップ設計など、さまざまな実用的応用がある。 しかし、GNNは、予測に対する理解可能な説明を提供することができないため、透明性を欠いている。 この問題に対処するために、反事実推論が用いられる。 主な目標は、予測を変更するために、GNNの入力グラフに最小限の変更を加えることである。 GNNの反実的説明のためにいくつかのアルゴリズムが提案されているが、そのほとんどは2つの主な欠点がある。 まず、エッジ削除を摂動としてのみ考える。 第二に、反実的説明モデルはトランスダクティブであり、つまり、見当たらないデータに一般化しない。 本研究では,これらの制約を克服する帰納的アルゴリズムであるinductionを導入する。 いくつかのデータセットに対して広範な実験を行うことで、エッジの追加を組み込むことで、既存の手法よりも優れた結果が得られることを示す。 さらに、インダクティブ・モデリングのアプローチにより、INDUCEはインスタンス固有のトレーニングを必要とせずに、対実的摂動を直接予測できる。 これにより、ベースライン法と比較して計算速度が大幅に向上し、GNNに対するスケーラブルな対実解析が可能となった。

Graph neural networks (GNNs) have various practical applications, such as drug discovery, recommendation engines, and chip design. However, GNNs lack transparency as they cannot provide understandable explanations for their predictions. To address this issue, counterfactual reasoning is used. The main goal is to make minimal changes to the input graph of a GNN in order to alter its prediction. While several algorithms have been proposed for counterfactual explanations of GNNs, most of them have two main drawbacks. Firstly, they only consider edge deletions as perturbations. Secondly, the counterfactual explanation models are transductive, meaning they do not generalize to unseen data. In this study, we introduce an inductive algorithm called INDUCE, which overcomes these limitations. By conducting extensive experiments on several datasets, we demonstrate that incorporating edge additions leads to better counterfactual results compared to the existing methods. Moreover, the inductive modeling approach allows INDUCE to directly predict counterfactual perturbations without requiring instance-specific training. This results in significant computational speed improvements compared to baseline methods and enables scalable counterfactual analysis for GNNs.
翻訳日:2023-06-09 17:02:33 公開日:2023-06-07
# 水中画像のための半教師付き物体検出アルゴリズム

A Semi-supervised Object Detection Algorithm for Underwater Imagery ( http://arxiv.org/abs/2306.04834v1 )

ライセンス: Link先を確認
Suraj Bijjahalli, Oscar Pizarro, and Stefan B. Williams(参考訳) AUV(Autonomous Underwater Vehicles)が収集した水中画像から人工物体を検出することは、多くの海底探査において重要な要件である。 現実世界のAUV画像データセットは非常に大きく、遅延しない傾向にある。 さらに、このようなデータセットは通常、不均衡であり、特にシーン内の異常なオブジェクトを検索する際に、関心のあるオブジェクトのインスタンスがほとんど含まれない。 したがって、これらの物体を確実に検出できるモデルに適合することは困難である。 これらの要因を考慮し,人工物体を異常として扱い,変分オートエンコーダ(vaes)に基づく半教師付きフレームワークを用いて検出する。 学習した低次元潜在空間における画像データをクラスタリングし,異常な特徴を含む可能性のある画像を抽出する手法を開発した。 また画像の貧弱な再構成領域の抽出に基づく異常スコアも考案した。 大規模な画像データセットに両方の手法を適用することで、人間のオペレーターが興味のある対象を特定するために、偽陽性率の低い候補サンプルを提示できることを実証する。 我々は,AUVが収集した実際の海底画像にアプローチを適用し,VAEが使用する潜水表現の次元に対する感度を評価する。 精度・リコールトレードオフを評価し,適切な潜在次元としきい値を選択することで,ラベルなしデータセットで平均0.64の精度が得られることを示す。

Detection of artificial objects from underwater imagery gathered by Autonomous Underwater Vehicles (AUVs) is a key requirement for many subsea applications. Real-world AUV image datasets tend to be very large and unlabelled. Furthermore, such datasets are typically imbalanced, containing few instances of objects of interest, particularly when searching for unusual objects in a scene. It is therefore, difficult to fit models capable of reliably detecting these objects. Given these factors, we propose to treat artificial objects as anomalies and detect them through a semi-supervised framework based on Variational Autoencoders (VAEs). We develop a method which clusters image data in a learned low-dimensional latent space and extracts images that are likely to contain anomalous features. We also devise an anomaly score based on extracting poorly reconstructed regions of an image. We demonstrate that by applying both methods on large image datasets, human operators can be shown candidate anomalous samples with a low false positive rate to identify objects of interest. We apply our approach to real seafloor imagery gathered by an AUV and evaluate its sensitivity to the dimensionality of the latent representation used by the VAE. We evaluate the precision-recall tradeoff and demonstrate that by choosing an appropriate latent dimensionality and threshold, we are able to achieve an average precision of 0.64 on unlabelled datasets.
翻訳日:2023-06-09 17:02:16 公開日:2023-06-07
# etsy検索における統一埋め込みに基づくパーソナライズ検索

Unified Embedding Based Personalized Retrieval in Etsy Search ( http://arxiv.org/abs/2306.04833v1 )

ライセンス: Link先を確認
Rishikesh Jha, Siddharth Subramaniyam, Ethan Benjamin, Thrivikrama Taula(参考訳) 埋め込み型ニューラルネットワークは、テールクエリの製品検索でしばしば発生する意味的ギャップ問題に対処するための一般的なアプローチである。 対照的に、一般的なクエリは一般的にコンテキストを欠き、ユーザの過去のインタラクションから追加のコンテキストが役に立つような広い意図を持っている。 本稿では,この2つを解決するための新しいアプローチについて述べる。セマンティックギャップ問題と,パーソナライズされたセマンティクス検索のためのエンドツーエンドトレーニングモデルである。 我々は,グラフ,トランスフォーマー,タームベース組込みをエンドツーエンドに組み込んだ統一組込みモデルを学習し,性能と効率の最適トレードオフのための設計選択を共有する。 我々は、機能工学、ハードネガティブサンプリング戦略、トランスフォーマーモデルの適用に関する知見を共有し、新しい事前学習戦略や、検索関連性を改善し、そのようなモデルを産業規模で展開するための他の手法を含む。 我々のパーソナライズされた検索モデルは、検索購入率の5.58%、サイト全体のコンバージョン率の2.63%、複数のA/Bテストにまたがるライブトラフィックにおいて、検索体験を著しく改善する。

Embedding-based neural retrieval is a prevalent approach to address the semantic gap problem which often arises in product search on tail queries. In contrast, popular queries typically lack context and have a broad intent where additional context from users historical interaction can be helpful. In this paper, we share our novel approach to address both: the semantic gap problem followed by an end to end trained model for personalized semantic retrieval. We propose learning a unified embedding model incorporating graph, transformer and term-based embeddings end to end and share our design choices for optimal tradeoff between performance and efficiency. We share our learnings in feature engineering, hard negative sampling strategy, and application of transformer model, including a novel pre-training strategy and other tricks for improving search relevance and deploying such a model at industry scale. Our personalized retrieval model significantly improves the overall search experience, as measured by a 5.58% increase in search purchase rate and a 2.63% increase in site-wide conversion rate, aggregated across multiple A/B tests - on live traffic.
翻訳日:2023-06-09 17:01:56 公開日:2023-06-07
# 無線地図再構成のための部分ラベルデータを用いた深層学習

Deep Learning with Partially Labeled Data for Radio Map Reconstruction ( http://arxiv.org/abs/2306.05294v1 )

ライセンス: Link先を確認
Alkesandra Malkova and Massih-Reza Amini and Benoit Denis and Christophe Villien(参考訳) 本稿では,位置に依存した電波測定に基づく受信信号強度マップの再構築と地域情報,例えば都市計画,地形の高さ,入口位置などを活用することの課題に対処する。 このような事前のサイド情報の量に応じて、ニューラルネットワーク探索を用いて、想定される各設定に最適なアーキテクチャを持つ最適化されたニューラルネットワークモデルを見つける。 本研究では,受信信号強度マップを3つの主要都市に対応する3つのデータセット,特に平均受信信号パワーのばらつきが観測されるゲートウェイ付近の地域において,追加のサイド情報を用いることにより,受信信号強度マップ再構成の最終精度を高めることを実証する。

In this paper, we address the problem of Received Signal Strength map reconstruction based on location-dependent radio measurements and utilizing side knowledge about the local region; for example, city plan, terrain height, gateway position. Depending on the quantity of such prior side information, we employ Neural Architecture Search to find an optimized Neural Network model with the best architecture for each of the supposed settings. We demonstrate that using additional side information enhances the final accuracy of the Received Signal Strength map reconstruction on three datasets that correspond to three major cities, particularly in sub-areas near the gateways where larger variations of the average received signal power are typically observed.
翻訳日:2023-06-09 13:34:51 公開日:2023-06-07
# UNIDECOR:クロスコルプス偽装検出用統一偽装コーパス

UNIDECOR: A Unified Deception Corpus for Cross-Corpus Deception Detection ( http://arxiv.org/abs/2306.02827v2 )

ライセンス: Link先を確認
Aswathy Velutharambath and Roman Klinger(参考訳) 心理学、法医学、計算言語学において、行動パターンの理解、偽証の特定、オンラインコミュニケーションにおける偽証の検出など、様々な理由で研究されている。 研究分野にまたがるモチベーションの変化は、学習するドメインの選択と、デセプションの概念化の違いにつながり、モデルの比較や、与えられた言語に対する堅牢なデセプション検出システムの構築が困難になる。 本稿では,ソーシャルメディアレビュー,裁判所証言,特定の話題に対する意見陳述,オンライン戦略ゲームからの偽装対話などのドメインを含む,利用可能な英語の偽装データセットを調査し,この状況を改善する。 これらのデータセットを単一の統一コーパスに統合する。 この資料に基づいて,データセット間での誤認の言語的方法の相関解析を行い,その違いを理解し,クロスドメインの一般化が困難であることを示すクロスコーパスモデリング実験を行う。 統一偽装コーパス(UNIDECOR)はhttps://www.ims.uni-stuttgart.de/data/unidecorから得ることができる。

Verbal deception has been studied in psychology, forensics, and computational linguistics for a variety of reasons, like understanding behaviour patterns, identifying false testimonies, and detecting deception in online communication. Varying motivations across research fields lead to differences in the domain choices to study and in the conceptualization of deception, making it hard to compare models and build robust deception detection systems for a given language. With this paper, we improve this situation by surveying available English deception datasets which include domains like social media reviews, court testimonials, opinion statements on specific topics, and deceptive dialogues from online strategy games. We consolidate these datasets into a single unified corpus. Based on this resource, we conduct a correlation analysis of linguistic cues of deception across datasets to understand the differences and perform cross-corpus modeling experiments which show that a cross-domain generalization is challenging to achieve. The unified deception corpus (UNIDECOR) can be obtained from https://www.ims.uni-stuttgart.de/data/unidecor.
翻訳日:2023-06-09 10:56:05 公開日:2023-06-07
# 機械学習パイプラインの責任ある設計パターン

Responsible Design Patterns for Machine Learning Pipelines ( http://arxiv.org/abs/2306.01788v3 )

ライセンス: Link先を確認
Saud Hakem Al Harbi, Lionel Nganyewou Tidjon and Foutse Khomh(参考訳) 人工知能(AI)のためのAI開発プロセスに倫理的プラクティスを統合することは、安全で公平で責任ある操作を保証するために不可欠である。 AI倫理には、AIシステムのライフサイクル全体に倫理的原則を適用することが含まれる。 これは、アルゴリズムバイアスのようなAIに関連する潜在的なリスクと害を軽減するために不可欠である。 この目標を達成するために、責任あるデザインパターン(RDP)は、倫理的かつ公正な結果を保証するために機械学習(ML)パイプラインにとって不可欠である。 本稿では,リスクを軽減し,AIシステムの倫理的発展を保証するため,RTPをMLパイプラインに組み込んだ包括的なフレームワークを提案する。 我々のフレームワークは、AI倫理とデータ管理の専門家の調査を通じて特定されたMLパイプラインのための新しい責任あるAI設計パターンで構成され、専門家のフィードバックで現実のシナリオを通して検証される。 このフレームワークは、AI開発者、データサイエンティスト、政策立案者に対して、AI開発に倫理的プラクティスを実践し、責任あるAIシステムを本番環境にデプロイするように誘導する。

Integrating ethical practices into the AI development process for artificial intelligence (AI) is essential to ensure safe, fair, and responsible operation. AI ethics involves applying ethical principles to the entire life cycle of AI systems. This is essential to mitigate potential risks and harms associated with AI, such as algorithm biases. To achieve this goal, responsible design patterns (RDPs) are critical for Machine Learning (ML) pipelines to guarantee ethical and fair outcomes. In this paper, we propose a comprehensive framework incorporating RDPs into ML pipelines to mitigate risks and ensure the ethical development of AI systems. Our framework comprises new responsible AI design patterns for ML pipelines identified through a survey of AI ethics and data management experts and validated through real-world scenarios with expert feedback. The framework guides AI developers, data scientists, and policy-makers to implement ethical practices in AI development and deploy responsible AI systems in production.
翻訳日:2023-06-09 10:55:28 公開日:2023-06-07
# ROIPCA:ランクワン更新に基づくオンラインメモリ制限PCAアルゴリズム

ROIPCA: An online memory-restricted PCA algorithm based on rank-one updates ( http://arxiv.org/abs/1911.11049v2 )

ライセンス: Link先を確認
Roy Mitz, Yoel Shkolnisky(参考訳) 主成分分析(PCA)はデータ解析の基本的なアルゴリズムである。 そのメモリ制限付きオンラインバージョンは、データがメモリに収まるには大きすぎる、あるいはデータがアイテムのストリームとして到着する、多くのモダンなアプリケーションで有用である。 本稿では,ランクワン更新に基づく2つのオンラインPCAアルゴリズムであるROIPCAとfROIPCAを提案する。 ROIPCAは一般的により正確であるが、fROIPCAは高速で同等の精度を持つ。 オンラインPCAにおけるfROIPCAと既存の勾配アルゴリズムの関係を示し、特に、fROIPCAが学習速度が最適である勾配アルゴリズムであることを証明した。 我々は,既存の最先端アルゴリズムに対するアルゴリズムの利点を,精度と実行性の観点から数値的に示す。

Principal components analysis (PCA) is a fundamental algorithm in data analysis. Its memory-restricted online versions are useful in many modern applications, where the data are too large to fit in memory, or when data arrive as a stream of items. In this paper, we propose ROIPCA and fROIPCA, two online PCA algorithms that are based on rank-one updates. While ROIPCA is typically more accurate, fROIPCA is faster and has comparable accuracy. We show the relation between fROIPCA and an existing popular gradient algorithm for online PCA, and in particular, prove that fROIPCA is in fact a gradient algorithm with an optimal learning rate. We demonstrate numerically the advantages of our algorithms over existing state-of-the-art algorithms in terms of accuracy and runtime.
翻訳日:2023-06-08 20:56:31 公開日:2023-06-07
# パネル回帰モデルの核規範正規化推定

Nuclear Norm Regularized Estimation of Panel Regression Models ( http://arxiv.org/abs/1810.10987v3 )

ライセンス: Link先を確認
Hyungsik Roger Moon, Martin Weidner(参考訳) 本稿では,インタラクティブな固定効果を有するパネル回帰モデルについて検討する。 凸目的関数の最小化に基づく2つの新しい推定法を提案する。 最初の方法は、核(トレース)ノルム正規化による正方形残差の和を最小化する。 第2の方法は残差の核ノルムを最小化する。 得られた2つの推定値の整合性を確立する。 これらの推定器は、凸目的関数の最小値として定義されるため、既存の最小二乗(LS)推定器と比較して非常に重要な計算上の優位性を持つ。 さらに、核規範のペナリゼーションは、相互作用的固定効果モデル、特にレグレプターが低ランクで要因の数が不明な場合の潜在的な識別問題を解決するのに役立つ。 また,ベイ (2009) とムーン・アンド・ウェイドナー (2017) の最小二乗推定器 (LS) と漸近的に同値な推定器を,有限個のLS最小イテレーションステップの初期値として,我々の核ノルムを用いて構築する方法を示す。 この反復は非凸最小化を回避するが、元のLS推定問題は一般に非凸であり、複数の局所ミニマを持つことができる。

In this paper we investigate panel regression models with interactive fixed effects. We propose two new estimation methods that are based on minimizing convex objective functions. The first method minimizes the sum of squared residuals with a nuclear (trace) norm regularization. The second method minimizes the nuclear norm of the residuals. We establish the consistency of the two resulting estimators. Those estimators have a very important computational advantage compared to the existing least squares (LS) estimator, in that they are defined as minimizers of a convex objective function. In addition, the nuclear norm penalization helps to resolve a potential identification problem for interactive fixed effect models, in particular when the regressors are low-rank and the number of the factors is unknown. We also show how to construct estimators that are asymptotically equivalent to the least squares (LS) estimator in Bai (2009) and Moon and Weidner (2017) by using our nuclear norm regularized or minimized estimators as initial values for a finite number of LS minimizing iteration steps. This iteration avoids any non-convex minimization, while the original LS estimation problem is generally non-convex, and can have multiple local minima.
翻訳日:2023-06-08 20:56:20 公開日:2023-06-07
# 周期的量子ウォークを誘導する正則グラフの組合せ必要条件

Combinatorial necessary conditions for regular graphs to induce periodic quantum walks ( http://arxiv.org/abs/2106.00166v2 )

ライセンス: Link先を確認
Sho Kubota(参考訳) 正規混合グラフで定義される離散時間量子ウォークの組合せ必要条件を周期的に導出する。 量子ウォークが周期的であれば、時間発展行列のすべての固有値は代数整数でなければならない。 この点に着目し,特性多項式の係数がどの環に属するべきかを考察する。 一方、$\eta$-Hermitian adjacency matrice の特徴多項式の係数は組合せ的含意を持つ。 これらのことから、時間発展行列の特徴多項式の係数に組合せ的含意を見出すことができ、したがって混合グラフが周期的であるためには組合せ的必要条件を導出することができる。 例えば、$k$-regular mixed graph with $n$ vertices が周期的であるなら、$n/k$ は整数でなければならない。 この研究の応用として、頂点数の素数を持つ混合完全グラフと混合グラフの周期性を決定する。

We derive combinatorial necessary conditions for discrete-time quantum walks defined by regular mixed graphs to be periodic. If the quantum walk is periodic, all the eigenvalues of the time evolution matrices must be algebraic integers. Focusing on this, we explore which ring the coefficients of the characteristic polynomials should belong to. On the other hand, the coefficients of the characteristic polynomials of $\eta$-Hermitian adjacency matrices have combinatorial implications. From these, we can find combinatorial implications in the coefficients of the characteristic polynomials of the time evolution matrices, and thus derive combinatorial necessary conditions for mixed graphs to be periodic. For example, if a $k$-regular mixed graph with $n$ vertices is periodic, then $2n/k$ must be an integer. As an application of this work, we determine periodicity of mixed complete graphs and mixed graphs with a prime number of vertices.
翻訳日:2023-06-08 20:52:56 公開日:2023-06-07
# カーネルの薄型化

Kernel Thinning ( http://arxiv.org/abs/2105.05842v9 )

ライセンス: Link先を確認
Raaz Dwivedi, Lester Mackey(参考訳) 我々は,分散$\mathbb{p}$をi.i.d.サンプリングや標準薄型化よりも効果的に圧縮する新しい手法であるkernel thinningを導入する。 適切な再生成カーネル $\mathbf{k}_{\star}$ と $\mathcal{o}(n^2)$ time が与えられると、カーネル・シンニングは$n$-point 近似を$\mathbb{p}$ に圧縮し、関連する再生成カーネル hilbert 空間をまたいだ最悪のケース統合エラーと一致する$\sqrt{n}$-point 近似を与える。 積分誤差の最大誤差は$\mathcal{o}_d(n^{-1/2}\sqrt{\log n})$で、コンパクトにサポートされている$\mathbb{p}$と$\mathcal{o}_d(n^{-\frac{1}{2}} (\log n)^{(d+1)/2}\sqrt{\log\log n})$ for sub-exponential $\mathbb{p}$ on $\mathbb{r}^d$である。 対照的に、$\mathbb{P}$の等サイズのi.d.サンプルは$\Omega(n^{-1/4})$積分誤差を被る。 このサブ指数保証は、$[0,1]^d$ で一様$\mathbb{p}$ の古典的な準モンテカルロ誤差率に似ているが、$\mathbb{r}^d$ の一般分布と幅広い共通カーネルに適用できる。 さらに、同じ構成は、ほぼ最適の$L^\infty$ coresetsを$\mathcal O(n^2)$ timeで提供する。 我々は,gaussian,mat\'ern,b-splineカーネルの非漸近的最大平均偏差を明示的に導出し,i.i.d.サンプリングおよび標準マルコフ連鎖モンテカルロ薄型化におけるカーネル薄型化の実用的利点を示す2つのvignetteを,$d=2$から$100$の次元で提示する。

We introduce kernel thinning, a new procedure for compressing a distribution $\mathbb{P}$ more effectively than i.i.d. sampling or standard thinning. Given a suitable reproducing kernel $\mathbf{k}_{\star}$ and $\mathcal{O}(n^2)$ time, kernel thinning compresses an $n$-point approximation to $\mathbb{P}$ into a $\sqrt{n}$-point approximation with comparable worst-case integration error across the associated reproducing kernel Hilbert space. The maximum discrepancy in integration error is $\mathcal{O}_d(n^{-1/2}\sqrt{\log n})$ in probability for compactly supported $\mathbb{P}$ and $\mathcal{O}_d(n^{-\frac{1}{2}} (\log n)^{(d+1)/2}\sqrt{\log\log n})$ for sub-exponential $\mathbb{P}$ on $\mathbb{R}^d$. In contrast, an equal-sized i.i.d. sample from $\mathbb{P}$ suffers $\Omega(n^{-1/4})$ integration error. Our sub-exponential guarantees resemble the classical quasi-Monte Carlo error rates for uniform $\mathbb{P}$ on $[0,1]^d$ but apply to general distributions on $\mathbb{R}^d$ and a wide range of common kernels. Moreover, the same construction delivers near-optimal $L^\infty$ coresets in $\mathcal O(n^2)$ time. We use our results to derive explicit non-asymptotic maximum mean discrepancy bounds for Gaussian, Mat\'ern, and B-spline kernels and present two vignettes illustrating the practical benefits of kernel thinning over i.i.d. sampling and standard Markov chain Monte Carlo thinning, in dimensions $d=2$ through $100$.
翻訳日:2023-06-08 20:52:42 公開日:2023-06-07
# ほぼ同期量子相関

Almost synchronous quantum correlations ( http://arxiv.org/abs/2103.02468v3 )

ライセンス: Link先を確認
Thomas Vidick(参考訳) 1980年代にツィレルソンによって始められた量子相関集合の研究は、量子力学の基礎における疑問に動機付けられ、近年では量子暗号学、複雑性理論、作用素空間理論、群論などの問題に結びついている。 Paulsen et. al, JFA 2016] で導入された同期相関集合は、特に研究に有用であることが証明され、応用において自然に現れる相関のサブクラスである。 自然な$\ell_1$ の意味でほぼ同期的な相関関係は、最大に絡み合った状態における射影計測の凸結合によって近似された状態と測定演算子から生じる。 これは[paulsen et. al, jfa 2016]の結果を拡張したものである。 重要なことに、近似の質はヒルベルト空間の次元や相関の大きさとは独立である。 この結果により、剛性特性を含む多くの非局所ゲームの解析を、一般に操作し易い最大絡み合った状態を用いた戦略の場合に行うことができる。

The study of quantum correlation sets initiated by Tsirelson in the 1980s and originally motivated by questions in the foundations of quantum mechanics has more recently been tied to questions in quantum cryptography, complexity theory, operator space theory, group theory, and more. Synchronous correlation sets introduced in [Paulsen et. al, JFA 2016] are a subclass of correlations that has proven particularly useful to study and arises naturally in applications. We show that any correlation that is almost synchronous, in a natural $\ell_1$ sense, arises from a state and measurement operators that are well-approximated by a convex combination of projective measurements on a maximally entangled state. This extends a result of [Paulsen et. al, JFA 2016] which applies to exactly synchronous correlations. Crucially, the quality of approximation is independent of the dimension of the Hilbert spaces or of the size of the correlation. Our result allows one to reduce the analysis of many classes of nonlocal games, including rigidity properties, to the case of strategies using maximally entangled states which are generally easier to manipulate.
翻訳日:2023-06-08 20:51:58 公開日:2023-06-07
# ヘラルドフォック状態を用いた顕微鏡

Microscopy with heralded Fock states ( http://arxiv.org/abs/2011.03056v2 )

ライセンス: Link先を確認
Maria Gieysztor, Joshua Nepinak, Christopher J. Pugh, Piotr Kolenderski(参考訳) 我々は、量子光を照明に用いる顕微鏡環境を考える。 自発パラメトリックダウン変換(SPDC)は、フォック状態に調製された量子光である隠蔽された単一光子の源として用いられる。 本研究では,空間モード追跡のための解析式と非階層モード幅について述べる。 得られた解析結果は,有限サイズの光学系や有限サイズの単光子検出器などの現実的な設定パラメータを考慮した数値計算によって支持される。 これにより、回折限界が光子損失を緩和し、信号対雑音比(量子光の実用的応用を制限する因子)が増加するのを観測できる。 また、顕微鏡対象への入力時の単一光子の空間モードプロファイルの振幅と位相を慎重に準備することにより、空間分解能を操作できることが示されている。 ここでは、二光子波動関数や適応光学の空間絡みを空間モード整形に適用することができる。 インシデントと集中型空間モードプロファイルパラメータ間の分析的依存関係が提供される。

We consider a microscopy setting where quantum light is used for illumination. Spontaneous parametric down conversion (SPDC) is used as a source of a heralded single photon, which is quantum light prepared in a Fock state. We present analytical formulas for the spatial mode tracking along with the heralded and non-heralded mode widths. The obtained analytical results are supported by numerical calculations and the following discussion taking into account realistic setup parameters such as finite-size optics and finite-size single-photon detectors. This allows us to observe that the diffraction limit can be approached with simultaneous alleviation of the photon loss leading to increased signal-to-noise ratio - a factor limiting practical applications of quantum light. Additionally, it is shown that the spatial resolution can be manipulated by carefully preparing the amplitude and phase of the spatial mode profile of the single photon at the input to the microscope objective. Here, the spatial entanglement of the biphoton wavefunction or adaptive optics can be applied for spatial mode shaping. Analytical dependencies between the incident and focused spatial mode profiles parameters are provided.
翻訳日:2023-06-08 20:51:40 公開日:2023-06-07
# 機械指導による強化学習者の人的消費調査

Using Machine Teaching to Investigate Human Assumptions when Teaching Reinforcement Learners ( http://arxiv.org/abs/2009.02476v3 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Xuezhou Zhang, Yuzhe Ma, Mark K. Ho, Joseph L. Austerweil, Xiaojin Zhu(参考訳) 成功する教育には、学習者がどのように学習するか - 学習者が世界から経験を使って内部状態を更新するか - を仮定する必要がある。 報奨と罰則を用いて学習者がオンラインで教えるとき、学習者に期待するものについて検討する。 我々は,共通強化学習法,q-learningに着目し,行動実験を用いてどのような仮定を持つかを検討する。 そこで我々はまず,機械教育最適化問題として問題を定式化し,規範的基準を確立する。 機械教育最適化問題を解くために,環境学習者をシミュレートし,フィードバックが学習者の内的状態に与える影響を予測する深層学習近似法を用いる。 理想的な探索探索タスクを教えるとき、学習者の学習と割引率についてどう考えるか? 行動実験では,学習者が割引率の小さい値と学習率の大きい値を使用すれば,比較的効率的かつ効果的にQ学習者にタスクを教えることができることがわかった。 しかし、それらは依然として準最適である。 また、フィードバックがQ-Learnerの内部状態にどのように影響するかをリアルタイムに更新することで、教える上で弱く役立ちます。 この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。

Successful teaching requires an assumption of how the learner learns - how the learner uses experiences from the world to update their internal states. We investigate what expectations people have about a learner when they teach them in an online manner using rewards and punishment. We focus on a common reinforcement learning method, Q-learning, and examine what assumptions people have using a behavioral experiment. To do so, we first establish a normative standard, by formulating the problem as a machine teaching optimization problem. To solve the machine teaching optimization problem, we use a deep learning approximation method which simulates learners in the environment and learns to predict how feedback affects the learner's internal states. What do people assume about a learner's learning and discount rates when they teach them an idealized exploration-exploitation task? In a behavioral experiment, we find that people can teach the task to Q-learners in a relatively efficient and effective manner when the learner uses a small value for its discounting rate and a large value for its learning rate. However, they still are suboptimal. We also find that providing people with real-time updates of how possible feedback would affect the Q-learner's internal states weakly helps them teach. Our results reveal how people teach using evaluative feedback and provide guidance for how engineers should design machine agents in a manner that is intuitive for people.
翻訳日:2023-06-08 20:51:27 公開日:2023-06-07
# 画像デハージングのための相互依存型ネットワークのプログレッシブアップデート

Progressive Update Guided Interdependent Networks for Single Image Dehazing ( http://arxiv.org/abs/2008.01701v4 )

ライセンス: Link先を確認
Aupendu Kar, Sobhan Kanti Dhara, Debashis Sen, Prabir Kumar Biswas(参考訳) さまざまな種類の迷路を持つ画像は、デハジングに重大な挑戦をすることが多い。 それゆえ,ハズパラメータの推定によるガイダンスは有用であり,ハズ低減と共同で進歩的な更新を行うことで,効果的にデハズを除去できる。 そこで本研究では,新たな相互依存型デハージングと,段階的に動作するヘイズパラメータ更新器ネットワークを含むマルチネットワークデハージングフレームワークを提案する。 ハウズパラメータ、透過マップ、大気光は、カラーキャスト処理を可能にする専用の畳み込みネットワークを用いて最初に推定される。 推定パラメータはデハジングモジュールのガイドに使われ、新しい畳み込みネットワークによって予測が徐々に更新される。 更新はステップ間の依存関係を呼び出すネットワークを使用して、プログレッシブデハジングと共同で行われる。 ジョイントプログレッシブ更新およびデハジングは、ハズパラメータ値を徐々に変更し、効果的なデハジングを達成する。 異なる研究を通して、デハジングフレームワークは画像から画像へのマッピングや予め定義されたヘイズ形成モデルに基づくデハジングよりも効果的であることが示されています。 このフレームワークはまた、さまざまな種類のヘイズ条件や、さまざまな種類のヘイズやカラーキャストを扱うことができる。 さまざまなヘイズ条件を持つ複数のデータセットの合成および実世界のヘイズ画像において,我々は定性的かつ定量的に,最先端を上回っていることが判明した。

Images with haze of different varieties often pose a significant challenge to dehazing. Therefore, guidance by estimates of haze parameters related to the variety would be beneficial, and their progressive update jointly with haze reduction will allow effective dehazing. To this end, we propose a multi-network dehazing framework containing novel interdependent dehazing and haze parameter updater networks that operate in a progressive manner. The haze parameters, transmission map and atmospheric light, are first estimated using dedicated convolutional networks that allow color-cast handling. The estimated parameters are then used to guide our dehazing module, where the estimates are progressively updated by novel convolutional networks. The updating takes place jointly with progressive dehazing using a network that invokes inter-step dependencies. The joint progressive updating and dehazing gradually modify the haze parameter values toward achieving effective dehazing. Through different studies, our dehazing framework is shown to be more effective than image-to-image mapping and predefined haze formation model based dehazing. The framework is also found capable of handling a wide variety of hazy conditions wtih different types and amounts of haze and color casts. Our dehazing framework is qualitatively and quantitatively found to outperform the state-of-the-art on synthetic and real-world hazy images of multiple datasets with varied haze conditions.
翻訳日:2023-06-08 20:51:05 公開日:2023-06-07
# Gaussian Hierarchical Latent Dirichlet Allocation: bring polysemy back

Gaussian Hierarchical Latent Dirichlet Allocation: Bringing Polysemy Back ( http://arxiv.org/abs/2002.10855v2 )

ライセンス: Link先を確認
Takahiro Yoshida, Ryohei Hisano, Takaaki Ohnishi(参考訳) トピックモデルは、文書の集合の潜在表現を発見するために広く使用される。 2つの正準モデルは遅延ディリクレアロケーション(英語版)とガウス潜在ディリクレアロケーション(英語版)であり、前者は単語よりも多項分布を使い、後者は事前訓練された単語埋め込みベクトル上の多変数ガウス分布を潜在話題表現として使用する。 潜在ディリクレ割当と比較して、ガウスの潜在ディリクレ割当は ``bank のような単語のポリセミーを捉えないという意味で制限されている。 本稿では,ガウスの潜在ディリクレアロケーションが,与えられた文書を表現するためにモデルが使用できるトピックの集合に階層構造を導入することで,ポリセミーを捉える能力を回復できることを示す。 我々のガウス的階層的潜在ディリクレ割当てはガウス的モデルと比較して多節的検出を著しく改善し、階層的潜在ディリクレ割当てよりもパロジ的な話題表現を提供する。 広範にわたる定量的実験により,我々のモデルは,幅広いコーパスと単語埋め込みベクトルに対して,より優れたトピックコヒーレンスと文書予測精度を実現することを示した。

Topic models are widely used to discover the latent representation of a set of documents. The two canonical models are latent Dirichlet allocation, and Gaussian latent Dirichlet allocation, where the former uses multinomial distributions over words, and the latter uses multivariate Gaussian distributions over pre-trained word embedding vectors as the latent topic representations, respectively. Compared with latent Dirichlet allocation, Gaussian latent Dirichlet allocation is limited in the sense that it does not capture the polysemy of a word such as ``bank.'' In this paper, we show that Gaussian latent Dirichlet allocation could recover the ability to capture polysemy by introducing a hierarchical structure in the set of topics that the model can use to represent a given document. Our Gaussian hierarchical latent Dirichlet allocation significantly improves polysemy detection compared with Gaussian-based models and provides more parsimonious topic representations compared with hierarchical latent Dirichlet allocation. Our extensive quantitative experiments show that our model also achieves better topic coherence and held-out document predictive accuracy over a wide range of corpus and word embedding vectors.
翻訳日:2023-06-08 20:50:43 公開日:2023-06-07
# 確率的設定における連続時間と状態の時間差学習

Temporal Difference Learning with Continuous Time and State in the Stochastic Setting ( http://arxiv.org/abs/2202.07960v3 )

ライセンス: Link先を確認
Ziad Kobeissi (SIERRA), Francis Bach (SIERRA, DI-ENS, PSL)(参考訳) 継続的政策評価の問題点を考察する。 これは、制御されていない連続時間確率力学と報酬関数に関連する値関数の観察を通して学習する。 そこで本研究では,時間ステップを短縮したTD(0)法を2つのオリジナル変種として提案する。 1つはモデルフリー、もう1つはモデルベースである。 いずれの手法も理論収束率を証明し, 数値シミュレーションにより検証する。 あるいは、これらの手法は線形PDE(部分微分方程式)や線形BSDE(後方確率微分方程式)の近似解に対する新しい強化学習手法と解釈できる。

We consider the problem of continuous-time policy evaluation. This consists in learning through observations the value function associated with an uncontrolled continuous-time stochastic dynamic and a reward function. We propose two original variants of the well-known TD(0) method using vanishing time steps. One is model-free and the other is model-based. For both methods, we prove theoretical convergence rates that we subsequently verify through numerical simulations. Alternatively, those methods can be interpreted as novel reinforcement learning approaches for approximating solutions of linear PDEs (partial differential equations) or linear BSDEs (backward stochastic differential equations).
翻訳日:2023-06-08 20:44:22 公開日:2023-06-07
# 閉ループ転写による構造記憶のインクリメンタル学習

Incremental Learning of Structured Memory via Closed-Loop Transcription ( http://arxiv.org/abs/2202.05411v3 )

ライセンス: Link先を確認
Shengbang Tong, Xili Dai, Ziyang Wu, Mingyang Li, Brent Yi, Yi Ma(参考訳) 本稿では,複数のオブジェクトクラスの構造化記憶をインクリメンタルに学習するための最小計算モデルを提案する。 本手法は,低次元特徴空間において,クラスと対応する部分空間の集合間の閉ループ転写(線形識別表現)を確立することに基づく。 本手法は,従来のインクリメンタル学習手法よりもシンプルで,モデルサイズ,ストレージ,計算の面で効率が良く,識別目的と生成目的の両方に使用される特徴空間を持つ1つの固定容量自動符号化ネットワークのみを必要とする。 ネットワークパラメータは、符号化とデコードマップの間の制約付きミニマックスゲームを1つのレートの削減に基づく目的で解くことで、アーキテクチャ操作なしで同時に最適化される。 実験の結果,MNIST, CIFAR-10, ImageNet-50では, 資源の不足にもかかわらず, 従来よりも有意に優れた再生性能が得られた。 ソースコードはhttps://github.com/tsb0601/i-CTRLで確認できる。

This work proposes a minimal computational model for learning structured memories of multiple object classes in an incremental setting. Our approach is based on establishing a closed-loop transcription between the classes and a corresponding set of subspaces, known as a linear discriminative representation, in a low-dimensional feature space. Our method is simpler than existing approaches for incremental learning, and more efficient in terms of model size, storage, and computation: it requires only a single, fixed-capacity autoencoding network with a feature space that is used for both discriminative and generative purposes. Network parameters are optimized simultaneously without architectural manipulations, by solving a constrained minimax game between the encoding and decoding maps over a single rate reduction-based objective. Experimental results show that our method can effectively alleviate catastrophic forgetting, achieving significantly better performance than prior work of generative replay on MNIST, CIFAR-10, and ImageNet-50, despite requiring fewer resources. Source code can be found at https://github.com/tsb0601/i-CTRL
翻訳日:2023-06-08 20:44:13 公開日:2023-06-07
# AD-NEGF:感度解析と逆問題のためのエンド・ツー・エンド微分量子輸送シミュレータ

AD-NEGF: An End-to-End Differentiable Quantum Transport Simulator for Sensitivity Analysis and Inverse Problems ( http://arxiv.org/abs/2202.05098v2 )

ライセンス: Link先を確認
Yingzhanghao Zhou, Xiang Chen, Peng Zhang, Jun Wang, Lei Wang, Hong Guo(参考訳) 70年代に提案されて以来、非平衡グリーン関数(NEGF)法は量子輸送シミュレーションの標準的なアプローチとして認識されてきた。 シミュレーション精度は優れているが、計算コストが非常に高いので、感度解析や逆設計などの高スループットシミュレーションタスクには耐え難い。 本研究では、量子輸送シミュレーションのための最初のエンドツーエンド微分可能なNEGFモデルとして、AD-NEGFを提案する。 我々は,pytorch で計算プロセス全体を実装し,暗黙のレイヤ技術を用いて後方通行をカスタマイズし,前方シミュレーションの正確性を保証しつつ,手頃なコストで勾配情報を提供する。 提案モデルは, 微分物理量, 実験パラメータフィッティング, ドーピング最適化の計算に応用され, 勾配に基づくパラメータ最適化を行い, 材料設計プロセスを加速する能力を示す。

Since proposed in the 70s, the Non-Equilibrium Green Function (NEGF) method has been recognized as a standard approach to quantum transport simulations. Although it achieves superiority in simulation accuracy, the tremendous computational cost makes it unbearable for high-throughput simulation tasks such as sensitivity analysis, inverse design, etc. In this work, we propose AD-NEGF, to our best knowledge the first end-to-end differentiable NEGF model for quantum transport simulations. We implement the entire numerical process in PyTorch, and design customized backward pass with implicit layer techniques, which provides gradient information at an affordable cost while guaranteeing the correctness of the forward simulation. The proposed model is validated with applications in calculating differential physical quantities, empirical parameter fitting, and doping optimization, which demonstrates its capacity to accelerate the material design process by conducting gradient-based parameter optimization.
翻訳日:2023-06-08 20:43:55 公開日:2023-06-07
# 人間ストレスアセスメント:ウェアラブルセンサと非着用技術を用いた方法の包括的レビュー

Human Stress Assessment: A Comprehensive Review of Methods Using Wearable Sensors and Non-wearable Techniques ( http://arxiv.org/abs/2202.03033v2 )

ライセンス: Link先を確認
Aamir Arsalan, Muhammad Majid, Imran Fareed Nizami, Waleed Manzoor, Syed Muhammad Anwar, and Jihyoung Ryu(参考訳) 本稿では,本論文で利用可能な主観的および客観的なストレス検出手法について概観する。 ヒトのストレス反応を測定する方法は、(心理学者が開発した)主観的なアンケートと、ウェアラブルと非ウェアラブルセンサーのデータを用いて観察された客観的マーカーを含むことができる。 特に、ウェアラブルセンサーベースの方法は、脳波、心電図、ガルバニック皮膚反応、筋電図、筋電図、心拍数、心拍変動、および光胸筋電図のデータを個別および多変量核融合戦略で一般的に使用する。 一方、着用不能なセンサーに基づく方法には、瞳孔拡張や音声分析、スマートフォンのデータ、眼球運動、身体姿勢、熱画像などが含まれる。 個人がストレスに満ちた状況に遭遇すると、身体的、身体的、行動的変化が引き起こされ、手元の課題に対処するのに役立つ。 様々な種類の心理的、生理的、身体的、行動的尺度を用いて、ストレスの多い状況と人間の反応との関係を確立するために、幅広い研究が行われてきた。 ヒトのストレスとこれらの種類のマーカーとの関係について決定的な評決が得られないことに着想を得て,ヒトのストレス検出方法に関する詳細な調査を行った。 特に, ストレス検出手法が, 各種情報源の関連データを活用した人工知能のメリットを考察する。 このレビューは、人間のストレス状態の効果的な検出を可能にする将来の研究のガイドラインを提供する参考資料であることが証明される。

This paper presents a comprehensive review of methods covering significant subjective and objective human stress detection techniques available in the literature. The methods for measuring human stress responses could include subjective questionnaires (developed by psychologists) and objective markers observed using data from wearable and non-wearable sensors. In particular, wearable sensor-based methods commonly use data from electroencephalography, electrocardiogram, galvanic skin response, electromyography, electrodermal activity, heart rate, heart rate variability, and photoplethysmography both individually and in multimodal fusion strategies. Whereas, methods based on non-wearable sensors include strategies such as analyzing pupil dilation and speech, smartphone data, eye movement, body posture, and thermal imaging. Whenever a stressful situation is encountered by an individual, physiological, physical, or behavioral change is induced which help in coping with the challenge at hand. A wide range of studies has attempted to establish a relationship between these stressful situations and the response of human beings by using different kinds of psychological, physiological, physical, and behavioral measures. Inspired by the lack of availability of a definitive verdict about the relationship of human stress with these different kinds of markers, a detailed survey about human stress detection methods is conducted in this paper. In particular, we explore how stress detection methods can benefit from artificial intelligence utilizing relevant data from various sources. This review will prove to be a reference document that would provide guidelines for future research enabling effective detection of human stress conditions.
翻訳日:2023-06-08 20:43:34 公開日:2023-06-07
# 循環型予測ネットワークによる自然・敵対的ボケレンダリング

Natural & Adversarial Bokeh Rendering via Circle-of-Confusion Predictive Network ( http://arxiv.org/abs/2111.12971v2 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Geguang Pu, Yang Liu(参考訳) ボケ効果(bokeh effect)は、被写界深度の浅い自然現象である。 近年,芸術的,美的目的で,ボケの自動的,現実的ボケレンダリング手法が提案されている。 彼らは通常、複雑なトレーニング戦略とネットワークアーキテクチャを持つ最先端のデータ駆動型深層生成ネットワークを使用している。 しかし、これらの研究はボケ効果が実際の現象として、その後の視覚的知性タスク(認識など)に必然的に影響を及ぼすことを無視し、そのデータ駆動性はボケに関連する物理的パラメータ(すなわち深度)が知的タスクに与える影響を研究することを妨げている。 このギャップを埋めるために,我々は,現実的かつ自然なボケのレンダリングと,視覚知覚モデル(すなわちボケに基づく敵対的攻撃)の騙しという2つの目的からなる,自然と敵対的なボケのレンダリングという,まったく新しい問題の研究を行った。 この目的のために,データ駆動方式と物理認識方式のそれぞれの利点を生かしてハイブリッドな代替案を提案する。 具体的には、全焦点画像と深度画像を入力として、ボケの物理モデルによる最終画像のレンダリングに使用される各画素の輪郭パラメータを推定することにより、コンフュージョン予測ネットワーク(CoCNet)を提案する。 ハイブリッドソリューションにより,本手法はよりリアルなレンダリングを,より簡単なトレーニング戦略とより軽量なネットワークで実現することができる。 さらに,認識タスクの深度マップを最適化しながら,CoCNetを固定した逆ボケ攻撃を提案する。 そして, 深層ニューラルネットワークの脆弱性を, 現実世界の深さ変化に応じて調査することができる。

Bokeh effect is a natural shallow depth-of-field phenomenon that blurs the out-of-focus part in photography. In recent years, a series of works have proposed automatic and realistic bokeh rendering methods for artistic and aesthetic purposes. They usually employ cutting-edge data-driven deep generative networks with complex training strategies and network architectures. However, these works neglect that the bokeh effect, as a real phenomenon, can inevitably affect the subsequent visual intelligent tasks like recognition, and their data-driven nature prevents them from studying the influence of bokeh-related physical parameters (i.e., depth-of-the-field) on the intelligent tasks. To fill this gap, we study a totally new problem, i.e., natural & adversarial bokeh rendering, which consists of two objectives: rendering realistic and natural bokeh and fooling the visual perception models (i.e., bokeh-based adversarial attack). To this end, beyond the pure data-driven solution, we propose a hybrid alternative by taking the respective advantages of data-driven and physical-aware methods. Specifically, we propose the circle-of-confusion predictive network (CoCNet) by taking the all-in-focus image and depth image as inputs to estimate circle-of-confusion parameters for each pixel, which are employed to render the final image through a well-known physical model of bokeh. With the hybrid solution, our method could achieve more realistic rendering results with the naive training strategy and a much lighter network. Moreover, we propose the adversarial bokeh attack by fixing the CoCNet while optimizing the depth map w.r.t the visual perception tasks. Then, we are able to study the vulnerability of deep neural networks according to the depth variations in the real world.
翻訳日:2023-06-08 20:43:08 公開日:2023-06-07
# HeterPS:異種環境における強化学習に基づくスケジューリングによる分散ディープラーニング

HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments ( http://arxiv.org/abs/2111.10635v4 )

ライセンス: Link先を確認
Ji Liu, Zhihua Wu, Dianhai Yu, Yanjun Ma, Danlei Feng, Minxu Zhang, Xinxuan Wu, Xuefeng Yao, Dejing Dou(参考訳) ディープニューラルネットワーク(DNN)は多くのレイヤと多数のパラメータを利用して優れたパフォーマンスを実現する。 dnnモデルのトレーニングプロセスは一般的に、多くのスパースな機能を持つ大規模な入力データを処理し、高い入出力(io)コストを発生させるが、いくつかの層は計算集約的である。 トレーニングプロセスは一般的に分散コンピューティングリソースを利用してトレーニング時間を短縮する。 さらに、分散トレーニングプロセスには、CPU、複数のタイプのGPUなどの異種コンピューティングリソースが利用できる。 したがって、トレーニングプロセスにおいて、多様なコンピューティングリソースに対する複数のレイヤのスケジューリングが重要となる。 異種計算資源を用いてDNNモデルを効率的に訓練するために,分散アーキテクチャと強化学習(RL)に基づくスケジューリング手法からなる分散フレームワークであるPaddle-Heterogeneous Parameter Server(Paddle-HeterPS)を提案する。 Paddle-HeterPSの利点は、既存のフレームワークと比べて3倍である。 まず、Paddle-HeterPSは異種コンピューティングリソースを用いた多様なワークロードの効率的なトレーニングプロセスを実現する。 第二に、Paddle-HeterPS は RL ベースの手法を利用して、スループットの制約を満たしながらコストを最小限に抑えるため、各レイヤのワークロードを適切な計算リソースに効率的にスケジュールする。 第3に、Paddle-HeterPSは分散コンピューティングリソース間のデータストレージとデータ通信を管理する。 我々は、パドル・ヘターPSがスループット(14.5倍)と金銭的コスト(312.3%以下)で最先端のアプローチを著しく上回ることを示す広範な実験を行った。 フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comで公開されている。

Deep neural networks (DNNs) exploit many layers and a large number of parameters to achieve excellent performance. The training process of DNN models generally handles large-scale input data with many sparse features, which incurs high Input/Output (IO) cost, while some layers are compute-intensive. The training process generally exploits distributed computing resources to reduce training time. In addition, heterogeneous computing resources, e.g., CPUs, GPUs of multiple types, are available for the distributed training process. Thus, the scheduling of multiple layers to diverse computing resources is critical for the training process. To efficiently train a DNN model using the heterogeneous computing resources, we propose a distributed framework, i.e., Paddle-Heterogeneous Parameter Server (Paddle-HeterPS), composed of a distributed architecture and a Reinforcement Learning (RL)-based scheduling method. The advantages of Paddle-HeterPS are three-fold compared with existing frameworks. First, Paddle-HeterPS enables efficient training process of diverse workloads with heterogeneous computing resources. Second, Paddle-HeterPS exploits an RL-based method to efficiently schedule the workload of each layer to appropriate computing resources to minimize the cost while satisfying throughput constraints. Third, Paddle-HeterPS manages data storage and data communication among distributed computing resources. We carry out extensive experiments to show that Paddle-HeterPS significantly outperforms state-of-the-art approaches in terms of throughput (14.5 times higher) and monetary cost (312.3% smaller). The codes of the framework are publicly available at: https://github.com/PaddlePaddle/Paddle.
翻訳日:2023-06-08 20:42:38 公開日:2023-06-07
# 医学的視覚的質問への回答:調査

Medical Visual Question Answering: A Survey ( http://arxiv.org/abs/2111.10056v3 )

ライセンス: Link先を確認
Zhihong Lin, Donghao Zhang, Qingyi Tao, Danli Shi, Gholamreza Haffari, Qi Wu, Mingguang He, and Zongyuan Ge(参考訳) VQAは、医療用人工知能と一般的なVQA課題を組み合わせたものだ。 医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待される。 一般領域のVQAは広く研究されているが、医療領域のVQAはタスクの特徴から、特定の調査と探索が必要である。 この調査の前半では、データソース、データ量、タスク機能について、現在公開されている医療用VQAデータセットを収集し、議論する。 第2部では,医療用VQAタスクにおけるアプローチについて概観する。 彼らの技術、イノベーション、潜在的な改善を要約し、議論します。 最後に,この分野における医学的課題を分析し,今後の研究の方向性について考察する。 我々のゴールは、医学的視覚的質問応答分野に関心のある研究者に包括的で有用な情報を提供し、この分野におけるさらなる研究を奨励することである。

Medical Visual Question Answering~(VQA) is a combination of medical artificial intelligence and popular VQA challenges. Given a medical image and a clinically relevant question in natural language, the medical VQA system is expected to predict a plausible and convincing answer. Although the general-domain VQA has been extensively studied, the medical VQA still needs specific investigation and exploration due to its task features. In the first part of this survey, we collect and discuss the publicly available medical VQA datasets up-to-date about the data source, data quantity, and task feature. In the second part, we review the approaches used in medical VQA tasks. We summarize and discuss their techniques, innovations, and potential improvements. In the last part, we analyze some medical-specific challenges for the field and discuss future research directions. Our goal is to provide comprehensive and helpful information for researchers interested in the medical visual question answering field and encourage them to conduct further research in this field.
翻訳日:2023-06-08 20:42:11 公開日:2023-06-07
# 表面コードのためのスケーラブルで高速な人工ニューラルネットワーク症候群デコーダ

A scalable and fast artificial neural network syndrome decoder for surface codes ( http://arxiv.org/abs/2110.05854v4 )

ライセンス: Link先を確認
Spiro Gicev, Lloyd C. L. Hollenberg, Muhammad Usman(参考訳) surface code error correctionは、スケーラブルなフォールトトレラント量子コンピューティングを実現する、非常に有望な経路を提供する。 安定化器符号として動作する場合、表面符号計算は、物理量子ビットにおける誤差の適切な修正を決定するために測定された安定化器演算子を使用するシンドローム復号ステップからなる。 復号アルゴリズムは、機械学習(ML)技術を取り入れた最近の研究によって、かなり発展してきた。 MLベースのシンドロームデコーダは、有望な初期結果にもかかわらず、低レイテンシで小さなデモに制限されており、境界条件や格子の手術や編曲に必要な様々な形状で表面コードを扱うことができない。 本稿では,任意の形状と大きさの表面符号をデポーラライズ誤差モデルに苦しむデータキュービットでデコードできる,スケーラブルで高速なニューラルネットワーク(ann)ベースのデコーダの開発について報告する。 ANNデコーダは、5000万以上のランダムな量子エラーインスタンスの厳格なトレーニングに基づいて、これまでで最大のMLベースのデコーダデモである1000以上のコード距離(400万以上の物理量子ビット)で動作することを示した。 確立されたANNデコーダは、基本的にコード距離に依存しない実行時間を示しており、専用ハードウェアに実装することでO($\mu$sec)の表面コードデコードが可能であり、実験的に実現可能なキュービットコヒーレンス時間と相容れないことを示唆している。 今後10年以内に量子プロセッサのスケールアップが期待される中、本研究で開発された高速でスケーラブルなシンドロームデコーダによる拡張は、フォールトトレラント量子情報処理の実験的実装に決定的な役割を果たすことが期待される。

Surface code error correction offers a highly promising pathway to achieve scalable fault-tolerant quantum computing. When operated as stabilizer codes, surface code computations consist of a syndrome decoding step where measured stabilizer operators are used to determine appropriate corrections for errors in physical qubits. Decoding algorithms have undergone substantial development, with recent work incorporating machine learning (ML) techniques. Despite promising initial results, the ML-based syndrome decoders are still limited to small scale demonstrations with low latency and are incapable of handling surface codes with boundary conditions and various shapes needed for lattice surgery and braiding. Here, we report the development of an artificial neural network (ANN) based scalable and fast syndrome decoder capable of decoding surface codes of arbitrary shape and size with data qubits suffering from the depolarizing error model. Based on rigorous training over 50 million random quantum error instances, our ANN decoder is shown to work with code distances exceeding 1000 (more than 4 million physical qubits), which is the largest ML-based decoder demonstration to-date. The established ANN decoder demonstrates an execution time in principle independent of code distance, implying that its implementation on dedicated hardware could potentially offer surface code decoding times of O($\mu$sec), commensurate with the experimentally realisable qubit coherence times. With the anticipated scale-up of quantum processors within the next decade, their augmentation with a fast and scalable syndrome decoder such as developed in our work is expected to play a decisive role towards experimental implementation of fault-tolerant quantum information processing.
翻訳日:2023-06-08 20:41:34 公開日:2023-06-07
# 断熱量子コンピューティングにおけるギャップ進化を予測するディープリカレントネットワーク

Deep recurrent networks predicting the gap evolution in adiabatic quantum computing ( http://arxiv.org/abs/2109.08492v5 )

ライセンス: Link先を確認
Naeimeh Mohseni, Carlos Navarrete-Benlloch, Tim Byrnes, Florian Marquardt(参考訳) adiabatic quantum computing において、アディアバティックスイープ中に変化するパラメータの関数としてのハミルトニアンのギャップの依存性を見つけることは、計算の速度を最適化するために重要である。 この課題にインスパイアされた本研究では、ハミルトニアン問題を完全に同定するパラメータから、異なるネットワークアーキテクチャを適用したギャップのパラメトリック依存性へのマッピングを見つけるためのディープラーニングの可能性を探る。 この例を通じて,このような問題の学習可能性の限界因子は入力のサイズ,すなわち,ハミルトニアンスケールをシステムサイズで識別するために必要なパラメータの数である,と推測する。 パラメータ空間がシステムサイズと線形にスケールする場合,長期の短期記憶ネットワークはギャップの予測に成功することを示す。 注目すべきは、このアーキテクチャがモデルの空間構造を扱うために畳み込みニューラルネットワークと組み合わされると、トレーニング中にニューラルネットワークで見られるものよりも大きなシステムサイズに対してギャップ進化を予測できることである。 これにより、ギャップを計算する際の既存の完全および近似アルゴリズムと比較して、大幅な高速化が得られる。

In adiabatic quantum computing finding the dependence of the gap of the Hamiltonian as a function of the parameter varied during the adiabatic sweep is crucial in order to optimize the speed of the computation. Inspired by this challenge, in this work, we explore the potential of deep learning for discovering a mapping from the parameters that fully identify a problem Hamiltonian to the aforementioned parametric dependence of the gap applying different network architectures. Through this example, we conjecture that a limiting factor for the learnability of such problems is the size of the input, that is, how the number of parameters needed to identify the Hamiltonian scales with the system size. We show that a long short-term memory network succeeds in predicting the gap when the parameter space scales linearly with system size. Remarkably, we show that once this architecture is combined with a convolutional neural network to deal with the spatial structure of the model, the gap evolution can even be predicted for system sizes larger than the ones seen by the neural network during training. This provides a significant speedup in comparison with the existing exact and approximate algorithms in calculating the gap.
翻訳日:2023-06-08 20:41:02 公開日:2023-06-07
# 資源拘束型コントラスト画像検索における予測特徴量抑圧の低減

Reducing Predictive Feature Suppression in Resource-Constrained Contrastive Image-Caption Retrieval ( http://arxiv.org/abs/2204.13382v3 )

ライセンス: Link先を確認
Maurits Bleeker, Andrew Yates, Maarten de Rijke(参考訳) 画像キャプチャ検索(icr)法を訓練するには、コントラスト損失関数が最適関数の共通の選択である。 残念なことに、対照的なICR法は予測的特徴抑制に弱い。 予測機能はクエリと候補項目の類似性を正確に示す機能である。 しかしながら、トレーニング中に複数の予測的特徴が存在する場合、エンコーダモデルは、正と負のペアを区別する必要がないため、冗長な予測的特徴を抑制する傾向がある。 いくつかの予測機能はトレーニング中に冗長であるが、これらの機能は評価中に関連があるかもしれない。 本稿では,リソース制約のある ICR 手法における予測的特徴抑圧の削減手法を提案する。 汎用文エンコーダの潜在空間における入力キャプションを再構成するため、コントラストicrフレームワークに新たなデコーダを追加することにより、画像およびキャプションエンコーダが予測特徴を抑圧するのを防止する。 LTDの目的を最適化制約として実装し、主にコントラスト損失を最適化しながら、復元損失が境界値以下であることを保証する。 重要なことは、LTDは追加の訓練データや高価な(堅い)負の採掘戦略に依存しない。 実験の結果,入力空間における入力キャプションの再構築とは違って,リコール@k,r精度,nDCGのスコアを対照的なICRベースラインよりも高めることにより,予測的特徴抑制を低減できることがわかった。 さらに,2つの最適化目的ではなく,最適化制約としてLTDを実装すべきであることを示す。 最後に, ltd は異なるコントラスト学習損失と多種多様なリソース制約型 icr 手法で使用できることを示した。

To train image-caption retrieval (ICR) methods, contrastive loss functions are a common choice for optimization functions. Unfortunately, contrastive ICR methods are vulnerable to predictive feature suppression. Predictive features are features that correctly indicate the similarity between a query and a candidate item. However, in the presence of multiple predictive features during training, encoder models tend to suppress redundant predictive features, since these features are not needed to learn to discriminate between positive and negative pairs. While some predictive features are redundant during training, these features might be relevant during evaluation. We introduce an approach to reduce predictive feature suppression for resource-constrained ICR methods: latent target decoding (LTD). We add an additional decoder to the contrastive ICR framework, to reconstruct the input caption in a latent space of a general-purpose sentence encoder, which prevents the image and caption encoder from suppressing predictive features. We implement the LTD objective as an optimization constraint, to ensure that the reconstruction loss is below a bound value while primarily optimizing for the contrastive loss. Importantly, LTD does not depend on additional training data or expensive (hard) negative mining strategies. Our experiments show that, unlike reconstructing the input caption in the input space, LTD reduces predictive feature suppression, measured by obtaining higher recall@k, r-precision, and nDCG scores than a contrastive ICR baseline. Moreover, we show that LTD should be implemented as an optimization constraint instead of a dual optimization objective. Finally, we show that LTD can be used with different contrastive learning losses and a wide variety of resource-constrained ICR methods.
翻訳日:2023-06-08 20:32:11 公開日:2023-06-07
# マルチキュービットデバイスにおける量子非破壊測定の並列トモグラフィー

Parallel tomography of quantum non-demolition measurements in multi-qubit devices ( http://arxiv.org/abs/2204.10336v3 )

ライセンス: Link先を確認
L. Pereira, J. J. Garc\'ia-Ripoll, and T. Ramos(参考訳) QND測定の効率的な評価は、量子プロセッサの性能とスケーラビリティを認証し改善するための重要な要素である。 本研究では,マルチキュービット量子プロセッサ上でのシングルキュービットと2キュービットの読み出しに対処するQND測定の並列トモグラフィーを導入する。 7ビットのIBM-Qデバイス上でのトモグラフィープロトコルの実証実験を行い、従来のクビット読み出しの質を特徴付けるとともに、パリティや測定・リセット方式などの一般的な測定方法を示す。 本プロトコルは, 測定プロセスのChoi行列を再構成し, 関連量化器, 忠実度, QND-ness, 破壊性を抽出し, 繰り返しQND測定においてデバイスの性能を制限する誤差の原因を特定する。 また、クロストークの測定を定量化し、それを複数のキュービット上で同時読み出しの品質を証明する方法を示す。

An efficient characterization of QND measurements is an important ingredient towards certifying and improving the performance and scalability of quantum processors. In this work, we introduce a parallel tomography of QND measurements that addresses single- and two-qubit readout on a multi-qubit quantum processor. We provide an experimental demonstration of the tomographic protocol on a 7-qubit IBM-Q device, characterizing the quality of conventional qubit readout as well as generalized measurements such as parity or measurement-and-reset schemes. Our protocol reconstructs the Choi matrices of the measurement processes, extracts relevant quantifiers -- fidelity, QND-ness, destructiveness -- and identifies sources of errors that limit the performance of the device for repeated QND measurements. We also show how to quantify measurement cross-talk and use it to certify the quality of simultaneous readout on multiple qubits.
翻訳日:2023-06-08 20:31:39 公開日:2023-06-07
# 凸円錐予測と問題最適化のための勾配向上

Gradient boosting for convex cone predict and optimize problems ( http://arxiv.org/abs/2204.06895v2 )

ライセンス: Link先を確認
Andrew Butler and Roy H. Kwon(参考訳) 予測モデルは通常、決定最適化とは独立に最適化される。 スマート予測(SPO)フレームワークは、下流の決定後悔を最小限に抑えるために予測モデルを最適化する。 本稿では,‘予測,次に最適化’問題に対するスマートグラデーションブースティングの最初の汎用実装であるdboostを提案する。 このフレームワークは凸二次錐プログラミングをサポートし、独自の固定点写像の暗黙的な微分によって勾配向上を行う。 最先端のSPO手法との比較実験により、dboostはサンプル外決定の後悔をさらに軽減できることが示された。

Prediction models are typically optimized independently from decision optimization. A smart predict then optimize (SPO) framework optimizes prediction models to minimize downstream decision regret. In this paper we present dboost, the first general purpose implementation of smart gradient boosting for `predict, then optimize' problems. The framework supports convex quadratic cone programming and gradient boosting is performed by implicit differentiation of a custom fixed-point mapping. Experiments comparing with state-of-the-art SPO methods show that dboost can further reduce out-of-sample decision regret.
翻訳日:2023-06-08 20:31:19 公開日:2023-06-07
# 量子場論におけるクリロフ複素性

Krylov Complexity in Quantum Field Theory ( http://arxiv.org/abs/2204.02250v2 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury, Abhishek Roy(参考訳) 本稿では,量子場論におけるクリロフ複雑性を考察し,ホログラフィックな「複雑度は体積と等しい」予想に関連付ける。 クリロフ基底がフォック基底と一致するとき、いくつかの興味深い設定のために、クリロフ複雑性は体積とともに複雑性がスケールすることを示す平均粒子数と等しいことを観測する。 同様の形式を用いて、自由スカラー場理論のクリロフ複雑性を計算し、ホログラフィと驚くべき類似性を見つける。 また、反転発振器が自然に現れる場理論のこの枠組みを拡張し、そのカオス的振る舞いを探求する。

In this paper, we study the Krylov complexity in quantum field theory and make a connection with the holographic "Complexity equals Volume" conjecture. When Krylov basis matches with Fock basis, for several interesting settings, we observe that the Krylov complexity equals the average particle number showing that complexity scales with volume. Using similar formalism, we compute the Krylov complexity for free scalar field theory and find surprising similarities with holography. We also extend this framework for field theory where an inverted oscillator appears naturally and explore its chaotic behavior.
翻訳日:2023-06-08 20:31:12 公開日:2023-06-07
# コスモロジー・クリロフ複合体

Cosmological Krylov Complexity ( http://arxiv.org/abs/2203.14330v4 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury(参考訳) 本稿では,音速$c_s$を有する実効場の存在下での2つのモード圧縮状態形式を用いて,ド・ジッター空間の平面/インフレーションパッチからクリロフ複雑性(k$)について検討する。 本分析から,有効音速$c_s$の存在下での時間スケールとスケール係数について,クリロフ複雑性(K$)およびランコス係数(b_n$)の明示的な挙動を求める。 ランコズ係数 (b_n$) は整数 $n$ で線形に成長するので、宇宙はこの期間にカオス系のように振る舞うことを示唆する。 また、有効な音速$c_s$ の存在下で対応する lyapunov exponent $\lambda$ を得る。 この系に対するクリロフ複雑性(K$)は、体積との関係を示す平均粒子数と等しいことを示す。 最後に、Krylov complexity (K$) と entanglement entropy (Von-Neumann) を比較し、Krylov complexity (K$) と entanglement entropy の間に大きな違いがあることを発見した。 このことは、クリロフ複雑性(K$)が、絡み合いエントロピーの飽和後も宇宙系の力学を研究するための重要なプローブとなることを示唆している。

In this paper, we study the Krylov complexity ($K$) from the planar/inflationary patch of the de Sitter space using the two mode squeezed state formalism in the presence of an effective field having sound speed $c_s$. From our analysis, we obtain the explicit behavior of Krylov complexity ($K$) and lancoz coefficients ($b_n$) with respect to the conformal time scale and scale factor in the presence of effective sound speed $c_s$. Since lancoz coefficients ($b_n$) grow linearly with integer $n$, this suggests that universe acts like a chaotic system during this period. We also obtain the corresponding Lyapunov exponent $\lambda$ in presence of effective sound speed $c_s$. We show that the Krylov complexity ($K$) for this system is equal to average particle numbers suggesting it's relation to the volume. Finally, we give a comparison of Krylov complexity ($K$) with entanglement entropy (Von-Neumann) where we found that there is a large difference between Krylov complexity ($K$) and entanglement entropy for large values of squeezing amplitude. This suggests that Krylov complexity ($K$) can be a significant probe for studying the dynamics of the cosmological system even after the saturation of entanglement entropy.
翻訳日:2023-06-08 20:31:00 公開日:2023-06-07
# HIPA:単一画像超解像のための階層型パッチ変換器

HIPA: Hierarchical Patch Transformer for Single Image Super Resolution ( http://arxiv.org/abs/2203.10247v2 )

ライセンス: Link先を確認
Qing Cai, Yiming Qian, Jinxing Li, Jun Lv, Yee-Hong Yang, Feng Wu, David Zhang(参考訳) トランスフォーマーベースのアーキテクチャは、単一のイメージスーパー解像度(SISR)で登場し始め、有望なパフォーマンスを達成した。 既存のビジョントランスフォーマのほとんどは、イメージを一定のサイズで同じ数のパッチに分割するが、テクスチャのリッチさの異なるパッチの復元には最適ではない。 本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。 具体的には、入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズのトークンから始めて、徐々にフル解像度にマージします。 このような階層的パッチ機構は,複数の解像度でのフィーチャーアグリゲーションを明示的に可能にするだけでなく,詳細な部分に対する小さなパッチ,テクスチャレス領域に対するより大きなパッチなど,さまざまなイメージ領域に対するパッチアウェア機能を適応的に学習する。 一方,各トークンに異なる重みを割り当てることで,どのトークンに注意を払うべきかをネットワークがより重視できるように,トランスフォーマの注意に基づく位置符号化方式が提案されている。 さらに,異なるブランチから畳み込み受信フィールドを拡大するための,新しいマルチ受信フィールドアテンションモジュールを提案する。 いくつかの公開データセットに対する実験結果から,提案したHIPAの従来手法よりも定量的かつ定性的に優れた性能を示した。

Transformer-based architectures start to emerge in single image super resolution (SISR) and have achieved promising performance. Most existing Vision Transformers divide images into the same number of patches with a fixed size, which may not be optimal for restoring patches with different levels of texture richness. This paper presents HIPA, a novel Transformer architecture that progressively recovers the high resolution image using a hierarchical patch partition. Specifically, we build a cascaded model that processes an input image in multiple stages, where we start with tokens with small patch sizes and gradually merge to the full resolution. Such a hierarchical patch mechanism not only explicitly enables feature aggregation at multiple resolutions but also adaptively learns patch-aware features for different image regions, e.g., using a smaller patch for areas with fine details and a larger patch for textureless regions. Meanwhile, a new attention-based position encoding scheme for Transformer is proposed to let the network focus on which tokens should be paid more attention by assigning different weights to different tokens, which is the first time to our best knowledge. Furthermore, we also propose a new multi-reception field attention module to enlarge the convolution reception field from different branches. The experimental results on several public datasets demonstrate the superior performance of the proposed HIPA over previous methods quantitatively and qualitatively.
翻訳日:2023-06-08 20:30:38 公開日:2023-06-07
# エンティティアライメントのための知識グラフ埋め込み手法:実験的レビュー

Knowledge Graph Embedding Methods for Entity Alignment: An Experimental Review ( http://arxiv.org/abs/2203.09280v2 )

ライセンス: Link先を確認
Nikolaos Fanourakis, Vasilis Efthymiou, Dimitris Kotzinos, Vassilis Christophides(参考訳) 近年,様々な分野における知識グラフ(kg)の普及が見られ,質問応答やレコメンデーションといったアプリケーションのサポートが目指されている。 異なるKGからの知識を統合するときの頻繁な課題は、どのサブグラフが同じ現実世界の実体を指すかを見つけることである。 近年,元のKGの類似性を保ったエンティティのベクトル空間表現を学習する,エンティティアライメントタスクに埋め込み手法が用いられている。 KGの実体の事実的(属性ベース)と構造的情報(関係ベース)の両方を活用する、さまざまな教師付き、教師なし、半教師付き手法が提案されている。 しかし,実世界のkgsの性能指標やkg特性により,実世界のkgsの長所と短所の定量的評価は文献から欠落している。 本研究では,統計的に健全な手法に基づいて,エンティティアライメントのための一般的な埋め込み手法の最初のメタレベル分析を行う。 そこで本研究では,KGsによって抽出された様々なメタ機能と異なる埋め込み手法の統計的に有意な相関関係を明らかにし,その有効性に応じて統計的に有意なランク付けを行った。 最後に,手法の有効性と効率の観点から,興味深いトレードオフについて検討する。

In recent years, we have witnessed the proliferation of knowledge graphs (KG) in various domains, aiming to support applications like question answering, recommendations, etc. A frequent task when integrating knowledge from different KGs is to find which subgraphs refer to the same real-world entity. Recently, embedding methods have been used for entity alignment tasks, that learn a vector-space representation of entities which preserves their similarity in the original KGs. A wide variety of supervised, unsupervised, and semi-supervised methods have been proposed that exploit both factual (attribute based) and structural information (relation based) of entities in the KGs. Still, a quantitative assessment of their strengths and weaknesses in real-world KGs according to different performance metrics and KG characteristics is missing from the literature. In this work, we conduct the first meta-level analysis of popular embedding methods for entity alignment, based on a statistically sound methodology. Our analysis reveals statistically significant correlations of different embedding methods with various meta-features extracted by KGs and rank them in a statistically significant way according to their effectiveness across all real-world KGs of our testbed. Finally, we study interesting trade-offs in terms of methods' effectiveness and efficiency.
翻訳日:2023-06-08 20:30:16 公開日:2023-06-07
# 逆学習における政策最適化の不変性と部分的不確定性

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning ( http://arxiv.org/abs/2203.07475v2 )

ライセンス: Link先を確認
Joar Skalse, Matthew Farrugia-Roberts, Stuart Russell, Alessandro Abate, Adam Gleave(参考訳) 複雑な現実世界のタスクに対して報酬関数を手動で設計することは、しばしば非常に難しい。 これを解決するために、データから報酬関数を推測するために報酬学習を利用することができる。 しかし、無限データ制限であっても、データに等しく適合する複数の報酬関数が存在することが多い。 つまり、報酬関数は部分的にしか特定できない。 本研究は,専門家による実演や軌跡比較など,いくつかの報奨学習データから得られる報酬関数の部分的識別可能性について,形式的に特徴付けるものである。 また、政策最適化など、下流タスクにおけるこの部分的識別可能性の影響を分析する。 我々は、データソースと下流タスクを不変性によって比較するフレームワークで結果を統一し、報奨学習のためのデータソースの設計と選択に影響を及ぼす。

It is often very challenging to manually design reward functions for complex, real-world tasks. To solve this, one can instead use reward learning to infer a reward function from data. However, there are often multiple reward functions that fit the data equally well, even in the infinite-data limit. This means that the reward function is only partially identifiable. In this work, we formally characterise the partial identifiability of the reward function given several popular reward learning data sources, including expert demonstrations and trajectory comparisons. We also analyse the impact of this partial identifiability for several downstream tasks, such as policy optimisation. We unify our results in a framework for comparing data sources and downstream tasks by their invariances, with implications for the design and selection of data sources for reward learning.
翻訳日:2023-06-08 20:29:54 公開日:2023-06-07
# トロールツイート検出のための文脈に敏感な単語埋め込み手法

A Context-Sensitive Word Embedding Approach for The Detection of Troll Tweets ( http://arxiv.org/abs/2207.08230v4 )

ライセンス: Link先を確認
Seyhmus Yilmaz and Sultan Zavrak(参考訳) 本研究では,トロールツイートの自動検出のためのモデルアーキテクチャの開発と評価により,ソーシャルメディア上でのトロール行動に対する懸念の高まりに対処することを目的とした。 bert,elmo,gloveなどのディープラーニング技術と事前学習した単語埋め込み手法を用いて,分類精度,f1スコア,auc,精度などの指標を用いて,各アーキテクチャの性能評価を行った。 以上の結果から, bert と elmo の埋め込み手法は, オンラインソーシャルメディアにおける言語使用のニュアンスや微妙なニュアンスを捉えやすく, コンテキスト化された単語埋め込みを提供する能力から, グラブ法よりも性能が向上した可能性が示唆された。 さらに,cnn と gru エンコーダは,f1スコアと auc でも同様に動作し,入力テキストから関連情報を抽出するのに有効であることを示唆した。 AUCスコア0.929のGRU分類器を用いたELMoベースのアーキテクチャが最適であることがわかった。 本研究は、トロールツイート検出タスクにおいて、文脈化された単語埋め込みと適切なエンコーダ手法を活用することの重要性を強調し、プラットフォーム上でのトロール動作の識別と対処において、ソーシャルベースのシステムの性能向上を支援する。

In this study, we aimed to address the growing concern of trolling behavior on social media by developing and evaluating a set of model architectures for the automatic detection of troll tweets. Utilizing deep learning techniques and pre-trained word embedding methods such as BERT, ELMo, and GloVe, we evaluated the performance of each architecture using metrics such as classification accuracy, F1 score, AUC, and precision. Our results indicate that BERT and ELMo embedding methods performed better than the GloVe method, likely due to their ability to provide contextualized word embeddings that better capture the nuances and subtleties of language use in online social media. Additionally, we found that CNN and GRU encoders performed similarly in terms of F1 score and AUC, suggesting their effectiveness in extracting relevant information from input text. The best-performing method was found to be an ELMo-based architecture that employed a GRU classifier, with an AUC score of 0.929. This research highlights the importance of utilizing contextualized word embeddings and appropriate encoder methods in the task of troll tweet detection, which can assist social-based systems in improving their performance in identifying and addressing trolling behavior on their platforms.
翻訳日:2023-06-08 20:23:36 公開日:2023-06-07
# 低ランク混合モデルに対するロイドアルゴリズムによる最適クラスタリング

Optimal Clustering by Lloyd Algorithm for Low-Rank Mixture Model ( http://arxiv.org/abs/2207.04600v2 )

ライセンス: Link先を確認
Zhongyuan Lyu and Dong Xia(参考訳) 本稿では,クラスタリング行列値観測における計算と統計の限界について検討する。 本稿では,従来のガウス混合モデル(GMM)を応用した低ランク混合モデル(LrMM)を提案する。 ロイドのアルゴリズムと低ランク近似を統合して計算効率のよいクラスタリング法を設計する。 うまく初期化されるとアルゴリズムは高速に収束し、極小値の指数型クラスタリング誤差率を達成する。 一方,テンソルに基づくスペクトル法は良好な初期クラスタリングをもたらすことを示す。 GMMと比較して、最小マックス最適クラスタリング誤差率は、分離強度、すなわち人口中心行列間の最小距離によって決定される。 低ランク性を利用することにより、アルゴリズムは分離強度に対するより弱い要件で祝福される。 しかし、GMMとは異なり、LrMMの計算困難さは信号強度、すなわち人口中心行列の最小の非ゼロ特異値によって特徴づけられる。 分離強度が強いにもかかわらず、信号強度が十分強くなければ多項式時間アルゴリズムは整合性がないことを示す証拠が提供される。 LrMMにおける推定とクラスタリングの違いについて論じる。 低ランクロイドアルゴリズムの利点は包括的シミュレーション実験によって確かめられる。 最後に,本手法は実世界のデータセットの文献において,他の手法よりも優れている。

This paper investigates the computational and statistical limits in clustering matrix-valued observations. We propose a low-rank mixture model (LrMM), adapted from the classical Gaussian mixture model (GMM) to treat matrix-valued observations, which assumes low-rankness for population center matrices. A computationally efficient clustering method is designed by integrating Lloyd's algorithm and low-rank approximation. Once well-initialized, the algorithm converges fast and achieves an exponential-type clustering error rate that is minimax optimal. Meanwhile, we show that a tensor-based spectral method delivers a good initial clustering. Comparable to GMM, the minimax optimal clustering error rate is decided by the separation strength, i.e., the minimal distance between population center matrices. By exploiting low-rankness, the proposed algorithm is blessed with a weaker requirement on the separation strength. Unlike GMM, however, the computational difficulty of LrMM is characterized by the signal strength, i.e., the smallest non-zero singular values of population center matrices. Evidence is provided showing that no polynomial-time algorithm is consistent if the signal strength is not strong enough, even though the separation strength is strong. Intriguing differences between estimation and clustering under LrMM are discussed. The merits of low-rank Lloyd's algorithm are confirmed by comprehensive simulation experiments. Finally, our method outperforms others in the literature on real-world datasets.
翻訳日:2023-06-08 20:23:14 公開日:2023-06-07
# セマンティックな類似性を持つペルシャのTwitterにおける創発的エンティティの早期発見

Early Discovery of Emerging Entities in Persian Twitter with Semantic Similarity ( http://arxiv.org/abs/2207.02434v2 )

ライセンス: Link先を確認
Shahin Yousefi, Mohsen Hooshmand, Mohsen Afsharchi(参考訳) 新興企業(EE)の発見は、設立前の企業を見つけることの課題である。 これらの実体は個人、企業、政府にとって重要である。 これらのエンティティの多くは、例えばtwitterのようなソーシャルメディアプラットフォームで発見することができる。 これらのアイデンティティは近年、学術と産業の研究の場となっている。 あらゆる機械学習問題と同様、データの可用性もこの問題の大きな課題のひとつだ。 本稿ではEEPTを提案する。 これは、データセットのトレーニングを必要とせずに、EEを検出するオンラインクラスタリングメソッドです。 さらに,適切な評価基準の欠如により,新たな指標を用いて結果を評価する。 その結果,EEPTは有望であり,設立前に重要な存在を見出すことができた。

Discovering emerging entities (EEs) is the problem of finding entities before their establishment. These entities can be critical for individuals, companies, and governments. Many of these entities can be discovered on social media platforms, e.g. Twitter. These identities have been the spot of research in academia and industry in recent years. Similar to any machine learning problem, data availability is one of the major challenges in this problem. This paper proposes EEPT. That is an online clustering method able to discover EEs without any need for training on a dataset. Additionally, due to the lack of a proper evaluation metric, this paper uses a new metric to evaluate the results. The results show that EEPT is promising and finds significant entities before their establishment.
翻訳日:2023-06-08 20:22:56 公開日:2023-06-07
# 実値関数の逆ロバストPAC学習性

Adversarially Robust PAC Learnability of Real-Valued Functions ( http://arxiv.org/abs/2206.12977v2 )

ライセンス: Link先を確認
Idan Attias and Steve Hanneke(参考訳) 我々は,$\ell_p$ロスと任意の摂動セットによる回帰設定において,テスト時間逆行攻撃に対するロバスト性を検討した。 この設定では、どの関数クラスがPACを学習できるかという問題に対処する。 有限分解次元のクラスは、実現可能かつ不可知な設定の両方で学習可能であることを示す。 さらに、凸関数クラスでは、それらは適切に学習可能である。 対照的に、いくつかの非凸関数クラスは不適切な学習アルゴリズムを必要とする。 本手法は, 対向的に頑健な試料圧縮スキームをファットシェイタリング次元で決定したサイズで構築することに基づく。 そこで本研究では,実数値関数に対する非依存なサンプル圧縮方式を提案する。

We study robustness to test-time adversarial attacks in the regression setting with $\ell_p$ losses and arbitrary perturbation sets. We address the question of which function classes are PAC learnable in this setting. We show that classes of finite fat-shattering dimension are learnable in both realizable and agnostic settings. Moreover, for convex function classes, they are even properly learnable. In contrast, some non-convex function classes provably require improper learning algorithms. Our main technique is based on a construction of an adversarially robust sample compression scheme of a size determined by the fat-shattering dimension. Along the way, we introduce a novel agnostic sample compression scheme for real-valued functions, which may be of independent interest.
翻訳日:2023-06-08 20:22:47 公開日:2023-06-07
# 経験的ニューラルタンジェントカーネルの高速・高精度近似

A Fast, Well-Founded Approximation to the Empirical Neural Tangent Kernel ( http://arxiv.org/abs/2206.12543v3 )

ライセンス: Link先を確認
Mohamad Amin Mohamadi, Wonho Bae, Danica J. Sutherland(参考訳) 経験的ニューラル・タンジェント・カーネル(entk)は、与えられたネットワークの表現をよく理解する:それらは多くの場合、無限幅のntkよりも計算コストが低く、適用範囲が広い。 しかし、o出力ユニット(例えばoクラス分類器)を持つネットワークでは、n入力のentkはサイズが$no \times no$で、メモリは$o((no)^2)$、計算量は$o((no)^3)$である。 したがって、既存のほとんどのアプリケーションは、数桁の近似のうちの1つを使い、N$カーネル行列を出力し、計算の桁数を節減するが、正当化はできない。 このような近似が「ロジットの仮定」と呼ばれ、最終的な「読み出し」層を持つ任意のネットワークの初期化において真の eNTK に収束することを証明する。 実験では,この近似のクオリティを様々な設定で検証した。

Empirical neural tangent kernels (eNTKs) can provide a good understanding of a given network's representation: they are often far less expensive to compute and applicable more broadly than infinite width NTKs. For networks with O output units (e.g. an O-class classifier), however, the eNTK on N inputs is of size $NO \times NO$, taking $O((NO)^2)$ memory and up to $O((NO)^3)$ computation. Most existing applications have therefore used one of a handful of approximations yielding $N \times N$ kernel matrices, saving orders of magnitude of computation, but with limited to no justification. We prove that one such approximation, which we call "sum of logits", converges to the true eNTK at initialization for any network with a wide final "readout" layer. Our experiments demonstrate the quality of this approximation for various uses across a range of settings.
翻訳日:2023-06-08 20:22:39 公開日:2023-06-07
# 長期認識のための校正専門家のバランスの取れた製品

Balanced Product of Calibrated Experts for Long-Tailed Recognition ( http://arxiv.org/abs/2206.05260v3 )

ライセンス: Link先を確認
Emanuel Sanchez Aimar, Arvi Jonnarth, Michael Felsberg, Marco Kuhlmann(参考訳) 多くの現実世界の認識問題は長いラベル分布によって特徴づけられる。 これらの分布は、尾クラス上の限定的な一般化のため、表現学習を非常に困難にする。 テスト分布がトレーニング分布(例えば、制服とロングテール)と異なる場合、分布シフトの問題に対処する必要がある。 最近の一連の研究は、この問題に取り組むために複数の多様な専門家を学ぶことを提案する。 アンサンブルの多様性は、例えば頭と尾のクラスで異なる専門家を専門にすることで、様々な技術によって奨励される。 本研究では分析的アプローチを採り、ロジット調整の概念をアンサンブルに拡張し、専門家のバランス製品(BalPoE)を形成する。 balpoeは専門家のファミリーと異なるテスト時間ターゲット分布を組み合わせることで、いくつかのアプローチを一般化している。 これらの分布を適切に定義し、バランスのとれた誤差を最小化するために、アンサンブルがフィッシャー一貫性があることを証明し、偏りのない予測を達成するために専門家を組み合わせる方法を示す。 我々の理論分析は、バランスの取れたアンサンブルは、調整された専門家を必要とすることを示している。 我々は, CIFAR-100-LT, ImageNet-LT, iNaturalist-2018 の3つの長尾データセットに対して, 実験を行った。 私たちのコードはhttps://github.com/emasa/BalPoE-CalibratedLTで公開されています。

Many real-world recognition problems are characterized by long-tailed label distributions. These distributions make representation learning highly challenging due to limited generalization over the tail classes. If the test distribution differs from the training distribution, e.g. uniform versus long-tailed, the problem of the distribution shift needs to be addressed. A recent line of work proposes learning multiple diverse experts to tackle this issue. Ensemble diversity is encouraged by various techniques, e.g. by specializing different experts in the head and the tail classes. In this work, we take an analytical approach and extend the notion of logit adjustment to ensembles to form a Balanced Product of Experts (BalPoE). BalPoE combines a family of experts with different test-time target distributions, generalizing several previous approaches. We show how to properly define these distributions and combine the experts in order to achieve unbiased predictions, by proving that the ensemble is Fisher-consistent for minimizing the balanced error. Our theoretical analysis shows that our balanced ensemble requires calibrated experts, which we achieve in practice using mixup. We conduct extensive experiments and our method obtains new state-of-the-art results on three long-tailed datasets: CIFAR-100-LT, ImageNet-LT, and iNaturalist-2018. Our code is available at https://github.com/emasa/BalPoE-CalibratedLT.
翻訳日:2023-06-08 20:22:20 公開日:2023-06-07
# 相関確率過程の漁業情報

Fisher information of correlated stochastic processes ( http://arxiv.org/abs/2206.00463v2 )

ライセンス: Link先を確認
Marco Radaelli, Gabriel T. Landi, Kavan Modi, Felix C. Binder(参考訳) 多くの実世界のタスクにはある種のパラメータ推定、すなわち確率分布に符号化されたパラメータの決定が含まれる。 このような確率分布は確率過程から生じることが多い。 時間的相関を持つ定常確率過程では、それを構成する確率変数は同じ分布であるが独立ではない。 これは例えば、量子連続測定の場合である。 本稿では,メモリレス確率過程において符号化されたパラメータの推定に関する2つの基本的結果を示す。 まず,有限マルコフオーダーのプロセスに対して,フィッシャー情報は結果数において漸近的に線形であり,その過程のマルコフ順序の条件分布によって決定されることを示す。 第二に、相関が必ずしもメートル法精度を高めるとは限らないことを適切な例で証明する。 実際、エントロピー情報量とは異なり、一般論として、相関の存在下では、ジョイント・フィッシャー情報のサブまたはスーパー付加性については何も言えない。 プロセス内の相関のタイプがスケーリングに与える影響について論じる。 次に、スピンチェーン上の温度測定にこれらの結果を適用する。

Many real-world tasks include some kind of parameter estimation, i.e., determination of a parameter encoded in a probability distribution. Often, such probability distributions arise from stochastic processes. For a stationary stochastic process with temporal correlations, the random variables that constitute it are identically distributed but not independent. This is the case, for instance, for quantum continuous measurements. In this paper we prove two fundamental results concerning the estimation of parameters encoded in a memoryful stochastic process. First, we show that for processes with finite Markov order, the Fisher information is always asymptotically linear in the number of outcomes, and determined by the conditional distribution of the process' Markov order. Second, we prove with suitable examples that correlations do not necessarily enhance the metrological precision. In fact, we show that unlike for entropic information quantities, in general nothing can be said about the sub- or super-additivity of the joint Fisher information, in the presence of correlations. We discuss how the type of correlations in the process affects the scaling. We then apply these results to the case of thermometry on a spin chain.
翻訳日:2023-06-08 20:21:39 公開日:2023-06-07
# devformer:コンテキスト認識デバイス配置のための対称トランスフォーマー

DevFormer: A Symmetric Transformer for Context-Aware Device Placement ( http://arxiv.org/abs/2205.13225v3 )

ライセンス: Link先を確認
Haeyeon Kim, Minsu Kim, Federico Berto, Joungho Kim, Jinkyoo Park(参考訳) 本稿では,ハードウェア設計最適化の複雑かつ計算的に要求される問題に対処する,新しいトランスフォーマーベースのアーキテクチャであるDevFormerを提案する。 自然言語処理やコンピュータビジョンなどの領域におけるトランスフォーマーの有効性が実証されているにもかかわらず、ハードウェア設計におけるその使用はオフラインデータの不足によって制限されている。 提案手法は,ハードウェアコンテキストを効果的に捉え,オフラインデータに制限のある効率的な設計最適化を実現するための,相対的位置埋め込みやアクション置換対称性といった強い帰納的バイアスを導入することで,この制限に対処する。 我々はDevFoemerをキャパシタ配置を分離する問題に適用し、シミュレーションと実ハードウェアの両方で最先端の手法より優れており、性能が向上し、部品数も30ドル以上削減されていることを示す。 最後に,オフラインの文脈学習に基づく組合せ最適化タスクで有望な結果が得られることを示す。

In this paper, we present DevFormer, a novel transformer-based architecture for addressing the complex and computationally demanding problem of hardware design optimization. Despite the demonstrated efficacy of transformers in domains including natural language processing and computer vision, their use in hardware design has been limited by the scarcity of offline data. Our approach addresses this limitation by introducing strong inductive biases such as relative positional embeddings and action-permutation symmetricity that effectively capture the hardware context and enable efficient design optimization with limited offline data. We apply DevFoemer to the problem of decoupling capacitor placement and show that it outperforms state-of-the-art methods in both simulated and real hardware, leading to improved performances while reducing the number of components by more than $30\%$. Finally, we show that our approach achieves promising results in other offline contextual learning-based combinatorial optimization tasks.
翻訳日:2023-06-08 20:21:25 公開日:2023-06-07
# リアルタイムカスタムキーワードスポッティングのためのタイルニューラルネットワークの強化

Boosting Tail Neural Network for Realtime Custom Keyword Spotting ( http://arxiv.org/abs/2205.12933v2 )

ライセンス: Link先を確認
Sihao Xue, Qianyao Shen, Guoqing Li(参考訳) 本稿では,実時間カスタムキーワードスポッティング(rcks)の性能を向上させるために,btnn(boosttail neural network)を提案する。 脳科学に触発されて、脳は神経シミュレーションのために部分的に活性化され、多くの機械学習アルゴリズムが開発され、困難な問題を解決するために弱い分類器のバッチを使用する。 本手法はRCKS問題に有効であることを示す。 提案手法は、覚醒率と誤報の点でより良い性能を実現する。 私たちの実験では、強力な分類器を1つだけ使う従来のアルゴリズムと比較すると、相対的に18%改善しています。 我々はまた、このアプローチが将来のASR探査において有望である可能性を指摘している。

In this paper, we propose a Boosting Tail Neural Network (BTNN) for improving the performance of Realtime Custom Keyword Spotting (RCKS) that is still an industrial challenge for demanding powerful classification ability with limited computation resources. Inspired by Brain Science that a brain is only partly activated for a nerve simulation and numerous machine learning algorithms are developed to use a batch of weak classifiers to resolve arduous problems, which are often proved to be effective. We show that this method is helpful to the RCKS problem. The proposed approach achieve better performances in terms of wakeup rate and false alarm. In our experiments compared with those traditional algorithms that use only one strong classifier, it gets 18\% relative improvement. We also point out that this approach may be promising in future ASR exploration.
翻訳日:2023-06-08 20:21:05 公開日:2023-06-07
# saliency map の動詞化:モデルフリーと命令ベースによる特徴重要表現の比較

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods ( http://arxiv.org/abs/2210.07222v3 )

ライセンス: Link先を確認
Nils Feldhus, Leonhard Hennig, Maximilian Dustin Nasert, Christopher Ebert, Robert Schwarzenberg, Sebastian M\"oller(参考訳) 塩分マップは、重要な入力特徴を識別することで、神経モデルの予測を説明することができる。 平凡な人、特に多くの特徴のある人には解釈が難しい。 よりアクセシビリティを高めるために、私たちは、自然言語にサリエンシマップを翻訳する未調査のタスクを形式化し、このアプローチの2つの重要な課題、すなわち、何とどのように言語化すべきかに対処する手法を比較します。 テキスト分類タスクからのトークンレベルの帰属を用いた自動評価と人間評価のいずれにおいても,従来の特徴重要表現(ヒートマップの可視化と抽出的合理化)と,同時性,忠実性,有用性,理解の容易さという2つの新しい手法(検索ベースと命令ベースの動詞化)を比較した。 gpt-3.5にサリエンシーマップを生成するよう指示すると、連想、抽象要約、常識推論を含む説得可能な説明が得られ、最高評価を極端に達成するが、それらは数値情報を忠実に捉えてはおらず、タスクの解釈に一貫性がない。 比較として,我々の検索に基づくモデル自由動詞化手法は,テンプレート言語化を効率よく完了し,設計に忠実であるが,有用性やシミュラビリティに乏しい。 以上の結果から,サリエンシーマップの動詞化により,特徴帰属説明は,従来の表現よりも理解しやすく,認知的にも困難であることが示唆された。

Saliency maps can explain a neural model's predictions by identifying important input features. They are difficult to interpret for laypeople, especially for instances with many features. In order to make them more accessible, we formalize the underexplored task of translating saliency maps into natural language and compare methods that address two key challenges of this approach -- what and how to verbalize. In both automatic and human evaluation setups, using token-level attributions from text classification tasks, we compare two novel methods (search-based and instruction-based verbalizations) against conventional feature importance representations (heatmap visualizations and extractive rationales), measuring simulatability, faithfulness, helpfulness and ease of understanding. Instructing GPT-3.5 to generate saliency map verbalizations yields plausible explanations which include associations, abstractive summarization and commonsense reasoning, achieving by far the highest human ratings, but they are not faithfully capturing numeric information and are inconsistent in their interpretation of the task. In comparison, our search-based, model-free verbalization approach efficiently completes templated verbalizations, is faithful by design, but falls short in helpfulness and simulatability. Our results suggest that saliency map verbalization makes feature attribution explanations more comprehensible and less cognitively challenging to humans than conventional representations.
翻訳日:2023-06-08 20:14:15 公開日:2023-06-07
# 大きなステップサイズを持つsgdはスパース機能を学ぶ

SGD with Large Step Sizes Learns Sparse Features ( http://arxiv.org/abs/2210.05337v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Aditya Varre, Loucas Pillaud-Vivien, Nicolas Flammarion(参考訳) ニューラルネットワークのトレーニングにおいて,SGD(Stochastic Gradient Descent)のダイナミクスの重要な特徴を紹介する。 大きなステップサイズで 広く使われる経験的な観察をお見せします (i)イテレートを谷の一方から他方へジャンプさせ、損失安定を引き起こす (ii)この安定化は、緩やかな予測者に対して暗黙的にバイアスを与える跳ねる方向と直交する隠れた確率力学を誘導する。 さらに,より長いステップサイズでSGDを高く保ちつつも,暗黙の正規化がうまく機能し,疎らな表現を見出すことができることを示す。 特に、ステップサイズスケジュールに影響されたSGDトレーニングダイナミクスからのみ正規化効果が得られるように、明示的な正規化は使用されない。 したがって、これらの観測により、ステップサイズのスケジュールを通じて、勾配とノイズの両方がニューラルネットワークのロスランドスケープを通してSGDダイナミクスを一緒に駆動する方法が明らかにされる。 我々は、単純なニューラルネットワークモデルの研究と、確率過程に触発された質的議論を通じて、これらの発見を理論的に正当化する。 最後に、この分析により、ニューラルネットワークをトレーニングする際の一般的な実践と現象の観察に新たな光を当てることができる。 私たちの実験のコードはhttps://github.com/tml-epfl/sgd-sparse-featuresで利用可能です。

We showcase important features of the dynamics of the Stochastic Gradient Descent (SGD) in the training of neural networks. We present empirical observations that commonly used large step sizes (i) lead the iterates to jump from one side of a valley to the other causing loss stabilization, and (ii) this stabilization induces a hidden stochastic dynamics orthogonal to the bouncing directions that biases it implicitly toward sparse predictors. Furthermore, we show empirically that the longer large step sizes keep SGD high in the loss landscape valleys, the better the implicit regularization can operate and find sparse representations. Notably, no explicit regularization is used so that the regularization effect comes solely from the SGD training dynamics influenced by the step size schedule. Therefore, these observations unveil how, through the step size schedules, both gradient and noise drive together the SGD dynamics through the loss landscape of neural networks. We justify these findings theoretically through the study of simple neural network models as well as qualitative arguments inspired from stochastic processes. Finally, this analysis allows us to shed a new light on some common practice and observed phenomena when training neural networks. The code of our experiments is available at https://github.com/tml-epfl/sgd-sparse-features.
翻訳日:2023-06-08 20:13:48 公開日:2023-06-07
# digital audio forensics: blind human voice mimicry detection (英語)

Digital Audio Forensics: Blind Human Voice Mimicry Detection ( http://arxiv.org/abs/2209.12573v4 )

ライセンス: Link先を確認
Sahar Al Ajmi, Khizar Hayat, Alaa M. Al Obaidi, Naresh Kumar, Munaf Najmuldeen and Baptiste Magnier(参考訳) オーディオは人間のコミュニケーションの最もよく使われる方法の1つだが、同時に、人を騙すために簡単に誤用することができる。 aiの革命により、関連する技術はほとんどの人が利用できるようになり、犯罪者が犯罪や偽造を簡単に行えるようになった。 本研究では,入力音声を実または模倣と盲目的に分類する分類器を開発するための深層学習手法を提案する。 提案モデルでは,大規模なオーディオデータセットから抽出した重要な特徴のセットに基づいて,異なるオーディオから同じ特徴のセットでテストされた分類器を学習した。 データは2つの生のデータセットから抽出され、特にこの研究のために構成された。 これらのデータセットはGitHubを通じて、https://github.com/SaSs7/Dataset.comのリサーチコミュニティで利用できる。 比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。 その後の結果は興味深いものであり、非常に正確であった。

Audio is one of the most used ways of human communication, but at the same time it can be easily misused to trick people. With the revolution of AI, the related technologies are now accessible to almost everyone thus making it simple for the criminals to commit crimes and forgeries. In this work, we introduce a deep learning method to develop a classifier that will blindly classify an input audio as real or mimicked; the word 'blindly' refers to the ability to detect mimicked audio without references or real sources. The proposed model was trained on a set of important features extracted from a large dataset of audios to get a classifier that was tested on the same set of features from different audios. The data was extracted from two raw datasets, especially composed for this work; an all English dataset and a mixed dataset (Arabic plus English). These datasets have been made available, in raw form, through GitHub for the use of the research community at https://github.com/SaSs7/Dataset. For the purpose of comparison, the audios were also classified through human inspection with the subjects being the native speakers. The ensued results were interesting and exhibited formidable accuracy.
翻訳日:2023-06-08 20:13:27 公開日:2023-06-07
# 測定誘起相転移のクロスエントロピーベンチマーク

Cross Entropy Benchmark for Measurement-Induced Phase Transitions ( http://arxiv.org/abs/2209.00609v2 )

ライセンス: Link先を確認
Yaodong Li, Yijian Zou, Paolo Glorioso, Ehud Altman, Matthew P. A. Fisher(参考訳) 線形クロスエントロピーを用いて測定誘起相転移(MIPT)を量子軌道のポストセレクションなしで実験的にアクセスする可能性を検討する。 バルクで同一だが初期状態が異なる2つのランダム回路の場合、2つの回路におけるバルク測定結果分布間の線形クロスエントロピー$\chi$は境界順序パラメータとして機能し、領域法相と体積法則を区別するのに使うことができる。 体積則フェーズ(および熱力学的極限)では、バルク測定は2つの異なる初期状態と$\chi = 1$と区別できない。 地域法では、$\chi < 1$ である。 クリフォードゲートを持つ回路の場合、第1の回路をポストセレクションなしで量子シミュレータ上で実行することにより、$\chi$が$O(1/\epsilon^2)$ trajectoriesから$\epsilon$にサンプリングできるという数値的な証拠を提供する。 また、弱い非偏極雑音に対しては、MIPTの符号はいまだ中間システムサイズに存在している。 我々のプロトコルでは、「古典的」側を効率的にシミュレートできるような初期状態を選択する自由があり、「量子的」側をシミュレートすることは古典的に難しい。

We investigate the prospects of employing the linear cross-entropy to experimentally access measurement-induced phase transitions (MIPT) without requiring any postselection of quantum trajectories. For two random circuits that are identical in the bulk but with different initial states, the linear cross-entropy $\chi$ between the bulk measurement outcome distributions in the two circuits acts as a boundary order parameter, and can be used to distinguish the volume law from area law phases. In the volume law phase (and in the thermodynamic limit) the bulk measurements cannot distinguish between the two different initial states, and $\chi = 1$. In the area law phase $\chi < 1$. For circuits with Clifford gates, we provide numerical evidence that $\chi$ can be sampled to accuracy $\epsilon$ from $O(1/\epsilon^2)$ trajectories, by running the first circuit on a quantum simulator without postselection, aided by a classical simulation of the second. We also find that for weak depolarizing noise the signature of the MIPT is still present for intermediate system sizes. In our protocol we have the freedom of choosing initial states such that the "classical" side can be simulated efficiently, while simulating the "quantum" side is still classically hard.
翻訳日:2023-06-08 20:12:50 公開日:2023-06-07
# Z-Code++:抽象要約に最適化された事前学習言語モデル

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization ( http://arxiv.org/abs/2208.09770v2 )

ライセンス: Link先を確認
Pengcheng He, Baolin Peng, Liyang Lu, Song Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao, Xuedong Huang(参考訳) 本稿では、抽象テキスト要約に最適化された新しい事前学習言語モデルZ-Code++を提案する。 このモデルは、3つの手法を用いてアートエンコーダ・デコーダモデルの状態を拡張する。 まず,低リソース要約タスクにおけるモデルの性能向上のために,二相事前学習プロセスを用いる。 このモデルはまず、言語理解のためのテキストコーパスを用いて事前訓練を行い、その後、接地テキスト生成のための要約コーパス上で継続的に事前訓練する。 第二に、エンコーダ内の自己注意層を、各単語がそれぞれその内容と位置をエンコードする2つのベクトルで表現される無絡注意層に置き換える。 第3に,長いシーケンスを階層的に符号化する単純かつ効果的な方法である fusion-in-encoder を用いる。 Z-Code++は、5つの言語にまたがる13のテキスト要約タスクのうち9つに新しい状態を生成する。 XSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを示した。 ゼロショットと少数ショットの設定では、我々のモデルは競合モデルを大幅に上回っています。

This paper presents Z-Code++, a new pre-trained language model optimized for abstractive text summarization. The model extends the state of the art encoder-decoder model using three techniques. First, we use a two-phase pre-training process to improve model's performance on low-resource summarization tasks. The model is first pre-trained using text corpora for language understanding, and then is continually pre-trained on summarization corpora for grounded text generation. Second, we replace self-attention layers in the encoder with disentangled attention layers, where each word is represented using two vectors that encode its content and position, respectively. Third, we use fusion-in-encoder, a simple yet effective method of encoding long sequences in a hierarchical manner. Z-Code++ creates new state of the art on 9 out of 13 text summarization tasks across 5 languages. Our model is parameter-efficient in that it outperforms the 600x larger PaLM-540B on XSum, and the finetuned 200x larger GPT3-175B on SAMSum. In zero-shot and few-shot settings, our model substantially outperforms the competing models.
翻訳日:2023-06-08 20:12:21 公開日:2023-06-07
# ビジョン中心のBEV知覚:サーベイ

Vision-Centric BEV Perception: A Survey ( http://arxiv.org/abs/2208.02797v2 )

ライセンス: Link先を確認
Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming Wang, Yu Qiao, Ruigang Yang, Dinesh Manocha, Xinge Zhu(参考訳) 近年、視覚中心のBird's Eye View (BEV) の認識は、世界の直感的な表現を提供し、データ融合に寄与するなど、その固有の利点のために、産業と学術の両方から大きな関心を集めている。 ディープラーニングの急速な進歩は、視覚中心のBEV知覚問題に対処する多くの方法の提案につながった。 しかし、この新奇な研究分野を包括する最近の調査は行われていない。 今後の研究を促進するために,視覚中心のBEV知覚とその拡張における最新の展開に関する包括的調査を行った。 最新の知識をコンパイルして整理し、体系的なレビューと一般的なアルゴリズムの要約を提供する。 さらに,様々なBEV知覚タスクの詳細な分析と比較結果を提供し,今後の成果の評価を容易にし,新たな研究方向性を創出する。 さらに,本論文では,関連するアルゴリズムの進歩を支援するための実証的実装の詳細を論じ,共有する。

In recent years, vision-centric Bird's Eye View (BEV) perception has garnered significant interest from both industry and academia due to its inherent advantages, such as providing an intuitive representation of the world and being conducive to data fusion. The rapid advancements in deep learning have led to the proposal of numerous methods for addressing vision-centric BEV perception challenges. However, there has been no recent survey encompassing this novel and burgeoning research field. To catalyze future research, this paper presents a comprehensive survey of the latest developments in vision-centric BEV perception and its extensions. It compiles and organizes up-to-date knowledge, offering a systematic review and summary of prevalent algorithms. Additionally, the paper provides in-depth analyses and comparative results on various BEV perception tasks, facilitating the evaluation of future works and sparking new research directions. Furthermore, the paper discusses and shares valuable empirical implementation details to aid in the advancement of related algorithms.
翻訳日:2023-06-08 20:12:04 公開日:2023-06-07
# SSIVD-Net:Weaponized Violenceのための新しい高精細画像分類・検出技術

SSIVD-Net: A Novel Salient Super Image Classification & Detection Technique for Weaponized Violence ( http://arxiv.org/abs/2207.12850v6 )

ライセンス: Link先を確認
Toluwani Aremu, Li Zhiyuan, Reem Alameeri, Mustaqeem Khan, Abdulmotaleb El Saddik(参考訳) CCTV映像における暴力や武器による暴力の検出には、包括的なアプローチが必要である。 本研究は,監視ビデオにおける武器分布の学習を容易にするために特別に設計された, \emph{smart-city cctv violence detection (scvd)データセットを紹介する。 本稿では,暴力認識タスクにおける3D監視ビデオ解析の複雑さに対処するため,<emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection。 提案手法は,Salient-Super-Image表現を用いて,推論,性能,説明可能性を改善しつつ,3次元ビデオデータの複雑さ,次元性,情報損失を低減する。 筆者らは,未来的スマートシティのスケーラビリティと持続可能性要件を考慮して,カーネル化アプローチと残留学習戦略を組み合わせた新しいアーキテクチャである 'emph{Salient-Classifier} を紹介した。 SCVDデータセット上でSSIVD-NetとSalient Classifierのバリエーションを評価し,暴力検出によく使用されるSOTAモデルに対するベンチマークを行った。 本手法は,武器化と非兵器化の両方の暴力事例の検出において有意な改善を示す。 暴力検出においてSOTAを前進させることで、我々の研究は現実のアプリケーションに適した実用的でスケーラブルなソリューションを提供する。 提案手法は,cctv映像における暴力検出の課題に対処するだけでなく,スマート監視における武器分布の理解にも寄与する。 究極的には、我々の研究成果はよりスマートでより安全な都市を可能にし、公共の安全対策を強化するだろう。

Detection of violence and weaponized violence in closed-circuit television (CCTV) footage requires a comprehensive approach. In this work, we introduce the \emph{Smart-City CCTV Violence Detection (SCVD)} dataset, specifically designed to facilitate the learning of weapon distribution in surveillance videos. To tackle the complexities of analyzing 3D surveillance video for violence recognition tasks, we propose a novel technique called, \emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection). Our method reduces 3D video data complexity, dimensionality, and information loss while improving inference, performance, and explainability through the use of Salient-Super-Image representations. Considering the scalability and sustainability requirements of futuristic smart cities, the authors introduce the \emph{Salient-Classifier}, a novel architecture combining a kernelized approach with a residual learning strategy. We evaluate variations of SSIVD-Net and Salient Classifier on our SCVD dataset and benchmark against state-of-the-art (SOTA) models commonly employed in violence detection. Our approach exhibits significant improvements in detecting both weaponized and non-weaponized violence instances. By advancing the SOTA in violence detection, our work offers a practical and scalable solution suitable for real-world applications. The proposed methodology not only addresses the challenges of violence detection in CCTV footage but also contributes to the understanding of weapon distribution in smart surveillance. Ultimately, our research findings should enable smarter and more secure cities, as well as enhance public safety measures.
翻訳日:2023-06-08 20:11:25 公開日:2023-06-07
# イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering ( http://arxiv.org/abs/2207.12647v8 )

ライセンス: Link先を確認
Yang Liu, Guanbin Li, Liang Lin(参考訳) 既存の視覚的質問応答手法は、しばしばクロスモーダルなスプリアス相関や、ビデオにまたがる事象の時間性、因果性、ダイナミクスを捉えるのに失敗するイベントレベルの推論プロセスを単純化してしまう。 本稿では,イベントレベルの視覚的質問応答のタスクに対処するため,クロスモーダル因果関係推論のためのフレームワークを提案する。 特に、視覚的および言語的モダリティにまたがる因果構造を発見するために、一連の因果的介入操作が導入された。 私たちのフレームワークは、Cross-Modal Causal RelatIonal Reasoning (CMCIR)と呼ばれ、3つのモジュールを含んでいる。 一 正面的及び裏的因果的介入による視覚的及び言語的スプリアス相関を共同的に区別する因果性認識視覚言語的推論(cvlr)モジュール 二 視覚的・言語的意味論のきめ細かい相互作用を捉えるための時空間変換器(STT)モジュール 三 グローバル意味認識視覚言語表現を適応的に学習するための視覚言語機能融合(vlff)モジュール 4つのイベントレベルのデータセットに対する大規模な実験は、視覚言語学的因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、CMCIRの優位性を示している。 データセット、コード、モデルはhttps://github.com/HCPLab-SYSU/CMCIRで公開されている。

Existing visual question answering methods often suffer from cross-modal spurious correlations and oversimplified event-level reasoning processes that fail to capture event temporality, causality, and dynamics spanning over the video. In this work, to address the task of event-level visual question answering, we propose a framework for cross-modal causal relational reasoning. In particular, a set of causal intervention operations is introduced to discover the underlying causal structures across visual and linguistic modalities. Our framework, named Cross-Modal Causal RelatIonal Reasoning (CMCIR), involves three modules: i) Causality-aware Visual-Linguistic Reasoning (CVLR) module for collaboratively disentangling the visual and linguistic spurious correlations via front-door and back-door causal interventions; ii) Spatial-Temporal Transformer (STT) module for capturing the fine-grained interactions between visual and linguistic semantics; iii) Visual-Linguistic Feature Fusion (VLFF) module for learning the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering. The datasets, code, and models are available at https://github.com/HCPLab-SYSU/CMCIR.
翻訳日:2023-06-08 20:10:51 公開日:2023-06-07
# フィルタに基づくてんかんグラフの合理的制約学習への一般的アプローチ

A Filtering-based General Approach to Learning Rational Constraints of Epistemic Graphs ( http://arxiv.org/abs/2211.02918v2 )

ライセンス: Link先を確認
Xiao Chi(参考訳) エピステミックグラフは、確率論的議論に対するエピステミックアプローチの一般化である。 hunter氏はクラウドソーシングデータから認識論的制約を学ぶための2方向一般化フレームワークを提案した。 しかし、学習した認識論的制約は、認識論的グラフに符号化された合理性を考慮することなく、データからの信念のみを反映している。 一方、現在のフレームワークは、エージェントが引数を信じているかどうかを反映する認識論的制約しか生成できない。 この効果を達成するための大きな課題は、様々な制約を拡張すると計算の複雑さが急激に増加し、許容できない時間性能をもたらすことである。 これらの問題に対処するために,データ集合から認識論的グラフと整合する有理規則の集合を生成するために,多方向一般化ステップを用いたフィルタリングに基づくアプローチを提案する。 このアプローチは、ドメインモデルとユーザモデルの両方の情報を反映するより広範な合理的なルールを学ぶことができます。 さらに,計算効率を向上させるために,意味のないルールを除外する新たな関数を導入する。 実験結果から,本手法は各種ルールを拡張する際に,既存のフレームワークを著しく上回っていることがわかった。

Epistemic graphs are a generalization of the epistemic approach to probabilistic argumentation. Hunter proposed a 2-way generalization framework to learn epistemic constraints from crowd-sourcing data. However, the learnt epistemic constraints only reflect users' beliefs from data, without considering the rationality encoded in epistemic graphs. Meanwhile, the current framework can only generate epistemic constraints that reflect whether an agent believes an argument, but not the degree to which it believes in it. The major challenge to achieving this effect is that the computational complexity will increase sharply when expanding the variety of constraints, which may lead to unacceptable time performance. To address these problems, we propose a filtering-based approach using a multiple-way generalization step to generate a set of rational rules which are consistent with their epistemic graphs from a dataset. This approach is able to learn a wider variety of rational rules that reflect information in both the domain model and the user model. Moreover, to improve computational efficiency, we introduce a new function to exclude meaningless rules. The empirical results show that our approach significantly outperforms the existing framework when expanding the variety of rules.
翻訳日:2023-06-08 20:04:47 公開日:2023-06-07
# ViSNet: 分子のためのベクトルスカラー対話型メッセージパッシングを用いた等変幾何強化グラフニューラルネットワーク

ViSNet: an equivariant geometry-enhanced graph neural network with vector-scalar interactive message passing for molecules ( http://arxiv.org/abs/2210.16518v2 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Xinheng He, Mingyu Li, Zun Wang, Nanning Zheng, Bin Shao, Tong Wang and Tie-Yan Liu(参考訳) 幾何学的深層学習は分子モデリング分野に革命をもたらした。 最先端のニューラルネットワークモデルが分子特性予測の開始精度に近づいているにもかかわらず、薬物発見や分子動力学(MD)シミュレーションなどの応用は、幾何学的情報の不十分な利用と高い計算コストによって妨げられている。 本稿では,等価幾何エンハンスドグラフニューラルネットワークであるvisnetを提案し,幾何学的特徴をエレガントに抽出し,計算コストの低い分子構造を効率的にモデル化する。 提案するViSNetは,MD17,MD17,MD22を含む複数のMDベンチマークにおける最先端の手法よりも優れ,QM9およびMolecule3Dデータセット上での優れた化学的特性予測を実現する。 さらに、ViSNetはOGB-LCS@NeurIPS2022コンペティションでPCQM4Mv2トラックの首位を獲得した。 さらに、一連のシミュレーションやケーススタディを通じて、ViSNetは構造空間を効率的に探索し、幾何学的表現を分子構造にマッピングするための合理的な解釈性を提供する。

Geometric deep learning has been revolutionizing the molecular modeling field. Despite the state-of-the-art neural network models are approaching ab initio accuracy for molecular property prediction, their applications, such as drug discovery and molecular dynamics (MD) simulation, have been hindered by insufficient utilization of geometric information and high computational costs. Here we propose an equivariant geometry-enhanced graph neural network called ViSNet, which elegantly extracts geometric features and efficiently models molecular structures with low computational costs. Our proposed ViSNet outperforms state-of-the-art approaches on multiple MD benchmarks, including MD17, revised MD17 and MD22, and achieves excellent chemical property prediction on QM9 and Molecule3D datasets. Additionally, ViSNet achieved the top winners of PCQM4Mv2 track in the OGB-LCS@NeurIPS2022 competition. Furthermore, through a series of simulations and case studies, ViSNet can efficiently explore the conformational space and provide reasonable interpretability to map geometric representations to molecular structures.
翻訳日:2023-06-08 20:04:07 公開日:2023-06-07
# 密度汎関数理論に基づく量子回路の効率的な平均場シミュレーション

Efficient Mean-Field Simulation of Quantum Circuits Inspired by Density Functional Theory ( http://arxiv.org/abs/2210.16465v2 )

ライセンス: Link先を確認
Marco Bernardi(参考訳) 量子回路(QC)の厳密なシミュレーションは、QC波動関数を指数関数的に量子ビット数で格納するために必要なメモリと計算コストが、現在$\sim$50キュービットに制限されている。 したがって、近似QCシミュレーションのための効率的なスキームの開発が現在研究の焦点となっている。 本稿では、多電子系の研究に広く用いられている密度汎関数理論(DFT)にヒントを得たQCのシミュレーションを示す。 我々の計算では,SQPの形式的な指数コストにもかかわらず,量子ビット数で線形なメモリと計算資源を用いて,共通ゲートセットを持つ複数のQCのクラスにおいて,限界単一量子ビット確率(SQP)を90%以上精度で予測することができる。 これはQCの平均場記述を開発し、QC波動関数を計算せずにSQPを進化させるために DFT $-$ の交換相関関数のアナログを定式化することで達成される。 この形式主義の現在の限界と将来の拡張について論じる。

Exact simulations of quantum circuits (QCs) are currently limited to $\sim$50 qubits because the memory and computational cost required to store the QC wave function scale exponentially with qubit number. Therefore, developing efficient schemes for approximate QC simulations is a current research focus. Here we show simulations of QCs with a method inspired by density functional theory (DFT), a widely used approach to study many-electron systems. Our calculations can predict marginal single-qubit probabilities (SQPs) with over 90% accuracy in several classes of QCs with universal gate sets, using memory and computational resources linear in qubit number despite the formal exponential cost of the SQPs. This is achieved by developing a mean-field description of QCs and formulating optimal single- and two-qubit gate functionals $-$ analogs of exchange-correlation functionals in DFT $-$ to evolve the SQPs without computing the QC wave function. Current limitations and future extensions of this formalism are discussed.
翻訳日:2023-06-08 20:03:45 公開日:2023-06-07
# グラフニューラルネットワークにおける説明者の説明 : 比較研究

Explaining the Explainers in Graph Neural Networks: a Comparative Study ( http://arxiv.org/abs/2210.15304v2 )

ライセンス: Link先を確認
Antonio Longa, Steve Azzolin, Gabriele Santin, Giulia Cencetti, Pietro Li\`o, Bruno Lepri and Andrea Passerini(参考訳) グラフベースの学習における迅速な最初のブレークスルーに続いて、グラフニューラルネットワーク(gnn)は多くの科学や工学の分野で広く応用され、意思決定プロセスを理解する方法の必要性が高まっている。 gnnの解説は近年登場し始めており、他のドメインから新規あるいは適応した手法が数多く存在する。 この多くの代替アプローチを整理するために、様々な説明可能性指標を用いて異なる説明者のパフォーマンスをベンチマークした。 しかしながら、これらの初期の作品は、異なるgnnアーキテクチャが多かれ少なかれ説明可能である理由や、ある設定でどの説明者が望ましいかについての洞察を提供しようとはしていない。 そこで本研究では、6つのグラフとノードの分類データセットでトレーニングされた8つの代表的なアーキテクチャについて10の解説者をテストする体系的な実験研究を考案し,これらのギャップを埋める。 結果から,GNN説明器の選択と適用性に関する重要な知見が得られ,使用性と成功を可能にする重要なコンポーネントを分離し,一般的な解釈の落とし穴を避けるための推奨事項を提供する。 結論として,今後の研究の方向性と今後の課題を強調する。

Following a fast initial breakthrough in graph based learning, Graph Neural Networks (GNNs) have reached a widespread application in many science and engineering fields, prompting the need for methods to understand their decision process. GNN explainers have started to emerge in recent years, with a multitude of methods both novel or adapted from other domains. To sort out this plethora of alternative approaches, several studies have benchmarked the performance of different explainers in terms of various explainability metrics. However, these earlier works make no attempts at providing insights into why different GNN architectures are more or less explainable, or which explainer should be preferred in a given setting. In this survey, we fill these gaps by devising a systematic experimental study, which tests ten explainers on eight representative architectures trained on six carefully designed graph and node classification datasets. With our results we provide key insights on the choice and applicability of GNN explainers, we isolate key components that make them usable and successful and provide recommendations on how to avoid common interpretation pitfalls. We conclude by highlighting open questions and directions of possible future research.
翻訳日:2023-06-08 20:03:25 公開日:2023-06-07
# サンプル置換の最適化によるグローバルコントラストバッチサンプリング

Global Contrastive Batch Sampling via Optimization on Sample Permutations ( http://arxiv.org/abs/2210.12874v4 )

ライセンス: Link先を確認
Vin Sachidananda, Ziyi Yang, Chenguang Zhu(参考訳) コントラスト学習は最近、幅広いタスクで最先端のパフォーマンスを達成している。 多くの対照的な学習アプローチは、訓練中にバッチをより有益にするためにマイニングハードネガティブスを使用するが、これらのアプローチは、マイニングされたネガティブ数に比例するエポック長を増加させ、近辺のインデックスや最近のバッチからのマイニングの頻繁な更新を必要とするため、非効率である。 本研究では,強負のマイニングの代替としてGCBS(Global Contrastive Batch Sampling)を提案する。これは,グローバルとトレーニングの損失のギャップを上限とするバッチ割当問題に対して,対照的な学習条件で,$\mathcal{L}^{Global} - \mathcal{L}^{Train}$という,効率的な近似手法である。 実験により, GCBSは文の埋め込みやコード検索作業における最先端のパフォーマンスを向上させる。 さらに、GCBSは、数行のコードしか必要とせず、近隣のインデックスのような外部データ構造を維持しておらず、最も最小限の負のマイニングアプローチよりも計算効率が良く、訓練中のモデルに変更を加えることはないため、実装が容易である。

Contrastive Learning has recently achieved state-of-the-art performance in a wide range of tasks. Many contrastive learning approaches use mined hard negatives to make batches more informative during training but these approaches are inefficient as they increase epoch length proportional to the number of mined negatives and require frequent updates of nearest neighbor indices or mining from recent batches. In this work, we provide an alternative to hard negative mining, Global Contrastive Batch Sampling (GCBS), an efficient approximation to the batch assignment problem that upper bounds the gap between the global and training losses, $\mathcal{L}^{Global} - \mathcal{L}^{Train}$, in contrastive learning settings. Through experimentation we find GCBS improves state-of-the-art performance in sentence embedding and code-search tasks. Additionally, GCBS is easy to implement as it requires only a few additional lines of code, does not maintain external data structures such as nearest neighbor indices, is more computationally efficient than the most minimal hard negative mining approaches, and makes no changes to the model being trained.
翻訳日:2023-06-08 20:03:05 公開日:2023-06-07
# 六方晶窒化ホウ素における強相互作用電子スピン欠陥のコヒーレントダイナミクス

Coherent Dynamics of Strongly Interacting Electronic Spin Defects in Hexagonal Boron Nitride ( http://arxiv.org/abs/2210.11485v2 )

ライセンス: Link先を確認
Ruotian Gong, Guanghui He, Xingyu Gao, Peng Ju, Zhongyuan Liu, Bingtian Ye, Erik A. Henriksen, Tongcang Li, Chong Zu(参考訳) ファンデルワールス材料の光学活性スピン欠陥は、現代の量子技術にとって有望なプラットフォームである。 ここでは, 六方晶窒化ホウ素 (hBN) における負電荷のホウ素空孔 (\vbm) 中心の強い相互作用するアンサンブルのコヒーレントダイナミクスについて検討する。 異なるデファス源を選択的に分離するために高度な動的デカップリング配列を用いることにより、すべてのhbnサンプルで測定されたコヒーレンス時間の5倍以上の改善が観察される。 重要となるのは、\vbmアンサンブル内の多体相互作用がコヒーレントダイナミクスにおいて重要な役割を担っていることであり、これは直接的に \vbm の濃度を推定するために用いられる。 高イオン注入量では、生成したホウ素空隙欠陥のごく一部のみが所望の負の荷電状態にあることが判明した。 最後に、局所電荷欠陥による電界信号に対する \vbm のスピン応答について検討し、その基底状態の逆電界感受性を推定する。 この結果は,hBNの欠陥を量子センサやシミュレータとして将来利用するために重要となる, \vbmのスピンおよび電荷特性に関する新たな知見を提供する。

Optically active spin defects in van der Waals materials are promising platforms for modern quantum technologies. Here we investigate the coherent dynamics of strongly interacting ensembles of negatively charged boron-vacancy (\vbm) centers in hexagonal boron nitride (hBN) with varying defect density. By employing advanced dynamical decoupling sequences to selectively isolate different dephasing sources, we observe more than 5-fold improvement in the measured coherence times across all hBN samples. Crucially, we identify that the many-body interaction within the \vbm ensemble plays a substantial role in the coherent dynamics, which is then used to directly estimate the concentration of \vbm. We find that at high ion implantation dosage, only a small portion of the created boron vacancy defects are in the desired negatively charged state. Finally, we investigate the spin response of \vbm to the local charged defects induced electric field signals, and estimate its ground state transverse electric field susceptibility. Our results provide new insights on the spin and charge properties of \vbm, which are important for future use of defects in hBN as quantum sensors and simulators.
翻訳日:2023-06-08 20:02:43 公開日:2023-06-07
# ボツネックアダプターを用いた低資源制約下におけるがん診断

Using Bottleneck Adapters to Identify Cancer in Clinical Notes under Low-Resource Constraints ( http://arxiv.org/abs/2210.09440v2 )

ライセンス: Link先を確認
Omid Rohanian, Hannah Jauncey, Mohammadmahdi Nouriborji, Vinod Kumar Chauhan, Bronner P. Gon\c{c}alves, Christiana Kartsonaki, ISARIC Clinical Characterisation Group, Laura Merson, David Clifton(参考訳) 臨床健康記録に記録された情報を処理することは、バイオメディカルNLPの研究の活発な領域である。 本研究では, 臨床ノートを含むデータセット上で, 単純なrnnからbiobertなどの特殊なトランスフォーマーまで, サンプルが癌関連であるか否かを示すアノテーション群とともに, 幅広い機械学習手法を評価した。 さらに,NLP からの効率的な微調整手法,すなわちボトルネックアダプタと即時チューニングを用いて,モデルを特殊タスクに適応させる。 評価の結果,凍結したBERTモデルを自然言語で事前学習し,ボトルネックアダプタを用いて微調整することで,BioBERTモデルを完全に微調整するなど,他の手法よりも優れていることがわかった。 この結果から,ラベル付きデータや処理能力に制限のある低リソース環境におけるボトルネックアダプタの使用は,バイオメディカルテキストマイニングにおいて有効な戦略である可能性が示唆された。 実験で使用されたコードはhttps://github.com/omidrohanian/bottleneck-adaptersで利用可能になる。

Processing information locked within clinical health records is a challenging task that remains an active area of research in biomedical NLP. In this work, we evaluate a broad set of machine learning techniques ranging from simple RNNs to specialised transformers such as BioBERT on a dataset containing clinical notes along with a set of annotations indicating whether a sample is cancer-related or not. Furthermore, we specifically employ efficient fine-tuning methods from NLP, namely, bottleneck adapters and prompt tuning, to adapt the models to our specialised task. Our evaluations suggest that fine-tuning a frozen BERT model pre-trained on natural language and with bottleneck adapters outperforms all other strategies, including full fine-tuning of the specialised BioBERT model. Based on our findings, we suggest that using bottleneck adapters in low-resource situations with limited access to labelled data or processing capacity could be a viable strategy in biomedical text mining. The code used in the experiments are going to be made available at https://github.com/omidrohanian/bottleneck-adapters.
翻訳日:2023-06-08 20:02:06 公開日:2023-06-07
# 共変量シフトの祝福と呪い--逆学習ダイナミクス、方向収束、平衡

Blessings and Curses of Covariate Shifts: Adversarial Learning Dynamics, Directional Convergence, and Equilibria ( http://arxiv.org/abs/2212.02457v2 )

ライセンス: Link先を確認
Tengyuan Liang(参考訳) 共変量分布の変化と対向摂動は従来の統計学習フレームワークに頑健な課題をもたらす: テスト共変量分布の軽微な変化は、トレーニング分布に基づいて学習された統計モデルの性能に大きく影響する。 モデルのパフォーマンスは通常、外挿(expolation)が発生すると低下する:すなわち、トレーニング分布が不足している領域への共変量シフト、そして当然、学習されたモデルにはほとんど情報がない。 頑健性や正規化を考慮し, 対向的摂動法を治療として提案するが, 学習モデルにより, 対向的共変量シフトがどの外挿領域に焦点を絞るかについて, 慎重に検討する必要がある。 本稿では,無限次元環境下での回帰と分類の両面から,外挿領域を正確に特徴づける。 逐次ゲームフレームワークにおける平衡モデル(ベイズ最適モデル)のその後の学習に対する逆共変量シフトの影響について検討する。 敵対的学習ゲームのダイナミクスを活用し,均衡学習への共変量シフトと実験設計の奇妙な効果を明らかにする。 特に,(1)回帰の祝福,(2)指数関数的速度での共変量シフト,(2)迅速な後続学習のための最適実験設計,(2)分類の呪い,(2)後続学習をトラッピングする最も難しい実験設計に高速に逆共変量シフト,という特徴ある現象を示す2つの方向収束結果を確立した。

Covariate distribution shifts and adversarial perturbations present robustness challenges to the conventional statistical learning framework: mild shifts in the test covariate distribution can significantly affect the performance of the statistical model learned based on the training distribution. The model performance typically deteriorates when extrapolation happens: namely, covariates shift to a region where the training distribution is scarce, and naturally, the learned model has little information. For robustness and regularization considerations, adversarial perturbation techniques are proposed as a remedy; however, careful study needs to be carried out about what extrapolation region adversarial covariate shift will focus on, given a learned model. This paper precisely characterizes the extrapolation region, examining both regression and classification in an infinite-dimensional setting. We study the implications of adversarial covariate shifts to subsequent learning of the equilibrium -- the Bayes optimal model -- in a sequential game framework. We exploit the dynamics of the adversarial learning game and reveal the curious effects of the covariate shift to equilibrium learning and experimental design. In particular, we establish two directional convergence results that exhibit distinctive phenomena: (1) a blessing in regression, the adversarial covariate shifts in an exponential rate to an optimal experimental design for rapid subsequent learning, (2) a curse in classification, the adversarial covariate shifts in a subquadratic rate fast to the hardest experimental design trapping subsequent learning.
翻訳日:2023-06-08 19:54:49 公開日:2023-06-07
# 観測エントロピーを用いたウィットネス量子カオス

Witnessing quantum chaos using observational entropy ( http://arxiv.org/abs/2212.01585v3 )

ライセンス: Link先を確認
Sreeram PG, Ranjan Modak and S. Aravinda(参考訳) 量子キックトップ (qkt) モデルの観測エントロピー (oe) について検討し, その古典的エントロピーは, キックパラメータの強度に応じて, 正則, 混合, カオスの各相を持つ。 我々は,OEが周期的に粗粒長で対数的に成長するのに対して,OEはカオス的状態においてより高速であることを示す。 動態学では,OEの短時間成長速度がシステムのカオス性の尺度として機能することを示し,この結果と時間外相関器(OTOC)との比較を行った。 さらに、深い量子状態においては、OEから得られる結果はOTOCの結果よりもはるかに堅牢であることを示す。 最後に,サドルポイントスクランブルと真のカオスを区別するために,oeの長期的挙動についても検討した。

We study observation entropy (OE) for the Quantum kicked top (QKT) model, whose classical counterpart possesses different phases: regular, mixed, or chaotic, depending on the strength of the kicking parameter. We show that OE grows logarithmically with coarse-graining length beyond a critical value in the regular phase, while OE growth is much faster in the chaotic regime. In the dynamics, we demonstrate that the short-time growth rate of OE acts as a measure of the chaoticity in the system, and we compare our results with out-of-time-ordered correlators (OTOC). Moreover, we show that in the deep quantum regime, the results obtained from OE are much more robust compared to OTOC results. Finally, we also investigate the long-time behaviour of OE to distinguish between saddle-point scrambling and true chaos, where the former shows large persistent fluctuations compared to the latter.
翻訳日:2023-06-08 19:54:20 公開日:2023-06-07
# PCT-CycleGAN:レーダ型降雨予報のための相補的テンポラルサイクル一貫性対向ネットワーク

PCT-CycleGAN: Paired Complementary Temporal Cycle-Consistent Adversarial Networks for Radar-Based Precipitation Nowcasting ( http://arxiv.org/abs/2211.15046v4 )

ライセンス: Link先を確認
Jaeho Choi, Yura Kim, Kwang-Ho Kim, Sung-Hwa Jung, Ikhyun Cho(参考訳) 降雨は人間の生活に重大な影響を与えるため、降雨のノキャスティング手法は数世紀にわたって精巧化されてきた。 定量的降水量予測(QPF)モデルと畳み込み長短期記憶(ConvLSTM)だけでなく、最新のMetNet-2のような高度な手法も登場している。 本稿では,画像から画像への変換において強力な性能を示すcyclegan(cycle- consistent adversarial networks)にインスパイアされた,レーダベースの降水ナキャスティングのための相補的な時間周期整合adversarial network(pct-cyclegan)を提案する。 PCT-CycleGANは、2つのジェネレータネットワークと2つの相補サイクルにおける前後時間ダイナミクスを用いて時間因果関係を生成する。 各ジェネレータネットワークは、時間依存レーダベースの降水データに関する大量の1対1マッピングを学習し、各方向の時間ダイナミクスを表すマッピング関数を近似する。 ペアの相補サイクル間のロバストな時間的因果関係を生み出すために,新たな接続損失を提案する。 また, 豪雨を補うための集中的損失も提案されている。 PCT-CycleGANのフォワード時間ダイナミクスを学習するジェネレータネットワークは、現在の時間からレーダーベースの降水データを生成する。 また、反復予測によって、最大2時間の信頼できる予測を提供する。 PCT-CycleGANの優位性は, 定性的, 定量的な比較によって示された。

The precipitation nowcasting methods have been elaborated over the centuries because rain has a crucial impact on human life. Not only quantitative precipitation forecast (QPF) models and convolutional long short-term memory (ConvLSTM), but also various sophisticated methods such as the latest MetNet-2 are emerging. In this paper, we propose a paired complementary temporal cycle-consistent adversarial networks (PCT-CycleGAN) for radar-based precipitation nowcasting, inspired by cycle-consistent adversarial networks (CycleGAN), which shows strong performance in image-to-image translation. PCT-CycleGAN generates temporal causality using two generator networks with forward and backward temporal dynamics in paired complementary cycles. Each generator network learns a huge number of one-to-one mappings about time-dependent radar-based precipitation data to approximate a mapping function representing the temporal dynamics in each direction. To create robust temporal causality between paired complementary cycles, novel connection loss is proposed. And torrential loss to cover exceptional heavy rain events is also proposed. The generator network learning forward temporal dynamics in PCT-CycleGAN generates radar-based precipitation data 10 minutes from the current time. Also, it provides a reliable prediction of up to 2 hours with iterative forecasting. The superiority of PCT-CycleGAN is demonstrated through qualitative and quantitative comparisons with several previous methods.
翻訳日:2023-06-08 19:53:51 公開日:2023-06-07
# 無限ストリップ上の二次元等尺性テンソルネットワーク

Two Dimensional Isometric Tensor Networks on an Infinite Strip ( http://arxiv.org/abs/2211.14337v2 )

ライセンス: Link先を確認
Yantao Wu, Sajant Anand, Sheng-Hsuan Lin, Frank Pollmann, Michael P. Zaletel(参考訳) 2次元テンソルネットワーク状態(TNS)の正確な収縮は指数関数的に困難であることが知られ、2次元システムのシミュレーションは困難である。 最近導入された等尺的 TNS (isoTNS) は TNS のサブセットであり、有限平方格子上のそのようなシステムの効率的なシミュレーションを可能にする。 アイソTNSアンサッツはテンソルの「直交列」の同定を必要とし、そこでは1次元行列積状態(MPS)法が可観測物の計算やテンソルの最適化に利用できる。 ここでは、IsoTNSを無限に長いストリップジオメトリに拡張し、ネットワークの直交列を移動させるためのモーゼスモーブアルゴリズムの無限バージョンを導入する。 このアルゴリズムを用いて、2次元量子状態の無限MPS表現をストリップアイソTNSに繰り返し変換し、結果として生じる状態の絡み合い特性を調べる。 また,局所観測結果を効率的に評価できることを実証する。 最後に、無限時間発展ブロックデシメーションアルゴリズム(itebd\textsuperscript{2})を導入し、無限ストリップ幾何学の格子上の2次元横場イジングモデルの基底状態の近似に使用する。

The exact contraction of a generic two-dimensional (2D) tensor network state (TNS) is known to be exponentially hard, making simulation of 2D systems difficult. The recently introduced class of isometric TNS (isoTNS) represents a subset of TNS that allows for efficient simulation of such systems on finite square lattices. The isoTNS ansatz requires the identification of an "orthogonality column" of tensors, within which one-dimensional matrix product state (MPS) methods can be used for calculation of observables and optimization of tensors. Here we extend isoTNS to infinitely long strip geometries and introduce an infinite version of the Moses Move algorithm for moving the orthogonality column around the network. Using this algorithm, we iteratively transform an infinite MPS representation of a 2D quantum state into a strip isoTNS and investigate the entanglement properties of the resulting state. In addition, we demonstrate that the local observables can be evaluated efficiently. Finally, we introduce an infinite time-evolving block decimation algorithm (iTEBD\textsuperscript{2}) and use it to approximate the ground state of the 2D transverse field Ising model on lattices of infinite strip geometry.
翻訳日:2023-06-08 19:52:39 公開日:2023-06-07
# Suggest Breaks: 長期的なユーザエンゲージメントの持続可能な最適化

Learning to Suggest Breaks: Sustainable Optimization of Long-Term User Engagement ( http://arxiv.org/abs/2211.13585v2 )

ライセンス: Link先を確認
Eden Saig, Nir Rosenfeld(参考訳) ユーザのエンゲージメントを最適化することは、現代のレコメンデーションシステムにとって重要な目標だが、消費リスクの増大、燃え尽き症候群、中毒性など、ユーザに盲目的に促す。 デジタル幸福を促進するために、ほとんどのプラットフォームは定期的に休憩を促すサービスを提供している。 しかし、これらは手動で設定する必要があるため、ユーザーとシステムの両方に最適ではないかもしれない。 本稿では,推奨事項におけるブレークの役割について検討し,長期的な取り組みを促進・持続する最適なブレークポリシーを学ぶための枠組みを提案する。 レコメンデーションダイナミクスはポジティブなフィードバックとネガティブなフィードバックの両方に影響を受けやすいという考えに基づいて、我々はレコメンデーションをロッカ・ボルテラ力学系として位置づけた。 次に、効率的な学習アルゴリズムを提供し、理論的保証を提供し、半合成データに対するアプローチの有用性を実証的に実証する。

Optimizing user engagement is a key goal for modern recommendation systems, but blindly pushing users towards increased consumption risks burn-out, churn, or even addictive habits. To promote digital well-being, most platforms now offer a service that periodically prompts users to take breaks. These, however, must be set up manually, and so may be suboptimal for both users and the system. In this paper, we study the role of breaks in recommendation, and propose a framework for learning optimal breaking policies that promote and sustain long-term engagement. Based on the notion that recommendation dynamics are susceptible to both positive and negative feedback, we cast recommendation as a Lotka-Volterra dynamical system, where breaking reduces to a problem of optimal control. We then give an efficient learning algorithm, provide theoretical guarantees, and empirically demonstrate the utility of our approach on semi-synthetic data.
翻訳日:2023-06-08 19:52:16 公開日:2023-06-07
# 多目的最適化のための並列アルゴリズムポートフォリオの自動構築

Automatic Construction of Parallel Algorithm Portfolios for Multi-objective Optimization ( http://arxiv.org/abs/2211.09498v3 )

ライセンス: Link先を確認
Xiasheng Ma, Shengcai Liu, Wenjing Hong(参考訳) 万能多目的進化アルゴリズム(MOEA)が、可能な全多目的最適化問題(MOP)において他のすべてのMOEAを支配下に置くことはないことが広く知られている。 本稿では,複数のmoeaを独立して並列に実行し,それらを最大限に活用し,異なるmoeaの利点を組み合わせる並列アルゴリズムポートフォリオ(parallel algorithm portfolio:pap)の利用を提唱する。 PAPのマニュアル構築は簡単で面倒なため,MPPを解くための高性能なPAPの自動構築を提案する。 具体的には、まず、従来のpapsよりもmopsの出力解セットをよりよく決定できる、moeas/papの変種を提案する。 そこで本研究では,moeas/papの自動構築手法として,複数のmopにおけるmoeasの性能評価のための新しい性能指標を提案する。 最後に,提案手法を用いてモップのトレーニングセットとnsga-iiのいくつかの変種によって定義されるアルゴリズム構成空間に基づいてmoeas/papを構築する。 実験の結果、自動構築されたMOEA/PAPは、人間の専門家が設計した最先端のMOEAと競合し、多目的最適化におけるPAPの自動構築の可能性を示した。

It has been widely observed that there exists no universal best Multi-objective Evolutionary Algorithm (MOEA) dominating all other MOEAs on all possible Multi-objective Optimization Problems (MOPs). In this work, we advocate using the Parallel Algorithm Portfolio (PAP), which runs multiple MOEAs independently in parallel and gets the best out of them, to combine the advantages of different MOEAs. Since the manual construction of PAPs is non-trivial and tedious, we propose to automatically construct high-performance PAPs for solving MOPs. Specifically, we first propose a variant of PAPs, namely MOEAs/PAP, which can better determine the output solution set for MOPs than conventional PAPs. Then, we present an automatic construction approach for MOEAs/PAP with a novel performance metric for evaluating the performance of MOEAs across multiple MOPs. Finally, we use the proposed approach to construct a MOEAs/PAP based on a training set of MOPs and an algorithm configuration space defined by several variants of NSGA-II. Experimental results show that the automatically constructed MOEAs/PAP can even rival the state-of-the-art ensemble MOEAs designed by human experts, demonstrating the huge potential of automatic construction of PAPs in multi-objective optimization.
翻訳日:2023-06-08 19:51:57 公開日:2023-06-07
# MACSum: 混合属性による制御可能な要約

MACSum: Controllable Summarization with Mixed Attributes ( http://arxiv.org/abs/2211.05041v2 )

ライセンス: Link先を確認
Yusen Zhang, Yang Liu, Ziyi Yang, Yuwei Fang, Yulong Chen, Dragomir Radev, Chenguang Zhu, Michael Zeng, Rui Zhang(参考訳) 制御可能な要約により、ユーザーは特定の属性でカスタマイズされた要約を生成することができる。 しかし、制御された要約のアノテーションがないため、既存の研究は一般的な要約ベンチマークを適用して擬似データセットを作成する必要がある。 さらに、ほとんどの研究は、属性の混合(例えば、短く抽象的な要約)を制御するのではなく、単一の属性を個別に(例えば、短い要約または高度に抽象的な要約)管理することに焦点を当てている。 本稿では,混合属性を制御するための最初の人間アノテーションによる要約データセットであるMACSumを提案する。 これには、ニュース記事と対話という2つのドメインの原文が含まれており、5つの設計属性(長文、抽出性、特異性、トピック、話者)で人称注釈の要約が制御されている。 ハードプロンプトチューニングとソフトプレフィックスチューニングに基づく混合制御可能な要約の新しいタスクに対して,2つの単純かつ効果的なパラメータ効率のアプローチを提案する。 結果と分析は、ハードプロンプトモデルがすべての指標と人間の評価において最高のパフォーマンスをもたらすことを示している。 しかし,混合属性制御は,相変わらず難しい課題である。 データセットとコードはhttps://github.com/psunlpgroup/MACSum.orgから入手可能です。

Controllable summarization allows users to generate customized summaries with specified attributes. However, due to the lack of designated annotations of controlled summaries, existing works have to craft pseudo datasets by adapting generic summarization benchmarks. Furthermore, most research focuses on controlling single attributes individually (e.g., a short summary or a highly abstractive summary) rather than controlling a mix of attributes together (e.g., a short and highly abstractive summary). In this paper, we propose MACSum, the first human-annotated summarization dataset for controlling mixed attributes. It contains source texts from two domains, news articles and dialogues, with human-annotated summaries controlled by five designed attributes (Length, Extractiveness, Specificity, Topic, and Speaker). We propose two simple and effective parameter-efficient approaches for the new task of mixed controllable summarization based on hard prompt tuning and soft prefix tuning. Results and analysis demonstrate that hard prompt models yield the best performance on all metrics and human evaluations. However, mixed-attribute control is still challenging for summarization tasks. Our dataset and code are available at https://github.com/psunlpgroup/MACSum.
翻訳日:2023-06-08 19:51:36 公開日:2023-06-07
# 簡単にアクセスできるテキスト・画像生成は大規模な画像ステレオタイプを増幅する

Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale ( http://arxiv.org/abs/2211.03759v2 )

ライセンス: Link先を確認
Federico Bianchi, Pratyusha Kalluri, Esin Durmus, Faisal Ladhak, Myra Cheng, Debora Nozza, Tatsunori Hashimoto, Dan Jurafsky, James Zou, Aylin Caliskan(参考訳) ユーザ記述のテキスト記述をイメージに変換する機械学習モデルは、今ではオンラインで広く利用されており、数百万のユーザが1日に数百万の画像を生成している。 これらのモデルが危険で複雑なステレオタイプを増幅する可能性について検討する。 さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。 例えば、基本的な特徴や社会的役割を推し進めることで、白人性を強化するイメージが理想的になり、職業を推し進めることで人種や性別の格差が拡大し、アメリカの規範が改定されるオブジェクトを推し進めるケースが見つかる。 ステレオタイプは、アイデンティティと人口統計言語に明示的に言及するか、そのような言語を避けるかにかかわらず存在する。 さらにステレオタイプは緩和戦略を保ってはいるが、特定の反ステレオタイプで画像を要求したり、システム ``guardrails'' を追加したりすることでステレオタイプに対抗する試みは、ステレオタイプの持続を妨げない。 私たちの分析は、今日のモデルの影響に関する懸念を正当化し、印象的な例を示し、これらの発見と深い洞察を社会科学とヒューマニストの規律から得られた損害に結びつける。 この研究は言語ビジョンモデルにおける一意に複雑なバイアスの解消に寄与し、テキスト・ツー・イメージ生成モデルの大量展開によってステレオタイプが大量普及し、結果として害をもたらす方法を示す。

Machine learning models that convert user-written text descriptions into images are now widely available online and used by millions of users to generate millions of images a day. We investigate the potential for these models to amplify dangerous and complex stereotypes. We find a broad range of ordinary prompts produce stereotypes, including prompts simply mentioning traits, descriptors, occupations, or objects. For example, we find cases of prompting for basic traits or social roles resulting in images reinforcing whiteness as ideal, prompting for occupations resulting in amplification of racial and gender disparities, and prompting for objects resulting in reification of American norms. Stereotypes are present regardless of whether prompts explicitly mention identity and demographic language or avoid such language. Moreover, stereotypes persist despite mitigation strategies; neither user attempts to counter stereotypes by requesting images with specific counter-stereotypes nor institutional attempts to add system ``guardrails'' have prevented the perpetuation of stereotypes. Our analysis justifies concerns regarding the impacts of today's models, presenting striking exemplars, and connecting these findings with deep insights into harms drawn from social scientific and humanist disciplines. This work contributes to the effort to shed light on the uniquely complex biases in language-vision models and demonstrates the ways that the mass deployment of text-to-image generation models results in mass dissemination of stereotypes and resulting harms.
翻訳日:2023-06-08 19:51:17 公開日:2023-06-07
# Bloch State Tomography による光学ラマン格子の量子幾何学的テンソルの抽出

Extracting the Quantum Geometric Tensor of an Optical Raman Lattice by Bloch State Tomography ( http://arxiv.org/abs/2301.06090v2 )

ライセンス: Link先を確認
Chang-Rui Yi, Jinlong Yu, Huan Yuan, Rui-Heng Jiao, Yu-Meng Yang, Xiao Jiang, Jin-Yi Zhang, Shuai Chen, and Jian-Wei Pan(参考訳) ヒルベルト空間において、量子状態の幾何学は、虚部がベリー曲率であり、実部が量子計量テンソルである量子幾何学テンソル(qgt)によって同定される。 本稿では,超低温原子に対する光学ラマン格子の固有関数を直接測定する完全ブロッホ状態トモグラフィーを提案し,実験的に実装する。 測定された固有関数を通して、ブリルアンゾーンにおける完全QGTの分布を再構成し、ベリー曲率によって位相不変量を抽出し、運動量空間における量子状態の距離を量子計量テンソルで測定する。 さらに,ベリー曲率と量子計量テンソルの予測不等式を実験的に検証し,トポロジーと幾何学の深い関係を明らかにした。

In Hilbert space, the geometry of the quantum state is identified by the quantum geometric tensor (QGT), whose imaginary part is the Berry curvature and real part is the quantum metric tensor. Here, we propose and experimentally implement a complete Bloch state tomography to directly measure eigenfunction of an optical Raman lattice for ultracold atoms. Through the measured eigenfunction, the distribution of the complete QGT in the Brillouin zone is reconstructed, with which the topological invariants are extracted by the Berry curvature and the distances of quantum states in momentum space are measured by the quantum metric tensor. Further, we experimentally test a predicted inequality between the Berry curvature and quantum metric tensor, which reveals a deep connection between topology and geometry.
翻訳日:2023-06-08 19:45:20 公開日:2023-06-07
# Tracr: 解釈可能性研究所としてのコンパイルトランス

Tracr: Compiled Transformers as a Laboratory for Interpretability ( http://arxiv.org/abs/2301.05062v4 )

ライセンス: Link先を確認
David Lindner and J\'anos Kram\'ar and Sebastian Farquhar and Matthew Rahtz and Thomas McGrath and Vladimir Mikulik(参考訳) 人間の読みやすいプログラムを標準デコーダのみの変換モデルに"コンパイル"する方法を示す。 コンパイラであるTrcrは、既知の構造を持つモデルを生成する。 この構造は実験の設計に利用できる。 例えば、マルチステップアルゴリズムを実行するトランスフォーマーの「重ね合わせ」を研究するために使用します。 さらに、Trcrコンパイルされたモデルの既知の構造は、解釈可能性の評価のための基盤となる。 一般的に、トランスフォーマーが学んだ「プログラム」が不明であるため、解釈が成功したかどうかは不明である。 我々は,トークンの頻度計算,ソート,括弧チェックなどのプログラムを実装し,検証することで,このアプローチを実証する。 Tracrのオープンソース実装はhttps://github.com/deepmind/tracrで公開しています。

We show how to "compile" human-readable programs into standard decoder-only transformer models. Our compiler, Tracr, generates models with known structure. This structure can be used to design experiments. For example, we use it to study "superposition" in transformers that execute multi-step algorithms. Additionally, the known structure of Tracr-compiled models can serve as ground-truth for evaluating interpretability methods. Commonly, because the "programs" learned by transformers are unknown it is unclear whether an interpretation succeeded. We demonstrate our approach by implementing and examining programs including computing token frequencies, sorting, and parenthesis checking. We provide an open-source implementation of Tracr at https://github.com/deepmind/tracr.
翻訳日:2023-06-08 19:45:05 公開日:2023-06-07
# 一次元におけるスピンおよび電荷ダイナミクスからの正準相関の創発

Emergence of anyonic correlations from spin and charge dynamics in one dimension ( http://arxiv.org/abs/2301.02164v2 )

ライセンス: Link先を確認
Oleksandr Gamayun, Eoin Quinn, Kemal Bidzhiev, Mikhail B. Zvonarev(参考訳) 一次元格子系におけるスピンおよび電荷自由度変換を提案し、二重占有部位を持たないことを制約し、系の動的相関に直接アクセスできるようにする。 この変換はスピンレス粒子とスピン-1/2$鎖の状態空間に作用する非局所作用素の形で粒子の生成と消滅演算子をもたらす。 これにより、スピン鎖と共役する不透過性エノンの畳み込みとして、動的相関関数の分解が可能となる。 さらなる分析は、畳み込みの各部分に適した方法で行うことができ、アプローチの影響と柔軟性を大幅に増大させることができる。

We propose a transformation for spin and charge degrees of freedom in one-dimensional lattice systems, constrained to have no doubly occupied sites, that allows direct access to the dynamical correlations of the system. The transformation delivers particle creation and annihilation operators in a form of a spinless particle and a non-local operator acting on the space of states of a spin-$1/2$ chain. This permits a decomposition of dynamical correlation functions as a convolution of those for impenetrable anyons together with those of a spin chain. Further analysis can be done by methods tailored for each part of the convolution, greatly increasing the impact and flexibility of the approach.
翻訳日:2023-06-08 19:44:56 公開日:2023-06-07
# ディープ線形ネットワークにおけるニューラル崩壊:バランスデータから不均衡データへ

Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced Data ( http://arxiv.org/abs/2301.00437v4 )

ライセンス: Link先を確認
Hien Dang and Tho Tran and Stanley Osher and Hung Tran-The and Nhat Ho and Tan Nguyen(参考訳) 最近のディープニューラルネットワークは、画像分類から自然言語処理まで、タスクで素晴らしいパフォーマンスを達成している。 驚くべきことに、大量のパラメータを持つこれらの複雑なシステムは、収束までのトレーニングにおいて、最終層の特徴と分類器において同じ構造特性を示す。 特に、ラスト層の特徴はクラス平均に崩壊し、それらのクラス平均は単純等角タイトフレーム(etf)の頂点であることが観察されている。 この現象はNeural Collapse(\mathcal{NC}$)として知られている。 最近の論文では、$\mathcal{NC}$が'unconstrained feature model'を単純化した訓練問題の最小化に現れていることが理論的に示されている。 この文脈では、一般的な平均二乗誤差(MSE)とクロスエントロピー(CE)の損失に対して、深い線形ネットワークにおいて$\mathcal{NC}$が発生することを証明し、大域的解が線形層全体にわたって$\mathcal{NC}$の性質を示すことを示す。 さらに,MSE損失に対する不均衡データに研究を拡張し,バイアスのない条件下での$\mathcal{NC}$の幾何学的解析を行った。 以上の結果から,最終層の特徴と分類器の直交ベクトルからなる幾何への収束が,対応するクラスにおけるデータ量に依存することを示す。 最後に、バランスの取れたシナリオと不均衡なシナリオの両方で、合成および実用的なネットワークアーキテクチャに関する理論的解析を実証的に検証する。

Modern deep neural networks have achieved impressive performance on tasks from image classification to natural language processing. Surprisingly, these complex systems with massive amounts of parameters exhibit the same structural properties in their last-layer features and classifiers across canonical datasets when training until convergence. In particular, it has been observed that the last-layer features collapse to their class-means, and those class-means are the vertices of a simplex Equiangular Tight Frame (ETF). This phenomenon is known as Neural Collapse ($\mathcal{NC}$). Recent papers have theoretically shown that $\mathcal{NC}$ emerges in the global minimizers of training problems with the simplified ``unconstrained feature model''. In this context, we take a step further and prove the $\mathcal{NC}$ occurrences in deep linear networks for the popular mean squared error (MSE) and cross entropy (CE) losses, showing that global solutions exhibit $\mathcal{NC}$ properties across the linear layers. Furthermore, we extend our study to imbalanced data for MSE loss and present the first geometric analysis of $\mathcal{NC}$ under bias-free setting. Our results demonstrate the convergence of the last-layer features and classifiers to a geometry consisting of orthogonal vectors, whose lengths depend on the amount of data in their corresponding classes. Finally, we empirically validate our theoretical analyses on synthetic and practical network architectures with both balanced and imbalanced scenarios.
翻訳日:2023-06-08 19:44:45 公開日:2023-06-07
# グローバル収束保証付きロバストMDPにおける政策グラディエント

Policy Gradient in Robust MDPs with Global Convergence Guarantee ( http://arxiv.org/abs/2212.10439v2 )

ライセンス: Link先を確認
Qiuhao Wang, Chin Pang Ho, Marek Petrik(参考訳) Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。 多くの強化学習アルゴリズムはポリシー段階の手法に基づいて構築されているが、これらの手法をRMDPに適用することは困難である。 その結果、RMDPの大規模で実用的な領域への適用性は依然として限られている。 本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。 従来のロバストなポリシー勾配アルゴリズムとは対照的に、drpは近似誤差を単調に削減し、表型rmdpsのグローバル最適ポリシーへの収束を保証する。 本稿では,新しいパラメトリック遷移カーネルを導入し,勾配に基づく手法により内部ループロバストポリシを解く。 最後に,本アルゴリズムの有用性を数値的に示し,大域収束特性を確認した。

Robust Markov decision processes (RMDPs) provide a promising framework for computing reliable policies in the face of model errors. Many successful reinforcement learning algorithms build on variations of policy-gradient methods, but adapting these methods to RMDPs has been challenging. As a result, the applicability of RMDPs to large, practical domains remains limited. This paper proposes a new Double-Loop Robust Policy Gradient (DRPG), the first generic policy gradient method for RMDPs. In contrast with prior robust policy gradient algorithms, DRPG monotonically reduces approximation errors to guarantee convergence to a globally optimal policy in tabular RMDPs. We introduce a novel parametric transition kernel and solve the inner loop robust policy via a gradient-based method. Finally, our numerical results demonstrate the utility of our new algorithm and confirm its global convergence properties.
翻訳日:2023-06-08 19:44:02 公開日:2023-06-07
# 視覚言語事前学習のための位置案内テキストプロンプト

Position-guided Text Prompt for Vision-Language Pre-training ( http://arxiv.org/abs/2212.09737v2 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Pan Zhou, Mike Zheng Shou, Shuicheng Yan(参考訳) Vision-Language Pre-Training (VLP)は、画像とテキストのペアをコーディネートする有望な機能を示し、多種多様なクロスモーダル学習タスクを促進している。 しかし,VLPモデルには,視覚的推論などの下流タスクにおいて重要な視覚的接地/局所化機能が欠如している場合が多い。 本稿では,VLPで学習したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,PTP(Pight-Guided Text Prompt)パラダイムを提案する。 具体的には、VLPフェーズにおいて、PTPはイメージを$N\times N$ブロックに分割し、VLPで広く使用されているオブジェクト検出器を通して各ブロック内のオブジェクトを識別する。 次に、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロック(例えば、aPTP ``The block P has a O)に「P」や「`O」を埋めるなど)を回帰させることで、PTPが与えられた視覚的接地タスクを埋めるブランク問題に再構成する。 このメカニズムにより、VLPモデルの視覚的接地能力が向上し、様々な下流タスクをよりよく処理するのに役立つ。 いくつかの最先端のVLPフレームワークにPTPを導入することで、代表的なクロスモーダル学習モデルアーキテクチャと、VLTのゼロショットFlickr30K Retrieval (+4.8 in average recall@1)、SOTAのBLIP \cite{blip}ベースラインのCOCO Captioning (+5.3 in CIDEr)など、いくつかのベンチマークを一貫して改善する。 さらに、PTPはオブジェクト検出をベースとした手法と同等の結果を得ることができ、PTPはオブジェクト検出を中止し、後者は不可能である。 私たちのコードとトレーニング済みのウェイトは、 \url{https://github.com/sail-sg/ptp}でリリースされます。

Vision-Language Pre-Training (VLP) has shown promising capabilities to align image and text pairs, facilitating a broad variety of cross-modal learning tasks. However, we observe that VLP models often lack the visual grounding/localization capability which is critical for many downstream tasks such as visual reasoning. In this work, we propose a novel Position-guided Text Prompt (PTP) paradigm to enhance the visual grounding ability of cross-modal models trained with VLP. Specifically, in the VLP phase, PTP divides the image into $N\times N$ blocks, and identifies the objects in each block through the widely used object detector in VLP. It then reformulates the visual grounding task into a fill-in-the-blank problem given a PTP by encouraging the model to predict the objects in the given blocks or regress the blocks of a given object, e.g. filling `P" or ``O" in aPTP ``The block P has a O". This mechanism improves the visual grounding capability of VLP models and thus helps them better handle various downstream tasks. By introducing PTP into several state-of-the-art VLP frameworks, we observe consistently significant improvements across representative cross-modal learning model architectures and several benchmarks, e.g. zero-shot Flickr30K Retrieval (+4.8 in average recall@1) for ViLT \cite{vilt} baseline, and COCO Captioning (+5.3 in CIDEr) for SOTA BLIP \cite{blip} baseline. Moreover, PTP achieves comparable results with object-detector based methods, and much faster inference speed since PTP discards its object detector for inference while the later cannot. Our code and pre-trained weight will be released at \url{https://github.com/sail-sg/ptp}.
翻訳日:2023-06-08 19:43:47 公開日:2023-06-07
# 問合せ木最適化による知識グラフ上の複雑な論理的クエリの解法

Answering Complex Logical Queries on Knowledge Graphs via Query Computation Tree Optimization ( http://arxiv.org/abs/2212.09567v3 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Juanzi Li, Lei Hou(参考訳) 不完全な知識グラフ上で複雑な論理クエリに応答することは難しい課題であり、広く研究されている。 埋め込みベースのメソッドは複雑なクエリのトレーニングを必要とし、分散のクエリ構造にうまく一般化できない。 最近の作業では、このタスクをエンドツーエンドの最適化問題として捉えており、事前訓練されたリンク予測器のみを必要とする。 しかし、指数関数的に大きい組合せ探索空間のため、最適解は近似され、最終的な精度が制限される。 本研究では,最適解を効率的に見つけるためのqto(query computation tree optimization)を提案する。 QTOは、木のような計算グラフ、すなわちクエリ計算ツリーの前方への伝播によって最適な解を求める。 特に、QTOは、クエリ計算ツリーにエンコードされた独立性を利用して、最適化処理中にローカルな計算のみに関わる検索スペースを削減する。 3つのデータセットの実験から、QTOは複雑なクエリ応答における最先端のパフォーマンスを得ており、以前の最高の結果を平均22%上回っている。 さらにqtoは、クエリ内の各1ホップ原子の中間解を90%以上の精度で解釈することができる。 私たちの論文のコードはhttps://github.com/bys0318/QTOにあります。

Answering complex logical queries on incomplete knowledge graphs is a challenging task, and has been widely studied. Embedding-based methods require training on complex queries, and cannot generalize well to out-of-distribution query structures. Recent work frames this task as an end-to-end optimization problem, and it only requires a pretrained link predictor. However, due to the exponentially large combinatorial search space, the optimal solution can only be approximated, limiting the final accuracy. In this work, we propose QTO (Query Computation Tree Optimization) that can efficiently find the exact optimal solution. QTO finds the optimal solution by a forward-backward propagation on the tree-like computation graph, i.e., query computation tree. In particular, QTO utilizes the independence encoded in the query computation tree to reduce the search space, where only local computations are involved during the optimization procedure. Experiments on 3 datasets show that QTO obtains state-of-the-art performance on complex query answering, outperforming previous best results by an average of 22%. Moreover, QTO can interpret the intermediate solutions for each of the one-hop atoms in the query with over 90% accuracy. The code of our paper is at https://github.com/bys0318/QTO.
翻訳日:2023-06-08 19:43:06 公開日:2023-06-07
# CountingMOT:複数物体追跡のための共同カウント、検出、再同定

CountingMOT: Joint Counting, Detection and Re-Identification for Multiple Object Tracking ( http://arxiv.org/abs/2212.05861v2 )

ライセンス: Link先を確認
Weihong Ren, Denglu Wu, Hui Cao, Bowen Chen, Yuhang Shi, Weibo Jiang and Honghai Liu(参考訳) マルチオブジェクトトラッキング(mot)の最近のトレンドは、オブジェクト検出と出現機能(あるいは動き)を同時に学習する検出と追跡を共同で解決している。 競争性能にもかかわらず、混雑したシーンでは、共同検出と追跡は通常、ミスや誤検出のために正確なオブジェクト関連を見つけることができない。 本稿では,混み合うシーンに適したエンドツーエンドフレームワークであるCountingMOTのカウント,検出,再識別を共同でモデル化する。 検出とカウントの間にオブジェクトカウントの制約を課すことで、countingmotはオブジェクト検出とクラウド密度マップ推定のバランスを見つけようとする。 私たちのアプローチは、オブジェクトの検出、カウント、再同定のギャップを埋める試みです。 これは、群衆密度を無視して、混み合ったシーンで失敗する傾向にある以前のMOT手法とは対照的である。 提案したMOTトラッカーは、オンラインおよびリアルタイム追跡を行うことができ、公開ベンチマークMOT16(79.7のMOTA)、MOT17(81.3%のMOTA)、MOT20(78.9%のMOTA)の最先端結果が得られる。

The recent trend in multiple object tracking (MOT) is jointly solving detection and tracking, where object detection and appearance feature (or motion) are learned simultaneously. Despite competitive performance, in crowded scenes, joint detection and tracking usually fail to find accurate object associations due to missed or false detections. In this paper, we jointly model counting, detection and re-identification in an end-to-end framework, named CountingMOT, tailored for crowded scenes. By imposing mutual object-count constraints between detection and counting, the CountingMOT tries to find a balance between object detection and crowd density map estimation, which can help it to recover missed detections or reject false detections. Our approach is an attempt to bridge the gap of object detection, counting, and re-Identification. This is in contrast to prior MOT methods that either ignore the crowd density and thus are prone to failure in crowded scenes, or depend on local correlations to build a graphical relationship for matching targets. The proposed MOT tracker can perform online and real-time tracking, and achieves the state-of-the-art results on public benchmarks MOT16 (MOTA of 79.7), MOT17 (MOTA of 81.3%) and MOT20 (MOTA of 78.9%).
翻訳日:2023-06-08 19:42:49 公開日:2023-06-07
# GLeaD: ジェネレータリードタスクによるGANの改善

GLeaD: Improving GANs with A Generator-Leading Task ( http://arxiv.org/abs/2212.03752v2 )

ライセンス: Link先を確認
Qingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen(参考訳) 生成逆数ネットワーク(GAN)は、ジェネレータ(G)と識別器(D)との間の2プレーヤゲームとして定式化され、Dには、画像が実データから来るか、Gによって生成されるかの区別が求められる。 GANにおけるより公平なゲームに向けて、G が D にタスクを割り当てるような対戦訓練の新しいパラダイムを提案する。 具体的には、画像が与えられた場合、D は G によって適切に復号化して入力を再構成できる代表的特徴を抽出することを期待する。 このようにして、自由学習の代わりに、D は領域分類に対する G の見解と一致するよう促される。 各種データセットに対する実験結果は,ベースラインに対するアプローチのかなりの優位性を示している。 例えば、LSUNベッドルームではStyleGAN2のFIDを4.30から2.55に、LSUN教会では4.04から2.82に改善する。 この活動における先駆的な試みは、gan改善のためにより良い設計のジェネレータリードタスクをコミュニティに促すことができると信じています。

Generative adversarial network (GAN) is formulated as a two-player game between a generator (G) and a discriminator (D), where D is asked to differentiate whether an image comes from real data or is produced by G. Under such a formulation, D plays as the rule maker and hence tends to dominate the competition. Towards a fairer game in GANs, we propose a new paradigm for adversarial training, which makes G assign a task to D as well. Specifically, given an image, we expect D to extract representative features that can be adequately decoded by G to reconstruct the input. That way, instead of learning freely, D is urged to align with the view of G for domain classification. Experimental results on various datasets demonstrate the substantial superiority of our approach over the baselines. For instance, we improve the FID of StyleGAN2 from 4.30 to 2.55 on LSUN Bedroom and from 4.04 to 2.82 on LSUN Church. We believe that the pioneering attempt present in this work could inspire the community with better designed generator-leading tasks for GAN improvement.
翻訳日:2023-06-08 19:42:23 公開日:2023-06-07
# MCMCを用いた分別分布ベイズ線形回帰

Differentially Private Distributed Bayesian Linear Regression with MCMC ( http://arxiv.org/abs/2301.13778v2 )

ライセンス: Link先を確認
Bar{\i}\c{s} Alparslan, Sinan Y{\i}ld{\i}r{\i}m, \c{S}. \.Ilker Birbil(参考訳) 本稿では,分散プライベート線形回帰のための新しいベイズ推論フレームワークを提案する。 我々は、複数のパーティがデータの一部を保持し、プライバシ保護ノイズにおけるその部分の要約統計を共有する分散環境を考える。 線形回帰統計学の要約統計学における有用な分布関係を生かした,個人共用統計学の新しい生成統計モデルを開発した。 回帰係数のベイズ推定は主にマルコフ連鎖モンテカルロアルゴリズムを用いて行うが,1回の反復でベイズ推定を行うための高速版も提供する。 提案手法は, 競争相手よりも計算上有利である。 本手法は実データとシミュレーションデータの両方に数値計算結果を提供し,提案手法が十分な推定と予測をもたらすことを示す。

We propose a novel Bayesian inference framework for distributed differentially private linear regression. We consider a distributed setting where multiple parties hold parts of the data and share certain summary statistics of their portions in privacy-preserving noise. We develop a novel generative statistical model for privately shared statistics, which exploits a useful distributional relation between the summary statistics of linear regression. Bayesian estimation of the regression coefficients is conducted mainly using Markov chain Monte Carlo algorithms, while we also provide a fast version to perform Bayesian estimation in one iteration. The proposed methods have computational advantages over their competitors. We provide numerical results on both real and simulated data, which demonstrate that the proposed algorithms provide well-rounded estimation and prediction.
翻訳日:2023-06-08 19:35:32 公開日:2023-06-07
# 強化学習による多重流行介入の計画

Planning Multiple Epidemic Interventions with Reinforcement Learning ( http://arxiv.org/abs/2301.12802v3 )

ライセンス: Link先を確認
Anh Mai and Nikunj Gupta and Azza Abouzied and Dennis Shasha(参考訳) 流行と戦うには、マスク着用義務、ワクチン接種、学校または職場の閉鎖など、さまざまな介入をいつどのように適用するかを記述する計画を見つけることが必要となる。 最善の計画では、命の喪失、病気の負担、経済的コストを最小限に抑えることができる。 最適な計画を見つけることは現実的な設定における難解な計算問題である。 しかし、政策立案者は、特に連続的かつ等しく複雑な状態空間が与えられた連続的かつ複雑な行動空間に対する複数の介入を考える場合、病気や経済的コストを最小限に抑える計画を効率的に探すことができるツールの恩恵を大いに受けるだろう。 この問題をマルコフ決定過程として定式化する。 我々の定式化は、通常の微分方程式によって定義されるあらゆる疾患モデルに対する複数の連続的な介入を表現する能力においてユニークなものである。 本稿では,PPO と SAC を有効に適用して,全体的なコストを最小化する計画の探索を行う方法について述べる。 我々は,これらのアルゴリズムの学習性能を実証的に評価し,その性能を政策立案者による計画の模倣した手作りベースラインと比較する。 私たちの手法はベースラインを上回ります。 我々の研究は,政策立案者支援のための計算手法の有効性を確認した

Combating an epidemic entails finding a plan that describes when and how to apply different interventions, such as mask-wearing mandates, vaccinations, school or workplace closures. An optimal plan will curb an epidemic with minimal loss of life, disease burden, and economic cost. Finding an optimal plan is an intractable computational problem in realistic settings. Policy-makers, however, would greatly benefit from tools that can efficiently search for plans that minimize disease and economic costs especially when considering multiple possible interventions over a continuous and complex action space given a continuous and equally complex state space. We formulate this problem as a Markov decision process. Our formulation is unique in its ability to represent multiple continuous interventions over any disease model defined by ordinary differential equations. We illustrate how to effectively apply state-of-the-art actor-critic reinforcement learning algorithms (PPO and SAC) to search for plans that minimize overall costs. We empirically evaluate the learning performance of these algorithms and compare their performance to hand-crafted baselines that mimic plans constructed by policy-makers. Our method outperforms baselines. Our work confirms the viability of a computational approach to support policy-makers
翻訳日:2023-06-08 19:35:19 公開日:2023-06-07
# 平滑な非定常バンド

Smooth Non-Stationary Bandits ( http://arxiv.org/abs/2301.12366v2 )

ライセンス: Link先を確認
Su Jia, Qian Xie, Nathan Kallus, Peter I. Frazier(参考訳) オンライン意思決定の多くの応用において、環境は非定常的であり、変化を処理するバンディットアルゴリズムを使用することが重要である。 既存のほとんどのアプローチは、全変動やリプシッツ性によって制限された非滑らかな変更から保護するために設計されており、ここでは $\tilde \Theta(T^{2/3})$ regret が保証されている。 しかし、実際には環境がスムーズに変化していることが多いため、このようなアルゴリズムはこれらの設定において必要以上に後悔を招き、変化率に関する情報を活用できない。 我々は、アームの平均報酬が(正規化された)時間上の$\beta$-h\"older関数であると仮定し、これは$(\beta-1)$-times lipschitz-continuously differentiableである。 我々は,スムースレジームと非スムースレジームの間の最初の分離を,$\tilde o(t^{3/5})$ regret for $\beta=2$ というポリシーで示す。 この結果を、任意の整数$\beta\ge 1$に対して$\omg(t^{(\beta+1)/(2\beta+1)})$下限で補う。

In many applications of online decision making, the environment is non-stationary and it is therefore crucial to use bandit algorithms that handle changes. Most existing approaches are designed to protect against non-smooth changes, constrained only by total variation or Lipschitzness over time, where they guarantee $\tilde \Theta(T^{2/3})$ regret. However, in practice environments are often changing {\bf smoothly}, so such algorithms may incur higher-than-necessary regret in these settings and do not leverage information on the rate of change. We study a non-stationary two-armed bandits problem where we assume that an arm's mean reward is a $\beta$-H\"older function over (normalized) time, meaning it is $(\beta-1)$-times Lipschitz-continuously differentiable. We show the first separation between the smooth and non-smooth regimes by presenting a policy with $\tilde O(T^{3/5})$ regret for $\beta=2$. We complement this result by an $\Omg(T^{(\beta+1)/(2\beta+1)})$ lower bound for any integer $\beta\ge 1$, which matches our upper bound for $\beta=2$.
翻訳日:2023-06-08 19:34:34 公開日:2023-06-07
# パラメトリック偏微分方程式に対するランダム格子ニューラルプロセス

Random Grid Neural Processes for Parametric Partial Differential Equations ( http://arxiv.org/abs/2301.11040v2 )

ライセンス: Link先を確認
Arnaud Vadeboncoeur, Ieva Kazlauskaite, Yanni Papandreou, Fehmi Cirak, Mark Girolami, \"Omer Deniz Akyildiz(参考訳) 本稿では、空間確率物理学の新しいクラスと、スケーラブルな変動型ニューラルプロセスを通して動作するパラメトリック偏微分方程式(PDE)の深部潜伏モデルについて紹介する。 これを空間領域に確率測度を割り当てることで達成し、確率的にコロケーショングリッドを確率変数として扱うことができる。 この空間統計的視点に適応して、パラメトリックPDEの前方および逆問題を解場のガウス過程モデルの構築につながる方法で解決する。 これらのランダムグリッドの実装は、逆物理情報深層学習フレームワークに固有の課題をもたらし、これらの課題を克服するために、Grid Invariant Convolutional Networks (GICNets) と呼ばれる新しいアーキテクチャを提案する。 さらに、物理情報モデルにノイズデータを原則的に組み込んで、データが利用可能なが、測定位置が固定メッシュやグリッドと一致しない問題に対する予測を改善する方法を示す。 提案手法は, 非線形ポアソン問題, バーガーズ方程式, ナビエ・ストークス方程式で検証し, 広範な数値比較を行った。 我々は,これらのモデルの予測能力と柔軟性を改善しつつ,パラメトリックPDEに対する現在の物理情報ニューラルラーニング法に対する計算上の優位性を示す。

We introduce a new class of spatially stochastic physics and data informed deep latent models for parametric partial differential equations (PDEs) which operate through scalable variational neural processes. We achieve this by assigning probability measures to the spatial domain, which allows us to treat collocation grids probabilistically as random variables to be marginalised out. Adapting this spatial statistics view, we solve forward and inverse problems for parametric PDEs in a way that leads to the construction of Gaussian process models of solution fields. The implementation of these random grids poses a unique set of challenges for inverse physics informed deep learning frameworks and we propose a new architecture called Grid Invariant Convolutional Networks (GICNets) to overcome these challenges. We further show how to incorporate noisy data in a principled manner into our physics informed model to improve predictions for problems where data may be available but whose measurement location does not coincide with any fixed mesh or grid. The proposed method is tested on a nonlinear Poisson problem, Burgers equation, and Navier-Stokes equations, and we provide extensive numerical comparisons. We demonstrate significant computational advantages over current physics informed neural learning methods for parametric PDEs while improving the predictive capabilities and flexibility of these models.
翻訳日:2023-06-08 19:34:06 公開日:2023-06-07
# 機械学習による超解像解析:流体流れのサーベイ

Super-Resolution Analysis via Machine Learning: A Survey for Fluid Flows ( http://arxiv.org/abs/2301.10937v2 )

ライセンス: Link先を確認
Kai Fukami, Koji Fukagata, Kunihiko Taira(参考訳) 本稿では,機械学習による渦流の超解像再構成について検討する。 super resolutionは低解像度データから高解像度のフローフィールドを見つけることを目的としており、一般的に画像再構成に使用されるアプローチである。 近年の超解像応用に関する調査に加えて, 2次元減衰等方性乱流の例として, 超解像解析のケーススタディを提供する。 物理に着想を得たモデル設計により,空間的に限られた測定値から渦流の復元が成功できることを実証する。 また,流体応用における機械学習による超解像解析の課題と展望についても述べる。 本研究から得られた知見は,数値および実験フローデータの超解像解析に活用できる。

This paper surveys machine-learning-based super-resolution reconstruction for vortical flows. Super resolution aims to find the high-resolution flow fields from low-resolution data and is generally an approach used in image reconstruction. In addition to surveying a variety of recent super-resolution applications, we provide case studies of super-resolution analysis for an example of two-dimensional decaying isotropic turbulence. We demonstrate that physics-inspired model designs enable successful reconstruction of vortical flows from spatially limited measurements. We also discuss the challenges and outlooks of machine-learning-based super-resolution analysis for fluid flow applications. The insights gained from this study can be leveraged for super-resolution analysis of numerical and experimental flow data.
翻訳日:2023-06-08 19:33:43 公開日:2023-06-07
# qudit脱分極チャネルの次元による量子容量減少の超加法的効果

The superadditivity effects of quantum capacity decrease with the dimension for qudit depolarizing channels ( http://arxiv.org/abs/2301.10132v3 )

ライセンス: Link先を確認
Josu Etxezarreta Martinez, Antonio deMarti iOlius and Pedro M. Crespo(参考訳) 量子チャネル容量 (quantum channel capacity) は、ノイズを受ける際に量子情報をどのように送信または修正できるかを理解するための基本的な量である。 しかし、量子チャネルコヒーレント情報は全てのチャネルに対して加法的ではないため、そのような量を計算する方法は一般には知られていない。 これは超加法的現象(superadditivity)と呼ばれ、n$チャンネルの正規化コヒーレント情報が1ショットコヒーレント情報を超えるという事実を指す。 本稿では,Qudit脱分極チャネルの量子容量の利得が考慮される系の次元とどのように関係するかを考察する。 超加法的効果がそのようなチャネルの族に対する次元の関数として減少することを示すために、非閉包境界に基づく議論を用いる。 さらに、qudit脱分極チャネルの容量が$d\rightarrow\infty$のコヒーレント情報と一致することを証明している。 また,私的古典的能力とオオバイン類似の結果についても論じる。 偏極ノイズを経験する高次元キューディットを考えると、チャネルのコヒーレント情報は達成可能な速度であるだけでなく、本質的に任意の量子ブロック符号に対して可能な最大速度である。

Quantum channel capacity is a fundamental quantity in order to understand how good can quantum information be transmitted or corrected when subjected to noise. However, it is generally not known how to compute such quantities, since the quantum channel coherent information is not additive for all channels, implying that it must be maximized over an unbounded number of channel uses. This leads to the phenomenon known as superadditivity, which refers to the fact that the regularized coherent information of $n$ channel uses exceeds one-shot coherent information. In this article, we study how the gain in quantum capacity of qudit depolarizing channels relates to the dimension of the systems considered. We make use of an argument based on the no-cloning bound in order to proof that the possible superadditive effects decrease as a function of the dimension for such family of channels. In addition, we prove that the capacity of the qudit depolarizing channel coincides with the coherent information when $d\rightarrow\infty$. We also discuss the private classical capacity and obain similar results. We conclude that when high dimensional qudits experiencing depolarizing noise are considered, the coherent information of the channel is not only an achievable rate but essentially the maximum possible rate for any quantum block code.
翻訳日:2023-06-08 19:33:33 公開日:2023-06-07
# 映像分解と予測のための物体中心表現の時間条件生成モデル

Time-Conditioned Generative Modeling of Object-Centric Representations for Video Decomposition and Prediction ( http://arxiv.org/abs/2301.08951v3 )

ライセンス: Link先を確認
Chengmin Gao and Bin Li(参考訳) 複数の視点から世界を認識すると、ある視点から完全に排除された場合でも、人間は構成的な方法で完全な物体を推論する能力を持つ。 一方、人間は複数の視点を観察した後、新しい視点を想像することができる。 多視点オブジェクト指向学習の最近の顕著な進歩は、未解決の問題を残している。 1) 部分的又は完全に閉塞された物体の形状は、十分に再構成できない。 2)新しい視点予測は,ビュー表現における暗黙のルールではなく,高価な視点アノテーションに依存する。 本稿では,ビデオの時間条件生成モデルを提案する。 オブジェクトの完全な形状を正確に再構築するため,時刻条件付きビューの潜在表現とトランスを併用し,スロット注意の逐次拡張に入力してオブジェクト中心表現を学習する,オブジェクトとビューの潜在表現間の不連続性を高める。 また、ガウス過程はビュー潜在変数の優先としてビデオ生成や視点アノテーションなしでのノベルビュー予測に採用されている。 複数のデータセットの実験により、提案モデルがオブジェクト中心のビデオ分解を行い、隠蔽されたオブジェクトの完全な形状を再構築し、新しいビュー予測を行うことを示す。

When perceiving the world from multiple viewpoints, humans have the ability to reason about the complete objects in a compositional manner even when an object is completely occluded from certain viewpoints. Meanwhile, humans are able to imagine novel views after observing multiple viewpoints. Recent remarkable advances in multi-view object-centric learning still leaves some unresolved problems: 1) The shapes of partially or completely occluded objects can not be well reconstructed. 2) The novel viewpoint prediction depends on expensive viewpoint annotations rather than implicit rules in view representations. In this paper, we introduce a time-conditioned generative model for videos. To reconstruct the complete shape of an object accurately, we enhance the disentanglement between the latent representations of objects and views, where the latent representations of time-conditioned views are jointly inferred with a Transformer and then are input to a sequential extension of Slot Attention to learn object-centric representations. In addition, Gaussian processes are employed as priors of view latent variables for video generation and novel-view prediction without viewpoint annotations. Experiments on multiple datasets demonstrate that the proposed model can make object-centric video decomposition, reconstruct the complete shapes of occluded objects, and make novel-view predictions.
翻訳日:2023-06-08 19:33:09 公開日:2023-06-07
# CNN予測評価のための信頼性スコア

A Trustworthiness Score to Evaluate CNNs Predictions ( http://arxiv.org/abs/2301.08839v5 )

ライセンス: Link先を確認
Abanoub Ghobrial, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 畳み込みニューラルネットワーク(CNN)のブラックボックスの性質のため、操作中のCNNの継続的な検証は、人間のモニターがないため困難である。 その結果、開発者や規制当局がcnnを使用した自律システムの導入に自信を持つことが難しくなる。 CNNの予測が信頼できるか疑わしいかを知るためには、運用中の安全性が重要である。 人間のモニターがないため、基本的なアプローチはモデルの出力信頼度スコアを使用して予測が信頼できるか疑わしいかを評価することである。 しかしながら、モデルの信頼性スコアはブラックボックスからの計算の結果であり、それゆえ透明性が欠如しており、予測に対する信頼性の自動評価が困難である。 信頼度スコア(TS: Trustworthiness score)は、モデルの信頼度スコアと比較してCNNの予測に対してより透明で効果的な信頼性を提供するための指標である。 CNNの予測における特定の特徴の存在をチェックすることにより、予測における信頼性を定量化する。 また,ts指標の基本的な考え方を用いて,全体の入力フレームに不審性スコア(ss)を提供し,偽陰性が存在する不審なフレームの検出を支援する。 人検出にYOLOv5を用いたケーススタディを行い,TSとSSの手法と使用法を実証した。 本手法を用いたケーススタディでは, モデル信頼度スコアのみに依存する場合と比較して, 予測精度が一貫して向上することを示す。 1)信頼に値する予測(~20%改善)の承認及び 2)不審なフレームの検出(約5%改善)。

Due to the black box nature of Convolutional Neural Networks (CNNs), the continuous validation of CNNs during operation is challenging with the absence of a human monitor. As a result this makes it difficult for developers and regulators to gain confidence in the deployment of autonomous systems employing CNNs. It is critical for safety during operation to know when CNN's predictions are trustworthy or suspicious. With the absence of a human monitor, the basic approach is to use the model's output confidence score to assess if predictions are trustworthy or suspicious. However, the model's confidence score is a result of computations coming from a black box, therefore lacks transparency and makes it challenging to automatedly credit trustworthiness to predictions. We introduce the trustworthiness score (TS), a simple metric that provides a more transparent and effective way of providing confidence in CNNs predictions compared to model's confidence score. The metric quantifies the trustworthiness in a prediction by checking for the existence of certain features in the predictions made by the CNN. We also use the underlying idea of the TS metric, to provide a suspiciousness score (SS) in the overall input frame to help in the detection of suspicious frames where false negatives exist. We conduct a case study using YOLOv5 on persons detection to demonstrate our method and usage of TS and SS. The case study shows that using our method consistently improves the precision of predictions compared to relying on model confidence score alone, for both 1) approving of trustworthy predictions (~20% improvement) and 2) detecting suspicious frames (~5% improvement).
翻訳日:2023-06-08 19:32:51 公開日:2023-06-07
# 人工知能を用いた手術ビデオ解析におけるプライバシ保護: 内視鏡映像における体外シーン識別のためのディープラーニング分類器

Preserving Privacy in Surgical Video Analysis Using Artificial Intelligence: A Deep Learning Classifier to Identify Out-of-Body Scenes in Endoscopic Videos ( http://arxiv.org/abs/2301.07053v2 )

ライセンス: Link先を確認
Jo\"el L. Lavanchy, Armine Vardazaryan, Pietro Mascagni, AI4SafeChole Consortium, Didier Mutter, Nicolas Padoy(参考訳) 目的: 内視鏡映像における体外画像の同定のための深層学習モデルの開発と検証。 背景: 手術ビデオ解析は教育と研究を促進する。 しかし、内視鏡下手術の映像記録にはプライバシーに敏感な情報が含まれている。 したがって、内視鏡映像における体外シーンの同定は、患者や手術室スタッフのプライバシーを守る上で重要である。 方法:12種類の腹腔鏡下手術とロボット手術の内的データセットを用いて深層学習モデルを訓練し,評価した。 腹腔鏡下胃バイパス術と胆嚢摘出術の2つの独立した多心性検査データセットで外部検証を行った。 ビデオデータセットから抽出された画像はすべて、内部または外部としてアノテートされた。 曲線下特性領域(ROC AUC)を計測した人為的真実アノテーションと比較して, モデル性能を評価した。 結果:48本の動画から356,267枚の画像からなる内部データセットと10本と20本の動画から54,385枚と58,349枚の多心性テストデータセットを注釈した。 地上の真実のアノテーションと比較すると、このモデルは内部テストデータセット上で99.97%のLOC AUCで体外画像を特定した。 多心性胃バイパスデータセットにおける標準偏差ROC AUCの平均値は99.94$\pm$0.07%、多心性胆嚢摘出データセットでは99.71$\pm$0.40%であった。 結論: 提案する深層学習モデルは, 内視鏡映像中の体外画像を確実に識別できる。 トレーニングされたモデルは公開されています。 これにより、手術ビデオ解析におけるプライバシー保護が促進される。

Objective: To develop and validate a deep learning model for the identification of out-of-body images in endoscopic videos. Background: Surgical video analysis facilitates education and research. However, video recordings of endoscopic surgeries can contain privacy-sensitive information, especially if out-of-body scenes are recorded. Therefore, identification of out-of-body scenes in endoscopic videos is of major importance to preserve the privacy of patients and operating room staff. Methods: A deep learning model was trained and evaluated on an internal dataset of 12 different types of laparoscopic and robotic surgeries. External validation was performed on two independent multicentric test datasets of laparoscopic gastric bypass and cholecystectomy surgeries. All images extracted from the video datasets were annotated as inside or out-of-body. Model performance was evaluated compared to human ground truth annotations measuring the receiver operating characteristic area under the curve (ROC AUC). Results: The internal dataset consisting of 356,267 images from 48 videos and the two multicentric test datasets consisting of 54,385 and 58,349 images from 10 and 20 videos, respectively, were annotated. Compared to ground truth annotations, the model identified out-of-body images with 99.97% ROC AUC on the internal test dataset. Mean $\pm$ standard deviation ROC AUC on the multicentric gastric bypass dataset was 99.94$\pm$0.07% and 99.71$\pm$0.40% on the multicentric cholecystectomy dataset, respectively. Conclusion: The proposed deep learning model can reliably identify out-of-body images in endoscopic videos. The trained model is publicly shared. This facilitates privacy preservation in surgical video analysis.
翻訳日:2023-06-08 19:32:25 公開日:2023-06-07
# リソース制限と低データ体制下におけるHPV陽性女性三徴症に対する自己学習型頚椎細胞診

Self-supervised learning-based cervical cytology for the triage of HPV-positive women in resource-limited settings and low-data regime ( http://arxiv.org/abs/2302.05195v2 )

ライセンス: Link先を確認
Thomas Stegm\"uller, Christian Abbet, Behzad Bozorgtabar, Holly Clarke, Patrick Petignat, Pierre Vassilakos, and Jean-Philippe Thiran(参考訳) パパニコラウ検査標本のスクリーニングは、頸がん関連死亡率の低下に非常に有効であることが証明されている。 しかし、訓練された細胞病理学者の欠如は、低リソース環境での広範な実装を妨げる。 深層学習に基づく遠隔細胞診診断は魅力的な代替手段として現れるが、大量の注釈付きトレーニングデータセットを収集する必要がある。 本稿では,Pop smear テスト全体から抽出できるラベルのない画像が多量に存在することを実証し,様々なダウンストリームタスクで利用可能な事前学習モデルに対して,自己教師付き学習手法の肥大した基盤を提示する。 特に,オープンソースおよびラベル付きシングルセルデータセットからラベル付きタイルへの知識伝達を可能にする効果的な拡張手法として,textbf{C}ervical \textbf{C}ell \textbf{C}opy-\textbf{P}asting ($\texttt{C}^{3}\textt{P}$)を提案する。 $\texttt{C}^{3}\texttt{P}$は単一セルイメージからのネーブ転送に優れるだけでなく、複数のインスタンス学習メソッドにその有利な統合を実証する。 重要なことは, 低コスト技術を用いて得られた液状細胞診Papスミア画像からなるtextit{in-house}データセットを用いて, 全ての実験を行ったことである。 これは,低リソース環境下での診断に深層学習に基づく細胞診を活用することを目的としている。

Screening Papanicolaou test samples has proven to be highly effective in reducing cervical cancer-related mortality. However, the lack of trained cytopathologists hinders its widespread implementation in low-resource settings. Deep learning-based telecytology diagnosis emerges as an appealing alternative, but it requires the collection of large annotated training datasets, which is costly and time-consuming. In this paper, we demonstrate that the abundance of unlabeled images that can be extracted from Pap smear test whole slide images presents a fertile ground for self-supervised learning methods, yielding performance improvements relative to readily available pre-trained models for various downstream tasks. In particular, we propose \textbf{C}ervical \textbf{C}ell \textbf{C}opy-\textbf{P}asting ($\texttt{C}^{3}\texttt{P}$) as an effective augmentation method, which enables knowledge transfer from open-source and labeled single-cell datasets to unlabeled tiles. Not only does $\texttt{C}^{3}\texttt{P}$ outperforms naive transfer from single-cell images, but we also demonstrate its advantageous integration into multiple instance learning methods. Importantly, all our experiments are conducted on our introduced \textit{in-house} dataset comprising liquid-based cytology Pap smear images obtained using low-cost technologies. This aligns with our objective of leveraging deep learning-based telecytology for diagnosis in low-resource settings.
翻訳日:2023-06-08 19:25:56 公開日:2023-06-07
# マルチUAVシステムにおける協調移動アクセスのための量子マルチエージェントアクタクリティカルネットワーク

Quantum Multi-Agent Actor-Critic Networks for Cooperative Mobile Access in Multi-UAV Systems ( http://arxiv.org/abs/2302.04445v2 )

ライセンス: Link先を確認
Chanyoung Park, Won Joon Yun, Jae Pyoung Kim, Tiago Koketsu Rodrigues, Soohyun Park, Soyi Jung, and Joongheon Kim(参考訳) 本稿では,無人航空機(UAV)を用いたロバストな移動体アクセスシステムを構築するために,量子マルチエージェントアクタ-クリティカルネットワーク(QMACN)という新しいアルゴリズムを提案する。 複数の無人航空機(UAV)間の協調を促進する文脈において、マルチエージェント強化学習(MARL)技術の適用は有望なアプローチと考えられる。 これらの方法は、UAVが集団で学習し、共有環境内での行動の最適化を可能にし、最終的にはより効率的な協調行動をもたらす。 さらに, 量子コンピューティング(QC)の原理を応用して, 関連するUAVのトレーニングプロセスと推論能力を向上させる。 量子コンピューティングの独特な計算的優位性を活用することで,UAVシステムの全体的な有効性を高めることを目的とする。 しかし、QCを利用することは、量子ビット使用に伴うほぼ中間スケール量子(NISQ)制限によるスケーラビリティの課題をもたらす。 提案アルゴリズムは、NISQ制限による制約を効果的に緩和し、量子集中型批評家を実装することでこの問題に対処する。 さらに、QMACNの利点は、トレーニング速度と無線サービス品質の観点から、様々なデータ集約的な評価によって検証される。 さらに,ロバストなモバイルアクセスを実現するため,環境不確実性を扱うためにノイズ注入方式が有効であることを示す。

This paper proposes a novel algorithm, named quantum multi-agent actor-critic networks (QMACN) for autonomously constructing a robust mobile access system employing multiple unmanned aerial vehicles (UAVs). In the context of facilitating collaboration among multiple unmanned aerial vehicles (UAVs), the application of multi-agent reinforcement learning (MARL) techniques is regarded as a promising approach. These methods enable UAVs to learn collectively, optimizing their actions within a shared environment, ultimately leading to more efficient cooperative behavior. Furthermore, the principles of a quantum computing (QC) are employed in our study to enhance the training process and inference capabilities of the UAVs involved. By leveraging the unique computational advantages of quantum computing, our approach aims to boost the overall effectiveness of the UAV system. However, employing a QC introduces scalability challenges due to the near intermediate-scale quantum (NISQ) limitation associated with qubit usage. The proposed algorithm addresses this issue by implementing a quantum centralized critic, effectively mitigating the constraints imposed by NISQ limitations. Additionally, the advantages of the QMACN with performance improvements in terms of training speed and wireless service quality are verified via various data-intensive evaluations. Furthermore, this paper validates that a noise injection scheme can be used for handling environmental uncertainties in order to realize robust mobile access.
翻訳日:2023-06-08 19:25:24 公開日:2023-06-07
# 2つの損失は1より優れている:チーパプロキシを使った最適化の高速化

Two Losses Are Better Than One: Faster Optimization Using a Cheaper Proxy ( http://arxiv.org/abs/2302.03542v3 )

ライセンス: Link先を確認
Blake Woodworth (SIERRA), Konstantin Mishchenko, Francis Bach (SIERRA, PSL)(参考訳) 本稿では,関連関数をプロキシとして利用することにより,目的物を計算困難勾配で最小化するアルゴリズムを提案する。 このアルゴリズムはプロキシ上の近似近近点反復と目的からの相対的勾配を組み合わせたものである。 目的物とプロキシの差が$\delta$-smoothである場合、我々のアルゴリズムは、$\delta$-smoothの目的物に対する確率勾配勾配に一致する速度で収束することを保証する。 我々のアルゴリズムは機械学習に多くの可能性があり、合成データ、物理シミュレータ、混合公開データ、プライベートデータなどを活用するための原則化された手段を提供する。

We present an algorithm for minimizing an objective with hard-to-compute gradients by using a related, easier-to-access function as a proxy. Our algorithm is based on approximate proximal point iterations on the proxy combined with relatively few stochastic gradients from the objective. When the difference between the objective and the proxy is $\delta$-smooth, our algorithm guarantees convergence at a rate matching stochastic gradient descent on a $\delta$-smooth objective, which can lead to substantially better sample efficiency. Our algorithm has many potential applications in machine learning, and provides a principled means of leveraging synthetic data, physics simulators, mixed public and private data, and more.
翻訳日:2023-06-08 19:25:01 公開日:2023-06-07
# ベイズニューラルネットワークを探索するフラット

Flat Seeking Bayesian Neural Networks ( http://arxiv.org/abs/2302.02713v3 )

ライセンス: Link先を確認
Van-Anh Nguyen, Tung-Long Vuong, Hoang Phan, Thanh-Toan Do, Dinh Phung, Trung Le(参考訳) ベイズニューラルネットワーク(BNN)は、モデルパラメータに事前分布を付与し、観測データに基づいて後続分布を推定することにより、ディープラーニングモデルに対する確率論的解釈を提供する。 後方分布からサンプリングされたモデルは、アンサンブル予測と予測の不確かさの定量化に使用できる。 シャープ性の低いディープラーニングモデルの方が一般化能力が高いことはよく知られている。 しかし、既存の後進推論は定式化の観点からはシャープネス/フラットネスを意識していないため、これらのモデルからサンプリングされたモデルの鋭さが高まる可能性がある。 本稿では,ベイズ設定の理論と,シャープネスを意識した後部における変分推論手法を開発する。 特に、鋭さを認識できる後方モデルと、この鋭さを認識できる後方を推定する最適近似モデルでは、より平坦性が向上し、より高い一般化能力を持つ可能性がある。 我々は、最先端のベイジアンニューラルネットワークとシャープネス認識後部を併用して実験を行い、フラットな探索相手が関心のあるすべての指標においてベースラインを上回っていることを示す。

Bayesian Neural Networks (BNNs) provide a probabilistic interpretation for deep learning models by imposing a prior distribution over model parameters and inferring a posterior distribution based on observed data. The model sampled from the posterior distribution can be used for providing ensemble predictions and quantifying prediction uncertainty. It is well-known that deep learning models with lower sharpness have better generalization ability. However, existing posterior inferences are not aware of sharpness/flatness in terms of formulation, possibly leading to high sharpness for the models sampled from them. In this paper, we develop theories, the Bayesian setting, and the variational inference approach for the sharpness-aware posterior. Specifically, the models sampled from our sharpness-aware posterior, and the optimal approximate posterior estimating this sharpness-aware posterior, have better flatness, hence possibly possessing higher generalization ability. We conduct experiments by leveraging the sharpness-aware posterior with state-of-the-art Bayesian Neural Networks, showing that the flat-seeking counterparts outperform their baselines in all metrics of interest.
翻訳日:2023-06-08 19:24:27 公開日:2023-06-07
# 不均一データを用いた逐次スプリット学習の収束解析

Convergence Analysis of Sequencial Split Learning on Heterogeneous Data ( http://arxiv.org/abs/2302.01633v2 )

ライセンス: Link先を確認
Yipeng Li and Xinchen Lyu(参考訳) federated learning (fl) と split learning (sl) は、分散機械学習の2つの一般的なパラダイムである。 計算集約的な部分をサーバにオフロードすることで、SLはリソース制約のあるデバイス上での深層モデルトレーニングを約束すると同時に、厳密な収束分析を欠いている。 本稿では,不均質データに対する強/一般/非凸目標に対する逐次sl(ssl,slのモデルトレーニングを行うバニラケース)の収束保証を求める。 特に、派生した保証は、SSLが異種データのフェデレーション平均化(FedAvg、FLで最も人気のあるアルゴリズム)よりも優れていることを示唆している。 超異質なデータを用いて, 直観的分析結果の有効性を検証する。

Federated Learning (FL) and Split Learning (SL) are two popular paradigms of distributed machine learning. By offloading the computation-intensive portions to the server, SL is promising for deep model training on resource-constrained devices, yet still lacking of rigorous convergence analysis. In this paper, we derive the convergence guarantees of Sequential SL (SSL, the vanilla case of SL that conducts the model training in sequence) for strongly/general/non-convex objectives on heterogeneous data. Notably, the derived guarantees suggest that SSL is better than Federated Averaging (FedAvg, the most popular algorithm in FL) on heterogeneous data. We validate the counterintuitive analysis result empirically on extremely heterogeneous data.
翻訳日:2023-06-08 19:23:46 公開日:2023-06-07
# Dual Propagation:Dydic Neuronsによるコントラスト学習の促進

Dual Propagation: Accelerating Contrastive Hebbian Learning with Dyadic Neurons ( http://arxiv.org/abs/2302.01228v3 )

ライセンス: Link先を確認
Rasmus H{\o}ier, D. Staudt, Christopher Zach(参考訳) 活性差に基づく学習アルゴリズム、例えば対照的なヘビアン学習や平衡伝播は、生物学的に妥当な代替手段として提案されている。 しかし、従来のデジタルチップでは、これらのアルゴリズムはコストのかかる推論問題を2回解決しなければならないため、バックプロパゲーションよりも2桁以上遅い。 アナログ領域の平衡伝播は高速かつエネルギー効率のよい学習に期待できるが、状態は2回推論され保存される必要がある。 ニューラルネットワークと区画ニューロンモデルに着想を得て,2つの内在的状態を持つダイナドである2重伝播と呼ばれる,単純なエネルギーベースの区画ニューロンモデルを提案する。 推論時、これらの固有状態は、それぞれの差と平均を通じてエラー/アクティビティの双対性を符号化する。 この方法の利点は、単一の推論フェーズのみが必要であり、推論は階層的に閉じた形式で解くことができることである。 実験により、Imagenet32x32を含む一般的なコンピュータビジョンデータセットにおいて、二重伝搬は、精度と実行時間の両方でバックプロパゲーションと等価であることを示す。

Activity difference based learning algorithms-such as contrastive Hebbian learning and equilibrium propagation-have been proposed as biologically plausible alternatives to error back-propagation. However, on traditional digital chips these algorithms suffer from having to solve a costly inference problem twice, making these approaches more than two orders of magnitude slower than back-propagation. In the analog realm equilibrium propagation may be promising for fast and energy efficient learning, but states still need to be inferred and stored twice. Inspired by lifted neural networks and compartmental neuron models we propose a simple energy based compartmental neuron model, termed dual propagation, in which each neuron is a dyad with two intrinsic states. At inference time these intrinsic states encode the error/activity duality through their difference and their mean respectively. The advantage of this method is that only a single inference phase is needed and that inference can be solved in layerwise closed-form. Experimentally we show on common computer vision datasets, including Imagenet32x32, that dual propagation performs equivalently to back-propagation both in terms of accuracy and runtime.
翻訳日:2023-06-08 19:23:32 公開日:2023-06-07
# mixphm: 冗長性を考慮したパラメータ効率の調整による低リソースビジュアル質問応答

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering ( http://arxiv.org/abs/2303.01239v2 )

ライセンス: Link先を確認
Jingjing Jiang, Nanning Zheng(参考訳) 近年,視覚質問応答(VQA)における最先端性能を実現するために,事前訓練型視覚言語モデル(VLM)が主流となっている。 しかしながら、VLMがスケールするにつれて、低リソース環境でのタスクの完全なモデルパラメータの微調整は計算コストが高くなり、ストレージの効率が悪くなり、過度に適合する傾向にある。 現在のパラメータ効率のチューニング手法は、チューナブルパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップが存在する。 本稿では,冗長性を考慮したパラメータ効率の高いチューニング手法であるmixphmを提案する。 具体的には、MixPHMは複数のPHM専門家によって実装された軽量モジュールである。 パラメータ冗長性を低減するため、mixphmは低ランク部分空間で専門家の重みを再パラメータ化し、専門家間の重みの一部を共有する。 さらに,アダプタの量的冗長性解析に基づいて,MixPHM表現におけるタスク関連相関を促進しつつ,タスク関連冗長性を低減する冗長性正規化を提案する。 VQA v2、GQA、OK-VQAで行った実験では、MixPHMは最先端のパラメータ効率の手法よりも優れており、完全な微調整を一貫して上回っているのは唯一である。

Recently, finetuning pretrained Vision-Language Models (VLMs) has been a prevailing paradigm for achieving state-of-the-art performance in Visual Question Answering (VQA). However, as VLMs scale, finetuning full model parameters for a given task in low-resource settings becomes computationally expensive, storage inefficient, and prone to overfitting. Current parameter-efficient tuning methods dramatically reduce the number of tunable parameters, but there still exists a significant performance gap with full finetuning. In this paper, we propose MixPHM, a redundancy-aware parameter-efficient tuning method that outperforms full finetuning in low-resource VQA. Specifically, MixPHM is a lightweight module implemented by multiple PHM-experts in a mixture-of-experts manner. To reduce parameter redundancy, MixPHM reparameterizes expert weights in a low-rank subspace and shares part of the weights inside and across experts. Moreover, based on a quantitative redundancy analysis for adapters, we propose Redundancy Regularization to reduce task-irrelevant redundancy while promoting task-relevant correlation in MixPHM representations. Experiments conducted on VQA v2, GQA, and OK-VQA demonstrate that MixPHM outperforms state-of-the-art parameter-efficient methods and is the only one consistently surpassing full finetuning.
翻訳日:2023-06-08 19:16:01 公開日:2023-06-07
# 反射エントロピーは相関測度ではない

Reflected entropy is not a correlation measure ( http://arxiv.org/abs/2302.10208v2 )

ライセンス: Link先を確認
Patrick Hayden, Marius Lemm, and Jonathan Sorce(参考訳) 明示的な反例により、デュッタとフォークナーによって定義される「反射エントロピー」は部分的トレースの下で単調に減少せず、物理的相関の尺度ではないことを示す。 実際、我々の逆の例では、r\'enyi の反射エントロピー $s_{r}^{(\alpha)}$ for $0 < \alpha < 2$ は相関測度であり、通常の反射エントロピーはこの族の$\alpha=1$ のメンバーとして実現される。 反例は古典的確率分布に対応する量子状態によって与えられるため、反射エントロピーは古典的レベルでも相関を測定することができない。

By explicit counterexample, we show that the "reflected entropy" defined by Dutta and Faulkner is not monotonically decreasing under partial trace, and so is not a measure of physical correlations. In fact, our counterexamples show that none of the R\'enyi reflected entropies $S_{R}^{(\alpha)}$ for $0 < \alpha < 2$ is a correlation measure; the usual reflected entropy is realized as the $\alpha=1$ member of this family. The counterexamples are given by quantum states that correspond to classical probability distributions, so reflected entropy fails to measure correlations even at the classical level.
翻訳日:2023-06-08 19:15:09 公開日:2023-06-07
# モーメントベース正定値部分多様体最適化の簡易化とディープラーニングへの応用

Simplifying Momentum-based Positive-definite Submanifold Optimization with Applications to Deep Learning ( http://arxiv.org/abs/2302.09738v4 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を持つリーマン部分多様体の最適化は、イテレートが部分多様体上に残ることを保証するために、しばしば難しい微分方程式を解く必要があるため、計算的に難しい。 ここでは、アフィン不変距離を持つ構造化対称正定行列のクラスに対するそのような困難を単純化する。 我々は、計量を動的に正規化するリーマン正規座標の一般化バージョンを提案し、その問題をユークリッド空間の非拘束問題へと局所的に変換する。 我々は,既存の構造共分散法を単純化し,精度の低い深層学習のための行列逆自由2^\text{nd}$-orderオプティマイザを開発した。 コード: https://github.com/yorkerlin/structuredngd-dl

Riemannian submanifold optimization with momentum is computationally challenging because, to ensure that the iterates remain on the submanifold, we often need to solve difficult differential equations. Here, we simplify such difficulties for a class of structured symmetric positive-definite matrices with the affine-invariant metric. We do so by proposing a generalized version of the Riemannian normal coordinates that dynamically orthonormalizes the metric and locally converts the problem into an unconstrained problem in the Euclidean space. We use our approach to simplify existing approaches for structured covariances and develop matrix-inverse-free $2^\text{nd}$-order optimizers for deep learning in low precision settings. Code: https://github.com/yorkerlin/StructuredNGD-DL
翻訳日:2023-06-08 19:14:53 公開日:2023-06-07
# ウェイクワード検出のためのアライメント処理:アライメントベース,アライメントフリー,ハイブリッドアプローチの比較

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches ( http://arxiv.org/abs/2302.08950v3 )

ライセンス: Link先を確認
Vinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun(参考訳) ウェイクワード検出は、ほとんどのインテリジェントホームやポータブルデバイスに存在する。 これらのデバイスは、低コストの電力とコンピューティングで呼び出された時に"覚醒"する機能を提供する。 本稿では,総称句に応答するウェイクワードシステムの開発におけるアライメントの役割を理解することに焦点を当てる。 3つのアプローチについて論じる。 ひとつはアライメントベースで、モデルにはフレーム間のクロスエントロピーをトレーニングする。 2つ目はアライメントフリーで、モデルがCTCでトレーニングされる。 私たちの提案した第3のソリューションはハイブリッドなソリューションで,モデルを小さなアライメントされたデータセットでトレーニングし,サイズ可能なアンアライメントデータセットでチューニングするものです。 3つのアプローチを比較し,ハイブリッドトレーニングにおけるアライメントとアンライメントの異なる比率の影響を評価する。 その結果、アライメントのないシステムは、ターゲットの動作点に対するアライメントベースよりも優れており、データの一部(20%)で初期制約に適合するモデルを訓練できることがわかった。

Wake word detection exists in most intelligent homes and portable devices. It offers these devices the ability to "wake up" when summoned at a low cost of power and computing. This paper focuses on understanding alignment's role in developing a wake-word system that answers a generic phrase. We discuss three approaches. The first is alignment-based, where the model is trained with frame-wise cross-entropy. The second is alignment-free, where the model is trained with CTC. The third, proposed by us, is a hybrid solution in which the model is trained with a small set of aligned data and then tuned with a sizeable unaligned dataset. We compare the three approaches and evaluate the impact of the different aligned-to-unaligned ratios for hybrid training. Our results show that the alignment-free system performs better than the alignment-based for the target operating point, and with a small fraction of the data (20%), we can train a model that complies with our initial constraints.
翻訳日:2023-06-08 19:14:37 公開日:2023-06-07
# 感性属性の不確かさを伴うグループフェアネス

Group Fairness with Uncertainty in Sensitive Attributes ( http://arxiv.org/abs/2302.08077v2 )

ライセンス: Link先を確認
Abhin Shah, Maohao Shen, Jongha Jon Ryu, Subhro Das, Prasanna Sattigeri, Yuheng Bu, and Gregory W. Wornell(参考訳) 公正な予測モデルを学ぶことは、高度なアプリケーションにおいて少数派グループに対する偏見のある決定を緩和するために不可欠である。 このようなモデルを学ぶ一般的なアプローチは、適切なグループフェアネス制約の下でモデルの予測力を最大化する最適化問題を解決することである。 しかし、実際には、センシティブな属性が欠落したり、うるさいことがしばしばある。 不確実性属性に対する公平性の制約のみを課すことは、不確実性のないモデルの公平性のレベルを達成するのに著しく低下することを示した。 この制限を克服するために,機密性の高い属性の不確かさにもかかわらず,公平さの目標レベルを達成するブートストラップベースのアルゴリズムを提案する。 このアルゴリズムは、不確実な属性を持つ厳密な公正性を保証するために、頑健な2次制約付き二次問題を提案する独立性の概念に対するガウス解析によって導かれる。 本アルゴリズムは離散的および連続的な敏感な属性に適用でき、例えば独立性や分離など、様々なグループフェアネス概念の現実世界の分類や回帰タスクに有効である。

Learning a fair predictive model is crucial to mitigate biased decisions against minority groups in high-stakes applications. A common approach to learn such a model involves solving an optimization problem that maximizes the predictive power of the model under an appropriate group fairness constraint. However, in practice, sensitive attributes are often missing or noisy resulting in uncertainty. We demonstrate that solely enforcing fairness constraints on uncertain sensitive attributes can fall significantly short in achieving the level of fairness of models trained without uncertainty. To overcome this limitation, we propose a bootstrap-based algorithm that achieves the target level of fairness despite the uncertainty in sensitive attributes. The algorithm is guided by a Gaussian analysis for the independence notion of fairness where we propose a robust quadratically constrained quadratic problem to ensure a strict fairness guarantee with uncertain sensitive attributes. Our algorithm is applicable to both discrete and continuous sensitive attributes and is effective in real-world classification and regression tasks for various group fairness notions, e.g., independence and separation.
翻訳日:2023-06-08 19:14:20 公開日:2023-06-07
# クリフラーニング

Cliff-Learning ( http://arxiv.org/abs/2302.07348v2 )

ライセンス: Link先を確認
Tony T. Wang, Igor Zablotchi, Nir Shavit, Jonathan S. Rosenfeld(参考訳) 下流データ体制における基礎モデルからの移動学習のデータスケーリングについて検討する。 崖の学習と呼ばれる興味深い現象を観察する。 クリフラーニング(cliff-learning)とは、電力法よりも速い速度で性能が向上するデータスケーリング法(すなわちログログスケーリングプロット上の凹凸領域)の領域を指す。 基礎モデルクリフラーニングの詳細な調査を行い,この現象の玩具モデルについて検討した。 我々は,崖の学習の程度が,学習アルゴリズムの先行と学習中の課題との互換性の度合いを反映していることを観察する。

We study the data-scaling of transfer learning from foundation models in the low-downstream-data regime. We observe an intriguing phenomenon which we call cliff-learning. Cliff-learning refers to regions of data-scaling laws where performance improves at a faster than power law rate (i.e. regions of concavity on a log-log scaling plot). We conduct an in-depth investigation of foundation-model cliff-learning and study toy models of the phenomenon. We observe that the degree of cliff-learning reflects the degree of compatibility between the priors of a learning algorithm and the task being learned.
翻訳日:2023-06-08 19:14:01 公開日:2023-06-07
# 逆ロバスト分類におけるランダム化の役割について

On the Role of Randomization in Adversarially Robust Classification ( http://arxiv.org/abs/2302.07221v2 )

ライセンス: Link先を確認
Lucas Gnecco-Heredia, Yann Chevaleyre, Benjamin Negrevergne, Laurent Meunier, Muni Sreenivas Pydi(参考訳) ディープニューラルネットワークは、テストデータの小さな逆方向の摂動に弱いことが知られている。 敵攻撃から守るため、確率的分類器は決定論的分類に代わるものとして提案されている。 しかし, 確率的分類器の有効性は, 決定論的分類と比較して矛盾している。 本稿では,逆ロバストな分類器の構築におけるランダム化の役割を明らかにする。 決定論的分類器の基本的な仮説セットが与えられた場合、ランダムなアンサンブルが敵のリスクで設定された仮説を上回り、前の結果を延ばす条件を示す。 さらに,任意の確率的分類器(ランダム化アンサンブルを含む)に対して,それを上回る決定論的分類器が存在することを示す。 最後に,多種多様な確率的分類器,すなわちランダム化アンサンブルとパラメトリック/入力ノイズインジェクションに対する決定論的分類器を含む決定論的仮説集合を明示的に記述する。

Deep neural networks are known to be vulnerable to small adversarial perturbations in test data. To defend against adversarial attacks, probabilistic classifiers have been proposed as an alternative to deterministic ones. However, literature has conflicting findings on the effectiveness of probabilistic classifiers in comparison to deterministic ones. In this paper, we clarify the role of randomization in building adversarially robust classifiers. Given a base hypothesis set of deterministic classifiers, we show the conditions under which a randomized ensemble outperforms the hypothesis set in adversarial risk, extending previous results. Additionally, we show that for any probabilistic classifier (including randomized ensembles), there exists a deterministic classifier that outperforms it. Finally, we give an explicit description of the deterministic hypothesis set that contains such a deterministic classifier for many types of commonly used probabilistic classifiers, i.e. randomized ensembles and parametric/input noise injection.
翻訳日:2023-06-08 19:13:44 公開日:2023-06-07
# シャープネスと一般化の現代的考察

A Modern Look at the Relationship between Sharpness and Generalization ( http://arxiv.org/abs/2302.07011v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Francesco Croce, Maximilian M\"uller, Matthias Hein, Nicolas Flammarion(参考訳) minimaのシャープさは、ディープネットワークの一般化と相関のある有望な量であり、トレーニング中に最適化された場合、一般化を改善することができる。 しかし、標準シャープネスはニューラルネットワークの再パラメータ化の下では不変ではなく、これを修正するために再パラメトリゼーション-不変シャープネス定義が提案されており、最も顕著に適応シャープネス(Kwon et al., 2021)が提案されている。 しかし、現代の実用環境での一般化を実際に捉えているのだろうか? 我々は,imagenetのスクラッチからcifar-10のトレーニングからimagenetのファインチューニングクリップ,mnliのbertまで,様々な設定における適応シャープネスの定義を詳細に研究した。 我々は主に変圧器に焦点をあてるが、その普及にもかかわらず鋭さについてはほとんど知られていない。 全体として、シャープネスは一般化とよく相関せず、むしろ、設定に応じて一般化と正あるいは負の相関を持つ学習率などの訓練パラメータと相関する。 興味深いことに、複数のケースにおいて、よりシャープなミニマがより一般化できることを示す、分散誤差とのシャープネスの一貫した負の相関が観察されている。 最後に,正しいシャープネス尺度がデータ依存度が高いという単純なモデルを示し,現実のデータ分布に対するこの側面を十分に理解していないことを示す。 私たちの実験のコードはhttps://github.com/tml-epfl/sharpness-vs-generalizationで利用可能です。

Sharpness of minima is a promising quantity that can correlate with generalization in deep networks and, when optimized during training, can improve generalization. However, standard sharpness is not invariant under reparametrizations of neural networks, and, to fix this, reparametrization-invariant sharpness definitions have been proposed, most prominently adaptive sharpness (Kwon et al., 2021). But does it really capture generalization in modern practical settings? We comprehensively explore this question in a detailed study of various definitions of adaptive sharpness in settings ranging from training from scratch on ImageNet and CIFAR-10 to fine-tuning CLIP on ImageNet and BERT on MNLI. We focus mostly on transformers for which little is known in terms of sharpness despite their widespread usage. Overall, we observe that sharpness does not correlate well with generalization but rather with some training parameters like the learning rate that can be positively or negatively correlated with generalization depending on the setup. Interestingly, in multiple cases, we observe a consistent negative correlation of sharpness with out-of-distribution error implying that sharper minima can generalize better. Finally, we illustrate on a simple model that the right sharpness measure is highly data-dependent, and that we do not understand well this aspect for realistic data distributions. The code of our experiments is available at https://github.com/tml-epfl/sharpness-vs-generalization.
翻訳日:2023-06-08 19:13:19 公開日:2023-06-07
# マルチビュー3次元物体検出のための物体中心時間モデルの検討

Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection ( http://arxiv.org/abs/2303.11926v2 )

ライセンス: Link先を確認
Shihao Wang, Yingfei Liu, Tiancai Wang, Ying Li, Xiangyu Zhang(参考訳) 本稿では,マルチビュー3Dオブジェクト検出のための時系列モデリングフレームワークStreamPETRを提案する。 PETRシリーズのスパースクエリ設計に基づいて,オブジェクト中心の時間的メカニズムを体系的に開発する。 モデルはオンライン方式で実行され、長期の履歴情報は、オブジェクトクエリフレームをフレーム単位で伝播する。 また,物体の動きをモデル化するモーションアウェア層正規化も導入する。 streampetrは、シングルフレームのベースラインと比較して、計算コストが無視できるだけの性能改善を実現している。 標準のnuScenesベンチマークでは、ライダーベースの手法で同等のパフォーマンス(67.6% NDSと65.3% AMOTA)を達成する最初のオンラインマルチビュー手法である。 軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。 コードはhttps://github.com/exiawsh/streampetr.gitで入手できる。

In this paper, we propose a long-sequence modeling framework, named StreamPETR, for multi-view 3D object detection. Built upon the sparse query design in the PETR series, we systematically develop an object-centric temporal mechanism. The model is performed in an online manner and the long-term historical information is propagated through object queries frame by frame. Besides, we introduce a motion-aware layer normalization to model the movement of the objects. StreamPETR achieves significant performance improvements only with negligible computation cost, compared to the single-frame baseline. On the standard nuScenes benchmark, it is the first online multi-view method that achieves comparable performance (67.6% NDS & 65.3% AMOTA) with lidar-based methods. The lightweight version realizes 45.0% mAP and 31.7 FPS, outperforming the state-of-the-art method (SOLOFusion) by 2.3% mAP and 1.8x faster FPS. Code has been available at https://github.com/exiawsh/StreamPETR.git.
翻訳日:2023-06-08 19:07:22 公開日:2023-06-07
# FPUS23:胎児の向き、胎児の平面、解剖学的特徴をニューラルネットワークで評価した超音波胎児ファントムデータセット

FPUS23: An Ultrasound Fetus Phantom Dataset with Deep Neural Network Evaluations for Fetus Orientations, Fetal Planes, and Anatomical Features ( http://arxiv.org/abs/2303.07852v2 )

ライセンス: Link先を確認
Bharath Srinivas Prabakaran and Paul Hamelmann and Erik Ostrowski and Muhammad Shafique(参考訳) 超音波イメージングは、妊娠中の胎児の成長、進行、および全体の健康を評価する最も顕著な技術の1つである。 しかし、これらの研究から得られたデータの解釈は、そのような画像の分析に精通した専門医や技術者に最適である。 そこで本研究では,(1)胎児の生体計測値推定のための正しい診断面,(2)胎児の向き,(3)解剖学的特徴,(4)胎児の胎盤解剖学的境界ボックスを,23週の胎盤で識別できる新しい胎児用ファントム超音波データセット,fpus23を提案する。 データセット全体は15,728イメージで構成されており、前述の胎児の特徴とユースケースを検出するために、ResNet34バックボーン上に構築された4つの異なるディープニューラルネットワークモデルをトレーニングするために使用される。 また、FPUS23データセットを用いてトレーニングしたモデルを評価し、これらのモデルによって得られた情報を実世界の超音波胎児データセットの精度を大幅に向上させることができることを示した。 FPUS23データセットと事前訓練されたモデルをhttps://github.com/bharathprabakaran/FPUS23で公開し、胎児超音波画像と分析のさらなる研究を促進する。

Ultrasound imaging is one of the most prominent technologies to evaluate the growth, progression, and overall health of a fetus during its gestation. However, the interpretation of the data obtained from such studies is best left to expert physicians and technicians who are trained and well-versed in analyzing such images. To improve the clinical workflow and potentially develop an at-home ultrasound-based fetal monitoring platform, we present a novel fetus phantom ultrasound dataset, FPUS23, which can be used to identify (1) the correct diagnostic planes for estimating fetal biometric values, (2) fetus orientation, (3) their anatomical features, and (4) bounding boxes of the fetus phantom anatomies at 23 weeks gestation. The entire dataset is composed of 15,728 images, which are used to train four different Deep Neural Network models, built upon a ResNet34 backbone, for detecting aforementioned fetus features and use-cases. We have also evaluated the models trained using our FPUS23 dataset, to show that the information learned by these models can be used to substantially increase the accuracy on real-world ultrasound fetus datasets. We make the FPUS23 dataset and the pre-trained models publicly accessible at https://github.com/bharathprabakaran/FPUS23, which will further facilitate future research on fetal ultrasound imaging and analysis.
翻訳日:2023-06-08 19:07:03 公開日:2023-06-07
# マルチサイト多領域気道ツリーモデリング

Multi-site, Multi-domain Airway Tree Modeling ( http://arxiv.org/abs/2303.05745v2 )

ライセンス: Link先を確認
Minghui Zhang, Yangqian Wu, Hanxiao Zhang, Yulei Qin, Hao Zheng, Wen Tang, Corey Arnold, Chenhao Pei, Pengxin Yu, Yang Nan, Guang Yang, Simon Walsh, Dominic C. Marshall, Matthieu Komorowski, Puyang Wang, Dazhou Guo, Dakai Jin, Ya'nan Wu, Shuiqing Zhao, Runsheng Chang, Boyu Zhang, Xing Lu, Abdul Qayyum, Moona Mazher, Qi Su, Yonghuang Wu, Ying'ao Liu, Yufei Zhu, Jiancheng Yang, Ashkan Pakzad, Bojidar Rangelov, Raul San Jose Estepar, Carlos Cano Espinosa, Jiayuan Sun, Guang-Zhong Yang, Yun Gu(参考訳) オープンな国際課題は、コンピュータビジョンと画像分析アルゴリズムを評価するデファクトスタンダードになりつつある。 近年,画像解像度の限界に近い肺気道セグメンテーションの到達範囲を拡大する手法が提案されている。 EXACT'09の肺気道セグメンテーション以来、深層学習に基づくアプローチの成熟と、肺疾患の早期介入のための遠位気道の細部細部を解明するための臨床ドライブにより、新たに出現したアルゴリズムの定量的比較に限られた努力が向けられている。 今のところ、パブリックアノテートデータセットは非常に制限されており、データ駆動手法の開発や新しいアルゴリズムの詳細な性能評価を妨げている。 医療画像コミュニティのためのベンチマークとして,MICCAI 2022カンファレンスで公式のチャレンジイベントとして開催されたマルチサイト多領域気道木モデリング(ATM'22)を組織した。 atm'22は、500のctスキャン(トレーニング300、検証50、テスト150)を含む、詳細な肺気道アノテーションを備えた大規模なctスキャンを提供する。 データセットはさまざまな場所から収集され、さらにノイズの多い新型コロナウイルス(COVID-19)CTの一部が含まれていた。 課題の全フェーズに23チームが参加し,上位10チームのアルゴリズムをレビューした。 定量的および定性的な結果から, 位相連続性強化を組み込んだ深層学習モデルは, 一般に優れた性能を示した。 ATM'22チャレンジはオープンコール設計であり、トレーニングデータとゴールドスタンダード評価は、そのホームページを通じて登録が成功すると利用できる。

Open international challenges are becoming the de facto standard for assessing computer vision and image analysis algorithms. In recent years, new methods have extended the reach of pulmonary airway segmentation that is closer to the limit of image resolution. Since EXACT'09 pulmonary airway segmentation, limited effort has been directed to quantitative comparison of newly emerged algorithms driven by the maturity of deep learning based approaches and clinical drive for resolving finer details of distal airways for early intervention of pulmonary diseases. Thus far, public annotated datasets are extremely limited, hindering the development of data-driven methods and detailed performance evaluation of new algorithms. To provide a benchmark for the medical imaging community, we organized the Multi-site, Multi-domain Airway Tree Modeling (ATM'22), which was held as an official challenge event during the MICCAI 2022 conference. ATM'22 provides large-scale CT scans with detailed pulmonary airway annotation, including 500 CT scans (300 for training, 50 for validation, and 150 for testing). The dataset was collected from different sites and it further included a portion of noisy COVID-19 CTs with ground-glass opacity and consolidation. Twenty-three teams participated in the entire phase of the challenge and the algorithms for the top ten teams are reviewed in this paper. Quantitative and qualitative results revealed that deep learning models embedded with the topological continuity enhancement achieved superior performance in general. ATM'22 challenge holds as an open-call design, the training data and the gold standard evaluation are available upon successful registration via its homepage.
翻訳日:2023-06-08 19:06:36 公開日:2023-06-07
# meta-learning control variates: 限定データによる分散削減

Meta-learning Control Variates: Variance Reduction with Limited Data ( http://arxiv.org/abs/2303.04756v3 )

ライセンス: Link先を確認
Zhuo Sun, Chris J. Oates, Fran\c{c}ois-Xavier Briol(参考訳) 制御変数はモンテカルロ推定器の分散を低減する強力なツールとなり得るが、サンプル数が少ない場合、効果的な制御変数の構築は困難である。 本稿では,多数の関連積分を計算する必要がある場合,これらの統合タスク間の類似性を利用して,タスク毎のサンプル数が極めて少ない場合でも性能を向上させることができることを示す。 メタラーニングCV(Meta-CVs)と呼ばれる私たちのアプローチは、数百から数千のタスクに使用できます。 実験結果から,メタcvsは,そのような状況下で大きなばらつきを生じさせる可能性が示唆され,理論解析によりメタcvsを効果的に訓練できる一般的な条件が確立される。

Control variates can be a powerful tool to reduce the variance of Monte Carlo estimators, but constructing effective control variates can be challenging when the number of samples is small. In this paper, we show that when a large number of related integrals need to be computed, it is possible to leverage the similarity between these integration tasks to improve performance even when the number of samples per task is very small. Our approach, called meta learning CVs (Meta-CVs), can be used for up to hundreds or thousands of tasks. Our empirical assessment indicates that Meta-CVs can lead to significant variance reduction in such settings, and our theoretical analysis establishes general conditions under which Meta-CVs can be successfully trained.
翻訳日:2023-06-08 19:06:08 公開日:2023-06-07
# 反復精製による外挿制御シーケンス生成

Extrapolative Controlled Sequence Generation via Iterative Refinement ( http://arxiv.org/abs/2303.04562v3 )

ライセンス: Link先を確認
Vishakh Padmakumar, Richard Yuanzhe Pang, He He, Ankur P. Parikh(参考訳) 本研究では,外挿制御生成の問題,すなわち,トレーニングで見られる範囲を超えて属性値を持つシーケンスを生成することを検討する。 この課題は自動設計、特に薬物発見において重要な意味を持ち、その目標は既存の配列よりも新しいタンパク質(例えば、より安定な)を設計することである。 したがって、定義上、ターゲットシーケンスとその属性値はトレーニング分布外であり、ターゲットシーケンスを直接生成することを目的とした既存のメソッドに挑戦する。 そこで本研究では,逐次外挿を可能にするために局所的な編集を反復的に行う反復制御外挿(ice)を提案する。 我々は、属性値の小さな改善を示す合成生成シーケンスペアでモデルを訓練する。 1つの自然言語タスク(感覚分析)と2つのタンパク質工学タスク(ACE2安定性とAAV適合性)の結果、ICEは単純さにもかかわらず最先端のアプローチをかなり上回っている。 私たちのコードとモデルは、https://github.com/vishakhpk/iter-extrapolationで利用可能です。

We study the problem of extrapolative controlled generation, i.e., generating sequences with attribute values beyond the range seen in training. This task is of significant importance in automated design, especially drug discovery, where the goal is to design novel proteins that are \textit{better} (e.g., more stable) than existing sequences. Thus, by definition, the target sequences and their attribute values are out of the training distribution, posing challenges to existing methods that aim to directly generate the target sequence. Instead, in this work, we propose Iterative Controlled Extrapolation (ICE) which iteratively makes local edits to a sequence to enable extrapolation. We train the model on synthetically generated sequence pairs that demonstrate small improvement in the attribute value. Results on one natural language task (sentiment analysis) and two protein engineering tasks (ACE2 stability and AAV fitness) show that ICE considerably outperforms state-of-the-art approaches despite its simplicity. Our code and models are available at: https://github.com/vishakhpk/iter-extrapolation.
翻訳日:2023-06-08 19:05:55 公開日:2023-06-07
# 非定常パラメトリックバンドに対する重み付け戦略の再検討

Revisiting Weighted Strategy for Non-stationary Parametric Bandits ( http://arxiv.org/abs/2303.02691v2 )

ライセンス: Link先を確認
Jing Wang, Peng Zhao, Zhi-Hua Zhou(参考訳) 非定常パラメトリックバンドが近年注目を集めている。 非定常性を扱うには、スライディングウインドウ、重み付け、再起動戦略の3つの原則がある。 多くの非定常環境は段階的なドリフトパターンを示すため、重み付け戦略は現実の応用に一般的に採用されている。 しかし、以前の理論的研究により、解析はより複雑で、アルゴリズムは計算効率が低く、統計的に最適であることが示された。 本稿では,非定常パラメトリックバンドの重み付け戦略を再考する。 リニアバンディット(LB)では、この望ましくない特徴は不適切な後悔の分析によるものであることが判明し、結果としてアルゴリズムが複雑すぎる。 本稿では,従来の研究と同様の後悔を保ちつつ,ウィンドウ/リスタート型アルゴリズムと同等に効率よく,より単純な重みに基づくアルゴリズムを創出する改良型解析フレームワークを提案する。 さらに,本手法は一般化線形バンドイット (glb) や自己一致バンドイット (scb) など,他のパラメトリックバンドイットの後悔境界の改善にも利用できる。 例えば、$\widetilde{o}(k_\mu^{\frac{5}{4}} c_\mu^{-\frac{3}{4}} d^{\frac{3}{4}} p_t^{\frac{1}{4}}t^{\frac{3}{4}})$ という単純な重み付きglbアルゴリズムを開発し、$\widetilde{o}(k_\mu^{2} c_\mu^{-1}d^{\frac{9}{10}} p_t^{\frac{1}{5}}t^{\frac{4}{5}})$ を以前の作業で限定し、$k_\mu$ と $c_\mu$ が報酬モデルの非線形性を特徴づける。

Non-stationary parametric bandits have attracted much attention recently. There are three principled ways to deal with non-stationarity, including sliding-window, weighted, and restart strategies. As many non-stationary environments exhibit gradual drifting patterns, the weighted strategy is commonly adopted in real-world applications. However, previous theoretical studies show that its analysis is more involved and the algorithms are either computationally less efficient or statistically suboptimal. This paper revisits the weighted strategy for non-stationary parametric bandits. In linear bandits (LB), we discover that this undesirable feature is due to an inadequate regret analysis, which results in an overly complex algorithm design. We propose a refined analysis framework, which simplifies the derivation and importantly produces a simpler weight-based algorithm that is as efficient as window/restart-based algorithms while retaining the same regret as previous studies. Furthermore, our new framework can be used to improve regret bounds of other parametric bandits, including Generalized Linear Bandits (GLB) and Self-Concordant Bandits (SCB). For example, we develop a simple weighted GLB algorithm with an $\widetilde{O}(k_\mu^{\frac{5}{4}} c_\mu^{-\frac{3}{4}} d^{\frac{3}{4}} P_T^{\frac{1}{4}}T^{\frac{3}{4}})$ regret, improving the $\widetilde{O}(k_\mu^{2} c_\mu^{-1}d^{\frac{9}{10}} P_T^{\frac{1}{5}}T^{\frac{4}{5}})$ bound in prior work, where $k_\mu$ and $c_\mu$ characterize the reward model's nonlinearity, $P_T$ measures the non-stationarity, $d$ and $T$ denote the dimension and time horizon.
翻訳日:2023-06-08 19:05:36 公開日:2023-06-07
# Alexa Arena - 体操AIのためのユーザ中心のインタラクティブプラットフォーム

Alexa Arena: A User-Centric Interactive Platform for Embodied AI ( http://arxiv.org/abs/2303.01586v2 )

ライセンス: Link先を確認
Qiaozi Gao, Govind Thattai, Suhaila Shakiah, Xiaofeng Gao, Shreyas Pansare, Vasu Sharma, Gaurav Sukhatme, Hangjie Shi, Bofei Yang, Desheng Zheng, Lucy Hu, Karthika Arumugam, Shui Hu, Matthew Wen, Dinakar Guthy, Cadence Chung, Rohan Khanna, Osman Ipek, Leslie Ball, Kate Bland, Heather Rocker, Yadunandana Rao, Michael Johnston, Reza Ghanadan, Arindam Mandal, Dilek Hakkani Tur, Prem Natarajan(参考訳) Embodied AI(EAI)研究のための,ユーザ中心のシミュレーションプラットフォームであるAlexa Arenaを紹介する。 Alexa Arenaは、ヒューマンロボットインタラクション(HRI)ミッションの作成のために、さまざまなマルチルームレイアウトと対話可能なオブジェクトを提供する。 ユーザフレンドリなグラフィックスとコントロールメカニズムにより、Alexa Arenaは、一般ユーザにとってアクセスしやすいゲーム化されたロボットタスクの開発をサポートし、高性能なHRIデータ収集とEAIシステム評価のための新たな場所を開く。 プラットフォームとともに、ダイアログ対応命令追跡ベンチマークを導入し、ベースライン結果を提供する。 Alexa Arenaを公開して、汎用的で補助的なエンボディエージェントの構築の研究を容易にします。

We introduce Alexa Arena, a user-centric simulation platform for Embodied AI (EAI) research. Alexa Arena provides a variety of multi-room layouts and interactable objects, for the creation of human-robot interaction (HRI) missions. With user-friendly graphics and control mechanisms, Alexa Arena supports the development of gamified robotic tasks readily accessible to general human users, thus opening a new venue for high-efficiency HRI data collection and EAI system evaluation. Along with the platform, we introduce a dialog-enabled instruction-following benchmark and provide baseline results for it. We make Alexa Arena publicly available to facilitate research in building generalizable and assistive embodied agents.
翻訳日:2023-06-08 19:04:10 公開日:2023-06-07
# 模擬パノラマ線写真とニューラルレイトレーシングを用いた3次元歯科組織の推定

Estimating 3D Dental Structures using Simulated Panoramic Radiographs and Neural Ray Tracing ( http://arxiv.org/abs/2304.04027v2 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, In-Seok Song, Seungjun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 PXは口腔構造の2次元平坦化ビューのみを提供するため、3次元コーンビームCT(CBCT)と比較して適用性に制限がある。 本稿では,実世界のPXからCBCTのような3次元構造を推定する枠組みを提案する。 本フレームワークは, パノラマ画像のみに基づく様々な被験者(患者)に対して, 完全な3次元再構築を実現する。 我々は、X線レンダリングのBeer-Lambert法則とPXイメージングの回転原理の両方に基づくCBCTデータから、シミュレートされたPX(SimPX)と呼ばれる中間表現を作成する。 simpxはpxを真にシミュレートするだけでなく、3dデータへの戻すプロセスを手助けする。 我々は,SimPXを3次元出力に変換するために,グローバルおよびローカルな入力特徴を利用するレイトレーシングに基づく新しいニューラルモデルを提案する。 推測時に、実PX画像を意味正規化を伴うSimPXスタイルの画像に変換し、その変換画像を生成/精製モジュールで処理して高品質な出力を生成する。 実験により,本手法は定量的および定性的に復元作業において,先行技術に勝ることを示した。 本手法は, 歯科用アーチの形状, 整合したPX-CBCTデータセットなどの事前情報を必要としないため, 臨床実習では入手が困難である。

Panoramic radiography (Panoramic X-ray, PX) is a widely used imaging modality for dental examination. Since PX only provides 2D flattened views of the oral structure, its applicability is limited as compared to 3D Cone-beam computed tomography (CBCT). In this paper, we propose a framework to estimate CBCT-like 3D structures from real-world PX. Our framework tackles full 3D reconstruction for varying subjects (patients) where each reconstruction is based only on a single panoramic image. We create an intermediate representation called simulated PX (SimPX) from CBCT data which is based both on the Beer-Lambert law of X-ray rendering and rotational principles of PX imaging. SimPX aims at not only truthfully simulating PX, but also facilitates the reverting process back to 3D data. We propose a novel neural model based on ray tracing which exploits both global and local input features to convert SimPX to 3D output. At inference, a real PX image is translated to a SimPX-style image with semantic regularization, and the translated image is processed by generation/refinement modules to produce high-quality outputs. Experiments show that our method outperforms prior state-of-the-art in reconstruction tasks both quantitatively and qualitatively. Our method does not require any prior information such as the shape of dental arches, nor the matched PX-CBCT dataset for training, which is difficult to obtain in clinical practice.
翻訳日:2023-06-08 18:56:35 公開日:2023-06-07
# rf原子磁気センサによる磁気ジョーンズベクトル検出

Magnetic Jones Vector Detection with RF Atomic Magnetometers ( http://arxiv.org/abs/2303.17757v3 )

ライセンス: Link先を確認
Cicely Motamedi and Karen Sauer(参考訳) 2次元平面における電波(rf)磁場の絶対配向と偏光状態が、2つの光ポンピング原子磁気センサを用いて一意に決定できることを理論的および実験的に示す。 さらに、これらの量子センサからの出力信号を磁気ジョーンズベクトルとして容易に表現することができる。 この複合装置は、RF方向を見つける際に電界検出を補完したり、電界が無視可能なアプリケーションで使用することができる。 後者は、ソースが近接場限界で放射する磁気双極子としてモデル化できる無数の応用で見られる。 この新しいツールは、RF励起に対する材料の反応を特徴づけたり、信号とノイズを区別するために使用することができる。

We show, theoretically and experimentally, how the absolute orientation and polarization state of radio-frequency (RF) magnetic fields in a transverse 2D plane can be uniquely determined using two optically pumped atomic magnetometers. In addition, the output signals from these quantum sensors can be readily expressed as a magnetic Jones vector. This composite device can complement electric field detection in finding RF directions, or it can be used in applications where the electric field is negligible. The latter is found in a myriad of applications where the source can be modeled as radiating magnetic dipoles in the near-field limit. This new tool could be used to characterize a material's response to RF excitation or to distinguish signal from noise.
翻訳日:2023-06-08 18:56:02 公開日:2023-06-07
# 言語モデルはコンピュータのタスクを解決できる

Language Models can Solve Computer Tasks ( http://arxiv.org/abs/2303.17491v2 )

ライセンス: Link先を確認
Geunwoo Kim, Pierre Baldi, Stephen McAleer(参考訳) コンピュータ上で一般的なタスクを実行することができるエージェントは、繰り返しタスクを自動化し、複雑な問題解決を支援することにより、効率と生産性を向上させることができる。 理想的には、そのようなエージェントは自然言語コマンドを通じて、それらに提示される新しいコンピュータタスクを解決できるはずだ。 しかし、この問題に対する従来のアプローチでは、多くの専門家によるデモンストレーションとタスク固有の報酬関数が必要であり、どちらも新しいタスクには実用的ではない。 本研究では、学習済みの大規模言語モデル(LLM)エージェントが、エージェントが再帰的批判を行い、その出力を改善する単純なプロンプトスキームを用いて、自然言語で案内されたコンピュータタスクを実行できることを示す。 RCIアプローチは、コンピュータタスクの自動化のための既存のLLMメソッドよりも大幅に優れており、MiniWoB++ベンチマークにおける教師付き学習(SL)および強化学習(RL)アプローチを上回る。 複数のllmを比較して、rciとinstructgpt-3+rlhf llmはminiwob++の最先端であり、数万ではなく1タスクあたりのデモンストレーションで、タスク固有の報酬機能がないことを発見した。 さらに、LLMの推論能力を高めるためのRCIプロンプトの有効性を、自然言語推論タスク群において示し、思考連鎖(CoT)プロンプトよりも優れることを示す。 RCIとCoTの組み合わせは、どちらよりもパフォーマンスが優れています。 私たちのコードは、https://github.com/posgnu/rci-agent.comで参照できます。

Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent Recursively Criticizes and Improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. We compare multiple LLMs and find that RCI with the InstructGPT-3+RLHF LLM is state-of-the-art on MiniWoB++, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting's effectiveness in enhancing LLMs' reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting. We find that RCI combined with CoT performs better than either separately. Our code can be found here: https://github.com/posgnu/rci-agent.
翻訳日:2023-06-08 18:55:29 公開日:2023-06-07
# 自己教師型視覚表現学習のための混合オートエンコーダ

Mixed Autoencoder for Self-supervised Visual Representation Learning ( http://arxiv.org/abs/2303.17152v2 )

ライセンス: Link先を確認
Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung(参考訳) Masked Autoencoder (MAE)は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。 しかしながら、maeの効果的なデータ拡張戦略は依然としてオープンな質問であり、最も重要な部分となる対照的な学習の方法とは異なる。 本稿では,MAEの混合促進効果について検討する。 まず, 相互情報(mi)の増加により, ナイーブ混合が縮退するモデル性能を示す。 そこで本研究では,各パッチに対して,同種パッチの認識を明示的に要求するだけでなく,下流の高密度認識性能を向上させるために,オブジェクト認識による事前学習を行うことにより,MI増加を緩和する。 大規模な実験により,提案したMixedAE (MixedAE) が,様々な下流タスクにおけるマスク画像モデリング (MIM) 強化における最先端の転送結果を実現することを示す。 具体的には、imagenet-1k, ade20k, coco 上の +0.3% の精度、 +1.7 miou と +0.9 ap をそれぞれ標準 vit ベースで上回っている。 さらに、MIM法とインスタンス識別を組み合わせた強力なMIM法であるiBOTを超え、トレーニングを2倍に加速する。 私たちの知る限りでは、プレテキストタスク設計の観点からMIMの混合を検討するのはこれが初めてです。 コードは利用可能になる。

Masked Autoencoder (MAE) has demonstrated superior performance on various vision tasks via randomly masking image patches and reconstruction. However, effective data augmentation strategies for MAE still remain open questions, different from those in contrastive learning that serve as the most important part. This paper studies the prevailing mixing augmentation for MAE. We first demonstrate that naive mixing will in contrast degenerate model performance due to the increase of mutual information (MI). To address, we propose homologous recognition, an auxiliary pretext task, not only to alleviate the MI increasement by explicitly requiring each patch to recognize homologous patches, but also to perform object-aware self-supervised pre-training for better downstream dense perception performance. With extensive experiments, we demonstrate that our proposed Mixed Autoencoder (MixedAE) achieves the state-of-the-art transfer results among masked image modeling (MIM) augmentations on different downstream tasks with significant efficiency. Specifically, our MixedAE outperforms MAE by +0.3% accuracy, +1.7 mIoU and +0.9 AP on ImageNet-1K, ADE20K and COCO respectively with a standard ViT-Base. Moreover, MixedAE surpasses iBOT, a strong MIM method combined with instance discrimination, while accelerating training by 2x. To our best knowledge, this is the very first work to consider mixing for MIM from the perspective of pretext task design. Code will be made available.
翻訳日:2023-06-08 18:55:02 公開日:2023-06-07
# レーザー駆動型分子ロータの簡単な解析的アライメントモデル

A simple analytical alignment model for laser-kicked molecular rotors ( http://arxiv.org/abs/2303.16877v2 )

ライセンス: Link先を確認
A. L\"ohr, M. Ivanov and M. Khokhlova(参考訳) 線形分子の熱的アンサンブルの単パルス非共鳴インダクティブアライメントに対する数学的に単純かつ正確なモデルを開発した。 分子アライメントモデルは,解析的および数値的な計算を単純化するだけでなく,ガス温度やレーザーパルス強度などのシステムパラメータと時間的分子アライメントの形状との直感的接続を確立する。

We develop a mathematically simple yet accurate model for the single-pulse non-resonant impulsive alignment of thermal ensembles of linear molecules. We find that our molecular alignment model not only provides a simplification for analytical and numerical calculations, but also establishes intuitive connections between system parameters, such as gas temperature and laser pulse intensity, and the resulting shape of the temporal molecular alignment.
翻訳日:2023-06-08 18:54:38 公開日:2023-06-07
# ネイティブ2光子励起を用いたrydberg量子ゲートの提案

Proposal for practical Rydberg quantum gates using a native two-photon excitation ( http://arxiv.org/abs/2303.16605v2 )

ライセンス: Link先を確認
Rui Li, Jing Qian and Weiping Zhang(参考訳) Rydbergの量子ゲートは、中性原子量子計算に必要な計算ユニットとして機能し、過去10年間、激しい研究努力を惹きつけてきた。 しかし、最先端の実験は、ライドバーグと中間状態が予期せぬ大きな損失のために、ほとんどの理論で予測されるような高いゲート忠実性に達していない。 本稿では,パルス最適化に基づくネイティブ2ビット制御NOTゲートの構築について報告する。 実験では, 平滑なガウス型パルスを用いた2光子ライドバーグ励起法に注目する。 最適化されたパルス形状を利用することで、rydbergおよび中間状態からの減衰の著しい減少と、原子の残留熱運動に対する高い耐性を示す。 実験不完全性を考慮したゲート忠実度 > 0.992 に対する保存的下界を抽出する。 この結果は, 最適制御による実験と理論的予測のギャップを小さくするだけでなく, 大規模原子配列におけるマルチキュービット量子計算の開発を約束する強い遮断の要求を低減し, 原子配列内の遠方原子量子ビットの接続を容易にする。

Rydberg quantum gate serving as an indispensable computing unit for neutral-atom quantum computation, has attracted intense research efforts for the last decade. However the state-of-the-art experiments have not reached the high gate fidelity as predicted by most theories due to the unexpected large loss remaining in Rydberg and intermediate states. In this paper we report our findings in constructing a native two-qubit controlled-NOT gate based on pulse optimization. We focus on the method of commonly-used two-photon Rydberg excitation with smooth Gaussian-shaped pulses which is straightforward for experimental demonstration. By utilizing optimized pulse shapes the scheme reveals a remarkable reduction in the decays from Rydberg and intermediate states, as well as a high-tolerance to the residual thermal motion of atoms. We extract a conservative lower bound for the gate fidelity > 0.992 after taking into account the experimental imperfections. Our results not only reduce the gap between experimental and theoretical prediction because of the optimal control, but also facilitate the connectivity of distant atomic qubits in a larger atom array by reducing the requirement of strong blockade, which is promising for developing multiqubit quantum computation in large-scale atomic arrays.
翻訳日:2023-06-08 18:54:29 公開日:2023-06-07
# 自動識別システム(AIS)データを用いた船舶軌道協会のためのCNN-LSTMアーキテクチャ

A CNN-LSTM Architecture for Marine Vessel Track Association Using Automatic Identification System (AIS) Data ( http://arxiv.org/abs/2303.14068v2 )

ライセンス: Link先を確認
Md Asif Bin Syed and Imtiaz Ahmed(参考訳) 海上監視では、通常と異常な船の動きパターンを区別することは、潜在的脅威をタイムリーに識別するために重要である。 一旦検出されると、必要な介入が発生するまでこれらの容器を監視し追跡することが重要である。 これを実現するために、血管の地質パラメータと運動パラメータを含む逐次観測を行い、それらをそれぞれの容器に関連付けるトラックアソシエーションアルゴリズムを用いる。 これらのシーケンシャルな観測に内在する空間的および時間的変化は、従来のマルチオブジェクト追跡アルゴリズムにとって、アソシエーションタスクを困難にする。 さらに、重複するトラックと欠落するデータの存在は、軌跡追跡プロセスをさらに複雑にする可能性がある。 これらの課題に対処するため、本研究では、このトラッキングタスクを多変量時系列問題としてアプローチし、トラックアソシエーションのための1D CNN-LSTMアーキテクチャベースのフレームワークを導入する。 この特別なニューラルネットワークアーキテクチャは、シーケンシャルな観測の間に存在する空間パターンと長期的な時間的関係をキャプチャすることができる。 訓練の過程で、基礎となる各船の軌道を学習し、構築する。 訓練を終えると、提案されたフレームワークは、自動識別システム(ais)によって収集された船舶の位置と動きデータを入力として取り、最も可能性の高い船舶軌道をリアルタイムで出力として返す。 提案手法の有効性を評価するため,特定地域を航行する327隻の船舶の観測データを含むAISデータセットを用いた。 提案するフレームワークの性能は,精度,精度,リコール,F1スコアなどの標準的なパフォーマンス指標を用いて測定する。 他の競合ニューラルネットワークアーキテクチャと比較すると、このアプローチは優れたトラッキング性能を示している。

In marine surveillance, distinguishing between normal and anomalous vessel movement patterns is critical for identifying potential threats in a timely manner. Once detected, it is important to monitor and track these vessels until a necessary intervention occurs. To achieve this, track association algorithms are used, which take sequential observations comprising geological and motion parameters of the vessels and associate them with respective vessels. The spatial and temporal variations inherent in these sequential observations make the association task challenging for traditional multi-object tracking algorithms. Additionally, the presence of overlapping tracks and missing data can further complicate the trajectory tracking process. To address these challenges, in this study, we approach this tracking task as a multivariate time series problem and introduce a 1D CNN-LSTM architecture-based framework for track association. This special neural network architecture can capture the spatial patterns as well as the long-term temporal relations that exist among the sequential observations. During the training process, it learns and builds the trajectory for each of these underlying vessels. Once trained, the proposed framework takes the marine vessel's location and motion data collected through the Automatic Identification System (AIS) as input and returns the most likely vessel track as output in real-time. To evaluate the performance of our approach, we utilize an AIS dataset containing observations from 327 vessels traveling in a specific geographic region. We measure the performance of our proposed framework using standard performance metrics such as accuracy, precision, recall, and F1 score. When compared with other competitive neural network architectures our approach demonstrates a superior tracking performance.
翻訳日:2023-06-08 18:54:09 公開日:2023-06-07
# IconShop: 自動回帰変換器を用いたテキストガイドベクトルアイコン合成

IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers ( http://arxiv.org/abs/2304.14400v4 )

ライセンス: Link先を確認
Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao(参考訳) Scalable Vector Graphics (SVG)は、対話性とアニメーションの優れたサポートを提供する人気のあるベクトル画像フォーマットである。 その魅力的な特徴にもかかわらず、SVG文法の理解やプロの編集ソフトに慣れるために必要な学習曲線が急激なため、ユーザにとってカスタムSVGコンテンツの作成は困難である。 近年のテキスト対画像生成の進歩は、テキスト対画像生成モデルと画像ベクトル化を組み合わせた画像ベース手法(例:テキスト ->ラスター画像 ->ベクターグラフィックス)と、事前学習された大規模言語モデルによる言語ベース手法(例:テキスト ->ベクターグラフィックススクリプト)のどちらでもベクターグラフィックス合成を探求するきっかけとなった。 しかし、これらの手法は、生成品質、多様性、柔軟性の限界に悩まされている。 本稿では,自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを紹介する。 このアプローチの成功の鍵は、SVGパス(およびガイダンスとしてのテキスト記述)をユニークなデオード可能なトークンシーケンスにシーケンシャル化し、トークン化することです。 これにより、自動回帰変換器のシーケンス学習能力をフル活用し、無条件およびテキスト条件のアイコン合成を可能にする。 テキスト記述を伴う大規模ベクトルアイコンデータセット上で次のトークンを予測するための標準的なトレーニングを通じて、提案したIconShopは、既存の画像ベースおよび言語ベースの方法よりも定量的かつ定性的に優れたアイコン合成能力を示す。 一方,世代多様性の劇的な改善は,客観的な一意性と新規性尺度によって検証される。 さらに,アイコン編集,アイコン補間,アイコンセマンティクスの組み合わせ,アイコンデザインの自動表示など,複数の新しいアイコン合成タスクを備えたアイコンショップの柔軟性を示す。

Scalable Vector Graphics (SVG) is a popular vector image format that offers good support for interactivity and animation. Despite its appealing characteristics, creating custom SVG content can be challenging for users due to the steep learning curve required to understand SVG grammars or get familiar with professional editing software. Recent advancements in text-to-image generation have inspired researchers to explore vector graphics synthesis using either image-based methods (i.e., text -> raster image -> vector graphics) combining text-to-image generation models with image vectorization, or language-based methods (i.e., text -> vector graphics script) through pretrained large language models. However, these methods still suffer from limitations in terms of generation quality, diversity, and flexibility. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using autoregressive transformers. The key to success of our approach is to sequentialize and tokenize SVG paths (and textual descriptions as guidance) into a uniquely decodable token sequence. With that, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling both unconditional and text-conditioned icon synthesis. Through standard training to predict the next token on a large-scale vector icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis capability than existing image-based and language-based methods both quantitatively and qualitatively. Meanwhile, we observe a dramatic improvement in generation diversity, which is validated by the objective Uniqueness and Novelty measures. More importantly, we demonstrate the flexibility of IconShop with multiple novel icon synthesis tasks, including icon editing, icon interpolation, icon semantic combination, and icon design auto-suggestion.
翻訳日:2023-06-08 18:47:57 公開日:2023-06-07
# Verilogオートコンプリートのための深層学習フレームワーク : 設計と検証自動化に向けて

A Deep Learning Framework for Verilog Autocompletion Towards Design and Verification Automation ( http://arxiv.org/abs/2304.13840v2 )

ライセンス: Link先を確認
Enrique Dehaerne and Bappaditya Dey and Sandip Halder and Stefan De Gendt(参考訳) 革新的電子設計自動化(EDA)ソリューションは、ますます複雑な電子機器の設計要件を満たすために重要である。 ハードウェア記述言語であるVerilogは、デジタル回路の設計と検証に広く使われ、特定のEDAツールを使用して合成される。 しかし、コードを書くことは反復的で時間を要する作業です。 本稿では,verilogの自動補完モデルをトレーニングするための新しいディープラーニングフレームワークと,オープンソースリポジトリから取得したファイルとスニペットのverilogデータセットを提案する。 このフレームワークは、一般的なプログラミング言語のデータに基づいて事前訓練されたモデルを統合し、ターゲットの下流タスクに似たようにキュレートされたデータセットに微調整する。 これは、複数の評価指標を用いて提案したVerilogデータセットの異なるサブセットでトレーニングされた異なる事前学習モデルを比較することで検証される。 これらの実験により、提案フレームワークは、スクラッチからトレーニングしたモデルと比較して、bleu、rouge-l、chrfスコアが9.5%、6.7%、6.9%向上することを実証した。 コードとデータは、https://github.com/99EnriqueD/verilog_autocompletion で公開されている。

Innovative Electronic Design Automation (EDA) solutions are important to meet the design requirements for increasingly complex electronic devices. Verilog, a hardware description language, is widely used for the design and verification of digital circuits and is synthesized using specific EDA tools. However, writing code is a repetitive and time-intensive task. This paper proposes, primarily, a novel deep learning framework for training a Verilog autocompletion model and, secondarily, a Verilog dataset of files and snippets obtained from open-source repositories. The framework involves integrating models pretrained on general programming language data and finetuning them on a dataset curated to be similar to a target downstream task. This is validated by comparing different pretrained models trained on different subsets of the proposed Verilog dataset using multiple evaluation metrics. These experiments demonstrate that the proposed framework achieves better BLEU, ROUGE-L, and chrF scores by 9.5%, 6.7%, and 6.9%, respectively, compared to a model trained from scratch. Code and data are made available at: https://github.com/99EnriqueD/verilog_autocompletion .
翻訳日:2023-06-08 18:47:17 公開日:2023-06-07
# マルチパーティチャット:人間とモデルによるグループ設定における会話エージェント

Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models ( http://arxiv.org/abs/2304.13835v2 )

ライセンス: Link先を確認
Jimmy Wei, Kurt Shuster, Arthur Szlam, Jason Weston, Jack Urbanek, Mojtaba Komeili(参考訳) 現在の対話研究は、主にペア(双方向)の会話を研究しており、2人以上の話者が会話する日常的な状況に対処していない。 本研究では,マルチパーティ会話の収集と評価を行い,より一般的な事例について検討する。 我々はLIGHT環境を利用して、各参加者がロールプレイに割り当てられたキャラクタを持つ接地会話を構築する。 そこで我々は,このような会話において,言語モデルが1つ以上の文字として振る舞う能力を評価する。 モデルは、(1)いつ話すかを決定することができること、(2)複数の文字に基づいてコヒーレントな発話を生成すること、の2つのスキルを必要とする。 我々は、新しいデータセットでトレーニングされたモデルと既存のペアワイズ学習された対話モデルを比較し、ほとんどショットプロンプトのない大きな言語モデルと比較する。 新しいデータセットであるmultilightは、公開する予定ですが、グループ設定に大幅な改善をもたらすことができます。

Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting.
翻訳日:2023-06-08 18:46:57 公開日:2023-06-07
# 逆赤外線ブロック:物理世界の複数の角度における熱赤外検出器に対するブラックボックス攻撃

Adversarial Infrared Blocks: A Black-box Attack to Thermal Infrared Detectors at Multiple Angles in Physical World ( http://arxiv.org/abs/2304.10712v3 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Tingsong Jiang, Wen Yao, Ling Tian, Xiaoqian Chen(参考訳) 赤外線イメージングシステムは歩行者検出や自動運転に多くの応用可能性があり、その安全性は大きな関心事となっている。 しかし、実世界における赤外線イメージングシステムの安全性を探求する研究はほとんどない。 これまでの研究では、小さな電球や熱的なQRコードなどの物理的摂動を利用して赤外線イメージング検出器を攻撃してきたが、そのような手法は見えやすく、ステルス性に欠けていた。 他の研究者は赤外線イメージング検出器を騙すために熱いブロックや冷たいブロックを使っているが、この方法は様々な角度から攻撃を行う能力に限られている。 これらの欠点に対処するために,逆赤外線ブロック(AdvIB)と呼ばれる新しい物理的攻撃を提案する。 逆赤外ブロックの物理パラメータを最適化することにより、様々な角度から熱画像システムに対するステルスブラックボックス攻撃を実行することができる。 提案手法の有効性,ステルス性,堅牢性に基づいて評価を行った。 提案手法は,ほとんどの距離および角度条件下で80%以上の成功率を達成し,その有効性を検証した。 ステルス性には,赤外線ブロックを衣服の内側に装着し,そのステルス性を高めることが必要である。 さらに, 提案手法を先進検出器で試験し, 実験結果から平均攻撃成功率51.2%を示し, その堅牢性を示した。 全体として,提案するadvib手法は,実世界の安全とセキュリティに潜在的に影響するサーマルイメージングシステムに対して,ステルスで効果的で堅牢なブラックボックス攻撃を行うための有望な手段を提供する。

Infrared imaging systems have a vast array of potential applications in pedestrian detection and autonomous driving, and their safety performance is of great concern. However, few studies have explored the safety of infrared imaging systems in real-world settings. Previous research has used physical perturbations such as small bulbs and thermal "QR codes" to attack infrared imaging detectors, but such methods are highly visible and lack stealthiness. Other researchers have used hot and cold blocks to deceive infrared imaging detectors, but this method is limited in its ability to execute attacks from various angles. To address these shortcomings, we propose a novel physical attack called adversarial infrared blocks (AdvIB). By optimizing the physical parameters of the adversarial infrared blocks, this method can execute a stealthy black-box attack on thermal imaging system from various angles. We evaluate the proposed method based on its effectiveness, stealthiness, and robustness. Our physical tests show that the proposed method achieves a success rate of over 80% under most distance and angle conditions, validating its effectiveness. For stealthiness, our method involves attaching the adversarial infrared block to the inside of clothing, enhancing its stealthiness. Additionally, we test the proposed method on advanced detectors, and experimental results demonstrate an average attack success rate of 51.2%, proving its robustness. Overall, our proposed AdvIB method offers a promising avenue for conducting stealthy, effective and robust black-box attacks on thermal imaging system, with potential implications for real-world safety and security applications.
翻訳日:2023-06-08 18:46:40 公開日:2023-06-07
# トークンドロップアウトとコンテキストリファインメントを用いた効率的なビデオアクション検出

Efficient Video Action Detection with Token Dropout and Context Refinement ( http://arxiv.org/abs/2304.08451v2 )

ライセンス: Link先を確認
Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang(参考訳) 大規模ビデオトークンを用いたストリーミングビデオクリップは、視覚トランスフォーマー(vits)の効率的な認識、特に正確なアクタ識別のために十分な時空間表現を必要とするビデオアクション検出を阻害する。 本研究では,バニラ ViT に基づく効率的な映像行動検出(EVAD)のためのエンドツーエンドフレームワークを提案する。 私たちのEVADは、ビデオアクション検出のための2つの特別な設計で構成されています。 まず,鍵フレーム中心の観点から時空間トークンのドロップアウトを提案する。 ビデオクリップでは、キーフレームからすべてのトークンを保持し、他のフレームからのアクター動作に関連するトークンを保持し、残りのトークンをこのクリップにドロップアウトします。 第2に,アクタの識別性を改善するために,残りのトークンを活用することで,シーンコンテキストを洗練する。 我々の行動検出器の関心領域(roi)は時間領域に拡張される。 キャプチャされた時空間アクター識別表現は、アテンション機構を備えたデコーダのシーンコンテキストを介して洗練される。 これらの2つの設計は、EVADを精度を維持しながら効率よくし、3つのベンチマークデータセット(AVA、UCF101-24、JHMDB)で検証します。 バニラ ViT のバックボーンと比較して,EVAD は全体の GFLOP を 43% 削減し,性能劣化のないリアルタイム推論速度を40% 改善した。 さらに、同様の計算コストであっても、EVADは高解像度入力で1.1mAPの性能を向上させることができる。 コードはhttps://github.com/MCG-NJU/EVADで入手できる。

Streaming video clips with large-scale video tokens impede vision transformers (ViTs) for efficient recognition, especially in video action detection where sufficient spatiotemporal representations are required for precise actor identification. In this work, we propose an end-to-end framework for efficient video action detection (EVAD) based on vanilla ViTs. Our EVAD consists of two specialized designs for video action detection. First, we propose a spatiotemporal token dropout from a keyframe-centric perspective. In a video clip, we maintain all tokens from its keyframe, preserve tokens relevant to actor motions from other frames, and drop out the remaining tokens in this clip. Second, we refine scene context by leveraging remaining tokens for better recognizing actor identities. The region of interest (RoI) in our action detector is expanded into temporal domain. The captured spatiotemporal actor identity representations are refined via scene context in a decoder with the attention mechanism. These two designs make our EVAD efficient while maintaining accuracy, which is validated on three benchmark datasets (i.e., AVA, UCF101-24, JHMDB). Compared to the vanilla ViT backbone, our EVAD reduces the overall GFLOPs by 43% and improves real-time inference speed by 40% with no performance degradation. Moreover, even at similar computational costs, our EVAD can improve the performance by 1.1 mAP with higher resolution inputs. Code is available at https://github.com/MCG-NJU/EVAD.
翻訳日:2023-06-08 18:45:54 公開日:2023-06-07
# 自動回帰言語生成のためのトラクタブル制御

Tractable Control for Autoregressive Language Generation ( http://arxiv.org/abs/2304.07438v3 )

ライセンス: Link先を確認
Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck(参考訳) テキスト生成における自己回帰的な大規模言語モデルの成功にもかかわらず、複雑な制約を満たすテキストを生成することは依然として大きな課題である。 この課題を克服するため,我々は,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。 このフレームワークの有効性を示すために、蒸留された隠れマルコフモデルを使用し、GPT2から自己回帰生成を誘導するために${\Pr}(\text{text} | \alpha)$を効率的に計算できる。 GeLaToは制約付きテキスト生成(CommonGenなど)の挑戦的なベンチマークで最先端のパフォーマンスを実現し、様々な強力なベースラインを大きなマージンで上回る。 我々の研究は、大きな言語モデルを制御するための新しい道を開くだけでなく、より表現力のあるTPMの開発も動機付けている。

Despite the success of autoregressive large language models in text generation, it remains a major challenge to generate text that satisfies complex constraints: sampling from the conditional distribution ${\Pr}(\text{text} | \alpha)$ is intractable for even the simplest lexical constraints $\alpha$. To overcome this challenge, we propose to use tractable probabilistic models (TPMs) to impose lexical constraints in autoregressive text generation models, which we refer to as GeLaTo (Generating Language with Tractable Constraints). To demonstrate the effectiveness of this framework, we use distilled hidden Markov models, where we can efficiently compute ${\Pr}(\text{text} | \alpha)$, to guide autoregressive generation from GPT2. GeLaTo achieves state-of-the-art performance on challenging benchmarks for constrained text generation (e.g., CommonGen), beating various strong baselines by a large margin. Our work not only opens up new avenues for controlling large language models but also motivates the development of more expressive TPMs.
翻訳日:2023-06-08 18:45:29 公開日:2023-06-07
# open-transmind:1st foundation model challenge of intelligent transportationの新しいベースラインとベンチマーク

Open-TransMind: A New Baseline and Benchmark for 1st Foundation Model Challenge of Intelligent Transportation ( http://arxiv.org/abs/2304.06051v2 )

ライセンス: Link先を確認
Yifeng Shi and Feng Lv and Xinliang Wang and Chunlong Xia and Shaojie Li and Shujie Yang and Teng Xi and Gang Zhang(参考訳) 近年、コンピューティングパワーとディープラーニングアルゴリズムの継続的な改善により、基盤モデルの人気が高まっている。 その強力な能力と優れた性能のために、この技術はますます多くの産業で採用され応用されている。 インテリジェントな輸送業界では、人工知能は次のような典型的な課題に直面している。 基礎モデル技術は上記の問題を著しく緩和することができる。 そこで我々は,交通シナリオにおけるファンデーションモデル技術の普及と,知的交通産業の急速な発展を目標として,第1回ファンデーションモデルチャレンジを設計した。 課題は、オールインワンとクロスモーダル画像検索の2つのトラックに分けられる。 さらに、Open-TransMindと呼ばれる2つのトラックの新しいベースラインとベンチマークも提供します。 私たちの知る限り、Open-TransMindはマルチタスクとマルチモーダル機能を備えた最初のオープンソーストランスポート基盤モデルです。 同時にOpen-TransMindは、トラフィックシナリオの検出、分類、セグメンテーションデータセットにおける最先端のパフォーマンスを達成することができる。 ソースコードはhttps://github.com/Traffic-X/Open-TransMind.comで公開しています。

With the continuous improvement of computing power and deep learning algorithms in recent years, the foundation model has grown in popularity. Because of its powerful capabilities and excellent performance, this technology is being adopted and applied by an increasing number of industries. In the intelligent transportation industry, artificial intelligence faces the following typical challenges: few shots, poor generalization, and a lack of multi-modal techniques. Foundation model technology can significantly alleviate the aforementioned issues. To address these, we designed the 1st Foundation Model Challenge, with the goal of increasing the popularity of foundation model technology in traffic scenarios and promoting the rapid development of the intelligent transportation industry. The challenge is divided into two tracks: all-in-one and cross-modal image retrieval. Furthermore, we provide a new baseline and benchmark for the two tracks, called Open-TransMind. According to our knowledge, Open-TransMind is the first open-source transportation foundation model with multi-task and multi-modal capabilities. Simultaneously, Open-TransMind can achieve state-of-the-art performance on detection, classification, and segmentation datasets of traffic scenarios. Our source code is available at https://github.com/Traffic-X/Open-TransMind.
翻訳日:2023-06-08 18:45:08 公開日:2023-06-07
# 文献レビュー:輸送物流と倉庫におけるコンピュータビジョン応用

Literature Review: Computer Vision Applications in Transportation Logistics and Warehousing ( http://arxiv.org/abs/2304.06009v2 )

ライセンス: Link先を確認
Alexander Naumann, Felix Hertlein, Laura D\"orr, Steffen Thoma, Kai Furmans(参考訳) 輸送物流や倉庫におけるコンピュータビジョンの応用は、プロセスの自動化に大きな可能性を秘めている。 我々は,この可能性を活用するために,この分野の研究に関する構造化文献レビューを行う。 論文は、w.r.t.の応用、すなわちそれが取り組むタスク、w.r.t.のコンピュータビジョン技術に分類される。 応用に関して,本論文は,環境から関連する情報を監視・検索する領域と,環境を分析・操作するためのアプローチを用いた操作領域の2つに区分する。 さらに、今後の研究の方向性を指摘し、ロジスティクスにおける応用に適したコンピュータビジョンの最近の発展とリンクする。 最後に,既存のデータセットと産業ソリューションの概要を紹介する。 分析結果はhttps://a-nau.github.io/cv-in-logistics.comで公開されている。

Computer vision applications in transportation logistics and warehousing have a huge potential for process automation. We present a structured literature review on research in the field to help leverage this potential. The literature is categorized w.r.t. the application, i.e. the task it tackles and w.r.t. the computer vision techniques that are used. Regarding applications, we subdivide the literature in two areas: Monitoring, i.e. observing and retrieving relevant information from the environment, and manipulation, where approaches are used to analyze and interact with the environment. Additionally, we point out directions for future research and link to recent developments in computer vision that are suitable for application in logistics. Finally, we present an overview of existing datasets and industrial solutions. The results of our analysis are also available online at https://a-nau.github.io/cv-in-logistics.
翻訳日:2023-06-08 18:44:51 公開日:2023-06-07
# マルウェア分類のための量子機械学習

Quantum Machine Learning for Malware Classification ( http://arxiv.org/abs/2305.09674v3 )

ライセンス: Link先を確認
Gr\'egoire Barru\'e and Tony Quertier(参考訳) 悪意のあるソフトウェア検出の文脈では、機械学習(ML)は新しいマルウェアに一般化するために広く使われている。 しかし、MLモデルは、これまで見たことのないマルウェアに対して、騙されたり、一般化の問題を抱える可能性があることが示されている。 分類タスクにおける量子アルゴリズムの利点について検討する。 量子機械学習アルゴリズムの2つのモデルを実装し、悪意のあるファイルと良質なファイルからなるデータセットの分類のために、それらを古典的なモデルと比較する。 文献にみられた手法に基づいてアルゴリズムを最適化し、探索的な方法で結果を解析し、将来を探究する最も興味深い方向を特定する。

In a context of malicious software detection, machine learning (ML) is widely used to generalize to new malware. However, it has been demonstrated that ML models can be fooled or may have generalization problems on malware that has never been seen. We investigate the possible benefits of quantum algorithms for classification tasks. We implement two models of Quantum Machine Learning algorithms, and we compare them to classical models for the classification of a dataset composed of malicious and benign executable files. We try to optimize our algorithms based on methods found in the literature, and analyze our results in an exploratory way, to identify the most interesting directions to explore for the future.
翻訳日:2023-06-08 18:37:04 公開日:2023-06-07
# フラストレーションのない親ハミルトニアンから対角長距離オーダー:第2量子化におけるムーア・リードと関連する状態

From frustration-free parent Hamiltonians to off-diagonal long-range order: Moore-Read and related states in second quantization ( http://arxiv.org/abs/2305.09286v2 )

ライセンス: Link先を確認
Fanmao Zhang, Matheus Schossler, Alexander Seidel, Li Chen(参考訳) ムーア・リーディング・ファフィアン状態に対する再帰的第二量子化公式を構築する。 多項式クラスタリング特性に訴えることなく,フラストレーションのない親ハミルトニアンの存在を直接証明することにより,このような二次量子化プレゼンテーションの有用性を示す。 さらに、この定式化がムーア・リード状態の非局所順序パラメータの存在とどのように関連しているかを示し、後者がこれらの量で非対角長距離順序(ODLRO)を示すことを示す。 また、フェミオン性アンチ・PH-ファフィアン状態と、f-および高次波対合成フェルミオン状態の類似した2量子化プレゼンテーションを開発し、ほとんどの場合、ODLROについて論じる。

We construct a recursive second-quantized formula for Moore-Read Pfaffian states. We demonstrate the utility of such second-quantized presentations by directly proving the existence of frustration-free parent Hamiltonians, without appealing to polynomial clustering properties. Furthermore, we show how this formalism is connected to the existence of a non-local order parameter for Moore-Read states and give a proof that the latter exhibit off-diagonal long-range order (ODLRO) in these quantities. We also develop a similar second-quantized presentation for the fermionic antiand PH-Pfaffian states, as well as f- and higher wave paired composite fermion states, and discuss ODLRO in most cases.
翻訳日:2023-06-08 18:36:30 公開日:2023-06-07
# CLIP-VG: Visual GroundingのためのCLIPの自己ペーストカリキュラム適応

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding ( http://arxiv.org/abs/2305.08685v2 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang, Changsheng Xu(参考訳) 視覚的グラウンドリング(VG)は視覚と言語において重要なトピックであり、画像内の表現によって記述された特定の領域を特定する。 手動ラベルデータへの依存を減らすために,疑似ラベルを用いた領域同定のための教師なし手法が開発されている。 しかし、既存の教師なし手法の性能は擬似ラベルの品質に大きく依存しており、これらの手法は常に多様性に制限のある問題に遭遇する。 視覚と言語を事前学習したモデルを用いて基礎問題に対処し,疑似ラベルを合理的に活用するために,CLIPを擬似言語ラベルに適応させる新しい手法であるCLIP-VGを提案する。 本稿では,CLIPの視覚的基盤への転送を実現するための,シンプルで効率的なエンドツーエンドネットワークアーキテクチャを提案する。 クリップベースアーキテクチャに基づき,より信頼性の高い疑似ラベルを徐々に見つけて最適なモデルを学習し,疑似言語ラベルの信頼性と多様性のバランスを図るための,単元・複数ソースのカリキュラム適応アルゴリズムを提案する。 提案手法は,RefCOCO/+/gデータセットの単一ソースシナリオとマルチソースシナリオの両方で,それぞれ6.78%から10.67%,11.39%から14.87%に改善した。 さらに,本手法は既存の弱教師付き手法よりも優れている。 コードとモデルはhttps://github.com/linhuixiao/CLIP-VGで入手できる。

Visual Grounding (VG) is a crucial topic in the field of vision and language, which involves locating a specific region described by expressions within an image. To reduce the reliance on manually labeled data, unsupervised methods have been developed to locate regions using pseudo-labels. However, the performance of existing unsupervised methods is highly dependent on the quality of pseudo-labels and these methods always encounter issues with limited diversity. In order to utilize vision and language pre-trained models to address the grounding problem, and reasonably take advantage of pseudo-labels, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP with pseudo-language labels. We propose a simple yet efficient end-to-end network architecture to realize the transfer of CLIP to the visual grounding. Based on the CLIP-based architecture, we further propose single-source and multi-source curriculum adapting algorithms, which can progressively find more reliable pseudo-labels to learn an optimal model, thereby achieving a balance between reliability and diversity for the pseudo-language labels. Our method outperforms the current state-of-the-art unsupervised method by a significant margin on RefCOCO/+/g datasets in both single-source and multi-source scenarios, with improvements ranging from 6.78% to 10.67% and 11.39% to 14.87%, respectively. Furthermore, our approach even outperforms existing weakly supervised methods. The code and models will be available at https://github.com/linhuixiao/CLIP-VG.
翻訳日:2023-06-08 18:36:15 公開日:2023-06-07
# PALR:レコメンデーションのためのLLMを意識したパーソナライズ

PALR: Personalization Aware LLMs for Recommendation ( http://arxiv.org/abs/2305.07622v3 )

ライセンス: Link先を確認
Fan Yang, Zheng Chen, Ziyan Jiang, Eunah Cho, Xiaojiang Huang, Yanbin Lu(参考訳) 大規模言語モデル(llm)は、最近、その例外的な能力で大きな注目を集めている。 様々な自然言語処理(NLP)タスクに利用できる汎用LLMの開発に多大な努力を払っているが、レコメンデーターシステムにおけるその可能性を探る研究は少ない。 本稿では,ユーザ履歴行動(クリック,購入,評価など)をLCMと組み合わせ,ユーザが好む項目を生成することを目的とした,PALRという新しいフレームワークを提案する。 具体的には,まずユーザ/イテムインタラクションを候補検索のガイダンスとして利用する。 次に、LLMに基づくランキングモデルを用いて推奨項目を生成する。 通常、ゼロ/ファウショットのレコメンデーションテストや、LLMの推論能力を完全に引き出すことができず、リッチアイテムサイドのパラメトリック知識を活用する小さな言語モデル(10億のパラメータ未満)のトレーニングに汎用LLMを採用する既存のアプローチとは異なり、ランク付け目的にLLMを微調整する。 このモデルは自然言語形式の検索候補を入力とし、推論中に入力候補から結果を明示的に選択するように指示する。 実験の結果,提案手法は逐次レコメンデーションタスクにおいて最先端モデルを上回ることがわかった。

Large language models (LLMs) have recently received significant attention for their exceptional capabilities. Despite extensive efforts in developing general-purpose LLMs that can be utilized in various natural language processing (NLP) tasks, there has been less research exploring their potential in recommender systems. In this paper, we propose a novel framework, named PALR, which aiming to combine user history behaviors (such as clicks, purchases, ratings, etc.) with LLMs to generate user preferred items. Specifically, we first use user/item interactions as guidance for candidate retrieval. Then we adopt a LLM-based ranking model to generate recommended items. Unlike existing approaches that typically adopt general-purpose LLMs for zero/few-shot recommendation testing or training on small-sized language models (with less than 1 billion parameters), which cannot fully elicit LLMs' reasoning abilities and leverage rich item side parametric knowledge, we fine-tune a 7 billion parameters LLM for the ranking purpose. This model takes retrieval candidates in natural language format as input, with instruction which explicitly asking to select results from input candidates during inference. Our experimental results demonstrate that our solution outperforms state-of-the-art models on various sequential recommendation tasks.
翻訳日:2023-06-08 18:35:45 公開日:2023-06-07
# CADGE: グラフ構造化知識集約による文脈認識対話生成

CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation ( http://arxiv.org/abs/2305.06294v2 )

ライセンス: Link先を確認
Hongbo Zhang, Chen Tang, Tyler Loakman, Chenghua Lin and Stefan Goetze(参考訳) 常識知識は多くの自然言語処理タスクに不可欠である。 既存の作品は通常、グラフ知識と従来のグラフニューラルネットワーク(gnn)を組み込んでおり、テキストとグラフ知識のエンコーディングプロセスはシリアルパイプラインで分離される。 これらの異なる表現学習段階は、ニューラルネットワークが入力知識の両タイプに含まれる全体的な文脈を学習するのに最適であるかもしれない。 本稿では,コンテキスト対応の知識集約プロセスに基づいて,関連する知識グラフのグローバルな特徴を効果的に組み込むことのできる,コンテキスト対応グラフアテンションモデルを提案する。 具体的には,グラフ知識のフラット化とテキストの結合という,異質な機能を処理するための新しい表現学習手法を活用した。 我々の知識を最大限に活用するために、コモンセンス対話生成を支援する文脈情報に加えて、連結されたサブグラフにグラフ知識集約を階層的に適用する最初の試みである。 このフレームワークは従来のGNNベースの言語フレームワークと比較して優れたパフォーマンスを示している。 自動評価と人的評価の両方により,提案モデルが最先端のベースラインに対して顕著な性能向上を示した。

Commonsense knowledge is crucial to many natural language processing tasks. Existing works usually incorporate graph knowledge with conventional graph neural networks (GNNs), leading to the text and graph knowledge encoding processes being separated in a serial pipeline. We argue that these separate representation learning stages may be suboptimal for neural networks to learn the overall context contained in both types of input knowledge. In this paper, we propose a novel context-aware graph-attention model (Context-aware GAT), which can effectively incorporate global features of relevant knowledge graphs based on a context-enhanced knowledge aggregation process. Specifically, our framework leverages a novel representation learning approach to process heterogeneous features - combining flattened graph knowledge with text. To the best of our knowledge, this is the first attempt at hierarchically applying graph knowledge aggregation on a connected subgraph in addition to contextual information to support commonsense dialogue generation. This framework shows superior performance compared to conventional GNN-based language frameworks. Both automatic and human evaluation demonstrates that our proposed model has significant performance uplifts over state-of-the-art baselines.
翻訳日:2023-06-08 18:35:21 公開日:2023-06-07
# 還元性双曲型タンジェントネットワークの機能等価性と経路接続性

Functional Equivalence and Path Connectivity of Reducible Hyperbolic Tangent Networks ( http://arxiv.org/abs/2305.05089v2 )

ライセンス: Link先を確認
Matthew Farrugia-Roberts (The University of Melbourne)(参考訳) ニューラルネットワークの学習過程を理解するには、学習が行われるパラメータ空間の構造を明確にする必要がある。 ニューラルネットワークパラメータの関数同値クラスは、同じ入力出力関数を実装するパラメータの集合である。 多くのアーキテクチャにおいて、ほとんどのパラメータは単純で文書化された関数同値類を持つ。 しかし、ネットワークのユニット間の冗長性によって引き起こされるより機能的な同値クラスを持つ、還元可能なパラメータの少数派も存在する。 本稿では,単層双曲型タンジェントアーキテクチャに対して,単位冗長性と可逆関数同値クラスをアルゴリズム的に特徴付ける。 このような関数同値類は分割線形経路連結集合であり、冗長単位の大多数を持つパラメータに対して、その集合は最大7つの線形セグメントの直径を持つことを示す。

Understanding the learning process of artificial neural networks requires clarifying the structure of the parameter space within which learning takes place. A neural network parameter's functional equivalence class is the set of parameters implementing the same input--output function. For many architectures, almost all parameters have a simple and well-documented functional equivalence class. However, there is also a vanishing minority of reducible parameters, with richer functional equivalence classes caused by redundancies among the network's units. In this paper, we give an algorithmic characterisation of unit redundancies and reducible functional equivalence classes for a single-hidden-layer hyperbolic tangent architecture. We show that such functional equivalence classes are piecewise-linear path-connected sets, and that for parameters with a majority of redundant units, the sets have a diameter of at most 7 linear segments.
翻訳日:2023-06-08 18:35:01 公開日:2023-06-07
# PELEスコア:Pelvis抽出と拡張によるPelvic X線ランドマーク検出

PELE scores: Pelvic X-ray Landmark Detection by Pelvis Extraction and Enhancement ( http://arxiv.org/abs/2305.04294v2 )

ライセンス: Link先を確認
Zhen Huang, Han Li, Shitong Shao, Heqin Zhu, Huijie Hu, Zhiwei Cheng, Jianji Wang, and S.Kevin Zhou(参考訳) 体幹の下部である骨盤は、体幹を支え、バランスをとる。 骨盤X線(PXR)からのランドマーク検出は、骨盤疾患の下流分析とコンピュータ支援による診断と治療を容易にする。 PXRはCT画像と比較して低放射能と低コストの利点があるが、3D構造の2次元骨盤形状の重ね合わせは臨床的意思決定を混乱させる。 本稿では,CTにおける3次元解剖学的知識を利用したPELvis extract(PELE)モジュールを提案し,骨盤をPXRからガイドし,適切に分離し,軟組織の影響を排除した。 2つの公開データセットと1つのプライベートデータセットに基づく広範な評価を行い、合計850のPXRを出力する。 実験結果から,提案するPELEモジュールは,PXRのランドマーク検出の精度を大幅に向上し,複数のベンチマーク指標における最先端性能を実現し,下流タスクの処理性の向上を図っている。

The pelvis, the lower part of the trunk, supports and balances the trunk. Landmark detection from a pelvic X-ray (PXR) facilitates downstream analysis and computer-assisted diagnosis and treatment of pelvic diseases. Although PXRs have the advantages of low radiation and reduced cost compared to computed tomography (CT) images, their 2D pelvis-tissue superposition of 3D structures confuses clinical decision-making. In this paper, we propose a PELvis Extraction (PELE) module that utilizes 3D prior anatomical knowledge in CT to guide and well isolate the pelvis from PXRs, thereby eliminating the influence of soft tissue. We conduct an extensive evaluation based on two public datasets and one private dataset, totaling 850 PXRs. The experimental results show that the proposed PELE module significantly improves the accuracy of PXRs landmark detection and achieves state-of-the-art performances in several benchmark metrics, thus better serving downstream tasks.
翻訳日:2023-06-08 18:34:50 公開日:2023-06-07
# BERTを用いた深層学習によるがんマーカー分類の改善

Improving Cancer Hallmark Classification with BERT-based Deep Learning Approach ( http://arxiv.org/abs/2305.03501v2 )

ライセンス: Link先を確認
Sultan Zavrak and Seyhmus Yilmaz(参考訳) 本稿では,癌研究において重要な課題である癌の特徴を正確に分類する新しい手法を提案する。 提案手法はトランスフォーマ (bert) アーキテクチャの双方向エンコーダ表現を応用し, 様々な下流アプリケーションにおいて例外的な性能を示した。 移行学習を適用することで,癌関連文書の小さなコーパスに,事前学習したBERTモデルを微調整した。 実験結果から,本手法の精度は94.45%であり,文献で報告したようにほぼすべての先行研究を上回り,少なくとも8.04%の上昇を示した。 これらの知見は, 癌研究におけるテキスト文書の正確な分類と理解において, 提案モデルの有効性を浮き彫りにしており, この分野に大きく貢献している。 がんは世界的にもトップ10の死因の1つであり、我々のアプローチはがん研究を推進し、患者の成果を改善する上で大きな可能性を秘めている。

This paper presents a novel approach to accurately classify the hallmarks of cancer, which is a crucial task in cancer research. Our proposed method utilizes the Bidirectional Encoder Representations from Transformers (BERT) architecture, which has shown exceptional performance in various downstream applications. By applying transfer learning, we fine-tuned the pre-trained BERT model on a small corpus of biomedical text documents related to cancer. The outcomes of our experimental investigations demonstrate that our approach attains a noteworthy accuracy of 94.45%, surpassing almost all prior findings with a substantial increase of at least 8.04% as reported in the literature. These findings highlight the effectiveness of our proposed model in accurately classifying and comprehending text documents for cancer research, thus contributing significantly to the field. As cancer remains one of the top ten leading causes of death globally, our approach holds great promise in advancing cancer research and improving patient outcomes.
翻訳日:2023-06-08 18:34:34 公開日:2023-06-07
# アノテーション不足による多領域学習

Multi-Domain Learning From Insufficient Annotations ( http://arxiv.org/abs/2305.02757v2 )

ライセンス: Link先を確認
Rui He, Shengcai Liu, Jiahao Wu, Shan He, Ke Tang(参考訳) マルチドメイン学習(MDL)とは、異なるドメインから収集されたデータセット上にモデルまたはモデルのセットを同時に構築することである。 従来のアプローチでは、共有プライベートフレームワーク(spモデル)に従って、ドメイン共有情報抽出とドメインプライベート情報保存を重視する。 しかし、各領域における注釈付きデータの限られた利用は、実世界のアプリケーションにおける従来の教師付きMDLアプローチの有効性を著しく妨げている。 本稿では,ラベル付きデータとラベル付きデータの両方から意味的情報と構造的情報の両方をキャプチャすることで,アノテーションの不足の影響を軽減するマルチドメインコントラスト学習(mdcl)と呼ばれる新しい手法を提案する。 前者は共有隠し空間内の異なるドメインから同じ意味カテゴリーの注釈付きインスタンスを整合させることを目的としており、後者は各ドメインのプライベートな隠れ空間でラベル付きインスタンスのクラスタ構造を学ぶことに焦点を当てている。 MDCLは多くのSPモデルと容易に互換性があり、追加のモデルパラメータを必要としない。 5つのテキストと画像のマルチドメインデータセットによる実験結果から、MDCLは様々なSPモデルに対して顕著な改善をもたらすことが示された。

Multi-domain learning (MDL) refers to simultaneously constructing a model or a set of models on datasets collected from different domains. Conventional approaches emphasize domain-shared information extraction and domain-private information preservation, following the shared-private framework (SP models), which offers significant advantages over single-domain learning. However, the limited availability of annotated data in each domain considerably hinders the effectiveness of conventional supervised MDL approaches in real-world applications. In this paper, we introduce a novel method called multi-domain contrastive learning (MDCL) to alleviate the impact of insufficient annotations by capturing both semantic and structural information from both labeled and unlabeled data.Specifically, MDCL comprises two modules: inter-domain semantic alignment and intra-domain contrast. The former aims to align annotated instances of the same semantic category from distinct domains within a shared hidden space, while the latter focuses on learning a cluster structure of unlabeled instances in a private hidden space for each domain. MDCL is readily compatible with many SP models, requiring no additional model parameters and allowing for end-to-end training. Experimental results across five textual and image multi-domain datasets demonstrate that MDCL brings noticeable improvement over various SP models.Furthermore, MDCL can further be employed in multi-domain active learning (MDAL) to achieve a superior initialization, eventually leading to better overall performance.
翻訳日:2023-06-08 18:34:18 公開日:2023-06-07
# DataFinder: 自然言語記述からの科学的データセット推奨

DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions ( http://arxiv.org/abs/2305.16636v2 )

ライセンス: Link先を確認
Vijay Viswanathan, Luyu Gao, Tongshuang Wu, Pengfei Liu and Graham Neubig(参考訳) 現代の機械学習は研究のアイデアを開発し検証するためのデータセットに依存している。 公開データの増加を考えると、適切なデータセットを見つけることはますます難しくなっている。 任意の研究質問は、データセットのサイズ、モダリティ、ドメインなど、研究者がこの疑問にどの程度うまく答えられるか、明示的で暗黙の制約を課している。 研究アイデアを自然言語で簡潔に記述したデータセットを推奨するタスクを運用し、ニーズに応じたデータセットの検索を支援する。 データセットは直接検索のインデックス付けが困難であり、このタスクに容易に利用できるコーパスはない。 この作業を容易にするために、より大規模な自動構築されたトレーニングセット(17.5kクエリ)と、より小さな専門家による評価セット(392クエリ)で構成されるdatafinderデータセットを構築する。 このデータを用いて,テストセット上の各種情報検索アルゴリズムを比較し,テキストベースデータセット推薦のための優れたバイエンコーダ検索器を提案する。 このシステムはDataFinder Datasetに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。 データセットレコメンデーションの進展を促進するため、データセットとモデルを公開しています。

Modern machine learning relies on datasets to develop and validate research ideas. Given the growth of publicly available data, finding the right dataset to use is increasingly difficult. Any research question imposes explicit and implicit constraints on how well a given dataset will enable researchers to answer this question, such as dataset size, modality, and domain. We operationalize the task of recommending datasets given a short natural language description of a research idea, to help people find relevant datasets for their needs. Dataset recommendation poses unique challenges as an information retrieval problem; datasets are hard to directly index for search and there are no corpora readily available for this task. To facilitate this task, we build the DataFinder Dataset which consists of a larger automatically-constructed training set (17.5K queries) and a smaller expert-annotated evaluation set (392 queries). Using this data, we compare various information retrieval algorithms on our test set and present a superior bi-encoder retriever for text-based dataset recommendation. This system, trained on the DataFinder Dataset, finds more relevant search results than existing third-party dataset search engines. To encourage progress on dataset recommendation, we release our dataset and models to the public.
翻訳日:2023-06-08 18:28:43 公開日:2023-06-07
# 長文のニューラル自然言語処理:最新技術に関する調査

Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2305.16259v4 )

ライセンス: Link先を確認
Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis(参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。 しかし、長文解析の要求は短いテキストの要求とは大きく異なり、オンラインにアップロードされた文書のサイズが増大すると、長いテキストの自動理解が重要な研究領域となる。 この記事には2つの目標がある。 a) 関連するニューラルビルディングブロックを概観し、短いチュートリアルとして機能し、 b) 主に文書分類と文書要約という2つの中心的なタスクに焦点を当てた,長文NLPの最先端を調査する。 典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。 本稿では,文書レベルの分析について述べる。 現在のソリューションとともに、long document nlpの主な課題と課題について論じている。 最後に、さらなる研究を促進するために、関連する、公開可能な注釈付きデータセットが提示される。

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Thus, this article concerns document-level analysis. It discusses the main challenges and issues of long document NLP, along with the current solutions. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.
翻訳日:2023-06-08 18:28:22 公開日:2023-06-07
# Text-to-SQLにおけるソーシャルバイアスの発見と分類

Uncovering and Categorizing Social Biases in Text-to-SQL ( http://arxiv.org/abs/2305.16253v2 )

ライセンス: Link先を確認
Yan Liu, Yan Gao, Zhe Su, Xiaokang Chen, Elliott Ash, Jian-Guang Lou(参考訳) コンテンツ警告: この研究には、特定の社会集団の個人に有害なステレオタイプ、関連、その他の害を暗示する可能性がある例が含まれている。 大規模な事前学習された言語モデルは、異なる人口層に対する社会的偏見を持ち、社会における既存のステレオタイプをさらに増幅し、さらに害を与える可能性がある。 テキスト・トゥ・SQLは重要なタスクであり、そのモデルは主に行政産業で採用されており、不公平な決定が破滅的な結果をもたらす可能性がある。 しかし、既存のText-to-SQLモデルは、SpiderやWikiSQLのようなクリーンで中立的なデータセットでトレーニングされている。 これはある程度、理想的な条件下でのモデルの社会的バイアスをカバーできるが、実際のアプリケーションシナリオで現れる可能性がある。 本研究の目的は,テキストからsqlへのモデルの社会バイアスを解明し,分類することである。 テキストからsqlへのモデルの構造化データに生じる社会バイアスのカテゴリを要約する。 テストベンチマークを構築し、類似したタスク精度を持つモデルが、全く異なる速度で社会的バイアスを含むことを明らかにします。 本手法を活用し,下流のテキストからsqlへのタスクにおける社会的バイアスを解明し,評価する方法を示す。 コードとデータをリリースします。

Content Warning: This work contains examples that potentially implicate stereotypes, associations, and other harms that could be offensive to individuals in certain social groups.} Large pre-trained language models are acknowledged to carry social biases towards different demographics, which can further amplify existing stereotypes in our society and cause even more harm. Text-to-SQL is an important task, models of which are mainly adopted by administrative industries, where unfair decisions may lead to catastrophic consequences. However, existing Text-to-SQL models are trained on clean, neutral datasets, such as Spider and WikiSQL. This, to some extent, cover up social bias in models under ideal conditions, which nevertheless may emerge in real application scenarios. In this work, we aim to uncover and categorize social biases in Text-to-SQL models. We summarize the categories of social biases that may occur in structured data for Text-to-SQL models. We build test benchmarks and reveal that models with similar task accuracy can contain social biases at very different rates. We show how to take advantage of our methodology to uncover and assess social biases in the downstream Text-to-SQL task. We will release our code and data.
翻訳日:2023-06-08 18:28:06 公開日:2023-06-07
# 言語モデルにおける言語一般化の評価:ブラジルポルトガル語のデータセット

Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese ( http://arxiv.org/abs/2305.14070v2 )

ライセンス: Link先を確認
Rodrigo Wilkens, Leonardo Zilio and Aline Villavicencio(参考訳) 近年、大規模な言語モデルの作成に力を入れている。 現在、最も顕著なアプローチはBERTのようなディープニューラルネットワークに基づいている。 しかし、それらは透明性と解釈性に欠けており、しばしばブラックボックスと見なされる。 これは下流タスクへの適用性だけでなく、異なるアーキテクチャの互換性や、異なるコーパスやハイパーパラメータを使ってトレーニングされた同じモデルにも影響します。 本稿では,ブラジル・ポルトガル語で開発されたモデルにエンコードされた言語情報を調べるための本質的評価タスクを提案する。 これらのタスクは、異なる言語モデルが文法構造やマルチワード表現(MWE)に関連する情報を一般化する方法を評価するために設計され、異なる言語現象を学習したかどうかを評価する。 これらのタスクのために開発されたデータセットは、1つのマスクされた単語を含む一連の文と、コンテキストを狭めるのに役立つキューフレーズで構成されている。 このデータセットはmweと文法構造に分けられ、後者は不個人動詞、主題合意、動詞合意、名目合意、受動的およびコネクタの6つのタスクに分けられる。 MWEのサブセットはBERTimbau Large、BERTimbau Base、mBERTのテストに使用された。 文法構造については, BERTimbau Largeのみを用い, MWEタスクで最高の結果を得た。

Much recent effort has been devoted to creating large-scale language models. Nowadays, the most prominent approaches are based on deep neural networks, such as BERT. However, they lack transparency and interpretability, and are often seen as black boxes. This affects not only their applicability in downstream tasks but also the comparability of different architectures or even of the same model trained using different corpora or hyperparameters. In this paper, we propose a set of intrinsic evaluation tasks that inspect the linguistic information encoded in models developed for Brazilian Portuguese. These tasks are designed to evaluate how different language models generalise information related to grammatical structures and multiword expressions (MWEs), thus allowing for an assessment of whether the model has learned different linguistic phenomena. The dataset that was developed for these tasks is composed of a series of sentences with a single masked word and a cue phrase that helps in narrowing down the context. This dataset is divided into MWEs and grammatical structures, and the latter is subdivided into 6 tasks: impersonal verbs, subject agreement, verb agreement, nominal agreement, passive and connectors. The subset for MWEs was used to test BERTimbau Large, BERTimbau Base and mBERT. For the grammatical structures, we used only BERTimbau Large, because it yielded the best results in the MWE task.
翻訳日:2023-06-08 18:27:47 公開日:2023-06-07
# SpokenWoZ: 複数のドメインにおけるタスク指向対話のための大規模音声テキストデータセット

SpokenWOZ: A Large-Scale Speech-Text Dataset for Spoken Task-Oriented Dialogue in Multiple Domains ( http://arxiv.org/abs/2305.13040v2 )

ライセンス: Link先を確認
Shuzheng Si, Wentao Ma, Haoyu Gao, Yuchuan Wu, Ting-En Lin, Yinpei Dai, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li(参考訳) タスク指向対話(TOD)モデルは近年大きな進歩を遂げている。 しかし,従来の研究は主にアノテータによるデータセットに焦点を当てており,学術研究と実世界の会話シナリオのギャップが生じた。 いくつかの小規模音声TODデータセットは、ASRエラーなどの堅牢性問題に対処するために提案されているが、音声会話におけるユニークな課題は無視されている。 この制限に対処するために,8つのドメイン,203kのターン,5.7kの対話,対人会話からの249時間の音声を含む,音声TODのための大規模音声テキストデータセットであるSpkenWOZを導入する。 SpokenWOZはさらに、音声言語における単語間処理や推論などの一般的な音声特徴を取り入れている。 これらの特徴に基づき,新たな課題としてクロスターンスロットと推論スロット検出を提案する。 テキストモーダルモデル,新たに提案されたデュアルモーダルモデル,LLM,例えばChatGPTなど,さまざまなベースライン上で実験を行う。 その結果、最も先進的な対話状態追跡装置は、結合目標精度が25.65%しか達成できず、somaエンドツーエンドモデルでは52.1%の対話でユーザ要求を正しく完了している。 データセット、コード、およびリーダーボードは、https://spokenwoz.github.io/SpokenWOZ-github.io/で入手できる。

Task-oriented dialogue (TOD) models have made significant progress in recent years. However, previous studies primarily focus on datasets written by annotators, which has resulted in a gap between academic research and real-world spoken conversation scenarios. While several small-scale spoken TOD datasets are proposed to address robustness issues such as ASR errors, they ignore the unique challenges in spoken conversation. To tackle the limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD, containing 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from human-to-human spoken conversations. SpokenWOZ further incorporates common spoken characteristics such as word-by-word processing and reasoning in spoken language. Based on these characteristics, we present cross-turn slot and reasoning slot detection as new challenges. We conduct experiments on various baselines, including text-modal models, newly proposed dual-modal models, and LLMs, e.g., ChatGPT. The results show that the current models still have substantial room for improvement in spoken conversation, where the most advanced dialogue state tracker only achieves 25.65% in joint goal accuracy and the SOTA end-to-end model only correctly completes the user request in 52.1% of dialogues. The dataset, code, and leaderboard are available: https://spokenwoz.github.io/SpokenWOZ-github.io/.
翻訳日:2023-06-08 18:27:27 公開日:2023-06-07
# PyTorch Hyperparameter Tuning - SpotPython用チュートリアル

PyTorch Hyperparameter Tuning - A Tutorial for spotPython ( http://arxiv.org/abs/2305.11930v2 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein(参考訳) ハイパーパラメータチューニング(ハイパーパラメータ最適化)の目標は、ハイパーパラメータを最適化して、マシンやディープラーニングモデルの性能を改善することである。 spotPython (``Sequential Parameter Optimization Toolbox in Python'') は、Rプログラミング環境において10年以上にわたって統計解析のために開発された、よく知られたハイパーパラメータチューナーSPOTのPythonバージョンである。 PyTorchは、GPUとCPUを使用したディープラーニングのための最適化されたテンソルライブラリである。 このドキュメントは、SpotPythonハイパーパラメータチューナをPyTorchトレーニングワークフローに統合する方法を示している。 例として、cifar10画像分類器の結果を用いる。 spotPythonの紹介に加えて、このチュートリアルには、実験とハイパーパラメータのチューニングを行うPythonライブラリであるRay Tuneとの簡単な比較も含まれている。 この比較は、PyTorchハイパーパラメータチューニングチュートリアルに基づいている。 両アプローチの長所と短所について論じる。 spotPythonはRay Tuneよりも柔軟で透明でありながら、同じような、あるいはさらに優れた結果が得られることを示す。

The goal of hyperparameter tuning (or hyperparameter optimization) is to optimize the hyperparameters to improve the performance of the machine or deep learning model. spotPython (``Sequential Parameter Optimization Toolbox in Python'') is the Python version of the well-known hyperparameter tuner SPOT, which has been developed in the R programming environment for statistical analysis for over a decade. PyTorch is an optimized tensor library for deep learning using GPUs and CPUs. This document shows how to integrate the spotPython hyperparameter tuner into the PyTorch training workflow. As an example, the results of the CIFAR10 image classifier are used. In addition to an introduction to spotPython, this tutorial also includes a brief comparison with Ray Tune, a Python library for running experiments and tuning hyperparameters. This comparison is based on the PyTorch hyperparameter tuning tutorial. The advantages and disadvantages of both approaches are discussed. We show that spotPython achieves similar or even better results while being more flexible and transparent than Ray Tune.
翻訳日:2023-06-08 18:27:02 公開日:2023-06-07
# 密度演算子の最適期待値測定のためのパウリ弦の通勤家族への高速分割

Fast Partitioning of Pauli Strings into Commuting Families for Optimal Expectation Value Measurements of Dense Operators ( http://arxiv.org/abs/2305.11847v2 )

ライセンス: Link先を確認
Ben Reggio, Nouman Butt, Andrew Lytle, and Patrick Draper(参考訳) 作用素の分解に現れるパウリ弦は、交換族にグループ化することができ、演算子の期待値を測定するのに必要な量子回路の数を減らすことができる。 我々は、任意の数のキュービットに作用するpauli文字列の完全な集合を最小数の通勤ファミリに完全に分割するアルゴリズムを詳述し、分割を実行するためにpythonコードを提供する。 分割法は、パウリ文字列の集合のサイズと線形にスケールし、自然に可換族を量子ゲートで対角化する方法を提供する。 パーティショニングをqiskitに統合したパッケージを提供し、これをibmのハードウェア上で、行列量子力学モデルに見られるような、密度の高いハミルトニアンによるアルゴリズムのベンチマークに使用します。 3/2)^m$ の理論的限界に近い計算速度を qubit-wise の可換グルーピングに対して、$m=2,\dotsc,6$ qubits で示す。

The Pauli strings appearing in the decomposition of an operator can be can be grouped into commuting families, reducing the number of quantum circuits needed to measure the expectation value of the operator. We detail an algorithm to completely partition the full set of Pauli strings acting on any number of qubits into the minimal number of sets of commuting families, and we provide python code to perform the partitioning. The partitioning method scales linearly with the size of the set of Pauli strings and it naturally provides a fast method of diagonalizing the commuting families with quantum gates. We provide a package that integrates the partitioning into Qiskit, and use this to benchmark the algorithm with dense Hamiltonians, such as those that arise in matrix quantum mechanics models, on IBM hardware. We demonstrate computational speedups close to the theoretical limit of $(3/2)^m$ relative to qubit-wise commuting groupings, for $m=2,\dotsc,6$ qubits.
翻訳日:2023-06-08 18:26:37 公開日:2023-06-07
# TextDiffuser: テキストペイントとしての拡散モデル

TextDiffuser: Diffusion Models as Text Painters ( http://arxiv.org/abs/2305.10855v3 )

ライセンス: Link先を確認
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei(参考訳) 拡散モデルは印象的な生成能力で注目を集めているが、現在は正確で一貫性のあるテキストのレンダリングに苦戦している。 この問題に対処するために,テキストディフューザを導入し,背景に忠実な視覚的魅力のあるテキストによる画像生成に焦点を当てた。 TextDiffuserは、まず、Transformerモデルがテキストプロンプトから抽出されたキーワードのレイアウトを生成し、次に拡散モデルがテキストプロンプトと生成されたレイアウトに条件付き画像を生成する。 さらに,文字認識や検出,文字レベルのセグメンテーションアノテーションを含む1000万のイメージテキストペアを含む,ocrアノテーションを備えた最初の大規模テキストイメージデータセットであるmario-10mをコントリビュートする。 我々はさらにMARIO-Evalベンチマークを収集し、テキストのレンダリング品質を評価する包括的なツールとして機能する。 実験とユーザスタディにより,テキストプロンプトだけで高品質なテキスト画像を作成し,テキストテンプレート画像と併用し,不完全な画像の再構築を行う,柔軟性と制御性を示す。 コード、モデル、データセットは \url{https://aka.ms/textdiffuser} で入手できる。

Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.
翻訳日:2023-06-08 18:26:09 公開日:2023-06-07
# PTQD:拡散モデルのための正確な後処理量子化

PTQD: Accurate Post-Training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.10657v2 )

ライセンス: Link先を確認
Yefei He, Luping Liu, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは最近、画像合成やその他の関連する生成タスクを支配している。 しかし、反復的復調処理は推論時の計算に高価であり、低レイテンシでスケーラブルな実世界のアプリケーションでは拡散モデルが実用的でない。 拡散モデルのトレーニング後の量子化は、モデルサイズを大幅に削減し、再トレーニングを必要とせずにサンプリングプロセスを高速化することができる。 それでも、既存の学習後量子化法を低ビット拡散モデルに直接適用することは、生成したサンプルの品質を著しく損なう可能性がある。 具体的には、分別ステップ毎に、量子化ノイズが推定平均の偏差を生じさせ、所定の分散スケジュールとミスマッチする。 さらに、サンプリングプロセスが進むにつれて、量子化ノイズが蓄積され、遅延復調ステップにおいて信号対雑音比(SNR)が低くなる。 そこで本研究では, 量子化雑音と拡散摂動雑音を統一的に定式化する手法を提案する。 まず, 量子化雑音を, 相関部分と残差部分に分けて, その全精度部分について検討する。 相関係数を推定することにより、相関部を容易に補正することができる。 非相関部分については、偏極分散スケジュールを校正し、量子化による過剰な分散を吸収する。 さらに,高ビットが高snrを後期ステップに維持している間,低ビットを早期のデノージングステップの高速化に好むデノージングステップ毎に最適なビット幅を選択するための混合精度スキームを提案する。 広範な実験により,imagenet 256x256 のフル精度 ldm-4 と比較して,高品質のサンプル生成において,前回のトレーニング後の量子化拡散モデルよりも優れており,fid スコアは 0.06 % 向上し,19.9 倍の演算を節約できることを示した。

Diffusion models have recently dominated image synthesis and other related generative tasks. However, the iterative denoising process is expensive in computations at inference time, making diffusion models less practical for low-latency and scalable real-world applications. Post-training quantization of diffusion models can significantly reduce the model size and accelerate the sampling process without requiring any re-training. Nonetheless, applying existing post-training quantization methods directly to low-bit diffusion models can significantly impair the quality of generated samples. Specifically, for each denoising step, quantization noise leads to deviations in the estimated mean and mismatches with the predetermined variance schedule. Moreover, as the sampling process proceeds, the quantization noise may accumulate, resulting in a low signal-to-noise ratio (SNR) in late denoising steps. To address these challenges, we propose a unified formulation for the quantization noise and diffusion perturbed noise in the quantized denoising process. We first disentangle the quantization noise into its correlated and residual uncorrelated parts regarding its full-precision counterpart. The correlated part can be easily corrected by estimating the correlation coefficient. For the uncorrelated part, we calibrate the denoising variance schedule to absorb the excess variance resulting from quantization. Moreover, we propose a mixed-precision scheme to choose the optimal bitwidth for each denoising step, which prefers low bits to accelerate the early denoising steps while high bits maintain the high SNR for the late steps. Extensive experiments demonstrate that our method outperforms previous post-training quantized diffusion models in generating high-quality samples, with only a 0.06 increase in FID score compared to full-precision LDM-4 on ImageNet 256x256, while saving 19.9x bit operations.
翻訳日:2023-06-08 18:25:46 公開日:2023-06-07
# HICO-DET-SGとV-COCO-SG:人間-物体相互作用検出モデルの系統的一般化性能評価のための新しいデータ分割

HICO-DET-SG and V-COCO-SG: New Data Splits for Evaluating the Systematic Generalization Performance of Human-Object Interaction Detection Models ( http://arxiv.org/abs/2305.09948v4 )

ライセンス: Link先を確認
Kentaro Takemoto, Moyuru Yamada, Tomotake Sasaki, Hisanao Akima(参考訳) ヒューマン・オブジェクト・インタラクション(human-object interaction、hoi)は、画像内の人間とオブジェクトをローカライズし、人間とオブジェクトのペアで相互作用を予測するタスクである。 実世界のシナリオでは、列車データは可能なすべての組み合わせの限られた部分をカバーすることが期待されるため、hoi検出モデルは体系的な一般化、すなわち、オブジェクトとインタラクションの新しい組み合わせへの一般化が必要である。 しかし、我々の知る限り、HOI検出モデルの系統的一般化性能を評価するためのオープンベンチマークや以前の研究は存在しない。 そこで我々は,HICO-DETデータセットとV-COCOデータセットに基づいて,HICO-DET-SGとV-COCO-SGという2種類のHOI検出データ分割を新たに作成した。 新しいデータ分割を評価すると、代表HOI検出モデルは元の分割を評価する場合よりもはるかに低性能であった。 これは、系統的な一般化がHOI検出の難しい目標であることを示している。 また, 評価結果を解析することにより, 体系的一般化性能を向上させるための洞察を得るとともに, 4つの今後の研究方向を明らかにする。 新たなデータ分割と解析が,HOI検出における系統的一般化のさらなる研究を促進することを願っている。

Human-Object Interaction (HOI) detection is a task to localize humans and objects in an image and predict the interactions in human-object pairs. In real-world scenarios, HOI detection models are required systematic generalization, i.e., generalization to novel combinations of objects and interactions, because the train data are expected to cover a limited portion of all possible combinations. However, to our knowledge, no open benchmarks or previous work exist for evaluating the systematic generalization performance of HOI detection models. To address this issue, we created two new sets of HOI detection data splits named HICO-DET-SG and V-COCO-SG based on the HICO-DET and V-COCO datasets, respectively. When evaluated on the new data splits, the representative HOI detection models performed much more poorly than when evaluated on the original splits. This reveals that systematic generalization is a challenging goal in HOI detection. By analyzing the evaluation results, we also gain insights for improving the systematic generalization performance and identify four possible future research directions. We hope that our new data splits and presented analysis will encourage further research on systematic generalization in HOI detection.
翻訳日:2023-06-08 18:25:18 公開日:2023-06-07
# Occ-BEV:3次元シーン再構成によるマルチカメラ統合事前訓練

Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction ( http://arxiv.org/abs/2305.18829v2 )

ライセンス: Link先を確認
Chen Min, Xinli Xu, Fuyang Li, Shubin Si, Hanzhang Xue, Weizhong Jiang, Zhichao Zhang, Jimei Li, Dawei Zhao, Liang Xiao, Jiaolong Xu, Yiming Nie, Bin Dai(参考訳) マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。 しかし、既存のマルチカメラアルゴリズムは主に単眼画像の事前学習に依存しており、異なるカメラビュー間の空間的および時間的相関を見落としている。 この制限に対処するために,Occ-BEVと呼ばれる,最初のマルチカメラ統合事前学習フレームワークを提案する。 具体的には、3Dデコーダは、多視点画像からバードアイビュー(BEV)の機能を活用して、3Dの幾何学的占有率を予測することで、モデルがより包括的な3D環境の理解を捉えることができる。 Occ-BEVの顕著な利点は、未ラベルのイメージ-LiDARペアを事前訓練目的に利用できることである。 提案するマルチカメラ統一事前学習フレームワークは、マルチカメラ3dオブジェクト検出や周囲のセマンティクスシーン補完といった重要なタスクで有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較すると,Occ-BEVはマルチカメラ3Dオブジェクト検出におけるmAPが約2.0%,NDSが約2.0%,セマンティックシーン完了時のmIoUが3%増加した。 コードはhttps://github.com/chaytonmin/Occ-BEVで公開されている。

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. However, existing multi-camera algorithms primarily rely on monocular image pre-training, which overlooks the spatial and temporal correlations among different camera views. To address this limitation, we propose the first multi-camera unified pre-training framework called Occ-BEV, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, a 3D decoder is designed for leveraging Bird's Eye View (BEV) features from multi-view images to predict the 3D geometric occupancy to enable the model to capture a more comprehensive understanding of the 3D environment. A significant benefit of Occ-BEV is its capability of utilizing a considerable volume of unlabeled image-LiDAR pairs for pre-training purposes. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, Occ-BEV shows a significant improvement of about 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. Codes are publicly available at https://github.com/chaytonmin/Occ-BEV.
翻訳日:2023-06-08 18:18:09 公開日:2023-06-07
# 拡散モデルのための高精度データフリー量子化に向けて

Towards Accurate Data-free Quantization for Diffusion Models ( http://arxiv.org/abs/2305.18723v2 )

ライセンス: Link先を確認
Changyuan Wang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータ自由後量子化フレームワークを提案する。 従来のデータフリー量子化法は、生成時間ステップに関係なくテンソル離散化の共有量子化関数を学習し、アクティベーション分布は様々な時間ステップで大きく異なる。 キャリブレーション画像は、一般化量子化関数学習に十分な情報を提供しないランダムな時間ステップで取得される。 どちらの問題も大きな量子化誤差を引き起こし、画像生成性能は明らかに低下する。 それとは対照的に, 異なる時間ステップで活性化離散化を行うグループ毎の量子化関数を設計し, 情報校正画像生成のための最適な時間ステップをサンプリングし, 数値化拡散モデルによって計算オーバーヘッドを無視できる離散化誤差を低減できることを示した。 具体的には, 可微分探索アルゴリズムにより最適化された, 異なる群における量子化関数の重要性度に応じて時間ステップを分割する。 また, 量子化拡散モデルの展開における一般化能力を高めるため, 構造リスク最小化原理によるキャリブレーション画像生成のための最適な時間ステップを選択する。 実験結果から,本手法は拡散モデルの時間的学習後の量子化に類似した計算コストで優れることを示した。

In this paper, we propose an accurate data-free post-training quantization framework of diffusion models (ADP-DM) for efficient image generation. Conventional data-free quantization methods learn shared quantization functions for tensor discretization regardless of the generation timesteps, while the activation distribution differs significantly across various timesteps. The calibration images are acquired in random timesteps which fail to provide sufficient information for generalizable quantization function learning. Both issues cause sizable quantization errors with obvious image generation performance degradation. On the contrary, we design group-wise quantization functions for activation discretization in different timesteps and sample the optimal timestep for informative calibration image generation, so that our quantized diffusion model can reduce the discretization errors with negligible computational overhead. Specifically, we partition the timesteps according to the importance weights of quantization functions in different groups, which are optimized by differentiable search algorithms. We also select the optimal timestep for calibration image generation by structural risk minimizing principle in order to enhance the generalization ability in the deployment of quantized diffusion model. Extensive experimental results show that our method outperforms the state-of-the-art post-training quantization of diffusion model by a sizable margin with similar computational cost.
翻訳日:2023-06-08 18:17:39 公開日:2023-06-07
# 大規模言語モデルにおける近隣住民のテスト時間訓練

Test-Time Training on Nearest Neighbors for Large Language Models ( http://arxiv.org/abs/2305.18466v2 )

ライセンス: Link先を確認
Moritz Hardt and Yu Sun(参考訳) 最近の多くの取り組みは、テスト時にデータベースから取得した関連情報を言語モデルに拡張することを目的としている。 テスト時に取得したデータに対して,標準のトレーニング設定を使ってモデルを微調整することで,迅速なエンジニアリングの必要性を回避する。 そこで本研究では,Pileデータセットのテキスト埋め込みに基づく大規模分散近接インデックスを構築した。 言語モデルへのクエリが与えられたら、システムはクエリの近傍を検索し、その近隣に対応するテキストデータ上でモデルを微調整します。 驚いたことに、わずか20人の隣人による検索とトレーニングが、それぞれ1回の勾配イテレーションで、pillベンチマークで20以上の言語モデリングタスクのパフォーマンスを劇的に改善している。 例えば、テストタイムトレーニングでは、小さなGPT2モデルと10倍以上のGPTNeoモデルのパフォーマンスギャップが大幅に狭まり、特にPileに収束するように訓練されている。 しかし、十分なインデックスの品質とサイズは重要だ。 私たちの研究は、大規模な言語モデルのコンテキストでテスト時トレーニングを実装する上で、価値ある最初のベースラインを確立します。

Many recent efforts aim to augment language models with relevant information retrieved from a database at test time. We avoid the need for prompt engineering by directly fine-tuning the model on data retrieved at test time using its standard training setup. For this purpose, we build a large-scale distributed nearest neighbor index based on text embeddings of the Pile dataset. Given a query to a language model, our system retrieves the neighbors of the query and fine-tunes the model on the text data corresponding to those neighbors. Surprisingly, retrieving and training on as few as 20 neighbors, each for only one gradient iteration, drastically improves performance across more than twenty language modeling tasks in the Pile benchmark. For example, test-time training significantly narrows the performance gap between a small GPT2 model and a GPTNeo model, more than ten times larger, that was specifically trained to convergence on the Pile. Sufficient index quality and size, however, are important. Our work establishes a valuable first baseline for implementing test-time training in the context of large language models, opening the door to numerous promising research avenues.
翻訳日:2023-06-08 18:17:18 公開日:2023-06-07
# HowkGPT:文脈認識パープレキシティ分析によるチャットGPT生成大学生の宿題の検出の検討

HowkGPT: Investigating the Detection of ChatGPT-generated University Student Homework through Context-Aware Perplexity Analysis ( http://arxiv.org/abs/2305.18226v2 )

ライセンス: Link先を確認
Christoforos Vasilatos, Manaar Alam, Talal Rahwan, Yasir Zaki and Michail Maniatakos(参考訳) テキスト生成タスクにおけるLarge Language Models (LLM)の使用が増加するにつれて、学術的完全性を損なう可能性があるという懸念が生じる。 教育部門は現在、学生が認可した宿題とAIが生成した宿題を区別することで苦戦している。 本稿では,AIが生成する宿題の特定を目的としたハウクGPTの導入による課題に対処する。 HowkGPTは学術的課題のデータセットとメタデータ [17] に基づいて構築されており、学生認可およびChatGPT生成応答のパープレキシティスコアを計算するために事前訓練されたLLMを使用している。 これらのスコアは、提出された割り当ての起源を識別するためのしきい値を確立するのに役立つ。 学術研究の特異性と文脈の性質を踏まえ、HowkGPTはメタデータから派生したカテゴリ固有のしきい値を定義し、検出の精度を高めることで分析をさらに洗練する。 本研究は,LLMの影響が拡大する中で,学術的整合性を維持するための効果的な戦略の批判的必要性を強調し,教育機関の公正かつ正確な格付けを確保するためのアプローチを提供する。

As the use of Large Language Models (LLMs) in text generation tasks proliferates, concerns arise over their potential to compromise academic integrity. The education sector currently tussles with distinguishing student-authored homework assignments from AI-generated ones. This paper addresses the challenge by introducing HowkGPT, designed to identify homework assignments generated by AI. HowkGPT is built upon a dataset of academic assignments and accompanying metadata [17] and employs a pretrained LLM to compute perplexity scores for student-authored and ChatGPT-generated responses. These scores then assist in establishing a threshold for discerning the origin of a submitted assignment. Given the specificity and contextual nature of academic work, HowkGPT further refines its analysis by defining category-specific thresholds derived from the metadata, enhancing the precision of the detection. This study emphasizes the critical need for effective strategies to uphold academic integrity amidst the growing influence of LLMs and provides an approach to ensuring fair and accurate grading in educational institutions.
翻訳日:2023-06-08 18:17:00 公開日:2023-06-07
# フラグメントに基づく量子化学のための量子アルゴリズムの状態準備

State preparation in quantum algorithms for fragment-based quantum chemistry ( http://arxiv.org/abs/2305.18110v2 )

ライセンス: Link先を確認
Ruhee D'Cunha, Matthew Otten, Matthew R. Hermes, Laura Gagliardi and Stephen K. Gray(参考訳) 量子アルゴリズムの状態準備は、量子化学において高い精度を達成するために重要であり、古典的なアルゴリズムと競合する。 局所化アクティブスペースユニタリ結合クラスタ(las-ucc)アルゴリズムは、量子コンピュータにフラグメントベースのマルチリファレンス波動関数を反復的にロードする。 本研究では,各フラグメントに対して量子位相推定(QPE)と直接初期化(DI)の2つの状態準備法を比較する。 本研究は,アシラ量子ビット数やトロッターステップ数などのQPEパラメータが準備状態に与える影響を解析する。 一方、QPEはより大きなフラグメントに対してより効率的であるのに対して、DIでは小さなフラグメントに対してリソースが少なくなります。 我々の資源推定は、その後の量子化学計算のための状態準備におけるシステムの断片化の利点を浮き彫りにする。 これらの結果は、量子回路、特にQPE回路を経由したマルチ参照量子化学波動関数の作成に広く応用されている。

State preparation for quantum algorithms is crucial for achieving high accuracy in quantum chemistry and competing with classical algorithms. The localized active space unitary coupled cluster (LAS-UCC) algorithm iteratively loads a fragment-based multireference wave function onto a quantum computer. In this study, we compare two state preparation methods, quantum phase estimation (QPE) and direct initialization (DI), for each fragment. We analyze the impact of QPE parameters, such as the number of ancilla qubits and Trotter steps, on the prepared state. We find a trade-off between the methods, where DI requires fewer resources for smaller fragments, while QPE is more efficient for larger fragments. Our resource estimates highlight the benefits of system fragmentation in state preparation for subsequent quantum chemical calculations. These findings have broad applications for preparing multireference quantum chemical wave functions on quantum circuits, particularly via QPE circuits.
翻訳日:2023-06-08 18:16:39 公開日:2023-06-07
# 単調なMax-Sum GNNとデータログの対応について

On the Correspondence Between Monotonic Max-Sum GNNs and Datalog ( http://arxiv.org/abs/2305.18015v2 )

ライセンス: Link先を確認
David Tena Cucala, Bernardo Cuenca Grau, Boris Motik, Egor V. Kostylev(参考訳) 構造化データに機械学習技術を適用することには大きな関心があるが、これらの技術の表現力(つまり、何を学ぶことができるかの記述)はまだよく分かっていない。 本稿では,グラフニューラルネットワーク(GNN)に基づくデータ変換について検討する。 まず、GNNが処理可能な数値形式にデータセットをエンコードする方法の選択は、モデルの表現性の特徴を曖昧にし、正準符号化が適切な基盤となることを論じる。 第2に,最大および総集合関数を持つGNNのサブクラスをカバーする単調最大GNNの表現性について検討する。 各GNNに対して、任意のデータセットにGNNを適用することで、プログラムのルールをデータセットに単一ラウンドで適用するのと同じ事実を生成するように、Datalogプログラムを計算できることが示される。 モノトニックなmax-sum gnnは、任意に大きな特徴値をもたらすような、無限個の特徴ベクトルをまとめることができるが、ルールアプリケーションでは、定数の有界数のみを必要とする。 その結果,単調max-sum gnnの非有界和は表現力を高めないことがわかった。 第3に、最大集約関数のみを使用するモノトニックマックスGNNのサブクラスに結果をシャープし、対応するDatalogプログラムのクラスを特定する。

Although there has been significant interest in applying machine learning techniques to structured data, the expressivity (i.e., a description of what can be learned) of such techniques is still poorly understood. In this paper, we study data transformations based on graph neural networks (GNNs). First, we note that the choice of how a dataset is encoded into a numeric form processable by a GNN can obscure the characterisation of a model's expressivity, and we argue that a canonical encoding provides an appropriate basis. Second, we study the expressivity of monotonic max-sum GNNs, which cover a subclass of GNNs with max and sum aggregation functions. We show that, for each such GNN, one can compute a Datalog program such that applying the GNN to any dataset produces the same facts as a single round of application of the program's rules to the dataset. Monotonic max-sum GNNs can sum an unbounded number of feature vectors which can result in arbitrarily large feature values, whereas rule application requires only a bounded number of constants. Hence, our result shows that the unbounded summation of monotonic max-sum GNNs does not increase their expressive power. Third, we sharpen our result to the subclass of monotonic max GNNs, which use only the max aggregation function, and identify a corresponding class of Datalog programs.
翻訳日:2023-06-08 18:15:37 公開日:2023-06-07
# 高スケーラブルユニバーサルユニタリのためのプログラム可能なフォトニック時間回路

Programmable photonic time circuits for highly scalable universal unitaries ( http://arxiv.org/abs/2305.17632v2 )

ライセンス: Link先を確認
Xianji Piao, Sunkyu Yu, and Namkyoo Park(参考訳) プログラマブルフォトニック回路 (Programmable Photonic circuits, PPC) は、ディープラーニング加速と普遍量子計算の実現に多大な関心を集めている。 PPCを用いたフォトニック計算は、超高速な演算、エネルギー効率のマトリックス計算、室温量子状態などの重要な利点があるが、そのスケーラビリティの低さは産業アプリケーションに必要な統合を妨げている。 この課題は、従来のPPCにおける伝搬光を用いた一時的ワンショット操作から生じ、デバイスフットプリントの光速増加につながる。 本稿では,フォン・ノイマンアーキテクチャと量子計算におけるゲートサイクリングに類似した時間サイクル計算を用いた,プログラマブルフォトニック時間回路の概念を提案する。 ビルディングブロックとして、波長可変共振を持つ2つの共振器からなる再構成可能なsu(2)タイムゲートを開発し、時間符号化されたデュアルチャネルゲージフィールドを介して結合する。 我々はSU(2)時間ゲートの系統的な組立を用いて高忠実度なU(N)演算を実証し、フットプリントとゲート数の両方においてO(N^2)からO(N)へのスケーラビリティの向上を実現した。 これにより、産業レベルのPPC実装を大規模に統合する道が開ける。

Programmable photonic circuits (PPCs) have garnered substantial interest in achieving deep learning accelerations and universal quantum computations. Although photonic computation using PPCs offers critical advantages, including ultrafast operation, energy-efficient matrix calculation and room-temperature quantum states, its poor scalability impedes the integration required for industrial applications. This challenge arises from the temporally one-shot operation using propagating light in conventional PPCs, which leads to the light-speed increase of device footprints. Here we propose a concept of programmable photonic time circuits, which employ time-cycle-based computations analogous to the gate cycling in the von Neumann architecture and quantum computation. As a building block, we develop a reconfigurable SU(2) time gate composed of two resonators, which have tunable resonances and are coupled through time-coded dual-channel gauge fields. We demonstrate universal U(N) operations with high fidelity using the systematic assembly of the SU(2) time gates, achieving improved scalability from O(N^2) to O(N) in both the footprint and gate number. This result opens a pathway to industrial-level PPC implementation in very large-scale integration.
翻訳日:2023-06-08 18:15:13 公開日:2023-06-07
# 空間最適化同型行列乗算によるプライバシー保護PCAの改善

Improved Privacy-Preserving PCA Using Space-optimized Homomorphic Matrix Multiplication ( http://arxiv.org/abs/2305.17341v2 )

ライセンス: Link先を確認
Xirong Ma(参考訳) 主成分分析(PCA)は、機械学習とデータ分析の分野で重要な技術である。 情報の損失を最小限に抑えながら、データセットの次元性を低減することを目的としている。 近年,プライバシ保護型pcaアルゴリズムにおける準同型暗号の利用が試みられている。 これらのアプローチは一般にPowerMethodと呼ばれるPCAルーチンを使用し、共分散行列を入力として、データセットの一次成分に対応する近似固有ベクトルを生成する。 しかし、それらの性能と精度は、準同型共分散行列計算の不可能性と、powermethodアルゴリズムの普遍ベクトル正規化戦略の欠如によって制限されている。 本研究では,これらの制約に対処するプライバシ保護PCAに対する新しいアプローチを提案する。 私たちは以下の貢献を通じて、そのような効率性と精度を得る。 (i)準同型行列乗算法(jiang et al., sigsac 2018)のための空間最適化手法を実装し、並列計算シナリオにおけるメモリ飽和を少なくする。 (2) この最適化行列乗算の利点を生かして、共分散行列を同型に計算するための効率的な同型回路を考案する。 (iii) 共分散行列を利用して, 普遍的準同型ベクトル正規化戦略を取り入れ, その精度と実用性を高めるパワーメソッドのための, 新規で効率的な準同型回路を開発した。

Principal Component Analysis (PCA) is a pivotal technique in the fields of machine learning and data analysis. It aims to reduce the dimensionality of a dataset while minimizing the loss of information. In recent years, there have been endeavors to utilize homomorphic encryption in privacy-preserving PCA algorithms. These approaches commonly employ a PCA routine known as PowerMethod, which takes the covariance matrix as input and generates an approximate eigenvector corresponding to the primary component of the dataset. However, their performance and accuracy are constrained by the incapability of homomorphic covariance matrix computation and the absence of a universal vector normalization strategy for the PowerMethod algorithm. In this study, we propose a novel approach to privacy-preserving PCA that addresses these limitations, resulting in superior efficiency, accuracy, and scalability compared to previous approaches. We attain such efficiency and precision through the following contributions: (i) We implement space optimization techniques for a homomorphic matrix multiplication method (Jiang et al., SIGSAC 2018), making it less prone to memory saturation in parallel computation scenarios. (ii) Leveraging the benefits of this optimized matrix multiplication, we devise an efficient homomorphic circuit for computing the covariance matrix homomorphically. (iii) Utilizing the covariance matrix, we develop a novel and efficient homomorphic circuit for the PowerMethod that incorporates a universal homomorphic vector normalization strategy to enhance both its accuracy and practicality.
翻訳日:2023-06-08 18:14:52 公開日:2023-06-07
# 言語間意味文類似性のための多言語モデルにおける異方性と外乱の探索

Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity ( http://arxiv.org/abs/2306.00458v2 )

ライセンス: Link先を確認
Katharina H\"ammerl, Alina Fastowski, Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性があり、典型的には外接次元を示す。 これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語文脈での作業ははるかに少ない。 なぜこのような異常が起こるのか、どのように表現に影響を与えるのかはまだ研究の活発な領域である。 複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。 我々は,多言語表現を評価するための自然なタスクとして,言語間の意味的類似性に着目した。 具体的には,文表現について検討する。 並列リソース(常に利用可能ではない)で微調整された文変換は、このタスクにおいてよりよく機能し、それらの表現がより等方的であることを示す。 しかし、我々は多言語表現全般を改善することを目指している。 組込み空間を微調整せずに変形させることで, 性能差のどの程度を補うことができるか検討し, 得られた空間を可視化する。 個別のアウトラヤ次元の除去、クラスタベースの等方性拡張、ZCAの白化などです。 再現性のためにコードを公開します。

Previous work has shown that the representations output by contextual language models are more anisotropic than static type embeddings, and typically display outlier dimensions. This seems to be true for both monolingual and multilingual models, although much less work has been done on the multilingual context. Why these outliers occur and how they affect the representations is still an active area of research. We investigate outlier dimensions and their relationship to anisotropy in multiple pre-trained multilingual language models. We focus on cross-lingual semantic similarity tasks, as these are natural tasks for evaluating multilingual representations. Specifically, we examine sentence representations. Sentence transformers which are fine-tuned on parallel resources (that are not always available) perform better on this task, and we show that their representations are more isotropic. However, we aim to improve multilingual representations in general. We investigate how much of the performance difference can be made up by only transforming the embedding space without fine-tuning, and visualise the resulting spaces. We test different operations: Removing individual outlier dimensions, cluster-based isotropy enhancement, and ZCA whitening. We publish our code for reproducibility.
翻訳日:2023-06-08 18:07:59 公開日:2023-06-07
# 医用画像情報学入門

Introduction to Medical Imaging Informatics ( http://arxiv.org/abs/2306.00421v2 )

ライセンス: Link先を確認
Md. Zihad Bin Jahangir, Ruksat Hossain, Riadul Islam, MD Abdullah Al Nasim, Md. Mahim Anjum Haque, Md Jahangir Alam, Sajedul Talukder(参考訳) 医療画像情報学は、医療画像の取得、管理、解釈を改善するために、医療画像と情報学の原則を組み合わせた急速に成長する分野である。 本章では,画像処理,特徴工学,機械学習など,医用画像情報学の基本概念を紹介する。 また、コンピュータビジョンとディープラーニング技術の最近の進歩と、病気の検出、診断、予後予測のための新しい定量的イメージマーカーや予測モデルの開発にどのように利用されているかについても論じる。 本章は, 医用画像情報学の基礎知識を網羅することにより, 医療における情報学の役割とその患者医療への影響を理解する基盤を提供する。

Medical imaging informatics is a rapidly growing field that combines the principles of medical imaging and informatics to improve the acquisition, management, and interpretation of medical images. This chapter introduces the basic concepts of medical imaging informatics, including image processing, feature engineering, and machine learning. It also discusses the recent advancements in computer vision and deep learning technologies and how they are used to develop new quantitative image markers and prediction models for disease detection, diagnosis, and prognosis prediction. By covering the basic knowledge of medical imaging informatics, this chapter provides a foundation for understanding the role of informatics in medicine and its potential impact on patient care.
翻訳日:2023-06-08 18:07:43 公開日:2023-06-07
# テンソル時系列予測のためのガウス混合表現の学習

Learning Gaussian Mixture Representations for Tensor Time Series Forecasting ( http://arxiv.org/abs/2306.00390v3 )

ライセンス: Link先を確認
Jiewen Deng, Jinliang Deng, Renhe Jiang, Xuan Song(参考訳) 高次元空間における一次元時系列の一般化であるテンソル時系列データ(TTS)は、実世界のシナリオ、特にマルチソース時空間データ(輸送要求や大気汚染物質など)を含む監視システムにおいて、ユビキタスである。 近年注目され、飛躍的な進歩を遂げたモデリング時系列や多変量時系列と比較して、テンソル時系列はより少ない労力で支払われている。 テンソル時系列の適切な対応は、高次元で複雑な内部構造のため、はるかに難しい作業である。 本稿では,時間,位置,ソース変数に含意する各不均一成分を個別にモデル化することを目的とした,新しいtts予測フレームワークを開発した。 このフレームワークをgmrlと呼び、gaussian mixed representation learningの略である。 2つの実世界のTSデータセットの実験結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。 コードとデータはhttps://github.com/beginner-sketch/GMRLで公開されている。

Tensor time series (TTS) data, a generalization of one-dimensional time series on a high-dimensional space, is ubiquitous in real-world scenarios, especially in monitoring systems involving multi-source spatio-temporal data (e.g., transportation demands and air pollutants). Compared to modeling time series or multivariate time series, which has received much attention and achieved tremendous progress in recent years, tensor time series has been paid less effort. Properly coping with the tensor time series is a much more challenging task, due to its high-dimensional and complex inner structure. In this paper, we develop a novel TTS forecasting framework, which seeks to individually model each heterogeneity component implied in the time, the location, and the source variables. We name this framework as GMRL, short for Gaussian Mixture Representation Learning. Experiment results on two real-world TTS datasets verify the superiority of our approach compared with the state-of-the-art baselines. Code and data are published on https://github.com/beginner-sketch/GMRL.
翻訳日:2023-06-08 18:07:32 公開日:2023-06-07
# 物質量子定規を用いた関係重ね合わせ測定

Relational superposition measurements with a material quantum ruler ( http://arxiv.org/abs/2306.00347v2 )

ライセンス: Link先を確認
Hui Wang, Flaminia Giacomini, Franco Nori, Miles P. Blencowe(参考訳) 物理学では、抽象量に物理的意味を与えるための操作的測定手順を特定することが重要である。 量子システムを用いた運用時間の定義には多大な努力が払われてきたが、空間でも同じことが達成されていない。 量子系の位置に関する情報を得るための操作手順の開発は、時空の古典的な概念に頼らない一般相対性理論と量子論を組み合わせた理論にとって特に重要である。 ここでは、この目標に向けて第一歩を踏み出し、位置測定装置として働く拡張材料量子システムを記述するモデルを紹介する。 このような「量子定規」は、調和して相互作用する双極子から成り、別の量子系の位置に対する(量子)参照システムとして機能する。 位置の重ね合わせ」に対応する量子計測手順を定義することができ、この測定を行うことで、量子系が位置基底においてコヒーレントまたは非コヒーレントな重ね合わせにあるときを区別できることを示す。 モデルは完全にリレーショナルであり、唯一の有意な変数は定規と系の間の相対的な位置であり、測定値は測定装置と測定システムの間の相互作用によって表される。

In physics, it is crucial to identify operational measurement procedures to give physical meaning to abstract quantities. There has been significant effort to define time operationally using quantum systems, but the same has not been achieved for space. Developing an operational procedure to obtain information about the location of a quantum system is particularly important for a theory combining general relativity and quantum theory, which cannot rest on the classical notion of spacetime. Here, we take a first step towards this goal, and introduce a model to describe an extended material quantum system working as a position measurement device. Such a "quantum ruler" is composed of $N$ harmonically interacting dipoles and serves as a (quantum) reference system for the position of another quantum system. We show that we can define a quantum measurement procedure corresponding to the "superposition of positions", and that by performing this measurement we can distinguish when the quantum system is in a coherent or incoherent superposition in the position basis. The model is fully relational, because the only meaningful variables are the relative positions between the ruler and the system, and the measurement is expressed in terms of an interaction between the measurement device and the measured system.
翻訳日:2023-06-08 18:07:15 公開日:2023-06-07
# 大規模機械学習のための関係計算の自動微分

Auto-Differentiation of Relational Computations for Very Large Scale Machine Learning ( http://arxiv.org/abs/2306.00088v2 )

ライセンス: Link先を確認
Yuxin Tang, Zhimin Ding, Dimitrije Jankov, Binhang Yuan, Daniel Bourgeois, Chris Jermaine(参考訳) 関係データモデルは大規模データ管理と分析を容易にするように設計されている。 関係論的に表現された計算を区別する方法の問題を考える。 自動微分リレーショナルアルゴリズムを実行するリレーショナルエンジンは、非常に大規模なデータセットに容易にスケール可能であることを示し、大規模分散機械学習のための最先端の特殊目的システムと競合することを示す。

The relational data model was designed to facilitate large-scale data management and analytics. We consider the problem of how to differentiate computations expressed relationally. We show experimentally that a relational engine running an auto-differentiated relational algorithm can easily scale to very large datasets, and is competitive with state-of-the-art, special-purpose systems for large-scale distributed machine learning.
翻訳日:2023-06-08 18:06:37 公開日:2023-06-07
# ChatGPT an ENFJ, Bard an ISTJ: 大規模言語モデルの個性に関する実証的研究

ChatGPT an ENFJ, Bard an ISTJ: Empirical Study on Personalities of Large Language Models ( http://arxiv.org/abs/2305.19926v2 )

ライセンス: Link先を確認
Jen-tse Huang, Wenxuan Wang, Man Ho Lam, Eric John Li, Wenxiang Jiao, Michael R. Lyu(参考訳) 大規模言語モデル(llm)は人工知能の分野で著しく進歩し、人間とコンピュータの相互作用を大きく変えた。 我々は,LLMのパフォーマンスだけでなく,その特徴を心理的観点から探求し,その行動特性を理解することの重要性を認識している。 本研究では, LLMが提示する行動パターンを, 心理的枠組みである特性理論を用いて検討した。 まず、chatgptが提示するパーソナリティタイプの一貫性を評価することに焦点を当てる。 さらに、他の7つの言語に対する言語間効果や、他の6つのLLMの調査も含まれる。 さらに,ChatGPTが指示や文脈的手がかりに応答して性格変化を示すことができるかどうかを検討した。 その結果,ChatGPTは指示や文脈によらず,常にENFJの性格を維持していることがわかった。 llmのパーソナライズに光を当てることで,本研究がこの分野におけるさらなる研究の触媒となることを期待する。

Large Language Models (LLMs) have made remarkable advancements in the field of artificial intelligence, significantly reshaping the human-computer interaction. We not only focus on the performance of LLMs, but also explore their features from a psychological perspective, acknowledging the importance of understanding their behavioral characteristics. Our study examines the behavioral patterns displayed by LLMs by employing trait theory, a psychological framework. We first focus on evaluating the consistency of personality types exhibited by ChatGPT. Furthermore, experiments include cross-lingual effects on seven additional languages, and the investigation of six other LLMs. Moreover, the study investigates whether ChatGPT can exhibit personality changes in response to instructions or contextual cues. The findings show that ChatGPT consistently maintains its ENFJ personality regardless of instructions or contexts. By shedding light on the personalization of LLMs, we anticipate that our study will serve as a catalyst for further research in this field.
翻訳日:2023-06-08 18:06:29 公開日:2023-06-07
# 部分的因子埋め込み正規化によるGNNの表現性向上

Improving Expressivity of GNNs with Subgraph-specific Factor Embedded Normalization ( http://arxiv.org/abs/2305.19903v2 )

ライセンス: Link先を確認
Kaixuan Chen and Shunyu Liu and Tongtian Zhu and Tongya Zheng and Haofei Zhang and Zunlei Feng and Jingwen Ye and Mingli Song(参考訳) グラフニューラルネットワークー(gnns)は、グラフ構造化データを扱うための学習アーキテクチャの強力なカテゴリとして出現した。 しかし、既存のGNNはノードが引き起こす部分グラフにおいて重要な構造的特性を無視するため、様々な下流タスクに対する表現性が制限される。 本稿では,各ノードのサブグラフ内の接続内情報を明示的に考慮した,SUbgraph-sPEcific FactoR Embedded Normalization (SuperNorm) と呼ばれる専用プラグアンドプレイ正規化スキームを考案することによって,GNNの代表的機能を強化することを目的とする。 この目的のために、標準BatchNormの開始と終了にサブグラフ固有の要素を埋め込むとともに、グラフインスタンス固有の統計データを組み込んで区別可能な機能を改善する。 一方、精巧化されたSuperNormでは、任意の GNN は非同型グラフを区別する 1-WL テストと同じくらい強力である。 さらに,提案したSuperNormスキームにより,過平滑化現象の緩和が図られた。 8つの人気データセットにおけるグラフ,ノード,リンク特性の予測に関する実験結果は,提案手法の有効性を示している。 コードは \url{https://github.com/chenchkx/supernorm} で入手できる。

Graph Neural Networks~(GNNs) have emerged as a powerful category of learning architecture for handling graph-structured data. However, existing GNNs typically ignore crucial structural characteristics in node-induced subgraphs, which thus limits their expressiveness for various downstream tasks. In this paper, we strive to strengthen the representative capabilities of GNNs by devising a dedicated plug-and-play normalization scheme, termed as SUbgraph-sPEcific FactoR Embedded Normalization (SuperNorm), that explicitly considers the intra-connection information within each node-induced subgraph. To this end, we embed the subgraph-specific factor at the beginning and the end of the standard BatchNorm, as well as incorporate graph instance-specific statistics for improved distinguishable capabilities. In the meantime, we provide theoretical analysis to support that, with the elaborated SuperNorm, an arbitrary GNN is at least as powerful as the 1-WL test in distinguishing non-isomorphism graphs. Furthermore, the proposed SuperNorm scheme is also demonstrated to alleviate the over-smoothing phenomenon. Experimental results related to predictions of graph, node, and link properties on the eight popular datasets demonstrate the effectiveness of the proposed method. The code is available at \url{https://github.com/chenchkx/SuperNorm}.
翻訳日:2023-06-08 18:06:14 公開日:2023-06-07
# GAN-MPC: パラメータ化コスト関数を用いた学習モデル予測制御

GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts ( http://arxiv.org/abs/2305.19111v2 )

ライセンス: Link先を確認
Returaj Burnwal, Anirban Santara, Nirav P. Bhatt, Balaraman Ravindran, Gaurav Aggarwal(参考訳) モデル予測制御(MPC)は、実用的なロボット工学応用における軌道最適化の一般的なアプローチである。 MPCポリシーは、キノダイナミックおよび安全制約の下で軌道パラメータを最適化し、安全性、最適性、一般化可能性、解釈可能性、説明可能性に関する保証を提供する。 しかし、いくつかの動作は複雑であり、mpcの目的関数を手作りすることは困難である。 Learnable-MPCと呼ばれるMPCポリシーの特別なクラスは、専門家によるデモンストレーションから模倣学習を使用することでこの問題に対処する。 しかし、ロボット工学の現実的な応用の多くでは満足できないような、デモレーターと模倣エージェントを同一にする必要がある。 本稿では,実証者と模倣者が同じダイナミクスを共有せず,その状態空間が部分的に重複している場合の学習可能MPCポリシーの実践的問題に対処する。 本稿では,GAN(Generative Adversarial Network)を用いて,デモンストレータと模倣者の状態-軌道分布間のジェンセン-シャノンのばらつきを最小化する手法を提案する。 我々は、DeepMind Controlスイートの様々なロボットタスクに対するアプローチを評価し、その動作をコピーすることなく、実証者の振る舞いを学習するためのアプローチの有効性を実証した。

Model predictive control (MPC) is a popular approach for trajectory optimization in practical robotics applications. MPC policies can optimize trajectory parameters under kinodynamic and safety constraints and provide guarantees on safety, optimality, generalizability, interpretability, and explainability. However, some behaviors are complex and it is difficult to hand-craft an MPC objective function. A special class of MPC policies called Learnable-MPC addresses this difficulty using imitation learning from expert demonstrations. However, they require the demonstrator and the imitator agents to be identical which is hard to satisfy in many real world applications of robotics. In this paper, we address the practical problem of training Learnable-MPC policies when the demonstrator and the imitator do not share the same dynamics and their state spaces may have a partial overlap. We propose a novel approach that uses a generative adversarial network (GAN) to minimize the Jensen-Shannon divergence between the state-trajectory distributions of the demonstrator and the imitator. We evaluate our approach on a variety of simulated robotics tasks of DeepMind Control suite and demonstrate the efficacy of our approach at learning the demonstrator's behavior without having to copy their actions.
翻訳日:2023-06-08 18:05:52 公開日:2023-06-07
# 連続変数と離散変数の絡み合った状態を用いた長距離測定-デバイス非依存量子鍵分布

Long-distance measurement-device-independent quantum key distribution using entangled states between continuous and discrete variables ( http://arxiv.org/abs/2305.18906v2 )

ライセンス: Link先を確認
Soumyakanti Bose and Jaskaran Singh and Ad\'an Cabello and Hyunseok Jeong(参考訳) 連続変数 (CV) と離散変数 (DV) のハイブリッド絡み合い (HE) を用いた高速長距離絡み合わせを実現するための実現可能なスキームを提案する。 既存のcvおよびdv測定デバイス非依存量子鍵分布(mdi-qkd)プロトコルの実験的制限を効果的に除去できることを示す。 鍵となるアイデアは、高いセキュアなキーレートを達成するためにDV部を使用しながら、光子損失に対して堅牢であるように調整できるCV部を使用することである。 従来のプロトコルよりも1桁高いセキュアな鍵レートで、標準の通信ファイバーで300kmの速度でmdi-qkdが可能であることを示す。 HE状態は, 実用的長距離高速エンタングルメントの利点を指摘する。

We introduce a feasible scheme to produce high-rate long-distance entanglement which uses hybrid entanglement (HE) between continuous variables (CV) and discrete variables (DV). We show that HE can effectively remove the experimental limitations of existing CV and DV measurement-device-independent quantum key distribution (MDI-QKD) protocols. The key idea is using the CV part, which can be adjusted to be robust against photon losses, for increasing the transmission distance, while using the DV part for achieving high secure key rates. We show that, using HE states, MDI-QKD is possible with standard telecom fibers for 300 km with a secure key rate which is an order of magnitude higher than in existing protocols. Our results point out that HE states provide advantage for practical long-distance high-rate entanglement.
翻訳日:2023-06-08 18:05:31 公開日:2023-06-07
# GAD-NR 近傍再構成によるグラフ異常検出

GAD-NR: Graph Anomaly Detection via Neighborhood Reconstruction ( http://arxiv.org/abs/2306.01951v3 )

ライセンス: Link先を確認
Amit Roy, Juan Shu, Jia Li, Carl Yang, Olivier Elshocht, Jeroen Smeets and Pan Li(参考訳) Graph Anomaly Detection (GAD) は、グラフ内の異常ノードを識別し、ネットワークセキュリティ、不正検出、ソーシャルメディアスパム検出、その他さまざまな分野の応用を見つけるために用いられるテクニックである。 GADの一般的な方法は、グラフデータをノード表現にエンコードし、これらの表現に基づいてグラフの再構成品質を評価することによって異常を識別するグラフオートエンコーダ(GAE)である。 しかし、既存のGAEモデルは直接リンク再構成に最適化されており、グラフに接続されたノードは潜在空間にクラスタ化される。 その結果、クラスター型構造異常を検出するのに優れるが、クラスタに適合しないより複雑な構造異常に悩まされる。 この制限に対処するため,グラフ異常検出のための近傍再構成を組み込んだGAEの新しい変種であるGAD-NRを提案する。 GAD-NRは、ノード表現に基づいて、ローカル構造、自己属性、および隣接属性を含むノードの近傍全体を再構築することを目的としている。 異常ノードと正常ノード間の近傍再構成損失を比較することで、GAD-NRは任意の異常を効果的に検出できる。 6つの実世界のデータセットで実施された大規模な実験は、GAD-NRの有効性を検証し、最先端の競合相手よりも顕著な改善(AUCでは最大30%)を示す。 GAD-NRのソースコードが公開されている。 比較分析の結果,既存の手法は3種類の異常から1種類または2種類の異常を検出する場合にのみ有効であることが判明した。 対照的に、GAD-NRはデータセット全体の3種類の異常を検知し、その包括的な異常検出能力を示す。

Graph Anomaly Detection (GAD) is a technique used to identify abnormal nodes within graphs, finding applications in network security, fraud detection, social media spam detection, and various other domains. A common method for GAD is Graph Auto-Encoders (GAEs), which encode graph data into node representations and identify anomalies by assessing the reconstruction quality of the graphs based on these representations. However, existing GAE models are primarily optimized for direct link reconstruction, resulting in nodes connected in the graph being clustered in the latent space. As a result, they excel at detecting cluster-type structural anomalies but struggle with more complex structural anomalies that do not conform to clusters. To address this limitation, we propose a novel solution called GAD-NR, a new variant of GAE that incorporates neighborhood reconstruction for graph anomaly detection. GAD-NR aims to reconstruct the entire neighborhood of a node, encompassing the local structure, self-attributes, and neighbor attributes, based on the corresponding node representation. By comparing the neighborhood reconstruction loss between anomalous nodes and normal nodes, GAD-NR can effectively detect any anomalies. Extensive experimentation conducted on six real-world datasets validates the effectiveness of GAD-NR, showcasing significant improvements (by up to 30% in AUC) over state-of-the-art competitors. The source code for GAD-NR is openly available. Importantly, the comparative analysis reveals that the existing methods perform well only in detecting one or two types of anomalies out of the three types studied. In contrast, GAD-NR excels at detecting all three types of anomalies across the datasets, demonstrating its comprehensive anomaly detection capabilities.
翻訳日:2023-06-08 17:58:41 公開日:2023-06-07
# 中間スペクトルにおける欠測レベル

Missing levels in intermediate spectra ( http://arxiv.org/abs/2306.01821v2 )

ライセンス: Link先を確認
Mar\'ia Hita-P\'erez, Laura Mu\~noz and Rafael A. Molina(参考訳) ランダムな実験誤差による正規性とカオスと欠落レベルの間の中間ダイナミクスを持つ量子系のエネルギー準位を、最寄りの間隔分布$P(s)$で表す式を導出する。 この式はブロディ分布に基づいており、混合スペクトルを1つのパラメータの関数として適合させるために最も広く用いられる。 ランダム行列理論の$\beta$-hermiteアンサンブルに基づく中間スペクトルのモンテカルロシミュレーションを用いて、公式の質とその適合性を評価する。 ブロディパラメータと不足レベルの割合の推定は、実験値$p(s)$の最小2乗2パラメータフィッティングによって得られる。 この結果は, 実験スペクトルにおける偏差の起源とrmtを区別するために重要である。

We derive an expression for the nearest-neighbor spacing distribution $P(s)$ of the energy levels of quantum systems with intermediate dynamics between regularity and chaos and missing levels due to random experimental errors. The expression is based on the Brody distribution, the most widely used for fitting mixed spectra as a function of one parameter. By using Monte Carlo simulations of intermediate spectra based on the $\beta$-Hermite ensemble of Random Matrix Theory, we evaluate the quality of the formula and its suitability for fitting purposes. Estimations of the Brody parameter and the fraction of missing levels can be obtained by a least-square two-parameter fitting of the experimental $P(s)$. The results should be important to distinguish the origins of deviations from RMT in experimental spectra.
翻訳日:2023-06-08 17:58:12 公開日:2023-06-07
# 物理インフォームド・ユニセットによる不均一材料中の隠れ弾性の発見

Physics-informed UNets for Discovering Hidden Elasticity in Heterogeneous Materials ( http://arxiv.org/abs/2306.01204v2 )

ライセンス: Link先を確認
Ali Kamali, Kaveh Laksari(参考訳) 軟質の生体組織は、しばしば構造成分の変化による複雑な機械的特性を持つ。 本稿では, 入力画像, 通常の応力境界条件, ドメイン物理情報から, 機械的パラメータの空間分布を推定するための, 弾性の反転(El-UNet)のための新しいUNetベースニューラルネットワークモデルを開発する。 等方的線形弾性に対する未知パラメータと応力分布の推定において,El-UNetの精度と計算コストの両面において,完全連結な物理情報ニューラルネットワークと比較して優れた性能を示す。 我々は,el-unetの異なるバリエーションを特徴付け,自己適応型空間損失重み付け手法を提案する。 インバージョンモデルを検証するため, 材料パラメータの異種分布を持つ等方性領域の有限要素シミュレーションを行い, 合成データを生成する。 El-UNetは、未知のフィールドの分布を解く際に、完全に接続された物理インフォームの実装よりも高速で正確である。 実験されたモデルのうち、自己適応型空間重み付けモデルが最も正確な復元を等しい計算時間で行った。 学習した空間重み分布は,非重み付けモデルが不正確に解いている領域と明確に一致した。 本研究では,畳み込みニューラルネットワークを用いた弾性イメージングのための計算効率の高い逆変換アルゴリズムを示し,従来提案してきた手法では達成できなかった3次元逆弾性問題に対する潜在的高速枠組みを提案する。

Soft biological tissues often have complex mechanical properties due to variation in structural components. In this paper, we develop a novel UNet-based neural network model for inversion in elasticity (El-UNet) to infer the spatial distributions of mechanical parameters from strain maps as input images, normal stress boundary conditions, and domain physics information. We show superior performance, both in terms of accuracy and computational cost, by El-UNet compared to fully-connected physics-informed neural networks in estimating unknown parameters and stress distributions for isotropic linear elasticity. We characterize different variations of El-UNet and propose a self-adaptive spatial loss weighting approach. To validate our inversion models, we performed various finite-element simulations of isotropic domains with heterogenous distributions of material parameters to generate synthetic data. El-UNet is faster and more accurate than the fully-connected physics-informed implementation in resolving the distribution of unknown fields. Among the tested models, the self-adaptive spatially weighted models had the most accurate reconstructions in equal computation times. The learned spatial weighting distribution visibly corresponded to regions that the unweighted models were resolving inaccurately. Our work demonstrates a computationally efficient inversion algorithm for elasticity imaging using convolutional neural networks and presents a potential fast framework for three-dimensional inverse elasticity problems that have proven unachievable through previously proposed methods.
翻訳日:2023-06-08 17:58:00 公開日:2023-06-07
# 構造データ湖と非構造データ湖のクロスモーダルデータ発見

Cross Modal Data Discovery over Structured and Unstructured Data Lakes ( http://arxiv.org/abs/2306.00932v2 )

ライセンス: Link先を確認
Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad Shahmeer Ahmad(参考訳) 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。 これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。 逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。 Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. 本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。 CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。

Organizations are collecting increasingly large amounts of data for data driven decision making. These data are often dumped into a centralized repository, e.g., a data lake, consisting of thousands of structured and unstructured datasets. Perversely, such mixture of datasets makes the problem of discovering elements (e.g., tables or documents) that are relevant to a user's query or an analytical task very challenging. Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. In this paper, we propose a new data discovery system, named CMDL, for addressing these two limitations. CMDL supports the data discovery process over both structured and unstructured data while retaining the structural properties of tables.
翻訳日:2023-06-08 17:57:15 公開日:2023-06-07
# 地球観測画像の意味セグメンテーションのためのジオタイル

Geo-Tiles for Semantic Segmentation of Earth Observation Imagery ( http://arxiv.org/abs/2306.00823v2 )

ライセンス: Link先を確認
Sebastian Bullinger and Florian Fervers and Christoph Bodensteiner and Michael Arens(参考訳) 地球観測画像のセマンティックセグメンテーションの計算において高い要求に対処するため、現在の最先端パイプラインは対応するデータをより小さな画像に分割する。 既存の手法やベンチマークデータセットは、しばしばピクセルベースのタイリングスキームやWebマッピングアプリケーションで使用されるジオタイリングスキームに依存している。 サブイメージ(サイズ、位置、方向を含む)の選択が重要である。 これは各ピクセルの利用可能なコンテキスト情報に影響し、トレーニング中のタイルの数を定義し、セグメンテーションモデルに必要なサイズまでタイル内容をダウンサンプリングしながら、情報の劣化度に影響を与える。 本研究では,ラスターデータの地理情報に基づいてタイルを作成するタイル構造に基づく地球観測画像のセグメンテーションパイプラインを提案する。 このアプローチは、ピクセルベースの、あるいは一般的なWebマッピングアプローチと比較して、いくつかの有益な特性を示す。 提案手法は, タイル粒度, タイルストライドおよび画像境界アライメントに関する柔軟なカスタマイズ特性を示す。 これにより、トレーニング中にタイル固有のデータ拡張を行うことができ、推論中に重複するタイルのデータを使用して、限られたコンテキスト情報で画素予測を置換することができる。 生成したタイルは、一定の空間タイル幅w.r.t.不均質なセンサを示し、記録距離や緯度が異なる。 提案システムは,現在最先端のセマンティックセグメンテーションモデルの結果を改善することができることを示す。 将来の研究を促進するため、ソースコードを公開しています。

To cope with the high requirements during the computation of semantic segmentations of earth observation imagery, current state-of-the-art pipelines divide the corresponding data into smaller images. Existing methods and benchmark datasets oftentimes rely on pixel-based tiling schemes or on geo-tiling schemes employed by web mapping applications. The selection of subimages (comprising size, location and orientation) is crucial. It affects the available context information of each pixel, defines the number of tiles during training, and influences the degree of information degradation while down- and up-sampling the tile contents to the size required by the segmentation model. We propose a new segmentation pipeline for earth observation imagery relying on a tiling scheme that creates geo-tiles based on the geo-information of the raster data. This approach exhibits several beneficial properties compared to pixel-based or common web mapping approaches. The proposed tiling scheme shows flexible customization properties regarding tile granularity, tile stride and image boundary alignment. This allows us to perform a tile specific data augmentation during training and a substitution of pixel predictions with limited context information using data of overlapping tiles during inference. The generated tiles show a consistent spatial tile extent w.r.t. heterogeneous sensors, varying recording distances and different latitudes. We demonstrate how the proposed tiling system allows to improve the results of current state-of-the-art semantic segmentation models. To foster future research we make the source code publicly available.
翻訳日:2023-06-08 17:56:59 公開日:2023-06-07
# SQL-PaLM: テキストからSQLへの大規模言語モデル適応の改善

SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL ( http://arxiv.org/abs/2306.00739v2 )

ライセンス: Link先を確認
Ruoxi Sun, Sercan O. Arik, Hootan Nakhost, Hanjun Dai, Rajarishi Sinha, Pengcheng Yin, Tomas Pfister(参考訳) 大きな言語モデル(LLM)の目覚ましい機能の1つは、データベース用の構造化クエリ言語(SQL)を含むコードの生成である。 自然言語テキストをSQLクエリに変換するタスクでは、テキストからSQLへの変換、LLMの適応は、使用する適応データ量に応じて、コンテキスト内学習と微調整設定の両方において最重要となる。 本稿では,PaLM-2 を利用した LLM ベースの Text-to-SQL モデル SQL-PaLM を提案する。 Few-shot SQL-PaLMは、Text-to-SQL用に設計された実行ベースの自己整合性プロンプトアプローチに基づいており、Spiderで77.3%の精度を実現している。 さらに、微調整SQL-PALMがさらに1%向上することを示した。 SQL-PaLMを現実のシナリオに適用する上で、他の課題であるSpiderの堅牢性をさらに評価し、SQL-PaLMの優れた一般化能力を実証する。 さらに,広範なケーススタディを通じて,llmベースのテキスト・ツー・sqlの知的能力と様々な成功可能性を示す。

One impressive emergent capability of large language models (LLMs) is generation of code, including Structured Query Language (SQL) for databases. For the task of converting natural language text to SQL queries, Text-to-SQL, adaptation of LLMs is of paramount importance, both in in-context learning and fine-tuning settings, depending on the amount of adaptation data used. In this paper, we propose an LLM-based Text-to-SQL model SQL-PaLM, leveraging on PaLM-2, that pushes the state-of-the-art in both settings. Few-shot SQL-PaLM is based on an execution-based self-consistency prompting approach designed for Text-to-SQL, and achieves 77.3% in test-suite accuracy on Spider, which to our best knowledge is the first to outperform previous state-of-the-art with fine-tuning by a significant margin, 4%. Furthermore, we demonstrate that the fine-tuned SQL-PALM outperforms it further by another 1%. Towards applying SQL-PaLM to real-world scenarios we further evaluate its robustness on other challenging variants of Spider and demonstrate the superior generalization capability of SQL-PaLM. In addition, via extensive case studies, we demonstrate the impressive intelligent capabilities and various success enablers of LLM-based Text-to-SQL.
翻訳日:2023-06-08 17:56:38 公開日:2023-06-07
# GPT4画像:大きな事前訓練されたモデルは知覚タスクの視覚モデルに役立つか?

GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? ( http://arxiv.org/abs/2306.00693v2 )

ライセンス: Link先を確認
Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang(参考訳) 事前訓練済みの大規模モデル(GPT-4など)の最近の増加は、ディープラーニングコミュニティ全体に波及している。 このような強力な大規模言語モデル(LLM)は、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端のパフォーマンスを迅速に達成する。 トレーニング済みのllmは通常、コンテキスト推論、記事分析、画像コンテンツ理解など、さまざまなタスクを実行できるユニバーサルaiモデルとしての役割を担う。 しかし、そのような大規模モデルを実装するためのメモリと計算コストが極めて高いことを考慮すると、従来のモデル(cnnやvitなど)は多くの視覚知覚タスクにおいて依然として不可欠である。 本稿では,大規模な事前学習モデルを活用することで,知覚タスク(画像分類など)における通常の視覚モデルの表現能力を高めることを提案する。 本稿では,cnn や vit のようなモデルが拡張表現を学習し,優れた性能を実現するために,事前学習モデルから抽出した知識を活用する新しい学習パラダイムを提案する。 まず,マルチモーダル LLM に対して,すべてのトレーニング画像に対して記述テキストを生成することによって,高品質な記述セットをキュレートする。 さらに,これらの詳細な記述を予め学習したエンコーダに入力し,画像の内容をエンコードする豊かな意味情報を含むテキスト埋め込みを抽出する。 トレーニング中、テキスト埋め込みは余分な監視信号となり、視覚モデルによって学習された画像表現と整合する。 アライメントプロセスは、事前訓練されたLLMの助けを借りて、ビジョンモデルの改善と精度の向上を支援する。 提案手法が異種アーキテクチャを用いた様々なビジョンモデルの性能を一貫して向上させることを確認した。

The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across the entire deep learning community. Such powerful large language models (LLMs) demonstrate advanced generative ability and multimodal understanding capability, which quickly achieve new state-of-the-art performances on a variety of benchmarks. The pre-trained LLM usually plays the role as a universal AI model that can conduct various tasks, including context reasoning, article analysis and image content comprehension. However, considering the prohibitively high memory and computational cost for implementing such a large model, the conventional models (such as CNN and ViT), are still essential for many visual perception tasks. In this paper, we propose to enhance the representation ability of ordinary vision models for perception tasks (e.g. image classification) by taking advantage of large pre-trained models. We present a new learning paradigm in which the knowledge extracted from large pre-trained models are utilized to help models like CNN and ViT learn enhanced representations and achieve better performance. Firstly, we curate a high quality description set by prompting a multimodal LLM to generate descriptive text for all training images. Furthermore, we feed these detailed descriptions into a pre-trained encoder to extract text embeddings with rich semantic information that encodes the content of images. During training, text embeddings will serve as extra supervising signals and be aligned with image representations learned by vision models. The alignment process helps vision models learn better and achieve higher accuracy with the assistance of pre-trained LLMs. We conduct extensive experiments to verify that the proposed algorithm consistently improves the performance for various vision models with heterogeneous architectures.
翻訳日:2023-06-08 17:56:14 公開日:2023-06-07
# CRS-FL:通信効率・プライバシー保護フェデレーション学習のための条件付きランダムサンプリング

CRS-FL: Conditional Random Sampling for Communication-Efficient and Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2306.00674v2 )

ライセンス: Link先を確認
Jianhua Wang, Xiaolin Chang, Jelena Mi\v{s}i\'c, Vojislav B. Mi\v{s}i\'c, Lin Li, and Yingying Yao(参考訳) プライバシー指向分散mlパラダイムであるfederated learning(fl)は、参加者データプライバシを保護する能力によって、モノのインターネットに大きな関心を集めている。 通信効率やプライバシー保護など,標準FLに存在する課題に対処するために研究が進められている。 しかし、プライバシーを保証しながら通信効率とモデルの正確性をトレードオフするという目標を達成できない。 本稿では、条件付きランダムサンプリング(CRS)手法を提案し、上記の課題に対処するために標準FL設定(CRS-FL)に実装する。 CRSは、ポアソンサンプリングに基づく確率係数を探索し、ゼロ勾配を偏りなく得る確率を高くし、モデル精度の劣化なしに通信オーバーヘッドを効果的に低減する。 さらに,CRSの条件を理論的に保証する局所微分プライバシー(LDP)の緩和について検討する。 CRS-FL は,(1) 通信効率において,7% 以上のサンプリング比 (# サンプリングサイズ/# モデルサイズ) でモデル精度を低下させることなく,既存の伝送バイト当たりのメートル法よりも優れた精度を実現し,(2) プライバシ保存では,効率を保ちながら LDP ベースラインと比較して精度を低下させることなく,よりサンプリング比条件下でモデル精度を上回っている。

Federated Learning (FL), a privacy-oriented distributed ML paradigm, is being gaining great interest in Internet of Things because of its capability to protect participants data privacy. Studies have been conducted to address challenges existing in standard FL, including communication efficiency and privacy-preserving. But they cannot achieve the goal of making a tradeoff between communication efficiency and model accuracy while guaranteeing privacy. This paper proposes a Conditional Random Sampling (CRS) method and implements it into the standard FL settings (CRS-FL) to tackle the above-mentioned challenges. CRS explores a stochastic coefficient based on Poisson sampling to achieve a higher probability of obtaining zero-gradient unbiasedly, and then decreases the communication overhead effectively without model accuracy degradation. Moreover, we dig out the relaxation Local Differential Privacy (LDP) guarantee conditions of CRS theoretically. Extensive experiment results indicate that (1) in communication efficiency, CRS-FL performs better than the existing methods in metric accuracy per transmission byte without model accuracy reduction in more than 7% sampling ratio (# sampling size / # model size); (2) in privacy-preserving, CRS-FL achieves no accuracy reduction compared with LDP baselines while holding the efficiency, even exceeding them in model accuracy under more sampling ratio conditions.
翻訳日:2023-06-08 17:55:45 公開日:2023-06-07
# 言語から見た弱視映像の再検討

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective ( http://arxiv.org/abs/2306.00595v2 )

ライセンス: Link先を確認
Yingying Fan and Yu Wu and Yutian Lin and Bo Du(参考訳) 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。 それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。 しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。 この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。 具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。 次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。 また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。 実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin.
翻訳日:2023-06-08 17:55:16 公開日:2023-06-07
# 株価変動予測のためのChatGPTインフォームドグラフニューラルネットワーク

ChatGPT Informed Graph Neural Network for Stock Movement Prediction ( http://arxiv.org/abs/2306.03763v2 )

ライセンス: Link先を確認
Zihan Chen, Lei Nico Zheng, Cheng Lu, Jialu Yuan, Di Zhu(参考訳) ChatGPTは、様々な自然言語処理(NLP)タスクにまたがる顕著な機能を示している。 しかし、一時的なテキストデータ、特に金融ニュースから動的ネットワーク構造を推論する可能性はまだ未検討のフロンティアである。 本研究では,chatgptのグラフ推論機能を利用してグラフニューラルネットワーク(gnn)を強化する新しいフレームワークを提案する。 本フレームワークは,テキストデータから進化するネットワーク構造を十分に抽出し,これらのネットワークをグラフニューラルネットワークに組み込んで,その後の予測作業を行う。 ストックムーブメント予測による実験結果は、我々のモデルが最先端のディープラーニングベースのベンチマークを一貫して上回っていることを示している。 さらに, モデル出力に基づいて構築されたポートフォリオは, ボラティリティの低減と最大ドローダウンとともに, 年次累積リターンの向上を示す。 この優れたパフォーマンスは、テキストベースのネットワーク推論におけるChatGPTの可能性を強調し、金融セクターへの有望な影響を浮き彫りにしている。

ChatGPT has demonstrated remarkable capabilities across various natural language processing (NLP) tasks. However, its potential for inferring dynamic network structures from temporal textual data, specifically financial news, remains an unexplored frontier. In this research, we introduce a novel framework that leverages ChatGPT's graph inference capabilities to enhance Graph Neural Networks (GNN). Our framework adeptly extracts evolving network structures from textual data, and incorporates these networks into graph neural networks for subsequent predictive tasks. The experimental results from stock movement forecasting indicate our model has consistently outperformed the state-of-the-art Deep Learning-based benchmarks. Furthermore, the portfolios constructed based on our model's outputs demonstrate higher annualized cumulative returns, alongside reduced volatility and maximum drawdown. This superior performance highlights the potential of ChatGPT for text-based network inferences and underscores its promising implications for the financial sector.
翻訳日:2023-06-08 17:46:16 公開日:2023-06-07
# L2正規化による簡易OoD検出

Simple High Quality OoD Detection with L2 Normalization ( http://arxiv.org/abs/2306.04072v1 )

ライセンス: Link先を確認
Jarrod Haas, William Yolland, Bernhard Rabus(参考訳) 本稿では,訓練中の標準resnetアーキテクチャの簡単な修正を提案する。--l2正規化は,最先端のout-of-distribution (ood) 検出性能に匹敵する結果をもたらす。 テスト時にL2正規化を除去すると、特徴ベクトルのL2ノルムは驚くほど良いネットワーク不確かさのプロキシとなるが、L2正規化なしでのトレーニングでは、この振る舞いはほとんど効果的ではない。 直感的には、慣れ親しんだ画像は大きなベクトルとなり、馴染みのない画像は小さな大きさとなる。 特に、これはトレーニング中にほとんど追加のコストがなく、テスト時にコストがかかりません。

We propose a simple modification to standard ResNet architectures during training--L2 normalization over feature space--that produces results competitive with state-of-the-art Out-of-Distribution (OoD) detection performance. When L2 normalization is removed at test time, the L2 norm of feature vectors becomes a surprisingly good proxy for network uncertainty, whereas this behaviour is not nearly as effective when training without L2 normalization. Intuitively, familiar images result in large magnitude vectors, while unfamiliar images result in small magnitudes. Notably, this is achievable with almost no additional cost during training, and no cost at test time.
翻訳日:2023-06-08 16:50:33 公開日:2023-06-07
# 高等教育エコシステムにおけるブロックチェーン技術 - 善、悪、悪を探求する

Blockchain Technology in Higher Education Ecosystem: Unraveling the Good, Bad, and Ugly ( http://arxiv.org/abs/2306.04071v1 )

ライセンス: Link先を確認
Sharaban Tahora, Bilash Saha, Nazmus Sakib, Hossain Shahriar, Hisham Haddad(参考訳) 高等教育管理システムは、2020年に初めて新型コロナウイルス(COVID-19)による社会的孤立問題に対処しながら、プライバシーに対するイノベーションの落とし穴を特定し、認識した。 データのスプロールの時代は、それ以来状況が悪化しているのを観察する。 ブロックチェーン技術の統合は、高等教育管理システムにおける近年の課題に対処する可能性がある。 本稿は,既存の状況における高等教育管理パラダイムにおける,ブロックチェーンテクノロジ統合の善(スコープとメリット),悪(リミテーション),悪(不安とトレードオフ)を明らかにする。 本研究は,教育者,研究者,学生,その他の利害関係者の経験を探求し,ブロックチェーンの可能性と文脈的課題を十分に理解するために,質的かつ定量的なアプローチを採用している。 今回の知見は、効率的で安全で透明な高等教育管理システムを想定し、近年のビジネス・マネジメントの環境・規制の変遷に伴う議論(およびトレードオフ)の形成に寄与する。

The higher education management systems first identified and realized the trap of pitting innovation against privacy while first addressing COVID-19 social isolation challenges in 2020. In the age of data sprawl, we observe the situation has been exacerbating since then. Integrating blockchain technology has the potential to address the recent and emerging challenges in the higher education management system. This paper unravels the Good (scopes and benefits), Bad (limitations), and Ugly (challenges and trade-offs) of blockchain technology integration in the higher education management paradigm in the existing landscape. Our study adopts both qualitative and quantitative approaches to explore the experiences of educators, researchers, students, and other stakeholders and fully understand the blockchain's potential and contextual challenges. Our findings will envision an efficient, secure, and transparent higher education management system and help shape the debate (and trade-offs) pertaining to the recent shift in relevant business and management climate and regulatory sentiment.
翻訳日:2023-06-08 16:50:22 公開日:2023-06-07
# gotta: プロンプトベースのclozeデータ拡張による生成的少数ショット質問応答

Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation ( http://arxiv.org/abs/2306.04101v1 )

ライセンス: Link先を確認
Xiusi Chen, Yu Zhang, Jinliang Deng, Jyun-Yu Jiang, Wei Wang(参考訳) QA (Few-shot Question answering) は、いくつかのトレーニングサンプルが利用可能でありながら、コンテキストパスから一連の質問に対する回答を正確に見つけることを目的としている。 既存の研究はある程度進展しており、通常は適切な結果が得られるが、質問を推論するために深い意味を理解するのに苦しむ。 本稿では,ジェネレーティブなPROmpTベースの daTa Augmentation フレームワークである Gotta を開発し,上記の課題を緩和する。 人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。 最近のプロンプトチューニングの成功に続いて、我々はclozeタスクをメインのqaタスクと同じフォーマットで提示し、モデルが両方のタスクをシームレスに学習し、プロンプトチューニングのパワーを十分に活用できるようにします。 広く使用されているベンチマークに関する広範な実験は、競争ベースラインを一貫して上回ることを示し、提案するプロンプトチューニングベースのclozeタスクの有効性を検証しています。 さらに分析した結果,プロンプトベース・ロスはマルチタスク・ロスよりも優れた補助タスクを取り入れており,数発のQAタスクにおけるプロンプト・チューニングの強みを強調している。

Few-shot question answering (QA) aims at precisely discovering answers to a set of questions from context passages while only a few training samples are available. Although existing studies have made some progress and can usually achieve proper results, they suffer from understanding deep semantics for reasoning out the questions. In this paper, we develop Gotta, a Generative prOmpT-based daTa Augmentation framework to mitigate the challenge above. Inspired by the human reasoning process, we propose to integrate the cloze task to enhance few-shot QA learning. Following the recent success of prompt-tuning, we present the cloze task in the same format as the main QA task, allowing the model to learn both tasks seamlessly together to fully take advantage of the power of prompt-tuning. Extensive experiments on widely used benchmarks demonstrate that Gotta consistently outperforms competitive baselines, validating the effectiveness of our proposed prompt-tuning-based cloze task, which not only fine-tunes language models but also learns to guide reasoning in QA tasks. Further analysis shows that the prompt-based loss incorporates the auxiliary task better than the multi-task loss, highlighting the strength of prompt-tuning on the few-shot QA task.
翻訳日:2023-06-08 16:39:56 公開日:2023-06-07
# NTKCPL:真のカバレッジ推定による自己監督モデル上でのアクティブラーニング

NTKCPL: Active Learning on Top of Self-Supervised Model by Estimating True Coverage ( http://arxiv.org/abs/2306.04099v1 )

ライセンス: Link先を確認
Ziting Wen, Oscar Pizarro, Stefan Williams(参考訳) 機械学習分類器を訓練するための高アノテーションコストは、アクティブラーニングと自己教師型学習の広範な研究を促している。 近年の研究では、教師付き学習の文脈において、ランダムなベースラインに対するパフォーマンス向上を確保するために、トレーニングプロセスのさまざまな段階で異なるアクティブラーニング戦略を適用する必要があることが示されている。 利用可能なアノテーションの数が相転移点として適切なアクティブラーニング戦略を変更する点について述べる。 本稿では,アクティブラーニングと自己教師付きモデルを組み合わせた場合,相転移点が早期に出現することを示す。 以前は見つからなかったデータセットに使用する戦略を決定するのは難しい。 これらのアルゴリズムによって推定されるアクティブ学習プール全体の経験的リスクは、ラベル付きサンプルの数によって不正確で影響を受けやすいため、既存のアクティブ学習アルゴリズムは相転移の影響を強く受けている。 そこで本研究では,新しいアクティブラーニング戦略であるneural tangent kernel clustering-pseudo-labels (ntkcpl)を提案する。 疑似ラベルに基づく経験的リスクとntk近似によるモデル予測を推定する。 この近似誤差に影響する要因を分析し,近似誤差を低減するために擬似ラベルクラスタリング法を設計する。 提案手法を5つのデータセット上で検証し,その多くがベースラインメソッドを上回っており,幅広いトレーニング予算で有効であることを実証した。

High annotation cost for training machine learning classifiers has driven extensive research in active learning and self-supervised learning. Recent research has shown that in the context of supervised learning different active learning strategies need to be applied at various stages of the training process to ensure improved performance over the random baseline. We refer to the point where the number of available annotations changes the suitable active learning strategy as the phase transition point. In this paper, we establish that when combining active learning with self-supervised models to achieve improved performance, the phase transition point occurs earlier. It becomes challenging to determine which strategy should be used for previously unseen datasets. We argue that existing active learning algorithms are heavily influenced by the phase transition because the empirical risk over the entire active learning pool estimated by these algorithms is inaccurate and influenced by the number of labeled samples. To address this issue, we propose a novel active learning strategy, neural tangent kernel clustering-pseudo-labels (NTKCPL). It estimates empirical risk based on pseudo-labels and the model prediction with NTK approximation. We analyze the factors affecting this approximation error and design a pseudo-label clustering generation method to reduce the approximation error. We validate our method on five datasets, empirically demonstrating that it outperforms the baseline methods in most cases and is valid over a wider range of training budgets.
翻訳日:2023-06-08 16:39:32 公開日:2023-06-07
# phoenix: フェデレーション生成拡散モデル

Phoenix: A Federated Generative Diffusion Model ( http://arxiv.org/abs/2306.04098v1 )

ライセンス: Link先を確認
Fiona Victoria Stanley Jothiraj and Afra Mashhadi(参考訳) Generative AIは、画像、ビデオ、オーディオなどの多様なリアルなビジュアルコンテンツを作成できるようにすることで、印象的な進歩を遂げた。 しかしながら、大規模な集中型データセットにおける生成モデルのトレーニングは、データのプライバシ、セキュリティ、アクセシビリティといった面で問題を引き起こす可能性がある。 フェデレーション・ラーニング(federated learning、fl)は、データプライバシを維持するために個々のエッジデバイスにトレーニングデータを保持しながら、共有ディープラーニングモデルを共同トレーニングするために分散技術を使用するアプローチである。 本稿では,FL手法を用いて複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。 新たな生成モデルである拡散モデルは,GAN(Generative Adversarial Networks)よりも高品質な画像を実現する上で有望な結果を示す。 提案手法であるPhoenixは,統計的不均一性や非IID(非独立分散型および独立分散型)データを用いて訓練した場合でも,生成したサンプルのデータ多様性を改善するための戦略を利用する。 我々は,この手法がfl設定におけるデフォルト拡散モデルに勝ることを示す。 これらの結果は、データ多様性の維持、プライバシの保護、データソース間の通信の削減により、高品質なサンプルを生成できることを示している。

Generative AI has made impressive strides in enabling users to create diverse and realistic visual content such as images, videos, and audio. However, training generative models on large centralized datasets can pose challenges in terms of data privacy, security, and accessibility. Federated learning (FL) is an approach that uses decentralized techniques to collaboratively train a shared deep learning model while retaining the training data on individual edge devices to preserve data privacy. This paper proposes a novel method for training a Denoising Diffusion Probabilistic Model (DDPM) across multiple data sources using FL techniques. Diffusion models, a newly emerging generative model, show promising results in achieving superior quality images than Generative Adversarial Networks (GANs). Our proposed method Phoenix is an unconditional diffusion model that leverages strategies to improve the data diversity of generated samples even when trained on data with statistical heterogeneity or Non-IID (Non-Independent and Identically Distributed) data. We demonstrate how our approach outperforms the default diffusion model in an FL setting. These results indicate that high-quality samples can be generated by maintaining data diversity, preserving privacy, and reducing communication between data sources, offering exciting new possibilities in the field of generative AI.
翻訳日:2023-06-08 16:39:06 公開日:2023-06-07
# 移動解演算子学習のための新しいdeeponetモデルと地震震源位置推定への応用

A novel deeponet model for learning moving-solution operators with applications to earthquake hypocenter localization ( http://arxiv.org/abs/2306.04096v1 )

ライセンス: Link先を確認
Ehsan Haghighat, Umair bin Waheed, George Karniadakis(参考訳) 人間の活動によって引き起こされる地震は公共の安全に重大な脅威となり、正確な地震の震源位置の特定の必要性を強調する。 本研究では,パラメトリック偏微分方程式(PDE)の移動解演算子を学習するための深部演算子ネットワーク(DeepONets)の新たな変種であるX-DeepONetを導入し,実時間地震定位への応用について述べる。 ニューラル演算子の力を活用して、X-DeepONetは地震の発生時刻と速度モデルからの情報を組み込むことで、地震源に関連する走行時間場を推定することを学ぶ。 DeepONetと同様に、X-DeepONetはトランクネットとブランチネットを含んでいる。 さらに,標準のdeeponet乗算演算子を入力として使用するだけでなく,加算・減算演算子も使用するルートネットワークを導入する。 移動体に関する問題に対して,deeponetの標準乗算演算は,データ駆動(教師あり)と物理制御(教師なし)の双方において,加算・減算演算子と拡張根による精度が大幅に向上する一方で,フィールド転位を捉えるには不十分であることを示す。 可変速度モデルと到着時間を含む様々な実験を通して,X-DeepONetの有効性を示す。 その結果, 不均質モデルや複素速度モデルにおいても, 地震定位精度は著しく向上した。 また,提案フレームワークは,ノイズ発生時間に対する優れた一般化能力とロバスト性を示す。 本手法は, 移動時ピック誤差と速度モデルの変動から生じる震源位置の不確かさを定量化する計算効率の高い手法を提供する。 本研究は,X-DeepONetによる地震モニタリングシステムの改善の可能性を強調し,早期警戒システムの開発を支援した。

Seismicity induced by human activities poses a significant threat to public safety, emphasizing the need for accurate and timely earthquake hypocenter localization. In this study, we introduce X-DeepONet, a novel variant of deep operator networks (DeepONets), for learning moving-solution operators of parametric partial differential equations (PDEs), with application to real-time earthquake localization. Leveraging the power of neural operators, X-DeepONet learns to estimate traveltime fields associated with earthquake sources by incorporating information from seismic arrival times and velocity models. Similar to the DeepONet, X-DeepONet includes a trunk net and a branch net. Additionally, we introduce a root network that not only takes the standard DeepONet's multiplication operator as input, it also takes addition and subtraction operators. We show that for problems with moving fields, the standard multiplication operation of DeepONet is insufficient to capture field relocation, while addition and subtraction operators along with the eXtended root significantly improve its accuracy both under data-driven (supervised) and physics-informed (unsupervised) training. We demonstrate the effectiveness of X-DeepONet through various experiments, including scenarios with variable velocity models and arrival times. The results show remarkable accuracy in earthquake localization, even for heterogeneous and complex velocity models. The proposed framework also exhibits excellent generalization capabilities and robustness against noisy arrival times. The method provides a computationally efficient approach for quantifying uncertainty in hypocenter locations resulting from traveltime pick errors and velocity model variations. Our results underscore X-DeepONet's potential to improve seismic monitoring systems, aiding the development of early warning systems for seismic hazard mitigation.
翻訳日:2023-06-08 16:38:42 公開日:2023-06-07
# 1位pvuw challenge 2023: video panoptic segmentation

1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation ( http://arxiv.org/abs/2306.04091v1 )

ライセンス: Link先を確認
Tao Zhang and Xingye Tian and Haoran Wei and Yu Wu and Shunping Ji and Xuebo Wang and Yuan Zhang and Pengfei Wan(参考訳) ビデオのパンオプティカルセグメンテーションは、ビデオ編集や自動運転など、多くの下流アプリケーションの基礎となる課題である。 dvisによって提案された分離戦略は、"thing"と"stuff"の両方のオブジェクトに対して、より効果的な時間情報の活用を可能にすると信じている。 本報告では,ビデオパノプティックセグメンテーションにおけるデカップリング戦略の有効性を検証した。 最後に,第2回PVUWチャレンジのVPSトラックでそれぞれ51.4と53.7のVPQスコアを達成し,最終的に第2回PVUWチャレンジのVPSトラックで1位となった。 コードはhttps://github.com/zhang-tao-whu/dvisで入手できる。

Video panoptic segmentation is a challenging task that serves as the cornerstone of numerous downstream applications, including video editing and autonomous driving. We believe that the decoupling strategy proposed by DVIS enables more effective utilization of temporal information for both "thing" and "stuff" objects. In this report, we successfully validated the effectiveness of the decoupling strategy in video panoptic segmentation. Finally, our method achieved a VPQ score of 51.4 and 53.7 in the development and test phases, respectively, and ultimately ranked 1st in the VPS track of the 2nd PVUW Challenge. The code is available at https://github.com/zhang-tao-whu/DVIS
翻訳日:2023-06-08 16:38:08 公開日:2023-06-07
# 拡散を考慮したプロバスケットボール選手行動合成

Professional Basketball Player Behavior Synthesis via Planning with Diffusion ( http://arxiv.org/abs/2306.04090v1 )

ライセンス: Link先を確認
Xiusi Chen, Wei-Yao Wang, Ziniu Hu, Curtis Chou, Lam Hoang, Kun Jin, Mingyan Liu, P. Jeffrey Brantingham, Wei Wang(参考訳) 多様な領域における意思決定を改善するために,マルチエージェントシステムの動的計画法が検討されている。 プロバスケットボールはダイナミックな時空間試合の魅力的な例であり、隠れた戦略方針と意思決定の両方を含んでいる。 しかし,様々なオンコート信号の処理や潜在的な行動や成果の膨大な空間のナビゲートは,進化する状況に対応する最適な戦略を迅速に特定することが困難である。 本研究ではまず,条件付き軌道生成プロセスとして逐次決定過程を定式化する。 さらに,プレーヤ意思決定の促進手法であるPLAYBEST(PLAYer BEhavior Synthesis)を紹介する。 我々は,NBA選手の運動追跡データから,最先端の生成モデルである拡散確率モデルを拡張して,マルチエージェント環境の動態を学習する。 データ駆動戦略を組み込むために、プランガイダンスとして対応する報酬と共にプレイバイプレイデータを用いて補助値関数を訓練する。 報酬誘導軌道生成を実現するため、値関数上の拡散モデルに条件付きサンプリングを導入し、分類器誘導サンプリングを行う。 実世界のデータから総合的なシミュレーション研究を行い, プロバスケットボールチームとプロバスケットボールチームの比較を行い, プレイベストの有効性を検証した。 提案手法は, 適応性, 柔軟性, 総合性能の観点から, 従来の計画手法を超越した, 高性能なバスケットボールコースの創出に優れていた。 さらに、合成されたプレイ戦略はプロの戦術と顕著な一致を示し、バスケットボールの試合の複雑なダイナミクスをとらえるモデルの能力を強調した。

Dynamically planning in multi-agent systems has been explored to improve decision-making in various domains. Professional basketball serves as a compelling example of a dynamic spatio-temporal game, encompassing both concealed strategic policies and decision-making. However, processing the diverse on-court signals and navigating the vast space of potential actions and outcomes makes it difficult for existing approaches to swiftly identify optimal strategies in response to evolving circumstances. In this study, we first formulate the sequential decision-making process as a conditional trajectory generation process. We further introduce PLAYBEST (PLAYer BEhavior SynThesis), a method for enhancing player decision-making. We extend the state-of-the-art generative model, diffusion probabilistic model, to learn challenging multi-agent environmental dynamics from historical National Basketball Association (NBA) player motion tracking data. To incorporate data-driven strategies, an auxiliary value function is trained using the play-by-play data with corresponding rewards acting as the plan guidance. To accomplish reward-guided trajectory generation, conditional sampling is introduced to condition the diffusion model on the value function and conduct classifier-guided sampling. We validate the effectiveness of PLAYBEST via comprehensive simulation studies from real-world data, contrasting the generated trajectories and play strategies with those employed by professional basketball teams. Our results reveal that the model excels at generating high-quality basketball trajectories that yield efficient plays, surpassing conventional planning techniques in terms of adaptability, flexibility, and overall performance. Moreover, the synthesized play strategies exhibit a remarkable alignment with professional tactics, highlighting the model's capacity to capture the intricate dynamics of basketball games.
翻訳日:2023-06-08 16:37:56 公開日:2023-06-07
# TEC-Net:医療画像分割のためのビジョントランスフォーマーエンブレス畳み込みニューラルネットワーク

TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for Medical Image Segmentation ( http://arxiv.org/abs/2306.04086v1 )

ライセンス: Link先を確認
Tao Lei, Rui Sun, Yong Wan, Yong Xia, Xiaogang Du, Asoke K. Nandi(参考訳) 畳み込みニューラルネットワーク(cnn)とトランスフォーマーのハイブリッドアーキテクチャは、医用画像セグメンテーションの最も一般的な方法である。 しかし、ハイブリッドアーキテクチャに基づく既存のネットワークには2つの問題がある。 第1に、cnnブランチは畳み込み操作によって画像局所的な特徴をキャプチャできるが、バニラ畳み込みは画像特徴の適応的な抽出を達成することができない。 第2に、変圧器ブランチは画像のグローバル情報をモデル化できるが、従来のセルフアテンションは画像の空間的自己アテンションのみに焦点を当て、複雑な背景を持つ医療画像のセグメンテーション精度を低下させるチャンネルやクロス次元の自己アテンションを無視する。 これらの問題を解決するために,医療画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを用いたビジョントランスフォーマーを提案する。 我々のネットワークには2つの利点がある。 まず、動的変形可能な畳み込み(DDConv)はCNNブランチで設計され、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解消し、CNNブランチの機能表現能力を効果的に改善する。 第2に、Transformerブランチでは、パラメータや計算の少ない医用画像のクロス次元長距離依存性を完全に学習できるように、(シフト)ウィンドウ適応相補的注意モジュール((S)W-ACAM)とコンパクトな畳み込み投影を設計する。 実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。 さらに、我々のTEC-Netはパラメータや計算コストを少なくし、事前学習に依存しない。 コードはhttps://github.com/SR0920/TEC-Netで公開されている。

The hybrid architecture of convolution neural networks (CNN) and Transformer has been the most popular method for medical image segmentation. However, the existing networks based on the hybrid architecture suffer from two problems. First, although the CNN branch can capture image local features by using convolution operation, the vanilla convolution is unable to achieve adaptive extraction of image features. Second, although the Transformer branch can model the global information of images, the conventional self-attention only focuses on the spatial self-attention of images and ignores the channel and cross-dimensional self-attention leading to low segmentation accuracy for medical images with complex backgrounds. To solve these problems, we propose vision Transformer embrace convolutional neural networks for medical image segmentation (TEC-Net). Our network has two advantages. First, dynamic deformable convolution (DDConv) is designed in the CNN branch, which not only overcomes the difficulty of adaptive feature extraction using fixed-size convolution kernels, but also solves the defect that different inputs share the same convolution kernel parameters, effectively improving the feature expression ability of CNN branch. Second, in the Transformer branch, a (shifted)-window adaptive complementary attention module ((S)W-ACAM) and compact convolutional projection are designed to enable the network to fully learn the cross-dimensional long-range dependency of medical images with few parameters and calculations. Experimental results show that the proposed TEC-Net provides better medical image segmentation results than SOTA methods including CNN and Transformer networks. In addition, our TEC-Net requires fewer parameters and computational costs and does not rely on pre-training. The code is publicly available at https://github.com/SR0920/TEC-Net.
翻訳日:2023-06-08 16:37:30 公開日:2023-06-07
# XSemPLR:複数自然言語における言語間意味解析と意味表現

XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages and Meaning Representations ( http://arxiv.org/abs/2306.04085v1 )

ライセンス: Link先を確認
Yusen Zhang, Jun Wang, Zhiguo Wang, Rui Zhang(参考訳) Cross-Lingual Semantic Parsing (CLSP)は、複数の自然言語(NL)のクエリを、SQL、ラムダ計算、論理形式などの意味表現(MR)に変換することを目的としている。 しかし,既存のCLSPモデルは,限られたタスクやアプリケーションのデータセットに基づいて別々に提案・評価され,多様なNLやMRに対するCLSPの包括的かつ統一的な評価が妨げられている。そのために,22の自然言語と8の表現を特徴とする言語間セマンティック解析のための統一ベンチマークであるXSemPLRを提案する。 我々は、XSemPLRを用いて、エンコーダベースモデル(mBERT, XLM-R)、エンコーダデコーダモデル(mBART, mT5)、デコーダベースモデル(Codex, BLOOM)を含む幅広い多言語モデルに関する包括的なベンチマーク研究を行う。 様々な言語の組み合わせ(単言語、多言語、クロス言語)と学習サンプル(フルデータセット、少数ショット、ゼロショット)をカバーする実験設定を6つ設計した。 本実験では、エンコーダ・デコーダモデル(mt5)が他の一般的なモデルと比較して高い性能を達成し、多言語訓練により平均性能がさらに向上することを示す。 特に、多言語大言語モデル(例えばBLOOM)はCLSPタスクの実行には不適当である。 また,多言語モデルでは,単言語間学習と多言語間移動学習のパフォーマンスギャップが依然として重要であることも確認した。 私たちのデータセットとコードはhttps://github.com/psunlpgroup/xsemplrで利用可能です。

Cross-Lingual Semantic Parsing (CLSP) aims to translate queries in multiple natural languages (NLs) into meaning representations (MRs) such as SQL, lambda calculus, and logic forms. However, existing CLSP models are separately proposed and evaluated on datasets of limited tasks and applications, impeding a comprehensive and unified evaluation of CLSP on a diverse range of NLs and MRs. To this end, we present XSemPLR, a unified benchmark for cross-lingual semantic parsing featured with 22 natural languages and 8 meaning representations by examining and selecting 9 existing datasets to cover 5 tasks and 164 domains. We use XSemPLR to conduct a comprehensive benchmark study on a wide range of multilingual language models including encoder-based models (mBERT, XLM-R), encoder-decoder models (mBART, mT5), and decoder-based models (Codex, BLOOM). We design 6 experiment settings covering various lingual combinations (monolingual, multilingual, cross-lingual) and numbers of learning samples (full dataset, few-shot, and zero-shot). Our experiments show that encoder-decoder models (mT5) achieve the highest performance compared with other popular models, and multilingual training can further improve the average performance. Notably, multilingual large language models (e.g., BLOOM) are still inadequate to perform CLSP tasks. We also find that the performance gap between monolingual training and cross-lingual transfer learning is still significant for multilingual models, though it can be mitigated by cross-lingual few-shot training. Our dataset and code are available at https://github.com/psunlpgroup/XSemPLR.
翻訳日:2023-06-08 16:36:55 公開日:2023-06-07
# トランスデューサにおける統一音声テキスト表現を用いたテキストのみのドメイン適応

Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer ( http://arxiv.org/abs/2306.04076v1 )

ライセンス: Link先を確認
Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma(参考訳) テキストのみのコーパスを用いたドメイン適応は、エンドツーエンド(E2E)音声認識では困難である。 テキストからttsを介して音声を合成することで適応することはリソース消費である。 本稿では,コンフォーメータトランスデューサ(ustr-ct)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いた高速ドメイン適応を実現する手法を提案する。 従来のテキストグラム法と異なり,テキスト表現を学習するために追加のテキストエンコーダが導入され,推論中に削除されるため,オンライン展開への修正は行われない。 適応効率を向上させるため、単段適応と多段適応も検討されている。 librispeech を spgispeech に適応させる実験により,提案手法はターゲット領域における単語誤り率(wer)を,tts 法やテキストグラム法よりも44%低減することを示した。 また,提案手法を内部言語モデル推定(ILME)と組み合わせることで,さらなる性能向上が期待できることを示した。

Domain adaptation using text-only corpus is challenging in end-to-end(E2E) speech recognition. Adaptation by synthesizing audio from text through TTS is resource-consuming. We present a method to learn Unified Speech-Text Representation in Conformer Transducer(USTR-CT) to enable fast domain adaptation using the text-only corpus. Different from the previous textogram method, an extra text encoder is introduced in our work to learn text representation and is removed during inference, so there is no modification for online deployment. To improve the efficiency of adaptation, single-step and multi-step adaptations are also explored. The experiments on adapting LibriSpeech to SPGISpeech show the proposed method reduces the word error rate(WER) by relatively 44% on the target domain, which is better than those of TTS method and textogram method. Also, it is shown the proposed method can be combined with internal language model estimation(ILME) to further improve the performance.
翻訳日:2023-06-08 16:36:20 公開日:2023-06-07
# 畳み込みニューラルネットワークにおけるパッチレベルルーティングの有用性

Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks ( http://arxiv.org/abs/2306.04073v1 )

ライセンス: Link先を確認
Mohammed Nowaz Rabbani Chowdhury, Shuai Zhang, Meng Wang, Sijia Liu and Pin-Yu Chen(参考訳) ディープラーニングでは、Mixix-of-experts(MoE)は、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化し、計算量を大幅に削減する。 最近提案された \underline{p}atch-level routing in \underline{MoE} (pMoE) では、各入力を$n$のパッチ(またはトークン)に分割し、優先順位付けされたルーティングを通じて各専門家に$l$のパッチ(l\ll n$)を送信する。 pMoEは、試験精度を維持しながら、トレーニングと推論のコストを削減した。 しかし、pMoE と一般 MoE の理論的説明はいまだ解明されていない。 2層畳み込みニューラルネットワーク (CNN) の混合を用いた教師付き分類タスクに着目し, pMoE は多項式次数$n/l$ の係数で望ましい一般化(サンプル複雑性と呼ばれる)を達成するために, 必要なトレーニングサンプル数を確実に削減し, 同一あるいはそれ以上の容量のシングルエキスパートよりも優れていることを示す。 この利点は、pmoeルータがラベル非関連パッチをフィルタリングし、同様のクラス判別パッチを同じ専門家にルーティングできるという理論と実践の両方で正当化されている。 MNIST, CIFAR-10, CelebAによる実験結果から, pMoEの一般化に関する理論的知見が得られた。

In deep learning, mixture-of-experts (MoE) activates one or few experts (sub-networks) on a per-sample or per-token basis, resulting in significant computation reduction. The recently proposed \underline{p}atch-level routing in \underline{MoE} (pMoE) divides each input into $n$ patches (or tokens) and sends $l$ patches ($l\ll n$) to each expert through prioritized routing. pMoE has demonstrated great empirical success in reducing training and inference costs while maintaining test accuracy. However, the theoretical explanation of pMoE and the general MoE remains elusive. Focusing on a supervised classification task using a mixture of two-layer convolutional neural networks (CNNs), we show for the first time that pMoE provably reduces the required number of training samples to achieve desirable generalization (referred to as the sample complexity) by a factor in the polynomial order of $n/l$, and outperforms its single-expert counterpart of the same or even larger capacity. The advantage results from the discriminative routing property, which is justified in both theory and practice that pMoE routers can filter label-irrelevant patches and route similar class-discriminative patches to the same expert. Our experimental results on MNIST, CIFAR-10, and CelebA support our theoretical findings on pMoE's generalization and show that pMoE can avoid learning spurious correlations.
翻訳日:2023-06-08 16:36:02 公開日:2023-06-07
# Matte Anything: セグメンテーションモデルによるインタラクティブな自然画像マッチング

Matte Anything: Interactive Natural Image Matting with Segment Anything Models ( http://arxiv.org/abs/2306.04121v1 )

ライセンス: Link先を確認
Jingfeng Yao, Xinggang Wang, Lang Ye, and Wenyu Liu(参考訳) 自然画像マット化アルゴリズムは、トリマップガイダンスで透明性マップ(アルファマット)を予測することを目的としている。 しかし、トリマップの生成にはかなりの労力が必要であり、大規模なマットニングアルゴリズムの適用範囲を制限している。 この問題に対処するために,様々な簡単なヒントで高品質なアルファ・マットを生成できるインタラクティブな自然画像マッチングモデルであるMatte Anything Model (MatAny)を提案する。 MatAnyの重要な洞察は、輪郭と透明な予測で自動的に擬似トリマップを生成することである。 タスク固有の視覚モデルを利用して、自然な画像マッチングの性能を向上させる。 具体的には、セグメンテーションモデル(SAM)を用いて、ユーザインタラクションによる高品質な輪郭を予測し、オープン語彙検出器(OV)を用いてオブジェクトの透明性を予測する。 その後、事前訓練された画像マッチングモデルが擬似トリマップを持つアルファ行列を生成する。 matanyは最もサポートされたインタラクションメソッドと、これまでで最高のパフォーマンスを持つ対話型マットリングアルゴリズムである。 追加の訓練なしで直交視覚モデルから成り立っている。 いくつかの画像マッチングアルゴリズムに対してMateAnyの性能を評価し,本手法の有効性を実証した。

Natural image matting algorithms aim to predict the transparency map (alpha-matte) with the trimap guidance. However, the production of trimaps often requires significant labor, which limits the widespread application of matting algorithms on a large scale. To address the issue, we propose Matte Anything model (MatAny), an interactive natural image matting model which could produce high-quality alpha-matte with various simple hints. The key insight of MatAny is to generate pseudo trimap automatically with contour and transparency prediction. We leverage task-specific vision models to enhance the performance of natural image matting. Specifically, we use the segment anything model (SAM) to predict high-quality contour with user interaction and an open-vocabulary (OV) detector to predict the transparency of any object. Subsequently, a pretrained image matting model generates alpha mattes with pseudo trimaps. MatAny is the interactive matting algorithm with the most supported interaction methods and the best performance to date. It consists of orthogonal vision models without any additional training. We evaluate the performance of MatAny against several current image matting algorithms, and the results demonstrate the significant potential of our approach.
翻訳日:2023-06-08 16:29:45 公開日:2023-06-07
# MESSY推定:最大エントロピーに基づく確率的および記号的デンシット推定

MESSY Estimation: Maximum-Entropy based Stochastic and Symbolic densitY Estimation ( http://arxiv.org/abs/2306.04120v1 )

ライセンス: Link先を確認
Tony Tohme, Mohsen Sadr, Kamal Youcef-Toumi, Nicolas G. Hadjiconstantinou(参考訳) 最大エントロピーに基づく確率および記号密度推定法であるMESSY推定を導入する。 提案手法は,アンザッツが駆動力となるグラディエント流のモーメントを用いて,サンプルから確率密度関数を記号的に復元する。 特に,未知分布関数のサンプルと推測記号表現を接続する勾配に基づくドリフト拡散プロセスを構築した。 次に, 推定分布が最大エントロピー形式を持つ場合, 与えられたサンプルのモーメントを用いて構築した方程式の線形系を解いて, この分布のパラメータを効率的に求めることができることを示す。 さらに、シンボリック回帰を用いて滑らかな関数の空間を探索し、最大エントロピー汎関数の指数に対する最適な基底関数を見つけ、良好な条件付けへと導く。 ランダム探索の各イテレーションにおける提案手法のコストは,サンプル数と基底関数数とを線形に比較した。 提案手法は,bi-modalと不連続密度,および物理的実現可能性の限界における密度について,他のベンチマーク手法に対する乱雑な推定手法の有効性を検証する。 基本関数の記号探索を追加することで, 推定精度を合理的な計算コストで向上することがわかった。 提案手法は, 有効な計算コストで未知密度の低バイアスかつ従順な記号記述を提供することにより, 既存の密度回復法を, 少量から中程度のサンプル数に上回っていることを示唆する。

We introduce MESSY estimation, a Maximum-Entropy based Stochastic and Symbolic densitY estimation method. The proposed approach recovers probability density functions symbolically from samples using moments of a Gradient flow in which the ansatz serves as the driving force. In particular, we construct a gradient-based drift-diffusion process that connects samples of the unknown distribution function to a guess symbolic expression. We then show that when the guess distribution has the maximum entropy form, the parameters of this distribution can be found efficiently by solving a linear system of equations constructed using the moments of the provided samples. Furthermore, we use Symbolic regression to explore the space of smooth functions and find optimal basis functions for the exponent of the maximum entropy functional leading to good conditioning. The cost of the proposed method in each iteration of the random search is linear with the number of samples and quadratic with the number of basis functions. We validate the proposed MESSY estimation method against other benchmark methods for the case of a bi-modal and a discontinuous density, as well as a density at the limit of physical realizability. We find that the addition of a symbolic search for basis functions improves the accuracy of the estimation at a reasonable additional computational cost. Our results suggest that the proposed method outperforms existing density recovery methods in the limit of a small to moderate number of samples by providing a low-bias and tractable symbolic description of the unknown density at a reasonable computational cost.
翻訳日:2023-06-08 16:29:24 公開日:2023-06-07
# m$^3$fair:マルチレベルおよびマルチセンシティブ属性再重み付け法による医療データのバイアス軽減

M$^3$Fair: Mitigating Bias in Healthcare Data through Multi-Level and Multi-Sensitive-Attribute Reweighting Method ( http://arxiv.org/abs/2306.04118v1 )

ライセンス: Link先を確認
Yinghao Zhu, Jingkun An, Enshen Zhou, Lu An, Junyi Gao, Hao Li, Haoran Feng, Bo Hou, Wen Tang, Chengwei Pan, Liantao Ma(参考訳) データ駆動人工知能パラダイムでは、モデルは大量のトレーニングデータに大きく依存する。 しかし、サンプリング分布の不均衡のような要因は、医療データに偏りや不公平な問題を引き起こす可能性がある。 人種、性別、年齢、健康状態などの繊細な属性は、差別や偏見と一般的に関連する個人の特性である。 医療AIでは、これらの属性は、個人が受けるケアの質を決定する上で重要な役割を果たす。 例えば、マイノリティグループは、米国の白人よりも手順や質の低い医療を受けることが多い。 したがって、データのバイアスの検出と緩和は、健康エクイティを高める上で重要である。 バイアス軽減手法には、前処理、内処理、後処理などがある。 その中でもReweighting(RW)は、機械学習のパフォーマンスと公平性のパフォーマンスのバランスをよく行うために広く使われている前処理手法である。 rwは、これらの重みを損失関数で利用する各(グループ、ラベル)の組み合わせでサンプルの重みを調整する。 しかしながら、RWはバイアスを緩和する際、単一の感度属性のみを考慮することに制限されており、各感度属性が等しく重要であると仮定する。 これは交叉バイアスに対処する際の潜在的な不正確な結果をもたらす。 これらの制約に対処するため,複数のレベルにおいてRW法を複数の感度属性に拡張することにより,マルチレベルかつ多感度な属性再重み付け手法であるM3Fairを提案する。 実世界のデータセットに対する我々の実験は、アプローチが医療の公平性問題に対処する上で効果的で、単純で、一般化可能であることを示している。

In the data-driven artificial intelligence paradigm, models heavily rely on large amounts of training data. However, factors like sampling distribution imbalance can lead to issues of bias and unfairness in healthcare data. Sensitive attributes, such as race, gender, age, and medical condition, are characteristics of individuals that are commonly associated with discrimination or bias. In healthcare AI, these attributes can play a significant role in determining the quality of care that individuals receive. For example, minority groups often receive fewer procedures and poorer-quality medical care than white individuals in US. Therefore, detecting and mitigating bias in data is crucial to enhancing health equity. Bias mitigation methods include pre-processing, in-processing, and post-processing. Among them, Reweighting (RW) is a widely used pre-processing method that performs well in balancing machine learning performance and fairness performance. RW adjusts the weights for samples within each (group, label) combination, where these weights are utilized in loss functions. However, RW is limited to considering only a single sensitive attribute when mitigating bias and assumes that each sensitive attribute is equally important. This may result in potential inaccuracies when addressing intersectional bias. To address these limitations, we propose M3Fair, a multi-level and multi-sensitive-attribute reweighting method by extending the RW method to multiple sensitive attributes at multiple levels. Our experiments on real-world datasets show that the approach is effective, straightforward, and generalizable in addressing the healthcare fairness issues.
翻訳日:2023-06-08 16:29:00 公開日:2023-06-07
# 不均衡単語アライメントのための不均衡最適輸送

Unbalanced Optimal Transport for Unbalanced Word Alignment ( http://arxiv.org/abs/2306.04116v1 )

ライセンス: Link先を確認
Yuki Arase, Han Bao, Sho Yokoi(参考訳) 単言語の単語アライメントは文間の意味的相互作用のモデル化に不可欠である。 特に、単語が対応する文を持たない現象であるヌルアライメントは、意味的に発散する文を扱う上で広く、かつ批判的である。 ヌルアライメントの同定は、情報不等式が存在することを示すことによって、文の意味的類似性を理解するのに有用である。 本研究は,アライメントとヌルアライメントの両方を評価する非バランスな単語アライメントを実現するために,最適なトランスポート (ot) の族,すなわちバランス付き,部分的,非バランスなotは,テーラーメイドの技術がなくても自然かつ強力なアプローチであることを示す。 教師なしおよび教師なしの設定に関する広範な実験は、我々の一般的なOTベースのアライメント手法が、単語アライメントのために特別に設計された最先端技術と競合していることを示している。

Monolingual word alignment is crucial to model semantic interactions between sentences. In particular, null alignment, a phenomenon in which words have no corresponding counterparts, is pervasive and critical in handling semantically divergent sentences. Identification of null alignment is useful on its own to reason about the semantic similarity of sentences by indicating there exists information inequality. To achieve unbalanced word alignment that values both alignment and null alignment, this study shows that the family of optimal transport (OT), i.e., balanced, partial, and unbalanced OT, are natural and powerful approaches even without tailor-made techniques. Our extensive experiments covering unsupervised and supervised settings indicate that our generic OT-based alignment methods are competitive against the state-of-the-arts specially designed for word alignment, remarkably on challenging datasets with high null alignment frequencies.
翻訳日:2023-06-08 16:28:37 公開日:2023-06-07
# 解釈可能なスクリーントーン表現によるマンガ再スクリーニング

Manga Rescreening with Interpretable Screentone Representation ( http://arxiv.org/abs/2306.04114v1 )

ライセンス: Link先を確認
Minshan Xie, Chengze Li, and Tien-Tsin Wong(参考訳) マンガページの適応または再購入のプロセスは、マンガアーティストがすべてのスクリーントーン領域で手作業で作業し、新しいパターンを適用して、複数のパネルにまたがる新しいスクリーントーンを作成するという、時間を要する作業である。 この問題に対処するために,マンガ適応に関わる人的労力を最小限に抑えることを目的とした自動マンガ再スクリーニングパイプラインを提案する。 パイプラインは自動的にスクリーントーン領域を認識し,新たに指定された特徴(強度やタイプなど)を持つ新規なスクリーントーンを生成する。 既存のマンガ生成法は、複雑なトーンまたは強度変化領域の理解と合成に制限がある。 これらの制約を克服するため,我々は,スクリーントーンの強度とタイプ特徴を区別し,より優れた認識と合成を可能にする新しいスクリーントーンの解釈可能な表現を提案する。 この解釈可能なスクリーントーン表現は、強度変動領域を認識する際の曖昧さを減少させ、タイプまたは強度特徴を分離してアンカーすることにより、スクリーントーン合成中の細粒度の制御を提供する。 提案手法は様々な実験により有効かつ有用であることが示され, 解釈可能なスクリーントーン表現を用いたパイプラインの優位性を示す。

The process of adapting or repurposing manga pages is a time-consuming task that requires manga artists to manually work on every single screentone region and apply new patterns to create novel screentones across multiple panels. To address this issue, we propose an automatic manga rescreening pipeline that aims to minimize the human effort involved in manga adaptation. Our pipeline automatically recognizes screentone regions and generates novel screentones with newly specified characteristics (e.g., intensity or type). Existing manga generation methods have limitations in understanding and synthesizing complex tone- or intensity-varying regions. To overcome these limitations, we propose a novel interpretable representation of screentones that disentangles their intensity and type features, enabling better recognition and synthesis of screentones. This interpretable screentone representation reduces ambiguity in recognizing intensity-varying regions and provides fine-grained controls during screentone synthesis by decoupling and anchoring the type or the intensity feature. Our proposed method is demonstrated to be effective and convenient through various experiments, showcasing the superiority of the newly proposed pipeline with the interpretable screentone representations.
翻訳日:2023-06-08 16:28:19 公開日:2023-06-07
# 超伝導共振器における水素結晶の散逸低減

Hydrogen crystals reduce dissipation in superconducting resonators ( http://arxiv.org/abs/2306.04112v1 )

ライセンス: Link先を確認
Francesco Valenti, Andrew N. Kanagin, Andreas Angerer, Luiza Buimaga-Iarinca, Cristian Morari, J\"org Schmiedmayer, and Ioan M. Pop(参考訳) 固体パラ水素分子結晶のマイクロメトリック膜を被覆することにより、グラニュラーアルミニウム製高インピーダンス超伝導共振器の内部品質因子を向上できることを示した。 結晶共振器界面における成層テラヘルツ放射の吸収とそれに続くエネルギーの消散により, 平均$\approx 8\%の消散効果が減少し, 対の破断ギャップの下のフォノン形になる。 その結果, 超伝導共振器上における真空誘電体交換は, クーパー対制振テラヘルツ放射に対する保護を付加することにより有益であることがわかった。 さらに, 10^5$の範囲における内部品質係数のレベルにおいて, 水素結晶の損失は増加せず, ハイブリッド量子アーキテクチャにおける超伝導薄膜デバイスとの結合に不純物を埋め込むことが期待できる。

We show that the internal quality factors of high impedance superconducting resonators made of granular aluminum can be improved by coating them with micrometric films of solid para-hydrogen molecular crystals. We attribute the average measured $\approx 8\%$ reduction in dissipation to absorption of stray terahertz radiation at the crystal-resonator interface and the subsequent dissipation of its energy in the form of phonons below the pair-breaking gap. Our results prove that, contrary to expectations, replacing the vacuum dielectric atop a superconducting resonator can be beneficial, thanks to the added protection against Cooper pair-braking terahertz radiation. Moreover, at the level of internal quality factors in the $10^5$ range, the hydrogen crystal does not introduce additional losses, which is promising for embedding impurities to couple to superconducting thin-film devices in hybrid quantum architectures.
翻訳日:2023-06-08 16:27:56 公開日:2023-06-07
# 大規模分散学習のための準ニュートン更新

Quasi-Newton Updating for Large-Scale Distributed Learning ( http://arxiv.org/abs/2306.04111v1 )

ライセンス: Link先を確認
Wu Shuyuan, Huang Danyang, Wang Hansheng(参考訳) 分散コンピューティングは現代の統計分析において極めて重要である。 本稿では,統計的,計算,通信効率に優れた分散準ニュートン(DQN)フレームワークを開発する。 DQN法では、ヘッセン行列の逆転や通信は不要である。 これにより、提案手法の計算と通信の複雑さが大幅に低減される。 特に、関連する既存の手法は数値収束のみを解析し、収束するイテレーションの数を分散させる必要がある。 しかし,DQN法の統計的特性を考察し,得られた推定値が軽度条件下での少数の反復に対して統計的に効率的であることを理論的に示す。 大規模な数値解析は、有限サンプル性能を示す。

Distributed computing is critically important for modern statistical analysis. Herein, we develop a distributed quasi-Newton (DQN) framework with excellent statistical, computation, and communication efficiency. In the DQN method, no Hessian matrix inversion or communication is needed. This considerably reduces the computation and communication complexity of the proposed method. Notably, related existing methods only analyze numerical convergence and require a diverging number of iterations to converge. However, we investigate the statistical properties of the DQN method and theoretically demonstrate that the resulting estimator is statistically efficient over a small number of iterations under mild conditions. Extensive numerical analyses demonstrate the finite sample performance.
翻訳日:2023-06-08 16:27:38 公開日:2023-06-07
# 相対的決定境界距離を持つメンバーシップ推論攻撃

Membership inference attack with relative decision boundary distance ( http://arxiv.org/abs/2306.04109v1 )

ライセンス: Link先を確認
JiaCheng Xu and ChengXiang Tan(参考訳) メンバシップ推論攻撃は、マシンラーニングで最も一般的なプライバシ攻撃の1つであり、対象モデルのトレーニングセットに含まれるサンプルを予測することを目的としている。 ラベルのみのメンバシップ推論攻撃は、サンプルの堅牢性を利用して、敵が予測されたサンプルのラベルのみにアクセスするという現実的なシナリオを前提として、より多くの注意を惹きつける変種である。 しかし、ロバスト性を測定する決定境界距離は、ランダムな初期画像に強く影響されるため、同じ入力サンプルであっても逆の結果が得られる可能性がある。 本稿では,ラベルのみの設定でmutiクラス適応メンバシップ推論アタックと呼ばれる新しい攻撃手法を提案する。 すべてのターゲットクラスの決定境界距離は、初期の攻撃イテレーションで横断され、その後の攻撃イテレーションは、安定かつ最適な決定境界距離を得るために最短決定境界距離で継続される。 単一の境界距離を使用する代わりに、トレーニングセット内のメンバーサンプルとトレーニングセット外の非メンバーサンプルを区別する新しいメンバースコアとして、サンプルと隣接するポイントとの間の相対的な境界距離が採用されている。 実験の結果,非ターゲットのhopskipjumpアルゴリズムを用いた以前のラベルのみのメンバシップ推論攻撃では,半数以上のサンプルにおいて最適な決定境界を達成できなかった。 さらに,CIFAR10およびCIFAR100データセットにおいて,多クラス適応MIAは,特に偽陽性率測定値の正の正の値に対して,現在のラベルのみのメンバシップ推論攻撃よりも優れていた。

Membership inference attack is one of the most popular privacy attacks in machine learning, which aims to predict whether a given sample was contained in the target model's training set. Label-only membership inference attack is a variant that exploits sample robustness and attracts more attention since it assumes a practical scenario in which the adversary only has access to the predicted labels of the input samples. However, since the decision boundary distance, which measures robustness, is strongly affected by the random initial image, the adversary may get opposite results even for the same input samples. In this paper, we propose a new attack method, called muti-class adaptive membership inference attack in the label-only setting. All decision boundary distances for all target classes have been traversed in the early attack iterations, and the subsequent attack iterations continue with the shortest decision boundary distance to obtain a stable and optimal decision boundary distance. Instead of using a single boundary distance, the relative boundary distance between samples and neighboring points has also been employed as a new membership score to distinguish between member samples inside the training set and nonmember samples outside the training set. Experiments show that previous label-only membership inference attacks using the untargeted HopSkipJump algorithm fail to achieve optimal decision bounds in more than half of the samples, whereas our multi-targeted HopSkipJump algorithm succeeds in almost all samples. In addition, extensive experiments show that our multi-class adaptive MIA outperforms current label-only membership inference attacks in the CIFAR10, and CIFAR100 datasets, especially for the true positive rate at low false positive rates metric.
翻訳日:2023-06-08 16:27:29 公開日:2023-06-07
# bemap:フェアグラフニューラルネットワークのためのバランスのとれたメッセージパッシング

BeMap: Balanced Message Passing for Fair Graph Neural Network ( http://arxiv.org/abs/2306.04107v1 )

ライセンス: Link先を確認
Xiao Lin, Jian Kang, Weilin Cong, Hanghang Tong(参考訳) グラフニューラルネットワーク(GNN)は、各ノードの局所的近傍(すなわちメッセージパッシング)からの情報を反復的に集約することで、多くの下流タスクにおいて強力な経験的性能を示している。 しかし、具体的な証拠は、グラフニューラルネットワークが特定の人口集団に偏りがあることを明らかにしており、アルゴリズムの公正性を考慮している。 グラフニューラルネットワークにおけるアルゴリズムの公正性を保証する努力が増えているにもかかわらず、トレーニング中にGNNでメッセージパッシングによって引き起こされるバイアスを明示的に考慮しないことが多い。 本稿では,まず,メッセージパッシングにおけるバイアス増幅の問題について検討する。 我々は、異なる人口集団の1ホップ隣人がバランスが取れていない場合、メッセージパッシングがバイアスを増幅することを示した。 このような分析で導かれたBeMapは,各ノードの1ホップ隣人の数を異なるグループ間でバランスをとるために,バランスを考慮したサンプリング戦略を活用するフェアメッセージパッシング手法である。 ノード分類に関する大規模な実験は,分類精度を維持しつつバイアス軽減のためのBeMap法の有効性を示した。

Graph Neural Network (GNN) has shown strong empirical performance in many downstream tasks by iteratively aggregating information from the local neighborhood of each node, i.e., message passing. However, concrete evidence has revealed that a graph neural network could be biased against certain demographic groups, which calls for the consideration of algorithmic fairness. Despite the increasing efforts in ensuring algorithmic fairness on graph neural networks, they often do not explicitly consider the induced bias caused by message passing in GNN during training. In this paper, we first investigate the problem of bias amplification in message passing. We empirically and theoretically demonstrate that message passing could amplify the bias when the 1-hop neighbors from different demographic groups are unbalanced. Guided by such analyses, we propose BeMap, a fair message passing method, that leverages a balance-aware sampling strategy to balance the number of the 1-hop neighbors of each node among different demographic groups. Extensive experiments on node classification demonstrate the efficacy of our proposed BeMap method in mitigating bias while maintaining classification accuracy.
翻訳日:2023-06-08 16:27:01 公開日:2023-06-07
# 一般化Werner状態における2量子絡みのシングルキュービット計測

Single-qubit measurement of two-qubit entanglement in generalized Werner states ( http://arxiv.org/abs/2306.04103v1 )

ライセンス: Link先を確認
Salini Rajeev and Mayukh Lahiri(参考訳) 従来の2量子フォトニック混合状態における絡み合いの測定方法は、両方の量子ビットの検出を必要とする。 両キュービット検出を必要とせず,より広い絡み合った状態のクラスをカバーするように拡張することで,最近導入された手法を一般化した。 具体的には、ワーナー状態の一般化によって得られる2量子混合状態の族におけるエンタングルメントを、量子ビットの1つを検出せずに測定する方法を示す詳細な理論を示す。 本手法は干渉計であり, 偶然の計測やポストセレクションは不要である。 また,本手法が実験的に実装可能であり,実験的損失に対する耐性を示すために,予測される実験不完全さを定量的に解析する。

Conventional methods of measuring entanglement in a two-qubit photonic mixed state require the detection of both qubits. We generalize a recently introduced method which does not require the detection of both qubits, by extending it to cover a wider class of entangled states. Specifically, we present a detailed theory that shows how to measure entanglement in a family of two-qubit mixed states - obtained by generalizing Werner states - without detecting one of the qubits. Our method is interferometric and does not require any coincidence measurement or postselection. We also perform a quantitative analysis of anticipated experimental imperfections to show that the method is experimentally implementable and resistant to experimental losses.
翻訳日:2023-06-08 16:26:44 公開日:2023-06-07
# SANGEET: ヒンドゥーシャニー・サンジェットにおける研究のためのXMLベースのオープンデータセット

SANGEET: A XML based Open Dataset for Research in Hindustani Sangeet ( http://arxiv.org/abs/2306.04148v1 )

ライセンス: Link先を確認
Chandan Misra and Swarup Chattopadhyay(参考訳) 多様なアプリケーションで有用なリッチな音楽データセットにアクセスすることが非常に重要です。 現在利用可能なデータセットは、主に音声や楽器の録音データを保存し、その視覚的表現と検索の要求を無視している。 本稿では,有名な音楽学者ptによるヒンドゥースターニ・サンギート(北インド古典音楽)の包括的情報を格納するxmlベースの公開データセットsangeetの構築を試みる。 ヴィシュヌ・ナラヤン・バトカンデ(vishnu narayan bhatkhande)。 SANGEETは、メタデータ、構造的、表記的、リズム的、メロディ的な情報を標準化された方法で保存し、音楽情報の簡易かつ効率的な保存と抽出を行う。 このデータセットは、音楽情報研究タスクの真理情報を提供することを目的としており、機械学習の観点からのデータ駆動分析をサポートする。 本稿では,XQuery を用いた音楽情報検索,Omenad レンダリングシステムによる可視化におけるデータセットの有用性を示す。 最後に,ヒンドゥーシュタニ・サンギートの理解を深めるために,統計的および機械学習タスクを行うためのデータセットを変換する手法を提案する。 データセットはhttps://github.com/cmisra/sangeetにある。

It is very important to access a rich music dataset that is useful in a wide variety of applications. Currently, available datasets are mostly focused on storing vocal or instrumental recording data and ignoring the requirement of its visual representation and retrieval. This paper attempts to build an XML-based public dataset, called SANGEET, that stores comprehensive information of Hindustani Sangeet (North Indian Classical Music) compositions written by famous musicologist Pt. Vishnu Narayan Bhatkhande. SANGEET preserves all the required information of any given composition including metadata, structural, notational, rhythmic, and melodic information in a standardized way for easy and efficient storage and extraction of musical information. The dataset is intended to provide the ground truth information for music information research tasks, thereby supporting several data-driven analysis from a machine learning perspective. We present the usefulness of the dataset by demonstrating its application on music information retrieval using XQuery, visualization through Omenad rendering system. Finally, we propose approaches to transform the dataset for performing statistical and machine learning tasks for a better understanding of Hindustani Sangeet. The dataset can be found at https://github.com/cmisra/Sangeet.
翻訳日:2023-06-08 16:19:12 公開日:2023-06-07
# cfdp: 共通周波数領域のプルーニング

CFDP: Common Frequency Domain Pruning ( http://arxiv.org/abs/2306.04147v1 )

ライセンス: Link先を確認
Samir Khaki, Weihan Luo(参考訳) ニューラルネットワークに関して言えば、それはもっと真実ではありませんでした。 プルーニング(pruning)は、ネットワークの不要な部分を選択的に切り離して、より合理化され効率的なアーキテクチャを作り出す技術である。 本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。 本研究は,中間モデル出力の相互運用とその空間領域を超えての意義を浮き彫りにすることを目的とする。 提案手法は,共通周波数領域抽出(CFDP)と呼ばれ,特徴マップ上に定義された共通周波数特性を抽出し,その表現の学習における重要度に基づいて,各層のチャネルをランク付けすることを目的としている。 CFDPのパワーを利用して、GoogLeNetによるCIFAR-10の最先端の成果を95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。 また、トレーニング可能なパラメータの55%とFLOPの60%しか使用せず、すべてのベンチマークを上回り、ImageNetで元のモデルのパフォーマンスと一致しています。 注目すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、トレーニングされていないニューラルネットワークからのプルーニングや、敵攻撃に対する抵抗など、さまざまな構成に対して堅牢性を示す。 実装コードはhttps://github.com/Skhaki18/CFDPで確認できる。

As the saying goes, sometimes less is more -- and when it comes to neural networks, that couldn't be more true. Enter pruning, the art of selectively trimming away unnecessary parts of a network to create a more streamlined, efficient architecture. In this paper, we introduce a novel end-to-end pipeline for model pruning via the frequency domain. This work aims to shed light on the interoperability of intermediate model outputs and their significance beyond the spatial domain. Our method, dubbed Common Frequency Domain Pruning (CFDP) aims to extrapolate common frequency characteristics defined over the feature maps to rank the individual channels of a layer based on their level of importance in learning the representation. By harnessing the power of CFDP, we have achieved state-of-the-art results on CIFAR-10 with GoogLeNet reaching an accuracy of 95.25%, that is, +0.2% from the original model. We also outperform all benchmarks and match the original model's performance on ImageNet, using only 55% of the trainable parameters and 60% of the FLOPs. In addition to notable performances, models produced via CFDP exhibit robustness to a variety of configurations including pruning from untrained neural architectures, and resistance to adversarial attacks. The implementation code can be found at https://github.com/Skhaki18/CFDP.
翻訳日:2023-06-08 16:18:49 公開日:2023-06-07
# UCTB:時空間群流予測のための都市コンピューティングツールボックス

UCTB: An Urban Computing Tool Box for Spatiotemporal Crowd Flow Prediction ( http://arxiv.org/abs/2306.04144v1 )

ライセンス: Link先を確認
Liyue Chen, Di Chai, Leye Wang(参考訳) 時空間の群集フロー予測はスマートシティにおける重要な技術のひとつだ。 現在、関連する研究と実践を苦しめる2つの主要な痛点がある。 まず、クラウドフローは複数のドメイン知識要因に関連しているが、アプリケーションシナリオの多様性のため、その後の作業でドメイン知識を合理的かつ包括的な利用することは困難である。 第二に、ディープラーニング技術の発展に伴い、関連する技術の実装はますます複雑化しており、高度なモデルを再現することは、時間と手間のかかる作業となっている。 これらの問題に対処するために、複数の時空間知識と最先端モデルを同時に統合したUCTB(Urban Computing Tool Box)と呼ばれる時空間群流予測ツールボックスを設計、実装する。 関連するコードとサポートドキュメントはhttps://github.com/uctb/UCTBでオープンソース化されている。

Spatiotemporal crowd flow prediction is one of the key technologies in smart cities. Currently, there are two major pain points that plague related research and practitioners. Firstly, crowd flow is related to multiple domain knowledge factors; however, due to the diversity of application scenarios, it is difficult for subsequent work to make reasonable and comprehensive use of domain knowledge. Secondly, with the development of deep learning technology, the implementation of relevant techniques has become increasingly complex; reproducing advanced models has become a time-consuming and increasingly cumbersome task. To address these issues, we design and implement a spatiotemporal crowd flow prediction toolbox called UCTB (Urban Computing Tool Box), which integrates multiple spatiotemporal domain knowledge and state-of-the-art models simultaneously. The relevant code and supporting documents have been open-sourced at https://github.com/uctb/UCTB.
翻訳日:2023-06-08 16:18:27 公開日:2023-06-07
# 生成AIの芸術と科学:より深く掘り下げる

Art and the science of generative AI: A deeper dive ( http://arxiv.org/abs/2306.04141v1 )

ライセンス: Link先を確認
Ziv Epstein, Aaron Hertzmann, Laura Herman, Robert Mahari, Morgan R. Frank, Matthew Groh, Hope Schroeder, Amy Smith, Memo Akten, Jessica Fjeld, Hany Farid, Neil Leach, Alex Pentland, and Olga Russakovsky(参考訳) ジェネレーティブAIと呼ばれる新しい種類のツールは、ビジュアルアート、コンセプトアート、音楽、フィクション、文学、ビデオ、アニメーションのための高品質な芸術メディアを作成することができる。 これらのツールの生成能力は、クリエーターがアイデアを定式化し生産する創造的プロセスを根本的に変える可能性が高い。 創造性は再想像されるので、社会の多くの分野も考えられる。 生成aiの影響を理解し、それに関する政策決定を行うには、文化、経済学、法、アルゴリズム、および技術と創造性の相互作用に関する新しい学際的な科学的調査が必要である。 我々は、生成的AIは芸術の終焉のハービンジャーではなく、独自の余裕を持つ新しい媒体であると主張している。 ここでは、美学と文化、所有権と信用に関する法的問題、創造的な仕事の将来、現代メディアエコシステムへの影響の4つのテーマにまたがるクリエイターに対する、この新しいメディアの影響について考察する。 これらのテーマをまたいで、我々は、テクノロジーの政策と有益な利用を知らせる重要な研究課題と指示を強調する。

A new class of tools, colloquially called generative AI, can produce high-quality artistic media for visual arts, concept art, music, fiction, literature, video, and animation. The generative capabilities of these tools are likely to fundamentally alter the creative processes by which creators formulate ideas and put them into production. As creativity is reimagined, so too may be many sectors of society. Understanding the impact of generative AI - and making policy decisions around it - requires new interdisciplinary scientific inquiry into culture, economics, law, algorithms, and the interaction of technology and creativity. We argue that generative AI is not the harbinger of art's demise, but rather is a new medium with its own distinct affordances. In this vein, we consider the impacts of this new medium on creators across four themes: aesthetics and culture, legal questions of ownership and credit, the future of creative work, and impacts on the contemporary media ecosystem. Across these themes, we highlight key research questions and directions to inform policy and beneficial uses of the technology.
翻訳日:2023-06-08 16:18:13 公開日:2023-06-07
# 精度を維持しながら多様性を高める:大規模言語モデルによるテキストデータ生成と人間の介入

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions ( http://arxiv.org/abs/2306.04140v1 )

ライセンス: Link先を確認
John Joon Young Chung, Ece Kamar, Saleema Amershi(参考訳) 大規模言語モデル(llm)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために使用できる。 しかし、llmで高品質なデータセットを作成するのは困難である。 本研究では,LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。 まずテキスト生成を多様化する2つのアプローチについて検討する。 1) ロジット抑制は,すでに頻繁に生成されている言語の発生を最小限に抑える。 2) 温度サンプリングは, トークンサンプリングの確率を平らにする。 多様化アプローチはデータの多様性を高めるが、多くの場合、データ精度(テキストやラベルが対象のドメインに適している)の犠牲になる。 この問題に対処するため、我々は2つの人間の介入を検討した。 1)ラベル置換(lr)、ミスアライメントの修正、及び 2) スコープ外フィルタリング(OOSF)、ユーザの関心領域外または考慮されたラベルが適用されないインスタンスの削除。 オラクルの研究により、LRは多様なデータセットで訓練されたモデルの絶対精度を14.4%向上させることがわかった。 さらに、LR干渉によるデータ生成を訓練したモデルでは、LLMによる少数ショット分類よりも優れていた。 これとは対照的に、OOSFはモデル精度を高めるには効果がなく、将来のヒューマン・イン・ザ・ループのテキストデータ生成の必要性が示唆された。

Large language models (LLMs) can be used to generate text data for training and evaluating other models. However, creating high-quality datasets with LLMs can be challenging. In this work, we explore human-AI partnerships to facilitate high diversity and accuracy in LLM-based text data generation. We first examine two approaches to diversify text generation: 1) logit suppression, which minimizes the generation of languages that have already been frequently generated, and 2) temperature sampling, which flattens the token sampling probability. We found that diversification approaches can increase data diversity but often at the cost of data accuracy (i.e., text and labels being appropriate for the target domain). To address this issue, we examined two human interventions, 1) label replacement (LR), correcting misaligned labels, and 2) out-of-scope filtering (OOSF), removing instances that are out of the user's domain of interest or to which no considered label applies. With oracle studies, we found that LR increases the absolute accuracy of models trained with diversified datasets by 14.4%. Moreover, we found that some models trained with data generated with LR interventions outperformed LLM-based few-shot classification. In contrast, OOSF was not effective in increasing model accuracy, implying the need for future work in human-in-the-loop text data generation.
翻訳日:2023-06-08 16:17:55 公開日:2023-06-07
# 構造データの生成拡散モデルに関する調査研究

A Survey on Generative Diffusion Models for Structured Data ( http://arxiv.org/abs/2306.04139v1 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) 近年, 生成拡散モデルでは, 様々なアプリケーションにまたがる基礎的な性能を示すことによって, 深層生成モデルのパラダイムシフトが急速に進んでいる。 一方、表データと時系列データを含む構造化データは、その全盛期と広範な応用にもかかわらず、ディープラーニング研究コミュニティから比較的限定的な注目を集めている。 したがって、コンピュータビジョンや自然言語処理といった他のデータモダリティと比較して、拡散モデルによる構造化データモデリングに関する文献やレビューは依然として欠落している。 そこで本稿では,最近提案されている構造データ分野の拡散モデルの包括的レビューを行う。 まず、この調査はスコアベースの拡散モデル理論の簡潔な概観を提供し、その後、データ駆動型汎用タスクとドメイン固有アプリケーションの両方で構造化データを用いた多くの先駆的作業の技術的記述へと進みます。 その後,既存の研究における限界や課題を分析し,議論し,今後の研究方向性を提案する。 このレビューが研究コミュニティの触媒となり、構造化データの生成拡散モデルの発展を促進することを願っている。

In recent years, generative diffusion models have achieved a rapid paradigm shift in deep generative models by showing groundbreaking performance across various applications. Meanwhile, structured data, encompassing tabular and time series data, has been received comparatively limited attention from the deep learning research community, despite its omnipresence and extensive applications. Thus, there is still a lack of literature and its review on structured data modelling via diffusion models, compared to other data modalities such as computer vision and natural language processing. Hence, in this paper, we present a comprehensive review of recently proposed diffusion models in the field of structured data. First, this survey provides a concise overview of the score-based diffusion model theory, subsequently proceeding to the technical descriptions of the majority of pioneering works using structured data in both data-driven general tasks and domain-specific applications. Thereafter, we analyse and discuss the limitations and challenges shown in existing works and suggest potential research directions. We hope this review serves as a catalyst for the research community, promoting the developments in generative diffusion models for structured data.
翻訳日:2023-06-08 16:17:33 公開日:2023-06-07
# ゼロショット知識グラフ質問応答のための知識強化言語モデルプロンプト

Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering ( http://arxiv.org/abs/2306.04136v1 )

ライセンス: Link先を確認
Jinheon Baek, Alham Fikri Aji, Amir Saffari(参考訳) 大言語モデル(LLM)は、事前学習中にパラメータに格納された内部知識に基づいて、ゼロショットのクローズドブック質問応答タスクを実行することができる。 しかし、そのような内在的な知識は不十分で不正確であり、LCMは事実的に間違った答えを生み出す可能性がある。 さらに、知識を更新するための微調整 LLM は高価である。 そこで本研究では,LLMの入力における知識を直接拡張することを提案する。 具体的には、まず、質問とその関連事実間の意味的類似性に基づいて、知識グラフから入力質問に対する関連事実を検索する。 その後、抽出した事実をプロンプトの形で入力問題にプリペイドし、LSMに転送して回答を生成する。 我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。 我々は,知識グラフ上の事実に基づいてユーザの質問に答えることを目的とした知識グラフ質問応答タスクにおいて,KAPINGフレームワークの性能を検証した。

Large Language Models (LLMs) are capable of performing zero-shot closed-book question answering tasks, based on their internal knowledge stored in parameters during pre-training. However, such internalized knowledge might be insufficient and incorrect, which could lead LLMs to generate factually wrong answers. Furthermore, fine-tuning LLMs to update their knowledge is expensive. To this end, we propose to augment the knowledge directly in the input of LLMs. Specifically, we first retrieve the relevant facts to the input question from the knowledge graph based on semantic similarities between the question and its associated facts. After that, we prepend the retrieved facts to the input question in the form of the prompt, which is then forwarded to LLMs to generate the answer. Our framework, Knowledge-Augmented language model PromptING (KAPING), requires no model training, thus completely zero-shot. We validate the performance of our KAPING framework on the knowledge graph question answering task, that aims to answer the user's question based on facts over a knowledge graph, on which ours outperforms relevant zero-shot baselines by up to 48% in average, across multiple LLMs of various sizes.
翻訳日:2023-06-08 16:17:15 公開日:2023-06-07
# 集合論的埋め込みによる合成クエリへの応答

Answering Compositional Queries with Set-Theoretic Embeddings ( http://arxiv.org/abs/2306.04133v1 )

ライセンス: Link先を確認
Shib Dasgupta, Andrew McCallum, Steffen Rendle, Li Zhang(参考訳) 項目-属性関係をコンパクトかつ堅牢に表現する必要性は、ファステッドブラウジングやレコメンデーションシステムなど、多くの重要なタスクで生じる。 このタスクの一般的な機械学習アプローチは、アイテムがアイテムのベクトルと属性の間の高いドット積によって属性を持つことを意味する。 この方法は、単一の属性でアイテムを検索するクエリ(例えば、コメディーである \emph{movies} など)にうまく機能するが、ベクトル埋め込みは、構成的なクエリ(コメディーである映画や、ロマンスではない映画など)を正確にサポートしていない。 これらの集合論的構成に対処するため,本論文ではベクトルを,学習可能なベン図と考えることができる領域ベースの表現であるボックス埋め込みに置き換える手法を提案する。 本稿では,合成クエリのための新しいベンチマークデータセットを導入し,両者の動作に関する洞察を与える実験と分析を行う。 ベクトルとボックスの埋め込みは、単一属性クエリに等しく適しているが、合成クエリボックスの埋め込みは、特にユーザーの検索やブラウジングに最も有用である、適度で大きな検索セットサイズにおいて、ベクターよりもかなり有利である。

The need to compactly and robustly represent item-attribute relations arises in many important tasks, such as faceted browsing and recommendation systems. A popular machine learning approach for this task denotes that an item has an attribute by a high dot-product between vectors for the item and attribute -- a representation that is not only dense, but also tends to correct noisy and incomplete data. While this method works well for queries retrieving items by a single attribute (such as \emph{movies that are comedies}), we find that vector embeddings do not so accurately support compositional queries (such as movies that are comedies and British but not romances). To address these set-theoretic compositions, this paper proposes to replace vectors with box embeddings, a region-based representation that can be thought of as learnable Venn diagrams. We introduce a new benchmark dataset for compositional queries, and present experiments and analysis providing insights into the behavior of both. We find that, while vector and box embeddings are equally suited to single attribute queries, for compositional queries box embeddings provide substantial advantages over vectors, particularly at the moderate and larger retrieval set sizes that are most useful for users' search and browsing.
翻訳日:2023-06-08 16:16:58 公開日:2023-06-07
# マルチモーダル核融合相互作用:人間と自動定量化の研究

Multimodal Fusion Interactions: A Study of Human and Automatic Quantification ( http://arxiv.org/abs/2306.04125v1 )

ライセンス: Link先を確認
Paul Pu Liang, Yun Cheng, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 多重異種信号と相互接続信号のマルチモーダル融合は、ほとんど全てのマルチモーダル問題や応用において根本的な課題である。 マルチモーダル融合を行うには、モダリティが提示できる相互作用の種類を理解する必要がある: それぞれのモダリティがタスクにどのように役立つ情報を提供するか、そして、その情報が他のモダリティの存在下でどのように変化するか。 In this paper, we perform a comparative study of how human annotators can be leveraged to annotate two categorizations of multimodal interactions: (1) partial labels, where different randomly assigned annotators annotate the label given the first, second, and both modalities, and (2) counterfactual labels, where the same annotator is tasked to annotate the label given the first modality before giving them the second modality and asking them to explicitly reason about how their answer changes, before proposing an alternative taxonomy based on (3) information decomposition, where annotators annotate the degrees of redundancy: the extent to which modalities individually and together give the same predictions on the task, uniqueness: the extent to which one modality enables a task prediction that the other does not, and synergy: the extent to which only both modalities enable one to make a prediction about the task that one would not otherwise make using either modality individually. 広範な実験とアノテーションを通じて,各アプローチの機会と限界を強調し,部分ラベルと反事実ラベルのアノテーションを情報分解に自動変換する手法を提案し,マルチモーダルデータセットにおけるインタラクションを高精度かつ効率的に定量化する手法を提案する。

Multimodal fusion of multiple heterogeneous and interconnected signals is a fundamental challenge in almost all multimodal problems and applications. In order to perform multimodal fusion, we need to understand the types of interactions that modalities can exhibit: how each modality individually provides information useful for a task and how this information changes in the presence of other modalities. In this paper, we perform a comparative study of how human annotators can be leveraged to annotate two categorizations of multimodal interactions: (1) partial labels, where different randomly assigned annotators annotate the label given the first, second, and both modalities, and (2) counterfactual labels, where the same annotator is tasked to annotate the label given the first modality before giving them the second modality and asking them to explicitly reason about how their answer changes, before proposing an alternative taxonomy based on (3) information decomposition, where annotators annotate the degrees of redundancy: the extent to which modalities individually and together give the same predictions on the task, uniqueness: the extent to which one modality enables a task prediction that the other does not, and synergy: the extent to which only both modalities enable one to make a prediction about the task that one would not otherwise make using either modality individually. Through extensive experiments and annotations, we highlight several opportunities and limitations of each approach and propose a method to automatically convert annotations of partial and counterfactual labels to information decomposition, yielding an accurate and efficient method for quantifying interactions in multimodal datasets.
翻訳日:2023-06-08 16:16:35 公開日:2023-06-07
# 局所テンプレート検索による再合成予測

Retrosynthesis Prediction with Local Template Retrieval ( http://arxiv.org/abs/2306.04123v1 )

ライセンス: Link先を確認
Shufang Xie, Rui Yan, Junliang Guo, Yingce Xia, Lijun Wu, Tao Qin(参考訳) 特定の標的分子の反応物質を予測するレトロシンセシスは、薬物の発見に必須の課題である。 近年,機械リースによるレトロシンセシス法は有望な成果を上げている。 本研究では,非パラメトリック検索によるテンプレートベースシステムの性能向上を目的とした局所的反応テンプレート検索手法RetroKNNを紹介する。 まず、トレーニングデータにローカルテンプレートを含むatom-templateストアとボンドテンプレートストアを構築し、推論中にk-nearest-neighbor(knn)検索でこれらのテンプレートから取得します。 検索されたテンプレートは、最終的な出力としてニューラルネットワーク予測と組み合わせられる。 さらに、隠れ表現と検索テンプレートに条件付きニューラルネットワークとKNN予測を併用する際の重みを調整するための軽量アダプタを提案する。 我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。 特にトップ1の精度では、USPTO-50Kデータセットで7.1%、USPTO-MITデータセットで12.0%改善しました。 これらの結果は,本手法の有効性を示すものである。

Retrosynthesis, which predicts the reactants of a given target molecule, is an essential task for drug discovery. In recent years, the machine learing based retrosynthesis methods have achieved promising results. In this work, we introduce RetroKNN, a local reaction template retrieval method to further boost the performance of template-based systems with non-parametric retrieval. We first build an atom-template store and a bond-template store that contain the local templates in the training data, then retrieve from these templates with a k-nearest-neighbor (KNN) search during inference. The retrieved templates are combined with neural network predictions as the final output. Furthermore, we propose a lightweight adapter to adjust the weights when combing neural network and KNN predictions conditioned on the hidden representation and the retrieved templates. We conduct comprehensive experiments on two widely used benchmarks, the USPTO-50K and USPTO-MIT. Especially for the top-1 accuracy, we improved 7.1% on the USPTO-50K dataset and 12.0% on the USPTO-MIT dataset. These results demonstrate the effectiveness of our method.
翻訳日:2023-06-08 16:16:13 公開日:2023-06-07
# ScoreCL: スコアマッチング機能による拡張適応型コントラスト学習

ScoreCL: Augmentation-Adaptive Contrastive Learning via Score-Matching Function ( http://arxiv.org/abs/2306.04175v1 )

ライセンス: Link先を確認
JinYoung Kim, Soonwoo Kwon, Hyojun Go, Yunsung Lee, and Seungtaek Choi(参考訳) 自己教師付きコントラスト学習(cl)は,正の対間の距離を最小化し,負の対の距離を最大化することで,表現学習における最先端のパフォーマンスを達成している。 近年、モデルがよりビュー不変であることを可能にするため、モデルが多彩に拡張された正のペアでより良い表現を学ぶことが確認されている。 しかし、clに関するいくつかの研究は、拡張ビューの違いを検討しており、手作りの発見を超えるものではなかった。 本稿では、まず、スコアマッチング関数が、元のデータから拡張までの変化量を測定することができることを観察する。 観測特性により、CL内の各ペアはスコア値の差により適応的に重み付けが可能となり、既存のCL法の性能が向上する。 我々は,CIFAR-10,CIFAR-100,ImageNet-100のk-NN評価において,SimCLR,SimSiam,W-MSE,VICRegの様々なCL法を一貫して改良し,ScoreCLと呼ばれる手法の一般性を示す。 また, 下流課題の多種多様な結果, ベースラインとの比較, 他の増補法と併用した場合の改善など, 徹底的な実験とアブレーションを行った。 CLのスコアマッチングの活用について、さらなる研究が期待できる。

Self-supervised contrastive learning (CL) has achieved state-of-the-art performance in representation learning by minimizing the distance between positive pairs while maximizing that of negative ones. Recently, it has been verified that the model learns better representation with diversely augmented positive pairs because they enable the model to be more view-invariant. However, only a few studies on CL have considered the difference between augmented views, and have not gone beyond the hand-crafted findings. In this paper, we first observe that the score-matching function can measure how much data has changed from the original through augmentation. With the observed property, every pair in CL can be weighted adaptively by the difference of score values, resulting in boosting the performance of the existing CL method. We show the generality of our method, referred to as ScoreCL, by consistently improving various CL methods, SimCLR, SimSiam, W-MSE, and VICReg, up to 3%p in k-NN evaluation on CIFAR-10, CIFAR-100, and ImageNet-100. Moreover, we have conducted exhaustive experiments and ablations, including results on diverse downstream tasks, comparison with possible baselines, and improvement when used with other proposed augmentation methods. We hope our exploration will inspire more research in exploiting the score matching for CL.
翻訳日:2023-06-08 16:10:36 公開日:2023-06-07
# 確率最適化のためのエンドツーエンド学習:ベイズ的視点

End-to-End Learning for Stochastic Optimization: A Bayesian Perspective ( http://arxiv.org/abs/2306.04174v1 )

ライセンス: Link先を確認
Yves Rychener, Daniel Kuhn Tobias Sutter(参考訳) 確率最適化におけるエンドツーエンド学習の原理的アプローチを開発する。 まず,標準エンドツーエンド学習アルゴリズムはベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。 そこで本研究では,実験的リスク最小化と分布的ロバストな最適化問題の解を導出する意思決定マップを訓練するための新しいエンド・ツー・エンド学習アルゴリズムを提案する。 合成ニューズベンダー問題に対する数値的な結果は、代替トレーニングスキームの主な違いを示している。 また,実データに基づく経済派遣問題についても検討し,意思決定地図のニューラルネットワークアーキテクチャがテスト性能に与える影響を明らかにした。

We develop a principled approach to end-to-end learning in stochastic optimization. First, we show that the standard end-to-end learning algorithm admits a Bayesian interpretation and trains a posterior Bayes action map. Building on the insights of this analysis, we then propose new end-to-end learning algorithms for training decision maps that output solutions of empirical risk minimization and distributionally robust optimization problems, two dominant modeling paradigms in optimization under uncertainty. Numerical results for a synthetic newsvendor problem illustrate the key differences between alternative training schemes. We also investigate an economic dispatch problem based on real data to showcase the impact of the neural network architecture of the decision maps on their test performance.
翻訳日:2023-06-08 16:10:10 公開日:2023-06-07
# 一つから判断する: 述語生成を伴う型付き補足グラフの構成

From the One, Judge of the Whole: Typed Entailment Graph Construction with Predicate Generation ( http://arxiv.org/abs/2306.04170v1 )

ライセンス: Link先を確認
Zhibin Chen, Yansong Feng, Dongyan Zhao(参考訳) Entailment Graphs (EGs) は、自然言語における文脈に依存しないentailment関係を示す強力な説明可能な形式として抽出されたコーパスに基づいて構築されている。 しかし、従来の手法で構築されたEGは、限られているコーパスと、述語分布の長い尾現象のために、しばしば深刻な空間問題に悩まされる。 本稿では,この問題に対処するため,多段階のTyped Predicate-Entailment Graph Generator (TP-EGG)を提案する。 いくつかの種述語が与えられた後、TP-EGGは新しい述語を生成し、それら間の関係を検出することによってグラフを構築する。 TP-EGGの生成特性は,大規模事前学習言語モデル(PLM)の最近の進歩を生かし,慎重に準備されたコーパスへの依存を回避するのに役立つ。 ベンチマークデータセットの実験によると、TP-EGGは高品質でスケール制御可能なエンターテイメントグラフを生成し、最先端のEGよりもドメイン内で大幅に改善され、下流推論タスクのパフォーマンスが向上する。

Entailment Graphs (EGs) have been constructed based on extracted corpora as a strong and explainable form to indicate context-independent entailment relations in natural languages. However, EGs built by previous methods often suffer from the severe sparsity issues, due to limited corpora available and the long-tail phenomenon of predicate distributions. In this paper, we propose a multi-stage method, Typed Predicate-Entailment Graph Generator (TP-EGG), to tackle this problem. Given several seed predicates, TP-EGG builds the graphs by generating new predicates and detecting entailment relations among them. The generative nature of TP-EGG helps us leverage the recent advances from large pretrained language models (PLMs), while avoiding the reliance on carefully prepared corpora. Experiments on benchmark datasets show that TP-EGG can generate high-quality and scale-controllable entailment graphs, achieving significant in-domain improvement over state-of-the-art EGs and boosting the performance of down-stream inference tasks.
翻訳日:2023-06-08 16:09:57 公開日:2023-06-07
# 効率的な交代最小化と軽量低ランク近似への応用

Efficient Alternating Minimization with Applications to Weighted Low Rank Approximation ( http://arxiv.org/abs/2306.04169v1 )

ライセンス: Link先を確認
Zhao Song, Mingquan Ye, Junze Yin, Lichen Zhang(参考訳) 重み付き低階近似は数値線形代数の基本的な問題であり、機械学習に多くの応用がある。 行列 $M \in \mathbb{R}^{n \times n}$, a weight matrix $W \in \mathbb{R}_{\geq 0}^{n \times n}$, a parameter $k$, the goal to output two matrices $U, V \in \mathbb{R}^{n \times k}$ that $\| W \circ (M - U V) \|_F$ is minimald, ここで$\circ$はアダマール積を表す。 そのような問題はNPハードであることが知られ、[RSW16] を近似するのも困難である。 一方、交互最小化は重み付き低階近似を近似する優れたヒューリスティック解である。 作業[llr16]は、穏やかな仮定の下で、交互の最小化が証明可能な保証を提供することを示している。 本研究では、最小化を交互に行うための効率的で堅牢なフレームワークを開発する。 重み付き低階近似では、[LLR16] のランタイムを $n^2k^2$ から $n^2k$ に改善する。 作業フレームワークの核心は、反復最小化の堅牢な解析とともに、高精度な多重応答回帰解法である。

Weighted low rank approximation is a fundamental problem in numerical linear algebra, and it has many applications in machine learning. Given a matrix $M \in \mathbb{R}^{n \times n}$, a weight matrix $W \in \mathbb{R}_{\geq 0}^{n \times n}$, a parameter $k$, the goal is to output two matrices $U, V \in \mathbb{R}^{n \times k}$ such that $\| W \circ (M - U V) \|_F$ is minimized, where $\circ$ denotes the Hadamard product. Such a problem is known to be NP-hard and even hard to approximate [RSW16]. Meanwhile, alternating minimization is a good heuristic solution for approximating weighted low rank approximation. The work [LLR16] shows that, under mild assumptions, alternating minimization does provide provable guarantees. In this work, we develop an efficient and robust framework for alternating minimization. For weighted low rank approximation, this improves the runtime of [LLR16] from $n^2 k^2$ to $n^2k$. At the heart of our work framework is a high-accuracy multiple response regression solver together with a robust analysis of alternating minimization.
翻訳日:2023-06-08 16:09:35 公開日:2023-06-07
# baa-ngp:バンドル調整型高速化ニューラルグラフィックスプリミティブ

BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives ( http://arxiv.org/abs/2306.04166v1 )

ライセンス: Link先を確認
Sainan Liu, Shan Lin, Jingpei Lu, Shreya Saha, Alexey Supikov, Michael Yip(参考訳) 暗黙的な神経表現は、2d画像から3dシーンを再構築する強力な方法として現れた。 カメラのポーズと関連する画像をセットすれば、モデルは新しく見えないビューを合成するように訓練することができる。 暗黙的な神経表現のユースケースを広げるためには,カメラが一般的に追跡されていない実世界の映像列からシーンを再構築するために必要な表現学習の一環として,カメラのポーズ推定機能を組み込む必要がある。 colmapのような既存のアプローチや、最近では、バンドル調整ニューラルラミアンスフィールドメソッドは、しばしば長い処理時間に苦しむ。 これらの遅延は、時間から日、面倒な特徴マッチング、ハードウェアの制限、高密度点サンプリング、そして多数のパラメータを持つ多層パーセプトロン構造で必要とされる長い訓練時間から生じる。 これらの課題に対処するため,バンドル調整高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。 提案手法は,ポーズリファインメント/推定と3次元シーン再構成の両方を高速化するために,サンプリングとハッシュエンコーディングを高速化する。 実験により,提案手法は,ポーズ推定の品質を犠牲にすることなく,他のバンドル調整型ニューラルラディアンス場法と比較して,新しいビュー合成における10~20ドル以上の速度向上を実現していることが示された。

Implicit neural representation has emerged as a powerful method for reconstructing 3D scenes from 2D images. Given a set of camera poses and associated images, the models can be trained to synthesize novel, unseen views. In order to expand the use cases for implicit neural representations, we need to incorporate camera pose estimation capabilities as part of the representation learning, as this is necessary for reconstructing scenes from real-world video sequences where cameras are generally not being tracked. Existing approaches like COLMAP and, most recently, bundle-adjusting neural radiance field methods often suffer from lengthy processing times. These delays ranging from hours to days, arise from laborious feature matching, hardware limitations, dense point sampling, and long training times required by a multi-layer perceptron structure with a large number of parameters. To address these challenges, we propose a framework called bundle-adjusting accelerated neural graphics primitives (BAA-NGP). Our approach leverages accelerated sampling and hash encoding to expedite both pose refinement/estimation and 3D scene reconstruction. Experimental results demonstrate that our method achieves a more than 10 to 20 $\times$ speed improvement in novel view synthesis compared to other bundle-adjusting neural radiance field methods without sacrificing the quality of pose estimation.
翻訳日:2023-06-08 16:09:06 公開日:2023-06-07
# 仮想アシスタントインテリジェンスの強化: メタデータを超えたインスタンスレベルのユーザインテントの正確な領域ターゲティング

Enhancing Virtual Assistant Intelligence: Precise Area Targeting for Instance-level User Intents beyond Metadata ( http://arxiv.org/abs/2306.04163v1 )

ライセンス: Link先を確認
Mengyu Chen, Zhenchang Xing, Jieshan Chen, Chunyang Chen and Qinghua Lu(参考訳) バーチャルアシスタントは近年、携帯電話ユーザーの間で広く利用されている。 ユーザインテントの処理能力は急速に向上しているが、ほとんどのプラットフォームにおける仮想アシスタントは、開発者が手作業でサポートする事前定義されたハイレベルタスクのみを処理できる。 しかし、複雑な実用的な状況でより詳細な目的を含むインスタンスレベルのユーザインテントは、今のところほとんど研究されていない。 本稿では,アプリケーション側で追加拡張を必要とせずに,アプリケーション画面のピクセルに基づいてインスタンスレベルのユーザ意図を処理できる仮想アシスタントについて検討する。 入力音声やテキストのインスタンスレベルのユーザ意図を理解し,ターゲットとする操作領域を予測し,アプリケーションメタデータを使わずに画面上の絶対ボタン領域を検出する,新たなクロスモーダルディープラーニングパイプラインを提案する。 テストデータセットをインスタンスレベルのユーザインテントで収集するために,参加者10名を対象にユーザスタディを実施した。 テストデータセットは、テストデータセットにおける64.43%の精度で、私たちのモデルが有望であることを示すために、私たちのモデルのパフォーマンスを評価するために利用されます。

Virtual assistants have been widely used by mobile phone users in recent years. Although their capabilities of processing user intents have been developed rapidly, virtual assistants in most platforms are only capable of handling pre-defined high-level tasks supported by extra manual efforts of developers. However, instance-level user intents containing more detailed objectives with complex practical situations, are yet rarely studied so far. In this paper, we explore virtual assistants capable of processing instance-level user intents based on pixels of application screens, without the requirements of extra extensions on the application side. We propose a novel cross-modal deep learning pipeline, which understands the input vocal or textual instance-level user intents, predicts the targeting operational area, and detects the absolute button area on screens without any metadata of applications. We conducted a user study with 10 participants to collect a testing dataset with instance-level user intents. The testing dataset is then utilized to evaluate the performance of our model, which demonstrates that our model is promising with the achievement of 64.43% accuracy on our testing dataset.
翻訳日:2023-06-08 16:08:41 公開日:2023-06-07
# 双方向歩行ネット:ヒト歩行と解剖条件の双方向予測モデル

Bidirectional GaitNet: A Bidirectional Prediction Model of Human Gait and Anatomical Conditions ( http://arxiv.org/abs/2306.04161v1 )

ライセンス: Link先を確認
Jungnam Park, Moon Seok Park, Jehee Lee, Jungdam Won(参考訳) 本稿では,人間の解剖学と歩行の関係を学習する双方向歩行ネットという新しい生成モデルを提案する。 ヒト解剖学のシミュレーションモデルは,304ヒル型筋腱を用いた全身,シミュレーション可能な筋骨格モデルである。 Bidirectional GaitNetは前方モデルと後方モデルで構成されている。 フォワードモデルは、特定の身体的条件を有する人の歩行パターンを予測し、後方モデルは、歩行パターンが与えられたときの人の身体的状態を推定する。 シミュレーションに基づくアプローチでは,まず最先端の歩行シミュレータによって生成されたシミュレーションデータを蒸留し,学習した前方モデルをデコーダとして可変オートエンコーダ(VAE)を構築する。 一度学習すると、エンコーダは後方モデルとして機能する。 各種健常者/障害者の歩行をモデルとし,実際の患者の身体検査データと比較検討した。

We present a novel generative model, called Bidirectional GaitNet, that learns the relationship between human anatomy and its gait. The simulation model of human anatomy is a comprehensive, full-body, simulation-ready, musculoskeletal model with 304 Hill-type musculotendon units. The Bidirectional GaitNet consists of forward and backward models. The forward model predicts a gait pattern of a person with specific physical conditions, while the backward model estimates the physical conditions of a person when his/her gait pattern is provided. Our simulation-based approach first learns the forward model by distilling the simulation data generated by a state-of-the-art predictive gait simulator and then constructs a Variational Autoencoder (VAE) with the learned forward model as its decoder. Once it is learned its encoder serves as the backward model. We demonstrate our model on a variety of healthy/impaired gaits and validate it in comparison with physical examination data of real patients.
翻訳日:2023-06-08 16:08:20 公開日:2023-06-07
# コントラスト学習における弱視の再考

Rethinking Weak Supervision in Helping Contrastive Learning ( http://arxiv.org/abs/2306.04160v1 )

ライセンス: Link先を確認
Jingyi Cui, Weiran Huang, Yifei Wang, Yisen Wang(参考訳) コントラスト学習は、教師付き学習と教師なし学習の両方において優れた性能を示し、半教師付き学習や雑音付きラベル学習のような弱教師付き学習問題を解決するために最近導入された。 半教師付きラベルがコントラスト学習の表現を改善するという実証的な証拠があるが、手作業の後に教師付き情報を直接トレーニングに使用できるかどうかは不明である。 そこで, 半教師情報と雑音ラベル情報との機械的な差異を比較学習の助けとして探究するために, 弱監督下でのコントラスト学習の統一的な理論的枠組みを確立した。 具体的には,教師なしおよび教師なしのコントラスト損失を共同訓練する最も直感的なパラダイムについて検討する。 弱教師付き情報を,弱ラベルの後方確率に基づくスペクトルクラスタリングの枠組みの下で類似度グラフに翻訳することにより,下流分類誤差境界を確立する。 半教師付きラベルはダウンストリームエラーバウンドを改善するが、ノイズラベルはそのようなパラダイム下では限定的な効果を持つ。 ここでの理論的知見は、コントラスト学習における弱監督の役割を再考する新たな洞察を与えるものである。

Contrastive learning has shown outstanding performances in both supervised and unsupervised learning, and has recently been introduced to solve weakly supervised learning problems such as semi-supervised learning and noisy label learning. Despite the empirical evidence showing that semi-supervised labels improve the representations of contrastive learning, it remains unknown if noisy supervised information can be directly used in training instead of after manual denoising. Therefore, to explore the mechanical differences between semi-supervised and noisy-labeled information in helping contrastive learning, we establish a unified theoretical framework of contrastive learning under weak supervision. Specifically, we investigate the most intuitive paradigm of jointly training supervised and unsupervised contrastive losses. By translating the weakly supervised information into a similarity graph under the framework of spectral clustering based on the posterior probability of weak labels, we establish the downstream classification error bound. We prove that semi-supervised labels improve the downstream error bound whereas noisy labels have limited effects under such a paradigm. Our theoretical findings here provide new insights for the community to rethink the role of weak supervision in helping contrastive learning.
翻訳日:2023-06-08 16:08:04 公開日:2023-06-07
# 任意擬似集団-スピン相互作用によるスピンスクイーズ

Spin Squeezing with Arbitrary Quadratic Collective-Spin Interaction ( http://arxiv.org/abs/2306.04156v1 )

ライセンス: Link先を確認
Zhiyao Hu, Qixian Li, Xuanchen Zhang, Long-Gang Huang, He-bin Zhang, Yong-Chun Liu(参考訳) スピンスクイージングは量子力学と量子情報科学において極めて重要である。 スピンスクイーズによるノイズ低減は、標準的な量子限界を超え、特別な状況下でハイゼンベルク限界(HL)に達することもある。 しかし、HLに到達できるシステムは非常に限られている。 ここでは、リプキン-メシュコフ-グリック(LMG)モデルで記述できる2次集団-スピン相互作用の一般的な形で原子系のスピンスクイーズを研究する。 スクイーズ特性は初期状態と異方性パラメータによって決定されることがわかった。 さらに,このモデルをハイゼンベルク限定スピンスクイーズ法により2軸ねじれモデルに変換するパルス回転方式を提案する。 我々の研究は、さまざまなシステムでHLに到達するための道を開いた。

Spin squeezing is vitally important in quantum metrology and quantum information science. The noise reduction resulting from spin squeezing can surpass the standard quantum limit and even reach the Heisenberg Limit (HL) in some special circumstances. However, systems that can reach the HL are very limited. Here we study the spin squeezing in atomic systems with a generic form of quadratic collective-spin interaction, which can be described by the Lipkin-Meshkov-Glick(LMG) model. We find that the squeezing properties are determined by the initial states and the anisotropic parameters. Moreover, we propose a pulse rotation scheme to transform the model into two-axis twisting model with Heisenberg-limited spin squeezing. Our study paves the way for reaching HL in a broad variety of systems.
翻訳日:2023-06-08 16:07:43 公開日:2023-06-07
# アスペクト・センシティメント・クオード予測のための一段階一段階解法

A Unified One-Step Solution for Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2306.04152v1 )

ライセンス: Link先を確認
Junxian Zhou, Haiqin Yang, Yuxuan He, Hao Mou, Junbo Yang(参考訳) アスペクト感情クワッド予測(ASQP)は、アスペクトレベルの感情構造を提供するため、アスペクトベースの感情分析において難しいが重要なサブタスクである。 しかし、既存のASQPデータセットは通常小さく、密度が低く、技術的進歩を妨げる。 容量を拡大するため,本論文では,asqpの2つの新しいデータセットをリリースする。 このようなデータセットを用いて,既存の強力なasqpベースラインの欠点を明らかにし,asqpの1段階統合ソリューションであるone-asqpを提案し,アスペクトカテゴリを検出し,aos(aspect-opinion-sentiment)三重項を同時に識別する。 Our One-ASQP holds several unique advantages: (1) by separating ASQP into two subtasks and solving them independently and simultaneously, we can avoid error propagation in pipeline-based methods and overcome slow training and inference in generation-based methods; (2) by introducing sentiment-specific horns tagging schema in a token-pair-based two-dimensional matrix, we can exploit deeper interactions between sentiment elements and efficiently decode the AOS triplets; (3) we design ``[NULL]'' token can help us effectively identify the implicit aspects or opinions. 2つのベンチマークデータセットと、リリースした2つのデータセットの実験は、One-ASQPの利点を示しています。 2つの新しいデータセットは、 \url{https://www.github.com/Datastory-CN/ASQP-Datasets} で公開されている。

Aspect sentiment quad prediction (ASQP) is a challenging yet significant subtask in aspect-based sentiment analysis as it provides a complete aspect-level sentiment structure. However, existing ASQP datasets are usually small and low-density, hindering technical advancement. To expand the capacity, in this paper, we release two new datasets for ASQP, which contain the following characteristics: larger size, more words per sample, and higher density. With such datasets, we unveil the shortcomings of existing strong ASQP baselines and therefore propose a unified one-step solution for ASQP, namely One-ASQP, to detect the aspect categories and to identify the aspect-opinion-sentiment (AOS) triplets simultaneously. Our One-ASQP holds several unique advantages: (1) by separating ASQP into two subtasks and solving them independently and simultaneously, we can avoid error propagation in pipeline-based methods and overcome slow training and inference in generation-based methods; (2) by introducing sentiment-specific horns tagging schema in a token-pair-based two-dimensional matrix, we can exploit deeper interactions between sentiment elements and efficiently decode the AOS triplets; (3) we design ``[NULL]'' token can help us effectively identify the implicit aspects or opinions. Experiments on two benchmark datasets and our released two datasets demonstrate the advantages of our One-ASQP. The two new datasets are publicly released at \url{https://www.github.com/Datastory-CN/ASQP-Datasets}.
翻訳日:2023-06-08 16:07:29 公開日:2023-06-07
# 学習学習のためのASRベースのチュータ:1年生へのフィードバックを最適化する方法

An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders ( http://arxiv.org/abs/2306.04190v1 )

ライセンス: Link先を確認
Yu Bai, Cristian Tejedor-Garcia, Ferdy Hubers, Catia Cucchiarini, Helmer Strik(参考訳) 近年,読影実践への応用への自動音声認識(ASR)の導入への関心が高まっている。 前報では,ASRをベースとしたオランダ語読解指導アプリケーションについて紹介し,初等生の読み方に対する即時フィードバックについて検討した。 その結果, ASR は読解過程の現段階において有意な可能性を秘めており, 学習者による読解精度, 流布率の向上が示唆された。 本研究では,既存のコーパス(jasmin)からの子どもの発話を用いて2つの新しいasrシステムの開発を行い,その結果を先行研究と比較した。 cohen's kappa, matthews correlation coefficient (mcc), precision, recall, f-measuresなどの評価尺度を用いて,単語レベルでの人間の書き起こしを用いたasrシステムの正誤分類を解析した。 我々は,人為的判断と正当性拒絶(CR)との合意に関して,新たに開発されたASRシステムの改善を観察する。 ASRシステムの精度は、読み出しタスクや単語の種類によって異なる。 その結果,現在の構成では孤立した単語の分類が困難であることが示唆された。 これらの結果、システム改善の可能な方法、今後の研究への道筋について論じる。

The interest in employing automatic speech recognition (ASR) in applications for reading practice has been growing in recent years. In a previous study, we presented an ASR-based Dutch reading tutor application that was developed to provide instantaneous feedback to first-graders learning to read. We saw that ASR has potential at this stage of the reading process, as the results suggested that pupils made progress in reading accuracy and fluency by using the software. In the current study, we used children's speech from an existing corpus (JASMIN) to develop two new ASR systems, and compared the results to those of the previous study. We analyze correct/incorrect classification of the ASR systems using human transcripts at word level, by means of evaluation measures such as Cohen's Kappa, Matthews Correlation Coefficient (MCC), precision, recall and F-measures. We observe improvements for the newly developed ASR systems regarding the agreement with human-based judgment and correct rejection (CR). The accuracy of the ASR systems varies for different reading tasks and word types. Our results suggest that, in the current configuration, it is difficult to classify isolated words. We discuss these results, possible ways to improve our systems and avenues for future research.
翻訳日:2023-06-08 16:00:33 公開日:2023-06-07
# 一階モデルカウントのための再帰関数の合成:挑戦,進歩,予想

Synthesising Recursive Functions for First-Order Model Counting: Challenges, Progress, and Conjectures ( http://arxiv.org/abs/2306.04189v1 )

ライセンス: Link先を確認
Paulius Dilkas, Vaishak Belle(参考訳) 1次モデルカウント(英: First-order model counting、FOMC)は、有限領域の1次論理において文のモデルを数えるように求める計算問題である。 本稿では,従来のFOMCアルゴリズムでは,多くの再帰的計算を表現できないため,その能力に制限があると主張している。 このような計算を可能にするために、通常、領域再帰を伴う制限を緩和し、サイクルを含む有向グラフに対してfomc問題の解を表現するのに使われる回路を一般化する。 この目的のために、最も確立された(重み付けされた)FOMCアルゴリズムであるForcLiftを、そのようなグラフを扱うように適応させ、再帰関数呼び出しをエンコードするサイクル誘導エッジを生成する新しいコンパイルルールを導入する。 これらの改良により、他のfomcアルゴリズムでは効率的に解くことができない問題を含む、それまで到達できなかった問題に対する効率的な解を見つけることができる。 結果として、どのインスタンスのクラスがドメインリフト可能かといういくつかの予想に終止符を打つ。

First-order model counting (FOMC) is a computational problem that asks to count the models of a sentence in finite-domain first-order logic. In this paper, we argue that the capabilities of FOMC algorithms to date are limited by their inability to express many types of recursive computations. To enable such computations, we relax the restrictions that typically accompany domain recursion and generalise the circuits used to express a solution to an FOMC problem to directed graphs that may contain cycles. To this end, we adapt the most well-established (weighted) FOMC algorithm ForcLift to work with such graphs and introduce new compilation rules that can create cycle-inducing edges that encode recursive function calls. These improvements allow the algorithm to find efficient solutions to counting problems that were previously beyond its reach, including those that cannot be solved efficiently by any other exact FOMC algorithm. We end with a few conjectures on what classes of instances could be domain-liftable as a result.
翻訳日:2023-06-08 16:00:10 公開日:2023-06-07
# 中国語文の簡易化のための新しいデータセットと経験的研究

A New Dataset and Empirical Study for Sentence Simplification in Chinese ( http://arxiv.org/abs/2306.04188v1 )

ライセンス: Link先を確認
Shiping Yang and Renliang Sun and Xiaojun Wan(参考訳) 文の単純化は、言語学習者と子供に多くの利益をもたらす貴重なテクニックである。 しかし、現在の研究は英語の文の単純化に重点を置いている。 中国語文の簡易化はデータの欠如により比較的遅い。 この制限を緩和するため,本稿では,中国語文の簡易化を評価するための新しいデータセットcssを紹介する。 人間の注釈者から手作業による簡易化を収集し,英語と中国語の簡易化の違いを示すデータ分析を行う。 さらに,css上での教師なしおよびゼロ/fewショット学習手法をいくつかテストし,自動評価と人間評価結果の分析を行った。 最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。

Sentence Simplification is a valuable technique that can benefit language learners and children a lot. However, current research focuses more on English sentence simplification. The development of Chinese sentence simplification is relatively slow due to the lack of data. To alleviate this limitation, this paper introduces CSS, a new dataset for assessing sentence simplification in Chinese. We collect manual simplifications from human annotators and perform data analysis to show the difference between English and Chinese sentence simplifications. Furthermore, we test several unsupervised and zero/few-shot learning methods on CSS and analyze the automatic evaluation and human evaluation results. In the end, we explore whether Large Language Models can serve as high-quality Chinese sentence simplification systems by evaluating them on CSS.
翻訳日:2023-06-08 15:59:49 公開日:2023-06-07
# knowledge-how & knowledge-that: ユーザマニュアルの機械読解のための新しいタスク

Knowing-how & Knowing-that: A New Task for Machine Reading Comprehension of User Manuals ( http://arxiv.org/abs/2306.04187v1 )

ライセンス: Link先を確認
Hongru Liang, Jia Liu, Weihong Du, dingnan jin, Wenqiang Lei, Zujie Wen, Jiancheng Lv(参考訳) ユーザマニュアルの機械読解(MRC)は、カスタマーサービスにおいて大きな可能性を秘めている。 しかし、現在の手法では複雑な質問に答えるのが困難である。 そこで本研究では,ユーザマニュアルに関するファクトイドスタイル,プロシージャスタイル,一貫性のない質問に対して,モデルが答える必要があるタスクの知識方法と知識について紹介する。 我々は,様々な質問の統一推論を支援するグラフ(TARA)のステップと事実を共同で表現することで,この課題を解決する。 体系的なベンチマーク研究に向けて,ユーザマニュアルをタラスに自動解析し,実世界の質問に答えるモデルの能力をテストするアノテートデータセットを構築するヒューリスティックな手法を設計した。 実験の結果,ユーザマニュアルをタラスとして表現することは,ユーザマニュアルのmrcに対して望ましいソリューションであることがわかった。 TARAの詳細な調査では、ユーザマニュアルの今後の表現に関する問題や、より広範な影響が明らかにされている。 私たちの仕事がユーザマニュアルのmrcをより複雑で現実的なステージに移行できることを願っています。

The machine reading comprehension (MRC) of user manuals has huge potential in customer service. However,current methods have trouble answering complex questions. Therefore, we introduce the Knowing-how & Knowing-that task that requires the model to answer factoid-style, procedure-style, and inconsistent questions about user manuals. We resolve this task by jointly representing the steps and facts in a graph (TARA), which supports a unified inference of various questions. Towards a systematical benchmarking study, we design a heuristic method to automatically parse user manuals into TARAs and build an annotated dataset to test the model's ability in answering real-world questions. Empirical results demonstrate that representing user manuals as TARAs is a desired solution for the MRC of user manuals. An in-depth investigation of TARA further sheds light on the issues and broader impacts of future representations of user manuals. We hope our work can move the MRC of user manuals to a more complex and realistic stage.
翻訳日:2023-06-08 15:59:37 公開日:2023-06-07
# クリップレベルとフレームレベルを両立する自己教師間トランスフォーマ

Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks ( http://arxiv.org/abs/2306.04186v1 )

ライセンス: Link先を確認
Xian Li, Nian Shao, and Xiaofei Li(参考訳) 近年,音声表現の学習手段としては,自己教師付き学習(SSL)が普及している。 オーディオ自己教師型事前学習の最終的な目標は、一般的にクリップレベルやフレームレベルのタスクを含む下流オーディオタスクに知識を伝達することである。 クリップレベルのタスクは、オーディオタグ付け、楽器認識など、オーディオクリップ全体のシーンまたはサウンドを分類する。 フレームレベルのタスクはオーディオクリップからイベントレベルのタイムスタンプ(音声イベント検出、話者ダイアリゼーションなど)を検出する。 先行研究では、主にクリップレベルのダウンストリームタスクを評価する。 フレームレベルのタスクは細かな音響シーン/イベント理解に重要であり、一般的にクリップレベルのタスクよりも難しい。 本稿では、クリップレベルとフレームレベルの両方に対処するために、クリップレベルとフレームレベルをそれぞれ学習するATST-ClipとATST-Frameの2つの自己教師型音声表現学習手法を提案する。 atstは「audio teacher-sudent transformer」の略で、両方の方法がトランスフォーマーエンコーダと教師-sudentトレーニングスキームを使用することを意味する。 特に、フレームレベルの音響イベント検出タスクにおいて、他のモデルよりも大きなマージンで勝っている。 さらに、知識蒸留により2つのモデルを組み合わせることにより、さらなる性能向上が図られる。

In recent years, self-supervised learning (SSL) has emerged as a popular approach for learning audio representations. The ultimate goal of audio self-supervised pre-training is to transfer knowledge to downstream audio tasks, generally including clip-level and frame-level tasks. Clip-level tasks classify the scene or sound of an entire audio clip, e.g. audio tagging, instrument recognition, etc. While frame-level tasks detect event-level timestamps from an audio clip, e.g. sound event detection, speaker diarization, etc. Prior studies primarily evaluate on clip-level downstream tasks. Frame-level tasks are important for fine-grained acoustic scene/event understanding, and are generally more challenging than clip-level tasks. In order to tackle both clip-level and frame-level tasks, this paper proposes two self-supervised audio representation learning methods: ATST-Clip and ATST-Frame, responsible for learning clip-level and frame-level representations, respectively. ATST stands for Audio Teacher-Student Transformer, which means both methods use a transformer encoder and a teacher-student training scheme.Experimental results show that our ATST-Frame model obtains state-of-the-art (SOTA) performance on most of the clip-level and frame-level downstream tasks. Especially, it outperforms other models by a large margin on the frame-level sound event detection task. In addition, the performance can be further improved by combining the two models through knowledge distillation.
翻訳日:2023-06-08 15:59:17 公開日:2023-06-07
# structuredmesh:バイナリ整数プログラミングを用いたフォトグラムメッシュモデルにおけるfa\c{c}adeコンポーネントの3次元構造化最適化

StructuredMesh: 3D Structured Optimization of Fa\c{c}ade Components on Photogrammetric Mesh Models using Binary Integer Programming ( http://arxiv.org/abs/2306.04184v1 )

ライセンス: Link先を確認
Libin Wang, Han Hu, Qisen Shang, Bo Xu, Qing Zhu(参考訳) フォトグラムメッシュモデルにおけるfa\c{c}ade構造の欠如は、複雑なアプリケーションの要求を満たすのに不十分である。 さらに, これらのメッシュモデルでは, 幾何ノイズやテクスチャ品質の不完全な不規則な表面を示し, 構造物の復元を困難にしている。 このような欠点に対処するために,我々は,フォトグラムメッシュモデルにおける建物の規則性に準拠したfa\c{c}ade構造を再構築する新しい手法であるstructuredmeshを提案する。 本手法では,仮想カメラを用いて建物モデルの多視点カラー画像と奥行き画像をキャプチャし,カラー画像から窓,扉,バルコニーなどのfa\c{c}adeコンポーネントのバウンディングボックスを半自動的に抽出するディープラーニングオブジェクト検出パイプラインを用いる。 次に、深度画像を用いてこれらのボックスを3次元空間に再マップし、最初のfa\c{c}adeレイアウトを生成する。 アーキテクチャの知識を活かし、3次元レイアウトの構造を最適化するためにバイナリ整数プログラミング(BIP)を適用し、すべてのコンポーネントの位置、向き、サイズを包含する。 洗練されたレイアウトは、インスタンス置換によるfa\c{c}adeモデリングを通知する。 3つのデータセットから構築したメッシュモデルを用いて,提案手法の適応性,ロバスト性,耐雑音性を示す実験を行った。 さらに,3次元レイアウト評価の指標から,最適化されたレイアウトは,初期レイアウトと比較して精度,リコール,Fスコアを6.5%,4.5%,5.5%向上させることがわかった。

The lack of fa\c{c}ade structures in photogrammetric mesh models renders them inadequate for meeting the demands of intricate applications. Moreover, these mesh models exhibit irregular surfaces with considerable geometric noise and texture quality imperfections, making the restoration of structures challenging. To address these shortcomings, we present StructuredMesh, a novel approach for reconstructing fa\c{c}ade structures conforming to the regularity of buildings within photogrammetric mesh models. Our method involves capturing multi-view color and depth images of the building model using a virtual camera and employing a deep learning object detection pipeline to semi-automatically extract the bounding boxes of fa\c{c}ade components such as windows, doors, and balconies from the color image. We then utilize the depth image to remap these boxes into 3D space, generating an initial fa\c{c}ade layout. Leveraging architectural knowledge, we apply binary integer programming (BIP) to optimize the 3D layout's structure, encompassing the positions, orientations, and sizes of all components. The refined layout subsequently informs fa\c{c}ade modeling through instance replacement. We conducted experiments utilizing building mesh models from three distinct datasets, demonstrating the adaptability, robustness, and noise resistance of our proposed methodology. Furthermore, our 3D layout evaluation metrics reveal that the optimized layout enhances precision, recall, and F-score by 6.5%, 4.5%, and 5.5%, respectively, in comparison to the initial layout.
翻訳日:2023-06-08 15:58:50 公開日:2023-06-07
# Language-Model-as-an-Examinerを用いたベンチマーク基礎モデル

Benchmarking Foundation Models with Language-Model-as-an-Examiner ( http://arxiv.org/abs/2306.04181v1 )

ライセンス: Link先を確認
Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei Hou(参考訳) 人間に似た方法で言語を理解し、生成するモデルの能力の包括的なテストとして、オープンエンドの質問応答における基礎モデルのパフォーマンスを評価するために、多くのベンチマークが確立されている。 これらの研究の多くは、新しいデータセットの提案に重点を置いているが、以前のベンチマークパイプラインには2つの大きな問題がある。 本稿では,lmが知識に基づいて質問を定式化し,その応答を参照のない方法で評価する,新たなベンチマークフレームワークであるlanguage-model-as-an-examinerを提案する。 我々のフレームワークは、様々なlmsを検査者として採用することができ、質問はより多様なトリガートピックによって常に更新できるため、無力な拡張性を可能にする。 より包括的かつ公平な評価を行うため,(1)広範囲のドメインに質問を発生させるようLM検査官に指示し,さらに詳細な評価を行うためにフォローアップ質問を提起する3つの戦略を考案した。 2)評価では,評価基準と評価基準を組み合わせ,人間のアノテーションと密接に一致して信頼性の高い結果が得られる。 (3) 単検定における偏りに対処する分散化ピア検定法も提案する。 当社のデータとベンチマークの結果は、https://lmexam.com.com.com/で確認できます。

Numerous benchmarks have been established to assess the performance of foundation models on open-ended question answering, which serves as a comprehensive test of a model's ability to understand and generate language in a manner similar to humans. Most of these works focus on proposing new datasets, however, we see two main issues within previous benchmarking pipelines, namely testing leakage and evaluation automation. In this paper, we propose a novel benchmarking framework, Language-Model-as-an-Examiner, where the LM serves as a knowledgeable examiner that formulates questions based on its knowledge and evaluates responses in a reference-free manner. Our framework allows for effortless extensibility as various LMs can be adopted as the examiner, and the questions can be constantly updated given more diverse trigger topics. For a more comprehensive and equitable evaluation, we devise three strategies: (1) We instruct the LM examiner to generate questions across a multitude of domains to probe for a broad acquisition, and raise follow-up questions to engage in a more in-depth assessment. (2) Upon evaluation, the examiner combines both scoring and ranking measurements, providing a reliable result as it aligns closely with human annotations. (3) We additionally propose a decentralized Peer-examination method to address the biases in a single examiner. Our data and benchmarking results are available at: https://lmexam.com.
翻訳日:2023-06-08 15:58:19 公開日:2023-06-07
# fusedrf: 複数の放射フィールドを使用する

FusedRF: Fusing Multiple Radiance Fields ( http://arxiv.org/abs/2306.04180v1 )

ライセンス: Link先を確認
Rahul Goel, Dhawal Sirikonda, Rajvi Shah, PJ Narayanan(参考訳) ラジアンス・フィールズ(RF)は、カジュアルに捕獲された離散ビューのシーンを表現する大きな可能性を示している。 複数の撮影シーンを構成する部分や全体は、いくつかのXRアプリケーションに大きな関心を惹きつける可能性がある。 以前の作品では、各シーンを並行してトレースすることで、このようなシーンの新しいビューを生成することができる。 これにより、コンポーネントの数によってレンダリング時間とメモリ要求が増加する。 本研究では,複数のRFを用いて合成されたシーンに対して,単一でコンパクトで融合したRF表現を生成する手法を提案する。 融合RFは、単一のRFと同じレンダリング時間とメモリ利用率を有する。 本手法は,複数の教師RFから1人の学生RFに情報を抽出し,さらに融合表現への付加や削除などの操作を容易にする。

Radiance Fields (RFs) have shown great potential to represent scenes from casually captured discrete views. Compositing parts or whole of multiple captured scenes could greatly interest several XR applications. Prior works can generate new views of such scenes by tracing each scene in parallel. This increases the render times and memory requirements with the number of components. In this work, we provide a method to create a single, compact, fused RF representation for a scene composited using multiple RFs. The fused RF has the same render times and memory utilizations as a single RF. Our method distills information from multiple teacher RFs into a single student RF while also facilitating further manipulations like addition and deletion into the fused representation.
翻訳日:2023-06-08 15:57:47 公開日:2023-06-07
# 最適輸送モデル分布ロバスト性

Optimal Transport Model Distributional Robustness ( http://arxiv.org/abs/2306.04178v1 )

ライセンス: Link先を確認
Van-Anh Nguyen, Trung Le, Anh Tuan Bui, Thanh-Toan Do, and Dinh Phung(参考訳) 分散ロバスト性は、敵対的な例やデータ分散シフトに弱いディープラーニングモデルをトレーニングするための有望なフレームワークである。 これまでの研究は主に、データ空間における分散ロバスト性を活用することに焦点を当ててきた。 本研究では,モデル空間上の最適輸送に基づく分布ロバスト性フレームワークについて検討する。 具体的には、損失を最大化する所定の中心モデル分布のワッサースタイン球のモデル分布について検討する。 我々は最適な頑健な中心モデル分布を学習できる理論を開発した。 興味深いことに、我々の開発した理論により、一モデル上のディラックデルタ分布、複数のモデル上の一様分布、および一般的なベイズニューラルネットワークのような中心モデル分布の特定の形態を考慮して、シャープネス認識の概念を単一のモデル、アンサンブルモデル、ベイズニューラルネットワークの訓練に柔軟に組み込むことができる。 さらに,シャープネスを意識した最小化(SAM)が単一モデル上でのディラックデルタ分布を用いた場合,そのフレームワークがSAMの確率的拡張であることを示す。 我々は,上記の設定でフレームワークの有用性を実証するために広範な実験を行い,ベースラインへのアプローチが著しく改善したことを示す。

Distributional robustness is a promising framework for training deep learning models that are less vulnerable to adversarial examples and data distribution shifts. Previous works have mainly focused on exploiting distributional robustness in data space. In this work, we explore an optimal transport-based distributional robustness framework on model spaces. Specifically, we examine a model distribution in a Wasserstein ball of a given center model distribution that maximizes the loss. We have developed theories that allow us to learn the optimal robust center model distribution. Interestingly, through our developed theories, we can flexibly incorporate the concept of sharpness awareness into training a single model, ensemble models, and Bayesian Neural Networks by considering specific forms of the center model distribution, such as a Dirac delta distribution over a single model, a uniform distribution over several models, and a general Bayesian Neural Network. Furthermore, we demonstrate that sharpness-aware minimization (SAM) is a specific case of our framework when using a Dirac delta distribution over a single model, while our framework can be viewed as a probabilistic extension of SAM. We conduct extensive experiments to demonstrate the usefulness of our framework in the aforementioned settings, and the results show remarkable improvements in our approaches to the baselines.
翻訳日:2023-06-08 15:57:28 公開日:2023-06-07
# ドキュメントやQA履歴を読むとき - 統一的で選択的なオープンドメインQAについて

When to Read Documents or QA History: On Unified and Selective Open-domain QA ( http://arxiv.org/abs/2306.04176v1 )

ライセンス: Link先を確認
Kyungjae Lee, Sang-eun Han, Seung-won Hwang, Moontae Lee(参考訳) 本稿では,知識資源を活用した多様な質問に答えることを目的として,オープンドメイン質問応答の問題について検討する。 QAペアと文書コーパスの2種類のソースは、以下の相補的な強度で積極的に活用されている。 前者は、与えられた質問のパラフレーズが訓練中に見られ、答えられたとき、しばしば検索問題として表され、後者は見知らぬ質問に対してよりよく一般化される。 したがって、自然なフォローアップは両方のモデルを活用するが、単純なパイプライン化や統合アプローチでは、いずれのモデルよりもさらなる利益を得ることはできなかった。 我々の区別は、文書やQAペアコーパスをいつ使用するかを決定する指標として、予測された回答の信頼性を推定するキャリブレーションとして問題を解釈することである。 提案手法の有効性を,Natural QuestionsやTriviaQAといった広く採用されているベンチマークで検証した。

This paper studies the problem of open-domain question answering, with the aim of answering a diverse range of questions leveraging knowledge resources. Two types of sources, QA-pair and document corpora, have been actively leveraged with the following complementary strength. The former is highly precise when the paraphrase of given question $q$ was seen and answered during training, often posed as a retrieval problem, while the latter generalizes better for unseen questions. A natural follow-up is thus leveraging both models, while a naive pipelining or integration approaches have failed to bring additional gains over either model alone. Our distinction is interpreting the problem as calibration, which estimates the confidence of predicted answers as an indicator to decide when to use a document or QA-pair corpus. The effectiveness of our method was validated on widely adopted benchmarks such as Natural Questions and TriviaQA.
翻訳日:2023-06-08 15:56:47 公開日:2023-06-07
# 表面から見る:試料効率の良いオフラインRLの基礎対称性の爆発

Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL ( http://arxiv.org/abs/2306.04220v1 )

ライセンス: Link先を確認
Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang(参考訳) オフライン強化学習(rl)は、事前収集されたデータセットから環境と対話することなくポリシーを学習することで、現実世界のタスクに魅力的なアプローチを提供する。 しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。 現実世界のデータ収集は、しばしば高価で制御不能であり、小規模で狭い範囲のデータセットにつながり、オフラインrlの実用的なデプロイに重大な課題をもたらす。 本稿では,システムダイナミクスの基本的な対称性を活用することで,小規模データセット下でのオフラインrl性能が大幅に向上することを示す。 具体的には,tdm(time-reversal symmetry)強制動力学モデル(t-symmetry enforced dynamics model, tdm)を提案する。 TDMは、小さなデータセットに対する良好な表現と、T対称性の遵守に基づくOODサンプルに対する新しい信頼性尺度の両方を提供する。 これらは、保守的なポリシー制約の少ない新しいオフラインRLアルゴリズム(TSRL)の構築や、信頼性の高い遅延空間データ拡張手順に容易に使用できる。 大規模な実験に基づいて、TSRLは、原サンプルの1%に満たない小さなベンチマークデータセットで優れた性能を発揮し、データ効率と一般化性の観点から、最近のオフラインRLアルゴリズムを著しく上回っている。

Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.
翻訳日:2023-06-08 15:50:51 公開日:2023-06-07
# 埋め込みクラスタリング規則化による効果的なニューラルトピックモデリング

Effective Neural Topic Modeling with Embedding Clustering Regularization ( http://arxiv.org/abs/2306.04217v1 )

ライセンス: Link先を確認
Xiaobao Wu, Xinshuai Dong, Thong Nguyen, Anh Tuan Luu(参考訳) トピックモデルは様々な応用で数十年にわたって普及してきた。 しかし、既存のトピックモデルは一般的に、悪名高いトピックの崩壊に悩まされる: 発見されたトピックは互いに意味的に崩壊し、非常に反復的なトピック、不十分なトピック発見、損傷したモデル解釈可能性をもたらす。 本稿では,クラスタリング正規化トピックモデル(ecrtm)を組み込んだ新しいニューラルトピックモデルを提案する。 既存の再構成誤りに加えて,各トピックをセマンティクス空間における個別に集約された単語埋め込みクラスタの中心とする,新たな埋め込みクラスタリング正規化(ecr)を提案する。 これにより、それぞれのトピックに異なる単語セマンティクスが含まれ、トピックの崩壊を軽減することができる。 ECRによって正規化され、ECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。 ベンチマークデータセットに関する大規模な実験により、ECRTMはトピック崩壊問題に効果的に対処し、トピックの品質、文書のトピック分布、下流分類タスクの点において、最先端のベースラインを一貫して超えることを示した。

Topic models have been prevalent for decades with various applications. However, existing topic models commonly suffer from the notorious topic collapsing: discovered topics semantically collapse towards each other, leading to highly repetitive topics, insufficient topic discovery, and damaged model interpretability. In this paper, we propose a new neural topic model, Embedding Clustering Regularization Topic Model (ECRTM). Besides the existing reconstruction error, we propose a novel Embedding Clustering Regularization (ECR), which forces each topic embedding to be the center of a separately aggregated word embedding cluster in the semantic space. This enables each produced topic to contain distinct word semantics, which alleviates topic collapsing. Regularized by ECR, our ECRTM generates diverse and coherent topics together with high-quality topic distributions of documents. Extensive experiments on benchmark datasets demonstrate that ECRTM effectively addresses the topic collapsing issue and consistently surpasses state-of-the-art baselines in terms of topic quality, topic distributions of documents, and downstream classification tasks.
翻訳日:2023-06-08 15:50:28 公開日:2023-06-07
# MultiSum:ビデオのマルチモーダル要約とサムネイル生成のためのデータセット

MultiSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos ( http://arxiv.org/abs/2306.04216v1 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, William Han, Aditesh Kumar, Karthik Mittal, Claire Jin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Bo Li, Ding Zhao, Lijuan Wang(参考訳) マルチモーダル出力(MSMO)を用いたマルチモーダル要約が,有望な研究方向として浮上している。 それにもかかわらず、既存のMSMOデータセットには、アップキープの不十分、データアクセシビリティの欠如、サイズ制限、適切な分類の欠如など、多くの制限がある。 これらの課題に対処し、この新しい方向性のための包括的なデータセットを提供するため、MultiSumデータセットを慎重にキュレートしました。 新しいデータセットは,(1)ビデオコンテンツとテキストコンテンツの両方に有能な要約を提供し,マルチモーダル学習に優れた指導とラベルを提供する。 2) 包括的かつ丁寧に分類し, 多様な実世界のシナリオを包括する17のカテゴリと170のサブカテゴリにまたがる。 3)ビデオ時間分割,ビデオ要約,テキスト要約,マルチモーダル要約など,さまざまなタスクや手法を評価するために,提案データセット上で実施したベンチマークテスト。 アクセシビリティとコラボレーションを推進すべく、MultiSumデータセットとデータ収集ツールを完全なオープンソースリソースとしてリリースし、透明性を高め、今後の発展を加速します。 プロジェクトのWebサイトはhttps://multisum-dataset.github.io/にある。

Multimodal summarization with multimodal output (MSMO) has emerged as a promising research direction. Nonetheless, numerous limitations exist within existing public MSMO datasets, including insufficient upkeep, data inaccessibility, limited size, and the absence of proper categorization, which pose significant challenges to effective research. To address these challenges and provide a comprehensive dataset for this new direction, we have meticulously curated the MultiSum dataset. Our new dataset features (1) Human-validated summaries for both video and textual content, providing superior human instruction and labels for multimodal learning. (2) Comprehensively and meticulously arranged categorization, spanning 17 principal categories and 170 subcategories to encapsulate a diverse array of real-world scenarios. (3) Benchmark tests performed on the proposed dataset to assess varied tasks and methods, including video temporal segmentation, video summarization, text summarization, and multimodal summarization. To champion accessibility and collaboration, we release the MultiSum dataset and the data collection tool as fully open-source resources, fostering transparency and accelerating future developments. Our project website can be found at https://multisum-dataset.github.io/.
翻訳日:2023-06-08 15:50:08 公開日:2023-06-07
# dualhgnn: 多視点学習と密度認識に基づく半教師付きノード分類のためのデュアルハイパーグラフニューラルネットワーク

DualHGNN: A Dual Hypergraph Neural Network for Semi-Supervised Node Classification based on Multi-View Learning and Density Awareness ( http://arxiv.org/abs/2306.04214v1 )

ライセンス: Link先を確認
Jianpeng Liao, Jun Yan and Qian Tao(参考訳) グラフに基づく半教師付きノード分類は、研究価値と重要性の高い多くのアプリケーションにおいて最先端のアプローチであることが示されている。 既存の手法の多くは、データ間の「真の」相関を正確に反映せず、下流グラフニューラルネットワークにおける半教師付きノード分類に最適でない、本来の内在的あるいは人工的に確立されたグラフ構造に基づいている。 さらに、既存のグラフベースの手法は主に明示的なグラフ構造を用いるが、暗黙的な情報(例えば密度情報)は、さらに活用可能な潜伏情報を提供することもできる。 本稿では,ハイパーグラフ構造学習とハイパーグラフ表現学習を同時に統合した新しいデュアル接続モデルであるデュアルハイパーグラフニューラルネットワーク(DualHGNN)を提案する。 DualHGNNは、まずマルチビューハイパーグラフ学習ネットワークを利用して、複数のビューから最適なハイパーグラフ構造を探索し、その一般化を改善するために提案された一貫性損失に制約される。 次に、DualHGNNは密度認識型ハイパーグラフアテンションネットワークを用いて、密度認識アテンション機構に基づくデータポイント間の高次意味相関を探索する。 様々なベンチマークデータセットで大規模な実験を行い,提案手法の有効性を実証した。

Graph-based semi-supervised node classification has been shown to become a state-of-the-art approach in many applications with high research value and significance. Most existing methods are only based on the original intrinsic or artificially established graph structure which may not accurately reflect the "true" correlation among data and are not optimal for semi-supervised node classification in the downstream graph neural networks. Besides, while existing graph-based methods mostly utilize the explicit graph structure, some implicit information, for example, the density information, can also provide latent information that can be further exploited. To address these limitations, this paper proposes the Dual Hypergraph Neural Network (DualHGNN), a new dual connection model integrating both hypergraph structure learning and hypergraph representation learning simultaneously in a unified architecture. The DualHGNN first leverages a multi-view hypergraph learning network to explore the optimal hypergraph structure from multiple views, constrained by a consistency loss proposed to improve its generalization. Then, DualHGNN employs a density-aware hypergraph attention network to explore the high-order semantic correlation among data points based on the density-aware attention mechanism. Extensive experiments are conducted in various benchmark datasets, and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2023-06-08 15:49:46 公開日:2023-06-07
# 公正なGNNのためのMigrate Demographic Group

Migrate Demographic Group For Fair GNNs ( http://arxiv.org/abs/2306.04212v1 )

ライセンス: Link先を確認
YanMing Hu, TianChi Liao, JiaLong Chen, Chuan Chen, Jing Bian, and ZiBin Zheng(参考訳) グラフニューラルネットワーク(GNN)は,グラフ学習の性能が優れているため,多くのシナリオに適用されている。 しかし、GNNを設計する際には常に公平さは無視される。 その結果、トレーニングデータのバイアスされた情報は、バニラGNNに容易に影響し、特定の人口層グループ(人種や年齢などのセンシティブな属性によって分割される)にバイアスのある結果をもたらす。 その公平な問題に対処する努力があった。 しかし、既存の公正な手法は一般に人口層を生の繊細な属性で分類し、固定していると仮定する。 生の繊細な属性と相関するバイアスのある情報は、実装された公正なテクニックに関係なく、トレーニングプロセスを通じて実行される。 公正なGNNの育成には,この問題の解決が急務である。 この問題に対処するために,我々は,生の敏感な属性で固定する代わりに,人口動態グループを動的に移行できる新しいフレームワーク,fairmigrationを提案する。 FairMigrationは2つのトレーニングステージで構成されている。 最初の段階では、GNNはパーソナライズされた自己教師付き学習によって最適化され、階層群は動的に調整される。 第2段階では,新しい集団群は凍結され,新しい集団群と敵対的訓練の制約の下で教師付き学習が行われる。 大規模な実験により、FairMigrationはモデル性能とフェアネスのバランスが良好であることが明らかとなった。

Graph Neural networks (GNNs) have been applied in many scenarios due to the superior performance of graph learning. However, fairness is always ignored when designing GNNs. As a consequence, biased information in training data can easily affect vanilla GNNs, causing biased results toward particular demographic groups (divided by sensitive attributes, such as race and age). There have been efforts to address the fairness issue. However, existing fair techniques generally divide the demographic groups by raw sensitive attributes and assume that are fixed. The biased information correlated with raw sensitive attributes will run through the training process regardless of the implemented fair techniques. It is urgent to resolve this problem for training fair GNNs. To tackle this problem, we propose a brand new framework, FairMigration, which can dynamically migrate the demographic groups instead of keeping that fixed with raw sensitive attributes. FairMigration is composed of two training stages. In the first stage, the GNNs are initially optimized by personalized self-supervised learning, and the demographic groups are adjusted dynamically. In the second stage, the new demographic groups are frozen and supervised learning is carried out under the constraints of new demographic groups and adversarial training. Extensive experiments reveal that FairMigration balances model performance and fairness well.
翻訳日:2023-06-08 15:49:26 公開日:2023-06-07
# 時間外相関器による非KAM系の動的感度推定

Probing Dynamical Sensitivity of a Non-KAM System Through Out-of-Time-Order Correlators ( http://arxiv.org/abs/2306.04209v1 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Abinash Sahu, Arul Lakshminarayan, Vaibhav Madhok(参考訳) 非KAM (Kolmogorov-Arnold-Moser) 系は、時間依存の弱い場によって摂動されるとき、不変位相空間トーラスの突然の破れによって古典的カオスへの高速な経路を提供する。 しかし、そのような振る舞いはユビキタスではなく、システム全体が共鳴しているかどうかに起因している。 共鳴は通常、系と摂動に関連する特性周波数の比によって決定される。 共鳴条件下では、古典力学は系のパラメータの変化に非常に影響を受けやすい。 本研究では,共振や非共振を特徴付けるパラメータとして,量子限界における摂動非kam系の動的感度について,時間外相関子(otocs)を用いて検討する。 この目的のために、キックを外部時間依存摂動とする量子化蹴り高調波振動子(kho)モデルを考える。 共鳴におけるKHOのリャプノフ指数は弱い摂動状態においてゼロに近づき、従来の意味では弱いカオスとなるが、古典的な位相空間は大きな構造変化を起こす。 そこで本研究では, 共振系におけるOTOCsの検討を行い, 非共振系との比較を行った。 共鳴では、OTOCの漸近ダイナミクスはこれらの構造変化に敏感であり、非共鳴における線形あるいは定常的な成長とは対照的に二次的に成長する。 一方,本研究では,短時間のダイナミクスはパラメータの変動よりも比較的安定であることが示唆された。 いくつかの特殊なケースでOTOCの分析式を提供することで、結果を裏付ける。 次に、非共鳴症例に関する知見を幅広い種類のKAMシステムに拡張する。

Non-KAM (Kolmogorov-Arnold-Moser) systems, when perturbed by weak time-dependent fields, offer a fast route to the classical chaos through an abrupt breaking of the invariant phase space tori. However, such behavior is not ubiquitous but rather contingent on whether the total system is in resonance. The resonances are usually determined by the ratios of characteristic frequencies associated with the system and the perturbation. Under the resonance condition, the classical dynamics are highly susceptible to variations in the system parameters. In this work, we employ out-of-time-order correlators (OTOCs) to study the dynamical sensitivity of a perturbed non-KAM system in the quantum limit as the parameter that characterizes the resonances and non-resonances is slowly varied. For this purpose, we consider a quantized kicked harmonic oscillator (KHO) model with the kick being the external time-dependent perturbation. Although the Lyapunov exponent of the KHO at resonances remains close to zero in the weak perturbative regime, making the system weakly chaotic in the conventional sense, the classical phase space undergoes significant structural changes. Motivated by this, we study the OTOCs when the system is in resonance and contrast the results with the non-resonant case. At resonances, we observe that the asymptotic dynamics of the OTOCs are sensitive to these structural changes, where they grow quadratically as opposed to linear or stagnant growth at non-resonances. On the other hand, our findings suggest that the short-time dynamics remain relatively more stable to the variations in the parameter. We will back our results by providing analytical expressions for the OTOCs for a few special cases. We will then extend our findings concerning the non-resonant cases to a broad class of KAM systems.
翻訳日:2023-06-08 15:49:07 公開日:2023-06-07
# 複合二ビット発振器による量子同期の探索

Exploring Quantum Synchronization with a Composite Two-Qubit Oscillator ( http://arxiv.org/abs/2306.04205v1 )

ライセンス: Link先を確認
Gaurav M. Vaidya and Arvind Mamgain and Samarth Hawaldar and Walter Hahn and Raphael Kaubruegger and Baladitya Suri and Athreya Shankar(参考訳) 同期は、quditsや弱ポンピング量子ファンデルpol振動子のような素数レベルの量子振動子によって、量子状態において深く研究されている。 より複雑な量子同期システムを設計するためには、一般に利用でき、高い制御性を提供する基本量子単位から構築された複合発振器を研究することが事実上重要となる。 本稿では,2つの相互作用量子ビットを分離浴に結合した複合発振器の最小限のモデルについて考察し,その実装を回路量子力学プラットフォーム上で提案し,解析する。 我々は「ミクロ」と「マクロ」の視点を採用し、構成量子ビットの応答と1つの量子ビットが弱いときに複合振動子の応答を研究する。 個々の量子ビットの外部ドライブへの位相同期は、相互相互作用から生じる干渉効果によって強く変化する。 特に,特に結合強度における位相同期遮断現象が発見された。 さらに, 量子ビット間の相互作用は, 複合振動子と外部駆動との同期の度合いを強く向上または抑制できることがわかった。 本研究は,複雑な量子同期システムを基本構成単位から組み立てる可能性を実証するものであり,量子同期の分野を進める上で実用的重要である。

Synchronization has recently been explored deep in the quantum regime with elementary few-level quantum oscillators such as qudits and weakly pumped quantum Van der Pol oscillators. To engineer more complex quantum synchronizing systems, it is practically relevant to study composite oscillators built up from basic quantum units that are commonly available and offer high controllability. Here, we consider a minimal model for a composite oscillator consisting of two interacting qubits coupled to separate baths, for which we also propose and analyze an implementation on a circuit quantum electrodynamics platform. We adopt a `microscopic' and `macroscopic' viewpoint and study the response of the constituent qubits and of the composite oscillator when one of the qubits is weakly driven. We find that the phase-locking of the individual qubits to the external drive is strongly modified by interference effects arising from their mutual interaction. In particular, we discover a phase-locking blockade phenomenon at particular coupling strengths. Furthermore, we find that interactions between the qubits can strongly enhance or suppress the extent of synchronization of the composite oscillator to the external drive. Our work demonstrates the potential for assembling complex quantum synchronizing systems from basic building units, which is of pragmatic importance for advancing the field of quantum synchronization.
翻訳日:2023-06-08 15:48:38 公開日:2023-06-07
# 知識グラフ埋め込みを利用した関係抽出のための文脈表現

Leveraging Knowledge Graph Embeddings to Enhance Contextual Representations for Relation Extraction ( http://arxiv.org/abs/2306.04203v1 )

ライセンス: Link先を確認
Fr\'ejus A. A. Laleye, Lo\"ic Rakotoson, Sylvain Massip(参考訳) 関係抽出タスクは自然言語処理において重要かつ困難な側面である。 最近になっていくつかの手法が登場し、タスクに対処する際、顕著な性能を示したが、これらのアプローチのほとんどは、大規模な知識グラフや、発光コーパスで事前訓練された言語モデルからの膨大なデータに依存している。 本稿では,コーパスから提供された知識のみを効果的に活用し,ハイパフォーマンスなモデルを構築する方法について考察する。 本研究の目的は,外部知識を取り入れずにコーパス内のエンティティの階層構造と関係分布を活用することで,関係抽出モデルが大幅に性能向上することを示すことである。 そこで我々は,コーパススケールに事前学習した知識グラフを組み込んだ文レベルの文脈表現への関係抽出手法を提案する。 我々は,提案手法の有望かつ非常に興味深い結果が得られた一連の実験を行い,文脈に基づく関係抽出モデルと比較し,提案手法の有効性を実証した。

Relation extraction task is a crucial and challenging aspect of Natural Language Processing. Several methods have surfaced as of late, exhibiting notable performance in addressing the task; however, most of these approaches rely on vast amounts of data from large-scale knowledge graphs or language models pretrained on voluminous corpora. In this paper, we hone in on the effective utilization of solely the knowledge supplied by a corpus to create a high-performing model. Our objective is to showcase that by leveraging the hierarchical structure and relational distribution of entities within a corpus without introducing external knowledge, a relation extraction model can achieve significantly enhanced performance. We therefore proposed a relation extraction approach based on the incorporation of pretrained knowledge graph embeddings at the corpus scale into the sentence-level contextual representation. We conducted a series of experiments which revealed promising and very interesting results for our proposed approach.The obtained results demonstrated an outperformance of our method compared to context-based relation extraction models.
翻訳日:2023-06-08 15:48:19 公開日:2023-06-07
# 任意再スケーリングネットワークによるビデオ圧縮

Video Compression with Arbitrary Rescaling Network ( http://arxiv.org/abs/2306.04202v1 )

ライセンス: Link先を確認
Mengxi Guo, Shijie Zhao, Hao Jiang, Junlin Li and Li Zhang(参考訳) ほとんどのビデオプラットフォームは、異なる品質の動画ストリーミングサービスを提供しており、サービスの質は通常、ビデオの解像度によって調整される。 そのため、圧縮のために高解像度の動画をダウンサンプリングする必要がある。 解像度の異なるビデオ符号化の問題を解決するために、符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。 rarnを標準コーデックと互換性を持たせ、圧縮フレンドリな結果を生成するために、ビデオエンコーディングのキーコンポーネントをシミュレートしビットレート推定を行うために、反復最適化トランスベース仮想コーデック(tvc)を導入する。 本研究は,TVCとRARNを反復的にトレーニングすることにより,多くのテストビデオにおいて,従来の手法を上回り,線形補間により5%-29%のBD-Rate低減を実現した。 さらに、軽量ラーン構造は、fhd(1080p)コンテンツをリアルタイム速度(91fps)で処理でき、かなりのレート低減が得られる。

Most video platforms provide video streaming services with different qualities, and the quality of the services is usually adjusted by the resolution of the videos. So high-resolution videos need to be downsampled for compression. In order to solve the problem of video coding at different resolutions, we propose a rate-guided arbitrary rescaling network (RARN) for video resizing before encoding. To help the RARN be compatible with standard codecs and generate compression-friendly results, an iteratively optimized transformer-based virtual codec (TVC) is introduced to simulate the key components of video encoding and perform bitrate estimation. By iteratively training the TVC and the RARN, we achieved 5%-29% BD-Rate reduction anchored by linear interpolation under different encoding configurations and resolutions, exceeding the previous methods on most test videos. Furthermore, the lightweight RARN structure can process FHD (1080p) content at real-time speed (91 FPS) and obtain a considerable rate reduction.
翻訳日:2023-06-08 15:48:04 公開日:2023-06-07
# ガウス過程モデルにおける近似推論によるハイパーパラメータ学習の改善

Improving Hyperparameter Learning under Approximate Inference in Gaussian Process Models ( http://arxiv.org/abs/2306.04201v1 )

ライセンス: Link先を確認
Rui Li, ST John, Arno Solin(参考訳) 非共役確率を持つガウス過程(GP)モデルにおける近似推論は、モデルハイパーパラメータの学習と絡み合う。 GPモデルのハイパーパラメータ学習を改善し,変動推論(VI)と学習対象との相互作用に着目した。 vi の限界確率に対する下限は近似後段を推定するための適切な目的である一方、期待伝播 (ep) における限界確率の直接近似はハイパーパラメータ最適化のためのより良い学習目標であることを示す。 共役計算VIを推論に利用し、EPライクな辺縁確率近似を用いてハイパーパラメータ学習を行うハイブリッドトレーニング手順を設計する。 我々は、VI, EP, Laplace近似と、提案したトレーニング手順を比較し、幅広いデータセットにおける提案の有効性を実証的に示す。

Approximate inference in Gaussian process (GP) models with non-conjugate likelihoods gets entangled with the learning of the model hyperparameters. We improve hyperparameter learning in GP models and focus on the interplay between variational inference (VI) and the learning target. While VI's lower bound to the marginal likelihood is a suitable objective for inferring the approximate posterior, we show that a direct approximation of the marginal likelihood as in Expectation Propagation (EP) is a better learning objective for hyperparameter optimization. We design a hybrid training procedure to bring the best of both worlds: it leverages conjugate-computation VI for inference and uses an EP-like marginal likelihood approximation for hyperparameter learning. We compare VI, EP, Laplace approximation, and our proposed training procedure and empirically demonstrate the effectiveness of our proposal across a wide range of data sets.
翻訳日:2023-06-08 15:47:45 公開日:2023-06-07
# 一般化可能な自己教師付き事前学習のためのランダム化3次元シーン生成

Randomized 3D Scene Generation for Generalizable Self-supervised Pre-training ( http://arxiv.org/abs/2306.04237v1 )

ライセンス: Link先を確認
Lanxiao Li and Michael Heizmann(参考訳) 現実世界の3Dデータのキャプチャとラベル付けには手間がかかり、時間を要する。 この問題に対処するため、以前の研究は、生成されたデータに基づいてランダム化された3Dシーンと事前トレーニングモデルを生成する。 事前訓練されたモデルは有望なパフォーマンス向上をもたらすが、以前の作業には2つの大きな欠点がある。 まず、ダウンストリームタスク(すなわちオブジェクト検出)のみに焦点を当てます。 第二に、生成されたデータの公正な比較はまだ欠けている。 本研究では,データ生成手法を統一的な設定で体系的に比較する。 事前学習モデルの一般化を明らかにするために,複数のタスク(オブジェクト検出やセマンティクスセグメンテーションなど)と異なる事前学習方法(マスクオートエンコーダやコントラスト学習など)において,その性能を評価する。 さらに,球面高調波を伴う3次元シーンを生成する新しい手法を提案する。 従来の定式化法をクリアマージンで上回り、実世界のスキャンとCADモデルを用いた手法を用いて、中間結果を得る。

Capturing and labeling real-world 3D data is laborious and time-consuming, which makes it costly to train strong 3D models. To address this issue, previous works generate randomized 3D scenes and pre-train models on generated data. Although the pre-trained models gain promising performance boosts, previous works have two major shortcomings. First, they focus on only one downstream task (i.e., object detection). Second, a fair comparison of generated data is still lacking. In this work, we systematically compare data generation methods using a unified setup. To clarify the generalization of the pre-trained models, we evaluate their performance in multiple tasks (e.g., object detection and semantic segmentation) and with different pre-training methods (e.g., masked autoencoder and contrastive learning). Moreover, we propose a new method to generate 3D scenes with spherical harmonics. It surpasses the previous formula-driven method with a clear margin and achieves on-par results with methods using real-world scans and CAD models.
翻訳日:2023-06-08 15:39:55 公開日:2023-06-07
# Flare7K++: 夜間フレア除去のための合成と実際のデータセットの混合

Flare7K++: Mixing Synthetic and Real Datasets for Nighttime Flare Removal and Beyond ( http://arxiv.org/abs/2306.04236v1 )

ライセンス: Link先を確認
Yuekun Dai, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yihang Luo, Chen Change Loy(参考訳) 人工光は通常、夜間に撮影された画像に強いレンズフレアアーティファクトを残し、視覚アルゴリズムの視覚品質と性能の両方を劣化させる。 既存のフレア除去アプローチは主に昼間のフレアを除去することと夜間のケースで失敗することに焦点を当てている。 夜間のフレア除去は、人工光の独特の輝度とスペクトル、およびフレアの多様なパターンと画像劣化のために困難である。 夜間のフレア除去データセットの不足は、この重要な課題の研究を制約している。 本稿では,夜行性フレア除去データセットであるflare7k++について紹介する。flare-rと7,000個の合成フレア(flare7k)からなる962のリアルタイムフレア除去データセットである。 Flare7Kと比較して、Frare7K++は、合成フレアのみを使用することで、光源周辺の複雑な劣化を取り除くのに特に効果的である。 さらに、以前のフレア除去パイプラインは手動のしきい値とぼかしのカーネル設定に依存して光源を抽出する。 この問題に対処するため、私たちはさらにflare7k++の光源のアノテーションを提供し、レンズフレアを取り除きながら光源を保存するための新しいエンドツーエンドパイプラインを提案します。 我々のデータセットとパイプラインは、将来の夜間フレア除去研究のための貴重な基礎とベンチマークを提供する。 広範な実験により、flare7k++が既存のフレアデータセットの多様性を補完し、夜間フレア除去のフロンティアを現実のシナリオへと押し上げることが示されている。

Artificial lights commonly leave strong lens flare artifacts on the images captured at night, degrading both the visual quality and performance of vision algorithms. Existing flare removal approaches mainly focus on removing daytime flares and fail in nighttime cases. Nighttime flare removal is challenging due to the unique luminance and spectrum of artificial lights, as well as the diverse patterns and image degradation of the flares. The scarcity of the nighttime flare removal dataset constraints the research on this crucial task. In this paper, we introduce Flare7K++, the first comprehensive nighttime flare removal dataset, consisting of 962 real-captured flare images (Flare-R) and 7,000 synthetic flares (Flare7K). Compared to Flare7K, Flare7K++ is particularly effective in eliminating complicated degradation around the light source, which is intractable by using synthetic flares alone. Besides, the previous flare removal pipeline relies on the manual threshold and blur kernel settings to extract light sources, which may fail when the light sources are tiny or not overexposed. To address this issue, we additionally provide the annotations of light sources in Flare7K++ and propose a new end-to-end pipeline to preserve the light source while removing lens flares. Our dataset and pipeline offer a valuable foundation and benchmark for future investigations into nighttime flare removal studies. Extensive experiments demonstrate that Flare7K++ supplements the diversity of existing flare datasets and pushes the frontier of nighttime flare removal towards real-world scenarios.
翻訳日:2023-06-08 15:39:39 公開日:2023-06-07
# MobileNMT:15MBと30msで翻訳を実現する

MobileNMT: Enabling Translation in 15MB and 30ms ( http://arxiv.org/abs/2306.04235v1 )

ライセンス: Link先を確認
Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu(参考訳) モバイルデバイスにNMTモデルをデプロイすることは、プライバシ、低レイテンシ、オフラインシナリオに不可欠である。 高モデル容量では、NMTモデルはかなり大きい。 これらのモデルをデバイスで実行するには、ストレージ、メモリ、計算、消費電力が限られている。 既存の作業は、FLOPsやジェネラルエンジンのような、自動回帰デコーディングが得意でない単一のメトリックにのみフォーカスする。 本稿では,デバイス上で15mb,30msの翻訳が可能なmobilenmtを提案する。 量子化と組み合わせたモデル圧縮のための一連の原理を提案する。 さらに、INT8やデコードに親しみやすいエンジンを実装します。 モデルとエンジンの共設計により、47.0倍のスピードアップと99.5%のメモリ節約が可能で、bleuの損失はわずか11.6%である。 コードはhttps://github.com/zjersey/Lightseq-ARMで公開されている。

Deploying NMT models on mobile devices is essential for privacy, low latency, and offline scenarios. For high model capacity, NMT models are rather large. Running these models on devices is challenging with limited storage, memory, computation, and power consumption. Existing work either only focuses on a single metric such as FLOPs or general engine which is not good at auto-regressive decoding. In this paper, we present MobileNMT, a system that can translate in 15MB and 30ms on devices. We propose a series of principles for model compression when combined with quantization. Further, we implement an engine that is friendly to INT8 and decoding. With the co-design of model and engine, compared with the existing system, we speed up 47.0x and save 99.5% of memory with only 11.6% loss of BLEU. The code is publicly available at https://github.com/zjersey/Lightseq-ARM.
翻訳日:2023-06-08 15:39:10 公開日:2023-06-07
# セット・ツー・シークエンス・ランキングに基づく概念認識学習経路勧告

Set-to-Sequence Ranking-based Concept-aware Learning Path Recommendation ( http://arxiv.org/abs/2306.04234v1 )

ライセンス: Link先を確認
Xianyu Chen, Jian Shen, Wei Xia, Jiarui Jin, Yakun Song, Weinan Zhang, Weiwen Liu, Menghui Zhu, Ruiming Tang, Kai Dong, Dingyin Xia, Yong Yu(参考訳) オンライン教育システムの開発に伴い、パーソナライズされた教育レコメンデーションが重要な役割を担っている。 本稿では,各セッションにおける学習経路全体の生成と推薦を目的としたパスレコメンデーションシステムの開発に着目する。 既存の手法では経路内の概念の相関を考慮できないことに気付き,SRC(Set-to-Sequence Ranking-based Concept-Aware Learning Path Recommendation)と呼ばれる新しいフレームワークを提案する。 具体的には,まず,入力学習概念間の相関を捉えることができる概念認識エンコーダモジュールを設計した。 出力はデコーダモジュールに送られ、学習と対象概念の相関を処理する注意機構を通じて順次経路を生成する。 我々の推薦政策は政策勾配によって最適化される。 また,学習概念に対する学習効果を評価することにより,モデルの安定性を高めるための知識追跡に基づく補助モジュールを提案する。 2つの実世界の公開データセットと1つの産業データセットについて広範な実験を行い,srcの優位性と有効性を示す実験結果を得た。 コードはhttps://gitee.com/mindspore/models/tree/master/research/recommend/SRCで入手できる。

With the development of the online education system, personalized education recommendation has played an essential role. In this paper, we focus on developing path recommendation systems that aim to generating and recommending an entire learning path to the given user in each session. Noticing that existing approaches fail to consider the correlations of concepts in the path, we propose a novel framework named Set-to-Sequence Ranking-based Concept-aware Learning Path Recommendation (SRC), which formulates the recommendation task under a set-to-sequence paradigm. Specifically, we first design a concept-aware encoder module which can capture the correlations among the input learning concepts. The outputs are then fed into a decoder module that sequentially generates a path through an attention mechanism that handles correlations between the learning and target concepts. Our recommendation policy is optimized by policy gradient. In addition, we also introduce an auxiliary module based on knowledge tracing to enhance the model's stability by evaluating students' learning effects on learning concepts. We conduct extensive experiments on two real-world public datasets and one industrial dataset, and the experimental results demonstrate the superiority and effectiveness of SRC. Code will be available at https://gitee.com/mindspore/models/tree/master/research/recommend/SRC.
翻訳日:2023-06-08 15:38:55 公開日:2023-06-07
# 訓練済み言語モデルからの伝達学習によるエンドツーエンド音声要約の改善

Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization ( http://arxiv.org/abs/2306.04233v1 )

ライセンス: Link先を確認
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix(参考訳) エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。 従来のカスケード手法とは対照的に、完全な音響情報を利用し、転写誤りの伝播を軽減できるため、このアプローチは有望である。 しかし, 音声対の収集コストが高いため, E2E SSumモデルは訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。 この欠点を克服するために、我々は、翻訳学習を通じてE2E SSumデコーダに自然文を生成することができる事前学習言語モデル(LM)を初めて統合することを提案する。 また, 独立学習エンコーダとデコーダとのギャップを低減するため, 一般的な自動音声認識エンコーダの代わりに, ベースラインe2e ssumエンコーダを転送する提案を行う。 実験結果から,提案モデルはベースラインやデータ拡張モデルよりも優れていた。

End-to-end speech summarization (E2E SSum) directly summarizes input speech into easy-to-read short sentences with a single model. This approach is promising because it, in contrast to the conventional cascade approach, can utilize full acoustical information and mitigate to the propagation of transcription errors. However, due to the high cost of collecting speech-summary pairs, an E2E SSum model tends to suffer from training data scarcity and output unnatural sentences. To overcome this drawback, we propose for the first time to integrate a pre-trained language model (LM), which is highly capable of generating natural sentences, into the E2E SSum decoder via transfer learning. In addition, to reduce the gap between the independently pre-trained encoder and decoder, we also propose to transfer the baseline E2E SSum encoder instead of the commonly used automatic speech recognition encoder. Experimental results show that the proposed model outperforms baseline and data augmented models.
翻訳日:2023-06-08 15:38:31 公開日:2023-06-07
# ロバスト対応のための確率的座標場学習

Learning Probabilistic Coordinate Fields for Robust Correspondences ( http://arxiv.org/abs/2306.04231v1 )

ライセンス: Link先を確認
Weiyue Zhao, Hao Lu, Xinyi Ye, Zhiguo Cao, Xin Li(参考訳) 画像対応問題に対する新しい幾何学不変座標表現である確率座標場(pcfs)を提案する。 標準カルテシアン座標とは対照的に、PCFはアフィン不変量を持つ対応特化バリ中心座標系(BCS)の座標を符号化する。 符号化された座標をどこで信頼するかを知るため、PCF-Netと呼ばれる確率的ネットワークでPCFを実装し、座標場の分布をガウス混合モデルとしてパラメータ化する。 座標場とその信頼度を高密度流れで共同最適化することにより、PCF-Netは信頼マップによるPCFの信頼性の定量化に際し、様々な特徴記述子を扱うことができる。 この研究の興味深い観察は、学習された信頼度マップが幾何学的にコヒーレントで意味的に一貫性のある領域に収束し、ロバストな座標表現を促進することである。 キーポイント/フィーチャーディスクリプタに信頼度座標を提供することにより,PCF-Netが既存の対応依存アプローチのプラグインとして利用できることを示す。 屋内および屋外のデータセットにおける広範囲な実験により、正確な幾何学的不変座標は、スパース特徴マッチング、高密度画像登録、カメラポーズ推定、一貫性フィルタリングといったいくつかの対応問題において、芸術の状態を実現できることが示唆された。 さらに,PCF-Netにより予測される解釈可能な信頼マップは,テクスチャ転送からマルチホログラフィー分類に至るまで,他の新しい応用にも活用できる。

We introduce Probabilistic Coordinate Fields (PCFs), a novel geometric-invariant coordinate representation for image correspondence problems. In contrast to standard Cartesian coordinates, PCFs encode coordinates in correspondence-specific barycentric coordinate systems (BCS) with affine invariance. To know \textit{when and where to trust} the encoded coordinates, we implement PCFs in a probabilistic network termed PCF-Net, which parameterizes the distribution of coordinate fields as Gaussian mixture models. By jointly optimizing coordinate fields and their confidence conditioned on dense flows, PCF-Net can work with various feature descriptors when quantifying the reliability of PCFs by confidence maps. An interesting observation of this work is that the learned confidence map converges to geometrically coherent and semantically consistent regions, which facilitates robust coordinate representation. By delivering the confident coordinates to keypoint/feature descriptors, we show that PCF-Net can be used as a plug-in to existing correspondence-dependent approaches. Extensive experiments on both indoor and outdoor datasets suggest that accurate geometric invariant coordinates help to achieve the state of the art in several correspondence problems, such as sparse feature matching, dense image registration, camera pose estimation, and consistency filtering. Further, the interpretable confidence map predicted by PCF-Net can also be leveraged to other novel applications from texture transfer to multi-homography classification.
翻訳日:2023-06-08 15:38:15 公開日:2023-06-07
# 逆問題に対する高速かつ解釈可能な解のためのデータマイニング--添加物を用いた事例研究

Data Mining for Faster, Interpretable Solutions to Inverse Problems: A Case Study Using Additive Manufacturing ( http://arxiv.org/abs/2306.04228v1 )

ライセンス: Link先を確認
Chandrika Kamath, Juliette Franzman, Ravi Ponmalai(参考訳) 出力の所望の値をもたらす入力値を見つける逆問題を解くことは困難である。 解法はしばしば計算コストが高く、高次元の入力空間で解を解釈することは困難である。 本稿では, この2つの課題に対して, 逆問題を容易に解き, 結果の活用を意図して, 添加物製造による問題を用いて解決する。 まず,逆問題を解くために用いられるガウス過程サーロゲートに着目し,テーパリングの考え方をシンプルに修正することで,予測精度を損なうことなくサーロゲートを大幅に高速化できることを示す。 第2に,高次元入力空間における逆問題に対する解を可視化し,解釈するために,コホーネン自己組織化マップを使用できることを示す。 我々のデータセットでは、全ての入力次元が等しく重要であるわけではないので、重み付けされた距離を使用することで、入力間の関係が明確になるより良い整理されたマップが得られることを示す。

Solving inverse problems, where we find the input values that result in desired values of outputs, can be challenging. The solution process is often computationally expensive and it can be difficult to interpret the solution in high-dimensional input spaces. In this paper, we use a problem from additive manufacturing to address these two issues with the intent of making it easier to solve inverse problems and exploit their results. First, focusing on Gaussian process surrogates that are used to solve inverse problems, we describe how a simple modification to the idea of tapering can substantially speed up the surrogate without losing accuracy in prediction. Second, we demonstrate that Kohonen self-organizing maps can be used to visualize and interpret the solution to the inverse problem in the high-dimensional input space. For our data set, as not all input dimensions are equally important, we show that using weighted distances results in a better organized map that makes the relationships among the inputs obvious.
翻訳日:2023-06-08 15:37:50 公開日:2023-06-07
# 正規化レイヤーはシャープな最小化に必要なもの

Normalization Layers Are All That Sharpness-Aware Minimization Needs ( http://arxiv.org/abs/2306.04226v1 )

ライセンス: Link先を確認
Maximilian Mueller, Tiffany Vlaar, David Rolnick, Matthias Hein(参考訳) シャープネス認識最小化(SAM)は,最小値のシャープさを低減するために提案され,様々な設定で一般化性能を向上させることが示されている。 本研究では,SAMの対角ステップにおけるアフィン正規化パラメータ(全パラメータの0.1%未満)のみの摂動が,全てのパラメータの摂動より優れていることを示す。 この発見は異なるSAM変種とResNet(バッチ正規化)およびVision Transformer(階層正規化)アーキテクチャに一般化される。 このような極端に疎度なレベルにおいて同様の性能向上を達成できておらず、この挙動は正規化層に特有のものであることを示す。 本研究は,SAMの一般化性能向上効果を再確認するものであるが,これは単にシャープネスの低下によるものであるかどうかに疑問を投げかけた。 実験のコードはhttps://github.com/mueller-mp/SAM-ON.comで公開されている。

Sharpness-aware minimization (SAM) was proposed to reduce sharpness of minima and has been shown to enhance generalization performance in various settings. In this work we show that perturbing only the affine normalization parameters (comprising less than 0.1% of the total parameters) in the adversarial step of SAM outperforms perturbing all of the parameters. This finding generalizes to different SAM variants and both ResNet (Batch Normalization) and Vision Transformer (Layer Normalization) architectures. We consider alternative sparse perturbation approaches and find that these do not achieve similar performance enhancement at such extreme sparsity levels, showing that this behaviour is unique to the normalization layers. Although our findings reaffirm the effectiveness of SAM in improving generalization performance, they cast doubt on whether this is solely caused by reduced sharpness. The code for our experiments is publicly available at https://github.com/mueller-mp/SAM-ON.
翻訳日:2023-06-08 15:37:31 公開日:2023-06-07
# パッチ選択による人間のポーズ推定のための効率的な視覚トランスフォーマ

Efficient Vision Transformer for Human Pose Estimation via Patch Selection ( http://arxiv.org/abs/2306.04225v1 )

ライセンス: Link先を確認
Kaleab A. Kinfu and Ren\'e Vidal(参考訳) 畳み込みニューラルネットワーク(CNN)は2次元の人間のポーズ推定において広く成功しているが、視覚変換器(ViT)はCNNに代わる有望な代替手段として現れ、最先端のパフォーマンスが向上している。 しかし、ViTsの二次計算複雑性は、高解像度の画像や長いビデオの処理に適用性に制限されている。 この問題に対処するため,本研究では,ViT の計算複雑性を減らし,少数の情報パッチを選択・処理する手法を提案する。 我々は,軽量なポーズ推定ネットワークを用いてパッチ選択プロセスをガイドし,選択したパッチが最も重要な情報を含むことを保証する。 我々は,COCO,MPII,OCHumanの3つの広範に使用されている2次元ポーズ推定ベンチマークを用いて,提案手法の有効性を実証した。

While Convolutional Neural Networks (CNNs) have been widely successful in 2D human pose estimation, Vision Transformers (ViTs) have emerged as a promising alternative to CNNs, boosting state-of-the-art performance. However, the quadratic computational complexity of ViTs has limited their applicability for processing high-resolution images and long videos. To address this challenge, we propose a simple method for reducing ViT's computational complexity based on selecting and processing a small number of most informative patches while disregarding others. We leverage a lightweight pose estimation network to guide the patch selection process, ensuring that the selected patches contain the most important information. Our experimental results on three widely used 2D pose estimation benchmarks, namely COCO, MPII and OCHuman, demonstrate the effectiveness of our proposed methods in significantly improving speed and reducing computational complexity with a slight drop in performance.
翻訳日:2023-06-08 15:37:15 公開日:2023-06-07
# 最適リワーク政策の因果学習

Causally Learning an Optimal Rework Policy ( http://arxiv.org/abs/2306.04223v1 )

ライセンス: Link先を確認
Oliver Schacht, Sven Klaassen, Philipp Schwarz, Martin Spindler, Daniel Gr\"unbaum, Sebastian Imhof(参考訳) 製造において、リワーク(rework)とは、望ましい品質基準を満たさないエラーや製品の改善を目的とした生産プロセスの任意のステップを指す。 生産ロットの再作業には、最終製品が要求仕様を満たすように調整された前の生産段階を繰り返すことが含まれる。 生産量を改善する機会を提供し、生産ロットの収益を増やす一方で、再作業のステップは追加コストもたらします。 さらに、既に目標仕様を満たしている部品のリワークは、それらを傷つけ、収率を低下させる可能性がある。 本稿では,光電子半導体製造における色変換過程におけるリワークステップの条件処理効果を最終生成物収率で推定するために,dml(double/debiased machine learning)を適用した。 実装のDoubleMLを利用して、コンポーネントのリワークのポリシーを開発し、その価値を経験的に見積もる。 因果機械学習解析から、単色LEDを変換層でコーティングすることの意味を導出した。

In manufacturing, rework refers to an optional step of a production process which aims to eliminate errors or remedy products that do not meet the desired quality standards. Reworking a production lot involves repeating a previous production stage with adjustments to ensure that the final product meets the required specifications. While offering the chance to improve the yield and thus increase the revenue of a production lot, a rework step also incurs additional costs. Additionally, the rework of parts that already meet the target specifications may damage them and decrease the yield. In this paper, we apply double/debiased machine learning (DML) to estimate the conditional treatment effect of a rework step during the color conversion process in opto-electronic semiconductor manufacturing on the final product yield. We utilize the implementation DoubleML to develop policies for the rework of components and estimate their value empirically. From our causal machine learning analysis we derive implications for the coating of monochromatic LEDs with conversion layers.
翻訳日:2023-06-08 15:36:57 公開日:2023-06-07
# ヘテロ親和性半教師あり学習のための変分グラフフレームレット

Permutaion Equivariant Graph Framelets for Heterophilous Semi-supervised Learning ( http://arxiv.org/abs/2306.04265v1 )

ライセンス: Link先を確認
Jianfei Li, Ruigang Zheng, Han Feng, Xiaosheng Zhuang(参考訳) 相同性グラフの性質は相同性グラフの性質と大きく異なり、1-hop近傍での凝集が示唆され、初期のグラフニューラルネットワークモデルでは困難を生じさせる。 本稿では,グラフ上の深層学習タスクに対して,置換等分散,効率,スパーシティの望ましい特性を持つハール型グラフフレームレットを構築することにより,マルチスケール抽出を実現する新しい手法を提案する。 さらに,構築したグラフフレームレットを用いて,グラフフレームレットニューラルネットワークモデルPEGFANについて検討する。 実験は、合成データセットと9つのベンチマークデータセットで行われ、パフォーマンスを他の最先端モデルと比較する。 その結果, 異種グラフの特定のデータセット(比較的大きなサイズとより密接な接続を持つ異種グラフの大多数を含む)で最高の性能を達成でき, 残りは競合性能を達成できることがわかった。

The nature of heterophilous graphs is significantly different with that of homophilous graphs, which suggests aggregations beyond 1-hop neighborhood and causes difficulties in early graph neural network models. In this paper, we develop a new way to implement multi-scale extraction via constructing Haar-type graph framelets with desired properties of permutation equivariance, efficiency, and sparsity, for deep learning tasks on graphs. We further deisgn a graph framelet neural network model PEGFAN using our constructed graph framelets. The experiments are conducted on a synthetic dataset and 9 benchmark datasets to compare performance with other state-of-the-art models. The result shows that our model can achieve best performance on certain datasets of heterophilous graphs (including the majority of heterophilous datasets with relatively larger sizes and denser connections) and competitive performance on the remaining.
翻訳日:2023-06-08 15:31:11 公開日:2023-06-07
# ベイズ最適化のための自己調整重み付き期待改善

Self-Adjusting Weighted Expected Improvement for Bayesian Optimization ( http://arxiv.org/abs/2306.04262v1 )

ライセンス: Link先を確認
Carolin Benjamins and Elena Raponi and Anja Jankovic and Carola Doerr and Marius Lindauer(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、ブラックボックス問題を最小評価予算で最適化するためのサロゲートベースのサンプル効率アルゴリズムである。 BOパイプライン自体は、初期設計、サロゲートモデル、取得機能(AF)に関する多くの異なる設計選択で、高度に構成可能である。 残念ながら、問題に対する適切なコンポーネントの選択方法に関する理解は非常に限られています。 本研究は,不確実性の高い地域と,優れたソリューションを約束する地域とのトレードオフを両立させることを主目的とするAFの定義に焦点を当てる。 我々は,BOの収束基準に基づいて,データ駆動方式で探索・探索トレードオフを自己調整する自己調整重み付き改善(SAWEI)を提案する。 COCOベンチマークプラットフォームのノイズフリーなブラックボックスBBOB関数では,手作りのベースラインに比べて任意の時間性能が良好であり,どの問題構造に対しても堅牢なデフォルト選択として機能する。 提案手法の適合性もHPOBenchに伝達される。 SAWEIでは、手元にある問題に自動的にサンプリング動作を調整する、オンザフライ、データ駆動、堅牢なBO設計に一歩近づきます。

Bayesian Optimization (BO) is a class of surrogate-based, sample-efficient algorithms for optimizing black-box problems with small evaluation budgets. The BO pipeline itself is highly configurable with many different design choices regarding the initial design, surrogate model, and acquisition function (AF). Unfortunately, our understanding of how to select suitable components for a problem at hand is very limited. In this work, we focus on the definition of the AF, whose main purpose is to balance the trade-off between exploring regions with high uncertainty and those with high promise for good solutions. We propose Self-Adjusting Weighted Expected Improvement (SAWEI), where we let the exploration-exploitation trade-off self-adjust in a data-driven manner, based on a convergence criterion for BO. On the noise-free black-box BBOB functions of the COCO benchmarking platform, our method exhibits a favorable any-time performance compared to handcrafted baselines and serves as a robust default choice for any problem structure. The suitability of our method also transfers to HPOBench. With SAWEI, we are a step closer to on-the-fly, data-driven, and robust BO designs that automatically adjust their sampling behavior to the problem at hand.
翻訳日:2023-06-08 15:30:54 公開日:2023-06-07
# 経時的に治療結果を予測するための学習時の情報サンプリングのための会計

Accounting For Informative Sampling When Learning to Forecast Treatment Outcomes Over Time ( http://arxiv.org/abs/2306.04255v1 )

ライセンス: Link先を確認
Toon Vanderschueren, Alicia Curth, Wouter Verbeke and Mihaela van der Schaar(参考訳) 機械学習(ml)は、時間の経過とともに治療結果を正確に予測する大きな可能性を秘めている。 しかし、この話題に関するML文献にほとんど見落とされてきた重要な課題は、観測データに情報的サンプリングが存在することである。 インスタンスが経時的に不規則に観察される場合、サンプリング時間は一般的にランダムではなく、インスタンスの特性、過去の結果、管理された治療に依存する。 本研究では,情報サンプリングを共変量シフト問題として定式化し,適切な説明がなければ,治療結果の正確な推定を禁止できることを示す。 この課題を克服するために,逆強度重み付けを用いた情報サンプリングの存在下での治療成果を学習するための汎用的な枠組みを提案し,ニューラルcdsを用いてこの枠組みをインスタンス化する新しい方法であるtesar-cdeを提案する。 臨床応用事例に基づくシミュレーション環境を用いて,情報サンプリングによる学習におけるアプローチの有効性を実証した。

Machine learning (ML) holds great potential for accurately forecasting treatment outcomes over time, which could ultimately enable the adoption of more individualized treatment strategies in many practical applications. However, a significant challenge that has been largely overlooked by the ML literature on this topic is the presence of informative sampling in observational data. When instances are observed irregularly over time, sampling times are typically not random, but rather informative -- depending on the instance's characteristics, past outcomes, and administered treatments. In this work, we formalize informative sampling as a covariate shift problem and show that it can prohibit accurate estimation of treatment outcomes if not properly accounted for. To overcome this challenge, we present a general framework for learning treatment outcomes in the presence of informative sampling using inverse intensity-weighting, and propose a novel method, TESAR-CDE, that instantiates this framework using Neural CDEs. Using a simulation environment based on a clinical use case, we demonstrate the effectiveness of our approach in learning under informative sampling.
翻訳日:2023-06-08 15:30:32 公開日:2023-06-07
# ニューラルネットワーク輸送ダイナミクスによる逆サンプル検出

Adversarial Sample Detection Through Neural Network Transport Dynamics ( http://arxiv.org/abs/2306.04252v1 )

ライセンス: Link先を確認
Skander Karkar and Patrick Gallinari and Alain Rakotomamonjy(参考訳) 本稿では,ニューラルネットワークを離散力学系として捉えた逆行サンプル検出手法を提案する。 検出器は、層を通過する離散ベクトル場を比較して、異常な物体からのクリーンな入力を伝える。 また,このベクトル場をトレーニング中に正則化することで,ネットワークがデータ分散のサポートにより規則的になり,クリーン入力のアクティベーションが異常入力と区別しやすくなることを示した。 実験により,ネットワークのダイナミクスの正規化により,内部埋め込みを入力として使用する対向検出器の性能が向上し,試験精度も向上することを確認した。

We propose a detector of adversarial samples that is based on the view of neural networks as discrete dynamic systems. The detector tells clean inputs from abnormal ones by comparing the discrete vector fields they follow through the layers. We also show that regularizing this vector field during training makes the network more regular on the data distribution's support, thus making the activations of clean inputs more distinguishable from those of abnormal ones. Experimentally, we compare our detector favorably to other detectors on seen and unseen attacks, and show that the regularization of the network's dynamics improves the performance of adversarial detectors that use the internal embeddings as inputs, while also improving test accuracy.
翻訳日:2023-06-08 15:30:13 公開日:2023-06-07
# 確率的崩壊:勾配ノイズがより単純なサブネットワークへsgdダイナミクスを惹きつける方法

Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks ( http://arxiv.org/abs/2306.04251v1 )

ライセンス: Link先を確認
Feng Chen, Daniel Kunin, Atsushi Yamamura, Surya Ganguli(参考訳) 本研究では,より単純なサブネットワークに過度に表現的ネットワークを駆動する確率勾配降下(SGD)の強い暗黙バイアスを明らかにし,独立パラメータの数を劇的に削減し,一般化を改善する。 このバイアスを明らかにするために、SGD によって修正されないパラメータ空間の不変集合や部分集合を同定する。 より単純なサブネットに対応する不変集合の2つのクラスに焦点を合わせ、現代建築によく見られる。 解析により、SGDはこれらの単純不変集合に対する確率的誘引性の性質を示すことが明らかになった。 本研究では,不変集合まわりの損失景観の曲率と確率勾配による雑音との競合に基づいて,確率的魅力の十分条件を確立する。 驚くべきことに、騒音のレベルが増加すると誘引性が高まり、サドルポイントや列車損失の局所的最大値に関連する魅力的な不変集合が出現する。 我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスがしばしば消滅または冗長なニューロンを持つ単純なサブネットに崩壊することを示す。 さらに、この確率的崩壊の単純化プロセスが、線形教師学生フレームワークの一般化にどう役立つかを実証する。 最後に,本解析により,長期学習率の高い早期学習が,後続の一般化に有益である理由を機械論的に説明する。

In this work, we reveal a strong implicit bias of stochastic gradient descent (SGD) that drives overly expressive networks to much simpler subnetworks, thereby dramatically reducing the number of independent parameters, and improving generalization. To reveal this bias, we identify invariant sets, or subsets of parameter space that remain unmodified by SGD. We focus on two classes of invariant sets that correspond to simpler subnetworks and commonly appear in modern architectures. Our analysis uncovers that SGD exhibits a property of stochastic attractivity towards these simpler invariant sets. We establish a sufficient condition for stochastic attractivity based on a competition between the loss landscape's curvature around the invariant set and the noise introduced by stochastic gradients. Remarkably, we find that an increased level of noise strengthens attractivity, leading to the emergence of attractive invariant sets associated with saddle-points or local maxima of the train loss. We observe empirically the existence of attractive invariant sets in trained deep neural networks, implying that SGD dynamics often collapses to simple subnetworks with either vanishing or redundant neurons. We further demonstrate how this simplifying process of stochastic collapse benefits generalization in a linear teacher-student framework. Finally, through this analysis, we mechanistically explain why early training with large learning rates for extended periods benefits subsequent generalization.
翻訳日:2023-06-08 15:29:59 公開日:2023-06-07
# DEMIST : 深層学習に基づく心筋灌流SPECTのためのタスク特異的 denoising アプローチ

DEMIST: A deep-learning-based task-specific denoising approach for myocardial perfusion SPECT ( http://arxiv.org/abs/2306.04249v1 )

ライセンス: Link先を確認
Md Ashequr Rahman, Zitong Yu, Craig K. Abbey, Barry A. Siegel, Abhinav K. Jha(参考訳) 心筋灌流画像(MPI)SPECTでは,放射線線量と画像撮影時間を短縮する方法が重要である。 深層学習法 (dl) は, ローカウント画像からの正常値画像の予測に有望であるが, 灌流欠陥の検出を客観的に評価した手法は, ローカウント画像と比較して性能が向上していない。 そこで本研究では,MPI SPECT画像(DEMIST)の検出タスク固有のDLベースアプローチを提案するために,モデル・オブザーバ理論と人間の視覚システムを理解することによる概念を構築した。 このアプローチは、ディノイジングを実行しながら、検出タスクにおけるオブザーバのパフォーマンスに影響を与えることが知られている特徴を保存するように設計されている。 MPIを施行した患者 (N=338) に対して, 匿名化臨床データを用いた再検討を行い, 灌流障害検出の課題について客観的に検討した。 人為的チャネル化Hotellingオブザーバを用いて, 灌流欠陥検出タスクの性能を定量化した。 DEMISTで認識された画像は、対応する低線量画像や、一般的に使われているタスク非依存のDLベースの画像と比較して、検出性能が有意に向上した。 同様の結果は, 性差と欠陥タイプに基づく成層分析で観察された。 さらに,提案手法は,ルート平均二乗誤差と構造類似度指標のタスク非依存指標において,低用量画像と比較して有意に性能が向上した。 数学的解析により、DEMISTはノイズ特性を改善しながら検出タスク固有の特徴を保ち、観測性能が向上することが明らかとなった。 以上の結果から,MPI SPECTで低位像を呈示するDEMISTのさらなる臨床評価が示唆された。

There is an important need for methods to reduce radiation dose and imaging time in myocardial perfusion imaging (MPI) SPECT. Deep learning (DL) methods have demonstrated promise in predicting normal-count images from low-count images for MPI SPECT, but the methods that have been objectively evaluated on the clinical task of detecting perfusion defects have not shown improved performance compared with low-count images. To address this need, we build upon concepts from model-observer theory and our understanding of the human visual system to propose a Detection task-specific DL-based approach for denoising MPI SPECT images (DEMIST). The approach, while performing denoising, is designed to preserve features that are known to impact observer performance on detection tasks. We objectively evaluated the proposed method on the task of detecting perfusion defects using a retrospective study with anonymized clinical data in patients who underwent MPI studies (N = 338). Performance on the task of detecting perfusion defects was quantified with an anthropomorphic channelized Hotelling observer. Images denoised with DEMIST yielded significantly improved detection performance compared to the corresponding low-dose images and images denoised with a commonly used task-agnostic DL-based denoising method. Similar results were observed with stratified analysis based on patient sex and defect type. Additionally, the proposed method significantly improved performance compared to the low-dose images in terms of the task-agnostic metrics of root mean squared error and structural similarity index metric. A mathematical analysis reveals that DEMIST preserves detection-task-specific features while improving the noise properties, thus resulting in improved observer performance. The results provide strong evidence for further clinical evaluation of DEMIST to denoise low-count images in MPI SPECT.
翻訳日:2023-06-08 15:29:32 公開日:2023-06-07
# 構造ボソニック環境における熱サイクルとポーラロン形成

Thermal cycle and polaron formation in structured bosonic environments ( http://arxiv.org/abs/2306.04248v1 )

ライセンス: Link先を確認
A. Riva, D. Tamascelli, A. J. Dunnett, and A. W. Chin(参考訳) 時間依存密度行列再正規化群と組み合わせたチェインマッピング技術は、構造化ボゾン環境と相互作用するオープン量子系の力学をシミュレートする強力なツールである。 興味深いことに、彼らは環境の自由度を検査に残している。 本研究では,環境観測装置へのアクセスを最大限に活用し,オープン量子システムの進化とそれと相互作用する環境の詳細な進化との関係を解明する。 特に、有限温度チェーンマッピング形式が動的平衡状態を表現することを可能にする基礎物理学を正確に記述する。 さらに,超オーミック環境と強く相互作用する2レベル系の解析を行い,ポラロン状態の形成にさかのぼるスピンボソン基底状態の変化を明らかにした。

Chain-mapping techniques combined with time-dependent density matrix renormalization group are powerful tools for simulating the dynamics of open quantum systems interacting with structured bosonic environments. Most interestingly, they leave the degrees of freedom of the environment open to inspection. In this work, we fully exploit the access to environmental observables to illustrate how the evolution of the open quantum system can be related to the detailed evolution of the environment it interacts with. In particular, we give a precise description of the fundamental physics that enables the finite temperature chain-mapping formalism to express dynamical equilibrium states. Furthermore, we analyze a two-level system strongly interacting with a super-Ohmic environment, where we discover a change in the Spin-Boson ground state that can be traced to the formation of polaronic states.
翻訳日:2023-06-08 15:29:05 公開日:2023-06-07
# 量子コンピューティングのスケーラビリティに及ぼすHW-SW-Co設計の影響

Influence of HW-SW-Co-Design on Quantum Computing Scalability ( http://arxiv.org/abs/2306.04246v1 )

ライセンス: Link先を確認
Hila Safi, Karen Wintersperger, Wolfgang Mauerer(参考訳) 量子処理ユニット(QPU)の使用は、計算問題を解くためのスピードアップを約束する。 しかし、現在のデバイスは量子ビットの数によって制限されており、量子上の優位性を達成できない重大な欠陥に悩まされている。 実用性に向けて、ハードウェア・ソフトウェアの共同設計手法を適用するというアプローチがある。 これは問題定式化やアルゴリズムを量子実行環境に調整するだけでなく、qpuの物理的性質を特定のアプリケーションに適用する可能性も伴う。 本研究は後者の経路を踏襲し、回路深度とゲート数というキーフィギュアが4つのグラウトNP完全問題の解法にどのように依存するかを、ハードウェア特性に合わせて検討する。 その結果、最適に近い性能と特性を達成するには最適な量子ハードウェアが必ずしも必要ではなく、多くのハードウェアアプローチで実現可能な、より単純な構造で満足できることがわかった。 統計的解析手法を用いて、全ての問題に適用する基礎となる一般モデルも同定する。 この結果は,他のアルゴリズムや問題領域に普遍的に適用可能であることを示唆している。 それでも大きな改善は、量子ソフトウェアの実用的なデプロイメントと拡張性への進歩にqpuを合わせることの重要性を強調している。

The use of quantum processing units (QPUs) promises speed-ups for solving computational problems. Yet, current devices are limited by the number of qubits and suffer from significant imperfections, which prevents achieving quantum advantage. To step towards practical utility, one approach is to apply hardware-software co-design methods. This can involve tailoring problem formulations and algorithms to the quantum execution environment, but also entails the possibility of adapting physical properties of the QPU to specific applications. In this work, we follow the latter path, and investigate how key figures - circuit depth and gate count - required to solve four cornerstone NP-complete problems vary with tailored hardware properties. Our results reveal that achieving near-optimal performance and properties does not necessarily require optimal quantum hardware, but can be satisfied with much simpler structures that can potentially be realised for many hardware approaches. Using statistical analysis techniques, we additionally identify an underlying general model that applies to all subject problems. This suggests that our results may be universally applicable to other algorithms and problem domains, and tailored QPUs can find utility outside their initially envisaged problem domains. The substantial possible improvements nonetheless highlight the importance of QPU tailoring to progress towards practical deployment and scalability of quantum software.
翻訳日:2023-06-08 15:28:53 公開日:2023-06-07
# 粗い方が良い? 未修正画像を用いた自己教師あり学習のための新しいパイプライン

Coarse Is Better? A New Pipeline Towards Self-Supervised Learning with Uncurated Images ( http://arxiv.org/abs/2306.04244v1 )

ライセンス: Link先を確認
Ke Zhu, Yin-Yin He, Jianxin Wu(参考訳) ほとんどの自己教師付き学習(SSL)メソッドは、オブジェクト中心の仮定が成立するキュレートデータセットで動作することが多い。 この仮定は未完のシーンイメージに分解される。 既存のシーン画像SSL法は、よくマッチした、あるいは密度の高いオリジナルのシーン画像から2つのビューを見つけようとするが、これは複雑で計算的に重くなる。 まず、粗いオブジェクト(適切なオブジェクト性を持つ)である領域を見つけ出し、疑似オブジェクト中心のイメージとして抽出し、その後、sslメソッドを実際のオブジェクト中心のデータセットのように直接適用することができる。 つまり、収穫はシーンイメージSSLの恩恵を受ける。 シーン画像中の粗い対象領域を見つけるための新しいクロッピング戦略を提案する。 提案されたパイプラインとトリミング戦略は、MS-COCOのような未処理のシーンデータセットから高品質な視覚表現をうまく学習し、学習はImageNetのような外部のオブジェクト中心のデータセットに依存しない。 実験の結果、パイプラインはシーンイメージ上の既存のSSLメソッドよりも優れており、MAEのような非競合的なSSLメソッドには親しみやすいことがわかった。 さらにアブレーションは、提案された収穫戦略が事前訓練されたSSLモデルに依存していないことも確認している。

Most self-supervised learning (SSL) methods often work on curated datasets where the object-centric assumption holds. This assumption breaks down in uncurated scene images. Existing scene image SSL methods try to find the two views from original scene images that are well matched or dense, which is both complex and computationally heavy. This paper proposes a conceptually different pipeline: first find regions that are coarse objects (with adequate objectness), crop them out as pseudo object-centric images, then any SSL method can be directly applied as in a real object-centric dataset. That is, cropping benefits scene images SSL. A novel cropping strategy is proposed to find coarse object regions in scene images. The proposed pipeline and cropping strategy successfully learn high quality visual representation from uncurated scene datasets like MS-COCO, and the learning does not rely on external object-centric datasets such as ImageNet. Experiments show that our pipeline outperforms existing SSL methods on scene images, and is friendly for non-contrastive SSL methods like MAE. Ablations further verify that the proposed cropping strategy does not rely on pretrained SSL models, too.
翻訳日:2023-06-08 15:28:33 公開日:2023-06-07
# T-ADAF:Tensor T-product Operatorに基づく画像分類ネットワークのための適応データ拡張フレームワーク

T-ADAF: Adaptive Data Augmentation Framework for Image Classification Network based on Tensor T-product Operator ( http://arxiv.org/abs/2306.04240v1 )

ライセンス: Link先を確認
Feiyang Han, Yun Miao, Zhaoyi Sun, Yimin Wei(参考訳) 画像分類はコンピュータビジョンにおける最も基本的なタスクの1つである。 実用的なアプリケーションでは、データセットは通常、実験室やシミュレーションのデータセットほど豊富ではない。 データの情報をより完全かつ効果的に抽出する方法は非常に重要です。 そこで本論文では, テンソルT積演算子に基づく適応データ拡張フレームワークを提案し, トレーニング対象とする画像データを3倍にし, パラメータ数0.1%未満の増加とともに, これら3つの画像から結果を得る。 同時に、このフレームワークは、コラム画像埋め込みとグローバル特徴交差の機能を提供し、モデルが空間領域だけでなく周波数領域でも情報を得ることができるようにし、モデルの予測精度を向上させる。 数値実験はいくつかのモデルのために設計されており、この適応フレームワークの有効性が示されている。 数値実験により、データ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させ、最先端の手法に競争的な結果をもたらすことを示した。

Image classification is one of the most fundamental tasks in Computer Vision. In practical applications, the datasets are usually not as abundant as those in the laboratory and simulation, which is always called as Data Hungry. How to extract the information of data more completely and effectively is very important. Therefore, an Adaptive Data Augmentation Framework based on the tensor T-product Operator is proposed in this paper, to triple one image data to be trained and gain the result from all these three images together with only less than 0.1% increase in the number of parameters. At the same time, this framework serves the functions of column image embedding and global feature intersection, enabling the model to obtain information in not only spatial but frequency domain, and thus improving the prediction accuracy of the model. Numerical experiments have been designed for several models, and the results demonstrate the effectiveness of this adaptive framework. Numerical experiments show that our data augmentation framework can improve the performance of original neural network model by 2%, which provides competitive results to state-of-the-art methods.
翻訳日:2023-06-08 15:28:12 公開日:2023-06-07
# blackboardアーキテクチャへのリンクとコンテナの追加に関する導入と評価

Introduction and Assessment of the Addition of Links and Containers to the Blackboard Architecture ( http://arxiv.org/abs/2306.04289v1 )

ライセンス: Link先を確認
Jordan Milbrath, Jeremy Straub(参考訳) Blackboard Architectureは、データとロジックを保存し、Blackboard Architectureのネットワークモデルであるアプリケーション環境に影響を与える決定を行うためのメカニズムを提供する。 ルールファクト・アクション・ネットワークは多くの種類のデータを表現できるが、簡単にモデル化できる関係はルールファクト・ネットワーク構造の命題論理の性質によって制限される。 本稿では,ブラックボードアーキテクチャにおけるコンテナとリンクの包含を提案,評価する。 これらのオブジェクトは、ブール論理ルールとして容易に、あるいは効率的に実装できない組織的、物理的、空間的、その他の関係をモデル化できるように設計されています。 コンテナは関連する事実をグループ化し、複雑な関係を実装するためにネストすることができる。 リンクは、組織的目的に関連する関係を持つコンテナを相互接続する。 両方のオブジェクトは共に、ブラックボードアーキテクチャの新たな使い方を促進し、操作中に考慮すべき複数のタイプの関係を持つ複雑なタスクを有効または単純に使用します。

The Blackboard Architecture provides a mechanism for storing data and logic and using it to make decisions that impact the application environment that the Blackboard Architecture network models. While rule-fact-action networks can represent numerous types of data, the relationships that can be easily modeled are limited by the propositional logic nature of the rule-fact network structure. This paper proposes and evaluates the inclusion of containers and links in the Blackboard Architecture. These objects are designed to allow them to model organizational, physical, spatial and other relationships that cannot be readily or efficiently implemented as Boolean logic rules. Containers group related facts together and can be nested to implement complex relationships. Links interconnect containers that have a relationship that is relevant to their organizational purpose. Both objects, together, facilitate new ways of using the Blackboard Architecture and enable or simply its use for complex tasks that have multiple types of relationships that need to be considered during operations.
翻訳日:2023-06-08 15:19:53 公開日:2023-06-07
# 駐車場入居検知における深層学習手法の改訂

Revising deep learning methods in parking lot occupancy detection ( http://arxiv.org/abs/2306.04288v1 )

ライセンス: Link先を確認
Anastasia Martynova, Mikhail Kuznetsov, Vadim Porvatov, Vladislav Tishin, Andrey Kuznetsov, Natalia Semenova, Ksenia Kuznetsova(参考訳) 駐車場案内システムは近年,スマートシティの発展パラダイムの一部として人気が高まっている。 このようなシステムの重要な部分は、ドライバーが関心のある地域をまたいで利用可能な駐車場を検索できるアルゴリズムである。 このタスクの古典的なアプローチは、ニューラルネットワーク分類器のカメラレコードへの応用に基づいている。 しかし、既存のシステムは、特定の視覚条件に関する一般化能力や適切なテストの欠如を示している。 本研究では、現在最先端の駐車場占有率検出アルゴリズムを広く評価し、その予測品質を最近登場した視覚変換器と比較し、EfficientNetアーキテクチャに基づく新しいパイプラインを提案する。 性能計算実験により, 5つの異なるデータセットで評価したモデルの場合, 性能が向上することを示した。

Parking guidance systems have recently become a popular trend as a part of the smart cities' paradigm of development. The crucial part of such systems is the algorithm allowing drivers to search for available parking lots across regions of interest. The classic approach to this task is based on the application of neural network classifiers to camera records. However, existing systems demonstrate a lack of generalization ability and appropriate testing regarding specific visual conditions. In this study, we extensively evaluate state-of-the-art parking lot occupancy detection algorithms, compare their prediction quality with the recently emerged vision transformers, and propose a new pipeline based on EfficientNet architecture. Performed computational experiments have demonstrated the performance increase in the case of our model, which was evaluated on 5 different datasets.
翻訳日:2023-06-08 15:19:38 公開日:2023-06-07
# 共通プロパティと汎用ルールによるブラックボードアーキテクチャの拡張

Extension of the Blackboard Architecture with Common Properties and Generic Rules ( http://arxiv.org/abs/2306.04287v1 )

ライセンス: Link先を確認
Jonathan Rivard, Jeremy Straub(参考訳) Blackboard Architectureは、データ、意思決定、動作を具現化するメカニズムを提供する。 その汎用性は、幅広いアプリケーション領域で実証されている。 しかし、ルールファクト・アクション・ネットワークに具現化された命題論理に加えて、意思決定に有用な組織、空間、その他の関係を直接モデル化する能力が欠けている。 これまでの研究では、これらの組織的および他の関係を同時にモデル化するメカニズムとして、コンテナオブジェクトとリンクの使用を提案してきた。 コンテナはこのモデリングを促進するが、そのユーティリティは手動で定義する必要があるため制限される。 特定の種類のオブジェクトの複数のインスタンスを持ち、センサーに基づいてネットワークを自律的に構築するシステムの場合、論理構造の再利用は操作を容易にし、ストレージや処理の必要性を減らす。 そこで本論文では,ブラックボードアーキテクチャに追加される2つの概念,共通プロパティと汎用ルールを提示し,評価する。 共通特性はコンテナに関連する事実であり、それらが関連しているさまざまなオブジェクト間で同じ情報を表現するものとして定義される。 ジェネリックルールは、これらのジェネリックルールをリンクにまたがって使用し、それらの定義に一致する任意のオブジェクトに適用する論理命題を提供する。 これら2つの新しい概念の潜在的な用途について論じ,システム性能への影響について述べる。

The Blackboard Architecture provides a mechanism for embodying data, decision making and actuation. Its versatility has been demonstrated across a wide number of application areas. However, it lacks the capability to directly model organizational, spatial and other relationships which may be useful in decision-making, in addition to the propositional logic embodied in the rule-fact-action network. Previous work has proposed the use of container objects and links as a mechanism to simultaneously model these organizational and other relationships, while leaving the operational logic modeled in the rules, facts and actions. While containers facilitate this modeling, their utility is limited by the need to manually define them. For systems which may have multiple instances of a particular type of object and which may build their network autonomously, based on sensing, the reuse of logical structures facilitates operations and reduces storage and processing needs. This paper, thus, presents and assesses two additional concepts to add to the Blackboard Architecture: common properties and generic rules. Common properties are facts associated with containers which are defined as representing the same information across the various objects that they are associated with. Generic rules provide logical propositions that use these generic rules across links and apply to any objects matching their definition. The potential uses of these two new concepts are discussed herein and their impact on system performance is characterized.
翻訳日:2023-06-08 15:19:27 公開日:2023-06-07
# モナラ音声強調のためのマスクフリーニューラルネットワーク

A Mask Free Neural Network for Monaural Speech Enhancement ( http://arxiv.org/abs/2306.04286v1 )

ライセンス: Link先を確認
Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding(参考訳) 音声強調では、ターゲット音声位相における明確な構造的特徴の欠如は、保守的で面倒なネットワークフレームワークの使用を必要とする。 直接手法と単純なネットワークアーキテクチャを使って競合する性能を達成するのは難しい。 しかし,提案するMFNetは,音声だけでなく,逆雑音もマップできる,直接的かつシンプルなネットワークである。 このネットワークはグローバルなローカルブロック(GLFB)を積み重ねて構築され、グローバルな処理にMobileblockを、ローカルなインタラクションにMetaformerアーキテクチャを併用する。 実験の結果,提案手法はマスキング法より優れており,逆ノイズの直接マッピングは強騒音環境における最適解であることがわかった。 2020年のディープノイズ抑制(DNS)テストセットの水平比較では、私たちの知る限り、MFNetは現在の最先端(SOTA)マッピングモデルです。

In speech enhancement, the lack of clear structural characteristics in the target speech phase requires the use of conservative and cumbersome network frameworks. It seems difficult to achieve competitive performance using direct methods and simple network architectures. However, we propose the MFNet, a direct and simple network that can not only map speech but also map reverse noise. This network is constructed by stacking global local former blocks (GLFBs), which combine the advantages of Mobileblock for global processing and Metaformer architecture for local interaction. Our experimental results demonstrate that our network using mapping method outperforms masking methods, and direct mapping of reverse noise is the optimal solution in strong noise environments. In a horizontal comparison on the 2020 Deep Noise Suppression (DNS) challenge test set without reverberation, to the best of our knowledge, MFNet is the current state-of-the-art (SOTA) mapping model.
翻訳日:2023-06-08 15:19:05 公開日:2023-06-07
# 量子アニール上の動的プログラミング:RBCモデルの解法

Dynamic Programming on a Quantum Annealer: Solving the RBC Model ( http://arxiv.org/abs/2306.04285v1 )

ライセンス: Link先を確認
Jes\'us Fern\'andez-Villaverde and Isaiah Hull(参考訳) 組合せ最適化を行う特殊な装置である量子アニーラーにおいて、多くの経済モデルにおけるような動的プログラミング問題の解法を新たに導入する。 量子アニーラーは全ての状態の量子重ね合わせから始まり、問題の大きさに関係なくミリ秒で候補のグローバル解を生成することでnp-ハードな問題を解こうとする。 既存の量子ハードウェアを用いて、文献のベンチマークよりも実際のビジネスサイクルモデルを解く際に、オーダー・オブ・マグニチュード・スピードアップを達成する。 また,量子アニーリングの詳細な紹介を行い,より困難な経済問題に対する利用の可能性について論じる。

We introduce a novel approach to solving dynamic programming problems, such as those in many economic models, on a quantum annealer, a specialized device that performs combinatorial optimization. Quantum annealers attempt to solve an NP-hard problem by starting in a quantum superposition of all states and generating candidate global solutions in milliseconds, irrespective of problem size. Using existing quantum hardware, we achieve an order-of-magnitude speed-up in solving the real business cycle model over benchmarks in the literature. We also provide a detailed introduction to quantum annealing and discuss its potential use for more challenging economic problems.
翻訳日:2023-06-08 15:18:50 公開日:2023-06-07
# ゼロショット分類のテキスト内包モデルによるfeed通信の解析

Analysis of the Fed's communication by using textual entailment model of Zero-Shot classification ( http://arxiv.org/abs/2306.04277v1 )

ライセンス: Link先を確認
Yasuhiro Nakayama, Tomochika Sawaki(参考訳) 本研究では,中央銀行が発行する文書をテキストマイニング技術を用いて分析し,中央銀行の政策トーンを評価する手法を提案する。 主要中央銀行の金融政策は金融市場の動向、リスク資産の価格、不動産経済に大きな影響を与えるため、市場参加者は中央銀行の将来の金融政策の見通しの変化をより正確に捉えようとしている。 公開文書はまた、中央銀行が市場と通信するための重要なツールであるため、文法構文や文言について細心の注意を払っており、投資家は中央銀行の政策方針についてより正確に読むよう促されている。 中央銀行文書の感性分析は古くから行われてきたが、文書の意味を正確に解釈することは困難であり、意図的なニュアンスの変化さえも明確に捉えることは困難であった。 本研究では,同じモデルを用いて未知の経済環境におけるゼロショットテキスト分類手法の意義評価を試みる。 我々は、声明のトーン、議事録、FOMC会議の記者会見の書き起こし、および連邦準備制度理事会(議長、副議長、知事)の演説を比較する。 さらに、FOMC会議の議事録は1971年以降、各政策スタンスの変化の段階分析の対象となった。

In this study, we analyze documents published by central banks using text mining techniques and propose a method to evaluate the policy tone of central banks. Since the monetary policies of major central banks have a broad impact on financial market trends, the pricing of risky assets, and the real economy, market participants are attempting to more accurately capture changes in the outlook for central banks' future monetary policies. Since the published documents are also an important tool for the central bank to communicate with the market, they are meticulously elaborated on grammatical syntax and wording, and investors are urged to read more accurately about the central bank's policy stance. Sentiment analysis on central bank documents has long been carried out, but it has been difficult to interpret the meaning of the documents accurately and to explicitly capture even the intentional change in nuance. This study attempts to evaluate the implication of the zero-shot text classification method for an unknown economic environment using the same model. We compare the tone of the statements, minutes, press conference transcripts of FOMC meetings, and the Fed officials' (chair, vice chair, and Governors) speeches. In addition, the minutes of the FOMC meetings were subjected to a phase analysis of changes in each policy stance since 1971.
翻訳日:2023-06-08 15:18:40 公開日:2023-06-07
# AIハブのための分散技術

Decentralized Technologies for AI Hubs ( http://arxiv.org/abs/2306.04274v1 )

ライセンス: Link先を確認
Richard Blythman, Mohamed Arshath, Salvatore Vivona, Jakub Sm\'ekal, Hithesh Shaji(参考訳) AIは大量のストレージと、AI Hubに一般的に格納される資産による計算を必要とする。 AI Hubsは、AIの民主化に大きく貢献している。 しかしながら、既存の実装は、基盤となるインフラストラクチャとガバナンスシステムに由来する特定のメリットと制限に関連付けられています。 これらの制限には、高いコスト、収益化と報酬の欠如、制御の欠如、再現性の難しさが含まれる。 現在の研究では、Web3ウォレット、ピアツーピアのマーケットプレース、ストレージとコンピューティング、DAOといった分散技術の可能性を探り、これらの問題に対処しています。 分散AIハブの設計と構築において,これらのインフラコンポーネントが併用可能であることを示唆する。

AI requires heavy amounts of storage and compute with assets that are commonly stored in AI Hubs. AI Hubs have contributed significantly to the democratization of AI. However, existing implementations are associated with certain benefits and limitations that stem from the underlying infrastructure and governance systems with which they are built. These limitations include high costs, lack of monetization and reward, lack of control and difficulty of reproducibility. In the current work, we explore the potential of decentralized technologies - such as Web3 wallets, peer-to-peer marketplaces, storage and compute, and DAOs - to address some of these issues. We suggest that these infrastructural components can be used in combination in the design and construction of decentralized AI Hubs.
翻訳日:2023-06-08 15:18:19 公開日:2023-06-07
# マルチモーダルコントラスト学習の一般化について

On the Generalization of Multi-modal Contrastive Learning ( http://arxiv.org/abs/2306.04272v1 )

ライセンス: Link先を確認
Qi Zhang, Yifei Wang, Yisen Wang(参考訳) マルチモーダル・コントラッシブ・ラーニング(MMCL)は、視覚的タスクにおいて優れた性能を持つため、視覚言語対のようなマルチモーダルデータを埋め込むことによって、近年大きな関心を集めている。 しかし、MMCLがマルチモーダル対からどのように有用な視覚表現を抽出するか、特にMMCLが自己教師付きコントラスト学習(SSCL)のような従来のアプローチよりも優れているかという理論的理解はいまだにない。 本稿では、MMCLと非対称行列分解との本質的な接続を描画することにより、視覚的下流タスクに対するMMCLの最初の一般化保証を確立する。 この枠組みに基づいて,テキストペアによって誘導される(擬)正のペアで,MMCLが暗黙的にSSCLを実行することを示すことにより,MMCLとSSCLをさらに統一する。 この統一的な視点を通して、テキストペアがより意味的に一貫性があり、多様なポジティブペアを誘導することを示すことによって、mmclの利点を特徴づける。 そこで本研究では,マルチモーダル情報を活用することにより,imagenet上のssclのダウンストリーム性能を大幅に向上させるクリップガイド再サンプリング手法を提案する。 コードはhttps://github.com/PKU-ML/CLIP-Help-SimCLRで入手できる。

Multi-modal contrastive learning (MMCL) has recently garnered considerable interest due to its superior performance in visual tasks, achieved by embedding multi-modal data, such as visual-language pairs. However, there still lack theoretical understandings of how MMCL extracts useful visual representation from multi-modal pairs, and particularly, how MMCL outperforms previous approaches like self-supervised contrastive learning (SSCL). In this paper, by drawing an intrinsic connection between MMCL and asymmetric matrix factorization, we establish the first generalization guarantees of MMCL for visual downstream tasks. Based on this framework, we further unify MMCL and SSCL by showing that MMCL implicitly performs SSCL with (pseudo) positive pairs induced by text pairs. Through this unified perspective, we characterize the advantage of MMCL by showing that text pairs induce more semantically consistent and diverse positive pairs, which, according to our analysis, provably benefit downstream generalization. Inspired by this finding, we propose CLIP-guided resampling methods to significantly improve the downstream performance of SSCL on ImageNet by leveraging multi-modal information. Code is available at https://github.com/PKU-ML/CLIP-Help-SimCLR.
翻訳日:2023-06-08 15:18:08 公開日:2023-06-07
# ColNav: 大腸内視鏡のためのリアルタイムコロニーナビゲーション

ColNav: Real-Time Colon Navigation for Colonoscopy ( http://arxiv.org/abs/2306.04269v1 )

ライセンス: Link先を確認
Netanel Frank and Erez Posner and Emmanuelle Muhlethaler and Adi Zholkover and Moshe Bouhnik(参考訳) 大腸内視鏡による大腸癌検診は,癌前病変や腺腫様病変を同定し,術中から切除する能力を有するため,引き続き世界的標準となっている。 それにもかかわらず、内視鏡医によるそのような病変の同定の失敗は、その後の大腸癌に対する病変進行の可能性を増大させる。 最終的に大腸内視鏡は術者に依存し、内視鏡検査における内視鏡検査の幅広い品質は、その技術、訓練、勤勉性に左右される。 本稿では,光学的大腸内視鏡(OC)のための新しいリアルタイムナビゲーションシステムを提案する。 提案システムでは,大腸の非折り畳み表現と,非検査領域への局所表示の両方をリアルタイムに表示する。 これらの視覚化は、手術中に医師に提示され、医師のワークフローにシームレスに統合しながら、リアルタイムで非監視領域への行動可能で理解可能なガイダンスを提供する。 対象範囲を実験的に評価した結果,本システムはポリプリコール (pr) を高くし,医師と高いレート間信頼性が得られた。 これらの結果から,我々のリアルタイムナビゲーションシステムは,光学的大腸内視鏡の品質と効果を向上し,最終的には患者に利益をもたらす可能性が示唆された。

Colorectal cancer screening through colonoscopy continues to be the dominant global standard, as it allows identifying pre-cancerous or adenomatous lesions and provides the ability to remove them during the procedure itself. Nevertheless, failure by the endoscopist to identify such lesions increases the likelihood of lesion progression to subsequent colorectal cancer. Ultimately, colonoscopy remains operator-dependent, and the wide range of quality in colonoscopy examinations among endoscopists is influenced by variations in their technique, training, and diligence. This paper presents a novel real-time navigation guidance system for Optical Colonoscopy (OC). Our proposed system employs a real-time approach that displays both an unfolded representation of the colon and a local indicator directing to un-inspected areas. These visualizations are presented to the physician during the procedure, providing actionable and comprehensible guidance to un-surveyed areas in real-time, while seamlessly integrating into the physician's workflow. Through coverage experimental evaluation, we demonstrated that our system resulted in a higher polyp recall (PR) and high inter-rater reliability with physicians for coverage prediction. These results suggest that our real-time navigation guidance system has the potential to improve the quality and effectiveness of Optical Colonoscopy and ultimately benefit patient outcomes.
翻訳日:2023-06-08 15:17:44 公開日:2023-06-07
# 円高調波特徴に基づく会議におけるマルチマイクロホン自動音声セグメンテーション

Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features ( http://arxiv.org/abs/2306.04268v1 )

ライセンス: Link先を確認
Th\'eo Mariotte (LAUM, LIUM), Anthony Larcher (LIUM), Silvio Montr\'esor (LAUM), Jean-Hugh Thomas (LAUM)(参考訳) 話者ダイアリゼーションは、誰といつ答えるか? オーディオストリームで パイプラインシステムは、話者のセグメントを抽出し、頑健な話者ダイアリゼーションを達成するために、音声セグメンテーションに依存する。 本稿では,音声活動検出 (vad), 重畳音声検出 (osd), 話者変化検出 (scd) という, 遠隔音声シナリオにおける3つの分節化課題を解決する共通の枠組みを提案する。 文献では、複数マイクロホンの遠隔発話シナリオについていくつかの研究がなされている。 本研究では,円高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。 これらの空間的特徴は、マルチマイクロフォン音声データから抽出され、標準音響特徴と組み合わせられる。 AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。

Speaker diarization is the task of answering Who spoke and when? in an audio stream. Pipeline systems rely on speech segmentation to extract speakers' segments and achieve robust speaker diarization. This paper proposes a common framework to solve three segmentation tasks in the distant speech scenario: Voice Activity Detection (VAD), Overlapped Speech Detection (OSD), and Speaker Change Detection (SCD). In the literature, a few studies investigate the multi-microphone distant speech scenario. In this work, we propose a new set of spatial features based on direction-of-arrival estimations in the circular harmonic domain (CH-DOA). These spatial features are extracted from multi-microphone audio data and combined with standard acoustic features. Experiments on the AMI meeting corpus show that CH-DOA can improve the segmentation while being robust in the case of deactivated microphones.
翻訳日:2023-06-08 15:17:23 公開日:2023-06-07
# 生成的意味コミュニケーション:ビット回復を超えた拡散モデル

Generative Semantic Communication: Diffusion Models Beyond Bit Recovery ( http://arxiv.org/abs/2306.04321v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Sergio Barbarossa, Danilo Comminiello(参考訳) セマンティックコミュニケーションは、次世代AIベースのコミュニケーションのコアのひとつとして期待されている。 意味コミュニケーションによって提供される可能性の1つは、送信されたビットのシーケンスを必ずしも回復することなく、送信されたビットと意味的に等価な画像やビデオを再生成する能力である。 現在のソリューションには、受信した部分情報から複雑なシーンを構築する機能がない。 明らかに、通信の目的を考慮して、生成方法の有効性と送信される情報の複雑さのバランスをとるための手段がない。 本稿では,マルチメディアコンテンツ合成における拡散モデルの強力な能力を活用した意味コミュニケーションのための新しい生成的拡散誘導フレームワークを提案することで,このギャップを埋めることを目的とする。 高度に圧縮された意味情報のみを送信することで帯域幅使用量を削減する。 そして,この拡散モデルは,このような意味情報から空間適応正規化を通じて意味一貫性のあるシーンを合成することを学ぶ。 提案手法は,複数のシナリオを詳細に評価することで,受信したコンテンツが著しく劣化した場合でも,意味情報を保存した高品質な画像を生成する際の既存ソリューションに勝ることを証明する。 具体的には,通信チャネルの極めてノイズの多い状況下においても,物体,位置,深さが認識可能であることを示す。 コードはhttps://github.com/ispamm/GESCOで公開されている。

Semantic communication is expected to be one of the cores of next-generation AI-based communications. One of the possibilities offered by semantic communication is the capability to regenerate, at the destination side, images or videos semantically equivalent to the transmitted ones, without necessarily recovering the transmitted sequence of bits. The current solutions still lack the ability to build complex scenes from the received partial information. Clearly, there is an unmet need to balance the effectiveness of generation methods and the complexity of the transmitted information, possibly taking into account the goal of communication. In this paper, we aim to bridge this gap by proposing a novel generative diffusion-guided framework for semantic communication that leverages the strong abilities of diffusion models in synthesizing multimedia content while preserving semantic features. We reduce bandwidth usage by sending highly-compressed semantic information only. Then, the diffusion model learns to synthesize semantic-consistent scenes through spatially-adaptive normalizations from such denoised semantic information. We prove, through an in-depth assessment of multiple scenarios, that our method outperforms existing solutions in generating high-quality images with preserved semantic information even in cases where the received content is significantly degraded. More specifically, our results show that objects, locations, and depths are still recognizable even in the presence of extremely noisy conditions of the communication channel. The code is available at https://github.com/ispamm/GESCO.
翻訳日:2023-06-08 15:11:09 公開日:2023-06-07
# CaptAinGlove:ドローン制御のためのエッジハンドジェスチャー認識のための容量・慣性融合ベースグローブ

CaptAinGlove: Capacitive and Inertial Fusion-Based Glove for Real-Time on Edge Hand Gesture Recognition for Drone Control ( http://arxiv.org/abs/2306.04319v1 )

ライセンス: Link先を確認
Hymalai Bello, Sungho Suh, Daniel Gei{\ss}ler, Lala Ray, Bo Zhou and Paul Lukowicz(参考訳) CaptAinGloveは織物をベースとした低消費電力(1.15Watts)で、プライバシーを意識したリアルタイム・オンザエッジ(RTE)グローブベースのソリューションで、小さなメモリフットプリント(2MB)を備え、ドローン制御に使用される手の動きを認識するように設計されている。 バックボーンモデルとして軽量畳み込みニューラルネットワークと階層型マルチモーダル融合を用いて消費電力の低減と精度の向上を図る。 このシステムは8つのハンドジェスチャコマンドとヌルアクティビティという9つのクラスのオフライン評価に対して,f1-scoreの80%を発生させる。 RTEでは,F1スコアが67%(ユーザ1名)であった。

We present CaptAinGlove, a textile-based, low-power (1.15Watts), privacy-conscious, real-time on-the-edge (RTE) glove-based solution with a tiny memory footprint (2MB), designed to recognize hand gestures used for drone control. We employ lightweight convolutional neural networks as the backbone models and a hierarchical multimodal fusion to reduce power consumption and improve accuracy. The system yields an F1-score of 80% for the offline evaluation of nine classes; eight hand gesture commands and null activity. For the RTE, we obtained an F1-score of 67% (one user).
翻訳日:2023-06-08 15:10:46 公開日:2023-06-07
# クロスジェネラルな議論マイニング: 言語モデルが談話マーカーに自動的に満たせるか?

Cross-Genre Argument Mining: Can Language Models Automatically Fill in Missing Discourse Markers? ( http://arxiv.org/abs/2306.04314v1 )

ライセンス: Link先を確認
Gil Rocha, Henrique Lopes Cardoso, Jonas Belouadi, Steffen Eger(参考訳) アーギュメントマイニングのための利用可能なコーパスは、いくつかの軸に沿って異なり、重要な違いの1つは、議論的内容を伝えるための談話マーカーの存在(または欠如)である。 談話マーカーを効果的に活用する方法の探索は、さまざまな談話解析タスクにおいて広く注目されており、談話マーカーが談話関係の強い指標であることが知られている。 異なるジャンルにわたるアーグメントマイニングシステムのロバスト性を改善するため,すべての関係が明示的に示されるような談話マーカーを用いたテキストの自動拡張を提案する。 我々の分析では、このタスクで一般的な言語モデルは失敗するが、構築する新たな異種データセット(合成例や実例を含む)を微調整すると、かなり性能が向上する。 提案手法が,異なるコーパス上で評価されたArgument Miningダウンストリームタスクに与える影響を実証し,異なるコーパスをまたいだ談話マーカーを自動的に入力し,ダウンストリームモデルの性能を向上させることができることを示した。 提案手法はさらに,談話理解のための補助ツールとして活用することができる。

Available corpora for Argument Mining differ along several axes, and one of the key differences is the presence (or absence) of discourse markers to signal argumentative content. Exploring effective ways to use discourse markers has received wide attention in various discourse parsing tasks, from which it is well-known that discourse markers are strong indicators of discourse relations. To improve the robustness of Argument Mining systems across different genres, we propose to automatically augment a given text with discourse markers such that all relations are explicitly signaled. Our analysis unveils that popular language models taken out-of-the-box fail on this task; however, when fine-tuned on a new heterogeneous dataset that we construct (including synthetic and real examples), they perform considerably better. We demonstrate the impact of our approach on an Argument Mining downstream task, evaluated on different corpora, showing that language models can be trained to automatically fill in discourse markers across different corpora, improving the performance of a downstream model in some, but not all, cases. Our proposed approach can further be employed as an assistive tool for better discourse understanding.
翻訳日:2023-06-08 15:10:31 公開日:2023-06-07
# GPT-3の個人性検査 : 時間的信頼性に限界があるが、GPT-3の人格測定結果の社会的欲求性を強調した

Personality testing of GPT-3: Limited temporal reliability, but highlighted social desirability of GPT-3's personality instruments results ( http://arxiv.org/abs/2306.04308v1 )

ライセンス: Link先を確認
Bojana Bodroza (1), Bojana M. Dinic (1) and Ljubisa Bojic (2) ((1) Department of Psychology, Faculty of Philosophy, University of Novi Sad, Serbia, (2) Digital Society Lab, Institute for Philosophy and Social Theory, University of Belgrade, Serbia)(参考訳) チャットボットgpt-3 davinci-003の応用可能性と限界を評価するため,チャットボットに適用したパーソナリティアンケートの時間的信頼性とパーソナリティプロファイルを検討した。 チャットボットに対して, 心理的質問紙を2回に分けて実施し, 次いで人間規範データとの比較を行った。 結果より,チャットボットの反応は時間とともに変化し,いくつかの尺度は良好であったが,他の尺度では不一致を示した。 概して、ダヴィンチ-003は社会的に望ましい社会的パーソナリティプロファイルを示し、特にコミュニオンの領域で顕著であった。 しかし、意識的な自己回帰または所定のアルゴリズムによって駆動されるチャットボットの応答の基盤は未だに不明である。

To assess the potential applications and limitations of chatbot GPT-3 Davinci-003, this study explored the temporal reliability of personality questionnaires applied to the chatbot and its personality profile. Psychological questionnaires were administered to the chatbot on two separate occasions, followed by a comparison of the responses to human normative data. The findings revealed varying levels of agreement in the chatbot's responses over time, with some scales displaying excellent while others demonstrated poor agreement. Overall, Davinci-003 displayed a socially desirable and pro-social personality profile, particularly in the domain of communion. However, the underlying basis of the chatbot's responses, whether driven by conscious self-reflection or predetermined algorithms, remains uncertain.
翻訳日:2023-06-08 15:10:09 公開日:2023-06-07
# アロファント:調音属性を用いた言語間音素認識

Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes ( http://arxiv.org/abs/2306.04306v1 )

ライセンス: Link先を確認
Kevin Glocker (1), Aaricia Herygers (1), Munir Georges (1 and 2) ((1) AImotion Bavaria Technische Hochschule Ingolstadt, (2) Intel Labs Germany)(参考訳) 本稿では,多言語音素認識器であるallophantを提案する。 ターゲット言語への言語間転送には音素の在庫しか必要とせず、低リソースの認識を可能にする。 このアーキテクチャは、構成的な電話埋め込みアプローチと、マルチタスクアーキテクチャにおける個別に教師付き音声属性分類器を組み合わせる。 また,phoible データベースの拡張である allophoible についても紹介する。 グラフ-音素間出力の距離ベースマッピング手法と組み合わせることで、PHOIBLEの在庫を直接訓練することができる。 34言語を学習・評価することで,マルチタスク学習の追加により,未知の音素や音素の在庫に適用する能力が改善されることがわかった。 教師付き言語では,マルチタスク学習のないベースラインと比較して,音素誤り率の改善が11ポイント (pp.) である。 84言語におけるゼロショット転送の評価によりperは2.63pp。 ベースラインを越えて

This paper proposes Allophant, a multilingual phoneme recognizer. It requires only a phoneme inventory for cross-lingual transfer to a target language, allowing for low-resource recognition. The architecture combines a compositional phone embedding approach with individually supervised phonetic attribute classifiers in a multi-task architecture. We also introduce Allophoible, an extension of the PHOIBLE database. When combined with a distance based mapping approach for grapheme-to-phoneme outputs, it allows us to train on PHOIBLE inventories directly. By training and evaluating on 34 languages, we found that the addition of multi-task learning improves the model's capability of being applied to unseen phonemes and phoneme inventories. On supervised languages we achieve phoneme error rate improvements of 11 percentage points (pp.) compared to a baseline without multi-task learning. Evaluation of zero-shot transfer on 84 languages yielded a decrease in PER of 2.63 pp. over the baseline.
翻訳日:2023-06-08 15:09:51 公開日:2023-06-07
# CorrMatch:半教師付きセマンティックセグメンテーションのための相関マッチングによるラベル伝播

CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2306.04300v1 )

ライセンス: Link先を確認
Boyuan Sun, Yuqi Yang, Le Zhang, Ming-Ming Cheng, Qibin Hou(参考訳) 本稿では,CorrMatch と呼ばれる,単純だが半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。 我々のゴールは、ラベルのない画像からより高品質な領域を抽出し、一貫性の正則化によってラベルのないデータをより効率的に活用することである。 CorrMatchの主な貢献は、2つの新しい、補完的な戦略です。 まず,良質な領域を拡大するために,初期化を緩和した適応しきい値更新戦略を導入する。 さらに,画素間の対の類似度を測定することにより,高信頼度予測の伝播を提案する。 その単純さにもかかわらず、corrmatchは人気のある半教師付きセマンティックセグメンテーションベンチマークで素晴らしいパフォーマンスを達成していることを示している。 resnet-101 backboneを使用したdeeplabv3+フレームワークをセグメンテーションモデルとして、pascal voc 2012セグメンテーションベンチマークで76%以上のmiouスコアを取得しました。 また,従来の半教師付きセマンティックセグメンテーションモデルよりも一貫した改善を実現している。 コードは公開される予定だ。

In this paper, we present a simple but performant semi-supervised semantic segmentation approach, termed CorrMatch. Our goal is to mine more high-quality regions from the unlabeled images to leverage the unlabeled data more efficiently via consistency regularization. The key contributions of our CorrMatch are two novel and complementary strategies. First, we introduce an adaptive threshold updating strategy with a relaxed initialization to expand the high-quality regions. Furthermore, we propose to propagate high-confidence predictions through measuring the pairwise similarities between pixels. Despite its simplicity, we show that CorrMatch achieves great performance on popular semi-supervised semantic segmentation benchmarks. Taking the DeepLabV3+ framework with ResNet-101 backbone as our segmentation model, we receive a 76%+ mIoU score on the Pascal VOC 2012 segmentation benchmark with only 92 annotated images provided. We also achieve a consistent improvement over previous semi-supervised semantic segmentation models. Code will be made publicly available.
翻訳日:2023-06-08 15:09:39 公開日:2023-06-07
# 因果推論と強化学習を用いたタイミングプロセス介入

Timing Process Interventions with Causal Inference and Reinforcement Learning ( http://arxiv.org/abs/2306.04299v1 )

ライセンス: Link先を確認
Hans Weytjens, Wouter Verbeke, Jochen De Weerdt(参考訳) プロセスの理解と予測から最適化への移行は、企業や他の組織に大きなメリットをもたらします。 正確なプロセス介入は効果的な最適化の基礎となる。 PresPM(Prescriptive Process Monitoring)はプロセス最適化に焦点を当てたプロセスマイニングのサブフィールドである。 新たなPresPM文献は、定量的比較を示さずに、最先端の手法、因果推論(CI)、強化学習(RL)を識別する。 ほとんどの実験は過去のデータを用いて行われ、手法の評価の正確さとオンラインRLのプリエンプションの問題を引き起こす。 我々のコントリビューションは、リアルタイムなオンラインRLをレンダリングする合成データによるタイムドプロセス介入の実験と、CIとの比較を行い、結果の正確な評価を可能にする。 我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。 実際、RLポリシーは完璧なポリシーに近づきます。 CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。 それでもCIは、オンライン学習が選択肢にならない環境でのメリットがあります。

The shift from the understanding and prediction of processes to their optimization offers great benefits to businesses and other organizations. Precisely timed process interventions are the cornerstones of effective optimization. Prescriptive process monitoring (PresPM) is the sub-field of process mining that concentrates on process optimization. The emerging PresPM literature identifies state-of-the-art methods, causal inference (CI) and reinforcement learning (RL), without presenting a quantitative comparison. Most experiments are carried out using historical data, causing problems with the accuracy of the methods' evaluations and preempting online RL. Our contribution consists of experiments on timed process interventions with synthetic data that renders genuine online RL and the comparison to CI possible, and allows for an accurate evaluation of the results. Our experiments reveal that RL's policies outperform those from CI and are more robust at the same time. Indeed, the RL policies approach perfect policies. Unlike CI, the unaltered online RL approach can be applied to other, more generic PresPM problems such as next best activity recommendations. Nonetheless, CI has its merits in settings where online learning is not an option.
翻訳日:2023-06-08 15:09:19 公開日:2023-06-07
# コントラスト学習による会話依存モデルを用いたオープンドメイン会話質問に対するフレーズ検索

Phrase Retrieval for Open-Domain Conversational Question Answering with Conversational Dependency Modeling via Contrastive Learning ( http://arxiv.org/abs/2306.04293v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sung Ju Hwang, Jong C. Park(参考訳) Open-Domain Conversational Question Answering (ODConvQA)は、レトリバー・リーダー・パイプラインに基づくマルチターン会話を通じて質問に答えることを目的としている。 しかし、そのようなパイプラインアプローチは、レトリバーから伝播するエラーに対してリーダを脆弱にするだけでなく、レトリバーとリーダの両方を開発するための追加の労力を必要とする。 本研究では,従来の2つの異なるサブタスクを1つに減らし,単語列の句検索スキームを用いて直接解を予測する手法を提案する。 また,ODConvQAタスクの能力についても初めて検討した。 しかし、会話における前回と現在のターン間の依存関係のため、単にそれを採用することがほとんど問題となる。 この問題を解決するために,会話中の連続する回転の表現的類似性を最大化し,無関係な会話的文脈を最小化することにより,現在の文脈で句を検索する際の前の順番を確実に反映する,新しいコントラスト学習戦略を導入する。 2つのodconvqaデータセットでモデルを検証する。その実験結果は、レトリバーリーダーで関連するベースラインを実質的に上回っていることを示している。 コードはhttps://github.com/starsuzi/pro-convqa。

Open-Domain Conversational Question Answering (ODConvQA) aims at answering questions through a multi-turn conversation based on a retriever-reader pipeline, which retrieves passages and then predicts answers with them. However, such a pipeline approach not only makes the reader vulnerable to the errors propagated from the retriever, but also demands additional effort to develop both the retriever and the reader, which further makes it slower since they are not runnable in parallel. In this work, we propose a method to directly predict answers with a phrase retrieval scheme for a sequence of words, reducing the conventional two distinct subtasks into a single one. Also, for the first time, we study its capability for ODConvQA tasks. However, simply adopting it is largely problematic, due to the dependencies between previous and current turns in a conversation. To address this problem, we further introduce a novel contrastive learning strategy, making sure to reflect previous turns when retrieving the phrase for the current context, by maximizing representational similarities of consecutive turns in a conversation while minimizing irrelevant conversational contexts. We validate our model on two ODConvQA datasets, whose experimental results show that it substantially outperforms the relevant baselines with the retriever-reader. Code is available at: https://github.com/starsuzi/PRO-ConvQA.
翻訳日:2023-06-08 15:09:03 公開日:2023-06-07
# XAIコミュニティを語る, 話し合わなければならない! XAI研究の基本的誤解

Dear XAI Community, We Need to Talk! Fundamental Misconceptions in Current XAI Research ( http://arxiv.org/abs/2306.04292v1 )

ライセンス: Link先を確認
Timo Freiesleben and Gunnar K\"onig(参考訳) この分野の進展にもかかわらず、現在のXAI研究のかなりの部分は、概念的、倫理的、方法論的な根拠に基づいていない。 残念なことに、これらの未完成の部分は減少ではなく、成長を続けている。 現在でもその目的を明確にせずに多くの説明手法が提案されている。 代わりに、より派手なヒートマップや、関連するベンチマークで宣伝されている。 さらに、説明手法は、信頼の構築や、ディープラーニングアルゴリズムが学習する「概念」に関する強い仮定など、疑わしい目標を動機付けている。 本稿では,現在のXAI研究におけるこれらの誤解を取り上げ,議論する。 また、XAIをより実質的な研究分野にすることを提案する。

Despite progress in the field, significant parts of current XAI research are still not on solid conceptual, ethical, or methodological grounds. Unfortunately, these unfounded parts are not on the decline but continue to grow. Many explanation techniques are still proposed without clarifying their purpose. Instead, they are advertised with ever more fancy-looking heatmaps or only seemingly relevant benchmarks. Moreover, explanation techniques are motivated with questionable goals, such as building trust, or rely on strong assumptions about the 'concepts' that deep learning algorithms learn. In this paper, we highlight and discuss these and other misconceptions in current XAI research. We also suggest steps to make XAI a more substantive area of research.
翻訳日:2023-06-08 15:08:38 公開日:2023-06-07
# $\epsilon$-Graph構築のための量子距離計算

Quantum Distance Calculation for $\epsilon$-Graph Construction ( http://arxiv.org/abs/2306.04290v1 )

ライセンス: Link先を確認
Naomi Mona Chmielewski (EDF R&D OSIRIS, L2S), Nina Amini (CNRS, L2S), Paulin Jacquot (EDF R&D OSIRIS), Joseph Mikael (EDF R&D OSIRIS)(参考訳) 機械学習、特にトポロジカルデータ解析において、$\epsilon$-graphsは重要なツールであるが、一般にn点間の距離計算は古典的にO(n^2)時間を要するため計算が難しい。 近年,量子重ね合わせと絡み合いを利用したn量子状態間の距離計算法が提案されている。 我々は,$\epsilon$-graphs計算のための量子距離計算において,量子優位の可能性について検討する。 既存の量子多状態SWAPテストベースアルゴリズムに頼って、2つの点が$\epsilon$-neighbours でないことを正確に識別するクエリ複雑性が少なくとも O(n^3 / ln n) であることを示し、この手法が$\epsilon$-graph 構築に直接使用される場合、古典的なアプローチと比較して計算上の優位性は得られないことを示す。

In machine learning and particularly in topological data analysis, $\epsilon$-graphs are important tools but are generally hard to compute as the distance calculation between n points takes time O(n^2) classically. Recently, quantum approaches for calculating distances between n quantum states have been proposed, taking advantage of quantum superposition and entanglement. We investigate the potential for quantum advantage in the case of quantum distance calculation for computing $\epsilon$-graphs. We show that, relying on existing quantum multi-state SWAP test based algorithms, the query complexity for correctly identifying (with a given probability) that two points are not $\epsilon$-neighbours is at least O(n^3 / ln n), showing that this approach, if used directly for $\epsilon$-graph construction, does not bring a computational advantage when compared to a classical approach.
翻訳日:2023-06-08 15:08:30 公開日:2023-06-07
# 気候変動に対するベイズ最適化:応用とベンチマーク

Bayesian Optimisation Against Climate Change: Applications and Benchmarks ( http://arxiv.org/abs/2306.04343v1 )

ライセンス: Link先を確認
Sigrid Passano Hellan, Christopher G. Lucas, Nigel H. Goddard(参考訳) ベイズ最適化はブラックボックス関数を最適化する強力な方法であり、真の関数の評価が高価で勾配情報がない設定で人気がある。 ベイズ最適化は、シミュレーターモデルが使用できない、またはサンプリングに費用がかかる気候変化における多くの最適化問題に対する応答を改善することができる。 気候関連アプリケーションにおけるベイズ最適化の実現可能性実証はいくつかあるが、アプリケーションとベンチマークの統一的なレビューは行われていない。 ここでは、ベイズ最適化の重要かつ適したアプリケーションドメインでの活用を促進するために、このようなレビューを行う。 材料発見,風力発電のレイアウト,最適再生制御,環境モニタリングの4つの主要な応用分野を同定する。 各ドメインについて、実際の問題を代表しながら、システムの使用や評価が容易な公開ベンチマークやデータセットを特定します。 環境モニタリングに適したベンチマークがないため,大気汚染データに基づくLAQN-BOを提案する。 私たちの貢献は a) ベンチマークの代表的な範囲を特定し,必要であればサンプルコードを提供すること b) 新しいベンチマーク「laqn-bo」の導入 c)ベイズ最適化実践者の間での気候変動適用の広範な活用を促進すること。

Bayesian optimisation is a powerful method for optimising black-box functions, popular in settings where the true function is expensive to evaluate and no gradient information is available. Bayesian optimisation can improve responses to many optimisation problems within climate change for which simulator models are unavailable or expensive to sample from. While there have been several feasibility demonstrations of Bayesian optimisation in climate-related applications, there has been no unifying review of applications and benchmarks. We provide such a review here, to encourage the use of Bayesian optimisation in important and well-suited application domains. We identify four main application domains: material discovery, wind farm layout, optimal renewable control and environmental monitoring. For each domain we identify a public benchmark or data set that is easy to use and evaluate systems against, while being representative of real-world problems. Due to the lack of a suitable benchmark for environmental monitoring, we propose LAQN-BO, based on air pollution data. Our contributions are: a) identifying a representative range of benchmarks, providing example code where necessary; b) introducing a new benchmark, LAQN-BO; and c) promoting a wider use of climate change applications among Bayesian optimisation practitioners.
翻訳日:2023-06-08 15:00:45 公開日:2023-06-07
# 感情対抽出のための共進化グラフ推論ネットワーク

Co-evolving Graph Reasoning Network for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2306.04340v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) Emotion-Cause Pair extract (ECPE)は、すべての感情節とその対応する原因節を文書から抽出することを目的としている。 既存のアプローチでは、2つのサブタスクがECPEの指示的手がかりを提供するマルチタスク学習(MTL)フレームワークによってこの課題に対処している。 しかし、以前のMTLフレームワークは、マルチタスク推論の1ラウンドのみを考慮しており、ECPEからサブタスクへの逆フィードバックを無視している。 さらに、マルチタスク推論は、明示的な依存関係をキャプチャできないセマンティクスレベルの相互作用にのみ依存しており、エンコーダの共有とマルチタスクの隠蔽状態は因果関係をほとんど捉えない。 これらの問題を解決するために,我々はまず,共進化推論に基づく新しいMTLフレームワークを提案する。 1)ECPEとサブタスク間の双方向フィードバックをモデル化し,(2)3つのタスクを同時に進化させ,相互に繰り返し実行し,(3)明示的な依存関係をキャプチャするために,予測レベルのインタラクションを統合する。 次に、因果関係を十分に活用する新しいマルチタスク関係グラフ(MRG)を提案する。 最後に,MTL フレームワークを実装し,MRG 上で共進化型グラフ推論を行う共進化型グラフ推論ネットワーク (CGR-Net) を提案する。 実験結果から,本モデルが新たな最先端性能を実現し,さらなる解析により本手法の利点が確認された。

Emotion-Cause Pair Extraction (ECPE) aims to extract all emotion clauses and their corresponding cause clauses from a document. Existing approaches tackle this task through multi-task learning (MTL) framework in which the two subtasks provide indicative clues for ECPE. However, the previous MTL framework considers only one round of multi-task reasoning and ignores the reverse feedbacks from ECPE to the subtasks. Besides, its multi-task reasoning only relies on semantics-level interactions, which cannot capture the explicit dependencies, and both the encoder sharing and multi-task hidden states concatenations can hardly capture the causalities. To solve these issues, we first put forward a new MTL framework based on Co-evolving Reasoning. It (1) models the bidirectional feedbacks between ECPE and its subtasks; (2) allows the three tasks to evolve together and prompt each other recurrently; (3) integrates prediction-level interactions to capture explicit dependencies. Then we propose a novel multi-task relational graph (MRG) to sufficiently exploit the causal relations. Finally, we propose a Co-evolving Graph Reasoning Network (CGR-Net) that implements our MTL framework and conducts Co-evolving Reasoning on MRG. Experimental results show that our model achieves new state-of-the-art performance, and further analysis confirms the advantages of our method.
翻訳日:2023-06-08 15:00:27 公開日:2023-06-07
# ダイナミックコントラスト強調MRIによる薬物動態パラメータ推定のための未経験深度学習

Unpaired Deep Learning for Pharmacokinetic Parameter Estimation from Dynamic Contrast-Enhanced MRI ( http://arxiv.org/abs/2306.04339v1 )

ライセンス: Link先を確認
Gyutaek Oh, Won-Jin Moon, and Jong Chul Ye(参考訳) dce-mriは薬物動態パラメータの取得を通じて血管透過性と組織灌流に関する情報を提供する。 しかし、これらの薬物動態パラメータを推定する従来の手法では、トレーサーの運動モデルが組み込まれており、これはしばしば、ノイズの多い動脈入力関数(AIF)測定による計算複雑性と低い精度に悩まされる。 これらの課題に対処するためにいくつかのディープラーニングアプローチが提案されているが、既存の手法の多くは、ペア入力DCE-MRIとラベル付き薬物動態パラメータマップを必要とする教師あり学習に依存している。 このラベル付きデータへの依存は、ラベルの潜在的なノイズと同様に、かなりの時間とリソースの制約をもたらすため、教師付き学習手法はしばしば実用的ではない。 本稿では, 物理駆動サイクガン法を用いて, 薬物動態パラメータとaifの両方を推定する新しい非ペア型深層学習法を提案する。 提案するcycleganフレームワークは,基礎となる物理モデルに基づいて設計され,単一の生成器と判別器ペアでよりシンプルなアーキテクチャを実現する。 本手法はaif測定を別途必要とせず,他の手法よりも信頼性の高い薬物動態パラメータを生成できることを示す。

DCE-MRI provides information about vascular permeability and tissue perfusion through the acquisition of pharmacokinetic parameters. However, traditional methods for estimating these pharmacokinetic parameters involve fitting tracer kinetic models, which often suffer from computational complexity and low accuracy due to noisy arterial input function (AIF) measurements. Although some deep learning approaches have been proposed to tackle these challenges, most existing methods rely on supervised learning that requires paired input DCE-MRI and labeled pharmacokinetic parameter maps. This dependency on labeled data introduces significant time and resource constraints, as well as potential noise in the labels, making supervised learning methods often impractical. To address these limitations, here we present a novel unpaired deep learning method for estimating both pharmacokinetic parameters and the AIF using a physics-driven CycleGAN approach. Our proposed CycleGAN framework is designed based on the underlying physics model, resulting in a simpler architecture with a single generator and discriminator pair. Crucially, our experimental results indicate that our method, which does not necessitate separate AIF measurements, produces more reliable pharmacokinetic parameters than other techniques.
翻訳日:2023-06-08 15:00:02 公開日:2023-06-07
# 公式統計学における機械学習時代のデータソースの変化

Changing Data Sources in the Age of Machine Learning for Official Statistics ( http://arxiv.org/abs/2306.04338v1 )

ライセンス: Link先を確認
Cedric De Boom and Michael Reusens(参考訳) データサイエンスは、大量のデータの自動収集、処理、分析を可能にするため、公式統計の作成にますます不可欠になっている。 このようなデータサイエンスの実践によって、よりタイムリーで、より洞察力があり、より柔軟なレポートが可能になる。 しかし、データサイエンス駆動統計の質と整合性は、データソースの正確性と信頼性とそれをサポートする機械学習技術に依存している。 特に、データソースの変更は必然的に発生し、公式統計のための機械学習の文脈で対処すべき重要なリスクを生じさせる。 本稿では,データソース変更に伴う主なリスク,負債,不確実性について,公式統計のための機械学習の文脈で概説する。 我々は、データソースの変更の最も一般的な起源と原因のチェックリストを提供する。 次に、統計報告におけるデータソース変更の影響を強調する。 これには、概念ドリフト、バイアス、可用性、妥当性、正確性、完全性といった技術的効果だけでなく、統計提供の中立性と潜在的な廃止も含まれる。 データソースと統計技術の両方における堅牢性の向上や、徹底的な監視など、いくつかの重要な予防措置を提供する。 そうすることで、機械学習に基づく公式統計は、ポリシー作成、意思決定、公開談話における整合性、信頼性、一貫性、および関連性を維持することができる。

Data science has become increasingly essential for the production of official statistics, as it enables the automated collection, processing, and analysis of large amounts of data. With such data science practices in place, it enables more timely, more insightful and more flexible reporting. However, the quality and integrity of data-science-driven statistics rely on the accuracy and reliability of the data sources and the machine learning techniques that support them. In particular, changes in data sources are inevitable to occur and pose significant risks that are crucial to address in the context of machine learning for official statistics. This paper gives an overview of the main risks, liabilities, and uncertainties associated with changing data sources in the context of machine learning for official statistics. We provide a checklist of the most prevalent origins and causes of changing data sources; not only on a technical level but also regarding ownership, ethics, regulation, and public perception. Next, we highlight the repercussions of changing data sources on statistical reporting. These include technical effects such as concept drift, bias, availability, validity, accuracy and completeness, but also the neutrality and potential discontinuation of the statistical offering. We offer a few important precautionary measures, such as enhancing robustness in both data sourcing and statistical techniques, and thorough monitoring. In doing so, machine learning-based official statistics can maintain integrity, reliability, consistency, and relevance in policy-making, decision-making, and public discourse.
翻訳日:2023-06-08 14:59:40 公開日:2023-06-07
# 構音障害自動評価の信頼性に関する検討

A Study on the Reliability of Automatic Dysarthric Speech Assessments ( http://arxiv.org/abs/2306.04337v1 )

ライセンス: Link先を確認
Xavier F. Cadet, Ranya Aloufi, Sara Ahmadi-Abhari, Hamed Haddadi(参考訳) 変形評価の自動化は、手動および主観的評価の現在の限界に対処する効果的な低コストツールを開発する機会を提供する。 それにもかかわらず、現在のアプローチが難聴に関連する音声パターンや外部要因に依存しているかどうかは不明である。 我々は、ジステリアパターンのより明確な理解を得ることを目指している。 本研究では,録音における雑音の影響について,加算と低減の両面から検討する。 我々は,患者レベルで特徴抽出器とモデルをより解釈可能な方法で可視化・比較する新しい手法を設計し,実装する。 UA-Speechデータセットと話者ベースのデータセット分割を用いる。 文献で報告された結果は、そのような分割に拘わらず行われたようで、データ漏洩により過信される可能性があるモデルに繋がる。 我々は,これらの結果が,信頼性の高い自動脱臼評価システム構築の要件に関する研究コミュニティの意識を高めることを願っている。

Automating dysarthria assessments offers the opportunity to develop effective, low-cost tools that address the current limitations of manual and subjective assessments. Nonetheless, it is unclear whether current approaches rely on dysarthria-related speech patterns or external factors. We aim toward obtaining a clearer understanding of dysarthria patterns. To this extent, we study the effects of noise in recordings, both through addition and reduction. We design and implement a new method for visualizing and comparing feature extractors and models, at a patient level, in a more interpretable way. We use the UA-Speech dataset with a speaker-based split of the dataset. Results reported in the literature appear to have been done irrespective of such split, leading to models that may be overconfident due to data-leakage. We hope that these results raise awareness in the research community regarding the requirements for establishing reliable automatic dysarthria assessment systems.
翻訳日:2023-06-08 14:59:17 公開日:2023-06-07
# センサベースパーソナルヘルスモニタリングシステムにおける意味的技術--体系的マッピングによる研究

Semantic Technologies in Sensor-Based Personal Health Monitoring Systems: A Systematic Mapping Study ( http://arxiv.org/abs/2306.04335v1 )

ライセンス: Link先を確認
Mbithe Nzomo and Deshendran Moodley(参考訳) 近年、病気の早期発見、予防、予測に注目が集まっている。 これにより、センサ技術やモノのインターネットの進歩とともに、パーソナルヘルスモニタリングシステムの開発への取り組みが加速された。 セマンティック技術は、異種健康センサデータに関連する相互運用性の問題に対処するだけでなく、意思決定に必要な複雑な推論を支援するために専門家の健康知識を表現する効果的な方法として登場した。 本研究では,センサを用いた個人健康モニタリングシステムにおけるセマンティック技術の利用状況を評価する。 体系的手法を用いて, 現場における芸術の状態を表わす40のシステムを分析した。 この分析を通じて、そのようなシステムが最適かつ効果的な健康監視のために克服しなければならない6つの重要な課題:相互運用性、コンテキスト認識、状況検出、状況予測、意思決定支援、不確実性処理である。 本研究は,これらの課題に対処するためにセマンティック技術が組み込まれている範囲を批判的に評価し,使用するアーキテクチャ,システム開発,評価手法を同定する。 この研究は、分野の包括的マッピングを提供し、芸術の状況における不備を特定し、将来の研究の方向性を推奨する。

In recent years, there has been an increased focus on early detection, prevention, and prediction of diseases. This, together with advances in sensor technology and the Internet of Things, has led to accelerated efforts in the development of personal health monitoring systems. Semantic technologies have emerged as an effective way to not only deal with the issue of interoperability associated with heterogeneous health sensor data, but also to represent expert health knowledge to support complex reasoning required for decision-making. This study evaluates the state of the art in the use of semantic technologies in sensor-based personal health monitoring systems. Using a systematic approach, a total of 40 systems representing the state of the art in the field are analysed. Through this analysis, six key challenges that such systems must overcome for optimal and effective health monitoring are identified: interoperability, context awareness, situation detection, situation prediction, decision support, and uncertainty handling. The study critically evaluates the extent to which these systems incorporate semantic technologies to deal with these challenges and identifies the prominent architectures, system development and evaluation methodologies that are used. The study provides a comprehensive mapping of the field, identifies inadequacies in the state of the art, and provides recommendations for future research directions.
翻訳日:2023-06-08 14:59:04 公開日:2023-06-07
# アレクサンドリアのEchoes:多言語書籍要約のための大規模なリソース

Echoes from Alexandria: A Large Resource for Multilingual Book Summarization ( http://arxiv.org/abs/2306.04334v1 )

ライセンス: Link先を確認
Alessandro Scir\`e, Simone Conia, Simone Ciciliano, Roberto Navigli(参考訳) 近年、テキスト要約の研究は主にニュース領域に焦点を合わせており、テキストは一般的に短くレイアウトが強い。 全書要約のタスクは、英語でのみ利用できるサイズと可用性が制限されているため、現在のリソースに対処するのが難しい追加の課題を提示する。 これらの制限を克服するために、多言語書籍要約のための大きなリソースである「アレクサンドリアからのEcho」または短縮形「Echo」を提案する。 Echoesには3つの新しいデータセットがある。 i) Echo-Wiki による多言語書籍要約 二 超圧縮多言語書籍要約用エコーxsum及び 三 抽出本要約のためのEcho-FairySum われわれの知る限りでは、Echoesは何千もの本と要約を持ち、最大のリソースであり、5つの言語と25の言語ペアを備えた最初の多言語言語である。 また,Echo に加え,新たに抽出-主題-抽象的ベースラインを導入し,実験結果と手動による要約解析により,本ベースラインは純粋抽象的アプローチよりも書籍要約に適している,と論じている。 我々は、多言語書籍要約における革新的な研究の促進を願って、アレクサンドリアからのリソースとソフトウェアをhttps://github.com/Babelscape/echoes-from-exandriaでリリースします。

In recent years, research in text summarization has mainly focused on the news domain, where texts are typically short and have strong layout features. The task of full-book summarization presents additional challenges which are hard to tackle with current resources, due to their limited size and availability in English only. To overcome these limitations, we present "Echoes from Alexandria", or in shortened form, "Echoes", a large resource for multilingual book summarization. Echoes features three novel datasets: i) Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for extremely-compressive multilingual book summarization, and iii) Echo-FairySum, for extractive book summarization. To the best of our knowledge, Echoes, with its thousands of books and summaries, is the largest resource, and the first to be multilingual, featuring 5 languages and 25 language pairs. In addition to Echoes, we also introduce a new extractive-then-abstractive baseline, and, supported by our experimental results and manual analysis of the summaries generated, we argue that this baseline is more suitable for book summarization than purely-abstractive approaches. We release our resource and software at https://github.com/Babelscape/echoes-from-alexandria in the hope of fostering innovative research in multilingual book summarization.
翻訳日:2023-06-08 14:58:42 公開日:2023-06-07
# MEDIQA-Chat 2023のIUTEAM1: 簡易微調整は臨床会話の多層要約に有効か?

IUTEAM1 at MEDIQA-Chat 2023: Is simple fine tuning effective for multilayer summarization of clinical conversations? ( http://arxiv.org/abs/2306.04328v1 )

ライセンス: Link先を確認
Dhananjay Srivastava(参考訳) 臨床会話要約は自然言語処理の重要な応用となっている。 本研究は,chart noteと呼ばれる生成医療報告書の総合的正確性を向上させるために使用できる要約モデルセンシング手法を分析することを目的としている。 作業は、ベースラインを作成する単一の要約モデルから始まります。 その後、チャートノートの別のセクションでトレーニングされた要約モデルのアンサンブルに繋がる。 これにより、生成されたテキストの一貫性を改善するために、生成された結果を複数の層/ステージの方法で別の要約モデルに渡す最終的なアプローチが導かれる。 以上の結果から,各区間に特有なモデル群は良好な結果を生み出すが,多層/ステージアプローチでは精度が向上しないことが示唆された。 上記の論文のコードはhttps://github.com/dhananjay-srivastava/mediqa-chat-2023-iuteam1.gitで入手できる。

Clinical conversation summarization has become an important application of Natural language Processing. In this work, we intend to analyze summarization model ensembling approaches, that can be utilized to improve the overall accuracy of the generated medical report called chart note. The work starts with a single summarization model creating the baseline. Then leads to an ensemble of summarization models trained on a separate section of the chart note. This leads to the final approach of passing the generated results to another summarization model in a multi-layer/stage fashion for better coherency of the generated text. Our results indicate that although an ensemble of models specialized in each section produces better results, the multi-layer/stage approach does not improve accuracy. The code for the above paper is available at https://github.com/dhananjay-srivastava/MEDIQA-Chat-2023-iuteam1.git
翻訳日:2023-06-08 14:58:20 公開日:2023-06-07
# 先週のchatgpt: weibo study on social perspective about chatgpt for education and beyond

Last Week with ChatGPT: A Weibo Study on Social Perspective regarding ChatGPT for Education and Beyond ( http://arxiv.org/abs/2306.04325v1 )

ライセンス: Link先を確認
Yao Tian, Chengwei Tong, Lik-Hang Lee, Reza Hadi Mogavi, Yong Liao, Pengyuan Zhou(参考訳) ChatGPTは多くの分野、特に学術コミュニティの関心を喚起してきた。 最新バージョンのGPT-4はマルチモーダル入力と出力をサポートする。 本研究は、中国国民がChatGPTの可能性を教育的、一般目的にどう捉えているかをソーシャルメディアで分析する。 この研究は、GPT-4のリリース以来、世論の変化を調査する最初の試みでもある。 分析結果によると、GPT-4の前には、一部のソーシャルメディア利用者はAIの進歩が教育や社会に恩恵をもたらすと信じていたが、ChatGPTのような先進的なAIは人間を劣悪に感じさせ、不正行為や道徳的原則の低下などの問題を招き、大多数は中立なままだと信じていた。 興味深いことに、GPT-4の公開以降、公衆の態度はポジティブな方向に移行する傾向にある。 教育におけるchatgpt様モデルの倫理的適用性を確保するため,トレンドシフトとロードマップを徹底的に分析した。

ChatGPT has piqued the interest of many fields, particularly in the academic community. GPT-4, the latest version, starts supporting multimodal input and output. This study examines social media posts to analyze how the Chinese public perceives the potential of ChatGPT for educational and general purposes. The study also serves as the first effort to investigate the changes in public opinion since the release of GPT-4. According to the analysis results, prior to GPT-4, although some social media users believed that AI advancements would benefit education and society, some believed that advanced AI, such as ChatGPT, would make humans feel inferior and lead to problems such as cheating and a decline in moral principles, while the majority remain neutral. Interestingly, public attitudes have tended to shift in a positive direction since the release of GPT-4. We present a thorough analysis of the trending shift and a roadmap to ensure the ethical application of ChatGPT-like models in education and beyond.
翻訳日:2023-06-08 14:58:05 公開日:2023-06-07
# GCT-TTE:旅行時間推定のためのグラフ畳み込み変換器

GCT-TTE: Graph Convolutional Transformer for Travel Time Estimation ( http://arxiv.org/abs/2306.04324v1 )

ライセンス: Link先を確認
Vladimir Mashurov, Vaagn Chopurian, Vadim Porvatov, Arseny Ivanov, Natalia Semenova(参考訳) 本稿では,移動時間推定問題に対する新しいトランスベースモデルを提案する。 提案したGCT-TTEアーキテクチャの重要な特徴は、入力経路の異なる特性をキャプチャする異なるデータモダリティの利用である。 モデル構成に関する広範な研究とともに、パス認識およびパス盲点設定のための実際のベースラインを十分に実装し、評価した。 検討した計算実験により,いずれのデータセットにおいても最先端モデルに勝るパイプラインの実現可能性を確認した。 さらに、gct-tteはユーザ定義のルートでさらに実験可能なwebサービスとしてデプロイされた。

This paper introduces a new transformer-based model for the problem of travel time estimation. The key feature of the proposed GCT-TTE architecture is the utilization of different data modalities capturing different properties of an input path. Along with the extensive study regarding the model configuration, we implemented and evaluated a sufficient number of actual baselines for path-aware and path-blind settings. The conducted computational experiments have confirmed the viability of our pipeline, which outperformed state-of-the-art models on both considered datasets. Additionally, GCT-TTE was deployed as a web service accessible for further experiments with user-defined routes.
翻訳日:2023-06-08 14:57:45 公開日:2023-06-07
# youku-mplug: 事前学習とベンチマークのための1000万の大規模中国のビデオ言語データセット

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks ( http://arxiv.org/abs/2306.04362v1 )

ライセンス: Link先を確認
Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang(参考訳) 中国コミュニティにおけるVLP(Vision-Language Pre-Training)とLLM(Multimodal Large Language Model)の開発を促進するために、我々は、安全、多様性、品質の厳格な基準で有名な中国のビデオ共有サイトYoukuから収集された、中国最大の高品質ビデオデータセットYouku-mPLUGをリリースする。 Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。 また,ビデオ言語モデルの包括的評価を容易にするため,クロスモーダル検索,ビデオキャプション,ビデオカテゴリ分類という3つの一般的なビデオ言語タスクをカバーする,最大の中国語ベンチマークを注意深く構築した。 Youku-mPLUGは、研究者がより深いマルチモーダル研究を行い、将来より良いアプリケーションを開発することを可能にする。 さらに,ビデオ言語事前学習モデルであるALPROとmPLUG-2と,Youku-mPLUGで事前学習したモジュール化デコーダのみのmPLUG- Videoをリリースする。 実験によると、Youku-mPLUGで事前訓練されたモデルは、ビデオカテゴリー分類において最大23.1%改善されている。 さらに、mPLUG-videoは、ビデオカテゴリ分類において80.5%の精度で、ビデオキャプションでは68.9のCIDErスコアで、これらのベンチマークで新しい最先端結果を達成する。 最後に,中国のマルチモーダルLDMとしてトレーニング可能なパラメータはわずか1.7%しかなく,凍結したブルームズに基づいてmPLUG映像をスケールアップする。 このゼロショット命令理解実験は、Youku-mPLUGで事前学習することで、全体的かつ詳細な視覚的意味論の理解、シーンテキストの認識、オープンドメイン知識の活用が促進されることを示す。

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.
翻訳日:2023-06-08 14:52:28 公開日:2023-06-07
# ベースバンド信号を用いたmm波アクティブフェーズドアレイのロバストで効率的な故障診断

Robust and Efficient Fault Diagnosis of mm-Wave Active Phased Arrays using Baseband Signal ( http://arxiv.org/abs/2306.04360v1 )

ライセンス: Link先を確認
Martin H. Nielsen, Yufeng Zhang, Changbin Xue, Jian Ren, Yingzeng Yin, Ming Shen, and Gert F. Pedersen(参考訳) 5Gおよび6G無線における重要な通信ブロックは、アクティブフェイズドアレイ(APA)である。 現場でのapasの効率的かつタイムリーな診断が重要である。 これまで、障害診断は、コストのかかる機器と複数の厳密に制御された測定プローブを用いた周波数領域の放射線パターンの測定に依存してきた。 本稿では,ベースバンド内位相および二次信号に隠された特徴を抽出し,異なる障害を分類する深層ニューラルネットワーク(dnn)を用いた新しい手法を提案する。 APAの欠陥要素やコンポーネントの迅速かつ正確な診断には、1つの測定ポイントに1つのプローブしか必要としない。 提案手法の検証は商用28GHz APAを用いて行う。 単要素および多要素故障検出では, それぞれ99%, 80%の精度が示された。 オンオフアンテナ素子、位相変動、マグニチュード減衰変動の3つの異なるテストシナリオが検討されている。 4dBの低信号対雑音比では、90%以上の安定した故障検出精度が維持される。 これはすべてミリ秒(例えば6~ms)の検知時間で達成され、オンサイトデプロイの可能性が高い。

One key communication block in 5G and 6G radios is the active phased array (APA). To ensure reliable operation, efficient and timely fault diagnosis of APAs on-site is crucial. To date, fault diagnosis has relied on measurement of frequency domain radiation patterns using costly equipment and multiple strictly controlled measurement probes, which are time-consuming, complex, and therefore infeasible for on-site deployment. This paper proposes a novel method exploiting a Deep Neural Network (DNN) tailored to extract the features hidden in the baseband in-phase and quadrature signals for classifying the different faults. It requires only a single probe in one measurement point for fast and accurate diagnosis of the faulty elements and components in APAs. Validation of the proposed method is done using a commercial 28 GHz APA. Accuracies of 99% and 80% have been demonstrated for single- and multi-element failure detection, respectively. Three different test scenarios are investigated: on-off antenna elements, phase variations, and magnitude attenuation variations. In a low signal to noise ratio of 4 dB, stable fault detection accuracy above 90% is maintained. This is all achieved with a detection time of milliseconds (e.g 6~ms), showing a high potential for on-site deployment.
翻訳日:2023-06-08 14:51:50 公開日:2023-06-07
# 検索型対話システムのためのテキスト自動エンコーダ

ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems ( http://arxiv.org/abs/2306.04357v1 )

ライセンス: Link先を確認
Zhenpeng Su and Xing Wu and Wei Zhou and Guangyuan Ma and Songlin(参考訳) 対話応答選択は、与えられたユーザとシステム発話履歴に基づいて、複数の候補から適切な応答を選択することを目的としている。 近年, 学習後の対話応答選択の精度が向上し, 主にナイーブマスク型言語モデリング手法に依拠している。 しかし、最近開発された生成手法は、IRコミュニティにおいて有望なテキスト表現能力を示しており、よりよい対話セマンティクスモデリングにつながる可能性がある。 そこで本稿では,対話応答選択のための自動学習手法であるdialog-mae(dialogue context masking auto-encoder)を提案する。 dial-maeは非対称エンコーダ-デコーダアーキテクチャを使用して、対話の意味を対話型ベクトルに圧縮する。 Dial-MAEのプロセスでは、ディープエンコーダがダイアログのコンテキストに埋め込まれたディープエンコーダを作成し、続いて浅層デコーダが、この埋め込みとマスキングされた応答を使って元の応答を復元する。 実験の結果,dial-maeは2つのベンチマークで最先端の性能を得られた。

Dialogue response selection aims to select an appropriate response from several candidates based on a given user and system utterance history. Recent studies have been improving the accuracy of dialogue response selection through post-training, mostly relying on naive masked language modeling methods. However, the recently developed generative methods have shown promising text representation capabilities in IR community, which could potentially lead to better dialogue semantics modeling. Thus, in this paper, we propose Dial-MAE (Dialogue Contextual Masking Auto-encoder), a straightforward yet effective post-training technique tailored for dialogue response selection. Dial-MAE uses an asymmetric encoder-decoder architecture that learns to better compress the semantics of the dialogue into dialogue-dense vectors. The process of Dial-MAE involves a deep encoder creating a dialogue embedding with the masked dialogue context, followed by a shallow decoder that uses this embedding along with the highly masked response to restore the original response. Our experiments have demonstrated that Dial-MAE is highly effective, achieving state-of-the-art performance on two commonly evaluated benchmarks.
翻訳日:2023-06-08 14:51:31 公開日:2023-06-07
# きめ細かい視覚プロンプト

Fine-Grained Visual Prompting ( http://arxiv.org/abs/2306.04356v1 )

ライセンス: Link先を確認
Lingfeng Yang, Yueze Wang, Xiang Li, Xinlong Wang, Jian Yang(参考訳) CLIPのような視覚言語モデル(VLM)は、画像レベルの視覚知覚において、印象的なゼロショット転送機能を示している。 しかしながら、これらのモデルでは、正確なローカライゼーションと認識を必要とするインスタンスレベルのタスクのパフォーマンスが制限されている。 以前の研究は、カラフルな箱や円のような視覚的なプロンプトを組み込むことで、モデルが関心のあるオブジェクトを認識する能力を向上させることを示唆している。 それでも、言語プロンプトに比べて視覚的なプロンプトデザインは滅多に研究されていない。 色とりどりの箱や円のような粗い視覚的なヒントを用いる既存のアプローチは、無関係でノイズの多いピクセルを含むため、しばしば最適以下のパフォーマンスをもたらす。 本稿では,よりきめ細かなマーキング,例えばセグメンテーションマスクとそのバリエーションを探索することにより,視覚的プロンプトデザインを慎重に研究する。 さらに,汎用セグメンテーションモデルから取得したピクセルレベルのアノテーションを活用し,詳細な視覚的プロンプトを行う,ゼロショットフレームワークも導入する。 その結果,Blur Reverse Maskと呼ばれる標的マスクの外側のぼやけの直接的応用が極めて有効であることが判明した。 提案手法は, マスクアノテーションの精度を利用して, ターゲットと周辺背景との空間的コヒーレンスを維持しつつ, 弱関連領域へのフォーカスを低減する。 我々のFGVPは、RefCOCO、RefCOCO+、RefCOCOgベンチマークにおける参照表現のゼロショット理解において優れた性能を示す。 従来のメソッドを3.0%から4.6%のマージンで上回り、最大で12.5%のrefcoco+ testaサブセットで改善する。 PACOデータセット上で行った部分検出実験は、既存の視覚的プロンプト技術よりもFGVPの優位性をさらに検証した。 コードとモデルは利用可能になる。

Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive zero-shot transfer capabilities in image-level visual perception. However, these models have shown limited performance in instance-level tasks that demand precise localization and recognition. Previous works have suggested that incorporating visual prompts, such as colorful boxes or circles, can improve the ability of models to recognize objects of interest. Nonetheless, compared to language prompting, visual prompting designs are rarely explored. Existing approaches, which employ coarse visual cues such as colorful boxes or circles, often result in sub-optimal performance due to the inclusion of irrelevant and noisy pixels. In this paper, we carefully study the visual prompting designs by exploring more fine-grained markings, such as segmentation masks and their variations. In addition, we introduce a new zero-shot framework that leverages pixel-level annotations acquired from a generalist segmentation model for fine-grained visual prompting. Consequently, our investigation reveals that a straightforward application of blur outside the target mask, referred to as the Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting strategy leverages the precise mask annotations to reduce focus on weakly related regions while retaining spatial coherence between the target and the surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates superior performance in zero-shot comprehension of referring expressions on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the RefCOCO+ testA subset. The part detection experiments conducted on the PACO dataset further validate the preponderance of FGVP over existing visual prompting techniques. Code and models will be made available.
翻訳日:2023-06-08 14:51:08 公開日:2023-06-07
# 検証によるBQP計算のスケーラブルおよび指数量子誤差低減

Scalable and Exponential Quantum Error Mitigation of BQP Computations using Verification ( http://arxiv.org/abs/2306.04351v1 )

ライセンス: Link先を確認
Joseph Harris and Elham Kashefi(参考訳) 時間依存ノイズを持つ量子コンピュータ上で$\mathsf{BQP}$計算を実行するためのスケーラブルでモジュラーなエラー軽減プロトコルを提案する。 量子検証から既存のツールを活用することで、標準計算ラウンドをエラー検出のためのテストラウンドとインターリーブし、返却された古典出力が正しい確率を指数関数的に境界づける局所的補正保証を継承する。 検証作業に加えて,時間依存の騒音に対する対処とオーバーヘッド低減のために,バスケットと呼ばれるポストセレクション手法を導入する。 このプロトコルは指数関数的に有効であり、最小限のノイズ仮定を必要とするため、既存のNISQデバイスで簡単に実装でき、将来的な大規模デバイスでもスケーラブルである。

We present a scalable and modular error mitigation protocol for running $\mathsf{BQP}$ computations on a quantum computer with time-dependent noise. Utilising existing tools from quantum verification, our framework interleaves standard computation rounds alongside test rounds for error-detection and inherits a local-correctness guarantee which exponentially bounds (in the number of circuit runs) the probability that a returned classical output is correct. On top of the verification work, we introduce a post-selection technique we call basketing to address time-dependent noise behaviours and reduce overhead. The result is a first-of-its-kind error mitigation protocol which is exponentially effective and requires minimal noise assumptions, making it straightforwardly implementable on existing, NISQ devices and scalable to future, larger ones.
翻訳日:2023-06-08 14:50:39 公開日:2023-06-07
# より良いデータアノテータのためのGPTセルフスーパービジョン

GPT Self-Supervision for a Better Data Annotator ( http://arxiv.org/abs/2306.04349v1 )

ライセンス: Link先を確認
Xiaohuan Pei, Yanxi Li, Chang Xu(参考訳) 簡潔な要約にデータをアノテートする作業は、さまざまなドメインで大きな課題となり、人間の専門家による重要な時間と専門知識の割り当てをしばしば要求される。 アノテーションタスクに大規模な言語モデルを使用するという既存の取り組みにもかかわらず、ラベルなしデータの適用可能性の制限、自己監督型メソッドの欠如、複雑な構造化データへのフォーカスの欠如といった重大な問題は依然として続いている。 本稿では,GPT自己スーパービジョンアノテーション手法を提案する。 本手法は,GPT(Generative Pretrained Transformer)におけるワンショット学習機能を活用した生成回収パラダイムを実現する。 提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。 ワンショットチューニングフェーズでは、gptがテキスト要約を生成するためのプロンプトの一部としてサポートセットからデータをサンプリングし、元のデータを復元するために使用する。 復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。 生成段階では、最適な選択されたワンショットサンプルがプロンプトのテンプレートとして機能し、挑戦的なデータセットから要約を生成する。 複数の人間フィードバック報酬ネットワークをチューニングし、文章と構造レベルで元のデータと回復したデータのアライメントスコアを算出し、アノテーション性能を評価する。 自己教師付きアノテーション手法は,競争スコアを一貫して達成し,様々なデータ・ツー・サマリーアノテーションタスクにおいて強固な強みを示す。

The task of annotating data into concise summaries poses a significant challenge across various domains, frequently requiring the allocation of significant time and specialized knowledge by human experts. Despite existing efforts to use large language models for annotation tasks, significant problems such as limited applicability to unlabeled data, the absence of self-supervised methods, and the lack of focus on complex structured data still persist. In this work, we propose a GPT self-supervision annotation method. This method embodies a generating-recovering paradigm that leverages the capabilities of one-shot learning capabilities in Generative Pretrained Transformer (GPT). The proposed approach comprises a one-shot tuning phase followed by a generation phase. In the one-shot tuning phase, we sample a data from the support set as part of the prompt for GPT to generate a textual summary, which is then used to recover the original data. The alignment score between the recovered and original data serves as a self-supervision navigator to refine the process. In the generation stage, the optimally selected one-shot sample serves as a template in the prompt and is applied to generating summaries from challenging datasets. The annotation performance is evaluated by tuning several human feedback reward networks and by calculating alignment scores between original and recovered data at both sentence and structure levels. Our self-supervised annotation method consistently achieves competitive scores, convincingly demonstrating its robust strength in various data-to-summary annotation tasks.
翻訳日:2023-06-08 14:50:23 公開日:2023-06-07
# 数学ストーリー問題のための世界モデル

World Models for Math Story Problems ( http://arxiv.org/abs/2306.04347v1 )

ライセンス: Link先を確認
Andreas Opedal, Niklas Stoehr, Abulhair Saparov, Mrinmaya Sachan(参考訳) 数学のストーリー問題を解決することは、学生やNLPモデルにとっても複雑なタスクであり、ストーリーに記述された世界を理解し、その上で答えを計算する必要がある。 近年、これらの問題を大規模な事前訓練された言語モデルと、それらを促進する革新的な技術で自動的に解決する性能が目覚ましい。 しかし、これらのモデルが数学的概念の正確な表現を持っているかどうかは不明である。 これにより解釈性と信頼性が欠如し、様々な用途で有用性が損なわれる。 本稿では,数学ストーリー問題の分類と表現に関するこれまでの研究を整理し,数学ストーリー問題領域に特有のグラフに基づく意味形式であるmathworldを開発した。 mathworldでは、テキストに導入された状況と行動とその数学的関係を表す数学ストーリー問題に世界モデルを割り当てることができる。 既存のデータセットからの算数ストーリー問題と、1,019問題と3,204の論理形式からなるコーパスをmathworldにアノテートする。 このデータを用いて,(1)合成された質問・回答ペアを用いた言語モデルによる推論と世界モデリング能力の探究,(2)世界モデルをデザイン空間として用いることで新たな問題の発生,という算術世界のユースケースを実証する。

Solving math story problems is a complex task for students and NLP models alike, requiring them to understand the world as described in the story and reason over it to compute an answer. Recent years have seen impressive performance on automatically solving these problems with large pre-trained language models and innovative techniques to prompt them. However, it remains unclear if these models possess accurate representations of mathematical concepts. This leads to lack of interpretability and trustworthiness which impedes their usefulness in various applications. In this paper, we consolidate previous work on categorizing and representing math story problems and develop MathWorld, which is a graph-based semantic formalism specific for the domain of math story problems. With MathWorld, we can assign world models to math story problems which represent the situations and actions introduced in the text and their mathematical relationships. We combine math story problems from several existing datasets and annotate a corpus of 1,019 problems and 3,204 logical forms with MathWorld. Using this data, we demonstrate the following use cases of MathWorld: (1) prompting language models with synthetically generated question-answer pairs to probe their reasoning and world modeling abilities, and (2) generating new problems by using the world models as a design space.
翻訳日:2023-06-08 14:49:57 公開日:2023-06-07
# 多臨界イジングモデルのための量子電子回路

Quantum Electronic Circuits for Multicritical Ising Models ( http://arxiv.org/abs/2306.04346v1 )

ライセンス: Link先を確認
Ananda Roy(参考訳) 多重臨界イジングモデルとその摂動は統計力学のパラダイムモデルである。 2つの時空次元において、これらのモデルは強相互作用量子場理論における多くの非摂動問題の研究のための肥大テストベッドを提供する。 本研究では,これら多臨界イジングモデルの実現に向けて,アナログ超伝導量子電子回路シミュレータについて述べる。 後者は、$p$-fold degenerate minima, $p =2, 3,4,\ldots$ の量子sine-Gordonモデルの摂動として生じる。 対応する量子回路はジョセフソン接合と$\cos(n\phi + \delta_n)$電位と$\leq n\leq p$および$\delta_n\in[-\pi,\pi]$で構成される。 最も単純な場合、$p = 2$ は量子イジングモデルに対応し、従来のジョセフソン接合といわゆる $0-\pi$ qubits を用いて実現することができる。 イジングおよび三臨界イジングモデルの格子モデルを密度行列再正規化群法を用いて数値解析した。 多臨界現象の証拠は、サブシステムの絡み合いエントロピーの計算と関連する格子作用素の相関関数から得られる。 提案する量子回路は、低次元量子場理論で発生する幅広い非摂動現象の制御された数値的および実験的研究のための体系的アプローチを提供する。

Multicritical Ising models and their perturbations are paradigmatic models of statistical mechanics. In two space-time dimensions, these models provide a fertile testbed for investigation of numerous non-perturbative problems in strongly-interacting quantum field theories. In this work, analog superconducting quantum electronic circuit simulators are described for the realization of these multicritical Ising models. The latter arise as perturbations of the quantum sine-Gordon model with $p$-fold degenerate minima, $p =2, 3,4,\ldots$. The corresponding quantum circuits are constructed with Josephson junctions with $\cos(n\phi + \delta_n)$ potential with $1\leq n\leq p$ and $\delta_n\in[-\pi,\pi]$. The simplest case, $p = 2$, corresponds to the quantum Ising model and can be realized using conventional Josephson junctions and the so-called $0-\pi$ qubits. The lattice models for the Ising and tricritical Ising models are analyzed numerically using the density matrix renormalization group technique. Evidence for the multicritical phenomena are obtained from computation of entanglement entropy of a subsystem and correlation functions of relevant lattice operators. The proposed quantum circuits provide a systematic approach for controlled numerical and experimental investigation of a wide-range of non-perturbative phenomena occurring in low-dimensional quantum field theories.
翻訳日:2023-06-08 14:49:37 公開日:2023-06-07
# Egocentric Text-Video Retrievalにおける課題の概要

An Overview of Challenges in Egocentric Text-Video Retrieval ( http://arxiv.org/abs/2306.04345v1 )

ライセンス: Link先を確認
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim(参考訳) テキストビデオ検索には様々な課題が含まれている。 議論を開くためにイラストでサポートされているものをいくつか取り上げる。 さらに、フレーム長バイアスというバイアスの1つに、非常にインクリメンタルだが有望な増加をもたらすシンプルな手法で対処する。 私たちは今後の方向で結論づける。

Text-video retrieval contains various challenges, including biases coming from diverse sources. We highlight some of them supported by illustrations to open a discussion. Besides, we address one of the biases, frame length bias, with a simple method which brings a very incremental but promising increase. We conclude with future directions.
翻訳日:2023-06-08 14:49:15 公開日:2023-06-07
# ViDA: 継続的なテスト時間適応のためのホメオスタティックなビジュアルドメインアダプタ

ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation ( http://arxiv.org/abs/2306.04344v1 )

ライセンス: Link先を確認
Jiaming Liu, Senqiao Yang, Peidong Jia, Ming Lu, Yandong Guo, Wei Xue, Shanghang Zhang(参考訳) 実世界のマシンシステムは非定常かつ継続的に変化する環境で動作しているため、継続テスト時間適応(CTTA)タスクは、トレーニング済みモデルに継続的に変化するターゲットドメインに適応するために提案される。 近年、既存の手法は主にモデルに基づく適応に焦点をあてており、対象ドメイン知識を抽出するために自己学習の方法を活用することを目的としている。 しかし、疑似ラベルはノイズになり、更新されたモデルパラメータは動的データ分布下で不確かであり、継続的な適応プロセスにおいてエラーの蓄積と破滅的な忘れることになる。 これらの課題に対処し、モデルの可塑性を維持するために、我々は、ドメイン固有の知識とドメインに依存しない知識の両方を明示的に扱いながら、CTTA用のVisual Domain Adapter (ViDA)を正確に設計する。 具体的には、まず、トレーニング可能な高階および低階埋め込み空間を持つアダプタの異なるドメイン表現を包括的に探索する。 次に,事前学習モデルにvidaを注入し,高ランクプロトタイプと低ランクプロトタイプを用いて,現在のドメイン分布を適応させ,連続的なドメイン共有知識を維持する。 対象領域における各サンプルの各種分布シフトに対応するために,各vidaからの知識を異なるランクのプロトタイプに適応的に融合するホメオスタティックナレッジ割り当て(hka)戦略を提案する。 4つのベンチマークを用いた広範囲な実験により,提案手法が分節化と分節化の両方において最先端の性能を実現することを実証した。 さらに,提案手法は,新しい伝達パラダイムと見なすことができ,基礎モデルのゼロショット適応による有望な成果を下流のタスクや分布に提示する。

Since real-world machine systems are running in non-stationary and continually changing environments, Continual Test-Time Adaptation (CTTA) task is proposed to adapt the pre-trained model to continually changing target domains. Recently, existing methods mainly focus on model-based adaptation, which aims to leverage a self-training manner to extract the target domain knowledge. However, pseudo labels can be noisy and the updated model parameters are uncertain under dynamic data distributions, leading to error accumulation and catastrophic forgetting in the continual adaptation process. To tackle these challenges and maintain the model plasticity, we tactfully design a Visual Domain Adapter (ViDA) for CTTA, explicitly handling both domain-specific and domain-agnostic knowledge. Specifically, we first comprehensively explore the different domain representations of the adapters with trainable high and low-rank embedding space. Then we inject ViDAs into the pre-trained model, which leverages high-rank and low-rank prototypes to adapt the current domain distribution and maintain the continual domain-shared knowledge, respectively. To adapt to the various distribution shifts of each sample in target domains, we further propose a Homeostatic Knowledge Allotment (HKA) strategy, which adaptively merges knowledge from each ViDA with different rank prototypes. Extensive experiments conducted on four widely-used benchmarks demonstrate that our proposed method achieves state-of-the-art performance in both classification and segmentation CTTA tasks. In addition, our method can be regarded as a novel transfer paradigm and showcases promising results in zero-shot adaptation of foundation models to continual downstream tasks and distributions.
翻訳日:2023-06-08 14:49:10 公開日:2023-06-07
# 3-SAT問題に対処するハイブリッド量子の提案

A hybrid Quantum proposal to deal with 3-SAT problem ( http://arxiv.org/abs/2306.04378v1 )

ライセンス: Link先を確認
Jose J. Paulet, Luis F. LLana, Hernan I. de la Cruz, Mauro Mezzini, Fernando Cuartero and Fernando L. Pelayo(参考訳) SAT問題解決においてできる限りの努力が、私たちの仕事の主目的です。 この目的のために、我々は量子コンピューティングをその2つ、実際は主に計算のモデルから利用した。 彼らは両方の手法の要求を満たすために、以前の3SAT問題に対するいくつかの改革を必要とした。 本稿では,3SAT問題を解くためのハイブリッド量子コンピューティング戦略について述べる。 この近似の性能は、量子コンピューティングの観点から3-SATを扱う際に、一連の代表的なシナリオで検証されている。

Going as far as possible at SAT problem solving is the main aim of our work. For this sake we have made use of quantum computing from its two, on practice, main models of computation. They have required some reformulations over the former statement of 3-SAT problem in order to accomplish the requirements of both techniques. This paper presents and describes a hybrid quantum computing strategy for solving 3-SAT problems. The performance of this approximation has been tested over a set of representative scenarios when dealing with 3-SAT from the quantum computing perspective.
翻訳日:2023-06-08 14:42:14 公開日:2023-06-07
# 分散学習システムにおける学習機会の削減

Get More for Less in Decentralized Learning Systems ( http://arxiv.org/abs/2306.04377v1 )

ライセンス: Link先を確認
Akash Dhasade, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma, Milos Vujasinovic, Jeffrey Wigger(参考訳) 分散学習(dl)システムは、モデルパラメータのみを通信することで生のデータ共有を避け、データの機密性を維持するため、人気を集めている。 しかし、ディープニューラルネットワークの大規模化は、各ノードがギガバイトのデータを交換し、ネットワークをオーバーロードする必要があるため、分散トレーニングにおいて大きな課題となる。 本稿では,通信効率が高く,分散化された学習システムであるJWINSを用いて,この課題に対処する。 jwinsはwavelet変換を使用して、スパースフィケーションによる情報損失と、トレーニングされたモデルのパフォーマンスを損なうことなく通信使用量を削減するランダム化された通信カットオフを制限する。 96のDLノードを非IIDデータセット上で実証的に示し、JWINSは最大64%のバイトを送信しながら、完全共有DLと類似の精度を達成できることを示した。 さらに、通信予算の低さから、JWINSは、最先端の通信効率の高いDLアルゴリズムであるCHOCO-SGDをネットワークの節約と時間で最大4倍に向上させる。

Decentralized learning (DL) systems have been gaining popularity because they avoid raw data sharing by communicating only model parameters, hence preserving data confidentiality. However, the large size of deep neural networks poses a significant challenge for decentralized training, since each node needs to exchange gigabytes of data, overloading the network. In this paper, we address this challenge with JWINS, a communication-efficient and fully decentralized learning system that shares only a subset of parameters through sparsification. JWINS uses wavelet transform to limit the information loss due to sparsification and a randomized communication cut-off that reduces communication usage without damaging the performance of trained models. We demonstrate empirically with 96 DL nodes on non-IID datasets that JWINS can achieve similar accuracies to full-sharing DL while sending up to 64% fewer bytes. Additionally, on low communication budgets, JWINS outperforms the state-of-the-art communication-efficient DL algorithm CHOCO-SGD by up to 4x in terms of network savings and time.
翻訳日:2023-06-08 14:42:01 公開日:2023-06-07
# 分布特徴マッチングによるロバスト性保証によるラベルシフト定量化

Label Shift Quantification with Robustness Guarantees via Distribution Feature Matching ( http://arxiv.org/abs/2306.04376v1 )

ライセンス: Link先を確認
Bastien Dussap, Gilles Blanchard, Badr-Eddine Ch\'erief-Abdellatif(参考訳) 定量化学習は、ラベルシフト下の目標ラベル分布を推定するタスクを扱う。 本稿では,まず,従来の文献で導入された様々な推定器の特定の例として回復する分散特徴マッチング(DFM)について述べる。 dfmプロシージャの一般的な性能バウンドを導出し、特定のケースで導かれる以前の境界においていくつかの重要な側面を改善した。 次に、この分析を拡張して、正確なラベルシフト仮説から外れた不特定設定におけるDFM手順の堅牢性、特に未知の分布によるターゲットの汚染の場合について検討する。 これらの理論的な知見は、シミュレーションおよび実世界のデータセットに関する詳細な数値研究によって確認される。 また、Random Fourier Featureの原理を用いて、カーネルベースのDFMの効率的でスケーラブルで堅牢なバージョンも導入する。

Quantification learning deals with the task of estimating the target label distribution under label shift. In this paper, we first present a unifying framework, distribution feature matching (DFM), that recovers as particular instances various estimators introduced in previous literature. We derive a general performance bound for DFM procedures, improving in several key aspects upon previous bounds derived in particular cases. We then extend this analysis to study robustness of DFM procedures in the misspecified setting under departure from the exact label shift hypothesis, in particular in the case of contamination of the target by an unknown distribution. These theoretical findings are confirmed by a detailed numerical study on simulated and real-world datasets. We also introduce an efficient, scalable and robust version of kernel-based DFM using the Random Fourier Feature principle.
翻訳日:2023-06-08 14:41:26 公開日:2023-06-07
# wasserstein-based high probability generalization boundsによる学習

Learning via Wasserstein-Based High Probability Generalisation Bounds ( http://arxiv.org/abs/2306.04375v1 )

ライセンス: Link先を確認
Paul Viallard, Maxime Haddouche, Umut Simsekli, Benjamin Guedj(参考訳) 人口リスクや一般化ギャップの上限の最小化は、構造的リスク最小化(SRM)において広く用いられている。 PAC-Bayesian フレームワークの制限は、近年成功し、興味をそそられていないものの、ほとんどの境界は KL (Kullback-Leibler) の発散項を伴っており、これは不規則な振る舞いを示し、学習問題の基盤となる幾何学的構造を捉えることができず、実用的な用途での使用を制限するものである。 治療薬として、最近の研究は、PAC-ベイズ境界におけるKLの発散をワッサーシュタイン距離に置き換えようと試みている。 これらの境界は、上記の問題をある程度緩和するが、期待を保ち、有界な損失を期待するか、SRMフレームワークで最小化するのは自明である。 本研究では,この一連の研究に寄与し,独立分散データと同一分散データ(i.i.d.データ)を用いたバッチ学習と,非i.i.d.データによるオンライン学習の両方に対して,新しいwasserstein距離ベースpac-ベイズ一般化境界を証明した。 従来の芸術とは対照的に、我々の限界はより強い。 (i)高い確率で保持する。 (ii)無制限(潜在的に重み付き)の損失に当てはまること、及び (iii)srmで使用できる最適化可能なトレーニング目標に導く。 その結果、新しいワッサーシュタインに基づくPAC-ベイジアン学習アルゴリズムが導出され、様々な実験においてその経験的優位性を示す。

Minimising upper bounds on the population risk or the generalisation gap has been widely used in structural risk minimisation (SRM) - this is in particular at the core of PAC-Bayesian learning. Despite its successes and unfailing surge of interest in recent years, a limitation of the PAC-Bayesian framework is that most bounds involve a Kullback-Leibler (KL) divergence term (or its variations), which might exhibit erratic behavior and fail to capture the underlying geometric structure of the learning problem - hence restricting its use in practical applications. As a remedy, recent studies have attempted to replace the KL divergence in the PAC-Bayesian bounds with the Wasserstein distance. Even though these bounds alleviated the aforementioned issues to a certain extent, they either hold in expectation, are for bounded losses, or are nontrivial to minimize in an SRM framework. In this work, we contribute to this line of research and prove novel Wasserstein distance-based PAC-Bayesian generalisation bounds for both batch learning with independent and identically distributed (i.i.d.) data, and online learning with potentially non-i.i.d. data. Contrary to previous art, our bounds are stronger in the sense that (i) they hold with high probability, (ii) they apply to unbounded (potentially heavy-tailed) losses, and (iii) they lead to optimizable training objectives that can be used in SRM. As a result we derive novel Wasserstein-based PAC-Bayesian learning algorithms and we illustrate their empirical advantage on a variety of experiments.
翻訳日:2023-06-08 14:41:08 公開日:2023-06-07
# 言語識別のためのラベル認識音声表現学習

Label Aware Speech Representation Learning For Language Identification ( http://arxiv.org/abs/2306.04374v1 )

ライセンス: Link先を確認
Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han, Vera Axelrod, Partha Talukdar(参考訳) 言語認識などの非意味的タスクに対する音声表現学習アプローチは、分類器モデルを用いた教師あり埋め込み抽出法や、生データを用いた自己教師あり表現学習手法を探求している。 本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。 このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。 音声表現はさらに下流タスクのために微調整される。 言語認識実験は、FLEURSとDhwaniの2つの公開データセットで実施されている。 これらの実験では,提案するLASRフレームワークが言語識別の最先端システムよりも優れていることを示す。 また,ラベルのノイズ/欠落に対するLASRアプローチの堅牢性の解析や,多言語音声認識タスクへの応用についても報告する。

Speech representation learning approaches for non-semantic tasks such as language recognition have either explored supervised embedding extraction methods using a classifier model or self-supervised representation learning approaches using raw data. In this paper, we propose a novel framework of combining self-supervised representation learning with the language label information for the pre-training task. This framework, termed as Label Aware Speech Representation (LASR) learning, uses a triplet based objective function to incorporate language labels along with the self-supervised loss function. The speech representations are further fine-tuned for the downstream task. The language recognition experiments are performed on two public datasets - FLEURS and Dhwani. In these experiments, we illustrate that the proposed LASR framework improves over the state-of-the-art systems on language identification. We also report an analysis of the robustness of LASR approach to noisy/missing labels as well as its application to multi-lingual speech recognition tasks.
翻訳日:2023-06-08 14:40:35 公開日:2023-06-07
# 量子コヒーレンス保護のための熱コヒーレント環境の作成

Preparation of thermal coherent environments for quantum coherence protection ( http://arxiv.org/abs/2306.04369v1 )

ライセンス: Link先を確認
Asghar Ullah, M. Tahir Naseem, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 熱環境と量子システムの間の避けられない相互作用は、エンジニアリングされた環境によって戦うことができる量子特性の劣化につながる。 特に、熱コヒーレント環境の調製は、非コヒーレント浴に対する量子特性の延長に有望である。 熱的および長手駆動型共振器モードにアンシラ量子ビットを用いて熱コヒーレント状態(TCS)を実現することを提案する。 開系力学を記述するためにマスター方程式を用いると、量子ビットと共振器に対するマスター方程式の定常解が得られる。 注目すべきは、共振器の状態はTCSであり、アンシラ量子ビットは熱のままである。 さらに,2次相関係数と光子数統計値を用いて量子特性の検証を行った。 そこで本研究では,二段系と共振器からなるハイブリッド系に基づく量子コヒーレンス発生機構を考察し,アンシラ支援型熱コヒーレント浴が量子コヒーレンス寿命を延長すると主張する。 我々の結果は、量子科学と技術のためのTCSと環境を準備、実践するための有望な方向性を提供するかもしれない。

The unavoidable interaction between thermal environments and quantum systems leads to the degradation of the quantum features, which can be fought against by engineered environments. In particular, preparing a thermal coherent environment can be promising for prolonging quantum properties relative to incoherent baths. We propose that a thermal coherent state (TCS) can be realized by using an ancilla qubit to thermally and longitudinally driven resonator modes. Using the master equation approach to describe the open system dynamics, we obtain the steady-state solution of the master equation for the qubit and resonator. Remarkably, the state of the resonator is a TCS, while the ancilla qubit remains thermal. Furthermore, we study the second-order correlation coefficient and photon number statistics to validate its quantum properties. To sum up, we also investigate a mechanism for generating quantum coherence based on a hybrid system composed of two-level systems and resonator to claim that an ancilla-assisted engineered thermal coherent bath prolongs the coherence lifetimes of qubits. Our results may provide a promising direction for preparing and practically implementing TCSs and environments for quantum science and technology.
翻訳日:2023-06-08 14:40:21 公開日:2023-06-07
# 対数と信号に基づく拡張を用いたアラビア王朝音声認識

Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation ( http://arxiv.org/abs/2306.04368v1 )

ライセンス: Link先を確認
Massa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray(参考訳) 音声認識 (Automatic Speech Recognition, ASR) の進歩にもかかわらず、最先端のASRシステムは、高水準の言語でも障害のある音声を扱うのに苦労している。 アラビア語では、この課題は増幅され、dysarthric speakersからのデータ収集の複雑さが増す。 本稿では,多段階拡張手法によりアラビア語義歯の自動音声認識の性能を向上させることを目的とする。 そこで我々はまず,その速度とテンポを変化させることで,健常なアラビア語から音声を合成する信号に基づくアプローチを提案する。 また、英語のdysarthricデータセット上で学習し、言語に依存しないdysarthric音声パターンをキャプチャし、信号調整された音声サンプルをさらに強化する第2段階並列波生成モデルを提案する。 さらに, 構音障害レベルが異なるアラビア語適合者に対して, 微調整とテキスト訂正の戦略を提案する。 本研究は, アラビア語共通音声データセットから合成した構音障害音声に対して, 18%の単語誤り率 (wer) と17.2%の文字誤り率 (cer) を達成した。 これは、健康なデータのみを訓練したベースラインモデルと比較して81.8%の改善を示した。 健康な英語ljspeechデータセットでのみ訓練されたベースラインよりも124%改善した。

Despite major advancements in Automatic Speech Recognition (ASR), the state-of-the-art ASR systems struggle to deal with impaired speech even with high-resource languages. In Arabic, this challenge gets amplified, with added complexities in collecting data from dysarthric speakers. In this paper, we aim to improve the performance of Arabic dysarthric automatic speech recognition through a multi-stage augmentation approach. To this effect, we first propose a signal-based approach to generate dysarthric Arabic speech from healthy Arabic speech by modifying its speed and tempo. We also propose a second stage Parallel Wave Generative (PWG) adversarial model that is trained on an English dysarthric dataset to capture language-independant dysarthric speech patterns and further augment the signal-adjusted speech samples. Furthermore, we propose a fine-tuning and text-correction strategies for Arabic Conformer at different dysarthric speech severity levels. Our fine-tuned Conformer achieved 18% Word Error Rate (WER) and 17.2% Character Error Rate (CER) on synthetically generated dysarthric speech from the Arabic commonvoice speech dataset. This shows significant WER improvement of 81.8% compared to the baseline model trained solely on healthy data. We perform further validation on real English dysarthric speech showing a WER improvement of 124% compared to the baseline trained only on healthy English LJSpeech dataset.
翻訳日:2023-06-08 14:39:59 公開日:2023-06-07
# gcn信頼度予測に基づく協調移動型群衆センシングのための効率的な採用戦略

Efficient Recruitment Strategy for Collaborative Mobile Crowd Sensing Based on GCN Trustworthiness Prediction ( http://arxiv.org/abs/2306.04366v1 )

ライセンス: Link先を確認
Zhongwei Zhan, Yingjie Wang, Peiyong Duan, Akshita Maradapu Vera Venkata Sai, Zhaowei Liu, Chaocan Xiang, Xiangrong Tong, Weilong Wang, Zhipeng Cai(参考訳) CMCS(Collaborative Mobile Crowd Sensing)は、タスクセンシングにおけるチームワークを促進することで、データ品質とカバレッジを向上させる。 既存の戦略は、主に作業者自身の特性に注目し、それらの間の非対称な信頼関係を無視し、タスクユーティリティ評価の合理性に影響を与える。 そこで本稿では,まずミニバッチk-meansクラスタリングアルゴリズムを採用し,エッジサーバをデプロイし,効率的な分散ワーカー採用を実現する。 履歴データとタスク要件を利用して、労働者の能力タイプと距離を取得する。 作業者のソーシャルネットワーク内の信頼指向グラフを、トレーニング用のgraph convolutional network(gcn)フレームワークに入力し、作業者ペア間の非対称信頼性をキャプチャする。 CMCSのシナリオでは、労働者間の高い信頼度によってプライバシリークが防止される。 最終的に、労働者の能力、信頼値、および距離重みを用いて、非方向性採用グラフを構築し、労働者採用問題を最大重量平均グラフ問題(MWASP)に変換する。 Tabu Search Recruitment (TSR) アルゴリズムは,タスク毎のバランスの取れた多目的最適タスクユーティリティワーカーを合理的に採用するために提案される。 4つの実世界のデータセットに対する広範囲なシミュレーション実験は、提案された戦略の有効性を示し、他の戦略よりも優れている。

Collaborative Mobile Crowd Sensing (CMCS) enhances data quality and coverage by promoting teamwork in task sensing, with worker recruitment representing a complex multi-objective optimization problem. Existing strategies mainly focus on the characteristics of workers themselves, neglecting the asymmetric trust relationships between them, which affects the rationality of task utility evaluation. To address this, this paper first employs the Mini-Batch K-Means clustering algorithm and deploys edge servers to enable efficient distributed worker recruitment. Historical data and task requirements are utilized to obtain workers' ability types and distances. A trust-directed graph in the worker's social network is input into the Graph Convolutional Network (GCN) framework for training, capturing asymmetric trustworthiness between worker pairs. Privacy leakage is prevented in CMCS scenarios through high trust values between workers. Ultimately, an undirected recruitment graph is constructed using workers' abilities, trust values, and distance weights, transforming the worker recruitment problem into a Maximum Weight Average Subgraph Problem (MWASP). A Tabu Search Recruitment (TSR) algorithm is proposed to rationally recruit a balanced multi-objective optimal task utility worker set for each task. Extensive simulation experiments on four real-world datasets demonstrate the effectiveness of the proposed strategy, outperforming other strategies.
翻訳日:2023-06-08 14:39:35 公開日:2023-06-07
# PtSe$_2$ナノ構造におけるエッジ導電率

Edge conductivity in PtSe$_2$ nanostructures ( http://arxiv.org/abs/2306.04365v1 )

ライセンス: Link先を確認
Roman Kempt, Agnieszka Kuc, Thomas Brumme, Thomas Heine(参考訳) PtSe$_2$は、赤外線におけるナノエレクトロメカニックセンシングと光検出のための有望な2D材料である。 最も説得力のある特徴の1つは、現在のバックエンド・オブ・ライン半導体処理と互換性のある500 {\deg}c以下の温度でのfacile合成である。 しかし、このプロセスは5nmから100nmのナノフレーク状ドメインを持つ多結晶薄膜を生成する。 このサイズでの側方量子閉じ込め効果を調べるために、深層ニューラルネットワークをトレーニングし、DFTの精度で原子間ポテンシャルを得るとともに、5nmから15nmの側方幅を持つPtSe$2$のリボン、表面、ナノフレーク、ナノプレートレットをモデル化する。 いずれのエッジ終端が最も安定であるかを決定し、電気伝導度が10nm以下の大きさのエッジに局在していることを示す。 このことから、ptse$_2$の薄膜中の輸送チャネルは、層自体を輸送するのではなく、エッジのネットワークによって支配される可能性が示唆された。

PtSe$_2$ is a promising 2D material for nanoelectromechanical sensing and photodetection in the infrared regime. One of its most compelling features is the facile synthesis at temperatures below 500 {\deg}C, which is compatible with current back-end-of-line semiconductor processing. However, this process generates polycrystalline thin films with nanoflake-like domains of 5 to 100 nm size. To investigate the lateral quantum confinement effect in this size regime, we train a deep neural network to obtain an interatomic potential at DFT accuracy and use that to model ribbons, surfaces, nanoflakes, and nanoplatelets of PtSe$_2$ with lateral widths between 5 to 15 nm. We determine which edge terminations are the most stable and find evidence that the electrical conductivity is localized on the edges for lateral sizes below 10 nm. This suggests that the transport channels in thin films of PtSe$_2$ might be dominated by networks of edges, instead of transport through the layers themselves.
翻訳日:2023-06-08 14:39:10 公開日:2023-06-07
# 線形光学を用いたベル状態の変換

Transformation of Bell states using linear optics ( http://arxiv.org/abs/2306.04364v1 )

ライセンス: Link先を確認
Sarika Mishra and R. P. Singh(参考訳) ベル状態は最大極性2量子ビット量子状態の4つの完全集合を形成する。 エンタングルメントに基づく量子鍵分散プロトコル、スーパーデンス符号化、量子テレポーテーション、エンタングルメント交換など、多くの量子応用の重要な要素であるため、ベル状態の作成と測定が必要となる。 自発パラメトリックダウン変換はベル状態を作成する最も簡単な方法であり、所望のベル状態は任意の絡み合った光子対から単一量子論理ゲートを介して作成することができる。 本稿では,半波プレート(hwp)のユニタリ変換のみを用いて,ベル状態の完全集合を生成する。 非線形結晶とビームスプリッタ(bs)の組み合わせを用いて初期エンタングル状態を作成し、hwpsを用いたエンタングル光子対に単一量子ビット論理ゲートを適用することにより、残りのベル状態を生成する。 我々の結果は多くの量子応用、特に最大絡み合う状態の基底による制御を必要とする超密度符号化において有用である。

Bell states form a complete set of four maximally polarization entangled two-qubit quantum state. Being a key ingredient of many quantum applications such as entanglement based quantum key distribution protocols, superdense coding, quantum teleportation, entanglement swapping etc, Bell states have to be prepared and measured. Spontaneous parametric down conversion is the easiest way of preparing Bell states and a desired Bell state can be prepared from any entangled photon pair through single-qubit logic gates. In this paper, we present the generation of complete set of Bell states, only by using unitary transformations of half-wave plate (HWP). The initial entangled state is prepared using a combination of a nonlinear crystal and a beam-splitter (BS) and the rest of the Bell states are created by applying single-qubit logic gates on the entangled photon pairs using HWPs. Our results can be useful in many quantum applications, especially in superdense coding where control over basis of maximally entangled state is required.
翻訳日:2023-06-08 14:38:51 公開日:2023-06-07
# カオスダイナミクス学習のための一般教師強制

Generalized Teacher Forcing for Learning Chaotic Dynamics ( http://arxiv.org/abs/2306.04406v1 )

ライセンス: Link先を確認
Florian Hess, Zahra Monfared, Manuel Brenner, Daniel Durstewitz(参考訳) カオス力学系(DS)は自然と社会においてユビキタスである。 しばしば、観測された時系列から予測や機械的洞察の系を再構築することに興味があり、再構築することで、問題となるシステムの幾何学的および不変な時間的特性を学習することを意味する(アトラクタなど)。 しかし,そのようなシステム上での回帰ニューラルネットワーク(recurrent neural networks, rnns)のようなリコンストラクションアルゴリズムの学習は困難である。 これは主にカオス系における軌道の指数的なばらつきによる爆発的な勾配に起因する。 さらに、(科学的)解釈可能性については、できるだけ低次元の再構成を望み、好ましくは数学的に扱いやすいモデルである。 本稿では,教師強制の驚くほど単純な修正により,カオスシステムのトレーニングにおいて,厳密な全時間有界勾配が生じることを報告する。また,抽出可能なRNN設計の簡単なアーキテクチャ再構成と組み合わせることで,観測されたシステムの大部分の空間における忠実な再構築を可能にする。 これらの修正により、従来のSOTAアルゴリズムよりもずっと低い次元でDSを再構築できることを示す。 パフォーマンスの違いは、他のほとんどのメソッドが苦労した実世界のデータに特に魅力的でした。 これにより、シンプルながら強力なDS再構成アルゴリズムが実現され、同時に高い解釈が可能となった。

Chaotic dynamical systems (DS) are ubiquitous in nature and society. Often we are interested in reconstructing such systems from observed time series for prediction or mechanistic insight, where by reconstruction we mean learning geometrical and invariant temporal properties of the system in question (like attractors). However, training reconstruction algorithms like recurrent neural networks (RNNs) on such systems by gradient-descent based techniques faces severe challenges. This is mainly due to exploding gradients caused by the exponential divergence of trajectories in chaotic systems. Moreover, for (scientific) interpretability we wish to have as low dimensional reconstructions as possible, preferably in a model which is mathematically tractable. Here we report that a surprisingly simple modification of teacher forcing leads to provably strictly all-time bounded gradients in training on chaotic systems, and, when paired with a simple architectural rearrangement of a tractable RNN design, piecewise-linear RNNs (PLRNNs), allows for faithful reconstruction in spaces of at most the dimensionality of the observed system. We show on several DS that with these amendments we can reconstruct DS better than current SOTA algorithms, in much lower dimensions. Performance differences were particularly compelling on real world data with which most other methods severely struggled. This work thus led to a simple yet powerful DS reconstruction algorithm which is highly interpretable at the same time.
翻訳日:2023-06-08 14:32:41 公開日:2023-06-07
# 計画問題に対する政策的自己競争

Policy-Based Self-Competition for Planning Problems ( http://arxiv.org/abs/2306.04403v1 )

ライセンス: Link先を確認
Jonathan Pirnay, Quirin G\"ottl, Jakob Burger, Dominik Gerhard Grimm(参考訳) AlphaZero型アルゴリズムは、木探索を導く値ネットワークがエピソードの結果を十分に近似できない場合、シングルプレイヤータスクの改善を止めることができる。 この問題に対処する1つのテクニックは、自己競合を通じてシングルプレイヤータスクを変換することである。 主なアイデアは、エージェントの過去のパフォーマンスからスカラーベースラインを計算し、エピソードの報酬をバイナリ出力に再構成し、ベースラインが超過したかどうかを示すことである。 しかし、このベースラインは、改善方法に関するエージェントの限られた情報しか持たない。 我々は自己競争の考え方を活用し、歴史的政策をスカラーパフォーマンスではなく計画プロセスに直接組み込む。 最近導入されたGumbel AlphaZero (GAZ) に基づいて, エージェントが過去の戦略を計画して強い軌道を求めることを学習するGAZ "Play-to-Plan" (GAZ PTP) を提案する。 本稿では,2つの組合せ最適化問題であるトラベリングセールスマン問題とジョブショップスケジューリング問題におけるアプローチの有効性を示す。 GAZ PTPは検索のシミュレーション予算の半分しかなく、選択したGAZのシングルプレイヤー版よりも一貫して優れている。

AlphaZero-type algorithms may stop improving on single-player tasks in case the value network guiding the tree search is unable to approximate the outcome of an episode sufficiently well. One technique to address this problem is transforming the single-player task through self-competition. The main idea is to compute a scalar baseline from the agent's historical performances and to reshape an episode's reward into a binary output, indicating whether the baseline has been exceeded or not. However, this baseline only carries limited information for the agent about strategies how to improve. We leverage the idea of self-competition and directly incorporate a historical policy into the planning process instead of its scalar performance. Based on the recently introduced Gumbel AlphaZero (GAZ), we propose our algorithm GAZ 'Play-to-Plan' (GAZ PTP), in which the agent learns to find strong trajectories by planning against possible strategies of its past self. We show the effectiveness of our approach in two well-known combinatorial optimization problems, the Traveling Salesman Problem and the Job-Shop Scheduling Problem. With only half of the simulation budget for search, GAZ PTP consistently outperforms all selected single-player variants of GAZ.
翻訳日:2023-06-08 14:32:19 公開日:2023-06-07
# 三重項崩壊を受け入れる公正な分類器

A Fair Classifier Embracing Triplet Collapse ( http://arxiv.org/abs/2306.04400v1 )

ライセンス: Link先を確認
A. Martzloff (1), N. Posocco (2), Q. Ferr\'e (1) ((1) Euranova, Marseille, France, (2) Euranova, Mont-Saint-Guibert, Belgique)(参考訳) 本稿では,三重項損失の挙動を考察し,機械学習モデルによって生成されたバイアスを制限するために利用できることを示す。 我々のフェア分類器は、確率的三重項選択の場合、そのマージンが潜在空間における2点間の最大距離より大きいとき、三重項損失の崩壊を利用する。

In this paper, we study the behaviour of the triplet loss and show that it can be exploited to limit the biases created and perpetuated by machine learning models. Our fair classifier uses the collapse of the triplet loss when its margin is greater than the maximum distance between two points in the latent space, in the case of stochastic triplet selection.
翻訳日:2023-06-08 14:31:59 公開日:2023-06-07
# チェコからスロバキアへのトランスフォーマーに基づく音声認識モデルの転送学習

Transfer Learning of Transformer-based Speech Recognition Models from Czech to Slovak ( http://arxiv.org/abs/2306.04399v1 )

ライセンス: Link先を確認
Jan Lehe\v{c}ka, Josef V. Psutka, Josef Psutka(参考訳) 本稿では,スロバキアの音声認識モデルをトランスフォーマーアーキテクチャに基づいてトレーニングする方法をいくつか比較する。 具体的には、チェコの既存のトレーニング済みのWav2Vec 2.0モデルからスロバキアへの移行学習のアプローチを検討している。 我々は,スロバキアの3つのデータセットに対して提案手法の利点を示す。 スロバキアのモデルは、トレーニング前の段階でチェコのモデルから重量を初期化するときに最高の結果を得た。 以上の結果から,cezch事前学習モデルに格納された知識はスロバキアの課題をうまく再利用でき,さらに大きな多言語モデルよりも優れていた。

In this paper, we are comparing several methods of training the Slovak speech recognition models based on the Transformers architecture. Specifically, we are exploring the approach of transfer learning from the existing Czech pre-trained Wav2Vec 2.0 model into Slovak. We are demonstrating the benefits of the proposed approach on three Slovak datasets. Our Slovak models scored the best results when initializing the weights from the Czech model at the beginning of the pre-training phase. Our results show that the knowledge stored in the Cezch pre-trained model can be successfully reused to solve tasks in Slovak while outperforming even much larger public multilingual models.
翻訳日:2023-06-08 14:31:52 公開日:2023-06-07
# 弱値相関関数:洞察と正確な読み出し戦略

Weak-Valued Correlation Functions: Insights and Precise Readout Strategies ( http://arxiv.org/abs/2306.04398v1 )

ライセンス: Link先を確認
Yuan Feng, Xi Chen, Yongcheng Ding(参考訳) 量子系における相関関数の研究は、それらの性質を復号し、物理現象に関する洞察を得る上で重要な役割を果たす。 この文脈で、ゲルマンとローの定理は、連結真空ダイアグラムをキャンセルすることで計算を単純化するために用いられる。 この定理の本質を基礎として, 時間対称性を持つ2状態ベクトル形式を採用することで, 断熱進化過程の修正を提案する。 この新しい視点は相関関数を弱い値として明らかにし、弱い測定によって装置に記録する普遍的な方法を提供する。 提案手法の有効性を明らかにするために,結合係数とアンサンブルコピー数との複雑な相互作用に対処する摂動量子調和振動子の数値シミュレーションを提案する。 さらに、我々のプロトコルを量子場理論の領域に拡張し、相関関数に関する重要な情報を結合弱値でエンコードする。 この包括的調査は、相関関数の基本的性質と量子論における弱い測定の理解を著しく前進させる。

The study of correlation functions in quantum systems plays a vital role in decoding their properties and gaining insights into physical phenomena. In this context, the Gell-Mann and Low theorem have been employed to simplify computations by canceling connected vacuum diagrams. Building upon the essence of this theorem, we propose a modification to the adiabatic evolution process by adopting the two-state vector formalism with time symmetry. This novel perspective reveals correlation functions as weak values, offering a universal method for recording them on the apparatus through weak measurement. To illustrate the effectiveness of our approach, we present numerical simulations of perturbed quantum harmonic oscillators, addressing the intricate interplay between the coupling coefficient and the number of ensemble copies. Additionally, we extend our protocol to the domain of quantum field theory, where joint weak values encode crucial information about the correlation function. This comprehensive investigation significantly advances our understanding of the fundamental nature of correlation functions and weak measurements in quantum theories.
翻訳日:2023-06-08 14:31:44 公開日:2023-06-07
# 非対称勾配誘導による拡散に基づく画像変換の改善

Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance ( http://arxiv.org/abs/2306.04396v1 )

ライセンス: Link先を確認
Gihyun Kwon, Jong Chul Ye(参考訳) 拡散モデルは最近、画像翻訳タスクが著しく進歩している。 しかし、その確率的な性質のため、スタイル変換とコンテンツ保存の間にはしばしばトレードオフがあります。 現在の戦略は、テキストまたはワンショット画像条件下でソースからターゲットドメインへの移行を成功させながら、スタイルとコンテンツを分離し、ソースイメージの構造を保存することを目的としている。 しかし、これらの手法は、しばしば拡散モデルや追加のニューラルネットワークの計算量的に激しい微調整を必要とする。 これらの課題に対処するため、非対称勾配ガイダンスを適用して拡散サンプリングの逆過程を導出する手法を提案する。 これにより、テキスト誘導画像と画像誘導画像の両方に対する高速で安定した画像操作が可能となる。 我々のモデルの適応性は、画像拡散モデルと潜在拡散モデルの両方で実装できる。 画像翻訳タスクにおいて,本手法が様々な最先端モデルを上回ることを示す実験を行った。

Diffusion models have shown significant progress in image translation tasks recently. However, due to their stochastic nature, there's often a trade-off between style transformation and content preservation. Current strategies aim to disentangle style and content, preserving the source image's structure while successfully transitioning from a source to a target domain under text or one-shot image conditions. Yet, these methods often require computationally intense fine-tuning of diffusion models or additional neural networks. To address these challenges, here we present an approach that guides the reverse process of diffusion sampling by applying asymmetric gradient guidance. This results in quicker and more stable image manipulation for both text-guided and image-guided image translation. Our model's adaptability allows it to be implemented with both image- and latent-diffusion models. Experiments show that our method outperforms various state-of-the-art models in image translation tasks.
翻訳日:2023-06-08 14:31:28 公開日:2023-06-07
# キャビティマグノメカニクスにおけるゲインアシスト制御可能な高速光発生

Gain assisted controllable fast light generation in cavity magnomechanics ( http://arxiv.org/abs/2306.04390v1 )

ライセンス: Link先を確認
Sanket Das, Subhadeep Chakraborty, Tarak N. Dey(参考訳) 2つの結合マイクロ波共振器からなるキャビティ磁気機械共振器システムから制御可能な出力場を生成する。 第1の空洞は強磁性イットリウム鉄ガーネット(YIG)球体と相互作用し、マグノン光子結合を与える。 受動キャビティ構成では、分散応答がアノロースであっても出力伝送を禁止し、高い吸収率を示す。 2番目の受動的空洞をアクティブな空洞に置き換え、高い吸収を克服し、システムに効果的な利得をもたらす。 我々はYIG球の変形が異常分散を保っていることを示す。 さらに、2つの共振器間の交換相互作用強度のチューニングは、システムの有効利得と分散応答に繋がる。 その結果、プローブパルスの増幅に伴う進行は、マグノメカニカル共鳴の近傍で制御できる。 さらに, 強度増幅のための上界の存在や, 安定状態から生じるプローブパルスの進行も確認した。 これらの結果はキャビティ・マグノメカニクスにおける光伝搬の制御に応用できる可能性がある。

We study the controllable output field generation from a cavity magnomechanical resonator system that consists of two coupled microwave resonators. The first cavity interacts with a ferromagnetic yttrium iron garnet (YIG) sphere providing the magnon-photon coupling. Under passive cavities configuration, the system displays high absorption, prohibiting output transmission even though the dispersive response is anamolous. We replace the second passive cavity with an active one to overcome high absorption, producing an effective gain in the system. We show that the deformation of the YIG sphere retains the anomalous dispersion. Further, tuning the exchange interaction strength between the two resonators leads to the system's effective gain and dispersive response. As a result, the advancement associated with the amplification of the probe pulse can be controlled in the close vicinity of the magnomechanical resonance. Furthermore, we find the existence of an upper bound for the intensity amplification and the advancement of the probe pulse that comes from the stability condition. These findings may find potential applications for controlling light propagation in cavity magnomechanics.
翻訳日:2023-06-08 14:31:16 公開日:2023-06-07
# M$^3$IT:マルチモーダル多言語指導チューニングに向けた大規模データセット

M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning ( http://arxiv.org/abs/2306.04387v1 )

ライセンス: Link先を確認
Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu(参考訳) インストラクションチューニングはChatGPTのような大きな言語モデル(LLM)が大幅に進歩し、様々なタスクにまたがる人間の命令と整合することを可能にする。 しかし、高品質な命令データセットの不足により、オープンビジョン言語モデル(VLM)の進歩は制限されている。 この課題に対処し、視覚言語分野の研究を促進するために、人間の指示によるVLMアライメントを最適化するために設計されたM$^3$IT(Multi-Modal, Multilingual Instruction Tuning)データセットを導入する。 私たちのm$^3$itデータセットは、240万のインスタンスと400の手作業によるタスク命令を含む40の注意深くキュレートされたデータセットで構成されています。 主要なタスクは80の言語に翻訳され、高度な翻訳システムにより幅広いアクセシビリティが保証される。 M$^3$ITは、タスクカバレッジ、命令番号、インスタンススケールに関する以前のデータセットを上回る。 さらに,我々のM$3$ITデータセットに基づいて訓練されたVLMモデルであるYing-VLMを開発し,世界的知識を必要とする複雑な疑問に答える可能性を示し,未確認のビデオタスクに一般化し,中国語で未知の指示を理解する。 さらなる研究を促進するため、データセットとトレーニングされたモデルの両方をオープンソース化しました。

Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M$^3$IT) dataset, designed to optimize VLM alignment with human instructions. Our M$^3$IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M$^3$IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M$^3$IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. To encourage further research, we have open-sourced both the dataset and trained models.
翻訳日:2023-06-08 14:31:01 公開日:2023-06-07
# SF-FSDA:効率的なラベル付きデータファクトリを用いたソースフリーFew-Shotドメイン適応オブジェクト検出

SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with Efficient Labeled Data Factory ( http://arxiv.org/abs/2306.04385v1 )

ライセンス: Link先を確認
Han Sun, Rui Gong, Konrad Schindler, Luc Van Gool(参考訳) ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしターゲットドメインのパフォーマンスを改善することを目的としています。 以前の作業は通常、適応のためにソースドメインデータへのアクセスと、ターゲットドメインで十分なデータを取得する必要がある。 しかし、これらの仮定はデータプライバシとまれなデータ収集のために成立しない可能性がある。 本稿では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案する。 この問題を解決するために,効率的なラベル付きデータファクトリベースのアプローチを開発した。 ソースドメインにアクセスせずに、データファクトリがレンダリングする 一 ターゲットドメインからの少数ショット画像サンプル及びテキスト記述の指導のもと、合成されたターゲットドメインのような画像の無限量 二 対応する有界ボックス及びカテゴリアノテーションであって、最小限の人的労力、すなわち、手動でラベル付けされたいくつかの例を要求すること。 一方、合成画像は、少ないショット条件によってもたらされる知識不足を緩和する。 一方、一般的な擬似ラベル技術と比較して、データファクトリから生成されたアノテーションは、ソース事前学習対象検出モデルへの依存をなくすだけでなく、ドメインシフトやソースフリー条件による避けられない擬似ラベルノイズを軽減する。 生成されたデータセットは、SF-FSDAの下で頑健なオブジェクト検出を実現するために、ソース事前訓練されたオブジェクト検出モデルに適応するためにさらに利用される。 その結果,提案手法はSF-FSDA問題における他の最先端手法よりも優れていることがわかった。 私たちのコードとモデルは公開されます。

Domain adaptive object detection aims to leverage the knowledge learned from a labeled source domain to improve the performance on an unlabeled target domain. Prior works typically require the access to the source domain data for adaptation, and the availability of sufficient data on the target domain. However, these assumptions may not hold due to data privacy and rare data collection. In this paper, we propose and investigate a more practical and challenging domain adaptive object detection problem under both source-free and few-shot conditions, named as SF-FSDA. To overcome this problem, we develop an efficient labeled data factory based approach. Without accessing the source domain, the data factory renders i) infinite amount of synthesized target-domain like images, under the guidance of the few-shot image samples and text description from the target domain; ii) corresponding bounding box and category annotations, only demanding minimum human effort, i.e., a few manually labeled examples. On the one hand, the synthesized images mitigate the knowledge insufficiency brought by the few-shot condition. On the other hand, compared to the popular pseudo-label technique, the generated annotations from data factory not only get rid of the reliance on the source pretrained object detection model, but also alleviate the unavoidably pseudo-label noise due to domain shift and source-free condition. The generated dataset is further utilized to adapt the source pretrained object detection model, realizing the robust object detection under SF-FSDA. The experiments on different settings showcase that our proposed approach outperforms other state-of-the-art methods on SF-FSDA problem. Our codes and models will be made publicly available.
翻訳日:2023-06-08 14:30:37 公開日:2023-06-07
# 多言語臨床NER : 翻訳か言語間移動か?

Multilingual Clinical NER: Translation or Cross-lingual Transfer? ( http://arxiv.org/abs/2306.04384v1 )

ライセンス: Link先を確認
Xavier Fontaine, F\'elix Gaschi, Parisa Rastin and Yannick Toussaint(参考訳) 非英語テキストにおける臨床領域における名前付きエンティティ認識(NER)のような自然言語タスクは、注釈付きデータがないため、非常に時間がかかる。 言語間移動(CLT)は、ある言語における特定のタスクに対して多言語大言語モデルを微調整し、他の言語における同じタスクに対して高い精度を提供する能力によって、この問題を回避する方法である。 しかし、他の翻訳モデルを利用した手法は、トレーニングセットやテストセットを翻訳することで、ターゲット言語で注釈付きデータなしでNERを実行することができる。 本稿では,言語間移動とこれら2つの代替手法を比較して,フランス語とドイツ語で臨床NERを行う。 そこで我々は,フランスの医薬品処方薬から抽出した医療用NERテストセットであるMedNERFを英語データセットと同じガイドラインでアノテートした。 このデータセットとドイツの医療データセット(Frei and Kramer, 2021)の広範な実験を通して, 翻訳に基づく手法はCLTと同等の性能を達成できるが, 設計にもっと注意が必要であることを示す。 モノリンガルな臨床言語モデルを利用することもできるが、言語間変換や翻訳のいずれにおいても、大規模な汎用多言語モデルよりも優れた結果が保証されない。

Natural language tasks like Named Entity Recognition (NER) in the clinical domain on non-English texts can be very time-consuming and expensive due to the lack of annotated data. Cross-lingual transfer (CLT) is a way to circumvent this issue thanks to the ability of multilingual large language models to be fine-tuned on a specific task in one language and to provide high accuracy for the same task in another language. However, other methods leveraging translation models can be used to perform NER without annotated data in the target language, by either translating the training set or test set. This paper compares cross-lingual transfer with these two alternative methods, to perform clinical NER in French and in German without any training data in those languages. To this end, we release MedNERF a medical NER test set extracted from French drug prescriptions and annotated with the same guidelines as an English dataset. Through extensive experiments on this dataset and on a German medical dataset (Frei and Kramer, 2021), we show that translation-based methods can achieve similar performance to CLT but require more care in their design. And while they can take advantage of monolingual clinical language models, those do not guarantee better results than large general-purpose multilingual models, whether with cross-lingual transfer or translation.
翻訳日:2023-06-08 14:30:07 公開日:2023-06-07
# 強化学習による対戦型2人ゲームレベルのバランス

Balancing of competitive two-player Game Levels with Reinforcement Learning ( http://arxiv.org/abs/2306.04429v1 )

ライセンス: Link先を確認
Florian Rupp, Manuel Eberhardinger, Kai Eckert(参考訳) 競合する2人プレイヤコンテキストにおけるゲームレベルのバランスのプロセスは、特に非対称ゲームレベルにおいて、多くの手作業とテストを含む。 本稿では,最近導入されたPCGRLフレームワーク(強化学習によるプロデューラルコンテンツ生成)におけるタイルレベルの自動バランスのためのアーキテクチャを提案する。 アーキテクチャは, (1) レベルジェネレータ, (2) バランスエージェント, (3) 報酬モデリングシミュレーションの3部に分かれている。 シミュレーションで繰り返しレベルを再生することにより、バランスエージェントは、すべてのプレイヤーに対して同じ勝利率に修正される。 そこで,本稿では,遊びやすさに対する堅牢性を高めるために,スワップベース表現の新たなファミリーを提案する。 このアプローチは,従来のpcgrlよりも早くバランスをとるためのレベルを変更する方法をエージェントに教えることができることを示す。 さらに,エージェントのスワップ動作を分析することで,どのタイルタイプが最もバランスに影響するかという結論を導き出すことができる。 NMMO(Neural MMO)環境を競合する2人プレイヤ環境でテストし,その結果を示す。

The balancing process for game levels in a competitive two-player context involves a lot of manual work and testing, particularly in non-symmetrical game levels. In this paper, we propose an architecture for automated balancing of tile-based levels within the recently introduced PCGRL framework (procedural content generation via reinforcement learning). Our architecture is divided into three parts: (1) a level generator, (2) a balancing agent and, (3) a reward modeling simulation. By playing the level in a simulation repeatedly, the balancing agent is rewarded for modifying it towards the same win rates for all players. To this end, we introduce a novel family of swap-based representations to increase robustness towards playability. We show that this approach is capable to teach an agent how to alter a level for balancing better and faster than plain PCGRL. In addition, by analyzing the agent's swapping behavior, we can draw conclusions about which tile types influence the balancing most. We test and show our results using the Neural MMO (NMMO) environment in a competitive two-player setting.
翻訳日:2023-06-08 14:22:03 公開日:2023-06-07
# Zambezi Voice: ザンビア語のための多言語音声コーパス

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages ( http://arxiv.org/abs/2306.04428v1 )

ライセンス: Link先を確認
Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos(参考訳) この研究はザンビア語のためのオープンソースの多言語音声リソースであるZambezi Voiceを紹介する。 ラジオニュースとトーク番組の音声録音(160時間以上)とラベル付きデータ(80時間以上)の2つのデータセットが含まれており、公開文学書から得られたテキストから記録された読み上げ音声で構成されている。 データセットは音声認識のために作成されるが、教師なしと教師なしの両方の学習アプローチで多言語音声処理の研究に拡張することができる。 我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。 我々は,wav2vec2.0の大規模多言語事前学習モデルを用いて,ベースラインモデルのためのエンドツーエンド(e2e)音声認識モデルを構築することにより,事前学習と言語間伝達学習を利用する。 データセットはCreative Commons BY-NC-ND 4.0ライセンスで公開されており、プロジェクトリポジトリからアクセスすることができる。 https://github.com/unza-speech-lab/zambezi-voiceを参照。

This work introduces Zambezi Voice, an open-source multilingual speech resource for Zambian languages. It contains two collections of datasets: unlabelled audio recordings of radio news and talk shows programs (160 hours) and labelled data (over 80 hours) consisting of read speech recorded from text sourced from publicly available literature books. The dataset is created for speech recognition but can be extended to multilingual speech processing research for both supervised and unsupervised learning approaches. To our knowledge, this is the first multilingual speech dataset created for Zambian languages. We exploit pretraining and cross-lingual transfer learning by finetuning the Wav2Vec2.0 large-scale multilingual pre-trained model to build end-to-end (E2E) speech recognition models for our baseline models. The dataset is released publicly under a Creative Commons BY-NC-ND 4.0 license and can be accessed through the project repository. See https://github.com/unza-speech-lab/zambezi-voice
翻訳日:2023-06-08 14:21:46 公開日:2023-06-07
# 安定平衡点を考慮した高性能探査データ解析(EDA)に向けて

Towards High-Performance Exploratory Data Analysis (EDA) Via Stable Equilibrium Point ( http://arxiv.org/abs/2306.04425v1 )

ライセンス: Link先を確認
Yuxuan Song, Yongyu Wang(参考訳) 探索的データ分析(EDA)は、データサイエンスプロジェクトにとって重要な手順である。 本研究では, 安定平衡点(sep)ベースのフレームワークを導入し, edaの効率と解の質を向上させる。 SEPを代表点として活用することにより,大規模データセットに対して高品質なクラスタリングとデータの可視化を実現する。 提案手法の非常にユニークな特性は、SEPがデータセットのクラスタリング特性を直接符号化することである。 従来のクラスタリングおよびデータ可視化手法と比較して,提案手法は大規模データ解析タスクの計算効率と解品質を大幅に向上させる。

Exploratory data analysis (EDA) is a vital procedure for data science projects. In this work, we introduce a stable equilibrium point (SEP) - based framework for improving the efficiency and solution quality of EDA. By exploiting the SEPs to be the representative points, our approach aims to generate high-quality clustering and data visualization for large-scale data sets. A very unique property of the proposed method is that the SEPs will directly encode the clustering properties of data sets. Compared with prior state-of-the-art clustering and data visualization methods, the proposed methods allow substantially improving computing efficiency and solution quality for large-scale data analysis tasks.
翻訳日:2023-06-08 14:21:28 公開日:2023-06-07
# 意見多様性の観点からの意見要約におけるバイアスの検討

Examining Bias in Opinion Summarisation Through the Perspective of Opinion Diversity ( http://arxiv.org/abs/2306.04424v1 )

ライセンス: Link先を確認
Nannan Huang, Lin Tian, Haytham Fayek, Xiuzhen Zhang(参考訳) 意見要約は、コアメッセージと意見を保持しながら、ソースドキュメントに提示された情報を集約することを目的としたタスクである。 多数意見のみを表す要約は、その要約に記載されていない少数意見を残す。 本稿では,ある目標に対する姿勢を意見として活用する。 本研究では, モデル生成要約が多様な意見を網羅できるかどうかを評価する, 意見多様性の観点から, 意見要約のバイアスについて検討する。 さらに, 意見類似性, 二つの意見が, ある話題に対するスタンスと, 意見多様性との関係において, どのように密接に関連しているかを考察した。 トピックに対する姿勢のレンズを通して、COVID-19下での3つの議論から、意見の多様性と類似性を検討する。 これらのトピックに関する実験結果から,意見の類似度が高いほど多様性が示されず,また原資料に提示された様々な意見をかなりカバーすることが明らかとなった。 我々は、BARTとChatGPTが、ソース文書で提示された多様な意見をよりよく捉えられることを発見した。

Opinion summarisation is a task that aims to condense the information presented in the source documents while retaining the core message and opinions. A summary that only represents the majority opinions will leave the minority opinions unrepresented in the summary. In this paper, we use the stance towards a certain target as an opinion. We study bias in opinion summarisation from the perspective of opinion diversity, which measures whether the model generated summary can cover a diverse set of opinions. In addition, we examine opinion similarity, a measure of how closely related two opinions are in terms of their stance on a given topic, and its relationship with opinion diversity. Through the lens of stances towards a topic, we examine opinion diversity and similarity using three debatable topics under COVID-19. Experimental results on these topics revealed that a higher degree of similarity of opinions did not indicate good diversity or fairly cover the various opinions originally presented in the source documents. We found that BART and ChatGPT can better capture diverse opinions presented in the source documents.
翻訳日:2023-06-08 14:21:19 公開日:2023-06-07
# 最適ツリーアンサンブルの計算について

On Computing Optimal Tree Ensembles ( http://arxiv.org/abs/2306.04423v1 )

ライセンス: Link先を確認
Christian Komusiewicz, Pascal Kunz, Frank Sommer and Manuel Sorge(参考訳) ランダム林やより一般的には(決定的)ノブレイクダッシュ-(ツリーアンサンブルは分類と回帰のために広く使われている。 最近のアルゴリズムの進歩は、そのサイズや深さなどの様々な測定に最適な決定木を計算することができる。 我々は、このような樹木アンサンブルの研究を意識しておらず、この領域に貢献することを目指している。 主に2つの新しいアルゴリズムとそれに対応する下限を提供する。 まず、決定木に対するトラクタビリティの結果を大幅に改善し、$(6\delta D S)^S \cdot poly$-timeアルゴリズムを得ることができ、ここでは$S$はツリーアンサンブルのカット数、$D$は最大のドメインサイズ、$\delta$は2つの例が異なる最大の特徴数である。 これを実現するために,実演にも有望と思われる証人ツリー手法を紹介する。 第2に、決定木で成功した動的プログラミングは、ツリーアンサンブルでも実行可能な可能性を示し、$\ell^n \cdot poly$-timeアルゴリズムを提供し、$\ell$は木の数、$n$は例の数である。 最後に、決定木と木アンサンブルのトレーニングデータセットの分類に必要なカット数を比較し、アンサンブルが木数を増やすために指数関数的に少ないカットを必要とすることを示す。

Random forests and, more generally, (decision\nobreakdash-)tree ensembles are widely used methods for classification and regression. Recent algorithmic advances allow to compute decision trees that are optimal for various measures such as their size or depth. We are not aware of such research for tree ensembles and aim to contribute to this area. Mainly, we provide two novel algorithms and corresponding lower bounds. First, we are able to carry over and substantially improve on tractability results for decision trees, obtaining a $(6\delta D S)^S \cdot poly$-time algorithm, where $S$ is the number of cuts in the tree ensemble, $D$ the largest domain size, and $\delta$ is the largest number of features in which two examples differ. To achieve this, we introduce the witness-tree technique which also seems promising for practice. Second, we show that dynamic programming, which has been successful for decision trees, may also be viable for tree ensembles, providing an $\ell^n \cdot poly$-time algorithm, where $\ell$ is the number of trees and $n$ the number of examples. Finally, we compare the number of cuts necessary to classify training data sets for decision trees and tree ensembles, showing that ensembles may need exponentially fewer cuts for increasing number of trees.
翻訳日:2023-06-08 14:21:00 公開日:2023-06-07
# 小児喘息の治療接着性を改善するためのソーシャルロボット

Social robots to improve therapeutic adherence in pediatric asthma ( http://arxiv.org/abs/2306.04422v1 )

ライセンス: Link先を確認
Laura Montalbano, Agnese Augello, Giovanni Pilato, Stefania La Grutta(参考訳) 慢性疾患では、正しい診断を受け、最も適切な治療を与えるだけでは、患者の臨床状態の改善を保証するには不十分である。 医薬処方への不服従は、治療目標の達成を妨げる主要な原因の1つである。 これは特に小児のような特定の疾患や特定の対象患者に当てはまる。 エンゲージメントとエンターテイメント技術は、より良い健康的な結果を達成するための臨床実践を支援するために活用することができる。 従来の治療教育の方法に比べ,ヒューマノイドロボットによるゲーム化セッションは,喘息の患児の正しい吸入手順を学習する上で,より切迫性が高いと仮定した。 この観点からは,Pepperロボットプラットフォーム上に実装されたインタラクティブモジュールと,パレルモのCNR小児科病院で2020年に実施予定の研究のセッティングについて述べる。 この研究は、パンデミックとその後の常設診療所の閉鎖により中止された。 我々の長期的な目標は,質的質的調査計画を用いて,このような教育的行動の影響を評価し,治療への順応性の向上の可能性を評価することである。

In chronic diseases, obtaining a correct diagnosis and providing the most appropriate treatments often is not enough to guarantee an improvement of the clinical condition of a patient. Poor adherence to medical prescriptions constitutes one of the main causes preventing achievement of therapeutic goals. This is generally true especially for certain diseases and specific target patients, such as children. An engaging and entertaining technology can be exploited in support of clinical practices to achieve better health outcomes. Our assumption is that a gamified session with a humanoid robot, compared to the usual methodologies for therapeutic education, can be more incisive in learning the correct inhalation procedure in children affected by asthma. In this perspective, we describe an interactive module implemented on the Pepper robotic platform and the setting of a study that was planned in 2020 to be held at the Pneumoallergology Pediatric clinic of CNR in Palermo. The study was canceled due to the pandemic and the subsequent and permanent closure of the clinic. Our long-term goal is to assess, by means of a qualitative-quantitative survey plan, the impact of such an educational action, evaluating possible improvement in the adherence to the treatment.
翻訳日:2023-06-08 14:20:36 公開日:2023-06-07
# ハイブリッド量子古典探索空間削減ヒューリスティックのための電気自動車充電・ルーティング問題の定式化

Formulation of the Electric Vehicle Charging and Routing Problem for a Hybrid Quantum-Classical Search Space Reduction Heuristic ( http://arxiv.org/abs/2306.04414v1 )

ライセンス: Link先を確認
M. Garcia de Andoin, A. Bottarelli, S. Schmitt, I. Oregi, P. Hauke and M. Sanz(参考訳) 近年、組合せ最適化問題は量子コンピューティングコミュニティの関心を惹きつけており、量子優位を示すためのテストベッドとしての可能性を秘めている。 本稿では,制約量子最適化のためのアルゴリズム構築のために,量子情報のマルチレベルキャリア – キューディット – を利用する方法を示す。 これらのシステムは量子最適化の文脈で最近導入され、通常量子ビット系にマッピングされる問題よりも一般的な問題を扱うことができる。 特に,制約付き解のサンプル化を可能にしつつ,問題の探索空間を大幅に削減し,より少ない量子資源の利用を最適化するハイブリッドな古典的量子ヒューリスティック戦略を提案する。 一例として、電気自動車の充電・ルーティング問題(EVCRP)に焦点を当てる。 我々は古典的な問題を量子システムに変換し、我々の手法の有効性を示すおもちゃの例で有望な結果を得る。

Combinatorial optimization problems have attracted much interest in the quantum computing community in the recent years as a potential testbed to showcase quantum advantage. In this paper, we show how to exploit multilevel carriers of quantum information -- qudits -- for the construction of algorithms for constrained quantum optimization. These systems have been recently introduced in the context of quantum optimization and they allow us to treat more general problems than the ones usually mapped into qubit systems. In particular, we propose a hybrid classical quantum heuristic strategy that allows us to sample constrained solutions while greatly reducing the search space of the problem, thus optimizing the use of fewer quantum resources. As an example, we focus on the Electric Vehicle Charging and Routing Problem (EVCRP). We translate the classical problem and map it into a quantum system, obtaining promising results on a toy example which shows the validity of our technique.
翻訳日:2023-06-08 14:20:16 公開日:2023-06-07
# 潜在空間における消音拡散を伴う現実的な砂集合体の合成

Synthesizing realistic sand assemblies with denoising diffusion in latent space ( http://arxiv.org/abs/2306.04411v1 )

ライセンス: Link先を確認
Nikolaos N. Vlassis, WaiChing Sun, Khalid A. Alshibli, Richard A. Regueiro(参考訳) 砂の集合体の粒の形状と形態は、地球工学、コンピュータアニメーション、石油工学、集中太陽エネルギーなど、多くの工学的応用に広く影響している。 しかし、高品質な3次元粒度データしか得られないため、マクロな応答に対する粒度の影響に対する我々の理解は定性的であることが多い。 本稿では,個々の砂粒の表面から収集した点雲の集合を用いて,潜時空間で粒子を生成するデノナイズ拡散アルゴリズムを提案する。 点雲オートエンコーダを用いることで、砂粒の3次元点雲構造をまず低次元の潜在空間に符号化する。 Kullback-Leiblerの発散によって測定された原データ分布に属する生成試料の対数類似度を最大化する合成砂を生成するために、生成脱雑音拡散確率モデルを訓練する。 数値実験により,f50サンドデータベースから推定した訓練データと一致した形状,形状,大きさの現実的な粒を生成できることが示唆された。 次に, 剛体接触動的シミュレータを用いて, 拘束体積内に合成砂を流し込み, ターゲット分布特性を有する静的平衡状態における粒状集合体を形成する。 サードパーティによる検証を確実にするため、F50砂の5万個の合成砂粒と1,542個の実シンクロトロンマイクロ計算トモグラフィー(SMT)スキャン、および合成砂粒からなる粒状集合体をオープンソースリポジトリで利用できる。

The shapes and morphological features of grains in sand assemblies have far-reaching implications in many engineering applications, such as geotechnical engineering, computer animations, petroleum engineering, and concentrated solar power. Yet, our understanding of the influence of grain geometries on macroscopic response is often only qualitative, due to the limited availability of high-quality 3D grain geometry data. In this paper, we introduce a denoising diffusion algorithm that uses a set of point clouds collected from the surface of individual sand grains to generate grains in the latent space. By employing a point cloud autoencoder, the three-dimensional point cloud structures of sand grains are first encoded into a lower-dimensional latent space. A generative denoising diffusion probabilistic model is trained to produce synthetic sand that maximizes the log-likelihood of the generated samples belonging to the original data distribution measured by a Kullback-Leibler divergence. Numerical experiments suggest that the proposed method is capable of generating realistic grains with morphology, shapes and sizes consistent with the training data inferred from an F50 sand database . We then use a rigid contact dynamic simulator to pour the synthetic sand in a confined volume to form granular assemblies in a static equilibrium state with targeted distribution properties. To ensure third-party validation, 50,000 synthetic sand grains and the 1,542 real synchrotron microcomputed tomography (SMT) scans of the F50 sand, as well as the granular assemblies composed of synthetic sand grains are made available in an open-source repository.
翻訳日:2023-06-08 14:20:01 公開日:2023-06-07
# 逆変調STDPを用いたスパイクニューラルネットワークのメタラーニング

Meta-Learning in Spiking Neural Networks with Reward-Modulated STDP ( http://arxiv.org/abs/2306.04410v1 )

ライセンス: Link先を確認
Arsham Gholamzadeh Khoee, Alireza Javaheri, Saeed Reza Kheradpisheh and Mohammad Ganjtabesh(参考訳) 人間の脳は常に学習し、獲得した知識と経験を記憶に統合することで新しい状況に迅速に適応する。 この能力を機械学習モデルで開発することは、ディープニューラルネットワークが限られたデータがある場合や、新しい目に見えないタスクに迅速に適応する必要がある場合など、AI研究の重要な目標であると考えられている。 メタラーニングモデルは、過去から吸収された情報を利用することで、低データ体制での迅速な学習を容易にするために提案されている。 近年、高性能レベルに達するモデルがいくつか導入されているが、生物学的には不可能である。 本研究では,報奨型学習システムを用いたスパイキングニューラルネットワークを用いて,海馬と前頭前野に触発された生体感性メタラーニングモデルを提案する。 提案モデルでは,メタラーニングモデルが新たなタスクの開始と同時に学習したことを忘れてしまう現象である,破滅的忘れを防止するためのメモリを含む。 また,この新しいモデルはスパイクベースのニューロモルフィックデバイスに容易に適用でき,ニューロモルフィックハードウェアでの高速学習を可能にする。 最終分析では,限定的な分類課題を解決するためのモデルの意義と予測について論じる。 これらの課題を解決する上で,本モデルは,既存の最先端のメタ学習技術と競合する能力を示した。

The human brain constantly learns and rapidly adapts to new situations by integrating acquired knowledge and experiences into memory. Developing this capability in machine learning models is considered an important goal of AI research since deep neural networks perform poorly when there is limited data or when they need to adapt quickly to new unseen tasks. Meta-learning models are proposed to facilitate quick learning in low-data regimes by employing absorbed information from the past. Although some models have recently been introduced that reached high-performance levels, they are not biologically plausible. We have proposed a bio-plausible meta-learning model inspired by the hippocampus and the prefrontal cortex using spiking neural networks with a reward-based learning system. Our proposed model includes a memory designed to prevent catastrophic forgetting, a phenomenon that occurs when meta-learning models forget what they have learned as soon as the new task begins. Also, our new model can easily be applied to spike-based neuromorphic devices and enables fast learning in neuromorphic hardware. The final analysis will discuss the implications and predictions of the model for solving few-shot classification tasks. In solving these tasks, our model has demonstrated the ability to compete with the existing state-of-the-art meta-learning techniques.
翻訳日:2023-06-08 14:19:36 公開日:2023-06-07
# 不均一量子・電子技術のための直接結合ダイヤモンド膜

Direct-bonded diamond membranes for heterogeneous quantum and electronic technologies ( http://arxiv.org/abs/2306.04408v1 )

ライセンス: Link先を確認
Xinghan Guo (1), Mouzhe Xie (1), Anchita Addhya (1), Avery Linder (1), Uri Zvi (1), Tanvi D. Deshmukh (2), Yuzi Liu (3), Ian N. Hammock (1), Zixi Li (1), Clayton T. DeVault (1 and 4), Amy Butcher (1), Aaron P. Esser-Kahn (1), David D. Awschalom (1 and 2 and 4), Nazar Delegan (1 and 4), Peter C. Maurer (1 and 4), F. Joseph Heremans (1 and 4), Alexander A. High (1 and 4) ((1) Pritzker School of Molecular Engineering, University of Chicago, (2) Department of Physics, University of Chicago, (3) Center for Nanoscale Materials, Argonne National Laboratory, (4) Center for Molecular Engineering and Materials Science Division, Argonne National Laboratory)(参考訳) ダイヤモンドは、幅広い量子および電子技術の材料特性を最上位に挙げている。 しかし、単結晶ダイヤモンドのヘテロエピタキシャル成長は限定的であり、ダイヤモンドベースの技術の融合と進化を妨げる。 ここでは,単結晶ダイヤモンド膜をシリコン,溶融シリカ,サファイア,熱酸化物,ニオブ酸リチウムなどの多種多様な材料と直接結合する。 膜合成, 移動, 乾物表面機能化をカスタマイズし, 最小限の汚染を許容し, ほぼ均一な収率とスケーラビリティのための経路を提供する。 膜厚10nm, サブnm界面領域, ナノメートル径200×200.mu}m2領域の厚さ可変性を有する接着結晶膜を作製した。 本稿では,高品位ナノフォトニックキャビティとダイヤモンドヘテロ構造を統合する複数の方法を示し,量子フォトニック応用におけるプラットフォーム汎用性を強調した。 さらに,我々の極薄ダイヤモンド膜は全内部反射蛍光顕微鏡(tirf)と互換性があり,不必要な背景発光を拒絶しながらコヒーレントダイヤモンド量子センサと生体細胞との干渉を可能にする。 ここで実証されたプロセスは、量子および電子技術のための異種ダイヤモンドベースのハイブリッドシステムを合成するための完全なツールキットを提供する。

Diamond has superlative material properties for a broad range of quantum and electronic technologies. However, heteroepitaxial growth of single crystal diamond remains limited, impeding integration and evolution of diamond-based technologies. Here, we directly bond single-crystal diamond membranes to a wide variety of materials including silicon, fused silica, sapphire, thermal oxide, and lithium niobate. Our bonding process combines customized membrane synthesis, transfer, and dry surface functionalization, allowing for minimal contamination while providing pathways for near unity yield and scalability. We generate bonded crystalline membranes with thickness as low as 10 nm, sub-nm interfacial regions, and nanometer-scale thickness variability over 200 by 200 {\mu}m2 areas. We demonstrate multiple methods for integrating high quality factor nanophotonic cavities with the diamond heterostructures, highlighting the platform versatility in quantum photonic applications. Furthermore, we show that our ultra-thin diamond membranes are compatible with total internal reflection fluorescence (TIRF) microscopy, which enables interfacing coherent diamond quantum sensors with living cells while rejecting unwanted background luminescence. The processes demonstrated herein provide a full toolkit to synthesize heterogeneous diamond-based hybrid systems for quantum and electronic technologies.
翻訳日:2023-06-08 14:19:15 公開日:2023-06-07
# 初期化・ロバスト性保証によるトレーニングフリーニューラルアクティブラーニング

Training-Free Neural Active Learning with Initialization-Robustness Guarantees ( http://arxiv.org/abs/2306.04454v1 )

ライセンス: Link先を確認
Apivich Hemachandra, Zhongxiang Dai, Jasraj Singh, See-Kiong Ng and Bryan Kian Hsiang Low(参考訳) 既存のニューラルネットワーク能動学習アルゴリズムは、ラベル付けのためのデータを選択することによって、ニューラルネットワーク(NN)の予測性能を最適化することを目的としている。 しかし、優れた予測性能以外に、ランダムパラメータの初期化に対して堅牢であることは、安全クリティカルなアプリケーションにおいて重要な要件である。 この目的のために、我々は、理論上、訓練されたNNの双方に導かれるデータポイントを選択することが保証される、ニューラルアクティブラーニングのためのガウス過程(EV-GP)基準との予測分散を導入する。 (a)良好な予測性能及び (b)初期化の堅牢性。 重要なことは、当社のEV-GP基準は、トレーニング不要、すなわち、データ選択中にNNのトレーニングを一切必要とせず、計算的に効率的であることです。 我々のEV-GP基準は初期化ロバスト性と一般化性能の両方と高い相関性を示し、デシダラタの両面において、特に初期データやバッチサイズが限られている状況において、ベースライン法を一貫して上回っていることを示す。

Existing neural active learning algorithms have aimed to optimize the predictive performance of neural networks (NNs) by selecting data for labelling. However, other than a good predictive performance, being robust against random parameter initializations is also a crucial requirement in safety-critical applications. To this end, we introduce our expected variance with Gaussian processes (EV-GP) criterion for neural active learning, which is theoretically guaranteed to select data points which lead to trained NNs with both (a) good predictive performances and (b) initialization robustness. Importantly, our EV-GP criterion is training-free, i.e., it does not require any training of the NN during data selection, which makes it computationally efficient. We empirically demonstrate that our EV-GP criterion is highly correlated with both initialization robustness and generalization performance, and show that it consistently outperforms baseline methods in terms of both desiderata, especially in situations with limited initial data or large batch sizes.
翻訳日:2023-06-08 14:13:32 公開日:2023-06-07
# 多モード潜伏拡散

Multi-modal Latent Diffusion ( http://arxiv.org/abs/2306.04445v1 )

ライセンス: Link先を確認
Mustapha Bounoua, Giulio Franzese, Pietro Michiardi(参考訳) マルチモーダルデータセットは、現代のアプリケーションにおいてユビキタスであり、マルチモーダル変分オートエンコーダは、異なるモダリティの結合表現を学ぶことを目的とした、人気のあるモデルファミリである。 しかし、既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルにはモダリティ間の生成コヒーレンスがない。 我々は、異なるアプローチの必要性を動機付けるため、既存のメソッドの不十分なパフォーマンスの基礎となる制限について議論する。 独立に訓練された一様決定論的オートエンコーダを用いた新しい手法を提案する。 個々の潜在変数は共通の潜在空間に結合され、生成的モデリングを可能にするためにマスク拡散モデルに供給される。 また,マルチモーダル拡散のための条件付スコアネットワークを学習するマルチタイムトレーニング手法を提案する。 提案手法は, 幅広い実験キャンペーンで示されるように, 世代品質と一貫性の両方において, 競争相手を実質的に上回っている。

Multi-modal data-sets are ubiquitous in modern applications, and multi-modal Variational Autoencoders are a popular family of models that aim to learn a joint representation of the different modalities. However, existing approaches suffer from a coherence-quality tradeoff, where models with good generation quality lack generative coherence across modalities, and vice versa. We discuss the limitations underlying the unsatisfactory performance of existing methods, to motivate the need for a different approach. We propose a novel method that uses a set of independently trained, uni-modal, deterministic autoencoders. Individual latent variables are concatenated into a common latent space, which is fed to a masked diffusion model to enable generative modeling. We also introduce a new multi-time training method to learn the conditional score network for multi-modal diffusion. Our methodology substantially outperforms competitors in both generation quality and coherence, as shown through an extensive experimental campaign.
翻訳日:2023-06-08 14:12:33 公開日:2023-06-07
# ランダム射影による高速最適局所的平均推定

Fast Optimal Locally Private Mean Estimation via Random Projections ( http://arxiv.org/abs/2306.04444v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Jelani Nelson, Huy L. Nguyen, Kunal Talwar(参考訳) ユークリッド球における高次元ベクトルの局所的プライベート平均推定の問題について検討する。 この問題に対する既存のアルゴリズムは、サブオプティマイズエラーを引き起こすか、通信や実行時の複雑さが高い。 本稿では,計算効率が高く,通信の複雑度が低く,最大1+o(1)$-factorの誤差が生じるアルゴリズムをプライベート平均推定のために提案するアルゴリズムフレームワークであるProjUnitを提案する。 各ランダム化器はその入力をランダムな低次元部分空間に投影し、結果を正規化し、低次元空間においてPrivUnitGのような最適なアルゴリズムを実行する。 また,デバイス間でランダムな投影行列を適切に関連付けることで,高速なサーバ実行を実現することができることを示す。 ランダム射影の性質の観点からアルゴリズムの誤差を数学的に解析し、2つのインスタンス化の研究を行った。 最後に,私的平均推定および私的フェデレート学習実験により,我々のアルゴリズムは,通信コストと計算コストを大幅に低減しつつ,最適値とほぼ同一の効用を実証的に得ることを示した。

We study the problem of locally private mean estimation of high-dimensional vectors in the Euclidean ball. Existing algorithms for this problem either incur sub-optimal error or have high communication and/or run-time complexity. We propose a new algorithmic framework, ProjUnit, for private mean estimation that yields algorithms that are computationally efficient, have low communication complexity, and incur optimal error up to a $1+o(1)$-factor. Our framework is deceptively simple: each randomizer projects its input to a random low-dimensional subspace, normalizes the result, and then runs an optimal algorithm such as PrivUnitG in the lower-dimensional space. In addition, we show that, by appropriately correlating the random projection matrices across devices, we can achieve fast server run-time. We mathematically analyze the error of the algorithm in terms of properties of the random projections, and study two instantiations. Lastly, our experiments for private mean estimation and private federated learning demonstrate that our algorithms empirically obtain nearly the same utility as optimal ones while having significantly lower communication and computational cost.
翻訳日:2023-06-08 14:12:13 公開日:2023-06-07
# STEPS:シークエンシャルタスクにおける順序推論のベンチマーク

STEPS: A Benchmark for Order Reasoning in Sequential Tasks ( http://arxiv.org/abs/2306.04441v1 )

ライセンス: Link先を確認
Weizhi Wang, Hong Wang, Xifeng Yan(参考訳) 様々な人間の活動は、自然のテキスト、すなわち料理、修理、製造などの一連の行動に抽象化することができる。 このようなアクションシーケンスは実行順序に大きく依存するが、アクションシーケンスの障害はロボットやAIエージェントによるさらなるタスク実行の失敗につながる。 そこで我々は,現在のニューラルモデルの逐次的タスクにおける順序推論能力を検証するために,STEPSと呼ばれる挑戦的なベンチマークを提案する。 ステップには2つのサブタスク設定があり、レシピにおける次のステップの合理性の決定と、マルチチョイス質問から合理的なステップを選択することに焦点を当てている。 データ構築とタスクの定式化について述べ,LLM(Large Language Models)のほとんどをベンチマークする。 実験結果は 1) シーケンシャルタスクにおける行動順序の常識的推論は, LLMのゼロショットプロンプトや少数ショットインコンテキスト学習を通じて解決することが困難である。 2) STEPS のチューニング法は, いまだにかなり遅れている。

Various human activities can be abstracted into a sequence of actions in natural text, i.e. cooking, repairing, manufacturing, etc. Such action sequences heavily depend on the executing order, while disorder in action sequences leads to failure of further task execution by robots or AI agents. Therefore, to verify the order reasoning capability of current neural models in sequential tasks, we propose a challenging benchmark , named STEPS. STEPS involves two subtask settings, focusing on determining the rationality of given next step in recipes and selecting the reasonable step from the multi-choice question, respectively. We describe the data construction and task formulations, and benchmark most of significant Large Language Models (LLMs). The experimental results demonstrate 1) The commonsense reasoning of action orders in sequential tasks are challenging to resolve via zero-shot prompting or few-shot in-context learning for LLMs; 2) Prompting method still significantly lags behind tuning-based method on STEPS.
翻訳日:2023-06-08 14:11:52 公開日:2023-06-07
# 計画の自己モデルとしてのデュアルポリシー

Dual policy as self-model for planning ( http://arxiv.org/abs/2306.04440v1 )

ライセンス: Link先を確認
Jaesung Yoo, Fernanda de la Torre, Robert Guangyu Yang(参考訳) プランニングはデータ効率の良い意思決定戦略であり、エージェントが潜在的な将来の状態を探索して候補アクションを選択する。 高次元のアクション空間が存在する場合の将来の状態をシミュレートするためには、探索すべきアクションの数を制限するために、自分の意思決定戦略の知識を使わなければならない。 エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。 自己モデルは世界モデルと協調して行動計画に広く利用されているが、自己モデルがどのように設計されるべきかは定かではない。 現在の強化学習アプローチと神経科学に触発され、蒸留政策ネットワークを自己モデルとして用いる利点と限界を探求する。 このような二重政治エージェントでは、モデルフリーの政策と蒸留された政策がそれぞれモデルフリーの行動と計画された行動に使用される。 本研究は, 自己モデル構築のための蒸留政策ネットワークが訓練を安定させ, モデルフリー政策よりも高速な推論を行い, より優れた探索を行い, モデルフリー政策とは別に新たなネットワークを蒸留するコストで, 自己行動の包括的理解を学べることを示した。

Planning is a data efficient decision-making strategy where an agent selects candidate actions by exploring possible future states. To simulate future states when there is a high-dimensional action space, the knowledge of one's decision making strategy must be used to limit the number of actions to be explored. We refer to the model used to simulate one's decisions as the agent's self-model. While self-models are implicitly used widely in conjunction with world models to plan actions, it remains unclear how self-models should be designed. Inspired by current reinforcement learning approaches and neuroscience, we explore the benefits and limitations of using a distilled policy network as the self-model. In such dual-policy agents, a model-free policy and a distilled policy are used for model-free actions and planned actions, respectively. Our results on a ecologically relevant, parametric environment indicate that distilled policy network for self-model stabilizes training, has faster inference than using model-free policy, promotes better exploration, and could learn a comprehensive understanding of its own behaviors, at the cost of distilling a new network apart from the model-free policy.
翻訳日:2023-06-08 14:11:34 公開日:2023-06-07
# 大衆文化における拡張現実のビジョン:世界がスクリーンになるときの力と(読めない)アイデンティティ

Visions of augmented reality in popular culture: Power and (un)readable identities when the world becomes a screen ( http://arxiv.org/abs/2306.04434v1 )

ライセンス: Link先を確認
Marianne Gunderson(参考訳) デジタルオブジェクトがオーバーレイされ、通常のビジュアルサーフェスと組み合わせられる拡張現実(augmented reality)は、デジタルの未来におけるビジョンの一部であり、急速に発展している技術である。 本稿では,拡張現実の3つのポップカルチャー的ビジョンに,視線と力がどのようにコード化されているかを検討する。 本論文は, ファミニズム理論の演出性, 知性, 可視性, 人種, ジェンダー付き視線, アルゴリズム的ノルマティビティに関するレンズを通して, SFにおける拡張現実の表現を分析し, 視覚技術としての拡張現実の批判的理解と, 可能ノルムやパワー関係の変化や強化について述べる。 スクリーンに境界がなくなった未来では、協力的でも嫌がる体にも、性別や人種的なデジタルマーカーが刻まれている。 フェミニスト理論を通じて、拡張現実のビジョンを読むことで、拡張現実技術は人々、談話、テクノロジーの集まりになり、そこでは俳優が必ずしも概要を持っていない。 これらの集合において、拡張現実は、アイデンティティ、階層的関係、およびスクリプトの社会的相互作用を体系化する知性のグリッドを形成することによって、実行的で規範的な役割を担っている。

Augmented reality, where digital objects are overlaid and combined with the ordinary visual surface, is a technology under rapid development, which has long been a part of visions of the digital future. In this article, I examine how gaze and power are coded into three pop-cultural visions of augmented reality. By analyzing representations of augmented reality in science fiction through the lens of feminist theory on performativity and intelligibility, visibility and race, gendered gaze, and algorithmic normativity, this paper provides a critical understanding of augmented reality as a visual technology, and how it might change or reinforce possible norms and power relations. In these futures where the screen no longer has any boundaries, both cooperative and reluctant bodies are inscribed with gendered and racialized digital markers. Reading visions of augmented reality through feminist theory, I argue that augmented reality technologies enter into assemblages of people, discourses, and technologies, where none of the actors necessarily has an overview. In these assemblages, augmented reality takes on a performative and norm-bearing role, by forming a grid of intelligibility that codifies identities, structures hierarchical relationships, and scripts social interactions.
翻訳日:2023-06-08 14:11:13 公開日:2023-06-07
# 教師なし領域適応に基づくクロスデータベースとクロスチャネル心電図不整脈分類

Cross-Database and Cross-Channel ECG Arrhythmia Heartbeat Classification Based on Unsupervised Domain Adaptation ( http://arxiv.org/abs/2306.04433v1 )

ライセンス: Link先を確認
Md Niaz Imtiaz and Naimul Khan(参考訳) 心電図(ECG)の分類は,自動心血管診断システムの開発において重要な役割を担っている。 しかし、個人間のECG信号のかなりのばらつきは大きな課題である。 モデルのクロスドメイン利用に対するデータ分散制限の変化。 本研究では,ラベル付きソースドメインから得られた知識を活用して,ラベル付きデータセットでECGを分類する手法を提案する。 ドメイン間の特徴差の最適化に基づくドメイン適応型ディープネットワークを提案する。 本手法は,事前学習,クラスタ中心計算,適応の3段階からなる。 事前トレーニングでは、最悪のトレーニング損失を解消するために、分散ロバスト最適化(DRO)技術を用いる。 特徴の豊かさを高めるために,3つの時間的特徴と深層学習特徴を結合する。 クラスタコンピューティングの段階は、信頼できる予測を使用して、真のラベルを使用して、ソースに対して明確に分離可能なクラスタのセンタロイドを計算することである。 対象領域における自信のある予測を選択する新しい手法を提案する。 適応段階では、同一クラスタ内の損失を最小化し、異なるクラスタ間で損失を分離し、ドメイン間クラスタ間の損失を解消し、ドメインロバストモデルを作成する。 クロスドメインとクロスチャネルの両方の実験により,提案手法の有効性が示された。 心室異所性ビート(V),上室異所性ビート(S),融合ビート(F)の検出において,他の最先端手法と比較して優れた性能を示した。 本手法は,3つのテストデータセット上での非ドメイン適応ベースライン法よりも平均11.78%の精度向上を実現する。

The classification of electrocardiogram (ECG) plays a crucial role in the development of an automatic cardiovascular diagnostic system. However, considerable variances in ECG signals between individuals is a significant challenge. Changes in data distribution limit cross-domain utilization of a model. In this study, we propose a solution to classify ECG in an unlabeled dataset by leveraging knowledge obtained from labeled source domain. We present a domain-adaptive deep network based on cross-domain feature discrepancy optimization. Our method comprises three stages: pre-training, cluster-centroid computing, and adaptation. In pre-training, we employ a Distributionally Robust Optimization (DRO) technique to deal with the vanishing worst-case training loss. To enhance the richness of the features, we concatenate three temporal features with the deep learning features. The cluster computing stage involves computing centroids of distinctly separable clusters for the source using true labels, and for the target using confident predictions. We propose a novel technique to select confident predictions in the target domain. In the adaptation stage, we minimize compacting loss within the same cluster, separating loss across different clusters, inter-domain cluster discrepancy loss, and running combined loss to produce a domain-robust model. Experiments conducted in both cross-domain and cross-channel paradigms show the efficacy of the proposed method. Our method achieves superior performance compared to other state-of-the-art approaches in detecting ventricular ectopic beats (V), supraventricular ectopic beats (S), and fusion beats (F). Our method achieves an average improvement of 11.78% in overall accuracy over the non-domain-adaptive baseline method on the three test datasets.
翻訳日:2023-06-08 14:10:46 公開日:2023-06-07
# 忠実な知識蒸留

Faithful Knowledge Distillation ( http://arxiv.org/abs/2306.04431v1 )

ライセンス: Link先を確認
Tom A. Lamb, Rudy Brunel, Krishnamurthy (Dj) Dvijotham, M. Pawan Kumar, Philip H. S. Torr, Francisco Eiras(参考訳) 知識蒸留(KD)は、資源の制約されたシステムへの展開を可能にするために、ネットワークの圧縮に成功したため、多くの注目を集めている。 対角的堅牢性の問題は、KD設定において以前にも研究されてきたが、従来の研究は、教師に対する学生ネットワークの相対的キャリブレーションをソフトな自信の観点から見落としている。 特に,教師と学生のペアに関する2つの重要な質問に焦点をあてる。 i)教師と学生は、正しく分類されたデータセットの例に近い点で意見が一致しないか。 (ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか? これらは、安全クリティカルな環境でロバストな教師から訓練された小さな学生ネットワークの配置を考えるとき、重要な問題である。 そこで本研究では,自信の相対的校正を議論するための忠実な模倣枠組みと,教師の相対校正を評価するための経験的・認定的手法を提案する。 さらに, 生徒の相対校正インセンティブと教師の校正インセンティブを確実に一致させるために, 忠実蒸留を導入する。 MNISTおよびFashion-MNISTデータセットに関する実験は、このような分析の必要性と、代替対角蒸留法に対する忠実蒸留の有効性の増大の利点を示している。

Knowledge distillation (KD) has received much attention due to its success in compressing networks to allow for their deployment in resource-constrained systems. While the problem of adversarial robustness has been studied before in the KD setting, previous works overlook what we term the relative calibration of the student network with respect to its teacher in terms of soft confidences. In particular, we focus on two crucial questions with regard to a teacher-student pair: (i) do the teacher and student disagree at points close to correctly classified dataset examples, and (ii) is the distilled student as confident as the teacher around dataset examples? These are critical questions when considering the deployment of a smaller student network trained from a robust teacher within a safety-critical setting. To address these questions, we introduce a faithful imitation framework to discuss the relative calibration of confidences, as well as provide empirical and certified methods to evaluate the relative calibration of a student w.r.t. its teacher. Further, to verifiably align the relative calibration incentives of the student to those of its teacher, we introduce faithful distillation. Our experiments on the MNIST and Fashion-MNIST datasets demonstrate the need for such an analysis and the advantages of the increased verifiability of faithful distillation over alternative adversarial distillation methods.
翻訳日:2023-06-08 14:10:18 公開日:2023-06-07
# 光子置換フォック状態の非古典性と量子非ガウス性の検出

Detecting Nonclassicality and quantum non-Gaussianity of photon subtracted displaced Fock state ( http://arxiv.org/abs/2306.04490v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 本稿では,光子置換フォック状態の非古典的・量子的非ガウス性指標である ||{\psi}\rangle=a^kd(\alpha)|{n}\rangle$ を定量的に検討する。ここでは$k$ は光子減算数、$n$ はフォックパラメーターはウィグナー対数ネガタリティ、線形エントロピーポテンシャル、歪情報に基づく測度、量子非ガウス性相対エントロピーを用いて行う。 減算された光子数(k$)は、変位パラメータの小さな値のレジームでかなりの量の非古典性と量子非ガウス性を変化させるのに対し、フォックパラメータ(n$)は変位パラメータの大規模なレジームにおいて顕著な変化を示す。 この点において、フォックパラメータの役割はフォトンサブトラクション数よりも強いことが分かる。 最後に、光子損失チャネルの効果を考慮したウィグナー関数ダイナミクスを用いて、ウィグナーネガティビティが高効率検出器によってのみ露光できることを示す。

In this paper, a quantitative investigation of the non-classical and quantum non-Gaussian characters of the photon-subtracted displaced Fock state $|{\psi}\rangle=a^kD(\alpha)|{n}\rangle$, where $k$ is number of photons subtracted, $n$ is Fock parameter, is performed by using a collection of measures like Wigner logarithmic negativity, linear entropy potential, skew information based measure, and relative entropy of quantum non-Gaussianity. It is noticed that the number of photons subtracted ($k$) changes the nonclassicality and quantum non-Gaussianity in a significant amount in the regime of small values of the displacement parameter whereas Fock parameter ($n$) presents a notable change in the large regime of the displacement parameter. In this respect, the role of the Fock parameter is found to be stronger as compared to the photon subtraction number. Finally, the Wigner function dynamics considering the effects of photon loss channel is used to show that the Wigner negativity can only be exposed by highly efficient detectors.
翻訳日:2023-06-08 14:03:11 公開日:2023-06-07
# fair column subset のセレクション

Fair Column Subset Selection ( http://arxiv.org/abs/2306.04489v1 )

ライセンス: Link先を確認
Antonis Matakos, Bruno Ordozgoiti, Suhas Thejaswi(参考訳) 公平な列部分集合の選択の問題を考える。 特に、2つの群がデータ内に存在すると仮定し、選択された列部分集合は、それぞれのランクk近似に対して両者に良い近似を与える必要がある。 既知の結果を拡張するためには、元の方法の2倍の列を単に選択するという、簡単な解決策以上のことはできない。 我々は、決定論的レバレッジスコアサンプリングに基づく既知のアプローチを採用し、適切なサイズのサブセットをサンプリングするだけで、2つのグループが存在する場合、NPハードとなることを示す。 所望のサイズの2倍のサブセットを見つけることは自明だが、基本的にその1.5倍の大きさで同じ保証を達成する効率的なアルゴリズムを提供する。 本手法は実世界データに対する広範囲な実験を通して検証する。

We consider the problem of fair column subset selection. In particular, we assume that two groups are present in the data, and the chosen column subset must provide a good approximation for both, relative to their respective best rank-k approximations. We show that this fair setting introduces significant challenges: in order to extend known results, one cannot do better than the trivial solution of simply picking twice as many columns as the original methods. We adopt a known approach based on deterministic leverage-score sampling, and show that merely sampling a subset of appropriate size becomes NP-hard in the presence of two groups. Whereas finding a subset of two times the desired size is trivial, we provide an efficient algorithm that achieves the same guarantees with essentially 1.5 times that size. We validate our methods through an extensive set of experiments on real-world data.
翻訳日:2023-06-08 14:02:43 公開日:2023-06-07
# リワードスープ:多様な報酬を微調整した重量補間によるパレート最適アライメントに向けて

Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards ( http://arxiv.org/abs/2306.04488v1 )

ライセンス: Link先を確認
Alexandre Rame, Guillaume Couairon, Mustafa Shukor, Corentin Dancette, Jean-Baptiste Gaya, Laure Soulier and Matthieu Cord(参考訳) ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。 強化学習、特に人間からのフィードバック(RLHF)は、ネットワークを意図した用途に合わせることができる。 しかし、代理報酬の不完全性はトレーニングを妨げ、最適な結果をもたらす可能性がある。 本稿では,マルチポリシー戦略に従うことによって,多様な報酬の多様性を受け入れることを提案する。 1つの優先報酬に焦点をあてるのではなく、選好空間全体にわたってパレート最適一般化を目指す。 そこで我々は、まず複数のネットワークを独立に(プロキシの報酬ごとに)指定し、その重みを線形に補間する報奨スープを提案する。 これは経験的に成功し、共有事前学習された初期化から様々な報酬を微調整した場合、重みが線形に連結されることを示したためである。 我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA),制御(移動)タスクに対するアプローチの有効性を示す。 私たちは、深層モデルの整合性を高め、その多様性のすべてにおいて、どのように世界と相互作用するかを望んでいる。

Foundation models are first pre-trained on vast unsupervised datasets and then fine-tuned on labeled data. Reinforcement learning, notably from human feedback (RLHF), can further align the network with the intended usage. Yet the imperfections in the proxy reward may hinder the training and lead to suboptimal results; the diversity of objectives in real-world tasks and human opinions exacerbate the issue. This paper proposes embracing the heterogeneity of diverse rewards by following a multi-policy strategy. Rather than focusing on a single a priori reward, we aim for Pareto-optimal generalization across the entire space of preferences. To this end, we propose rewarded soup, first specializing multiple networks independently (one for each proxy reward) and then interpolating their weights linearly. This succeeds empirically because we show that the weights remain linearly connected when fine-tuned on diverse rewards from a shared pre-trained initialization. We demonstrate the effectiveness of our approach for text-to-text (summarization, Q&A, helpful assistant, review), text-image (image captioning, text-to-image generation, visual grounding, VQA), and control (locomotion) tasks. We hope to enhance the alignment of deep models, and how they interact with the world in all its diversity.
翻訳日:2023-06-08 14:02:30 公開日:2023-06-07
# 人工知能は相互作用パートナーの出現を変えることで自己決定を促進する

Artificial Intelligence can facilitate selfish decisions by altering the appearance of interaction partners ( http://arxiv.org/abs/2306.04484v1 )

ライセンス: Link先を確認
Nils K\"obis, Philipp Lorenz-Spreen, Tamer Ajaj, Jean-Francois Bonnefon, Ralph Hertwig, Iyad Rahwan(参考訳) ソーシャルメディアやビデオ会議技術における画像修正フィルターの普及は、人工知能(AI)による他者の知覚の操作による倫理的・心理的な影響を懸念している。 本研究では,個々人の他者に対する行動に対する外観変化技術であるぼかしフィルタの潜在的影響について検討した。 以上の結果から, 外見がぼやけている個人に対して, 利己的行動の著しい増加が示され, ぼやけたフィルターは非人格化を通じて道徳的な離脱を促進することが示唆された。 これらの結果は、透明性、同意、他者による外見操作を受けることの認識を含む、他者に対する認識を変更するAI技術に関する広範な倫理的議論の必要性を強調している。 また、このような技術の普及に先立って、責任あるガイドラインや政策の開発を知らせる予測実験の重要性も強調する。

The increasing prevalence of image-altering filters on social media and video conferencing technologies has raised concerns about the ethical and psychological implications of using Artificial Intelligence (AI) to manipulate our perception of others. In this study, we specifically investigate the potential impact of blur filters, a type of appearance-altering technology, on individuals' behavior towards others. Our findings consistently demonstrate a significant increase in selfish behavior directed towards individuals whose appearance is blurred, suggesting that blur filters can facilitate moral disengagement through depersonalization. These results emphasize the need for broader ethical discussions surrounding AI technologies that modify our perception of others, including issues of transparency, consent, and the awareness of being subject to appearance manipulation by others. We also emphasize the importance of anticipatory experiments in informing the development of responsible guidelines and policies prior to the widespread adoption of such technologies.
翻訳日:2023-06-08 14:02:06 公開日:2023-06-07
# ICON$^2$: オブジェクト検出における予測不等式を確実にベンチマークする

ICON$^2$: Reliably Benchmarking Predictive Inequity in Object Detection ( http://arxiv.org/abs/2306.04482v1 )

ライセンス: Link先を確認
Sruthi Sudhakar, Viraj Prabhu, Olga Russakovsky, Judy Hoffman(参考訳) コンピュータービジョンシステムは、自動運転のような高度なアプリケーションで大規模に展開されているため、これらのシステムにおける社会的偏見への懸念が高まっている。 運転シーンにおける物体検出のような現実世界の視覚システムにおける公平性の分析は、歩行者の肌のトーンのような属性間の予測の不平等を観察することに限定されており、例えば、私のモデルは特定の肌のトーンに対してより良く振る舞うのか、あるいは私のデータセットのそのようなシーンは、閉塞や群衆のためにもっと難しいのか、といった、結合変数の役割を異にする一貫した方法論を欠いている。 本稿では、この問題にしっかりと答えるフレームワークであるICON$^2$を紹介します。 ICON$^2$は、オブジェクト検出システムの欠陥に関する事前の知識を活用して、サブポピュレーション間のパフォーマンスの相違を識別し、潜在的な共同創設者と与えられた機密属性の間の相関を計算し、最も可能性の高い共同創設者がモデルバイアスをより信頼性の高い推定値を得るように制御する。 このアプローチを用いて,BDD100K駆動データセットから得られる収入に関して,オブジェクト検出のパフォーマンスに関する詳細な研究を行い,有用な洞察を明らかにした。

As computer vision systems are being increasingly deployed at scale in high-stakes applications like autonomous driving, concerns about social bias in these systems are rising. Analysis of fairness in real-world vision systems, such as object detection in driving scenes, has been limited to observing predictive inequity across attributes such as pedestrian skin tone, and lacks a consistent methodology to disentangle the role of confounding variables e.g. does my model perform worse for a certain skin tone, or are such scenes in my dataset more challenging due to occlusion and crowds? In this work, we introduce ICON$^2$, a framework for robustly answering this question. ICON$^2$ leverages prior knowledge on the deficiencies of object detection systems to identify performance discrepancies across sub-populations, compute correlations between these potential confounders and a given sensitive attribute, and control for the most likely confounders to obtain a more reliable estimate of model bias. Using our approach, we conduct an in-depth study on the performance of object detection with respect to income from the BDD100K driving dataset, revealing useful insights.
翻訳日:2023-06-08 14:01:49 公開日:2023-06-07
# FoSp: 初期のスモークセグメンテーションのためのフォーカスと分離ネットワーク

FoSp: Focus and Separation Network for Early Smoke Segmentation ( http://arxiv.org/abs/2306.04474v1 )

ライセンス: Link先を確認
Lujian Yao, Haitao Zhao, Jingchao Peng, Zhongze Wang, Kaijie Zhao(参考訳) 早期スモークセグメンテーション(ess)は、煙源の正確な識別を可能にし、火災の早期消火と大規模なガス漏れの防止を容易にする。 しかし、ESSは、小型で透明な外観のため、従来の物体や通常の煙のセグメンテーションよりも大きな課題を生じ、高いミス検出率と低い精度をもたらす可能性がある。 この問題に対処するために,fosp(focus and separation network)を提案する。 まず,低分解能・高分解能の特徴を中分解能に導く双方向カスケードを用いたフォーカスモジュールを導入し,煙の範囲を同定し,ミス検出率を低減した。 次に,煙像を純粋な煙の前景と煙のない背景に分離し,煙と背景のコントラストを根本的に向上し,セグメンテーション精度を向上させる分離モジュールを提案する。 最後に、高いF_betaを達成するためにリコールと精度のバランスをとることができる2つのモジュールの特徴を統合するために、Domain Fusionモジュールが開発された。 さらに、ESSの開発を促進するために、既存のデータセットよりも小さく透明な煙を含む、SmokeSegと呼ばれる高品質な現実世界データセットを導入しました。 実験結果から,Syn70K (mIoU:83.00%),SMOKE5K (F_beta:81.6%),SmokeSeg (F_beta:72.05%) の3つのデータセットにおいて,本モデルが最高の性能を示した。 特にFoSpはSmokeSeg上での煙分画においてSegFormerを7.71%(F_beta)上回る。

Early smoke segmentation (ESS) enables the accurate identification of smoke sources, facilitating the prompt extinguishing of fires and preventing large-scale gas leaks. But ESS poses greater challenges than conventional object and regular smoke segmentation due to its small scale and transparent appearance, which can result in high miss detection rate and low precision. To address these issues, a Focus and Separation Network (FoSp) is proposed. We first introduce a Focus module employing bidirectional cascade which guides low-resolution and high-resolution features towards mid-resolution to locate and determine the scope of smoke, reducing the miss detection rate. Next, we propose a Separation module that separates smoke images into a pure smoke foreground and a smoke-free background, enhancing the contrast between smoke and background fundamentally, improving segmentation precision. Finally, a Domain Fusion module is developed to integrate the distinctive features of the two modules which can balance recall and precision to achieve high F_beta. Futhermore, to promote the development of ESS, we introduce a high-quality real-world dataset called SmokeSeg, which contains more small and transparent smoke than the existing datasets. Experimental results show that our model achieves the best performance on three available datasets: SYN70K (mIoU: 83.00%), SMOKE5K (F_beta: 81.6%) and SmokeSeg (F_beta: 72.05%). Especially, our FoSp outperforms SegFormer by 7.71% (F_beta) for early smoke segmentation on SmokeSeg.
翻訳日:2023-06-08 14:01:23 公開日:2023-06-07
# ロスによるFloquet非Hermitian皮膚効果

Loss-induced Floquet non-Hermitian skin effect ( http://arxiv.org/abs/2306.04460v1 )

ライセンス: Link先を確認
Yaohua Li, Cuicui Lu, Shuang Zhang, Yong-Chun Liu(参考訳) 非エルミートトポロジカルなトポロジカルなシステムは、非エルミート皮膚効果(NHSE)が現れると、その独特のトポロジカルな性質から多くの関心を集めている。 しかし、NHSEの実験的な実現は、従来、限られたシステムと互換性のある非相互結合を必要とする。 本稿では、損失誘導型フロケットNHSEのメカニズムを提案し、この損失は非ハーミシティの基本的な源となり、フロケット工学はフロケット誘導型複素次アレスト近傍結合をもたらす。 また、一般化されたブリルアンゾーン理論を非平衡系に拡張し、フロケ NHSE を記述する。 さらに,この機構は2次元システムに一般化した2次NHSEを実現することができることを示す。 提案手法は,フロッケ非エルミート系におけるトポロジカル位相の研究の扉を開くヘリカル導波路などの系を持つフォトニック格子において実現可能である。

Non-Hermitian topological systems have attracted lots of interest due to their unique topological properties when the non-Hermitian skin effect (NHSE) appears. However, the experimental realization of NHSE conventionally requires non-reciprocal couplings, which are compatible with limited systems. Here we propose a mechanism of loss-induced Floquet NHSE, where the loss provides the basic source of non-Hermicity and the Floquet engineering brings about the Floquet-induced complex next-nearest-neighbor couplings. We also extend the generalized Brillouin zone theory to nonequilibrium systems to describe the Floquet NHSE. Furthermore, we show that this mechanism can realize the second-order NHSE when generalized to two-dimensional systems. Our proposal can be realized in photonic lattices with helical waveguides and other related systems, which opens the door for the study of topological phases in Floquet non-Hermitian systems.
翻訳日:2023-06-08 14:00:02 公開日:2023-06-07
# 結晶材料生成のための統一モデル

Unified Model for Crystalline Material Generation ( http://arxiv.org/abs/2306.04510v1 )

ライセンス: Link先を確認
Astrid Klipfel and Ya\"el Fr\'egier and Adlane Sayede and Zied Bouraoui(参考訳) 私たちの社会が直面する最大の課題の1つは、特定の特性を持つ新しい革新的な結晶材料の発見です。 近年, 結晶材料生成の問題に注目が集まっているが, 結晶構造の周期性と等値性を考慮した生成モデルの開発は, どの程度の程度, あるいはどのようにして行うことができるかは定かではない。 この問題を軽減するために,周期同変構造を用いて結晶格子と原子位置を同時に作用する2つの統一モデルを提案する。 我々のモデルは、全エネルギーを下げて熱力学的安定性に達することで任意の結晶格子変形を学習することができる。 コードとデータはhttps://github.com/aklipf/gemsnetで入手できる。

One of the greatest challenges facing our society is the discovery of new innovative crystal materials with specific properties. Recently, the problem of generating crystal materials has received increasing attention, however, it remains unclear to what extent, or in what way, we can develop generative models that consider both the periodicity and equivalence geometric of crystal structures. To alleviate this issue, we propose two unified models that act at the same time on crystal lattice and atomic positions using periodic equivariant architectures. Our models are capable to learn any arbitrary crystal lattice deformation by lowering the total energy to reach thermodynamic stability. Code and data are available at https://github.com/aklipf/GemsNet.
翻訳日:2023-06-08 13:54:35 公開日:2023-06-07
# マルチスパン質問応答に対する回答フィードバックによる文脈学習の強化

Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering ( http://arxiv.org/abs/2306.04508v1 )

ライセンス: Link先を確認
Zixian Huang, Jiaying Zhou, Gengyang Xiao, Gong Cheng(参考訳) ChatGPTのような最近の大規模言語モデル(LLM)の出現は目覚ましいパフォーマンスを示しているが、マルチスパン質問応答のような特定のタスクについて完全に教師されたモデルと大きなギャップがある。 これまでの研究では、いくつかのタスクに関連するラベル付きデータをデモンストレーションの例として使用することで、コンテキスト内学習がllmの活用に有効なアプローチであることを見出している。 一般的な実装は、いくつかの質問とそれらの正しい答えを単純なテンプレートで結合し、所望の出力の LLM を知らせることである。 そこで本論文では,本論文では,市販モデルが予測した回答,例えば正確,不正確,不完全などについて,実演例を拡張して,望ましくないアウトプットをllmに通知する,ラベル付きデータを利用する新しい手法を提案する。 3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験は、新しいプロンプト戦略がllmのコンテキスト内学習性能を一貫して改善していることを示している。

Whereas the recent emergence of large language models (LLMs) like ChatGPT has exhibited impressive general performance, it still has a large gap with fully-supervised models on specific tasks such as multi-span question answering. Previous researches found that in-context learning is an effective approach to exploiting LLM, by using a few task-related labeled data as demonstration examples to construct a few-shot prompt for answering new questions. A popular implementation is to concatenate a few questions and their correct answers through simple templates, informing LLM of the desired output. In this paper, we propose a novel way of employing labeled data such that it also informs LLM of some undesired output, by extending demonstration examples with feedback about answers predicted by an off-the-shelf model, e.g., correct, incorrect, or incomplete. Experiments on three multi-span question answering datasets as well as a keyphrase extraction dataset show that our new prompting strategy consistently improves LLM's in-context learning performance.
翻訳日:2023-06-08 13:54:23 公開日:2023-06-07
# ヒト類似性判定を用いたニューラルネットワーク表現の改善

Improving neural network representations using human similarity judgments ( http://arxiv.org/abs/2306.04507v1 )

ライセンス: Link先を確認
Lukas Muttenthaler and Lorenz Linhardt and Jonas Dippel and Robert A. Vandermeulen and Katherine Hermann and Andrew K. Lampinen and Simon Kornblith(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクで人間レベルのパフォーマンスに達している。 しかし、これらのネットワークを訓練するために使用される目的は、同様の画像が表現空間内の同様の場所に埋め込まれていることのみを強制し、結果空間のグローバルな構造を直接制約しない。 本稿では,このグローバル構造を人間の類似性判断と線形に整合させることによって,その影響を考察する。 直感的なアプローチは、下流のパフォーマンスを損なう局所的な表現構造に大きな変化をもたらす。 そこで本研究では,局所構造を保ちながら表現のグローバル構造を整列する手法を提案する。 このグローバルローカル変換は、さまざまな少数ショット学習と異常検出タスクの精度を大幅に向上させる。 その結果、人間の視覚的表現は、少数の例から学習しやすく、このグローバルな構造をニューラルネットワーク表現に組み込むことで、下流タスクのパフォーマンスを向上させることが示唆された。

Deep neural networks have reached human-level performance on many computer vision tasks. However, the objectives used to train these networks enforce only that similar images are embedded at similar locations in the representation space, and do not directly constrain the global structure of the resulting space. Here, we explore the impact of supervising this global structure by linearly aligning it with human similarity judgments. We find that a naive approach leads to large changes in local representational structure that harm downstream performance. Thus, we propose a novel method that aligns the global structure of representations while preserving their local structure. This global-local transform considerably improves accuracy across a variety of few-shot learning and anomaly detection tasks. Our results indicate that human visual representations are globally organized in a way that facilitates learning from few examples, and incorporating this global structure into neural network representations improves performance on downstream tasks.
翻訳日:2023-06-08 13:54:03 公開日:2023-06-07
# defocus to focus:defocusとradiance priorsを融合したphoto-realistic bokehレンダリング

Defocus to focus: Photo-realistic bokeh rendering by fusing defocus and radiance priors ( http://arxiv.org/abs/2306.04506v1 )

ライセンス: Link先を確認
Xianrui Luo, Juewen Peng, Ke Xian, Zijin Wu, Zhiguo Cao(参考訳) 単焦点画像からの現実的なボケレンダリングの問題を考える。 ボケのレンダリングは、プロの撮影における美的浅層被写界深度(dof)を模倣するが、既存の方法によって生成された視覚効果は、単純な背景ぼやけとフォーカス領域のぼやけたぼやけに苦しみ、非現実的なレンダリング結果をもたらす。 この研究では、現実的なボケレンダリングはすべきである、と論じる。 (i)被写界深度関係のモデル化と被写界領域の識別 (ii)鋭い焦点内領域を維持すること、及び (iii)物理的に正確な混乱円(coc)をレンダリングする。 この目的のために,全焦点画像とデフォーカス先行画像とを融合させ,層融合における放射前処理を実装することで,現実的なボケレンダリングを学習するためのD2Fフレームワークを提案する。 深度マップは提供されないため、焦点の学習により深度を統合するためにデフォーカス幻覚を導入する。 予測されたデフォーカスマップはボケのぼやけ量を示し、重み付けされたレイヤーレンダリングのガイドに使用される。 階層化レンダリングでは、デフォーカスマップに基づいて異なるカーネルによってぼやけた画像を融合する。 ボケの現実性を高めるため,シーンラディアンスをシミュレートするためのラディアンス仮想化を採用した。 重み付け層レンダリングで使用されるシーンの輝度は、ソフトディスクカーネル内で重み付けを再割り当ててcocを生成する。 焦点内領域のシャープさを確保するため,アップサンプリングされたボケ画像とオリジナル画像の融合を提案する。 我々はデフォーカスマップから初期核融合マスクを予測し、深層ネットワークでマスクを精査する。 大規模ボケデータセットを用いたモデルの評価を行った。 広範な実験により,複雑なシーンで視覚に訴えるボケ効果を表現できることを示した。 特に、私たちのソリューションは、AIM 2020 Rendering Realistic Bokeh Challengeで優勝賞を受賞しています。

We consider the problem of realistic bokeh rendering from a single all-in-focus image. Bokeh rendering mimics aesthetic shallow depth-of-field (DoF) in professional photography, but these visual effects generated by existing methods suffer from simple flat background blur and blurred in-focus regions, giving rise to unrealistic rendered results. In this work, we argue that realistic bokeh rendering should (i) model depth relations and distinguish in-focus regions, (ii) sustain sharp in-focus regions, and (iii) render physically accurate Circle of Confusion (CoC). To this end, we present a Defocus to Focus (D2F) framework to learn realistic bokeh rendering by fusing defocus priors with the all-in-focus image and by implementing radiance priors in layered fusion. Since no depth map is provided, we introduce defocus hallucination to integrate depth by learning to focus. The predicted defocus map implies the blur amount of bokeh and is used to guide weighted layered rendering. In layered rendering, we fuse images blurred by different kernels based on the defocus map. To increase the reality of the bokeh, we adopt radiance virtualization to simulate scene radiance. The scene radiance used in weighted layered rendering reassigns weights in the soft disk kernel to produce the CoC. To ensure the sharpness of in-focus regions, we propose to fuse upsampled bokeh images and original images. We predict the initial fusion mask from our defocus map and refine the mask with a deep network. We evaluate our model on a large-scale bokeh dataset. Extensive experiments show that our approach is capable of rendering visually pleasing bokeh effects in complex scenes. In particular, our solution receives the runner-up award in the AIM 2020 Rendering Realistic Bokeh Challenge.
翻訳日:2023-06-08 13:53:49 公開日:2023-06-07
# 偽証明書選択の難しさ

Hardness of Deceptive Certificate Selection ( http://arxiv.org/abs/2306.04505v1 )

ライセンス: Link先を確認
Stephan W\"aldchen(参考訳) aiの理論的解釈可能性保証への最近の進歩は、インタラクティブな証明システムに基づく分類器によって行われている。 証明者は、データポイントから証明書を選択し、クラスを決定する検証者に送信する。 機械学習の文脈では、このような証明書はクラスに情報を提供する機能になり得る。 健全性と完全性の高いセットアップでは、交換された証明書はデータポイントの真のクラスと高い相互情報を持つ必要がある。 しかし、この保証はデータセットの非対称な特徴相関(高次元データの推定がこれまで難しい性質)に依存する。 W\"aldchen et al. において、AFCを計算的に利用することは困難であると推測された。 非形式的証明を用いて, AFC を利用した精度の高い完全性と健全性を実現することを目的とした悪意のある証明検証手法を提案する。 このタスクは$\mathsf{NP}$-hardであり、$\mathcal{O}(m^{1/8 - \epsilon})$よりも近似できない。 これは、afcが実世界のタスクにインタラクティブな分類を使用することを妨げてはならないという証拠である。

Recent progress towards theoretical interpretability guarantees for AI has been made with classifiers that are based on interactive proof systems. A prover selects a certificate from the datapoint and sends it to a verifier who decides the class. In the context of machine learning, such a certificate can be a feature that is informative of the class. For a setup with high soundness and completeness, the exchanged certificates must have a high mutual information with the true class of the datapoint. However, this guarantee relies on a bound on the Asymmetric Feature Correlation of the dataset, a property that so far is difficult to estimate for high-dimensional data. It was conjectured in W\"aldchen et al. that it is computationally hard to exploit the AFC, which is what we prove here. We consider a malicious prover-verifier duo that aims to exploit the AFC to achieve high completeness and soundness while using uninformative certificates. We show that this task is $\mathsf{NP}$-hard and cannot be approximated better than $\mathcal{O}(m^{1/8 - \epsilon})$, where $m$ is the number of possible certificates, for $\epsilon>0$ under the Dense-vs-Random conjecture. This is some evidence that AFC should not prevent the use of interactive classification for real-world tasks, as it is computationally hard to be exploited.
翻訳日:2023-06-08 13:53:17 公開日:2023-06-07
# バイオメディカルタスクにおけるchatgptの評価 : 微調整生成トランスとの比較

Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers ( http://arxiv.org/abs/2306.04504v1 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) ChatGPTはOpenAIが開発した大規模言語モデルである。 様々なタスクにまたがる優れたパフォーマンスにもかかわらず、バイオメディカル領域におけるその能力に関する先行研究はまだ行われていない。 そこで本稿は,関係抽出,文書分類,質問応答,要約など,様々な生体医学的タスクにおけるchatgptの性能を評価することを目的とする。 我々の知る限りでは、生物医学領域におけるChatGPTの広範な評価を行う最初の作品である。 興味深いことに、トレーニングセットが小さいバイオメディカルデータセットでは、ゼロショットChatGPTは、BioGPTやBioBARTのような最先端の微調整生成トランスモデルよりも優れています。 このことは、ChatGPTの大規模なテキストコーパスでの事前学習が、生体医学領域においてもかなり専門化していることを示している。 以上の結果から,chatgptは大量の注釈データを持たない生体医学領域の様々なタスクに有用なツールとなる可能性が示唆された。

ChatGPT is a large language model developed by OpenAI. Despite its impressive performance across various tasks, no prior work has investigated its capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of ChatGPT on various benchmark biomedical tasks, such as relation extraction, document classification, question answering, and summarization. To the best of our knowledge, this is the first work that conducts an extensive evaluation of ChatGPT in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot ChatGPT even outperforms the state-of-the-art fine-tuned generative transformer models, such as BioGPT and BioBART. This suggests that ChatGPT's pre-training on large text corpora makes it quite specialized even in the biomedical domain. Our findings demonstrate that ChatGPT has the potential to be a valuable tool for various tasks in the biomedical domain that lack large annotated data.
翻訳日:2023-06-08 13:52:56 公開日:2023-06-07
# 適応的勾配に基づく外乱除去による雑音ラベルの学習

Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal ( http://arxiv.org/abs/2306.04502v1 )

ライセンス: Link先を確認
Anastasiia Sedova, Lena Zellinger, Benjamin Roth(参考訳) 信頼できるパフォーマンスモデルのトレーニングには、正確で実質的なデータセットが必要です。 しかし、手動でラベル付けされたデータセットでさえエラーを含んでいる。 データデノイジングの問題は、既存のさまざまな研究で対処されており、そのほとんどは、データセットを過度にフィルターしたり、過度にフィルタリングするプロセスである、異常値の検出と恒久的な削除に焦点を当てている。 本稿では,アダプティブGRAdientに基づく外乱除去のための新しい手法AGRAを提案する。 モデルトレーニングの前にデータセットをクリーニングする代わりに、データセットはトレーニングプロセス中に調整される。 サンプルのバッチの集約勾配と個々のサンプル勾配を比較することで、この時点で対応するサンプルがモデルに有用か、あるいは非生産的かを動的に決定し、現在の更新のために残すべきである。 いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示しているが、包括的な結果解析は私たちの最初の仮説を支持している。

An accurate and substantial dataset is necessary to train a reliable and well-performing model. However, even manually labeled datasets contain errors, not to mention automatically labeled ones. The problem of data denoising was addressed in different existing research, most of which focuses on the detection of outliers and their permanent removal - a process that is likely to over- or underfilter the dataset. In this work, we propose AGRA: a new method for Adaptive GRAdient-based outlier removal. Instead of cleaning the dataset prior to model training, the dataset is adjusted during the training process. By comparing the aggregated gradient of a batch of samples and an individual example gradient, our method dynamically decides whether a corresponding example is helpful for the model at this point or is counter-productive and should be left out for the current update. Extensive evaluation on several datasets demonstrates the AGRA effectiveness, while comprehensive results analysis supports our initial hypothesis: permanent hard outlier removal is not always what model benefits the most from.
翻訳日:2023-06-08 13:52:26 公開日:2023-06-07
# 最適フェアマルチエージェントバンド

Optimal Fair Multi-Agent Bandits ( http://arxiv.org/abs/2306.04498v1 )

ライセンス: Link先を確認
Amir Leshem(参考訳) 本稿では,同一のアームに同時にアクセスするエージェントに対して提供される衝突情報を除いて,エージェント同士が通信しない場合の,公平なマルチエージェントマルチアームバンディット学習の問題について検討する。 後悔した$o\left(n^3 \log n \log t \right)$のアルゴリズムを提供する。 これは、o(\log t \log \log t)$の順序とエージェント数への指数依存を後悔した以前の結果を大幅に改善する。 その結果、分散オークションアルゴリズムを用いてサンプル-最適マッチング、観察されたサンプルから長さが導出される新しいタイプの搾取フェーズ、新しいオーダー統計に基づく後悔分析が得られた。 シミュレーションの結果は、$\log T$に対する後悔の依存性を示す。

In this paper, we study the problem of fair multi-agent multi-arm bandit learning when agents do not communicate with each other, except collision information, provided to agents accessing the same arm simultaneously. We provide an algorithm with regret $O\left(N^3 \log N \log T \right)$ (assuming bounded rewards, with unknown bound). This significantly improves previous results which had regret of order $O(\log T \log\log T)$ and exponential dependence on the number of agents. The result is attained by using a distributed auction algorithm to learn the sample-optimal matching, a new type of exploitation phase whose length is derived from the observed samples, and a novel order-statistics-based regret analysis. Simulation results present the dependence of the regret on $\log T$.
翻訳日:2023-06-08 13:52:00 公開日:2023-06-07
# グラフを用いたスパースグラフ上のGNNの極限,近似およびサイズ伝達性

Limits, approximation and size transferability for GNNs on sparse graphs via graphops ( http://arxiv.org/abs/2306.04495v1 )

ライセンス: Link先を確認
Thien Le and Stefanie Jegelka(参考訳) グラフニューラルネットワークは、トレーニングされたグラフ(例えば、サイズ)とは異なるグラフに一般化できるだろうか? 本研究では,この問題を理論的観点から考察する。 最近の研究は、グラフ制限(例えば、グラノン)によるそのような移動可能性や近似結果を確立したが、これらはグラフの密接な部分に対してのみ非自明に適用される。 有界度グラフや強法則グラフなど、頻繁に遭遇するスパースグラフを含めるために、GNNを構成する集約操作など、グラフから導出される演算子の制限を取るという視点をとる。 これは最近導入されたグラフの極限概念(Backhausz と Szegedy, 2022)に繋がる。 我々は, 有限 GNN と無限グラフ上の極限の間の距離の量的境界と, 様々なグラフ列に対して検証された正則性仮定の下で, 構造的性質の異なるグラフ上の GNN との距離を, 作用素視点がいかに発展させるかを示す。 我々の結果は、密度とスパースグラフ、およびグラフ極限の様々な概念を裏付ける。

Can graph neural networks generalize to graphs that are different from the graphs they were trained on, e.g., in size? In this work, we study this question from a theoretical perspective. While recent work established such transferability and approximation results via graph limits, e.g., via graphons, these only apply non-trivially to dense graphs. To include frequently encountered sparse graphs such as bounded-degree or power law graphs, we take a perspective of taking limits of operators derived from graphs, such as the aggregation operation that makes up GNNs. This leads to the recently introduced limit notion of graphops (Backhausz and Szegedy, 2022). We demonstrate how the operator perspective allows us to develop quantitative bounds on the distance between a finite GNN and its limit on an infinite graph, as well as the distance between the GNN on graphs of different sizes that share structural properties, under a regularity assumption verified for various graph sequences. Our results hold for dense and sparse graphs, and various notions of graph limits.
翻訳日:2023-06-08 13:51:20 公開日:2023-06-07
# 古典・量子ブラフト・アリモトアルゴリズムにおけるミラー降下の展望

A Mirror Descent Perspective on Classical and Quantum Blahut-Arimoto Algorithms ( http://arxiv.org/abs/2306.04492v1 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi(参考訳) blahut-arimotoアルゴリズムは、古典的なチャネル容量とレート分散関数を計算するよく知られた方法である。 近年の研究では、これらの量の様々な量子アナログを計算するためにこのアルゴリズムを拡張している。 本稿では,これらのblahut-arimotoアルゴリズムが,制約付き凸最適化のための勾配降下のよく研究された一般化であるミラー降下の特別な例であることを示す。 新しい凸解析ツールを用いて,blahut-arimotoアルゴリズムの既知の部分線形収束率と線形収束率をどのように回復するかを示す。 このミラー降下法により,Blahut-Arimoto型アルゴリズムが直接適用できない情報理論の問題を解くために,類似収束保証付き関連アルゴリズムを導出することができる。 この枠組みは、エネルギー制約付き古典的および量子的チャネル容量、古典的および量子的速度歪み関数、およびエンタングルメントの相対エントロピーの近似を、いずれも証明可能な収束保証とともに計算する。

The Blahut-Arimoto algorithm is a well known method to compute classical channel capacities and rate-distortion functions. Recent works have extended this algorithm to compute various quantum analogs of these quantities. In this paper, we show how these Blahut-Arimoto algorithms are special instances of mirror descent, which is a well-studied generalization of gradient descent for constrained convex optimization. Using new convex analysis tools, we show how relative smoothness and strong convexity analysis recovers known sublinear and linear convergence rates for Blahut-Arimoto algorithms. This mirror descent viewpoint allows us to derive related algorithms with similar convergence guarantees to solve problems in information theory for which Blahut-Arimoto-type algorithms are not directly applicable. We apply this framework to compute energy-constrained classical and quantum channel capacities, classical and quantum rate-distortion functions, and approximations of the relative entropy of entanglement, all with provable convergence guarantees.
翻訳日:2023-06-08 13:50:52 公開日:2023-06-07
# 日本語音声認識のLenient Evaluation--自然発生スペルの不整合のモデル化

Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally Occurring Spelling Inconsistency ( http://arxiv.org/abs/2306.04530v1 )

ライセンス: Link先を確認
Shigeki Karita, Richard Sproat, Haruko Ishikawa(参考訳) 単語誤り率 (WER) と文字誤り率 (CER) は、音声認識(ASR)における標準的な指標であるが、一つの問題は、常に代替の綴りである。 日本語は'lacking orthography'で悪名高く、ほとんどの単語は複数の方法で綴られ、asrの正確な評価に問題がある。 本稿では,日本語ASRに対するより防御性の高いCER尺度として,新しい信頼度評価指標を提案する。 我々は、語彙資源、日本語テキスト処理システム、およびヒラガナやカタカナから漢字を再構築するためのニューラルネットワーク翻訳モデルの組み合わせを用いて、参照文字の可読な書き起こしの格子を作成する。 手動による評価では、提案された綴りのバリエーションの95.4%が可算であると評価された。 ASRの結果,単語の有効な代替スペルを選択するシステムにペナルティを課さない手法では,タスクに応じてCERを2.4%~3.1%削減できることがわかった。

Word error rate (WER) and character error rate (CER) are standard metrics in Speech Recognition (ASR), but one problem has always been alternative spellings: If one's system transcribes adviser whereas the ground truth has advisor, this will count as an error even though the two spellings really represent the same word. Japanese is notorious for ``lacking orthography'': most words can be spelled in multiple ways, presenting a problem for accurate ASR evaluation. In this paper we propose a new lenient evaluation metric as a more defensible CER measure for Japanese ASR. We create a lattice of plausible respellings of the reference transcription, using a combination of lexical resources, a Japanese text-processing system, and a neural machine translation model for reconstructing kanji from hiragana or katakana. In a manual evaluation, raters rated 95.4% of the proposed spelling variants as plausible. ASR results show that our method, which does not penalize the system for choosing a valid alternate spelling of a word, affords a 2.4%-3.1% absolute reduction in CER depending on the task.
翻訳日:2023-06-08 13:43:11 公開日:2023-06-07
# git-theta - 機械学習モデルの共同開発のためのgitエクステンション

Git-Theta: A Git Extension for Collaborative Development of Machine Learning Models ( http://arxiv.org/abs/2306.04529v1 )

ライセンス: Link先を確認
Nikhil Kandpal, Brian Lester, Mohammed Muqeeth, Anisha Mascarenhas, Monty Evans, Vishal Baskaran, Tenghao Huang, Haokun Liu, Colin Raffel(参考訳) 現在、ほとんどの機械学習モデルは集中型チームによってトレーニングされており、更新されることはめったにない。 対照的に、オープンソースソフトウェア開発は、バージョン管理システムを使用した分散コラボレーションを通じて、共有アーティファクトの反復的な開発を伴います。 機械学習モデルの協調的かつ継続的な改善を可能にするため、マシンラーニングモデルのバージョン管理システムであるGit-Thetaを導入する。 Git-Thetaは、最も広く使用されているバージョン管理ソフトウェアであるGitの拡張であり、コードやその他のアーティファクトと並行してモデルパラメータの変更をきめ細かい追跡を可能にする。 モデルチェックポイントをデータの塊として扱う既存のバージョン管理システムとは異なり、Git-Thetaは、チェックポイントの構造を活用して、通信効率の高い更新、自動モデルマージ、モデルの2つのバージョンの違いに関する有意義な報告をサポートする。 さらにGit-Thetaにはプラグインシステムがあり、ユーザーは新しい機能のサポートを簡単に追加できる。 本稿では,git-thetaの設計と機能を紹介するとともに,事前学習したモデルが継続的に適応・修正されるgit-thetaのユースケース例を紹介する。 Git-Thetaを公開して、コラボレーションモデル開発の新たな時代の幕開けを期待しています。

Currently, most machine learning models are trained by centralized teams and are rarely updated. In contrast, open-source software development involves the iterative development of a shared artifact through distributed collaboration using a version control system. In the interest of enabling collaborative and continual improvement of machine learning models, we introduce Git-Theta, a version control system for machine learning models. Git-Theta is an extension to Git, the most widely used version control software, that allows fine-grained tracking of changes to model parameters alongside code and other artifacts. Unlike existing version control systems that treat a model checkpoint as a blob of data, Git-Theta leverages the structure of checkpoints to support communication-efficient updates, automatic model merges, and meaningful reporting about the difference between two versions of a model. In addition, Git-Theta includes a plug-in system that enables users to easily add support for new functionality. In this paper, we introduce Git-Theta's design and features and include an example use-case of Git-Theta where a pre-trained model is continually adapted and modified. We publicly release Git-Theta in hopes of kickstarting a new era of collaborative model development.
翻訳日:2023-06-08 13:42:47 公開日:2023-06-07
# PromptBench: 対向的プロンプトにおける大規模言語モデルのロバスト性評価に向けて

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts ( http://arxiv.org/abs/2306.04528v1 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie(参考訳) 学界や業界全体にわたる大規模言語モデル(llm)への依存の高まりは、プロンプトに対する強固さを包括的に理解する必要がある。 この重要なニーズに応えて、LLMの反発性を測定するために設計された堅牢性ベンチマークであるPromptBenchを紹介する。 本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。 これらのプロンプトは、感情分析、自然言語推論、読み理解、機械翻訳、数学の問題解決といった様々なタスクで使用される。 本研究は,8つのタスクと13のデータセットに対して,合計567,084個のサンプルを用いて,4,032個の逆のプロンプトを生成する。 以上の結果より,現代のLDMは敵のプロンプトに弱いことが示唆された。 さらに,素早い堅牢性と伝達性の背後にあるミステリーを理解するため,包括的解析を行った。 そして、洞察に富んだロバストネス分析と、プロンプト・コンポジションのための実用的なレコメンデーションを提供し、研究者と日々のユーザの両方に有益です。 私たちはコード、プロンプト、方法論を使って、敵のプロンプトを公にアクセスできるようにし、この重要な分野における協調的な探索を可能にし、促進します。

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
翻訳日:2023-06-08 13:42:28 公開日:2023-06-07
# contrimix: 顕微鏡画像解析における領域一般化のためのコンテンツと属性の教師なし乱れ

ContriMix: Unsupervised disentanglement of content and attribute for domain generalization in microscopy image analysis ( http://arxiv.org/abs/2306.04527v1 )

ライセンス: Link先を確認
Tan H. Nguyen, Dinkar Juyal, Jin Li, Aaditya Prakash, Shima Nofallah, Chintan Shah, Sai Chowdary Gullapally, Michael Griffin, Anand Sampat, John Abel, Justin Lee, Amaro Taylor-Weiner(参考訳) ドメインの一般化は、病理組織学や蛍光イメージングを含む顕微鏡画像への機械学習モデルの現実世界への応用に不可欠である。 病理組織学におけるアーティファクトは、組織収集と実験室処理に関連する因子と、患者サンプルに固有の因子の複雑な組み合わせによって生じる。 蛍光イメージングでは、これらのアーティファクトは実験バッチ間のバリエーションに由来する。 これらのアーティファクトの複雑さと微妙さは、データ領域の列挙を難なくする。 したがって、ドメイン識別子と手動微調整を必要とする拡張型ドメイン一般化法は、この設定では不十分である。 この課題を克服するために,コントリミックス(contrimix)というドメイン一般化手法を導入する。顕微鏡画像における生体コンテンツ(コンテンツ)と技術的なバリエーション(属性)を分離・置換することで合成画像を生成する。 contrimixはドメイン識別子や手作りの補足には依存せず、画像の入力特性についての仮定もしない。 本研究では2つの病理データセット(Camelyon17-WILDSと前立腺細胞分類データセット)と1つの蛍光顕微鏡データセット(RxRx1-WILDS)を用いてContriMixの性能を評価する。 contrimixは、現在の最先端の手法を全データセットで上回っており、ドメイン情報が行き渡らない現実の環境で顕微鏡画像解析に使用する動機付けになっている。

Domain generalization is critical for real-world applications of machine learning models to microscopy images, including histopathology and fluorescence imaging. Artifacts in histopathology arise through a complex combination of factors relating to tissue collection and laboratory processing, as well as factors intrinsic to patient samples. In fluorescence imaging, these artifacts stem from variations across experimental batches. The complexity and subtlety of these artifacts make the enumeration of data domains intractable. Therefore, augmentation-based methods of domain generalization that require domain identifiers and manual fine-tuning are inadequate in this setting. To overcome this challenge, we introduce ContriMix, a domain generalization technique that learns to generate synthetic images by disentangling and permuting the biological content ("content") and technical variations ("attributes") in microscopy images. ContriMix does not rely on domain identifiers or handcrafted augmentations and makes no assumptions about the input characteristics of images. We assess the performance of ContriMix on two pathology datasets (Camelyon17-WILDS and a prostate cell classification dataset) and one fluorescence microscopy dataset (RxRx1-WILDS). ContriMix outperforms current state-of-the-art methods in all datasets, motivating its usage for microscopy image analysis in real-world settings where domain information is hard to come by.
翻訳日:2023-06-08 13:42:06 公開日:2023-06-07
# 騒音下におけるNSGA-IIのロバスト性の解析

Analysing the Robustness of NSGA-II under Noise ( http://arxiv.org/abs/2306.04525v1 )

ライセンス: Link先を確認
Duc-Cuong Dang, Andre Opris, Bahare Salehi, Dirk Sudholt(参考訳) 実行時解析は (1+1) ea のような単純な進化アルゴリズムの効率や、進化的多目的最適化 (emo) における gsemo と呼ばれる類似性の多くの結果を生み出した。 近年,広く引用されているEMOアルゴリズムNSGA-IIの最初の実行時解析が登場し,数千のアプリケーションによる実用的なアルゴリズムを厳格に分析できることが証明された。 しかし,これらの結果から,NSGA-IIはGSEMOと同じ性能保証を有しており,NSGA-IIがGSEMOより優れているかは明らかでない。 我々は,この質問を雑音の最適化で検討し,各目的に対して一定の確率 p$ で大量の後続雑音を付加する雑音モデルについて検討する。 その結果、GSEMOはノイズの多いフィットネス機能において、人口の大部分を無差別に除去する傾向にあることが明らかとなった。 これとは対照的に、NSGA-II は、$p<1/2$ のときに \textsc{LeadingOnesTrailingZeroes} 上でノイズを効率的に処理できる。 p=1/2$ で位相遷移を同定し、パレートフロントを覆う期待時間は多項式から指数関数に変化する。 我々の知る限り、NSGA-II が GSEMO より優れており、NSGA-II のノイズ最適化における最初の実行時解析である。

Runtime analysis has produced many results on the efficiency of simple evolutionary algorithms like the (1+1) EA, and its analogue called GSEMO in evolutionary multiobjective optimisation (EMO). Recently, the first runtime analyses of the famous and highly cited EMO algorithm NSGA-II have emerged, demonstrating that practical algorithms with thousands of applications can be rigorously analysed. However, these results only show that NSGA-II has the same performance guarantees as GSEMO and it is unclear how and when NSGA-II can outperform GSEMO. We study this question in noisy optimisation and consider a noise model that adds large amounts of posterior noise to all objectives with some constant probability $p$ per evaluation. We show that GSEMO fails badly on every noisy fitness function as it tends to remove large parts of the population indiscriminately. In contrast, NSGA-II is able to handle the noise efficiently on \textsc{LeadingOnesTrailingZeroes} when $p<1/2$, as the algorithm is able to preserve useful search points even in the presence of noise. We identify a phase transition at $p=1/2$ where the expected time to cover the Pareto front changes from polynomial to exponential. To our knowledge, this is the first proof that NSGA-II can outperform GSEMO and the first runtime analysis of NSGA-II in noisy optimisation.
翻訳日:2023-06-08 13:41:43 公開日:2023-06-07
# 現在のNLIシステムはドイツ語の単語順序を扱えるか? ミニマルペアの新しいドイツチャレンジ集合における言語モデル性能の検討

Can current NLI systems handle German word order? Investigating language model performance on a new German challenge set of minimal pairs ( http://arxiv.org/abs/2306.04523v1 )

ライセンス: Link先を確認
Ines Reinig and Katja Markert(参考訳) 英語と比較してドイツ語の順序は自由であり、自然言語推論(NLI)にさらなる課題をもたらす。 WOGLI (Word Order in German Language Inference) は、ドイツ語の単語順序に対する最初の逆NLIデータセットで、以下の特性を持つ。 (i)各前提には、含まない仮説及び含まない仮説がある。 (二)前提と仮説は、単語順とマークケースと数字に対する必要な形態変化にのみ異なる。 特に、それぞれの前提と2つの仮説は、全く同じ補題を含む。 敵の例では、包含を認識または拒否するために形態学的マーカーをモデルに使わなければなりません。 翻訳されたNLIデータセットが、対象言語におけるすべての言語現象を反映しないという事実を反映して、翻訳されたNLIデータに基づいて微調整された現在のドイツのオートエンコーディングモデルがこの課題に対処できることを示す。 また、データ拡張後の性能や、wogliから派生した関連語順現象についても検討する。 私たちのデータセットはhttps://github.com/ireinig/wogliで公開されています。

Compared to English, German word order is freer and therefore poses additional challenges for natural language inference (NLI). We create WOGLI (Word Order in German Language Inference), the first adversarial NLI dataset for German word order that has the following properties: (i) each premise has an entailed and a non-entailed hypothesis; (ii) premise and hypotheses differ only in word order and necessary morphological changes to mark case and number. In particular, each premise andits two hypotheses contain exactly the same lemmata. Our adversarial examples require the model to use morphological markers in order to recognise or reject entailment. We show that current German autoencoding models fine-tuned on translated NLI data can struggle on this challenge set, reflecting the fact that translated NLI datasets will not mirror all necessary language phenomena in the target language. We also examine performance after data augmentation as well as on related word order phenomena derived from WOGLI. Our datasets are publically available at https://github.com/ireinig/wogli.
翻訳日:2023-06-08 13:41:15 公開日:2023-06-07
# スケッチによるクープマン作用素の推定と大規模力学系の学習

Estimating Koopman operators with sketching to provably learn large scale dynamical systems ( http://arxiv.org/abs/2306.04520v1 )

ライセンス: Link先を確認
Giacomo Meanti, Antoine Chatalic, Vladimir R. Kostic, Pietro Novelli, Massimiliano Pontil, Lorenzo Rosasco(参考訳) クープマン作用素の理論は、複雑な力学系を予測・解析するために非パラメトリック機械学習アルゴリズムを展開できる。 カーネル空間における主成分回帰(PCR)や還元階数回帰(RRR)のような推定器は、システムの時間進化に関する有限経験的観測からクープマン作用素を確実に学習することができる。 これらのアプローチを非常に長い軌道に拡張することは困難であり、計算を可能とするために適切な近似を導入する必要がある。 本稿では,ランダム射影(エッチング)を用いたカーネルベースのkoopman演算子推定器の効率を向上させる。 我々は、合成および大規模分子動力学データセットに関する広範な実験を行い、新しい「エッチング」推定器を導出し、実装し、テストする。 さらに,統計的学習率と計算効率とのトレードオフを鋭く特徴づける非漸近的誤差境界を確立する。 実験および理論的解析により,提案手法は大規模力学系を学習するための健全かつ効率的な手法であることが示された。 特に本実験は,PCRやRRRと同じ精度を維持しつつ,より高速に推定できることを示した。

The theory of Koopman operators allows to deploy non-parametric machine learning algorithms to predict and analyze complex dynamical systems. Estimators such as principal component regression (PCR) or reduced rank regression (RRR) in kernel spaces can be shown to provably learn Koopman operators from finite empirical observations of the system's time evolution. Scaling these approaches to very long trajectories is a challenge and requires introducing suitable approximations to make computations feasible. In this paper, we boost the efficiency of different kernel-based Koopman operator estimators using random projections (sketching). We derive, implement and test the new "sketched" estimators with extensive experiments on synthetic and large-scale molecular dynamics datasets. Further, we establish non asymptotic error bounds giving a sharp characterization of the trade-offs between statistical learning rates and computational efficiency. Our empirical and theoretical analysis shows that the proposed estimators provide a sound and efficient way to learn large scale dynamical systems. In particular our experiments indicate that the proposed estimators retain the same accuracy of PCR or RRR, while being much faster.
翻訳日:2023-06-08 13:40:58 公開日:2023-06-07
# 補助タスクを用いたマルチタスク学習のためのサンプルレベル重み付け

Sample-Level Weighting for Multi-Task Learning with Auxiliary Tasks ( http://arxiv.org/abs/2306.04519v1 )

ライセンス: Link先を確認
Emilie Gr\'egoire, Hafeez Chaudhary and Sam Verboven(参考訳) マルチタスク学習(MTL)は、関連するタスクと表現を共有することにより、ニューラルネットワークの一般化性能を向上させることができる。 それでも、MTLはタスク間の有害な干渉によって性能を低下させることができる。 最近の研究は、この干渉の解決策としてタスク固有の損失重み付けを追求している。 しかし、既存のアルゴリズムはタスクをアトミックとして扱い、タスクレベルを超えて有害で有用な信号を明示的に分離する能力がない。 そこで本研究では,補助タスクを用いたマルチタスク学習のためのサンプルレベル重み付けアルゴリズムであるSLGradを提案する。 サンプル固有のタスクウェイトを通じて、SLGradはトレーニング中のタスク分布を再評価し、有害な補助信号を排除し、有用なタスクシグナルを増強する。 実質的な一般化のパフォーマンス向上は、(半)合成データセットと一般的な教師付きマルチタスク問題で観察される。

Multi-task learning (MTL) can improve the generalization performance of neural networks by sharing representations with related tasks. Nonetheless, MTL can also degrade performance through harmful interference between tasks. Recent work has pursued task-specific loss weighting as a solution for this interference. However, existing algorithms treat tasks as atomic, lacking the ability to explicitly separate harmful and helpful signals beyond the task level. To this end, we propose SLGrad, a sample-level weighting algorithm for multi-task learning with auxiliary tasks. Through sample-specific task weights, SLGrad reshapes the task distributions during training to eliminate harmful auxiliary signals and augment useful task signals. Substantial generalization performance gains are observed on (semi-) synthetic datasets and common supervised multi-task problems.
翻訳日:2023-06-08 13:40:39 公開日:2023-06-07
# 圧縮センシングを用いた建物周辺の風圧場復元のための最適センサ配置

Optimal sensor placement for reconstructing wind pressure field around buildings using compressed sensing ( http://arxiv.org/abs/2306.04518v1 )

ライセンス: Link先を確認
Xihaier Luo and Ahsan Kareem and Shinjae Yoo(参考訳) センサーを大規模で複雑で空間的に拡張した構造に最適に配置する方法を決定することは、その後の分析と設計のために表面圧力場を正確に捉えるために重要である。 デジタル双生児の発達など、下流業務において欠落したデータの再構築が必要である場合もある。 本稿では,高層建築物上の風圧の空力特性を並列に再現するための情報コンテンツの最大化を目的とした,データ駆動スパースセンサ選択アルゴリズムを提案する。 このアルゴリズムは、まず一連の基底関数をトレーニングデータに適合させ、その後、既存の圧力センサを、この調整された基底の状態再構成に基づいて重要順にランク付けする計算効率の高いqrアルゴリズムを適用する。 本研究の結果から,高層建築物の空力特性を平滑な測定位置から再現し,様々な条件下で安定かつ最適解を生成することができた。 その結果、この研究はデータ駆動および機械学習アルゴリズムの成功を活用し、現在風力工学で使われている伝統的な遺伝的アルゴリズムを補完する有望な第一歩となる。

Deciding how to optimally deploy sensors in a large, complex, and spatially extended structure is critical to ensure that the surface pressure field is accurately captured for subsequent analysis and design. In some cases, reconstruction of missing data is required in downstream tasks such as the development of digital twins. This paper presents a data-driven sparse sensor selection algorithm, aiming to provide the most information contents for reconstructing aerodynamic characteristics of wind pressures over tall building structures parsimoniously. The algorithm first fits a set of basis functions to the training data, then applies a computationally efficient QR algorithm that ranks existing pressure sensors in order of importance based on the state reconstruction to this tailored basis. The findings of this study show that the proposed algorithm successfully reconstructs the aerodynamic characteristics of tall buildings from sparse measurement locations, generating stable and optimal solutions across a range of conditions. As a result, this study serves as a promising first step toward leveraging the success of data-driven and machine learning algorithms to supplement traditional genetic algorithms currently used in wind engineering.
翻訳日:2023-06-08 13:40:28 公開日:2023-06-07
# OCTにおける非一様回転歪みのリアルタイム補正を可能にするクロスアテンション学習

Cross-attention learning enables real-time nonuniform rotational distortion correction in OCT ( http://arxiv.org/abs/2306.04512v1 )

ライセンス: Link先を確認
Haoran Zhang, Jianlong Yang, Jingqian Zhang, Shiqing Zhao, Aili Zhang(参考訳) 非一様回転歪み(NURD)補正は、内視鏡的光コヒーレンス断層撮影(OCT)および血管造影やエラストグラフィーなどの機能拡張に不可欠である。 現在のNURD補正法は時間を要する特徴追跡や相互相関計算を必要とし、時間分解能を犠牲にする。 本稿では,OCTにおけるNURD補正のためのクロスアテンション学習手法を提案する。 本手法は,自然言語処理とコンピュータビジョンにおける自己認識機構の成功に着想を得たものである。 長距離依存をモデル化することで、任意の距離でOCT A線間の相関関係を直接得ることができ、NURD補正を高速化することができる。 終端から終端までのマルチアテンションネットワークを開発し、3種類の最適化制約を設計する。 提案手法を従来の2つの特徴ベース手法とCNNベースの手法と比較し, 市販の2つの内視鏡OCTデータセットと, 自家製の内視鏡OCTシステムで収集したプライベートデータセットを比較した。 提案手法は,実時間 (26\pm 3$ fps) に対して$\sim3\times$ speedupを達成し, 補正性能も向上した。

Nonuniform rotational distortion (NURD) correction is vital for endoscopic optical coherence tomography (OCT) imaging and its functional extensions, such as angiography and elastography. Current NURD correction methods require time-consuming feature tracking or cross-correlation calculations and thus sacrifice temporal resolution. Here we propose a cross-attention learning method for the NURD correction in OCT. Our method is inspired by the recent success of the self-attention mechanism in natural language processing and computer vision. By leveraging its ability to model long-range dependencies, we can directly obtain the correlation between OCT A-lines at any distance, thus accelerating the NURD correction. We develop an end-to-end stacked cross-attention network and design three types of optimization constraints. We compare our method with two traditional feature-based methods and a CNN-based method, on two publicly-available endoscopic OCT datasets and a private dataset collected on our home-built endoscopic OCT system. Our method achieved a $\sim3\times$ speedup to real time ($26\pm 3$ fps), and superior correction performance.
翻訳日:2023-06-08 13:40:09 公開日:2023-06-07
# 線形関数近似によるsarsaの収束:ランダム地平線の場合

Convergence of SARSA with linear function approximation: The random horizon case ( http://arxiv.org/abs/2306.04548v1 )

ライセンス: Link先を確認
Lina Palmborg(参考訳) 線形関数近似と組み合わせた強化学習アルゴリズムSARSAは、無限水平方向割引マルコフ決定問題(MDP)に収束することが示されている。 本稿では,これまで示されていないランダムな地平線MDPに対するアルゴリズムの収束性について検討する。 無限地平面割引 MDP の以前の結果と同様、挙動ポリシーが線型関数近似の重みベクトルに対して$\varepsilon$-soft および Lipschitz 連続で十分小さいリプシッツ定数を持つ場合、ランダムな地平面 MDP を考えるとアルゴリズムは確率 1 に収束する。

The reinforcement learning algorithm SARSA combined with linear function approximation has been shown to converge for infinite horizon discounted Markov decision problems (MDPs). In this paper, we investigate the convergence of the algorithm for random horizon MDPs, which has not previously been shown. We show, similar to earlier results for infinite horizon discounted MDPs, that if the behaviour policy is $\varepsilon$-soft and Lipschitz continuous with respect to the weight vector of the linear function approximation, with small enough Lipschitz constant, then the algorithm will converge with probability one when considering a random horizon MDP.
翻訳日:2023-06-08 13:33:44 公開日:2023-06-07
# クェリした記述論理知識ベース

Querying Circumscribed Description Logic Knowledge Bases ( http://arxiv.org/abs/2306.04546v1 )

ライセンス: Link先を確認
Carsten Lutz, Quentin Mani\`ere, Robin Nolte(参考訳) 循環は、非単調な記述論理(DL)を定義する主要なアプローチの1つである。 CQ(conjunctive query, CQ)とUCQ(unions)の評価において, 周囲のDL知識ベース(KB)の満足度などの従来の推論タスクの決定性や複雑さはよく理解されているが, 決定性さえ確立されていない。 本稿では,ALCHIO と EL から DL-Lite の様々なバージョンに至るまでの DL KB の (U)CQ 評価の妥当性を検証し,複雑化とデータ複雑化の両面のより完全な図式を得る。 また、より単純なアトミッククエリ(AQ)についても検討する。

Circumscription is one of the main approaches for defining non-monotonic description logics (DLs). While the decidability and complexity of traditional reasoning tasks such as satisfiability of circumscribed DL knowledge bases (KBs) is well understood, for evaluating conjunctive queries (CQs) and unions thereof (UCQs), not even decidability had been established. In this paper, we prove decidability of (U)CQ evaluation on circumscribed DL KBs and obtain a rather complete picture of both the combined complexity and the data complexity, for DLs ranging from ALCHIO via EL to various versions of DL-Lite. We also study the much simpler atomic queries (AQs).
翻訳日:2023-06-08 13:33:28 公開日:2023-06-07
# ラベルリファインメント用コントラストブートストラップ

Contrastive Bootstrapping for Label Refinement ( http://arxiv.org/abs/2306.04544v1 )

ライセンス: Link先を確認
Shudi Hou, Yu Xia, Muhao Chen, Sujian Li(参考訳) 伝統的テキスト分類は通常、テキストを定義済みの粗いクラスに分類するが、そこから生成されたモデルは、正確なサービスのために、より細かいカテゴリが定期的に出現する現実世界のシナリオを扱えない。 本研究では,粗粒度分類のアノテーションと粗粒度マッピングを用いて,細粒度分類を行う環境について検討する。 通路のラベルを反復的に洗練するための軽量なコントラストクラスタリングに基づくブートストラップ法を提案する。 クラスタリング中、グローバルとローカルの両方の観点からマッピングのガイダンスの下で、負のパスプロトタイプペアを抽出する。 NYTと20Newsの実験は、我々の手法が最先端の手法よりも大きなマージンで優れていることを示している。

Traditional text classification typically categorizes texts into pre-defined coarse-grained classes, from which the produced models cannot handle the real-world scenario where finer categories emerge periodically for accurate services. In this work, we investigate the setting where fine-grained classification is done only using the annotation of coarse-grained categories and the coarse-to-fine mapping. We propose a lightweight contrastive clustering-based bootstrapping method to iteratively refine the labels of passages. During clustering, it pulls away negative passage-prototype pairs under the guidance of the mapping from both global and local perspectives. Experiments on NYT and 20News show that our method outperforms the state-of-the-art methods by a large margin.
翻訳日:2023-06-08 13:33:14 公開日:2023-06-07
# 拡散モデルの設計基礎について:サーベイ

On the Design Fundamentals of Diffusion Models: A Survey ( http://arxiv.org/abs/2306.04542v1 )

ライセンス: Link先を確認
Ziyi Chang, George A. Koulieris, Hubert P. H. Shum(参考訳) 拡散モデルは生成モデルであり、徐々にノイズを加えて除去し、データ生成のためのトレーニングデータの基盤となる分布を学習する。 拡散モデルの構成要素は、多くの設計選択によって大きな注目を集めている。 既存のレビューは主に高レベルのソリューションに焦点を当てており、コンポーネントの設計基本にはあまり触れていない。 本研究は拡散モデルにおけるコンポーネント設計の選択に関する包括的かつコヒーレントなレビューを提供することによって,このギャップに対処しようとするものである。 具体的には,前処理,逆処理,サンプリング手順という3つの重要なコンポーネントに従って,このレビューを整理した。 これにより、拡散モデルに関するきめ細かい視点を提供し、個々の成分の分析、設計選択の適用可能性、拡散モデルの実装に関する今後の研究の恩恵を受けることができます。

Diffusion models are generative models, which gradually add and remove noise to learn the underlying distribution of training data for data generation. The components of diffusion models have gained significant attention with many design choices proposed. Existing reviews have primarily focused on higher-level solutions, thereby covering less on the design fundamentals of components. This study seeks to address this gap by providing a comprehensive and coherent review on component-wise design choices in diffusion models. Specifically, we organize this review according to their three key components, namely the forward process, the reverse process, and the sampling procedure. This allows us to provide a fine-grained perspective of diffusion models, benefiting future studies in the analysis of individual components, the applicability of design choices, and the implementation of diffusion models.
翻訳日:2023-06-08 13:33:02 公開日:2023-06-07
# モジュラー理論を数えるためのトップダウン知識コンパイル

Top-Down Knowledge Compilation for Counting Modulo Theories ( http://arxiv.org/abs/2306.04541v1 )

ライセンス: Link先を確認
Vincent Derkinderen, Pedro Zuidberg Dos Martires, Samuel Kolb, Paolo Morettin(参考訳) 入力式が決定論的分解可能な否定正規形(d-DNNF)である場合に、仮説モデルカウント(#SAT)を効率的に解くことができる。 任意の式を計算などの推論タスクを効率的に実行できる表現に変換することは知識コンパイル(英語版)と呼ばれる。 トップダウン知識コンパイル(Top-down knowledge compilation)は、DPLL探索のトレースを利用してd-DNNF表現を得る#SAT問題の解法である。 知識コンパイルは命題的アプローチでよく研究されているが、(量子化子を含まない)数乗法理論設定(#SMT)のための知識コンパイルはより少ない程度に研究されている。 本稿では,#SMTのコンパイル戦略について議論する。 具体的には, dpll(t) 探索の痕跡に基づくトップダウンコンパイラの提案を行う。

Propositional model counting (#SAT) can be solved efficiently when the input formula is in deterministic decomposable negation normal form (d-DNNF). Translating an arbitrary formula into a representation that allows inference tasks, such as counting, to be performed efficiently, is called knowledge compilation. Top-down knowledge compilation is a state-of-the-art technique for solving #SAT problems that leverages the traces of exhaustive DPLL search to obtain d-DNNF representations. While knowledge compilation is well studied for propositional approaches, knowledge compilation for the (quantifier free) counting modulo theory setting (#SMT) has been studied to a much lesser degree. In this paper, we discuss compilation strategies for #SMT. We specifically advocate for a top-down compiler based on the traces of exhaustive DPLL(T) search.
翻訳日:2023-06-08 13:32:49 公開日:2023-06-07
# NeMO:Bird-Eye-ViewとBDD-Mapベンチマークにおける時空間融合のためのニューラルマップ育成システム

NeMO: Neural Map Growing System for Spatiotemporal Fusion in Bird's-Eye-View and BDD-Map Benchmark ( http://arxiv.org/abs/2306.04540v1 )

ライセンス: Link先を確認
Xi Zhu, Xiya Cao, Zhiwei Dong, Caifa Zhou, Qiangbo Liu, Wei Li, Yongliang Wang(参考訳) 視覚中心鳥眼図(bev)表現は自律運転システム(ads)において必須である。 歴史的情報を活用したマルチフレーム時相融合により,より包括的な知覚結果が得られることが実証されている。 ほとんどの研究は、固定された設定のエゴ中心の地図に焦点を当てているが、長距離のローカルマップ生成は、あまり研究されていない。 本研究は,可読かつ記述可能なビッグマップ,学習ベース融合モジュール,および両者間の相互作用機構を利用して局所地図を生成するための,NeMOという新しいパラダイムの概要を述べる。 すべてのBEVグリッドの特徴分布が同じパターンに従うと仮定して、すべてのグリッドに対して共有重み付きニューラルネットワークを採用して、ビッグマップを更新する。 このパラダイムは、長い時系列と長距離BEVローカルマップの生成の融合をサポートする。 さらに、車線、境界線、歩行者横断を含むマップ要素アノテーションを組み込んだBDD100KベースのデータセットであるBDD-Mapをリリースする。 NuScenesとBDD-Mapデータセットの実験は、NeMOが最先端のマップセグメンテーションメソッドより優れていることを示している。 また,より総合的な比較のために,新たなシーンレベルのBEVマップ評価設定と対応するベースラインを提供する。

Vision-centric Bird's-Eye View (BEV) representation is essential for autonomous driving systems (ADS). Multi-frame temporal fusion which leverages historical information has been demonstrated to provide more comprehensive perception results. While most research focuses on ego-centric maps of fixed settings, long-range local map generation remains less explored. This work outlines a new paradigm, named NeMO, for generating local maps through the utilization of a readable and writable big map, a learning-based fusion module, and an interaction mechanism between the two. With an assumption that the feature distribution of all BEV grids follows an identical pattern, we adopt a shared-weight neural network for all grids to update the big map. This paradigm supports the fusion of longer time series and the generation of long-range BEV local maps. Furthermore, we release BDD-Map, a BDD100K-based dataset incorporating map element annotations, including lane lines, boundaries, and pedestrian crossing. Experiments on the NuScenes and BDD-Map datasets demonstrate that NeMO outperforms state-of-the-art map segmentation methods. We also provide a new scene-level BEV map evaluation setting along with the corresponding baseline for a more comprehensive comparison.
翻訳日:2023-06-08 13:32:34 公開日:2023-06-07
# ラベル付きマルチモーダルデータを持たないマルチモーダル学習:保証と応用

Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications ( http://arxiv.org/abs/2306.04539v1 )

ライセンス: Link先を確認
Paul Pu Liang, Chun Kai Ling, Yun Cheng, Alex Obolenskiy, Yudong Liu, Rohan Pandey, Alex Wilf, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 複数のモーダルから共同で学習する多くの機械学習システムにおいて、中心となる研究課題はマルチモーダル相互作用の性質を理解することである。 ラベル付き一助データのみと自然に共起するマルチモーダルデータ(例えば、ラベル付き画像やキャプション、ビデオ、対応するオーディオ)を用いた半教師付き環境でのインタラクション定量化の課題について検討する。 相互作用の正確な情報理論的定義を用いて、この半教師付き環境でのマルチモーダル相互作用の量を定量化するための下界と上界の導出である。 モーダル性間の共有情報量と個別に訓練された単項分類器間の不一致量に基づいて2つの下界を提案し、最小エントロピー結合の近似アルゴリズムに接続を通して上界を導出する。 これらの推定境界を検証し、実際の相互作用を正確に追跡する方法を示す。 最後に,2つの半教師付きマルチモーダル・アプリケーションについて,(1)マルチモーダル性能と推定相互作用の関係を解析し,(2)合意を超えるモダリティの相違を考慮した自己教師付き学習を行った。

In many machine learning systems that jointly learn from multiple modalities, a core research question is to understand the nature of multimodal interactions: the emergence of new task-relevant information during learning from both modalities that was not present in either alone. We study this challenge of interaction quantification in a semi-supervised setting with only labeled unimodal data and naturally co-occurring multimodal data (e.g., unlabeled images and captions, video and corresponding audio) but when labeling them is time-consuming. Using a precise information-theoretic definition of interactions, our key contributions are the derivations of lower and upper bounds to quantify the amount of multimodal interactions in this semi-supervised setting. We propose two lower bounds based on the amount of shared information between modalities and the disagreement between separately trained unimodal classifiers, and derive an upper bound through connections to approximate algorithms for min-entropy couplings. We validate these estimated bounds and show how they accurately track true interactions. Finally, two semi-supervised multimodal applications are explored based on these theoretical results: (1) analyzing the relationship between multimodal performance and estimated interactions, and (2) self-supervised learning that embraces disagreement between modalities beyond agreement as is typically done.
翻訳日:2023-06-08 13:32:14 公開日:2023-06-07
# チャットGPTが生み出す長方形類似は人間のような精神言語学的特性を欠いている

Long-form analogies generated by chatGPT lack human-like psycholinguistic properties ( http://arxiv.org/abs/2306.04537v1 )

ライセンス: Link先を確認
S. M. Seals and Valerie L. Shalin(参考訳) 心理言語学的分析は、大きな言語モデル(LLM)の出力を評価し、人間の生成したテキストと体系的に比較する手段を提供する。 これらの手法は、LLM出力の心理言語学的特性を特徴づけたり、LLMが人間の生成したテキストと比較して不足する領域を描写するのに使用することができる。 本研究は,精神言語学的手法を応用し,生化学概念に関する長文アナロジーから個々の文を評価する。 導入生化学講座に登録された被験者による類推とチャットGPTによる類推を比較した。 テキストの凝集, 言語, 可読性を解析するCoh-metrixから抽出した78個の特徴を用いた教師付き分類解析を行う(Graesser et. al., 2004)。 その結果, 学生生成・チャットGPT生成アナログの分類における性能が向上した。 モデルパフォーマンスに最も寄与する機能を評価するために、階層的クラスタリングアプローチを用いる。 この分析の結果,2つの情報源間の言語的差異が示唆された。

Psycholinguistic analyses provide a means of evaluating large language model (LLM) output and making systematic comparisons to human-generated text. These methods can be used to characterize the psycholinguistic properties of LLM output and illustrate areas where LLMs fall short in comparison to human-generated text. In this work, we apply psycholinguistic methods to evaluate individual sentences from long-form analogies about biochemical concepts. We compare analogies generated by human subjects enrolled in introductory biochemistry courses to analogies generated by chatGPT. We perform a supervised classification analysis using 78 features extracted from Coh-metrix that analyze text cohesion, language, and readability (Graesser et. al., 2004). Results illustrate high performance for classifying student-generated and chatGPT-generated analogies. To evaluate which features contribute most to model performance, we use a hierarchical clustering approach. Results from this analysis illustrate several linguistic differences between the two sources.
翻訳日:2023-06-08 13:31:50 公開日:2023-06-07
# PromptAttack: 対向的プロンプトによる対話状態トラッカーの探索

PromptAttack: Probing Dialogue State Trackers with Adversarial Prompts ( http://arxiv.org/abs/2306.04535v1 )

ライセンス: Link先を確認
Xiangjue Dong, Yun He, Ziwei Zhu, James Caverlee(参考訳) 現代の会話システムの主要なコンポーネントは、ユーザの目標とニーズをモデル化する対話状態追跡装置(DST)である。 そこで我々は,より堅牢で信頼性の高いDSTを構築するために,DSTモデルを探索するための効果的な逆例を自動的に生成する,プロンプトベースの学習手法を提案する。 このアプローチの2つの重要な特徴は i)モデルパラメータを必要とせずにDSTの出力しか必要とせず、 (ii)任意のDSTをターゲットにした自然言語発話を学習することができる。 現状のDSTに関する実験を通じて,提案手法は精度を最大に低下させ,攻撃成功率を最大化し,高い流速と低摂動率を維持した。 また, 生成した相手のサンプルが, 相手のトレーニングを通じて, DSTをどの程度強化できるかを示す。 これらの結果から,DSTに対する迅速な攻撃の強さが示唆され,改良が継続される。

A key component of modern conversational systems is the Dialogue State Tracker (or DST), which models a user's goals and needs. Toward building more robust and reliable DSTs, we introduce a prompt-based learning approach to automatically generate effective adversarial examples to probe DST models. Two key characteristics of this approach are: (i) it only needs the output of the DST with no need for model parameters, and (ii) it can learn to generate natural language utterances that can target any DST. Through experiments over state-of-the-art DSTs, the proposed framework leads to the greatest reduction in accuracy and the best attack success rate while maintaining good fluency and a low perturbation ratio. We also show how much the generated adversarial examples can bolster a DST through adversarial training. These results indicate the strength of prompt-based attacks on DSTs and leave open avenues for continued refinement.
翻訳日:2023-06-08 13:31:32 公開日:2023-06-07
# 長いシーケンスホップフィールドメモリ

Long Sequence Hopfield Memory ( http://arxiv.org/abs/2306.04532v1 )

ライセンス: Link先を確認
Hamza Tahir Chaudhry, Jacob A. Zavatone-Veth, Dmitry Krotov, Cengiz Pehlevan(参考訳) シーケンスメモリは、エージェントが刺激や動作の複雑なシーケンスをエンコードし、保存し、取り出すのを可能にする、自然および人工知能の重要な属性である。 反復ホップフィールドのようなニューラルネットワークを時間的非対称なヘビー規則で訓練するシーケンスメモリの計算モデルが提案されている。 しかし、これらのネットワークはメモリ間の干渉により、限られたシーケンス容量(記憶されたシーケンスの最大長)に悩まされる。 最近のDense Associative Memoriesの研究に触発されて、非線形相互作用項を導入し、パターン間の分離を強化することにより、これらのモデルのシーケンス能力を拡張する。 従来のホップフィールドネットワークに基づくモデルの既存のスケーリング則を著しく上回り、ネットワークサイズに関するシーケンス容量の新しいスケーリング則を導出し、これらの理論結果を数値シミュレーションにより検証する。 さらに、高相関パターンのシーケンスをリコールするために、一般化された擬似逆則を導入する。 最後に、このモデルを拡張し、状態遷移間の変動タイミングでシーケンスを格納し、生物学的に証明可能な実装を記述する。

Sequence memory is an essential attribute of natural and artificial intelligence that enables agents to encode, store, and retrieve complex sequences of stimuli and actions. Computational models of sequence memory have been proposed where recurrent Hopfield-like neural networks are trained with temporally asymmetric Hebbian rules. However, these networks suffer from limited sequence capacity (maximal length of the stored sequence) due to interference between the memories. Inspired by recent work on Dense Associative Memories, we expand the sequence capacity of these models by introducing a nonlinear interaction term, enhancing separation between the patterns. We derive novel scaling laws for sequence capacity with respect to network size, significantly outperforming existing scaling laws for models based on traditional Hopfield networks, and verify these theoretical results with numerical simulation. Moreover, we introduce a generalized pseudoinverse rule to recall sequences of highly correlated patterns. Finally, we extend this model to store sequences with variable timing between states' transitions and describe a biologically-plausible implementation, with connections to motor neuroscience.
翻訳日:2023-06-08 13:31:15 公開日:2023-06-07
# ディバイドと修復: 対人デモに対する模倣学習のパフォーマンス向上のためのオプションの使用

Divide and Repair: Using Options to Improve Performance of Imitation Learning Against Adversarial Demonstrations ( http://arxiv.org/abs/2306.04581v1 )

ライセンス: Link先を確認
Prithviraj Dasgupta(参考訳) 本研究では,教師や専門家による実演からタスクを実行することの難しさについて考察する。 提案手法は,敵対者によって著しく修正されていない軌道の一部を識別し,時間的に拡張されたポリシーやオプションを用いて学習に活用する手法である。 まず,実験対象の軌跡の空間的特徴と時間的特徴に基づいて,対象とする軌跡の一部を検出・破棄し,学習に用いた場合,学習者の性能を劣化させることのできる軌跡の空間的・時間的特性に基づいて,選択肢に基づくアルゴリズムを用いて,許容可能な軌跡の部分のみから学習する。 提案手法の理論的結果は,学習者の性能を劣化させることなく,部分軌道の修復が実演のサンプル効率を向上させることを示すものである。 そこで,提案手法は,実演されたトラジェクタに対して,異なる種類の攻撃や攻撃の程度が存在する場合に,アタリのようなコンピュータベースのゲームであるルナランダーをプレイすることを学ぶためのものである。 実験結果から,本手法は実演軌跡の逆修正部分を同定し,逆行実験による学習性能の劣化を防止できることが示唆された。

We consider the problem of learning to perform a task from demonstrations given by teachers or experts, when some of the experts' demonstrations might be adversarial and demonstrate an incorrect way to perform the task. We propose a novel technique that can identify parts of demonstrated trajectories that have not been significantly modified by the adversary and utilize them for learning, using temporally extended policies or options. We first define a trajectory divergence measure based on the spatial and temporal features of demonstrated trajectories to detect and discard parts of the trajectories that have been significantly modified by an adversarial expert, and, could degrade the learner's performance, if used for learning, We then use an options-based algorithm that partitions trajectories and learns only from the parts of trajectories that have been determined as admissible. We provide theoretical results of our technique to show that repairing partial trajectories improves the sample efficiency of the demonstrations without degrading the learner's performance. We then evaluate the proposed algorithm for learning to play an Atari-like, computer-based game called LunarLander in the presence of different types and degrees of adversarial attacks of demonstrated trajectories. Our experimental results show that our technique can identify adversarially modified parts of the demonstrated trajectories and successfully prevent the learning performance from degrading due to adversarial demonstrations.
翻訳日:2023-06-08 13:24:27 公開日:2023-06-07
# 人工股関節置換術における深層骨構造解析のためのデータセット

A Dataset for Deep Learning-based Bone Structure Analyses in Total Hip Arthroplasty ( http://arxiv.org/abs/2306.04579v1 )

ライセンス: Link先を確認
Kaidong Zhang, Ziyang Gan, Dong Liu, Xifu Shang(参考訳) 人工股関節置換術(THA)は整形外科において広く用いられている手術である。 THAでは,CT画像から骨構造を解析し,特に手術前,大腿骨頭と大腿骨頭の構造を観察することが臨床的に重要である。 このような骨構造解析のためには、ディープラーニング技術は有望であるが、学習に高品質なラベル付きデータを必要とする。 本稿では,深層学習指向データセットを作成するための効率的なデータアノテーションパイプラインを提案する。 本パイプラインは,非学習型骨抽出法(BE)とアセタブルム法(AFS)とアクティブラーニング型アノテーション改善法(AAR)からなる。 BEには古典的なグラフカットアルゴリズムを用いる。 AFSでは, 1次, 2次勾配正規化, ラインベース非最大抑制, 解剖学的前頭骨抽出による大腿骨頭境界位置推定などの改良アルゴリズムを提案する。 aarの場合、訓練された深層モデルの助けを借りて、アルゴリズムによって生成された擬似ラベルを洗練する:我々は、元の擬似ラベルと深層モデル予測の不一致に基づいて不確実性を測定し、次に、手動のラベルを求める最大の不確実性を持つサンプルを見つける。 提案したパイプラインを用いて,300以上の臨床および多様なCTスキャンから大規模骨構造解析データセットを構築した。 データのテストセットに対して、注意深い手動ラベリングを行います。 次に、データのトレーニングとテストセットを用いて、最先端の深層画像セグメンテーションの複数の手法をベンチマークする。 提案したデータアノテーションパイプラインの有効性を実験的に検証した。 データセット、関連するコード、モデルはhttps://github.com/hitachinsk/THA.comで公開される。

Total hip arthroplasty (THA) is a widely used surgical procedure in orthopedics. For THA, it is of clinical significance to analyze the bone structure from the CT images, especially to observe the structure of the acetabulum and femoral head, before the surgical procedure. For such bone structure analyses, deep learning technologies are promising but require high-quality labeled data for the learning, while the data labeling is costly. We address this issue and propose an efficient data annotation pipeline for producing a deep learning-oriented dataset. Our pipeline consists of non-learning-based bone extraction (BE) and acetabulum and femoral head segmentation (AFS) and active-learning-based annotation refinement (AAR). For BE we use the classic graph-cut algorithm. For AFS we propose an improved algorithm, including femoral head boundary localization using first-order and second-order gradient regularization, line-based non-maximum suppression, and anatomy prior-based femoral head extraction. For AAR, we refine the algorithm-produced pseudo labels with the help of trained deep models: we measure the uncertainty based on the disagreement between the original pseudo labels and the deep model predictions, and then find out the samples with the largest uncertainty to ask for manual labeling. Using the proposed pipeline, we construct a large-scale bone structure analyses dataset from more than 300 clinical and diverse CT scans. We perform careful manual labeling for the test set of our data. We then benchmark multiple state-of-the art deep learning-based methods of medical image segmentation using the training and test sets of our data. The extensive experimental results validate the efficacy of the proposed data annotation pipeline. The dataset, related codes and models will be publicly available at https://github.com/hitachinsk/THA.
翻訳日:2023-06-08 13:23:54 公開日:2023-06-07
# 性別・氏名・その他の謎--ジェンダー排他的翻訳の曖昧性に向けて

Gender, names and other mysteries: Towards the ambiguous for gender-inclusive translation ( http://arxiv.org/abs/2306.04573v1 )

ライセンス: Link先を確認
Danielle Saunders, Katrina Olsen(参考訳) MTにおけるジェンダーに関するほとんどの研究は、ソース言語のジェンダーマーカーがアウトプットで解決されるであろう「あいまいな」インプットに焦点を当てている。 逆に,本論文では,原文が明示的なジェンダーマーカーを欠いているが,文法的なジェンダーが豊富であることから,対象文はそれらを含む。 特に人名を含む入力に注目します。 このような文対の調査は、mtのジェンダーバイアスとその緩和に関する研究に新たな光を投げかける。 MTデータにおける名前と性別の共起の多くは、ソース言語の「あいまいなジェンダー」と解けず、ジェンダーとあいまいな例は、多くのトレーニング例を構成する可能性がある。 以上より、性別と翻訳の曖昧性を受け入れる性内訳への潜在的ステップについて考察する。

The vast majority of work on gender in MT focuses on 'unambiguous' inputs, where gender markers in the source language are expected to be resolved in the output. Conversely, this paper explores the widespread case where the source sentence lacks explicit gender markers, but the target sentence contains them due to richer grammatical gender. We particularly focus on inputs containing person names. Investigating such sentence pairs casts a new light on research into MT gender bias and its mitigation. We find that many name-gender co-occurrences in MT data are not resolvable with 'unambiguous gender' in the source language, and that gender-ambiguous examples can make up a large proportion of training examples. From this, we discuss potential steps toward gender-inclusive translation which accepts the ambiguity in both gender and translation.
翻訳日:2023-06-08 13:22:30 公開日:2023-06-07
# 収量予測における機械学習、リモートセンシング、およびiotアプローチの最近の応用:批判的レビュー

Recent applications of machine learning, remote sensing, and iot approaches in yield prediction: a critical review ( http://arxiv.org/abs/2306.04566v1 )

ライセンス: Link先を確認
Fatima Zahra Bassine, Terence Epule Epule, Ayoub Kechchour, Abdelghani Chehbouni(参考訳) 農業におけるリモートセンシングと機械学習の統合は、データ分析を通じて洞察と予測を提供することによって、業界を変革している。 この組み合わせは、収量予測と水管理の改善をもたらし、効率の向上、収量の改善、持続可能な農業慣行をもたらす。 国連の持続可能な開発目標、特に「ゼロハンガー」を達成するには、人工知能(AI)、機械学習(ML)、リモートセンシング(RS)、物のインターネット(IoT)などを通じて達成可能な収穫量と降水ギャップの調査が必要である。 これらの技術を統合することにより、堅牢な農業用モバイルアプリケーションやwebアプリケーションの開発が可能になり、農家や意思決定者に対して、作物管理の改善と効率向上のための貴重な情報とツールを提供することができる。 いくつかの研究は、これらの新技術と、作物のモニタリング、収量予測、灌水管理など様々なタスクの可能性について研究している。 本稿では,作物収量予測においてrs,ml,クラウドコンピューティング,iotを用いた関連記事についてレビューする。 作物収量予測と水管理に関する文献で提案されている異なる機械学習アプローチを批判的に評価することで、この分野の現状をレビューする。 農業生産システムにおいて、これらの方法が意思決定を改善する方法に関する洞察を提供する。 この研究は、初等文献で収率予測に興味がある人のための補足として機能するが、最も重要なのは、どのようなアプローチがリアルタイムかつ堅牢な予測に利用できるかである。

The integration of remote sensing and machine learning in agriculture is transforming the industry by providing insights and predictions through data analysis. This combination leads to improved yield prediction and water management, resulting in increased efficiency, better yields, and more sustainable agricultural practices. Achieving the United Nations' Sustainable Development Goals, especially "zero hunger," requires the investigation of crop yield and precipitation gaps, which can be accomplished through, the usage of artificial intelligence (AI), machine learning (ML), remote sensing (RS), and the internet of things (IoT). By integrating these technologies, a robust agricultural mobile or web application can be developed, providing farmers and decision-makers with valuable information and tools for improving crop management and increasing efficiency. Several studies have investigated these new technologies and their potential for diverse tasks such as crop monitoring, yield prediction, irrigation management, etc. Through a critical review, this paper reviews relevant articles that have used RS, ML, cloud computing, and IoT in crop yield prediction. It reviews the current state-of-the-art in this field by critically evaluating different machine-learning approaches proposed in the literature for crop yield prediction and water management. It provides insights into how these methods can improve decision-making in agricultural production systems. This work will serve as a compendium for those interested in yield prediction in terms of primary literature but, most importantly, what approaches can be used for real-time and robust prediction.
翻訳日:2023-06-08 13:22:14 公開日:2023-06-07
# ChatGPTは楽しいが、面白くない! ユーモアはまだ大きな言語モデルに挑戦しています

ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models ( http://arxiv.org/abs/2306.04563v1 )

ライセンス: Link先を確認
Sophie Jentzsch, Kristian Kersting(参考訳) ユーモアは人間のコミュニケーションの中心的な側面であり、これまでの人工エージェントでは解決されていない。 大規模言語モデル(llm)は、暗黙的および文脈的情報をキャプチャできるようになる。 特にOpenAIのChatGPTは、最近大きな注目を集めた。 GPT3ベースのモデルは、ほとんど人間レベルでコミュニケーションを取り、ジョークを言うこともできる。 ユーモアは人間のコミュニケーションの不可欠な要素である。 しかしChatGPTは本当に面白いのか? 私たちはChatGPTのユーモアのセンスをテストに当てた。 ジョーク、すなわち生成、説明、検出に関する一連の探索実験において、ChatGPTの人間のユーモアを把握、再現する能力を理解しようと試みる。 モデル自体がアクセスできないため、プロンプトベースの実験を適用した。 私たちの経験的な証拠は、ジョークはハードコードではなく、モデルによって新たに生成されるものではないことを示している。 1008のジョークの90%以上は同じ25のジョークだった。 このシステムは、正当なジョークを正確に説明するだけでなく、悪質なジョークについての架空の説明も生み出す。 ジョークの典型的特徴は、ジョークの分類においてchatgptを誤解させることがある。 ChatGPTはまだ計算のユーモアを解いていないが、「楽しい」マシンへの大きな飛躍となるかもしれない。

Humor is a central aspect of human communication that has not been solved for artificial agents so far. Large language models (LLMs) are increasingly able to capture implicit and contextual information. Especially, OpenAI's ChatGPT recently gained immense public attention. The GPT3-based model almost seems to communicate on a human level and can even tell jokes. Humor is an essential component of human communication. But is ChatGPT really funny? We put ChatGPT's sense of humor to the test. In a series of exploratory experiments around jokes, i.e., generation, explanation, and detection, we seek to understand ChatGPT's capability to grasp and reproduce human humor. Since the model itself is not accessible, we applied prompt-based experiments. Our empirical evidence indicates that jokes are not hard-coded but mostly also not newly generated by the model. Over 90% of 1008 generated jokes were the same 25 Jokes. The system accurately explains valid jokes but also comes up with fictional explanations for invalid jokes. Joke-typical characteristics can mislead ChatGPT in the classification of jokes. ChatGPT has not solved computational humor yet but it can be a big leap toward "funny" machines.
翻訳日:2023-06-08 13:21:49 公開日:2023-06-07
# PhenoBench -- 農業領域における意味的画像解釈のための大規模データセットとベンチマーク

PhenoBench -- A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain ( http://arxiv.org/abs/2306.04557v1 )

ライセンス: Link先を確認
Jan Weyler and Federico Magistri and Elias Marks and Yue Linn Chong and Matteo Sodano and Gianmarco Roggiolani and Nived Chebrolu and Cyrill Stachniss and Jens Behley(参考訳) 食料、食物、繊維、燃料の生産は農業の重要な課題である。 特に作物生産は、世界人口の増加、気候変動、持続可能な生産の必要性、熟練労働者の欠如、概して耕作可能な土地の限られた利用が原因で、今後数十年にわたる様々な課題に対処しなければならない。 ビジョンシステムは、より優れた、より持続可能なフィールド管理決定を行うツールを提供し、時間的に密で再現可能な測定を可能にして、新しい種類の作物の育成を支援することで、これらの課題に対処するのに役立つ。 近年,農業分野における認識タスクへの取り組みがコンピュータビジョンやロボティクスのコミュニティへの関心が高まっている。農業ロボティクスは,労働者不足に対処し,より持続可能な農業生産を可能にするための,有望なソリューションである。 他のドメインの大規模データセットとベンチマークは容易に利用可能であり、より信頼性の高いビジョンシステムへの大きな進歩をもたらしたが、農業用データセットとベンチマークは比較可能なほどまれである。 本稿では,実農地のイメージを意味的に解釈するための大規模データセットとベンチマークを提案する。 UAVで記録したデータセットは、高品質で密集した作物や雑草のアノテーションを提供すると同時に、作物の葉のきめ細かいラベルも同時に提供し、農業領域における視覚知覚のための新しいアルゴリズムの開発を可能にします。 ラベル付きデータとともに、トレーニングデータでカバーされた既知のフィールドと、全く見えないフィールドからなる隠れテストセット上で、異なる視覚的知覚タスクを評価するための新しいベンチマークを提供する。 タスクは、意味的セグメンテーション、植物のパノプティックセグメンテーション、葉のインスタンスセグメンテーション、植物と葉の検出、そして植物と葉を共同で識別するための階層的なパノプティックセグメンテーションを含む。

The production of food, feed, fiber, and fuel is a key task of agriculture. Especially crop production has to cope with a multitude of challenges in the upcoming decades caused by a growing world population, climate change, the need for sustainable production, lack of skilled workers, and generally the limited availability of arable land. Vision systems could help cope with these challenges by offering tools to make better and more sustainable field management decisions and support the breeding of new varieties of crops by allowing temporally dense and reproducible measurements. Recently, tackling perception tasks in the agricultural domain got increasing interest in the computer vision and robotics community since agricultural robotics are one promising solution for coping with the lack of workers and enable a more sustainable agricultural production at the same time. While large datasets and benchmarks in other domains are readily available and have enabled significant progress toward more reliable vision systems, agricultural datasets and benchmarks are comparably rare. In this paper, we present a large dataset and benchmarks for the semantic interpretation of images of real agricultural fields. Our dataset recorded with a UAV provides high-quality, dense annotations of crops and weeds, but also fine-grained labels of crop leaves at the same time, which enable the development of novel algorithms for visual perception in the agricultural domain. Together with the labeled data, we provide novel benchmarks for evaluating different visual perception tasks on a hidden test set comprised of different fields: known fields covered by the training data and a completely unseen field. The tasks cover semantic segmentation, panoptic segmentation of plants, leaf instance segmentation, detection of plants and leaves, and hierarchical panoptic segmentation for jointly identifying plants and leaves.
翻訳日:2023-06-08 13:21:31 公開日:2023-06-07
# StudentEval: 大規模言語モデルのための学生記述プロンプトのベンチマーク

StudentEval: A Benchmark of Student-Written Prompts for Large Language Models of Code ( http://arxiv.org/abs/2306.04556v1 )

ライセンス: Link先を確認
Hannah McLean Babe, Sydney Nguyen, Yangtian Zi, Arjun Guha, Molly Q Feldman, Carolyn Jane Anderson(参考訳) コードLLMは急速にデプロイされ、プロのプログラマをより生産的にできる証拠があります。 現在のコード生成ベンチマークは、専門家のプロンプトによってモデルが正しいプログラムを生成するかどうかを測定する。 本稿では,非専門家プロンジャの特定集団による問題毎の複数のプロンプトを含む新しいベンチマークを提案する。 StudentEvalには48の問題に対して1,749のプロンプトがあり、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。 学生たちは、Code LLMと対話的に作業しながら、これらのプロンプトを書きました。 StudentEvalを使って5つのコードLLMを評価し、既存のベンチマークよりもモデルパフォーマンスの差別化に優れています。 プロンプトの分析を行い,学生のプロンプト技術に有意な変化を見出す。 また、非決定論的LCMサンプリングは、学生に、そのプロンプトが実際よりも効果的である(あるいは少ない)と考えることを誤解させる可能性がある。

Code LLMs are being rapidly deployed and there is evidence that they can make professional programmers more productive. Current benchmarks for code generation measure whether models generate correct programs given an expert prompt. In this paper, we present a new benchmark containing multiple prompts per problem, written by a specific population of non-expert prompters: beginning programmers. StudentEval contains 1,749 prompts for 48 problems, written by 80 students who have only completed one semester of Python programming. Our students wrote these prompts while working interactively with a Code LLM, and we observed very mixed success rates. We use StudentEval to evaluate 5 Code LLMs and find that StudentEval is a better discriminator of model performance than existing benchmarks. We analyze the prompts and find significant variation in students' prompting techniques. We also find that nondeterministic LLM sampling could mislead students into thinking that their prompts are more (or less) effective than they actually are, which has implications for how to teach with Code LLMs.
翻訳日:2023-06-08 13:21:01 公開日:2023-06-07
# 診断推論のためのドメイン内言語モデルを用いたマルチタスクトレーニング

Multi-Task Training with In-Domain Language Models for Diagnostic Reasoning ( http://arxiv.org/abs/2306.04551v1 )

ライセンス: Link先を確認
Brihat Sharma, Yanjun Gao, Timothy Miller, Matthew M. Churpek, Majid Afshar and Dmitriy Dligach(参考訳) 生成型人工知能(ai:generative artificial intelligence)は、臨床診断の意思決定支援を強化し、診断エラーを減らすための有望な方向性である。 臨床AIシステムの開発をさらに進めるため、診断推論ベンチマーク(DR.BENCH)は、臨床推論において重要な要素を表す6つのタスクからなる総合的な生成AIフレームワークとして導入された。 本稿では,bench博士(gao et al., 2023)における問題要約タスクに着目し,ドメイン内言語モデルとドメイン外言語モデル,マルチタスクとシングルタスクトレーニングの比較分析を行う。 マルチタスク, 臨床訓練型言語モデルでは, 汎用ドメインモデルよりも大きな差があり, ROUGE-Lスコアが28.55である新しい最先端パフォーマンスが確立されている。 この研究は、臨床診断推論タスクを最適化するためのドメイン特化トレーニングの価値を強調するものだ。

Generative artificial intelligence (AI) is a promising direction for augmenting clinical diagnostic decision support and reducing diagnostic errors, a leading contributor to medical errors. To further the development of clinical AI systems, the Diagnostic Reasoning Benchmark (DR.BENCH) was introduced as a comprehensive generative AI framework, comprised of six tasks representing key components in clinical reasoning. We present a comparative analysis of in-domain versus out-of-domain language models as well as multi-task versus single task training with a focus on the problem summarization task in DR.BENCH (Gao et al., 2023). We demonstrate that a multi-task, clinically trained language model outperforms its general domain counterpart by a large margin, establishing a new state-of-the-art performance, with a ROUGE-L score of 28.55. This research underscores the value of domain-specific training for optimizing clinical diagnostic reasoning tasks.
翻訳日:2023-06-08 13:20:43 公開日:2023-06-07
# nlpにおける分散外ロバスト性の再検討:ベンチマーク、分析、llms評価

Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations ( http://arxiv.org/abs/2306.04618v1 )

ライセンス: Link先を確認
Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng Gao, Fangyuan Zou, Xingyi Cheng, Heng Ji, Zhiyuan Liu, Maosong Sun(参考訳) 本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)の堅牢性に関する研究を再検討する。 従来の研究では,OODのロバスト性評価の精度を損なうような,適切な課題がほとんどなかった。 これらの問題に対処するため,我々は,明確な分化と分散の困難さを保証するためのベンチマーク構築プロトコルを提案する。 次に,5つのタスクと20のデータセットをカバーする分散ロバスト性評価のためのベンチマークスイートであるbossを紹介する。 BOSSに基づいて、OODロバスト性の分析と評価のための事前学習言語モデルに関する一連の実験を行う。 まず,バニラ微調整において,分布内(ID)とOOD性能の関係を検討する。 我々は,内的学習メカニズムを明らかにする3つの典型的なタイプを同定し,OODの堅牢性の予測を助長する可能性があり,IDデータセットの進歩に関連している。 次に,BOSSの古典的手法を5つ評価し,特定の症例で有効性を示したが,バニラ微調整に比べて有意な改善は得られなかった。 さらに, 5つのLLMを様々な適応パラダイムで評価し, 十分なIDデータが得られる場合, 細調整ドメイン固有モデルは, 実例でLLMを著しく上回ることがわかった。 しかし、OODの場合、文脈内学習によるLLMの優先順位付けはより良い結果をもたらす。 細調整された小型モデルとLLMの両方が、下流タスクを効果的に処理する上での課題に直面している。 コードは \url{https://github.com/lifan-yuan/OOD_NLP} で公開されている。

This paper reexamines the research on out-of-distribution (OOD) robustness in the field of NLP. We find that the distribution shift settings in previous studies commonly lack adequate challenges, hindering the accurate evaluation of OOD robustness. To address these issues, we propose a benchmark construction protocol that ensures clear differentiation and challenging distribution shifts. Then we introduce BOSS, a Benchmark suite for Out-of-distribution robustneSS evaluation covering 5 tasks and 20 datasets. Based on BOSS, we conduct a series of experiments on pre-trained language models for analysis and evaluation of OOD robustness. First, for vanilla fine-tuning, we examine the relationship between in-distribution (ID) and OOD performance. We identify three typical types that unveil the inner learning mechanism, which could potentially facilitate the forecasting of OOD robustness, correlating with the advancements on ID datasets. Then, we evaluate 5 classic methods on BOSS and find that, despite exhibiting some effectiveness in specific cases, they do not offer significant improvement compared to vanilla fine-tuning. Further, we evaluate 5 LLMs with various adaptation paradigms and find that when sufficient ID data is available, fine-tuning domain-specific models outperform LLMs on ID examples significantly. However, in the case of OOD instances, prioritizing LLMs with in-context learning yields better results. We identify that both fine-tuned small models and LLMs face challenges in effectively addressing downstream tasks. The code is public at \url{https://github.com/lifan-yuan/OOD_NLP}.
翻訳日:2023-06-08 13:14:58 公開日:2023-06-07
# 2つの単語テスト:大規模言語モデルのセマンティックベンチマーク

The Two Word Test: A Semantic Benchmark for Large Language Models ( http://arxiv.org/abs/2306.04610v1 )

ライセンス: Link先を確認
Nicholas Riccardi and Rutvik H. Desai(参考訳) 大規模言語モデル(LLM)は最近、高度な専門的試験の合格やベンチマークテストの要求など、顕著な能力を示している。 この業績は、言語に対する人間的な理解や「真の」理解、さらには人工知能(AGI)にも近いことを示唆している。 そこで本研究では,高度な訓練を伴わずに人間が比較的容易に実行できるタスクを用いて,2語句を用いてLLMの意味能力を評価可能な,新たなオープンソースベンチマークを提案する。 複数の単語を1つの概念に組み合わせることは、人間の言語と知性の基本的な側面である。 この試験では、1768年の名詞と名詞の組み合わせを意味のある(例えば、赤ん坊)か意味のない(ヤギの空など)と評価した意味判断を必要とする。 150人のレイパーが 我々は,0-4尺度の有意性評価と2値判定を行うタスクのバージョンを提供する。 GPT-4, GPT-3.5, BardのTWTを用いた実験を行った。 その結果、人間と比較して、全てのモデルはこれらのフレーズの格付けの意義が低いことが判明した。 GPT-3.5とBardは、意味のあるフレーズとナンセンスなフレーズを区別することができない。 GPT-4は組合せ句の二項識別を著しく改善するが、それでもヒトのパフォーマンスよりも著しく劣っている。 TWTは、現在のLLMの限界と弱点を理解し、それらを改善することができる。 また、このテストでは「真の理解」や「AGI to LLMs」の帰結に注意が必要であることも指摘されています。 twtは以下で利用可能である。 https://github.com/nickriccardi/two-word-test

Large Language Models (LLMs) have shown remarkable abilities recently, including passing advanced professional exams and demanding benchmark tests. This performance has led many to suggest that they are close to achieving humanlike or 'true' understanding of language, and even Artificial General Intelligence (AGI). Here, we provide a new open-source benchmark that can assess semantic abilities of LLMs using two-word phrases using a task that can be performed relatively easily by humans without advanced training. Combining multiple words into a single concept is a fundamental aspect of human language and intelligence. The test requires meaningfulness judgments of 1768 noun-noun combinations that have been rated as meaningful (e.g., baby boy) or not meaningful (e.g., goat sky). by 150 human raters. We provide versions of the task that probe meaningfulness ratings on a 0-4 scale as well as binary judgments. We conducted a series of experiments using the TWT on GPT-4, GPT-3.5, and Bard, with both versions. Results demonstrated that, compared to humans, all models perform poorly at rating meaningfulness of these phrases. GPT-3.5 and Bard are also unable to make binary discriminations between sensible and nonsense phrases as making sense. GPT-4 makes a substantial improvement in binary discrimination of combinatorial phrases but is still significantly worse than human performance. The TWT can be used to understand the limitations and weaknesses of current LLMs, and potentially improve them. The test also reminds us that caution is warranted in attributing 'true understanding' or AGI to LLMs. TWT is available at: https://github.com/NickRiccardi/two-word-test
翻訳日:2023-06-08 13:14:33 公開日:2023-06-07
# テキストプロンプトによる高品質検出データ生成のためのテキスト間拡散モデルへの幾何制御の統合

Integrating Geometric Control into Text-to-Image Diffusion Models for High-Quality Detection Data Generation via Text Prompt ( http://arxiv.org/abs/2306.04607v1 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツの作成や画像分類などのタスクのためのデータの生成に際し、非常に注目されている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件が不可欠である未探索領域に留まっている。 従来はコピー・ペースト合成やレイアウト・トゥ・イメージ(L2I)生成を利用していた。 本稿では,様々な幾何学的条件を柔軟にテキストプロンプトに変換し,高品質なデータ生成のための事前学習されたtext-to-image(t2i)拡散モデルを強化するシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to their remarkable ability to create content and generate data for tasks such as image classification. However, the usage of diffusion models to generate high-quality object detection data remains an underexplored area, where not only the image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode semantic layouts. In this paper, we propose GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower the pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2023-06-08 13:14:03 公開日:2023-06-07
# 系統的誤りによるデータからの解の解明--物理に制約された畳み込みニューラルネットワークアプローチ

Uncovering solutions from data corrupted by systematic errors: A physics-constrained convolutional neural network approach ( http://arxiv.org/abs/2306.04600v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 自然現象や工学システムに関する情報は一般的にデータに含まれる。 データはモデルや実験で系統的なエラーによって破損する可能性がある。 本稿では,データから体系的な誤りを取り除き,基礎となる物理系の時空間解を明らかにするツールを提案する。 このツールは物理制約付き畳み込みニューラルネットワーク(PC-CNN)で、方程式とデータを管理するシステムからの情報を組み合わせる。 線形対流、バーガース方程式、二次元乱流などの偏微分方程式によってモデル化される基本現象に焦点を当てる。 まず、この問題を定式化し、物理制約付き畳み込みニューラルネットワークを記述し、体系的誤りをパラメータ化する。 次に,大規模マルチモーダル・システマティック・エラーによるデータから解法を明らかにする。 第3に,異なる系統的誤りに対するパラメトリック研究を行う。 その方法が堅牢であることを示す。 第4に、未発見解の物理的性質を分析する。 PC-CNNから推定される解は、体系的な誤りによって破損したデータとは対照的に物理的であることを示す。 この研究は、モデルから認識的誤りを取り除き、測定から体系的エラーを取り除く機会を開く。

Information on natural phenomena and engineering systems is typically contained in data. Data can be corrupted by systematic errors in models and experiments. In this paper, we propose a tool to uncover the spatiotemporal solution of the underlying physical system by removing the systematic errors from data. The tool is the physics-constrained convolutional neural network (PC-CNN), which combines information from both the systems governing equations and data. We focus on fundamental phenomena that are modelled by partial differential equations, such as linear convection, Burgers equation, and two-dimensional turbulence. First, we formulate the problem, describe the physics-constrained convolutional neural network, and parameterise the systematic error. Second, we uncover the solutions from data corrupted by large multimodal systematic errors. Third, we perform a parametric study for different systematic errors. We show that the method is robust. Fourth, we analyse the physical properties of the uncovered solutions. We show that the solutions inferred from the PC-CNN are physical, in contrast to the data corrupted by systematic errors that does not fulfil the governing equations. This work opens opportunities for removing epistemic errors from models, and systematic errors from measurements.
翻訳日:2023-06-08 13:13:27 公開日:2023-06-07
# 数千kmにわたるスケーラブル量子鍵分布の実験的実証

Experimental demonstration of scalable quantum key distribution over a thousand kilometers ( http://arxiv.org/abs/2306.04599v1 )

ライセンス: Link先を確認
A. Aliev, V. Statiev, I. Zarubin, N. Kirsanov, D. Strizhak, A. Bezruchenko, A. Osicheva, A. Smirnov, M. Yarovikov, A. Kodukhov, V. Pastushenko, M. Pflitsch, V. Vinokur(参考訳) 長距離通信は現代の情報学の主要な問題の一つである。 古典的な送信は量子コンピュータ攻撃に弱いと認識されている。 注目すべきは、量子コンピュータをエンゲージするのと同じ量子力学が、量子鍵分布(QKD)プロトコルを介してこれらの攻撃に対して保証された保護を提供することである。 しかし、光チャネルの信号減衰は、約100kmの距離で起こるため、長距離伝送は問題となる。 この問題を解決するために、テラ量子QKDプロトコル(TQ-QKDプロトコル)と呼ばれるQKDプロトコルを作成し、ランダムなビットエンコーディングに十分な光子を含む半古典的なパルスを使用し、エルビウム増幅器を用いて光子パルスを再翻訳すると同時に、この強度で約100メートルの距離でも数個の光子がチャネル外へ移動できることを保証する。 その結果、盗聴器は信号の失われた部分を効率的に利用できない。 中央のTQ-QKDプロトコルのコンポーネントは、送信チャネルの損失に対するエンドツーエンドの制御であり、原則として、盗聴者が送信された情報を得ることを可能にする。 しかし、我々の制御精度は、漏れの度合いが制御境界より下にある場合、リーク状態は数個の光子しか含まないため量子である。 したがって、 `0' と `1' を表すビット符号化状態の盗聴者部分には、ほとんど区別がつかない。 本研究は,TQ-QKDプロトコルが1032km以上でセキュアな通信を実現することを実証するものである。 さらに、構成部品の品質をさらに洗練することで、到達可能な伝送距離を大きく拡大する。 これは今後数年間でセキュアなグローバルQKDネットワークを構築するための道を開くものだ。

Secure communication over long distances is one of the major problems of modern informatics. Classical transmissions are recognized to be vulnerable to quantum computer attacks. Remarkably, the same quantum mechanics that engenders quantum computers offer guaranteed protection against these attacks via a quantum key distribution (QKD) protocol. Yet, long-distance transmission is problematic since the signal decay in optical channels occurs at distances of about a hundred kilometers. We resolve this problem by creating a QKD protocol, further referred to as the Terra Quantum QKD protocol (TQ-QKD protocol), using semiclassical pulses containing enough photons for random bit encoding and exploiting erbium amplifiers to retranslate photon pulses and, at the same time, ensuring that at this intensity only a few photons could go outside the channel even at distances about hundred meters. As a result, an eavesdropper will not be able to efficiently utilize the lost part of the signal. A central TQ-QKD protocol's component is the end-to-end control over losses in the transmission channel which, in principle, could allow an eavesdropper to obtain the transmitted information. However, our control precision is such that if the degree of the leak falls below the control border, then the leaking states are quantum since they contain only a few photons. Therefore, available to an eavesdropper parts of the bit encoding states representing `0' and `1' are nearly indistinguishable. Our work presents the experimental realization of the TQ-QKD protocol ensuring secure communication over 1032 kilometers. Moreover, further refining the quality of the scheme's components will greatly expand the attainable transmission distances. This paves the way for creating a secure global QKD network in the upcoming years.
翻訳日:2023-06-08 13:13:09 公開日:2023-06-07
# 言語モデルがジェンダーマニュフェストを獲得 - ジェンダーバイアスとFew-Shotデータ干渉の緩和

Language Models Get a Gender Makeover: Mitigating Gender Bias with Few-Shot Data Interventions ( http://arxiv.org/abs/2306.04597v1 )

ライセンス: Link先を確認
Himanshu Thakur, Atishay Jain, Praneetha Vaddamanu, Paul Pu Liang and Louis-Philippe Morency(参考訳) 事前訓練された大規模言語モデルに存在する社会的偏見は重要な問題であり、これらのモデルは無数の下流アプリケーションにおいて偏見を伝播させ、特定のグループに対して不公平である。 これらのモデルのスクラッチからの大規模な再訓練は時間的・計算的拡張性の両方のため、事前訓練されたモデルをデバイアス化する様々なアプローチが提案されている。 現状のデバイアス手法のほとんどがトレーニング体制の変化に焦点を合わせているが,本稿では,事前学習モデルにおけるジェンダーバイアスを減らすための強力かつ簡便な手法として,データ介入戦略を提案する。 具体的には,非バイアス(介入)トレーニング例10例に対して事前学習したモデルを微調整することで,任意の性別を好む傾向が著しく減少することを示す。 提案手法は,いくつかのトレーニング例のみを必要とするため,本手法は非常に実現可能かつ実用的である。 広範な実験を通じて,我々は,言語モデリング能力の低下を最小限に抑えながら,最先端のベースラインよりもデバイアス技術が優れていることを示す。

Societal biases present in pre-trained large language models are a critical issue as these models have been shown to propagate biases in countless downstream applications, rendering them unfair towards specific groups of people. Since large-scale retraining of these models from scratch is both time and compute-expensive, a variety of approaches have been previously proposed that de-bias a pre-trained model. While the majority of current state-of-the-art debiasing methods focus on changes to the training regime, in this paper, we propose data intervention strategies as a powerful yet simple technique to reduce gender bias in pre-trained models. Specifically, we empirically show that by fine-tuning a pre-trained model on only 10 de-biased (intervened) training examples, the tendency to favor any gender is significantly reduced. Since our proposed method only needs a few training examples, our few-shot debiasing approach is highly feasible and practical. Through extensive experimentation, we show that our debiasing technique performs better than competitive state-of-the-art baselines with minimal loss in language modeling ability.
翻訳日:2023-06-08 13:12:39 公開日:2023-06-07
# 強化学習における観察の一般化

Generalization Across Observation Shifts in Reinforcement Learning ( http://arxiv.org/abs/2306.04595v1 )

ライセンス: Link先を確認
Anuj Mahajan and Amy Zhang(参考訳) 環境の変化にロバストな学習方針は強化学習エージェントの現実世界への展開に不可欠である。 また、環境シフトをまたいだ優れた一般化を実現するためにも必要である。 我々は,強化学習を用いてエージェントを訓練するための簡潔な表現空間を学習し,観察のタスク関連コンポーネントを抽象化する強力な手段を提供するバイシミュレーション指標に着目した。 本研究では,バイシミュレーションフレームワークを拡張し,文脈依存観測シフトも考慮する。 具体的には,シミュレータに基づく学習設定に焦点をあて,新しいビシミュレーションに基づく目的を用いて,観測シフトに不変な表現空間を学習する。 これにより、テスト時間中にさまざまな監視設定にエージェントをデプロイし、見えないシナリオに一般化することができます。 さらに,シミュレータの忠実性と性能伝達保証のための新しい理論境界を提供し,学習ポリシーを用いてシフトを検知する。 高次元画像ベース制御領域の実証分析により,本手法の有効性が示された。

Learning policies which are robust to changes in the environment are critical for real world deployment of Reinforcement Learning agents. They are also necessary for achieving good generalization across environment shifts. We focus on bisimulation metrics, which provide a powerful means for abstracting task relevant components of the observation and learning a succinct representation space for training the agent using reinforcement learning. In this work, we extend the bisimulation framework to also account for context dependent observation shifts. Specifically, we focus on the simulator based learning setting and use alternate observations to learn a representation space which is invariant to observation shifts using a novel bisimulation based objective. This allows us to deploy the agent to varying observation settings during test time and generalize to unseen scenarios. We further provide novel theoretical bounds for simulator fidelity and performance transfer guarantees for using a learnt policy to unseen shifts. Empirical analysis on the high-dimensional image based control domains demonstrates the efficacy of our method.
翻訳日:2023-06-08 13:12:20 公開日:2023-06-07
# marinevrs: 意味理解による説明可能な海中ビデオ検索システム

MarineVRS: Marine Video Retrieval System with Explainability via Semantic Understanding ( http://arxiv.org/abs/2306.04593v1 )

ライセンス: Link先を確認
Tan-Sang Ha, Hai Nguyen-Truong, Tuan-Anh Vu, Sai-Kit Yeung(参考訳) 特に海洋環境において、ロバストで信頼性の高い映像検索システムの構築は、大量の高密度かつ反復的なデータ、閉塞性、ぼやけ性、低い照明条件、抽象的なクエリを扱うなど、いくつかの要因により困難な課題である。 これらの課題に対処するために,海洋ドメイン用に設計された新鮮でフレキシブルなビデオ検索システムであるMarineVRSを提案する。 MarineVRSは、視覚的および言語的オブジェクト表現のための最先端の手法を統合し、大量の水中ビデオデータの効率的かつ正確な検索と分析を可能にする。 また,画像や動画の集合や検索を自然言語文でインデックス化できる従来のビデオ検索システムとは異なり,検索システムには,入力クエリが参照するオブジェクトのセグメンテーションマスクを出力するExplainabilityモジュールが付加されている。 この機能により、ユーザーはビデオ内の特定のオブジェクトを識別し、分離することができ、より詳細な分析と、彼らの行動や動きの理解に繋がる。 最後に、その適応性、説明可能性、精度、スケーラビリティによって、海洋研究者や科学者が大量のデータを効率的に正確に処理し、海洋種の行動や動きについて深い洞察を得るための強力なツールである。

Building a video retrieval system that is robust and reliable, especially for the marine environment, is a challenging task due to several factors such as dealing with massive amounts of dense and repetitive data, occlusion, blurriness, low lighting conditions, and abstract queries. To address these challenges, we present MarineVRS, a novel and flexible video retrieval system designed explicitly for the marine domain. MarineVRS integrates state-of-the-art methods for visual and linguistic object representation to enable efficient and accurate search and analysis of vast volumes of underwater video data. In addition, unlike the conventional video retrieval system, which only permits users to index a collection of images or videos and search using a free-form natural language sentence, our retrieval system includes an additional Explainability module that outputs the segmentation masks of the objects that the input query referred to. This feature allows users to identify and isolate specific objects in the video footage, leading to more detailed analysis and understanding of their behavior and movements. Finally, with its adaptability, explainability, accuracy, and scalability, MarineVRS is a powerful tool for marine researchers and scientists to efficiently and accurately process vast amounts of data and gain deeper insights into the behavior and movements of marine species.
翻訳日:2023-06-08 13:12:07 公開日:2023-06-07
# 深部ニューラルネットワークの確率インフォームド校正

Proximity-Informed Calibration for Deep Neural Networks ( http://arxiv.org/abs/2306.04590v1 )

ライセンス: Link先を確認
Miao Xiong, Ailin Deng, Pang Wei Koh, Jiaying Wu, Shen Li, Jianqing Xu, Bryan Hooi(参考訳) 信頼性キャリブレーションは、特に安全クリティカルなシナリオにおいて、正確で解釈可能な不確実性推定を提供することの中心である。 しかし, 従来のキャリブレーションアルゴリズムでは, 低近接データ(つまりデータ分布のスパース領域)において, モデルが高近接データよりも過度に信頼される傾向にあり, 異なる近接サンプル間での不整合な誤校正に悩まされる現象である, 近接バイアスの問題をしばしば見落としている。 我々は、事前訓練されたImageNetモデルに関する問題を調べ、それを観察する。 1) 確率バイアスは,さまざまなモデルアーキテクチャやサイズにわたって存在する。 2)トランスフォーマーモデルの方がCNNモデルよりも近接バイアスの影響を受けやすい。 3) 温度スケーリングなどの一般的な校正アルゴリズムを実行しても近接バイアスは持続する。 4) モデルは高近接サンプルよりも低近接サンプルに過度に適合する傾向にある。 実験結果に触発されたProCalは,近接性に基づく標本の信頼度調整を理論的に保証するプラグアンドプレイアルゴリズムである。 近接バイアス低減のためのキャリブレーションアルゴリズムの有効性をさらに定量化するため,理論解析による近接インフォームド予測キャリブレーション誤差(PIECE)を導入する。 ProCalは, モデルアーキテクチャ上の4つの指標の下で, 近接バイアスに対処し, バランス, ロングテール, 分布シフトの設定のキャリブレーションを改善するのに有効であることを示す。

Confidence calibration is central to providing accurate and interpretable uncertainty estimates, especially under safety-critical scenarios. However, we find that existing calibration algorithms often overlook the issue of proximity bias, a phenomenon where models tend to be more overconfident in low proximity data (i.e., lying in the sparse region of the data distribution) compared to high proximity samples, and thus suffer from inconsistent miscalibration across different proximity samples. We examine the problem over pretrained ImageNet models and observe that: 1) Proximity bias exists across a wide variety of model architectures and sizes; 2) Transformer-based models are more susceptible to proximity bias than CNN-based models; 3) Proximity bias persists even after performing popular calibration algorithms like temperature scaling; 4) Models tend to overfit more heavily on low proximity samples than on high proximity samples. Motivated by the empirical findings, we propose ProCal, a plug-and-play algorithm with a theoretical guarantee to adjust sample confidence based on proximity. To further quantify the effectiveness of calibration algorithms in mitigating proximity bias, we introduce proximity-informed expected calibration error (PIECE) with theoretical analysis. We show that ProCal is effective in addressing proximity bias and improving calibration on balanced, long-tail, and distribution-shift settings under four metrics over various model architectures.
翻訳日:2023-06-08 13:11:46 公開日:2023-06-07
# ModuleFormer: 不正なデータからモジュール型の大規模言語モデルを学ぶ

ModuleFormer: Learning Modular Large Language Models From Uncurated Data ( http://arxiv.org/abs/2306.04640v1 )

ライセンス: Link先を確認
Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen, Chuang Gan(参考訳) 大規模言語モデル(LLM)は目覚ましい結果を得た。 しかし、既存のモデルはトレーニングやデプロイに費用がかかり、以前の知識を忘れずに事前学習データを超えて知識を拡張することも難しい。 本稿では,モジュール性を活用して大規模言語モデルの効率性と柔軟性を向上させるニューラルネットワークアーキテクチャであるModuleFormerを提案する。 ModuleFormerはSparse Mixture of Experts (SMoE)をベースにしている。 従来のSMoEベースのモジュラー言語モデル(Gururangan et al., 2021)とは異なり、ModuleFormerは、新しいロードバランシングとロード集中損失によって、未処理のデータからモジュラリティを誘導することができる。 moduleformerはモジュールアーキテクチャで、2つの異なるタイプのモジュール、新しい画期的な注目ヘッド、feedforwardの専門家を含む。 異なるモジュールは、トレーニングと推論中に入力トークンに対してわずかに活性化される条件である。 実験の結果,大規模な事前学習型言語モデルにおいて,モジュールアーキテクチャが3つの重要な機能を実現することがわかった。 1) 効率性,ModuleFormerは各入力トークンに対してモジュールのサブセットのみを起動するため,2倍以上のスループットを持つ高密度LLMと同じパフォーマンスを実現することができる。 2) 拡張性,ModuleFormerは,高密度LLMよりも破滅的な忘れ方に対して免疫性が高く,トレーニングデータに含まれない新たな知識を学ぶために,新たなモジュールで容易に拡張することができる。 3) 特別化、微調整モジュールFormerは、細調整タスクにモジュールのサブセットを特化することができ、タスク非関連モジュールは、軽量なデプロイメントのために容易に刈り取られる。

Large Language Models (LLMs) have achieved remarkable results. But existing models are expensive to train and deploy, and it is also difficult to expand their knowledge beyond pre-training data without forgetting previous knowledge. This paper proposes a new neural network architecture, ModuleFormer, that leverages modularity to improve the efficiency and flexibility of large language models. ModuleFormer is based on the Sparse Mixture of Experts (SMoE). Unlike the previous SMoE-based modular language model [Gururangan et al., 2021], which requires domain-labeled data to learn domain-specific experts, ModuleFormer can induce modularity from uncurated data with its new load balancing and load concentration losses. ModuleFormer is a modular architecture that includes two different types of modules, new stick-breaking attention heads, and feedforward experts. Different modules are sparsely activated conditions on the input token during training and inference. In our experiment, we found that the modular architecture enables three important abilities for large pre-trained language models: 1) Efficiency, since ModuleFormer only activates a subset of its modules for each input token, thus it could achieve the same performance as dense LLMs with more than two times throughput; 2) Extendability, ModuleFormer is more immune to catastrophic forgetting than dense LLMs and can be easily extended with new modules to learn new knowledge that is not included in the training data; 3) Specialisation, finetuning ModuleFormer could specialize a subset of modules to the finetuning task, and the task-unrelated modules could be easily pruned for a lightweight deployment.
翻訳日:2023-06-08 13:05:04 公開日:2023-06-07
# 統計学者としてのトランスフォーマー:in-contextアルゴリズム選択によるコンテキスト内学習の実現

Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection ( http://arxiv.org/abs/2306.04637v1 )

ライセンス: Link先を確認
Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei(参考訳) トランスフォーマーアーキテクチャに基づくニューラルシーケンスモデルでは、トレーニングやテスト例で新たなタスクを実行し、パラメータをモデルに更新することなく、注目すべき \emph{in-context learning} (icl)能力が実証されている。 この研究はまず、トランスフォーマーがiclを実行するための包括的な統計理論を提供する。 具体的には、最小二乗、リッジ回帰、ラッソ、学習一般化線形モデル、二層ニューラルネットワーク上の勾配勾配などの文脈において、様々なコンテキスト内データ分布にほぼ最適な予測力を持つ、幅広い機械学習アルゴリズムを実装できることを示す。 変換器の構成は,文脈内勾配勾配の効率的な実装を基礎として軽度サイズ境界を許容し,多項式的に多くの事前学習シーケンスで学習することができる。 これらの 'base'' の icl アルゴリズムに基づいて、興味深いことに、トランスフォーマーがより複雑な icl プロシージャを実装できることを示します。それは、統計学者が実生活でできることに似ています -- \emph{single} トランスフォーマーは、異なるベース icl アルゴリズムを適応的に選択できます -- あるいは、異なる入力シーケンス上で、正しいアルゴリズムやタスクを明示的にプロンプトすることなく、質的に異なるタスクを実行することができます。 我々は,この現象を明示的な構成によって理論的に確立し,実験的に観察する。 理論的には,事前iclテストとポストicl検証という2つのアルゴリズム選択機構を具体例で構築する。 例えば、ICL後検証機構を用いて、ノイズレベルが混在する雑音のある線形モデルにおいて、ベイズ最適ICLに近い動作が可能なトランスフォーマーを構築する。 実験により,標準トランスアーキテクチャの強いコンテキスト内アルゴリズム選択能力を示す。

Neural sequence models based on the transformer architecture have demonstrated remarkable \emph{in-context learning} (ICL) abilities, where they can perform new tasks when prompted with training and test examples, without any parameter update to the model. This work first provides a comprehensive statistical theory for transformers to perform ICL. Concretely, we show that transformers can implement a broad class of standard machine learning algorithms in context, such as least squares, ridge regression, Lasso, learning generalized linear models, and gradient descent on two-layer neural networks, with near-optimal predictive power on various in-context data distributions. Using an efficient implementation of in-context gradient descent as the underlying mechanism, our transformer constructions admit mild size bounds, and can be learned with polynomially many pretraining sequences. Building on these ``base'' ICL algorithms, intriguingly, we show that transformers can implement more complex ICL procedures involving \emph{in-context algorithm selection}, akin to what a statistician can do in real life -- A \emph{single} transformer can adaptively select different base ICL algorithms -- or even perform qualitatively different tasks -- on different input sequences, without any explicit prompting of the right algorithm or task. We both establish this in theory by explicit constructions, and also observe this phenomenon experimentally. In theory, we construct two general mechanisms for algorithm selection with concrete examples: pre-ICL testing, and post-ICL validation. As an example, we use the post-ICL validation mechanism to construct a transformer that can perform nearly Bayes-optimal ICL on a challenging task -- noisy linear models with mixed noise levels. Experimentally, we demonstrate the strong in-context algorithm selection capabilities of standard transformer architectures.
翻訳日:2023-06-08 13:04:34 公開日:2023-06-07
# gp-unit: 汎用的な教師なし画像から画像への変換のための生成前処理

GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2306.04636v1 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) 近年のディープラーニングの進歩は、ペアデータなしで2つの視覚領域間の対応を学習する教師なし画像-画像翻訳モデルの成功を目撃している。 しかしながら、特に劇的な視覚的不一致を持つ人々にとって、さまざまなドメイン間の堅牢なマッピングを構築することは依然として大きな課題である。 本稿では, 既存の翻訳モデルの品質, 適用性, 制御性を向上する, GP-UNIT(Generative Prior-guided UNsupervised Image-to-image Translation)を提案する。 GP-UNITの鍵となる考え方は、事前訓練されたクラス条件のGANから生成物を蒸留し、粗いレベルのクロスドメイン対応を構築することである。 GP-UNITは、学習されたマルチレベルコンテンツ対応により、近接ドメインと遠方のドメインの両方で有効な翻訳を行うことができる。 クローズドメインでは、GP-UNITをパラメータに条件付けして、翻訳中のコンテンツ対応の強度を決定することで、ユーザはコンテンツとスタイルの一貫性のバランスをとることができる。 遠方領域に対しては,GP-UNITを誘導する半教師あり学習を行い,外見からのみ学べない正確な意味対応を見出す。 本研究では,様々な領域間のロバストで高品質,多彩な翻訳において,最先端翻訳モデルよりもgp-unitの優位性を検証する。

Recent advances in deep learning have witnessed many successful unsupervised image-to-image translation models that learn correspondences between two visual domains without paired data. However, it is still a great challenge to build robust mappings between various domains especially for those with drastic visual discrepancies. In this paper, we introduce a novel versatile framework, Generative Prior-guided UNsupervised Image-to-image Translation (GP-UNIT), that improves the quality, applicability and controllability of the existing translation models. The key idea of GP-UNIT is to distill the generative prior from pre-trained class-conditional GANs to build coarse-level cross-domain correspondences, and to apply the learned prior to adversarial translations to excavate fine-level correspondences. With the learned multi-level content correspondences, GP-UNIT is able to perform valid translations between both close domains and distant domains. For close domains, GP-UNIT can be conditioned on a parameter to determine the intensity of the content correspondences during translation, allowing users to balance between content and style consistency. For distant domains, semi-supervised learning is explored to guide GP-UNIT to discover accurate semantic correspondences that are hard to learn solely from the appearance. We validate the superiority of GP-UNIT over state-of-the-art translation models in robust, high-quality and diversified translations between various domains through extensive experiments.
翻訳日:2023-06-08 13:03:59 公開日:2023-06-07
# 大規模言語モデルの透かしの信頼性について

On the Reliability of Watermarks for Large Language Models ( http://arxiv.org/abs/2306.04634v1 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum and Tom Goldstein(参考訳) 大規模言語モデル(LLM)は現在、日々の使用にデプロイされ、今後10年間で大量のテキストを生成する位置に配置されている。 マシン生成テキストは、インターネット上で人間が書いたテキストを破棄する可能性があり、スピアフィッシング攻撃やソーシャルメディアボットなど、悪意のある目的で使用される可能性がある。 ウォーターマーキングは、LCM生成テキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。 しかし、重要な疑問が残る:野生の現実的な環境で、ウォーターマーキングはどの程度信頼できるのか? そこでは、透かし付きテキストは他のテキストソースと混同され、人間の作家や他の言語モデルによって言い換えられ、社会的および技術的両方の幅広い領域での応用に使用される。 本稿では,異なる検出方式を検討し,透かし検出のパワーを定量化し,各シナリオにおいてマシン生成テキストをどの程度観察する必要があるかを判定し,透かしを確実に検出する。 特に,人間のパラフレージングに直面する際の透かしの信頼性について検討した。 我々は、透かしに基づく検出と他の検出戦略を比較し、透かしが信頼性の高い解であること、特にサンプルの複雑さのため、透かしの証拠はより多くの例が与えられ、最終的に透かしが検出される。

Large language models (LLMs) are now deployed to everyday use and positioned to produce large quantities of text in the coming decade. Machine-generated text may displace human-written text on the internet and has the potential to be used for malicious purposes, such as spearphishing attacks and social media bots. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet, a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text might be mixed with other text sources, paraphrased by human writers or other language models, and used for applications in a broad number of domains, both social and technical. In this paper, we explore different detection schemes, quantify their power at detecting watermarks, and determine how much machine-generated text needs to be observed in each scenario to reliably detect the watermark. We especially highlight our human study, where we investigate the reliability of watermarking when faced with human paraphrasing. We compare watermark-based detection to other detection strategies, finding overall that watermarking is a reliable solution, especially because of its sample complexity - for all attacks we consider, the watermark evidence compounds the more examples are given, and the watermark is eventually detected.
翻訳日:2023-06-08 13:03:32 公開日:2023-06-07
# コントラストリフト:低速コントラスト融合による3次元オブジェクトインスタンスのセグメンテーション

Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion ( http://arxiv.org/abs/2306.04633v1 )

ライセンス: Link先を確認
Yash Bhalgat, Iro Laina, Jo\~ao F. Henriques, Andrew Zisserman, Andrea Vedaldi(参考訳) 3Dのインスタンスセグメンテーションは、大規模なアノテートデータセットが欠如しているため、難しいタスクである。 本稿では, 実例分割のための2次元事前学習モデルを活用することで, この課題を効果的に解決できることを示す。 本稿では,2次元セグメントを3次元に昇降させ,フレーム間の多視点整合性を促進するニューラルフィールド表現を用いて融合させる新しい手法を提案する。 このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。 従来の手法とは違って,本手法では,オブジェクト数やフレーム間のオブジェクト追跡の上限は不要である。 スローファストクラスタリングのスケーラビリティを示すために、メッシールームデータセットと呼ばれる、シーン毎に最大500オブジェクトのシーンを特徴とする、新しい半現実的なデータセットを作成しました。 当社のアプローチは、scannetやhypersim、レプリカデータセットといった困難な場面や、新たに作成された乱雑な部屋データセットの最先端を上回っており、低速クラスタリング手法の有効性とスケーラビリティを実証しています。

Instance segmentation in 3D is a challenging task due to the lack of large-scale annotated datasets. In this paper, we show that this task can be addressed effectively by leveraging instead 2D pre-trained models for instance segmentation. We propose a novel approach to lift 2D segments to 3D and fuse them by means of a neural field representation, which encourages multi-view consistency across frames. The core of our approach is a slow-fast clustering objective function, which is scalable and well-suited for scenes with a large number of objects. Unlike previous approaches, our method does not require an upper bound on the number of objects or object tracking across frames. To demonstrate the scalability of the slow-fast clustering, we create a new semi-realistic dataset called the Messy Rooms dataset, which features scenes with up to 500 objects per scene. Our approach outperforms the state-of-the-art on challenging scenes from the ScanNet, Hypersim, and Replica datasets, as well as on our newly created Messy Rooms dataset, demonstrating the effectiveness and scalability of our slow-fast clustering method.
翻訳日:2023-06-08 13:03:08 公開日:2023-06-07
# 安定拡散のためのより良い非対称vqganの設計

Designing a Better Asymmetric VQGAN for StableDiffusion ( http://arxiv.org/abs/2306.04632v1 )

ライセンス: Link先を確認
Zixin Zhu and Xuelu Feng and Dongdong Chen and Jianmin Bao and Le Wang and Yinpeng Chen and Lu Yuan and Gang Hua(参考訳) StableDiffusionは、画像生成と編集の世界で、革命的なテキストから画像へのジェネレータだ。 ピクセル空間で拡散モデルを学習する従来の方法とは異なり、stablediffusionはvqganを介して潜在空間における拡散モデルを学習し、効率と品質の両方を保証する。 画像生成タスクをサポートするだけでなく、画像インペインティングやローカル編集といった実際の画像に対する画像編集も可能にする。 しかし,StableDiffusionで使用するバニラVQGANは大きな情報損失をもたらし,非編集画像領域においても歪みを生じさせることがわかった。 この目的のために, 2つの単純な設計を持つ新しい非対称vqganを提案する。 第一に、エンコーダからの入力に加えて、デコーダは、塗装中の未マッピング画像領域などのタスク固有の先行情報を含む条件分岐を含む。 第二に、デコーダはエンコーダよりもはるかに重いため、より詳細なリカバリが可能であり、全体の推論コストはわずかに増加している。 非対称なVQGANのトレーニングコストは安価で、バニラVQGANエンコーダとStableDiffusionをそのまま保ちながら、新しい非対称なデコーダを再トレーニングする必要がある。 非対称vqganは安定拡散型インパインティングおよび局所編集法で広く使用できる。 大規模な実験により、オリジナルのテキスト・ツー・イメージ機能を維持しながら、塗装性能と編集性能を大幅に改善できることが示されている。 コードは \url{https://github.com/buxiangzhiren/asymmetric_vqgan} で入手できる。

StableDiffusion is a revolutionary text-to-image generator that is causing a stir in the world of image generation and editing. Unlike traditional methods that learn a diffusion model in pixel space, StableDiffusion learns a diffusion model in the latent space via a VQGAN, ensuring both efficiency and quality. It not only supports image generation tasks, but also enables image editing for real images, such as image inpainting and local editing. However, we have observed that the vanilla VQGAN used in StableDiffusion leads to significant information loss, causing distortion artifacts even in non-edited image regions. To this end, we propose a new asymmetric VQGAN with two simple designs. Firstly, in addition to the input from the encoder, the decoder contains a conditional branch that incorporates information from task-specific priors, such as the unmasked image region in inpainting. Secondly, the decoder is much heavier than the encoder, allowing for more detailed recovery while only slightly increasing the total inference cost. The training cost of our asymmetric VQGAN is cheap, and we only need to retrain a new asymmetric decoder while keeping the vanilla VQGAN encoder and StableDiffusion unchanged. Our asymmetric VQGAN can be widely used in StableDiffusion-based inpainting and local editing methods. Extensive experiments demonstrate that it can significantly improve the inpainting and editing performance, while maintaining the original text-to-image capability. The code is available at \url{https://github.com/buxiangzhiren/Asymmetric_VQGAN}.
翻訳日:2023-06-08 13:02:47 公開日:2023-06-07
# 主成分分析を監督する別のアルゴリズム:線形セントロイドエンコーダ

Yet Another Algorithm for Supervised Principal Component Analysis: Supervised Linear Centroid-Encoder ( http://arxiv.org/abs/2306.04622v1 )

ライセンス: Link先を確認
Tomojit Ghosh, Michael Kirby(参考訳) 非線形センタロイドエンコーダ (ce) \citep{ghosh2022 supervised} の線形対応であるsupervised linear centroid-encoder (slce) と呼ばれる新しい教師付き次元減少手法を提案する。 SLCEは、線形変換を用いて、クラスのサンプルをそのクラスセントロイドにマッピングすることで機能する。 変換は、対応するクラスセントロイドからの距離、すなわち、周辺空間においてセントロイド再構成損失が最小となるような点を再構築する射影である。 対称行列の固有分解を用いた閉形式解を導出する。 我々は詳細な解析を行い、提案手法の重要な数学的特性を示した。 また,下降法を用いて最適化問題を解く反復解法を提案する。 固有値と遠心再構成損失との関係を確立する。 周辺空間のサンプルを再構成する主成分分析(PCA)とは対照的に、SLCEの変換はクラスのインスタンスを使用して対応するクラスセントロイドを再構築する。 そのため,提案手法は教師付きPCAの一種とみなすことができる。 実験の結果,他の教師付き手法に比べてSLCEの性能上の利点が示された。

We propose a new supervised dimensionality reduction technique called Supervised Linear Centroid-Encoder (SLCE), a linear counterpart of the nonlinear Centroid-Encoder (CE) \citep{ghosh2022supervised}. SLCE works by mapping the samples of a class to its class centroid using a linear transformation. The transformation is a projection that reconstructs a point such that its distance from the corresponding class centroid, i.e., centroid-reconstruction loss, is minimized in the ambient space. We derive a closed-form solution using an eigendecomposition of a symmetric matrix. We did a detailed analysis and presented some crucial mathematical properties of the proposed approach. %We also provide an iterative solution approach based solving the optimization problem using a descent method. We establish a connection between the eigenvalues and the centroid-reconstruction loss. In contrast to Principal Component Analysis (PCA) which reconstructs a sample in the ambient space, the transformation of SLCE uses the instances of a class to rebuild the corresponding class centroid. Therefore the proposed method can be considered a form of supervised PCA. Experimental results show the performance advantage of SLCE over other supervised methods.
翻訳日:2023-06-08 13:02:19 公開日:2023-06-07
# 不均衡なセミスーパービジョン学習のためのアライメント、ディスタンス、拡張

Align, Distill, and Augment Everything All at Once for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2306.04621v1 )

ライセンス: Link先を確認
Emanuel Sanchez Aimar and Hannah Helgesen and Michael Felsberg and Marco Kuhlmann(参考訳) 長い尾を持つ半教師付き学習(SSL)におけるクラス不均衡に対処することは、ラベル付きデータの限界分布とラベル付きデータの差に起因するいくつかの重大な課題を引き起こす。 最初の課題は、トレーニング中にラベル付きデータやバランスの取れた分散などの誤った分布に擬似ラベルをバイアスすることを避けることである。 しかしながら、推論中にバランスのとれた非ラベル分布を確保したいと願っています。 これら2つの課題に対処するために,バランスの取れた分布に向けて動的に推定された未ラベルから段階的に分類器を整列するフレキシブルな分布アライメント,しきい値ベースで破棄された疑似ラベルを不確実に活用するソフト一貫性正規化,ラベル付き分割から入力データで未ラベル集合を拡張するスキーマ,という3面の解を提案する。 この最後のファセットは、ラベル付きデータとラベルなしデータの分離がラベル付きセットの強いデータ拡張の利点を防いでいるという、見過ごされがちな事実に対する反応として現れる。 私たちのフレームワーク全体は、追加のトレーニングサイクルを必要としないので、すべてを一度に調整、蒸留、拡張します(ADALLO)。 CIFAR10-LT, CIFAR100-LT, STL10-LTなど, クラス不均衡度, ラベル付きデータの量, 分散ミスマッチなどの不均衡なSSLベンチマークデータセットに対するADALLOの広範な評価は, 大規模な分散ミスマッチの下での不均衡なSSLの性能を著しく向上し, ラベル付きデータとラベル付きデータとラベル付きデータとの競合性が同じ限界分布に沿っていることを示す。 私たちのコードは受理後に公開される。

Addressing the class imbalance in long-tailed semi-supervised learning (SSL) poses a few significant challenges stemming from differences between the marginal distributions of unlabeled data and the labeled data, as the former is often unknown and potentially distinct from the latter. The first challenge is to avoid biasing the pseudo-labels towards an incorrect distribution, such as that of the labeled data or a balanced distribution, during training. However, we still wish to ensure a balanced unlabeled distribution during inference, which is the second challenge. To address both of these challenges, we propose a three-faceted solution: a flexible distribution alignment that progressively aligns the classifier from a dynamically estimated unlabeled prior towards a balanced distribution, a soft consistency regularization that exploits underconfident pseudo-labels discarded by threshold-based methods, and a schema for expanding the unlabeled set with input data from the labeled partition. This last facet comes in as a response to the commonly-overlooked fact that disjoint partitions of labeled and unlabeled data prevent the benefits of strong data augmentation on the labeled set. Our overall framework requires no additional training cycles, so it will align, distill, and augment everything all at once (ADALLO). Our extensive evaluations of ADALLO on imbalanced SSL benchmark datasets, including CIFAR10-LT, CIFAR100-LT, and STL10-LT with varying degrees of class imbalance, amount of labeled data, and distribution mismatch, demonstrate significant improvements in the performance of imbalanced SSL under large distribution mismatch, as well as competitiveness with state-of-the-art methods when the labeled and unlabeled data follow the same marginal distribution. Our code will be released upon paper acceptance.
翻訳日:2023-06-08 13:02:00 公開日:2023-06-07
# 制御可能な多目的分子設計のための目標条件gflownets

Goal-conditioned GFlowNets for Controllable Multi-Objective Molecular Design ( http://arxiv.org/abs/2306.04620v1 )

ライセンス: Link先を確認
Julien Roy, Pierre-Luc Bacon, Christopher Pal and Emmanuel Bengio(参考訳) 近年、シリコン分子設計は機械学習コミュニティから多くの注目を集めている。 医薬品用途の新しい化合物を設計する際には、ターゲットへのエネルギーの結合、合成性、毒性、EC50など、最適化される必要がある分子の複数の性質がある。 従来のアプローチでは、多目的問題を選好条件付き単一目的に変換するためにスカラー化スキームが採用されていたが、このような削減は、対向空間の極端点に向かってスライドする傾向のある解を、凹面のパレート面を呈する問題によって生じる可能性がある。 本研究では, 目標条件分子生成の代替的定式化を試み, パレート前線全体の解を均一に探索できる, より制御可能な条件モデルを得る。

In recent years, in-silico molecular design has received much attention from the machine learning community. When designing a new compound for pharmaceutical applications, there are usually multiple properties of such molecules that need to be optimised: binding energy to the target, synthesizability, toxicity, EC50, and so on. While previous approaches have employed a scalarization scheme to turn the multi-objective problem into a preference-conditioned single objective, it has been established that this kind of reduction may produce solutions that tend to slide towards the extreme points of the objective space when presented with a problem that exhibits a concave Pareto front. In this work we experiment with an alternative formulation of goal-conditioned molecular generation to obtain a more controllable conditional model that can uniformly explore solutions along the entire Pareto front.
翻訳日:2023-06-08 13:01:19 公開日:2023-06-07
# artic3d: 雑音web画像からロバストな3次元形状を学習する

ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections ( http://arxiv.org/abs/2306.04619v1 )

ライセンス: Link先を確認
Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani(参考訳) カメラの視点、ポーズ、テクスチャ、照明などの曖昧さのため、単眼画像から動物体などの3D関節形状を推定することは本質的に困難である。 本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。 具体的には、ArTIC3Dは骨格に基づく表面表現に基づいて構築され、安定拡散の2次元拡散によってさらに導かれる。 まず,2次元拡散によるオクルージョン・トランケーションによる入力画像を強化し,よりクリーンなマスク推定とセマンティック特徴を得る。 次に,高忠実で入力画像に忠実な形状とテクスチャを推定するために拡散誘導3次元最適化を行う。 また,より安定な画像レベルの勾配を拡散モデルを用いて計算する手法を提案する。 最後に,形状やテクスチャを剛部変換で微調整し,リアルなアニメーションを作成する。 複数の既存データセットに対する大規模な評価と、新たに導入されたオクルージョンとトランケーションを備えたノイズの多いWebイメージコレクションは、ARTIC3D出力がノイズの多い画像に対してより堅牢で、形状やテクスチャの細部がより高品質で、アニメーション化時によりリアルであることを示している。 プロジェクトページ: https://chhankyao.github.io/artic3d/

Estimating 3D articulated shapes like animal bodies from monocular images is inherently challenging due to the ambiguities of camera viewpoint, pose, texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to reconstruct per-instance 3D shapes from a sparse image collection in-the-wild. Specifically, ARTIC3D is built upon a skeleton-based surface representation and is further guided by 2D diffusion priors from Stable Diffusion. First, we enhance the input images with occlusions/truncation via 2D diffusion to obtain cleaner mask estimates and semantic features. Second, we perform diffusion-guided 3D optimization to estimate shape and texture that are of high-fidelity and faithful to input images. We also propose a novel technique to calculate more stable image-level gradients via diffusion models compared to existing alternatives. Finally, we produce realistic animations by fine-tuning the rendered shape and texture under rigid part transformations. Extensive evaluations on multiple existing datasets as well as newly introduced noisy web image collections with occlusions and truncation demonstrate that ARTIC3D outputs are more robust to noisy images, higher quality in terms of shape and texture details, and more realistic when animated. Project page: https://chhankyao.github.io/artic3d/
翻訳日:2023-06-08 13:01:04 公開日:2023-06-07
# SGEM:シーケンスレベル一般化エントロピー最小化による自動音声認識のためのテスト時間適応

SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization ( http://arxiv.org/abs/2306.01981v2 )

ライセンス: Link先を確認
Changhun Kim, Joonhyung Park, Hajin Shim and Eunho Yang(参考訳) 自動音声認識(ASR)モデルは、多くの実世界のシナリオでデータ分散シフトに頻繁に晒され、誤った予測につながる。 この問題に対処するために、最近、ソースデータなしでラベルなしのテストインスタンスに事前学習されたasrモデルを適用するために、既存のテスト時間適応法(tta)が提案されている。 良好な性能向上にもかかわらず、本研究はナイーブな欲望復号にのみ依存し、モデル出力の逐次的性質を考えると最適ではないフレームレベルで時間ステップをまたいで適応する。 そこで我々は,一般的なASRモデルに対して,SGEMと呼ばれる新しいTTAフレームワークを提案する。 逐次出力を扱うために、SGEMはまずビームサーチを利用して候補出力ロジットを探索し、最も有効なものを選択する。 次に、一般化エントロピー最小化と負サンプリングを教師なしの目的とし、モデルを適応させる。 SGEMはドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を実現する。

Automatic speech recognition (ASR) models are frequently exposed to data distribution shifts in many real-world scenarios, leading to erroneous predictions. To tackle this issue, an existing test-time adaptation (TTA) method has recently been proposed to adapt the pre-trained ASR model on unlabeled test instances without source data. Despite decent performance gain, this work relies solely on naive greedy decoding and performs adaptation across timesteps at a frame level, which may not be optimal given the sequential nature of the model output. Motivated by this, we propose a novel TTA framework, dubbed SGEM, for general ASR models. To treat the sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as unsupervised objectives to adapt the model. SGEM achieves state-of-the-art performance for three mainstream ASR models under various domain shifts.
翻訳日:2023-06-08 11:08:19 公開日:2023-06-07
# 算数課題の解法によるマルチステップ推論の学習

Learning Multi-Step Reasoning by Solving Arithmetic Tasks ( http://arxiv.org/abs/2306.01707v3 )

ライセンス: Link先を確認
Tianduo Wang and Wei Lu(参考訳) 数学的推論は言語モデル(LM)に必要な能力とみなされる。 最近の研究は、数学問題を解決する際に大きなlmsの印象的な性能を示す。 この成功は、複雑な質問をステップバイステップの推論チェーンに分解する能力であるCoT推論能力(Chain-of-Thought)に起因しているが、そのような能力は豊富なパラメータを持つモデルからのみ現れるようである。 本研究では, 比較的小さなLMを多段階推論機能に組み込む方法について検討する。 我々は,多段階の算術課題からなる合成データセットMsAT上で,LMを継続的に事前学習することにより,そのような能力を注入することを提案する。 4つの数学単語問題データセットに対する実験により,提案手法の有効性が示唆された。

Mathematical reasoning is regarded as a necessary ability for Language Models (LMs). Recent works demonstrate large LMs' impressive performance in solving math problems. The success is attributed to their Chain-of-Thought (CoT) reasoning abilities, i.e., the ability to decompose complex questions into step-by-step reasoning chains, but such ability seems only to emerge from models with abundant parameters. This work investigates how to incorporate relatively small LMs with the capabilities of multi-step reasoning. We propose to inject such abilities by continually pre-training LMs on a synthetic dataset MsAT which is composed of Multi-step Arithmetic Tasks. Our experiments on four math word problem datasets show the effectiveness of the proposed method in enhancing LMs' math reasoning abilities.
翻訳日:2023-06-08 11:07:41 公開日:2023-06-07
# 局所接続型ニューラルネットワークにおけるデータ適合性について 量子絡み合いに基づく必要十分条件

What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement ( http://arxiv.org/abs/2303.11249v3 )

ライセンス: Link先を確認
Yotam Alexander, Nimrod De La Vega, Noam Razin, Nadav Cohen(参考訳) 深層学習に適したデータ分布をなぜ作るのかという問題は、根本的なオープンな問題である。 局所結合型ニューラルネットワーク(畳み込み型および再帰型ニューラルネットワークを含む、一般的なアーキテクチャ群)に焦点を当て、量子物理学の理論的ツールを採用することでこの問題に対処します。 我々の主理論的結果は、ある局所的に連結されたニューラルネットワークが、データ分布が特定の特徴の正準分割の下で低い量子エンタングルメントを許容している場合に限り、データ分布を正確に予測できることを示している。 この結果の実用的応用として,局所結合型ニューラルネットワークへのデータ分布の適合性を高める前処理法を導出する。 様々なデータセットにまたがる広範囲なモデルによる実験は、我々の発見を実証している。 量子の絡み合いを用いることで、深層学習と現実世界のデータの関係を正式に推論するために、物理学からのツールのさらなる採用が促進されることを願っています。

The question of what makes a data distribution suitable for deep learning is a fundamental open problem. Focusing on locally connected neural networks (a prevalent family of architectures that includes convolutional and recurrent neural networks as well as local self-attention models), we address this problem by adopting theoretical tools from quantum physics. Our main theoretical result states that a certain locally connected neural network is capable of accurate prediction over a data distribution if and only if the data distribution admits low quantum entanglement under certain canonical partitions of features. As a practical application of this result, we derive a preprocessing method for enhancing the suitability of a data distribution to locally connected neural networks. Experiments with widespread models over various datasets demonstrate our findings. We hope that our use of quantum entanglement will encourage further adoption of tools from physics for formally reasoning about the relation between deep learning and real-world data.
翻訳日:2023-06-08 11:07:29 公開日:2023-06-07
# 関係型Weisfeiler-Lemanによるリンク予測の一理論

A Theory of Link Prediction via Relational Weisfeiler-Leman ( http://arxiv.org/abs/2302.02209v3 )

ライセンス: Link先を確認
Xingyue Huang, Miguel Romero Orth, \.Ismail \.Ilkan Ceylan, Pablo Barcel\'o(参考訳) グラフニューラルネットワークは、グラフ構造化データ上での表現学習のための顕著なモデルである。 これらのモデルの能力と限界は単純なグラフではよく理解されているが、知識グラフの文脈では理解が不十分である。 我々の目標は、リンク予測の顕著なタスクに関連する知識グラフのためのグラフニューラルネットワークの展望を体系的に理解することである。 我々の分析は、一見無関係なモデルに対する統一的な視点を必要とし、他のモデルもアンロックする。 様々なモデルの表現力は対応する関係性ワイスフィラー・ルマンアルゴリズムによって特徴づけられる。 この分析は、グラフニューラルネットワークのクラスによってキャプチャされる関数のクラスを正確に論理的に特徴づけるために拡張される。 本論文で提示された理論的知見は, 実証的に検証された実用的設計選択の利点を説明するものである。

Graph neural networks are prominent models for representation learning over graph-structured data. While the capabilities and limitations of these models are well-understood for simple graphs, our understanding remains incomplete in the context of knowledge graphs. Our goal is to provide a systematic understanding of the landscape of graph neural networks for knowledge graphs pertaining to the prominent task of link prediction. Our analysis entails a unifying perspective on seemingly unrelated models and unlocks a series of other models. The expressive power of various models is characterized via a corresponding relational Weisfeiler-Leman algorithm. This analysis is extended to provide a precise logical characterization of the class of functions captured by a class of graph neural networks. The theoretical findings presented in this paper explain the benefits of some widely employed practical design choices, which are validated empirically.
翻訳日:2023-06-08 11:07:13 公開日:2023-06-07
# 分子結晶構造サンプリングのための剛体流れ

Rigid Body Flows for Sampling Molecular Crystal Structures ( http://arxiv.org/abs/2301.11355v4 )

ライセンス: Link先を確認
Jonas K\"ohler, Michele Invernizzi, Pim de Haan, Frank No\'e(参考訳) 正規化フロー(NF)は、高い柔軟性と表現力を持つ複雑な分布をモデル化する能力によって近年人気を集めている強力な生成モデルである。 本研究では,結晶中の分子などの3次元空間における複数の物体の位置と向きをモデル化するために調整された新しい正規化フローを導入する。 第一に、単位四元数の群上の滑らかで表現的な流れを定義し、剛体の連続的な回転運動を捉えること、第二に、単位四元数の二重被覆性を用いて回転群の適切な密度を定義することである。 これにより,本モデルは,熱力学的対象密度に対する標準確率法や変分推論を用いてトレーニングすることができる。 TIP4P水モデルでは,外部磁場における四面体系の多モード密度と氷XI相の2つの分子例に対してボルツマン発電機を訓練して評価を行った。 我々の流れは分子の内部自由度に作用する流れと組み合わせることができ、多くの相互作用する分子の分布のモデリングへの重要なステップとなる。

Normalizing flows (NF) are a class of powerful generative models that have gained popularity in recent years due to their ability to model complex distributions with high flexibility and expressiveness. In this work, we introduce a new type of normalizing flow that is tailored for modeling positions and orientations of multiple objects in three-dimensional space, such as molecules in a crystal. Our approach is based on two key ideas: first, we define smooth and expressive flows on the group of unit quaternions, which allows us to capture the continuous rotational motion of rigid bodies; second, we use the double cover property of unit quaternions to define a proper density on the rotation group. This ensures that our model can be trained using standard likelihood-based methods or variational inference with respect to a thermodynamic target density. We evaluate the method by training Boltzmann generators for two molecular examples, namely the multi-modal density of a tetrahedral system in an external field and the ice XI phase in the TIP4P water model. Our flows can be combined with flows operating on the internal degrees of freedom of molecules and constitute an important step towards the modeling of distributions of many interacting molecules.
翻訳日:2023-06-08 11:07:03 公開日:2023-06-07
# 歯科用CBCTデータを用いた視覚変換器を用いたインプラント位置回帰

ImplantFormer: Vision Transformer based Implant Position Regression Using Dental CBCT Data ( http://arxiv.org/abs/2210.16467v3 )

ライセンス: Link先を確認
Xinquan Yang and Xuguang Li and Xuechen Li and Peixi Wu and Linlin Shen and Yongqiang Deng(参考訳) インプラント補綴は歯列欠損や歯列喪失の最も適切な治療であり、通常インプラント位置を決定するための外科的ガイド設計プロセスを必要とする。 しかし、そのようなデザインは歯科医の主観的な経験に大きく依存している。 本稿では, 経口CBCTデータに基づいてインプラント位置の自動予測を行うために, トランスフォーマを用いたインプラント位置回帰ネットワーク, implantFormerを提案する。 歯冠面積の2次元軸方向ビューを用いてインプラント位置を予測し,インプラントの中心線を適合させて実際のインプラント位置を歯根に求めることを創造的に提案する。 畳み込みstemとデコーダはそれぞれ、パッチ埋め込み操作前に画像特徴を粗く抽出し、ロバストな予測のためにマルチレベル特徴マップを統合するように設計されている。 長距離関係とローカル機能の両方が関与しているため、我々のアプローチはグローバルな情報をより良く表現し、より良い位置性能を達成することができる。 5倍のクロスバリデーションにより歯科用インプラントデータセットを広範囲に実験した結果,既存の方法よりも優れた性能が得られた。

Implant prosthesis is the most appropriate treatment for dentition defect or dentition loss, which usually involves a surgical guide design process to decide the implant position. However, such design heavily relies on the subjective experiences of dentists. In this paper, a transformer-based Implant Position Regression Network, ImplantFormer, is proposed to automatically predict the implant position based on the oral CBCT data. We creatively propose to predict the implant position using the 2D axial view of the tooth crown area and fit a centerline of the implant to obtain the actual implant position at the tooth root. Convolutional stem and decoder are designed to coarsely extract image features before the operation of patch embedding and integrate multi-level feature maps for robust prediction, respectively. As both long-range relationship and local features are involved, our approach can better represent global information and achieves better location performance. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed ImplantFormer achieves superior performance than existing methods.
翻訳日:2023-06-08 11:06:44 公開日:2023-06-07
# MLink: 協調推論のために複数のドメインからブラックボックスモデルをリンクする

MLink: Linking Black-Box Models from Multiple Domains for Collaborative Inference ( http://arxiv.org/abs/2209.13883v3 )

ライセンス: Link先を確認
Mu Yuan, Lan Zhang, Zimu Zheng, Yi-Nan Zhang, Xiang-Yang Li(参考訳) モデル推論のコスト効率は、現実の機械学習(ML)アプリケーション、特に遅延に敏感なタスクやリソース制限されたデバイスに不可欠である。 典型的なジレンマは、複雑なインテリジェントなサービス(スマートシティなど)を提供するには、複数のMLモデルの推論結果が必要ですが、コスト予算(GPUメモリなど)はそれらすべてを実行するには不十分です。 本研究では,ブラックボックスmlモデル間の基礎的関係を調査し,その出力空間間のマッピング(ダビングモデルリンク)を学習することで,ブラックボックスモデルの知識を橋渡しすることを目的とした,新しい学習タスクであるモデルリンクを提案する。 異種ブラックボックスMLモデルのリンクを支援するモデルリンクの設計を提案する。 また,分布の不一致問題に対処するため,モデルリンクの適応と集約手法を提案する。 提案するモデルリンクに基づいて,MLinkというスケジューリングアルゴリズムを開発した。 モデルリンクによる協調的マルチモデル推論により,MLinkはコスト予算の下で得られた推論結果の精度を向上させることができる。 MLinkを7つの異なるMLモデルと2つの実世界のビデオ分析システムと6つのMLモデルと3,264時間のビデオを含むマルチモーダルデータセットで評価した。 実験の結果,提案するモデルリンクは,様々なブラックボックスモデル間で効果的に構築できることがわかった。 GPUメモリの予算の下では、MLinkは66.7%の推論計算を節約し、94%の推論精度を保ち、マルチタスク学習、ディープ強化学習ベースのスケジューラ、フレームフィルタリングベースラインを上回っている。

The cost efficiency of model inference is critical to real-world machine learning (ML) applications, especially for delay-sensitive tasks and resource-limited devices. A typical dilemma is: in order to provide complex intelligent services (e.g. smart city), we need inference results of multiple ML models, but the cost budget (e.g. GPU memory) is not enough to run all of them. In this work, we study underlying relationships among black-box ML models and propose a novel learning task: model linking, which aims to bridge the knowledge of different black-box models by learning mappings (dubbed model links) between their output spaces. We propose the design of model links which supports linking heterogeneous black-box ML models. Also, in order to address the distribution discrepancy challenge, we present adaptation and aggregation methods of model links. Based on our proposed model links, we developed a scheduling algorithm, named MLink. Through collaborative multi-model inference enabled by model links, MLink can improve the accuracy of obtained inference results under the cost budget. We evaluated MLink on a multi-modal dataset with seven different ML models and two real-world video analytics systems with six ML models and 3,264 hours of video. Experimental results show that our proposed model links can be effectively built among various black-box models. Under the budget of GPU memory, MLink can save 66.7% inference computations while preserving 94% inference accuracy, which outperforms multi-task learning, deep reinforcement learning-based scheduler and frame filtering baselines.
翻訳日:2023-06-08 11:06:25 公開日:2023-06-07
# InFi: モバイル中心推論におけるリソース効率のための入力をフィルタするエンドツーエンド学習

InFi: End-to-End Learning to Filter Input for Resource-Efficiency in Mobile-Centric Inference ( http://arxiv.org/abs/2209.13873v3 )

ライセンス: Link先を確認
Mu Yuan, Lan Zhang, Fengxiang He, Xueting Tong, Miao-Hui Song, Zhengyuan Xu, Xiang-Yang Li(参考訳) モバイル中心のAIアプリケーションは、モデル推論のリソース効率の要求が高い。 入力フィルタリングは冗長性を排除し、推論コストを削減するための有望なアプローチである。 従来,多くのアプリケーションに対して効果的な解法を調整してきたが,(1)入力フィルタリング技術の応用を導くための推論作業の理論的フィルタリング可能性,(2)入力フィルタリングが多様な推論タスクや入力コンテンツに広く有効であるように,機能埋め込みの堅牢な識別性,という2つの重要な疑問を残した。 そこで我々はまず,入力フィルタリング問題を定式化し,推論モデルと入力フィルタの仮説複雑性を理論的に比較し,最適化の可能性を理解する。 次に,最先端の手法をほとんどカバーし,堅牢な識別性を備えた特徴埋め込みでそれらを上回る,エンドツーエンドの学習可能な入力フィルタリングフレームワークを提案する。 6つの入力モダリティと複数のモバイル中心のデプロイメントをサポートするInFiの設計と実装を行う。 総合評価の結果から,InFiは適用性,精度,効率において高いベースラインを達成できた。 InFiは8.5倍のスループットを実現し、95%の帯域幅を節約し、90%以上の精度を維持している。

Mobile-centric AI applications have high requirements for resource-efficiency of model inference. Input filtering is a promising approach to eliminate the redundancy so as to reduce the cost of inference. Previous efforts have tailored effective solutions for many applications, but left two essential questions unanswered: (1) theoretical filterability of an inference workload to guide the application of input filtering techniques, thereby avoiding the trial-and-error cost for resource-constrained mobile applications; (2) robust discriminability of feature embedding to allow input filtering to be widely effective for diverse inference tasks and input content. To answer them, we first formalize the input filtering problem and theoretically compare the hypothesis complexity of inference models and input filters to understand the optimization potential. Then we propose the first end-to-end learnable input filtering framework that covers most state-of-the-art methods and surpasses them in feature embedding with robust discriminability. We design and implement InFi that supports six input modalities and multiple mobile-centric deployments. Comprehensive evaluations confirm our theoretical results and show that InFi outperforms strong baselines in applicability, accuracy, and efficiency. InFi achieve 8.5x throughput and save 95% bandwidth, while keeping over 90% accuracy, for a video analytics application on mobile platforms.
翻訳日:2023-06-08 11:05:59 公開日:2023-06-07
# シミュレーション統合型バイオインスパイアサーチベーステストを用いたadasの機械学習テスト

Machine Learning Testing in an ADAS Case Study Using Simulation-Integrated Bio-Inspired Search-Based Testing ( http://arxiv.org/abs/2203.12026v4 )

ライセンス: Link先を確認
Mahshid Helali Moghadam, Markus Borg, Mehrdad Saadatmand, Seyed Jalaleddin Mousavirad, Markus Bohlin, Bj\"orn Lisper(参考訳) 本稿では,ディープニューラルネットワークを用いた車線維持システムをテストするためのフェールリベリングテストシナリオを生成する,サーチベースのシミュレーション統合テストソリューションであるDeeperの拡張版を提案する。 新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$({\mu}+{\lambda})$および$({\mu},{\lambda})$進化戦略(ES)、そして品質の高い集団種子とドメイン固有のクロスオーバーと突然変異操作を利用する粒子群最適化(PSO)を利用する。 SBST 2021のサイバー物理システムテストコンテストに参加する5つのツールについて,Deeper内の新しいテストジェネレータの能力を実証するため,実証的な評価と比較を行った。 評価の結果,新たに提案するテストジェネレータは,前バージョンの大幅な改善を示すだけでなく,ml駆動レーンキーピングシステムをテストする上で,多数の多様な障害回避テストシナリオを誘発する上で有効かつ効率的であることが判明した。 テストシナリオの多様性を促進しながら、テスト時間の予算の制限、高いターゲット障害の重大さ、厳格な速度制限の下で、いくつかの障害をトリガーすることができる。

This paper presents an extended version of Deeper, a search-based simulation-integrated test solution that generates failure-revealing test scenarios for testing a deep neural network-based lane-keeping system. In the newly proposed version, we utilize a new set of bio-inspired search algorithms, genetic algorithm (GA), $({\mu}+{\lambda})$ and $({\mu},{\lambda})$ evolution strategies (ES), and particle swarm optimization (PSO), that leverage a quality population seed and domain-specific cross-over and mutation operations tailored for the presentation model used for modeling the test scenarios. In order to demonstrate the capabilities of the new test generators within Deeper, we carry out an empirical evaluation and comparison with regard to the results of five participating tools in the cyber-physical systems testing competition at SBST 2021. Our evaluation shows the newly proposed test generators in Deeper not only represent a considerable improvement on the previous version but also prove to be effective and efficient in provoking a considerable number of diverse failure-revealing test scenarios for testing an ML-driven lane-keeping system. They can trigger several failures while promoting test scenario diversity, under a limited test time budget, high target failure severity, and strict speed limit constraints.
翻訳日:2023-06-08 11:05:34 公開日:2023-06-07
# フーリエ変換を用いた時間依存Schr\"{o}ディンガー方程式のデカップリング再帰

Decoupling recursion in the time dependent Schr\"{o}dinger equation using Fourier transforms ( http://arxiv.org/abs/2306.03107v2 )

ライセンス: Link先を確認
Sky Nelson-Isaacs(参考訳) 時間依存型Schr\"{o}dinger equation (TDSE) や、より一般的にはダイソン級数 (Dyson Series) を再帰フーリエ変換を用いた畳み込み方程式として記述し、時間順序演算子を使わずに第二階積分を第一階から切り離す戦略を開発する。 エネルギー分布は、1階と2階の標準摂動理論の例で計算される。 量子計算におけるボソニックサンプリングのためのフォトニックスペクトルのキャラクタリゼーションや、量子力学におけるバーディーントンネル振幅などの応用も考えられる。

A strategy is developed for writing the time-dependent Schr\"{o}dinger equation (TDSE), and more generally the Dyson Series, as a convolution equation using recursive Fourier transforms, thereby decoupling the second-order integral from the first without using the time ordering operator. The energy distribution is calculated for a number of standard perturbation theory example at first- and second-order. Possible applications include characterization of photonic spectra for bosonic sampling in quantum computation and Bardeen tunneling amplitude in quantum mechanics.
翻訳日:2023-06-08 10:59:21 公開日:2023-06-07
# A2B:ロバスト対応のためのBarycentric Coordinateへのアンカー

A2B: Anchor to Barycentric Coordinate for Robust Correspondence ( http://arxiv.org/abs/2306.02760v2 )

ライセンス: Link先を確認
Weiyue Zhao, Hao Lu, Zhiguo Cao, Xin Li(参考訳) 対応問題の繰り返しパターンには長年の問題があり、不一致は固有のあいまいさのため頻繁に発生する。 繰り返しパターンに関連するユニークな位置情報により、座標表現は特徴対応を改善するための外観表現の補助となる。 しかし、適切な座標表現の問題はまだ解決されていない。 本研究では,偏心座標などの幾何学的不変座標表現が特徴間のミスマッチを著しく低減できることを示す。 最初のステップは幾何学的不変座標の理論的基礎を確立することである。 本稿では,特徴マッチングと一貫性フィルタリングと粗さから細かなマッチング戦略を組み合わせたシードマッチング・フィルタリングネットワーク(smfnet)を提案する。 次に、ペア画像から複数のアフィン不変対応座標を生成する新しいアンカーからバリセントリック(a2b)座標符号化手法であるdegreeを導入する。 DEGREEは標準のディスクリプタ、機能マーカ、整合性フィルタを備えたプラグインとして使用して、マッチング品質を改善することができる。 合成された屋内および屋外データセットの大規模な実験により、DECREEは繰り返しパターンの問題を緩和し、最先端のパフォーマンスを達成することができる。 さらに、DeGREEはCVPR 2021の第3回画像マッチングチャレンジの競争性能も報告している。 このアプローチは、繰り返しパターンの問題を軽減する新しい視点を提供し、特徴対応のための座標表現を選択することの重要性を強調する。

There is a long-standing problem of repeated patterns in correspondence problems, where mismatches frequently occur because of inherent ambiguity. The unique position information associated with repeated patterns makes coordinate representations a useful supplement to appearance representations for improving feature correspondences. However, the issue of appropriate coordinate representation has remained unresolved. In this study, we demonstrate that geometric-invariant coordinate representations, such as barycentric coordinates, can significantly reduce mismatches between features. The first step is to establish a theoretical foundation for geometrically invariant coordinates. We present a seed matching and filtering network (SMFNet) that combines feature matching and consistency filtering with a coarse-to-fine matching strategy in order to acquire reliable sparse correspondences. We then introduce DEGREE, a novel anchor-to-barycentric (A2B) coordinate encoding approach, which generates multiple affine-invariant correspondence coordinates from paired images. DEGREE can be used as a plug-in with standard descriptors, feature matchers, and consistency filters to improve the matching quality. Extensive experiments in synthesized indoor and outdoor datasets demonstrate that DEGREE alleviates the problem of repeated patterns and helps achieve state-of-the-art performance. Furthermore, DEGREE also reports competitive performance in the third Image Matching Challenge at CVPR 2021. This approach offers a new perspective to alleviate the problem of repeated patterns and emphasizes the importance of choosing coordinate representations for feature correspondences.
翻訳日:2023-06-08 10:58:41 公開日:2023-06-07
# 重ね合わせ方向の時間軸を持つ量子演算

Quantum operations with the time axis in a superposed direction ( http://arxiv.org/abs/2306.02755v2 )

ライセンス: Link先を確認
Seok Hyung Lie, M. S. Kim(参考訳) 量子論において、ある過程が行列転位を適用し、それが物理的に保たれているかどうかを調べることによって、時間反転対称性を持つかどうかが示されている。 しかし、量子過程の不定因果順序に関する最近の発見は、完全な反転以外に、より一般的な時間の対称性変換が存在することを示唆している。 本研究では,行列変換という一般化された転置の概念を導入し,量子演算の未来と過去のヒルベルト空間の一般二部一元変換を考慮し,時間軸を重畳方向に確実に横たわらせ,従来研究されていた「時間の不定方向」、すなわち前方の重畳と後方の時間進化を一般化する。 この枠組みは、時空構造が量子力学から現れると説明される量子重力と同様に時間と空間を等しく扱うアプローチに応用することができる。 この一般化された転位法を用いて、完全テンソルの連続的一般化、サブシステムのトレースの動的バージョン、二成分量子相互作用における多重時間軸の互換性を調べる。 特に,両部間相互作用がより異なる時間軸と一致している場合,因果的違反を防止するため,両者間の情報交換の費用が削減されることを示す。

In the quantum theory, it has been shown that one can see if a process has the time reversal symmetry by applying the matrix transposition and examining if it remains physical. However, recent discoveries regarding the indefinite causal order of quantum processes suggest that there may be other, more general symmetry transformations of time besides the complete reversal. In this work, we introduce an expanded concept of matrix transposition, the generalized transposition, that takes into account general bipartite unitary transformations of a quantum operation's future and past Hilbert spaces, allowing for making the time axis definitely lie in a superposed direction, which generalizes the previously studied `indefinite direction of time', i.e., superposition of the forward and the backward time evolution. This framework may have applications in approaches that treat time and space equally like quantum gravity, where the spatio-temporal structure is explained to emerge from quantum mechanics. We apply this generalized transposition to investigate a continuous generalization of perfect tensors, a dynamic version of tracing out a subsystem, and the compatibility of multiple time axes in bipartite quantum interactions. Notably, we demonstrate that when a bipartite interaction is consistent with more distinct local temporal axes, there is a reduced allowance for information exchange between the two parties in order to prevent causality violations.
翻訳日:2023-06-08 10:58:19 公開日:2023-06-07
# ニューラルネットワーク回帰における確率的校正の大規模研究

A Large-Scale Study of Probabilistic Calibration in Neural Network Regression ( http://arxiv.org/abs/2306.02738v2 )

ライセンス: Link先を確認
Victor Dheur and Souhaib Ben Taieb(参考訳) 正確な確率予測は最適な意思決定に不可欠である。 ニューラルネットワークのミスカバリレーションは主に分類で研究されているが、より探索の少ない回帰領域で研究している。 我々は、ニューラルネットワークの確率的キャリブレーションを評価するために、これまでで最大の実証研究を行っている。 また,リカバリ法,コンフォメーション法,正則化法の性能を解析し,確率的キャリブレーションについて検討した。 さらに,新たな識別可能な再校正手法を導入し,その有効性に関する新たな知見を明らかにした。 その結果,正則化法はキャリブレーションとシャープネスの間に良好なトレードオフをもたらすことがわかった。 ポストホック法は高い確率的キャリブレーションを示し,共形予測の有限サンプルカバレッジを保証する。 さらに, 量子化を共形予測の特定の場合とみなすことができることを示す。 我々の研究は完全に再現可能で、公正な比較のために共通のコードベースで実装されています。

Accurate probabilistic predictions are essential for optimal decision making. While neural network miscalibration has been studied primarily in classification, we investigate this in the less-explored domain of regression. We conduct the largest empirical study to date to assess the probabilistic calibration of neural networks. We also analyze the performance of recalibration, conformal, and regularization methods to enhance probabilistic calibration. Additionally, we introduce novel differentiable recalibration and regularization methods, uncovering new insights into their effectiveness. Our findings reveal that regularization methods offer a favorable tradeoff between calibration and sharpness. Post-hoc methods exhibit superior probabilistic calibration, which we attribute to the finite-sample coverage guarantee of conformal prediction. Furthermore, we demonstrate that quantile recalibration can be considered as a specific case of conformal prediction. Our study is fully reproducible and implemented in a common code base for fair comparisons.
翻訳日:2023-06-08 10:57:57 公開日:2023-06-07
# IoTネットワークにおける侵入検出のためのフェデレーションディープラーニング

Federated Deep Learning for Intrusion Detection in IoT Networks ( http://arxiv.org/abs/2306.02715v2 )

ライセンス: Link先を確認
Othmane Belarbi, Theodoros Spyridopoulos, Eirini Anthi, Ioannis Mavromatis, Pietro Carnelli, Aftab Khan(参考訳) IoTテクノロジの大幅な増加と、進化を続ける攻撃ベクターと脅威アクターは、サイバーセキュリティのリスクを劇的に高めた。 新たな攻撃は、IoTデバイスを妥協して機密データにアクセスしたり、さらに悪意のあるアクティビティをデプロイするためにそれらを制御する。 新たな攻撃の検出は、しばしばAIソリューションに依存する。 分散IoTシステムにAIベースのIDSを実装するための一般的なアプローチは、集中的な方法である。 しかし、このアプローチはデータのプライバシーと秘密を侵害する可能性がある。 さらに、集中データ収集はIDSのスケールアップを禁止している。 したがって、IoTエコシステムの侵入検出ソリューションは、分散された方向に進む必要がある。 flはデータの機密性と局所性を保ちながら協調学習を行う能力から近年大きな関心を集めている。 それでも、ほとんどのFLベースのIoTシステム用IDSは非現実的なデータ分散条件下で設計されている。 そこで本研究では,実世界の実験代表者を設計し,DNNとDBNに関する以前の研究に基づくFL IDS実装の性能評価を行った。 実験では、実際のIoTネットワークトラフィックデータセットであるTON-IoTを使用して、各IPアドレスをひとつのFLクライアントに関連付ける。 さらに,データ不均質性の影響を軽減するために,事前学習と各種集計手法の検討を行った。 最後に、集中型ソリューションに対するアプローチをベンチマークします。 比較の結果,データの不均一性は,分散的にトレーニングされた場合のモデル性能にかなりの悪影響を及ぼすことがわかった。 しかし、事前訓練された初期グローバルFLモデルの場合、ランダムに開始されたグローバルモデルと比較して20%以上の性能向上(F1スコア)を示す。

The vast increase of IoT technologies and the ever-evolving attack vectors and threat actors have increased cyber-security risks dramatically. Novel attacks can compromise IoT devices to gain access to sensitive data or control them to deploy further malicious activities. The detection of novel attacks often relies upon AI solutions. A common approach to implementing AI-based IDS in distributed IoT systems is in a centralised manner. However, this approach may violate data privacy and secrecy. In addition, centralised data collection prohibits the scale-up of IDSs. Therefore, intrusion detection solutions in IoT ecosystems need to move towards a decentralised direction. FL has attracted significant interest in recent years due to its ability to perform collaborative learning while preserving data confidentiality and locality. Nevertheless, most FL-based IDS for IoT systems are designed under unrealistic data distribution conditions. To that end, we design an experiment representative of the real world and evaluate the performance of two FL IDS implementations, one based on DNNs and another on our previous work on DBNs. For our experiments, we rely on TON-IoT, a realistic IoT network traffic dataset, associating each IP address with a single FL client. Additionally, we explore pre-training and investigate various aggregation methods to mitigate the impact of data heterogeneity. Lastly, we benchmark our approach against a centralised solution. The comparison shows that the heterogeneous nature of the data has a considerable negative impact on the model performance when trained in a distributed manner. However, in the case of a pre-trained initial global FL model, we demonstrate a performance improvement of over 20% (F1-score) when compared against a randomly initiated global model.
翻訳日:2023-06-08 10:57:42 公開日:2023-06-07
# 列生成におけるNP-hard Min-maxルーティング問題の解法

Solving NP-hard Min-max Routing Problems as Sequential Generation with Equity Context ( http://arxiv.org/abs/2306.02689v2 )

ライセンス: Link先を確認
Jiwoo Son, Minsu Kim, Sanghyeok Choi, Jinkyoo Park(参考訳) ミニマックスルーティング問題は、各エージェントがすべての都市、すなわち完了時刻を共同で訪問する際に、最大ツアー期間を最小化することを目的としている。 これらの問題には影響のある実世界の応用が含まれるが、NPハードとして知られている。 既存の手法は、特に数千の都市をカバーするために多数のエージェントの調整を必要とする大規模な問題に直面している。 本稿では,大規模min-maxルーティング問題を解決するための新しいディープラーニングフレームワークを提案する。 我々は,複数のエージェントの同時意思決定を逐次生成プロセスとしてモデル化し,スケーラブルなディープラーニングモデルを逐次決定に活用する。 逐次近似問題では、他のエージェントの作業負荷を考慮した逐次動作を生成するスケーラブルな文脈変換器モデルEquity-Transformerを提案する。 Equity-Transformerの有効性は、min-max多重走行セールスマン問題(min-max mTSP)とmin-max多重ピックアップ・デリバリ問題(min-max mPDP)の2つの代表的なmin-maxルーティングタスクにおいて、優れた性能で実証されている。 特に,mTSP1000都市100台において,競争的ヒューリスティック(LKH3)と比較して,約335倍,コストが約53%のランタイムの大幅な削減を実現している。 再現可能なソースコードはhttps://github.com/kaist-silab/equity-transformerです。

Min-max routing problems aim to minimize the maximum tour length among agents as they collaboratively visit all cities, i.e., the completion time. These problems include impactful real-world applications but are known as NP-hard. Existing methods are facing challenges, particularly in large-scale problems that require the coordination of numerous agents to cover thousands of cities. This paper proposes a new deep-learning framework to solve large-scale min-max routing problems. We model the simultaneous decision-making of multiple agents as a sequential generation process, allowing the utilization of scalable deep-learning models for sequential decision-making. In the sequentially approximated problem, we propose a scalable contextual Transformer model, Equity-Transformer, which generates sequential actions considering an equitable workload among other agents. The effectiveness of Equity-Transformer is demonstrated through its superior performance in two representative min-max routing tasks: the min-max multiple traveling salesman problem (min-max mTSP) and the min-max multiple pick-up and delivery problem (min-max mPDP). Notably, our method achieves significant reductions of runtime, approximately 335 times, and cost values of about 53% compared to a competitive heuristic (LKH3) in the case of 100 vehicles with 1,000 cities of mTSP. We provide reproducible source code: https://github.com/kaist-silab/equity-transformer
翻訳日:2023-06-08 10:57:20 公開日:2023-06-07
# meta-sage: 組合せ最適化のスケールシフトを緩和するためのガイド探索によるスケールメタラーニングスケジュール適応

Meta-SAGE: Scale Meta-Learning Scheduled Adaptation with Guided Exploration for Mitigating Scale Shift on Combinatorial Optimization ( http://arxiv.org/abs/2306.02688v2 )

ライセンス: Link先を確認
Jiwoo Son, Minsu Kim, Hyeonah Kim, Jinkyoo Park(参考訳) 本稿では,組合せ最適化(CO)タスクのための深層強化学習モデルのスケーラビリティ向上のためのメタSAGEを提案する。 提案手法は,SML (Scale Meta-Learner) とSAGE ( Guided Exploring) の2つのコンポーネントを提案することによって,事前学習したモデルに大規模に適応する。 まず、SMLは、SAGEのその後の適応のためのコンテキスト埋め込みをスケール情報に基づいて変換する。 次に、SAGEは特定のインスタンスに対するコンテキスト埋め込み専用のモデルパラメータを調整する。 SAGEは局所バイアスを導入し、近くの場所を選択して次の場所を決定する。 モデルが対象のインスタンスに適応されると、局所バイアスは徐々に減少する。 その結果,メタセージは従来の適応手法よりも優れており,代表的coタスクのスケーラビリティが著しく向上した。 私たちのソースコードはhttps://github.com/kaist-silab/meta-sageで利用可能です。

This paper proposes Meta-SAGE, a novel approach for improving the scalability of deep reinforcement learning models for combinatorial optimization (CO) tasks. Our method adapts pre-trained models to larger-scale problems in test time by suggesting two components: a scale meta-learner (SML) and scheduled adaptation with guided exploration (SAGE). First, SML transforms the context embedding for subsequent adaptation of SAGE based on scale information. Then, SAGE adjusts the model parameters dedicated to the context embedding for a specific instance. SAGE introduces locality bias, which encourages selecting nearby locations to determine the next location. The locality bias gradually decays as the model is adapted to the target instance. Results show that Meta-SAGE outperforms previous adaptation methods and significantly improves scalability in representative CO tasks. Our source code is available at https://github.com/kaist-silab/meta-sage
翻訳日:2023-06-08 10:56:55 公開日:2023-06-07
# 実験的に実現可能な連続可変量子ニューラルネットワーク

Experimentally Realizable Continuous-variable Quantum Neural Networks ( http://arxiv.org/abs/2306.02525v2 )

ライセンス: Link先を確認
Shikha Bangar, Leanto Sunny, Kubra Yeter-Aydeniz, George Siopsis(参考訳) 連続可変(CV)量子コンピューティングは、ニューラルネットワークモデルを構築する大きな可能性を示している。 これらのニューラルネットワークは、問題の複雑さに応じて、量子古典的ハイブリダイゼーションの異なるレベルを持つことができる。 cvニューラルネットワークプロトコルの以前の作業では、ネットワーク内の非ガウス演算子の実装が必要だった。 これらの演算子は、ニューラルネットワークの重要な特徴である非線形性を導入するのに使われた。 しかし、これらのプロトコルを実験的に実行するのは難しい。 現在のフォトニック量子ハードウェアで実験的に実現可能なcvハイブリッド量子古典ニューラルネットワークプロトコルを構築した。 我々のプロトコルは、補助クォーモットの追加だけでガウス門を使用する。 漸近量子モード上で繰り返しアンティルサクセス測定を行い,非線形性を実装した。 ニューラルネットワークをテストするために、教師付き学習環境(状態準備、カーブフィッティング、分類問題)において、標準機械学習と量子コンピュータの問題を研究した。 単一光子 (99.9%), 猫 (99.8%), ゴッテマン・キタエフ・プレスキル (93.9%) の状態の合成において高い忠実性を達成し, 雑音の存在下では1%未満のコストで十分に適合する曲線, 分類問題において95%以上の精度を得た。 これらの結果は、CV量子ニューラルネットワークの現実的な応用に有効である。

Continuous-variable (CV) quantum computing has shown great potential for building neural network models. These neural networks can have different levels of quantum-classical hybridization depending on the complexity of the problem. Previous work on CV neural network protocols required the implementation of non-Gaussian operators in the network. These operators were used to introduce non-linearity, an essential feature of neural networks. However, these protocols are hard to execute experimentally. We built a CV hybrid quantum-classical neural network protocol that can be realized experimentally with current photonic quantum hardware. Our protocol uses Gaussian gates only with the addition of ancillary qumodes. We implemented non-linearity through repeat-until-success measurements on ancillary qumodes. To test our neural network, we studied canonical machine learning and quantum computer problems in a supervised learning setting -- state preparation, curve fitting, and classification problems. We achieved high fidelity in state preparation of single-photon (99.9%), cat (99.8%), and Gottesman-Kitaev-Preskill (93.9%) states, a well-fitted curve in the presence of noise at a cost of less than 1%, and more than 95% accuracy in classification problems. These results bode well for real-world applications of CV quantum neural networks.
翻訳日:2023-06-08 10:56:41 公開日:2023-06-07
# bgGLUE: ブルガリアの一般言語理解評価ベンチマーク

bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark ( http://arxiv.org/abs/2306.02349v2 )

ライセンス: Link先を確認
Momchil Hardalov, Pepa Atanasova, Todor Mihaylov, Galia Angelova, Kiril Simov, Petya Osenova, Ves Stoyanov, Ivan Koychev, Preslav Nakov, Dragomir Radev(参考訳) ブルガリアの自然言語理解タスク(nlu)における言語モデル評価のためのベンチマークであるbgglue(bulgarian general language understanding evaluation)を提案する。 我々のベンチマークには、さまざまなNLP問題(自然言語推論、ファクトチェック、名前付きエンティティ認識、感情分析、質問応答など)と機械学習タスク(シーケンスラベリング、文書レベルの分類、回帰)をターゲットにしたNLUタスクが含まれています。 ブルガリア語のための事前学習言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。 評価結果はシーケンスラベリングタスクに強い性能を示すが、より複雑な推論を必要とするタスクには改善の余地がたくさんある。 私たちはbgglueを微調整と評価コードとともに公開するとともに、https://bgglue.github.io/の公開リーダボードも公開しています。

We present bgGLUE(Bulgarian General Language Understanding Evaluation), a benchmark for evaluating language models on Natural Language Understanding (NLU) tasks in Bulgarian. Our benchmark includes NLU tasks targeting a variety of NLP problems (e.g., natural language inference, fact-checking, named entity recognition, sentiment analysis, question answering, etc.) and machine learning tasks (sequence labeling, document-level classification, and regression). We run the first systematic evaluation of pre-trained language models for Bulgarian, comparing and contrasting results across the nine tasks in the benchmark. The evaluation results show strong performance on sequence labeling tasks, but there is a lot of room for improvement for tasks that require more complex reasoning. We make bgGLUE publicly available together with the fine-tuning and the evaluation code, as well as a public leaderboard at https://bgglue.github.io/, and we hope that it will enable further advancements in developing NLU models for Bulgarian.
翻訳日:2023-06-08 10:56:20 公開日:2023-06-07
# ChatDB: シンボリックメモリとしてのデータベースによるLLMの拡張

ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory ( http://arxiv.org/abs/2306.03901v2 )

ライセンス: Link先を確認
Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao, Hang Zhao(参考訳) メモリを持つ大規模言語モデル(LLM)は計算的に普遍的である。 しかし、メインストリームのLSMはメモリを十分に活用しておらず、その設計は生物学的脳の影響を強く受けている。 誤差の蓄積に近似した性質と傾向のため、従来のニューラルメモリ機構は複雑な推論をシミュレートするLLMをサポートできない。 本稿では,計算機アーキテクチャからインスピレーションを得て,複雑なマルチホップ推論のためのシンボリックメモリを付加する。 このようなシンボリックメモリフレームワークは、LCMとSQLデータベースのセットとしてインスタンス化され、LCMはSQLデータベースを操作するSQL命令を生成する。 複雑な推論を必要とする合成データセット上で提案するメモリフレームワークの有効性を検証する。 プロジェクトのwebサイトはhttps://chatdatabase.github.io/で入手できる。

Large language models (LLMs) with memory are computationally universal. However, mainstream LLMs are not taking full advantage of memory, and the designs are heavily influenced by biological brains. Due to their approximate nature and proneness to the accumulation of errors, conventional neural memory mechanisms cannot support LLMs to simulate complex reasoning. In this paper, we seek inspiration from modern computer architectures to augment LLMs with symbolic memory for complex multi-hop reasoning. Such a symbolic memory framework is instantiated as an LLM and a set of SQL databases, where the LLM generates SQL instructions to manipulate the SQL databases. We validate the effectiveness of the proposed memory framework on a synthetic dataset requiring complex reasoning. The project website is available at https://chatdatabase.github.io/ .
翻訳日:2023-06-08 10:48:12 公開日:2023-06-07
# 因果的介入は共通理解のための暗黙的状況モデルを明らかにする

Causal interventions expose implicit situation models for commonsense language understanding ( http://arxiv.org/abs/2306.03882v2 )

ライセンス: Link先を確認
Takateru Yamakoshi, James L. McClelland, Adele E. Goldberg, Robert D. Hawkins(参考訳) 人間の言語処理のアカウントは、関連性はあるが未定の世界の知識に対する理解を深める暗黙の「situation model」に長い間訴えてきた。 本稿では,近年の変圧器モデルに因果介入手法を適用し,一文脈cueがあいまいな代名詞の解釈をシフトさせるWonograd Schema Challenge(WSC)の性能解析を行う。 我々は、代名詞が最終的に出席する候補名詞句のどれを案内する文脈語から情報を伝達する比較的小さな注意ヘッドの回路を特定する。 次に,この回路の動作を,状況モデルが厳密には必要でない‘合成’制御で比較する。 これらの分析は、代名詞分解を導くために暗黙的状況モデルが構築される異なる経路を示唆する。

Accounts of human language processing have long appealed to implicit ``situation models'' that enrich comprehension with relevant but unstated world knowledge. Here, we apply causal intervention techniques to recent transformer models to analyze performance on the Winograd Schema Challenge (WSC), where a single context cue shifts interpretation of an ambiguous pronoun. We identify a relatively small circuit of attention heads that are responsible for propagating information from the context word that guides which of the candidate noun phrases the pronoun ultimately attends to. We then compare how this circuit behaves in a closely matched ``syntactic'' control where the situation model is not strictly necessary. These analyses suggest distinct pathways through which implicit situation models are constructed to guide pronoun resolution.
翻訳日:2023-06-08 10:47:59 公開日:2023-06-07
# チェーン・オブ・サート推論の導出検証

Deductive Verification of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2306.03872v2 )

ライセンス: Link先を確認
Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic and Hao Su(参考訳) 大規模言語モデル(llm)は、様々な推論タスクの実行を促す連鎖的思考(cot)の恩恵を受ける。 CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積誤差を導入し、複雑な推論タスクを解くモデルの能力を制限する。 人間の課題解決に用いた注意深い推論的論理的推論プロセスへの取り組みから着想を得て、言語モデルによる明示的で厳格な推論を可能にし、自己検証を通じて推論プロセスの信頼性を確保することを目指す。 しかし、ChatGPTのような先進的なモデルであっても、導出的推論プロセス全体の妥当性を直接検証することは困難である。 これを踏まえて,推論検証プロセスをステップバイステップの一連のサブプロセスに分解し,それぞれに必要なコンテキストと前提のみを受け取ることを提案する。 そこで本研究では,自然言語に基づく推論形式であるNatural Programを提案する。 我々のアプローチでは、モデルがより厳密な事前ステップに基づく正確な推論ステップを生成することができる。 また、言語モデルに対して、段階的に自己検証を行う権限を与える。 この検証プロセスを各推論段階に統合することにより、生成した推論段階の厳密性と信頼性を著しく向上する。 この過程では,複雑な推論タスクに対する回答の正確性も向上する。 コードはhttps://github.com/lz1oceani/verify_cotでリリースされる。

Large Language Models (LLMs) significantly benefit from Chain-of-Thought (CoT) prompting in performing various reasoning tasks. While CoT allows models to produce more comprehensive reasoning processes, its emphasis on intermediate reasoning steps can inadvertently introduce hallucinations and accumulated errors, thereby limiting models' ability to solve complex reasoning tasks. Inspired by how humans engage in careful and meticulous deductive logical reasoning processes to solve tasks, we seek to enable language models to perform explicit and rigorous deductive reasoning, and also ensure the trustworthiness of their reasoning process through self-verification. However, directly verifying the validity of an entire deductive reasoning process is challenging, even with advanced models like ChatGPT. In light of this, we propose to decompose a reasoning verification process into a series of step-by-step subprocesses, each only receiving their necessary context and premises. To facilitate this procedure, we propose Natural Program, a natural language-based deductive reasoning format. Our approach enables models to generate precise reasoning steps where subsequent steps are more rigorously grounded on prior steps. It also empowers language models to carry out reasoning self-verification in a step-by-step manner. By integrating this verification process into each deductive reasoning stage, we significantly enhance the rigor and trustfulness of generated reasoning steps. Along this process, we also improve the answer correctness on complex reasoning tasks. Code will be released at https://github.com/lz1oceani/verify_cot.
翻訳日:2023-06-08 10:47:45 公開日:2023-06-07
# 仮想健康における患者のドロップアウト予測:マルチモーダルな動的知識グラフとテキストマイニングアプローチ

Patient Dropout Prediction in Virtual Health: A Multimodal Dynamic Knowledge Graph and Text Mining Approach ( http://arxiv.org/abs/2306.03833v2 )

ライセンス: Link先を確認
Shuang Geng, Wenli Zhang, Jiaheng Xie, Gemin Liang, Ben Niu(参考訳) バーチャルヘルスは、医療提供における変革的な力として称賛されている。 しかし、その脱落問題は、健康状態の悪化、健康、社会的、経済的コストの増大に繋がる重要な問題である。 患者ドロップアウトのタイムリーな予測は、ステークホルダーが患者の懸念に対処するための積極的なステップを採り、保持率を向上する可能性がある。 仮想健康では、情報の非対称性は、その配信形式、異なる利害関係者間、および異なる医療提供システム間で内在し、既存の予測方法のパフォーマンスを阻害する。 本稿では,医師と患者の対話から暗黙的かつ明示的な知識と,オンラインおよびオフラインの医療提供システムにおける様々な利害関係者の動的かつ複雑なネットワークを学習するMDKDP(Multimodal Dynamic Knowledge-driven Dropout Prediction)フレームワークを提案する。 我々は,中国最大のバーチャルヘルスプラットフォームであるmdkdpと提携して,mdkdpを評価する。 MDKDPは最高のベンチマークに対してF1スコアを3.26ポイント改善する。 包括的ロバストネス解析により,利害関係者属性,知識力学,コンパクトな双線形プールの統合により,性能が著しく向上することが示された。 我々の研究は、異なるサービスモダリティにおけるマイニングと知識の価値を明らかにすることで、医療ITに重大な影響を与える。 MDKDPは、患者のドロップアウト管理において、バーチャルヘルスプラットフォームのための新しいデザインアーティファクトを提供する。

Virtual health has been acclaimed as a transformative force in healthcare delivery. Yet, its dropout issue is critical that leads to poor health outcomes, increased health, societal, and economic costs. Timely prediction of patient dropout enables stakeholders to take proactive steps to address patients' concerns, potentially improving retention rates. In virtual health, the information asymmetries inherent in its delivery format, between different stakeholders, and across different healthcare delivery systems hinder the performance of existing predictive methods. To resolve those information asymmetries, we propose a Multimodal Dynamic Knowledge-driven Dropout Prediction (MDKDP) framework that learns implicit and explicit knowledge from doctor-patient dialogues and the dynamic and complex networks of various stakeholders in both online and offline healthcare delivery systems. We evaluate MDKDP by partnering with one of the largest virtual health platforms in China. MDKDP improves the F1-score by 3.26 percentage points relative to the best benchmark. Comprehensive robustness analyses show that integrating stakeholder attributes, knowledge dynamics, and compact bilinear pooling significantly improves the performance. Our work provides significant implications for healthcare IT by revealing the value of mining relations and knowledge across different service modalities. Practically, MDKDP offers a novel design artifact for virtual health platforms in patient dropout management.
翻訳日:2023-06-08 10:47:24 公開日:2023-06-07
# 病理研究所のデジタル化:学習した教訓の概観

Digitization of Pathology Labs: A Review of Lessons Learned ( http://arxiv.org/abs/2306.03619v2 )

ライセンス: Link先を確認
Lars Ole Schwen, Tim-Rasmus Kiehl, Rita Carvalho, Norman Zerbe, Andr\'e Homeyer(参考訳) 病理研究所はデジタルワークフローをますます利用している。 これは実験室の効率を高める可能性があるが、デジタル化プロセスには大きな課題もある。 デジタル化プロセスによる特定の研究室の個々の経験を記述したいくつかの報告が公表されている。 しかし、学んだ教訓の包括的な概要はまだ欠けている。 本稿では,デジタルケース管理,デジタルスライド読解,コンピュータ支援スライド読解など,デジタル化プロセスのさまざまな側面から学んだ教訓の概要を紹介する。 また、パフォーマンスや落とし穴、実際に観測される値の監視に使用されるメトリクスも取り上げています。 概要は、病理学者、it意思決定者、管理者が他人の経験から利益を得られるように支援し、デジタル化プロセスを最適な方法で実装することを目的としている。

Pathology laboratories are increasingly using digital workflows. This has the potential of increasing lab efficiency, but the digitization process also involves major challenges. Several reports have been published describing the individual experiences of specific laboratories with the digitization process. However, a comprehensive overview of the lessons learned is still lacking. We provide an overview of the lessons learned for different aspects of the digitization process, including digital case management, digital slide reading, and computer-aided slide reading. We also cover metrics used for monitoring performance and pitfalls and corresponding values observed in practice. The overview is intended to help pathologists, IT decision-makers, and administrators to benefit from the experiences of others and to implement the digitization process in an optimal way to make their own laboratory future-proof.
翻訳日:2023-06-08 10:46:58 公開日:2023-06-07
# あらゆるものを認識する:強力な画像タグモデル

Recognize Anything: A Strong Image Tagging Model ( http://arxiv.org/abs/2306.03514v2 )

ライセンス: Link先を確認
Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang(参考訳) 我々は,画像タグ付けのための強固な基礎モデルであるliam anything model(ram)を提案する。 RAMは任意の共通カテゴリを高い精度で認識することができる。 RAMは画像タグ付けの新しいパラダイムを導入し、手動のアノテーションの代わりに大規模な画像テキストペアをトレーニングに利用している。 RAMの開発には4つの重要なステップがある。 まず、アノテーションのない画像タグを自動テキストセマンティック解析によって大規模に取得する。 その後、キャプションとタグ付けタスクを統一し、それぞれ元のテキストとパースされたタグで教師された予備モデルで自動アノテーションを訓練する。 第3に、追加のアノテーションと不正確なアノテーションを生成するために、データエンジンが使用される。 最後に、モデルは処理されたデータで再トレーニングされ、より小さいが高品質なデータセットを使用して微調整される。 多数のベンチマークでRAMのタグ付け機能を評価し,優れたゼロショット性能を示し,CLIPとBLIPを著しく上回る性能を示した。 注目すべきは、RAMが完全に教師された方法を超え、Google APIと競合するパフォーマンスを示すことだ。 私たちは、コンピュータビジョンにおける大きなモデルの進歩を促進するために、RAMを \url{https://recognize-anything.github.io/} でリリースしています。

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.
翻訳日:2023-06-08 10:46:44 公開日:2023-06-07
# TwistList:Tongue Twister生成のためのリソースとベースライン

TwistList: Resources and Baselines for Tongue Twister Generation ( http://arxiv.org/abs/2306.03457v2 )

ライセンス: Link先を確認
Tyler Loakman, Chen Tang and Chenghua Lin(参考訳) 音声言語生成におけるこれまでの研究は、主に歌詞や詩などの分野に重点を置いてきた。 本稿では,音声の重なりを最大化するために音素的に条件づけされ,入力トピックと意味的一貫性を維持しつつも文法的に正しい言語である舌ツイスターの生成について述べる。 我々は2.1K以上の人為的な例からなる舌ねじれの大規模な注釈付きデータセットである \textbf{TwistList} を提示する。 さらに,提案する舌ツイスター生成タスクに対して,複数のベンチマークシステム(ツイスターミスターと呼ばれる)を提示する。 本稿では,本課題における既存のメインストリーム事前学習モデルの性能を,タスク特化訓練とデータに限定し,明示的な音声知識を持たない,自動的・人間的評価の結果を示す。 これらの条件下では舌ツイスター生成の課題はモデルにとって困難であるが、一部のモデルでは受け入れられる例を生成することができる。

Previous work in phonetically-grounded language generation has mainly focused on domains such as lyrics and poetry. In this paper, we present work on the generation of tongue twisters - a form of language that is required to be phonetically conditioned to maximise sound overlap, whilst maintaining semantic consistency with an input topic, and still being grammatically correct. We present \textbf{TwistList}, a large annotated dataset of tongue twisters, consisting of 2.1K+ human-authored examples. We additionally present several benchmark systems (referred to as TwisterMisters) for the proposed task of tongue twister generation, including models that both do and do not require training on in-domain data. We present the results of automatic and human evaluation to demonstrate the performance of existing mainstream pre-trained models in this task with limited (or no) task specific training and data, and no explicit phonetic knowledge. We find that the task of tongue twister generation is challenging for models under these conditions, yet some models are still capable of generating acceptable examples of this language type.
翻訳日:2023-06-08 10:46:26 公開日:2023-06-07
# Vid2Act: Visual RL用のオフラインビデオのアクティベート

Vid2Act: Activate Offline Videos for Visual RL ( http://arxiv.org/abs/2306.03360v2 )

ライセンス: Link先を確認
Minting Pan, Yitao Zheng, Wendong Zhang, Yunbo Wang, Xiaokang Yang(参考訳) オフラインのビデオデータセットでrlモデルを事前トレーニングすることは、オンラインタスクのトレーニング効率を改善する有望な方法だが、ドメイン間のタスク、ダイナミクス、行動に固有のミスマッチのため、難しい。 最近のモデルであるapvは、関連するアクションレコードをオフラインデータセットでサイドステップし、代わりにソースドメイン内でタスクに依存しないアクションフリーの世界モデルを事前トレーニングすることにフォーカスします。 本稿では,アクションコンディショニング・ダイナミクスと潜在的に有用なアクションデモをオフラインからオンラインに転送することを学ぶモデルベースのrl手法であるvid2actを提案する。 主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、動的表現伝達とポリシー伝達の両方のドメイン関連性を測定するツールとして使うことである。 具体的には、ドメイン選択的知識蒸留損失を用いて、時間変化タスクの類似性を生成するために、世界モデルを訓練する。 これらの類似性は2つの目的を果たす。 (i)動的学習を促進するために最も有用な情報源知識を適応的に伝達し、 (ii)ターゲットポリシーを導くために最も関連するソースアクションを再生する学習。 本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。

Pretraining RL models on offline video datasets is a promising way to improve their training efficiency in online tasks, but challenging due to the inherent mismatch in tasks, dynamics, and behaviors across domains. A recent model, APV, sidesteps the accompanied action records in offline datasets and instead focuses on pretraining a task-irrelevant, action-free world model within the source domains. We present Vid2Act, a model-based RL method that learns to transfer valuable action-conditioned dynamics and potentially useful action demonstrations from offline to online settings. The main idea is to use the world models not only as simulators for behavior learning but also as tools to measure the domain relevance for both dynamics representation transfer and policy transfer. Specifically, we train the world models to generate a set of time-varying task similarities using a domain-selective knowledge distillation loss. These similarities serve two purposes: (i) adaptively transferring the most useful source knowledge to facilitate dynamics learning, and (ii) learning to replay the most relevant source actions to guide the target policy. We demonstrate the advantages of Vid2Act over the action-free visual RL pretraining method in both Meta-World and DeepMind Control Suite.
翻訳日:2023-06-08 10:46:06 公開日:2023-06-07
# 推測時間干渉:言語モデルからの真理回答の除去

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v2 )

ライセンス: Link先を確認
Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の真正性を高めるために設計された手法である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。 この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。 アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。 真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。 さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。 以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

We introduce Inference-Time Intervention (ITI), a technique designed to enhance the truthfulness of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
翻訳日:2023-06-08 10:45:46 公開日:2023-06-07
# スイッチング自己回帰低ランクテンソルモデル

Switching Autoregressive Low-rank Tensor Models ( http://arxiv.org/abs/2306.03291v2 )

ライセンス: Link先を確認
Hyun Dong Lee, Andrew Warrington, Joshua I. Glaser, Scott W. Linderman(参考訳) 時系列解析における重要な問題は、時変ダイナミクスを持つモデリングシステムである。 連続的および離散的潜在状態を持つ確率モデルは、そのようなデータの解釈可能、効率的、実験的に有用な記述を提供する。 一般的に使われているモデルには、自己回帰隠れマルコフモデル(ARHMM)と線形力学系(SLDS)の切り替えがあり、それぞれ独自の利点と欠点がある。 arhmmは正確な推論と簡単なパラメータ推定を可能にするが、長い依存関係をモデル化する場合はパラメータが集中する。 対照的に、SLDSはマルコフの潜在力学を通してパラメータのパラメータ依存性を効率的に捉えることができるが、難解な可能性と挑戦的なパラメータ推定タスクを示す。 本稿では,両手法の利点を保ちながら弱点を改善した自己回帰型低ランクテンソル(SALT)モデルの変更を提案する。 SALTはARHMMのテンソルを低ランク因数分解でパラメータ化し、パラメータの数を制御し、オーバーフィットすることなく長い範囲依存を可能にする。 塩,線形力学系,slds間の実用的関係を理論的に検証し考察する。 我々は、行動や神経データセットを含む様々なシミュレーションおよび実際の予測タスクにおいて、塩モデルの定量的な利点を実証する。 さらに、学習された低ランクテンソルは、各離散状態における時間依存に対する新しい洞察を提供する。

An important problem in time-series analysis is modeling systems with time-varying dynamics. Probabilistic models with joint continuous and discrete latent states offer interpretable, efficient, and experimentally useful descriptions of such data. Commonly used models include autoregressive hidden Markov models (ARHMMs) and switching linear dynamical systems (SLDSs), each with its own advantages and disadvantages. ARHMMs permit exact inference and easy parameter estimation, but are parameter intensive when modeling long dependencies, and hence are prone to overfitting. In contrast, SLDSs can capture long-range dependencies in a parameter efficient way through Markovian latent dynamics, but present an intractable likelihood and a challenging parameter estimation task. In this paper, we propose switching autoregressive low-rank tensor (SALT) models, which retain the advantages of both approaches while ameliorating the weaknesses. SALT parameterizes the tensor of an ARHMM with a low-rank factorization to control the number of parameters and allow longer range dependencies without overfitting. We prove theoretical and discuss practical connections between SALT, linear dynamical systems, and SLDSs. We empirically demonstrate quantitative advantages of SALT models on a range of simulated and real prediction tasks, including behavioral and neural datasets. Furthermore, the learned low-rank tensor provides novel insights into temporal dependencies within each discrete state.
翻訳日:2023-06-08 10:45:31 公開日:2023-06-07