このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230601となっている論文です。

PDF登録状況(公開日: 20230601)

TitleAuthorsAbstract論文公表日・翻訳日
# 書式要素がコード適合性に及ぼす影響に関する体系的文献レビュー

A Systematic Literature Review on the Impact of Formatting Elements on Code Legibility ( http://arxiv.org/abs/2208.12141v3 )

ライセンス: Link先を確認
Delano Oliveira, Reydne Santos, Fernanda Madeiral, Hidehiko Masuhara, Fernando Castor(参考訳) 文脈: ソフトウェアプログラムは異なるが機能的に同等の方法で書くことができる。 以前の研究では、特定のフォーマット要素を比較して、どの代替案がコードの可読性に影響を与えるかを調べてきたが、コードの多かれ少なかれ妥当な部分の全体像を見るのは難しい。 目標: 実験的な研究において,どのフォーマット要素が研究されているか,どの代替手段が人体に対してより妥当かを調べることを目的としている。 方法: 体系的な文献レビューを行い, 代替フォーマット要素を直接比較した人間中心研究を含む15の論文を同定した。 これらのフォーマッティング要素をカードソート法により分析・整理した。 結果:13のフォーマッティング要素(例えばインデント)と33のフォーマッティング要素(例えば2空間インデント)を特定し,フォーマットスタイル,スペーシング,ブロックデリミタ,長いコード行あるいは複雑なコード行,単語境界スタイルについて検討した。 いくつかのレベルは他の同等のレベルよりも統計的に優れていることが判明したが、例えばブロックによるインデンテーションの適切な使用は、例えば、レイアウトのフォーマット化には至らなかった。 識別子スタイルについては,ラクダの場合とスネークケースでは有意差を認め,他の研究ではスネークケースでは有意差が認められた。 結論: 特定された論文の数、そのうちのいくつかは時代遅れであり、多くのヌルと矛盾する結果が、この分野における仕事の相対的欠如を強調し、さらなる研究の重要性を強調している。 ガイドライン作成や自動アシスト作成に先立って,フォーマット要素がコードの正当性にどのように影響するかについては,多くの理解が必要になります。

Context: Software programs can be written in different but functionally equivalent ways. Even though previous research has compared specific formatting elements to find out which alternatives affect code legibility, seeing the bigger picture of what makes code more or less legible is challenging. Goal: We aim to find which formatting elements have been investigated in empirical studies and which alternatives were found to be more legible for human subjects. Method: We conducted a systematic literature review and identified 15 papers containing human-centric studies that directly compared alternative formatting elements. We analyzed and organized these formatting elements using a card-sorting method. Results: We identified 13 formatting elements (e.g., indentation) and 33 levels of formatting elements (e.g., two-space indentation), which are about formatting styles, spacing, block delimiters, long or complex code lines, and word boundary styles. While some levels were found to be statistically better than other equivalent ones in terms of code legibility, e.g., appropriate use of indentation with blocks, others were not, e.g., formatting layout. For identifier style, we found divergent results, where one study found a significant difference in favor of camel case, while another study found a positive result in favor of snake case. Conclusion: The number of identified papers, some of which are outdated, and the many null and contradictory results emphasize the relative lack of work in this area and underline the importance of more research. There is much to be understood about how formatting elements influence code legibility before the creation of guidelines and automated aids to help developers make their code more legible.
翻訳日:2023-10-24 15:06:35 公開日:2023-06-01
# MeROS: ROSベースのシステムのためのSysMLベースのメタモデル

MeROS: SysML-based Metamodel for ROS-based Systems ( http://arxiv.org/abs/2303.08254v10 )

ライセンス: Link先を確認
Tomasz Winiarski(参考訳) 今日のロボット制御システムの複雑さは、それらを効率的かつ確実に開発することの難しさを示唆している。 システムエンジニアリング(SE)とフレームワークが役に立ちます。 フレームワークのメタモデルは、生成されたアプリケーションモデルの標準化と正確性をサポートするために必要です。 フレームワークの利用は近年広く普及しているが、ロボットオペレーティング・システム (ROS) が最も普及しているため、現代のメタモデルが欠落している。 本稿では、実行中のシステムと開発作業空間に対処するMeROSと呼ばれるROSの新しいメタモデルを提案する。 ROSには、ROS 1とROS 2の2つのバージョンがある。 メタモデルは両方のバージョンを含んでいる。 特に、nodelet、action、metapackageといった最新のros 1の概念が検討されている。 オリジナルのrosの概念に不可欠な追加は、これらの概念をグループ化することである。 メタモデルは、要求から導き出され、ricoアシストロボットの実例で検証されている。 この問題はSysML(Systems Modeling Language)で標準化されている。 このため、SysMLをサポートする一般的な開発ツールは、SEの精神でロボットコントローラを開発するのに役立つ。

The complexity of today's robot control systems implies difficulty in developing them efficiently and reliably. Systems engineering (SE) and frameworks come to help. The framework metamodels are needed to support the standardisation and correctness of the created application models. Although the use of frameworks is widespread nowadays, for the most popular of them, Robot Operating System (ROS), a contemporary metamodel has been missing so far. This article proposes a new metamodel for ROS called MeROS, which addresses the running system and developer workspace. The ROS comes in two versions: ROS 1 and ROS 2. The metamodel includes both versions. In particular, the latest ROS 1 concepts are considered, such as nodelet, action, and metapackage. An essential addition to the original ROS concepts is the grouping of these concepts, which provides an opportunity to illustrate the system's decomposition and varying degrees of detail in its presentation. The metamodel is derived from the requirements and verified on the practical example of Rico assistive robot. The matter is described in a standardised way in SysML (Systems Modeling Language). Hence, common development tools that support SysML can help develop robot controllers in the spirit of SE.
翻訳日:2023-10-24 12:53:58 公開日:2023-06-01
# バグ報告が少なすぎる? changeetベースのバグローカライゼーション改善のためのデータ拡張の検討

Too Few Bug Reports? Exploring Data Augmentation for Improved Changeset-based Bug Localization ( http://arxiv.org/abs/2305.16430v2 )

ライセンス: Link先を確認
Agnieszka Ciborowska and Kostadin Damevski(参考訳) トランスフォーマー(BERT、RoBERTaなど)に基づく現代のディープラーニング(DL)アーキテクチャは、多くの自然言語タスクでパフォーマンスが改善されている。 このようなDLモデルは、ソフトウェアエンジニアリングアプリケーションでの利用には大きな可能性があるが、トレーニングデータ不足によってしばしば妨げられる。 特に制約のあるアプリケーションは、バグローカライゼーション(バグローカライゼーション)など、プロジェクト固有のデータを必要とするアプリケーションである。 バグローカライゼーションのためのディープラーニングモデルは、人気があり、活発に開発されたソフトウェアプロジェクトでさえ、限られた量のバグレポートのかなりのトレーニングを必要とする。 本稿では,バグ報告毎にバグを誘発する変更セットの検索を目標とした,より複雑なバグローカライゼーションの変種を実行するトランスフォーマティブベースdlモデルに対する合成トレーニングデータの利用の効果について検討する。 高品質な合成データを生成するために,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。 また、トレーニングデータとして使用される既存のバグレポートは通常、コードベースのごく一部を参照するため、ソースコード全体をよりよく反映する拡張バグレポートのコーパスを作成することを目的としたデータバランシング戦略についても説明する。

Modern Deep Learning (DL) architectures based on transformers (e.g., BERT, RoBERTa) are exhibiting performance improvements across a number of natural language tasks. While such DL models have shown tremendous potential for use in software engineering applications, they are often hampered by insufficient training data. Particularly constrained are applications that require project-specific data, such as bug localization, which aims at recommending code to fix a newly submitted bug report. Deep learning models for bug localization require a substantial training set of fixed bug reports, which are at a limited quantity even in popular and actively developed software projects. In this paper, we examine the effect of using synthetic training data on transformer-based DL models that perform a more complex variant of bug localization, which has the goal of retrieving bug-inducing changesets for each bug report. To generate high-quality synthetic data, we propose novel data augmentation operators that act on different constituent components of bug reports. We also describe a data balancing strategy that aims to create a corpus of augmented bug reports that better reflects the entire source code base, because existing bug reports used as training data usually reference a small part of the code base.
翻訳日:2023-10-24 05:38:23 公開日:2023-06-01
# カーディナリティ推定テストによるデータベースエンジンの性能問題発見

Finding Performance Issues in Database Engines via Cardinality Estimation Testing ( http://arxiv.org/abs/2306.00355v1 )

ライセンス: Link先を確認
Jinsheng Ba, Manuel Rigger(参考訳) データベース管理システム(DBMS)は、クエリの結果を計算するために実行計画を作成することで、所定のクエリを処理する。 効率的なクエリ計画の導出は困難であり、学術と産業の両方がクエリ最適化の研究に何十年も費やしている。 それにもかかわらず、DBMSはパフォーマンス上の問題になりがちで、DBMSはクエリの実行を遅くする非効率なクエリプランを生成する。 このような問題を見つけることは長年の問題であり、期待される実行時間に関する根拠となる真理情報は存在しないため、本質的に困難である。 本研究では,濃度推定のレンズを通して性能問題を検出する新しい手法である濃度推定制限テスト(cert)を提案する。 データベース上のクエリが与えられた場合、CERTはより制限的なクエリ(例えば、LEFT JOINをINNER JOINに置き換えるなど)を導出する。 CERTテストの基数推定器は、クエリ最適化の最も重要なコンポーネントであることが示されており、そのような問題の発見と修正が、最高のパフォーマンス向上をもたらすと期待している。 さらに,cert によって検出可能な予期せぬ濃度推定によって,他のクエリ最適化の問題が明らかにされることが分かった。 CERTはソースコードへのアクセスを必要としないブラックボックス技術であり、DBMSはEXPLAINステートメントを通じてクエリプランを公開する。 certはクエリの実行を回避し、コストがかかり、パフォーマンスの変動が発生しやすい。 CERTを広く使われている3つの成熟DBMS、MySQL、TiDB、CockroachDBで評価した。 CERTは13のユニークな問題を発見し、そのうち2つは修正され、9つは開発者によって確認された。 私たちはDBMS開発者がDBMBSのパフォーマンスを改善するのに役立つパフォーマンスバグを見つけるための新しいアングルを期待しています。

Database Management Systems (DBMSs) process a given query by creating an execution plan, which is subsequently executed, to compute the query's result. Deriving an efficient query plan is challenging, and both academia and industry have invested decades into researching query optimization. Despite this, DBMSs are prone to performance issues, where a DBMS produces an inefficient query plan that might lead to the slow execution of a query. Finding such issues is a longstanding problem and inherently difficult, because no ground truth information on an expected execution time exists. In this work, we propose Cardinality Estimation Restriction Testing (CERT), a novel technique that detects performance issues through the lens of cardinality estimation. Given a query on a database, CERT derives a more restrictive query (e.g., by replacing a LEFT JOIN with an INNER JOIN), whose estimated number of rows should not exceed the number of estimated rows for the original query. CERT tests cardinality estimators specifically, because they were shown to be the most important component for query optimization; thus, we expect that finding and fixing such issues might result in the highest performance gains. In addition, we found that some other kinds of query optimization issues are exposed by the unexpected cardinality estimation, which can also be detected by CERT. CERT is a black-box technique that does not require access to the source code; DBMSs expose query plans via the EXPLAIN statement. CERT eschews executing queries, which is costly and prone to performance fluctuations. We evaluated CERT on three widely used and mature DBMSs, MySQL, TiDB, and CockroachDB. CERT found 13 unique issues, of which 2 issues were fixed and 9 confirmed by the developers. We expect that this new angle on finding performance bugs will help DBMS developers in improving DMBSs' performance.
翻訳日:2023-10-24 05:06:16 公開日:2023-06-01
# 静的型部分符号のための教師なし制御フローグラフ生成のための大言語モデルに基づくAIチェーン

AI Chain on Large Language Model for Unsupervised Control Flow Graph Generation for Statically-Typed Partial Code ( http://arxiv.org/abs/2306.00757v1 )

ライセンス: Link先を確認
Qing Huang, Zhou Zou, Zhenchang Xing, Zhenkang Zuo, Xiwei Xu, Qinghua Lu(参考訳) 制御フローグラフ(cfgs)は,プログラム動作の可視化,理解,解析に不可欠である。 Javaのような静的型付け言語では、コンパイル可能なコードのバイトコードベースのメソッドと部分的にコンパイル不可能なコードの抽象構文木(AST)ベースのメソッドを使用してCFGを取得する。 しかし,AST構築時の明示的な構文エラーや,悪いコーディングプラクティスによる暗黙的な意味的誤りは,CFGの動作損失や逸脱につながる可能性があるため,この問題を解決するために,事前学習された大規模言語モデル(LLM)の誤り耐性と理解能力を活用してCFGを生成する新しいアプローチを提案する。 我々のアプローチは、構造階層抽出、ネストされたコードブロック抽出、ネストされたコードブロックのCFG生成、ネストされたコードブロックのCFGの融合の4つのステップからなるChain of Thought(CoT)を含む。 元のCoTの単一プロンプトアプローチ(すなわち、単一の生成パスですべてのステップを完了)の限界に対処するために、"epic'"プロンプトがハード・トゥ・コントロールの動作とエラーの蓄積を伴い、CoTを明示的なサブステップでAIチェーンに分解する。 各サブステップは、それぞれのAIユニットに対応し、それぞれのユニットに効果的なプロンプトを割り当てて、特定の目的を達成する。我々の実験は、我々の手法が既存のCFGツール、特に不完全または誤コードにおいて、ノードとエッジのカバレッジにおいて優れていることを確認した。 また,aiチェーン設計の原則である階層的タスクブレークダウン,ユニット構成,aiユニットと非aiユニットの混合などの有効性を確認し,従来のプログラム分析手法とは対照的に,llmに基づく基礎的ソフトウェアエンジニアリングツール構築のための新たな可能性を開く。

Control Flow Graphs (CFGs) are essential for visualizing, understanding and analyzing program behavior. For statically-typed programming language like Java, developers obtain CFGs by using bytecode-based methods for compilable code and Abstract Syntax Tree (AST)-based methods for partially uncompilable code. However, explicit syntax errors during AST construction and implicit semantic errors caused by bad coding practices can lead to behavioral loss and deviation of CFGs.To address the issue, we propose a novel approach that leverages the error-tolerant and understanding ability of pre-trained Large Language Models (LLMs) to generate CFGs. Our approach involves a Chain of Thought (CoT) with four steps: structure hierarchy extraction, nested code block extraction, CFG generation of nested code blocks, and fusion of all nested code blocks' CFGs. To address the limitations of the original CoT's single-prompt approach (i.e., completing all steps in a single generative pass), which can result in an ``epic'' prompt with hard-to-control behavior and error accumulation, we break down the CoT into an AI chain with explicit sub-steps. Each sub-step corresponds to a separate AI-unit, with an effective prompt assigned to each unit for interacting with LLMs to accomplish a specific purpose.Our experiments confirmed that our method outperforms existing CFG tools in terms of node and edge coverage, especially for incomplete or erroneous code. We also conducted an ablation experiment and confirmed the effectiveness of AI chain design principles: Hierarchical Task Breakdown, Unit Composition, and Mix of AI Units and Non-AI Units.Our work opens up new possibilities for building foundational software engineering tools based on LLMs, as opposed to traditional program analysis methods.
翻訳日:2023-10-24 04:58:57 公開日:2023-06-01
# UNGOML: Goにおける安全でない使用の自動分類

UNGOML: Automated Classification of unsafe Usages in Go ( http://arxiv.org/abs/2306.00694v1 )

ライセンス: Link先を確認
Anna-Katharina Wickert, Clemens Damke, Lars Baumg\"artner, Eyke H\"ullermeier, Mira Mezini(参考訳) goプログラミング言語は、メモリ破壊から強い保護を提供する。 これらの保護の脱出ハッチとして、安全でないパッケージを提供する。 以前の研究では、このunsafeパッケージは、シリアライズやキャスティングタイプなど、いくつかの目的で現実世界のコードで頻繁に使用されている。 これらの様々な理由から、潜在的な脆弱性を避けるために特定の使用法をリファクタリングすることが可能である。 しかし、安全でない使用の分類は困難であり、呼び出しのコンテキストとプログラムの構造を必要とする。 本稿では,unsafeパッケージで何がされたのか,なぜ使用されるのかを特定するために,goでunsafeを使用する最初の自動分類器ungomlを提案する。 UNGOMLのために、手動でラベル付けされたデータセットでトレーニングされた4つのカスタムディープラーニング分類器を構築しました。 我々は、goコードを強化制御フローグラフ(cfgs)として表現し、1つの単一頂点と3つのコンテキスト認識型分類器でラベル予測タスクを解決する。 3つのコンテキスト対応の分類器はいずれも、両方の次元で86%以上のtop-1精度を達成している。 さらに, 定値共形予測設定では, 両次元の平均ラベル集合サイズが2である場合, 93%以上の精度が得られる。 したがって、UNGOMLは、リファクタリングやセキュリティ監査のようなユースケースの安全でない使用を効率的にフィルタリングするために使用することができる。 UNGOML: https://github.com/stg-tud/ungoml Artifact: https://dx.doi.org/10.6084/m9.figshare.22293052

The Go programming language offers strong protection from memory corruption. As an escape hatch of these protections, it provides the unsafe package. Previous studies identified that this unsafe package is frequently used in real-world code for several purposes, e.g., serialization or casting types. Due to the variety of these reasons, it may be possible to refactor specific usages to avoid potential vulnerabilities. However, the classification of unsafe usages is challenging and requires the context of the call and the program's structure. In this paper, we present the first automated classifier for unsafe usages in Go, UNGOML, to identify what is done with the unsafe package and why it is used. For UNGOML, we built four custom deep learning classifiers trained on a manually labeled data set. We represent Go code as enriched control-flow graphs (CFGs) and solve the label prediction task with one single-vertex and three context-aware classifiers. All three context-aware classifiers achieve a top-1 accuracy of more than 86% for both dimensions, WHAT and WHY. Furthermore, in a set-valued conformal prediction setting, we achieve accuracies of more than 93% with mean label set sizes of 2 for both dimensions. Thus, UNGOML can be used to efficiently filter unsafe usages for use cases such as refactoring or a security audit. UNGOML: https://github.com/stg-tud/ungoml Artifact: https://dx.doi.org/10.6084/m9.figshare.22293052
翻訳日:2023-10-24 04:58:21 公開日:2023-06-01
# Pythonプログラムにおけるフォールトローカライゼーションに関する実証的研究

An Empirical Study of Fault Localization in Python Programs ( http://arxiv.org/abs/2305.19834v2 )

ライセンス: Link先を確認
Mohammad Rezaalipour and Carlo A. Furia(参考訳) プログラミング言語としては非常に人気があるが、特にデータサイエンスプログラムのような新しい領域では、Pythonをターゲットにしたフォールトローカライゼーションに関する研究はほとんどない。 C/C++やJavaのようなプログラミング言語に関するいくつかの発見(フォールトローカライゼーション研究の最も一般的な選択)が、Pythonのダイナミックな性質と実際に言語がどのように使われているかが、古典的なフォールトローカライゼーションアプローチの能力に影響を与えているかどうか、他の言語に続いていることは確実である。 本稿は,実世界のpythonプログラムと障害に対するフォールトローカライズに関する,最初の大規模実証研究である。 Using Zou et al.'s recent large-scale empirical study of fault localization in Java as the basis of our study, we investigated the effectiveness (i.e., localization accuracy), efficiency (i.e., runtime performance), and other features (e.g., different entity granularities) of seven well-known fault-localization techniques in four families (spectrum-based, mutation-based, predicate switching, and stack-trace based) on 135 faults from 13 open-source Python projects from the BugsInPy curated collection. 結果は、PythonのJavaに関するいくつかの成果を再現し、Pythonの特異性が障害ローカライゼーションの能力に影響を及ぼすかどうかを明かした。 この論文に付随するレプリケーションパッケージには、実験に関する詳細なデータと、研究を実施するために実装したツールのfauxpyが含まれています。

Despite its massive popularity as a programming language, especially in novel domains like data science programs, there is comparatively little research about fault localization that targets Python. Even though it is plausible that several findings about programming languages like C/C++ and Java -- the most common choices for fault localization research -- carry over to other languages, whether the dynamic nature of Python and how the language is used in practice affect the capabilities of classic fault localization approaches remain open questions to investigate. This paper is the first large-scale empirical study of fault localization on real-world Python programs and faults. Using Zou et al.'s recent large-scale empirical study of fault localization in Java as the basis of our study, we investigated the effectiveness (i.e., localization accuracy), efficiency (i.e., runtime performance), and other features (e.g., different entity granularities) of seven well-known fault-localization techniques in four families (spectrum-based, mutation-based, predicate switching, and stack-trace based) on 135 faults from 13 open-source Python projects from the BugsInPy curated collection. The results replicate for Python several results known about Java, and shed light on whether Python's peculiarities affect the capabilities of fault localization. The replication package that accompanies this paper includes detailed data about our experiments, as well as the tool FauxPy that we implemented to conduct the study.
翻訳日:2023-10-24 04:56:06 公開日:2023-06-01
# ソフトウェア工学の量子フロンティア:体系的マッピング研究

The Quantum Frontier of Software Engineering: A Systematic Mapping Study ( http://arxiv.org/abs/2305.19683v2 )

ライセンス: Link先を確認
Manuel De Stefano, Fabiano Pecorelli, Dario Di Nucci, Fabio Palomba, Andrea De Lucia(参考訳) コンテキスト。 量子コンピューティングは現実になりつつあり、量子ソフトウェア工学(qse)は開発者が量子プログラムの設計と開発を可能にする新しい分野として登場している。 目的。 本稿では,qse研究の現況を体系的にマッピングし,最も調査されたトピック,研究の種類と数,主な報告結果,そして最も研究されている量子コンピューティングツール/フレームワークを特定することを目的とした。 さらに、研究コミュニティのqseに対する関心、qseがどのように発展してきたか、そしてtalavera manifestoを通じて正式に導入される前の分野への以前の貢献を探求することを目的としている。 方法。 関連する論文を複数のデータベースで検索し,最も関連性の高い研究を選択するために包括的・排他的基準を適用した。 選択した資源の質を評価した後,一次研究から関連データを抽出し,分析した。 結果だ QSEの研究は主にソフトウェアテストに焦点を合わせており、ソフトウェアエンジニアリング管理など他のトピックにはほとんど注意を払っていません。 技術やツールの最も一般的に研究されている技術はqiskitであるが、ほとんどの研究では複数の特定の技術が採用されている。 QSEに関心を持つ研究者は直接のコラボレーションを通じて相互接続されており、いくつかの強力なコラボレーションクラスタが特定されている。 QSEのほとんどの記事は非テーマの会場で公開されており、会議を好みます。 結論だ この研究の意義は、この分野の研究者や実践者への集中的な情報提供、知識伝達の促進、qseの進歩と成長に貢献することである。

Context. Quantum computing is becoming a reality, and quantum software engineering (QSE) is emerging as a new discipline to enable developers to design and develop quantum programs. Objective. This paper presents a systematic mapping study of the current state of QSE research, aiming to identify the most investigated topics, the types and number of studies, the main reported results, and the most studied quantum computing tools/frameworks. Additionally, the study aims to explore the research community's interest in QSE, how it has evolved, and any prior contributions to the discipline before its formal introduction through the Talavera Manifesto. Method. We searched for relevant articles in several databases and applied inclusion and exclusion criteria to select the most relevant studies. After evaluating the quality of the selected resources, we extracted relevant data from the primary studies and analyzed them. Results. We found that QSE research has primarily focused on software testing, with little attention given to other topics, such as software engineering management. The most commonly studied technology for techniques and tools is Qiskit, although, in most studies, either multiple or none specific technologies were employed. The researchers most interested in QSE are interconnected through direct collaborations, and several strong collaboration clusters have been identified. Most articles in QSE have been published in non-thematic venues, with a preference for conferences. Conclusions. The study's implications are providing a centralized source of information for researchers and practitioners in the field, facilitating knowledge transfer, and contributing to the advancement and growth of QSE.
翻訳日:2023-10-24 04:54:34 公開日:2023-06-01
# パキスタンのコンピュータサイエンスとソフトウェアエンジニアリングの学生は、ソフトウェアテストについてどう思うだろうか?

What Pakistani Computer Science and Software Engineering Students Think about Software Testing? ( http://arxiv.org/abs/2306.01033v1 )

ライセンス: Link先を確認
Luiz Fernando Capretz and Abdul Rehman Gilal(参考訳) ソフトウェアテストは、ソフトウェアライフサイクルの重要なサポートプロセスのひとつです。 ソフトウェア業界にとって残念なことに、この役割は、一部は誤解によるものであり、一部は役割の扱いによるものである。 本研究の目的は,コンピュータサイエンスとソフトウェア工学の学生がソフトウェア業界でテストキャリアを積むことを妨げる要因を探ることにある。 この研究を行うために,88人のパキスタン人学生がコンピュータサイエンスやソフトウェア工学の学位を取得した。 本研究は,他のソフトウェアライフサイクルの役割と比較して,テストの不人気に関する先行研究を支援していることが示された。 さらに,本研究の結果から,テスタの役割は社会的役割となり,社会的意味合いは技術的意味合いと同じくらい大きいことが明らかとなった。

Software testing is one of the crucial supporting processes of the software life cycle. Unfortunately for the software industry, the role is stigmatized, partly due to misperception and partly due to treatment of the role. The present study aims to analyze the situation to explore what restricts computer science and software engineering students from taking up a testing career in the software industry. To conduct this study, we surveyed 88 Pakistani students taking computer science or software engineering degrees. The results showed that the present study supports previous work into the unpopularity of testing compared to other software life cycle roles. Furthermore, the findings of our study showed that the role of tester has become a social role, with as many social connotations as technical implications.
翻訳日:2023-10-24 04:42:28 公開日:2023-06-01
# TeamPlayプロジェクト:サイバー物理システムのための時間、エネルギー、セキュリティの分析と最適化

The TeamPlay Project: Analysing and Optimising Time, Energy, and Security for Cyber-Physical Systems ( http://arxiv.org/abs/2306.06115v1 )

ライセンス: Link先を確認
Benjamin Rouxel (UNIMORE), Christopher Brown, Emad Ebeid (SDU), Kerstin Eder, Heiko Falk (TUHH), Clemens Grelck (UvA), Jesper Holst, Shashank Jadhav (TUHH), Yoann Marquer, Marcos Martinez De Alejandro (TAS-E), Kris Nikov, Ali Sahafi (SDU), Ulrik Pagh Schultz Lundquist (SDU), Adam Seewald, Vangelis Vassalos, Simon Wegener (Angewandte Informatik), Olivier Zendra (DiverSe, DiverSe)(参考訳) エネルギー、時間、セキュリティ(ETS)といった非機能特性は、サイバー物理システム(CPS)プログラミングにおいてますます重要になっている。 この記事では、2018年1月から2021年6月までのEU Horizon 2020プログラムで資金提供された研究プロジェクトであるTeamPlayについて説明する。 TeamPlayは、ETSプロパティが第一級市民である組み込みアプリケーションを開発するためのツールチェーンをシステムデザイナに提供することを目的としており、開発者はソースコードレベルでエネルギー、時間、セキュリティプロパティを直接反映できる。 本稿では、TeamPlayの方法論の概要を説明し、我々のアプローチの課題と解決策を紹介し、その結果を要約する。 全体として、TeamPlayの方法論を適用することで、従来のアプローチよりも最大18%のパフォーマンスと52%のエネルギー使用率が向上しました。

Non-functional properties, such as energy, time, and security (ETS) are becoming increasingly important in Cyber-Physical Systems (CPS) programming. This article describes TeamPlay, a research project funded under the EU Horizon 2020 programme between January 2018 and June 2021. TeamPlay aimed to provide the system designer with a toolchain for developing embedded applications where ETS properties are first-class citizens, allowing the developer to reflect directly on energy, time and security properties at the source code level. In this paper we give an overview of the TeamPlay methodology, introduce the challenges and solutions of our approach and summarise the results achieved. Overall, applying our TeamPlay methodology led to an improvement of up to 18% performance and 52% energy usage over traditional approaches.
翻訳日:2023-10-24 03:54:38 公開日:2023-06-01
# 金融市場における潜在トピック発見と期待モデリング

Joint Latent Topic Discovery and Expectation Modeling for Financial Markets ( http://arxiv.org/abs/2307.08649v1 )

ライセンス: Link先を確認
Lili Wang, Chenghan Huang, Chongyang Gao, Weicheng Ma, and Soroush Vosoughi(参考訳) 金融市場分析のための正確でスケーラブルな定量的手法の追求により、個々の株式モデルから企業と株式の相互関係を捉えるモデルへと焦点が移っている。 しかし、現在のリレーショナル・ストックの手法は、事前に定義された株式関係に依存することと、即時効果の排他的考慮によって制限されている。 これらの制限に対処するため、金融市場分析のための画期的な枠組みを提案する。 このアプローチは、私たちの知る限り、投資家の期待を共同でモデル化し、潜在株式関係を自動的に掘り下げる最初のものです。 世界最大の市場の一つである中国のCSI300で実施された総合的な実験は、我々のモデルが一貫して10%を超えるリターンを達成していることを示している。 このパフォーマンスは既存のベンチマークを上回り、ストックリターン予測と複数年のトレーディングシミュレーション(バックテスト)に最先端の標準を新たに設定する。

In the pursuit of accurate and scalable quantitative methods for financial market analysis, the focus has shifted from individual stock models to those capturing interrelations between companies and their stocks. However, current relational stock methods are limited by their reliance on predefined stock relationships and the exclusive consideration of immediate effects. To address these limitations, we present a groundbreaking framework for financial market analysis. This approach, to our knowledge, is the first to jointly model investor expectations and automatically mine latent stock relationships. Comprehensive experiments conducted on China's CSI 300, one of the world's largest markets, demonstrate that our model consistently achieves an annual return exceeding 10%. This performance surpasses existing benchmarks, setting a new state-of-the-art standard in stock return prediction and multiyear trading simulations (i.e., backtesting).
翻訳日:2023-10-23 17:26:31 公開日:2023-06-01
# 少数ショット意味セグメンテーションのための反射不変性学習

Reflection Invariance Learning for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2309.15850v1 )

ライセンス: Link先を確認
Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang(参考訳) 少数ショットセマンティクスセグメンテーション(英語版)(fss)は、わずかな注釈付きサポートイメージでクエリ画像内の未認識クラスのオブジェクトをセグメンテーションすることを目的としている。 既存のfssアルゴリズムは通常、シングルビューのサポートからカテゴリ表現をマイニングして、シングルビュークエリのセマンティックオブジェクトにマッチさせる。 しかし、注釈付きサンプルの限定は、新しい対象の反射不変性を知覚するために、単一ビューマッチングの苦労を生かし、その結果、新しいカテゴリーの学習スペースが制限され、さらに解析性能が低下した偏りのセグメンテーションが引き起こされる。 この課題に対処するために,マルチビューマッチング方式でリフレクション不変性をマイニングする,新しい数ショットセグメンテーションフレームワークを提案する。 具体的には、同じ意味を持つ異なる視点からのオリジナルおよびリフレクション支援機能を学習し、より強力なカテゴリ表現能力を持つリフレクション不変のプロトタイプを得る。 同時に、より優れた事前ガイダンスの提供を目指して、異なる視点からの事前知識を統合するために、反射不変性優先マスク生成(ripmg)モジュールを提案する。 最後に、様々なビューからのセグメンテーション予測をreflection invariance semantic prediction (risp)モジュールに相補的にマージし、正確なセグメンテーション予測を得る。 PASCAL-$5^\textit{i}$およびCOCO-$20^\textit{i}$データセットの大規模な実験は、我々のアプローチの有効性を示し、我々の手法が最先端のパフォーマンスを達成できることを示す。 コードは \url{https://anonymous.4open.science/r/RILFS-A4D1} で入手できる。

Few-shot semantic segmentation (FSS) aims to segment objects of unseen classes in query images with only a few annotated support images. Existing FSS algorithms typically focus on mining category representations from the single-view support to match semantic objects of the single-view query. However, the limited annotated samples render the single-view matching struggle to perceive the reflection invariance of novel objects, which results in a restricted learning space for novel categories and further induces a biased segmentation with demoted parsing performance. To address this challenge, this paper proposes a fresh few-shot segmentation framework to mine the reflection invariance in a multi-view matching manner. Specifically, original and reflection support features from different perspectives with the same semantics are learnable fused to obtain the reflection invariance prototype with a stronger category representation ability. Simultaneously, aiming at providing better prior guidance, the Reflection Invariance Prior Mask Generation (RIPMG) module is proposed to integrate prior knowledge from different perspectives. Finally, segmentation predictions from varying views are complementarily merged in the Reflection Invariance Semantic Prediction (RISP) module to yield precise segmentation predictions. Extensive experiments on both PASCAL-$5^\textit{i}$ and COCO-$20^\textit{i}$ datasets demonstrate the effectiveness of our approach and show that our method could achieve state-of-the-art performance. Code is available at \url{https://anonymous.4open.science/r/RILFS-A4D1}
翻訳日:2023-10-23 06:06:22 公開日:2023-06-01
# モンドリアン共形予測器を用いたエンタプライズディスクドライブスクラブ

Enterprise Disk Drive Scrubbing Based on Mondrian Conformal Predictors ( http://arxiv.org/abs/2306.17169v1 )

ライセンス: Link先を確認
Rahul Vishwakarma, Jinha Hwang, Soundouss Messoudi, Ava Hedayatipour(参考訳) ディスクスクラブ(英: disk scrubbing)は、ディスクからデータを読み込み、ディスク上の読み取りエラーを解決するプロセスである。 しかし、ストレージアレイ全体を一度にスクラップすることはシステム性能、特に高入力/出力操作の期間に悪影響を及ぼす可能性がある。 さらに、スクラブ時のディスクからのデータの連続的な読み取りは、特に大きな容量ディスクにおいて、大きな時間とエネルギー消費を伴うため、摩耗や裂け目を引き起こす可能性がある。 これらの問題に対処するため、データセンター全体の信頼性と電力効率を向上させる選択的ディスクスクラブ法を提案する。 本手法では,mondrian conformal predictionに基づく機械学習モデルを用いて,ストレージプール内の各ディスクの健康状態を積極的に予測し,事前にn日を予測し,オープンソースのデータセットを用いてスクラブ用ディスクを識別する。 健康でないと予測されたディスクについては、追加のアクションなしに置き換えをマークします。 健全なドライブでは、予測者の自信に基づいて、セットを作成し、ストレージプール全体の相対的な健康を定量化する。 これにより、スクラブサイクルに基づいて、確立されたスクラブ周波数でドライブの選択スクラブを優先順位付けできる。 本提案手法は,エンタープライズディスクドライブ管理のための効率的かつ信頼性の高いソリューションを提供する。 全ストレージディスクの22.7%をスクレイプすることで、最適化されたエネルギー消費を実現し、データセンターの炭素フットプリントを削減できる。

Disk scrubbing is a process aimed at resolving read errors on disks by reading data from the disk. However, scrubbing the entire storage array at once can adversely impact system performance, particularly during periods of high input/output operations. Additionally, the continuous reading of data from disks when scrubbing can result in wear and tear, especially on larger capacity disks, due to the significant time and energy consumption involved. To address these issues, we propose a selective disk scrubbing method that enhances the overall reliability and power efficiency in data centers. Our method employs a Machine Learning model based on Mondrian Conformal prediction to identify specific disks for scrubbing, by proactively predicting the health status of each disk in the storage pool, forecasting n-days in advance, and using an open-source dataset. For disks predicted as non-healthy, we mark them for replacement without further action. For healthy drives, we create a set and quantify their relative health across the entire storage pool based on the predictor's confidence. This enables us to prioritize selective scrubbing for drives with established scrubbing frequency based on the scrub cycle. The method we propose provides an efficient and dependable solution for managing enterprise disk drives. By scrubbing just 22.7% of the total storage disks, we can achieve optimized energy consumption and reduce the carbon footprint of the data center.
翻訳日:2023-07-09 14:18:26 公開日:2023-06-01
# 言語モデルを代数トポロジーに適用する: ウーの公式における多重ラベルを用いた単純サイクルの生成

Applying language models to algebraic topology: generating simplicial cycles using multi-labeling in Wu's formula ( http://arxiv.org/abs/2306.16951v1 )

ライセンス: Link先を確認
Kirill Brilliantov, Fedor Pavutnitskiy, Dmitry Pasechnyuk, German Magai(参考訳) 球面のホモトピー群を計算することは、長い間代数トポロジーの基本的な目的であった。 この問題に取り組むために、様々な理論とアルゴリズムのアプローチが開発されている。 本稿では,機械学習の力を生かして,これらのホモトピー群の生成者の群論的構造を理解することを目指す。 具体的には、wu の公式の単純群設定において、dyck 言語に関連するアルゴリズムデータセットの交叉からサンプリングする問題として、単純サイクルを生成する問題を再検討する。 入力シーケンスにマルチラベル情報を用いる言語モデリング手法を,必要なグループ理論的ツールキットと非ニューラルベースラインとともに提示し,評価する。

Computing homotopy groups of spheres has long been a fundamental objective in algebraic topology. Various theoretical and algorithmic approaches have been developed to tackle this problem. In this paper we take a step towards the goal of comprehending the group-theoretic structure of the generators of these homotopy groups by leveraging the power of machine learning. Specifically, in the simplicial group setting of Wu's formula, we reformulate the problem of generating simplicial cycles as a problem of sampling from the intersection of algorithmic datasets related to Dyck languages. We present and evaluate language modelling approaches that employ multi-label information for input sequences, along with the necessary group-theoretic toolkit and non-neural baselines.
翻訳日:2023-07-02 13:07:24 公開日:2023-06-01
# 運動療法のための3次元ポーズ推定と慣性モーションキャプチャシステムの強みと弱み

Strengths and Weaknesses of 3D Pose Estimation and Inertial Motion Capture System for Movement Therapy ( http://arxiv.org/abs/2306.06117v1 )

ライセンス: Link先を確認
Shawan Mohammed, Hannah Siebers, Ted Preu{\ss}(参考訳) 3Dポーズ推定は、高速で非侵襲的で正確な動き分析の機会を提供する。 これは臨床利用にも特に興味がある。 現在、モーションキャプチャシステムは、堅牢で正確なデータ取得を提供するため使われており、臨床応用においては必須である。 本研究では,既存の慣性センサシステムMTw Awindaと比べ,最先端の3D位置推定手法であるMeTrabsの精度について検討した。 本研究は,運動療法訓練中の被験者10名を対象に,パラレル記録の評価データセットを活用し,提供する。 Awindaシステムからの情報と単眼ポーズ推定用フレームとを同期させる。 比較のために, 異なる運動, カメラ位置, 衣料品について算出した関節角度の平均, 中央値, 最大偏差を用いて, 足首, 膝, 背, 肘屈伸伸筋の関節角度について臨床的に関連のあるパラメータを推定し, 評価した。 解析の結果, 平均偏差と中央値偏差は, 研究対象の角度に対して5{\deg}以下に維持できることがわかった。 これらの関節は15{\deg}の最大偏差を考慮しても医療用途として考慮できる。 しかし、特に問題のある関節には注意が必要である。 特に肘屈曲は最大50{\deg}の最大偏差を示した。 さらに,3次元位置推定法の信頼性と安全性の確保には,運動の種類が重要な役割を担っている。 例えば、すべての関節角度は、地面付近での運動中に顕著な性能低下を示した。

3D pose estimation offers the opportunity for fast, non-invasive, and accurate motion analysis. This is of special interest also for clinical use. Currently, motion capture systems are used, as they offer robust and precise data acquisition, which is essential in the case of clinical applications. In this study, we investigate the accuracy of the state-of-the-art 3D position estimation approach MeTrabs, compared to the established inertial sensor system MTw Awinda for specific motion exercises. The study uses and provides an evaluation dataset of parallel recordings from 10 subjects during various movement therapy exercises. The information from the Awinda system and the frames for monocular pose estimation are synchronized. For the comparison, clinically relevant parameters for joint angles of ankle, knee, back, and elbow flexion-extension were estimated and evaluated using mean, median, and maximum deviation between the calculated joint angles for the different exercises, camera positions, and clothing items. The results of the analysis indicate that the mean and median deviations can be kept below 5{\deg} for some of the studied angles. These joints could be considered for medical applications even considering the maximum deviations of 15{\deg}. However, caution should be applied to certain particularly problematic joints. In particular, elbow flexions, which showed high maximum deviations of up to 50{\deg} in our analysis. Furthermore, the type of exercise plays a crucial role in the reliable and safe application of the 3D position estimation method. For example, all joint angles showed a significant deterioration in performance during exercises near the ground.
翻訳日:2023-06-18 12:52:44 公開日:2023-06-01
# 網膜血管セグメンテーションのための深部学習法の概要

Overview of Deep Learning Methods for Retinal Vessel Segmentation ( http://arxiv.org/abs/2306.06116v1 )

ライセンス: Link先を確認
Gorana Goji\'c, Ognjen Kunda\v{c}ina, Dragi\v{s}a Mi\v{s}kovi\'c, Dinu Dragan(参考訳) 網膜血管の自動分割法は、多くの眼疾患や全身疾患の治療や診断において重要な役割を果たす。 深層学習法の急速な発展に伴い、より多くの網膜血管分割法が深層ニューラルネットワークとして実装されている。 本稿では,高度に影響力のある雑誌やカンファレンスの最近の深層学習手法について概説する。 本研究の目的は,(1) 最新の手法の設計特性を評価すること,(2) 性能評価指標の定量的価値を報告・分析すること,(3) 最新のソリューションの利点と欠点を分析すること,である。

Methods for automated retinal vessel segmentation play an important role in the treatment and diagnosis of many eye and systemic diseases. With the fast development of deep learning methods, more and more retinal vessel segmentation methods are implemented as deep neural networks. In this paper, we provide a brief review of recent deep learning methods from highly influential journals and conferences. The review objectives are: (1) to assess the design characteristics of the latest methods, (2) to report and analyze quantitative values of performance evaluation metrics, and (3) to analyze the advantages and disadvantages of the recent solutions.
翻訳日:2023-06-18 12:52:19 公開日:2023-06-01
# sam-helps-shadow氏: セグメンテーションモデルがシャドウ除去を満たすとき

SAM-helps-Shadow:When Segment Anything Model meet shadow removal ( http://arxiv.org/abs/2306.06113v1 )

ライセンス: Link先を確認
Xiaofeng Zhang, Chaochen Gu, Shanying Zhu(参考訳) ISTD/SRDのような制約付きデータセットだけでなく、実際の画像への画像シャドウ除去の適用に関する課題は、この分野におけるゼロショット学習の緊急の必要性を強調している。 本研究では, SAM-helps-Shadowを導入し, シャドー検出とシャドー除去を一つのステージに効果的に統合することで, SAM(セグメンツ・アズ・モデル)を斬新に応用した。 提案手法では,モデルの検出結果を,影検出を容易にするための強力な先行手法として活用し,続いて2次ディープアンフォールディングネットワークを用いた影除去を行った。 SAM-helps-Shadowのソースコードはhttps://github.com/zhangbaijin/SAM-helps-Shadowから入手できる。

The challenges surrounding the application of image shadow removal to real-world images and not just constrained datasets like ISTD/SRD have highlighted an urgent need for zero-shot learning in this field. In this study, we innovatively adapted the SAM (Segment anything model) for shadow removal by introducing SAM-helps-Shadow, effectively integrating shadow detection and removal into a single stage. Our approach utilized the model's detection results as a potent prior for facilitating shadow detection, followed by shadow removal using a second-order deep unfolding network. The source code of SAM-helps-Shadow can be obtained from https://github.com/zhangbaijin/SAM-helps-Shadow.
翻訳日:2023-06-18 12:52:10 公開日:2023-06-01
# 完全分解型S_{0}およびS_{2}振動正常モードを用いたカロテンのアブ初期光吸収スペクトルのシミュレーション

Simulation of ab initio optical absorption spectrum of \beta-carotene with fully resolved S_{0} and S_{2} vibrational normal modes ( http://arxiv.org/abs/2306.07286v1 )

ライセンス: Link先を確認
Mantas Jaku\v{c}ionis, Ignas Gai\v{z}i\=unas, Juozas \v{S}ulskus, Darius Abramavi\v{c}ius(参考訳) β-カロテン(b-Car)の電子吸収スペクトルは、量子化学と量子力学シミュレーションを用いて研究されている。 振動正規モードは時間依存密度汎関数理論を用いて電子基底状態s0と光学的に励起されたs2状態の最適化ジオメトリで計算された。 S2状態正規モードを基底状態モードで表現することにより、基底モードと励起状態振動モードとの1対1対応が存在しないことが分かる。 このab initio結果を用いて, モデル溶媒中の全282振動モードのb-car吸収スペクトルを, 時間依存性dirac-frenkel変分原理 (tdvp) を用いて300kでシミュレーションし, 全吸収線形状を定性的に再現する。 282モードモデルと、カロテノイド実験の解釈に広く用いられている顕著な2モードモデルを比較することで、フル282モードモデルはカロテノイド吸収スペクトルの高周波進行をよりよく記述し、S0->S2光励起中に振動モードが高度に混合されることが分かる。 その結果, 電子エネルギー散逸は多数の振動モードによって媒介されることがわかった。

Electronic absorption spectrum of beta-carotene (b-Car) is studied using quantum chemistry and quantum dynamics simulations. Vibrational normal modes were computed in optimized geometries of the electronic ground state S0 and the optically bright excited S2 state using the time-dependent density functional theory. By expressing the S2 state normal modes in terms of the ground state modes, we find that no one-to-one correspondence between the ground and excited state vibrational modes exists. Using the ab initio results, we simulated b-Car absorption spectrum with all 282 vibrational modes in a model solvent at 300K using the time-dependent Dirac-Frenkel variational principle (TDVP) and are able to qualitatively reproduce the full absorption lineshape. By comparing the 282-mode model with the prominent 2-mode model, widely used to interpret carotenoid experiments, we find that the full 282-mode model better describe the high frequency progression of carotenoid absorption spectra, hence, vibrational modes become highly mixed during the S0 -> S2 optical excitation. The obtained results suggest that electronic energy dissipation is mediated by numerous vibrational modes.
翻訳日:2023-06-18 12:30:03 公開日:2023-06-01
# ニューラルネットワークを用いたソースコード中のバッファオーバーフロー脆弱性の検出

Feature Engineering-Based Detection of Buffer Overflow Vulnerability in Source Code Using Neural Networks ( http://arxiv.org/abs/2306.07981v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Juan Rodriguez Cardenas, Sheikh Iqbal Ahamed, and Alfredo Cuzzocrea(参考訳) ソフトウェアコード監査の分野で最も重要な課題の1つは、ソフトウェアソースコードに脆弱性が存在することである。 毎年、プロプライエタリなコードまたは公開コードで、より多くのソフトウェア欠陥が発見される。 これらの欠陥は悪用される可能性が高く、システムの妥協やデータ漏洩、サービス拒否につながる可能性がある。 関数レベルの脆弱性識別のための大規模機械学習システムを構築するために,数百万の関数を含むcとc++の大規模なデータセットとバッファオーバーフローエクスプロイトを利用した。 ソースコードから抽出した特徴を学習するニューラルネットワークモデルに基づく,効率的でスケーラブルな脆弱性検出手法を開発した。 ソースコードは最初、不要なコンポーネントを削除し、依存関係を短くするために中間表現に変換される。 我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。 埋め込みベクターはLSTM、BiLSTM、LSTM Autoencoder、word2vec、BERT、GPT2などのニューラルネットワークに入力され、潜在的な脆弱性を分類する。 我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。 埋め込みベクターはLSTM、BiLSTM、LSTM Autoencoder、word2vec、BERT、GPT2などのニューラルネットワークに入力され、潜在的な脆弱性を分類する。 さらに,従来のニューラルネットワークにまつわる問題を克服できるニューラルネットワークモデルも提案した。 F1スコア,精度,リコール,精度,総実行時間などの評価指標を用いて評価を行った。 我々は,最小限のテキスト表現と意味情報と構文情報を含む特徴から得られた結果の比較分析を行った。

One of the most significant challenges in the field of software code auditing is the presence of vulnerabilities in software source code. Every year, more and more software flaws are discovered, either internally in proprietary code or publicly disclosed. These flaws are highly likely to be exploited and can lead to system compromise, data leakage, or denial of service. To create a large-scale machine learning system for function level vulnerability identification, we utilized a sizable dataset of C and C++ open-source code containing millions of functions with potential buffer overflow exploits. We have developed an efficient and scalable vulnerability detection method based on neural network models that learn features extracted from the source codes. The source code is first converted into an intermediate representation to remove unnecessary components and shorten dependencies. We maintain the semantic and syntactic information using state of the art word embedding algorithms such as GloVe and fastText. The embedded vectors are subsequently fed into neural networks such as LSTM, BiLSTM, LSTM Autoencoder, word2vec, BERT, and GPT2 to classify the possible vulnerabilities. We maintain the semantic and syntactic information using state of the art word embedding algorithms such as GloVe and fastText. The embedded vectors are subsequently fed into neural networks such as LSTM, BiLSTM, LSTM Autoencoder, word2vec, BERT, and GPT2 to classify the possible vulnerabilities. Furthermore, we have proposed a neural network model that can overcome issues associated with traditional neural networks. We have used evaluation metrics such as F1 score, precision, recall, accuracy, and total execution time to measure the performance. We have conducted a comparative analysis between results derived from features containing a minimal text representation and semantic and syntactic information.
翻訳日:2023-06-18 12:21:10 公開日:2023-06-01
# 研究成果の拡散に対するCOVID-19の影響に関する科学的分析

A scientometric analysis of the effect of COVID-19 on the spread of research outputs ( http://arxiv.org/abs/2306.03941v1 )

ライセンス: Link先を確認
Gianpaolo Zammarchi, Andrea Carta, Silvia Columbu, Luca Frigau, Monica Musio(参考訳) 2020年のSars-COV-2パンデミックは、私たち全員のライフコースに大きな影響を与えた。 この急速な普及は、さまざまな側面において、covid-19に関連するトピックにおける研究生産の増加も引き起こしている。 残念ながらイタリアは、この病気の発生に大きく関与した最初の国の一つだ。 本稿では,グローバルな研究成果(パンデミック開始から2年目以降の文献)と地域レベルの研究成果(イタリア系著者による新型コロナウイルス文献)について,広範囲にわたるサイエントメトリクス分析を行った。 以上の結果から,米国と中国は出版物数でもっとも活発な国であり,地理的距離によって機関間の協力数が異なることが示された。 また,文献生産の分野では,医療生物学が最大の成長の分野であることも確認した。 さらに,引用数とデータセットから得られる変数(例えば,記事あたりの著者数)との関係についても検討した。 複数の対応分析と質的回帰を用いることで、ジャーナルのトピックスとインパクトファクター、記事の種類、研究分野、そしてこれらの要素が引用に与える影響を明らかにした。

The spread of the Sars-COV-2 pandemic in 2020 had a huge impact on the life course of all of us. This rapid spread has also caused an increase in the research production in topics related to COVID-19 with regard to different aspects. Italy has, unfortunately, been one of the first countries to be massively involved in the outbreak of the disease. In this paper we present an extensive scientometric analysis of the research production both at global (entire literature produced in the first 2 years after the beginning of the pandemic) and local level (COVID-19 literature produced by authors with an Italian affiliation). Our results showed that US and China are the most active countries in terms of number of publications and that the number of collaborations between institutions varies according to geographical distance. Moreover, we identified the medical-biological as the fields with the greatest growth in terms of literature production. Furthermore, we also better explored the relationship between the number of citations and variables obtained from the data set (e.g. number of authors per article). Using multiple correspondence analysis and quantile regression we shed light on the role of journal topics and impact factor, the type of article, the field of study and how these elements affect citations.
翻訳日:2023-06-11 13:40:09 公開日:2023-06-01
# アラビア語方言識別のロバスト性について

On the Robustness of Arabic Speech Dialect Identification ( http://arxiv.org/abs/2306.03789v1 )

ライセンス: Link先を確認
Peter Sullivan, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) アラビア方言識別(ADI)ツールは、音声認識モデルの訓練に必要な大規模データ収集パイプラインの重要な部分である。 これらのパイプラインは、ドメイン外データに対するADIツールの適用を必要とするため、このドメインシフトに対するツールの脆弱性について調査することを目指している。 自己教師付き学習(SSL)モデルを出発点として、転送学習とSSL機能からの直接分類を評価する。 我々は、事前訓練されたモデルからADIシステムを開発し、最終的に新たに収集したデータの性能を評価することを目標として、リッチな条件下で評価を行う。 モデル決定にどのような要因が寄与するかを理解するため、我々はデータのサブセットについて慎重に人間の研究を行う。 我々の分析は、ドメインシフトがADIモデルにとって大きな課題であることを確認した。 また、自己学習はこれらの課題を緩和するが、現実的な状況では不十分である。

Arabic dialect identification (ADI) tools are an important part of the large-scale data collection pipelines necessary for training speech recognition models. As these pipelines require application of ADI tools to potentially out-of-domain data, we aim to investigate how vulnerable the tools may be to this domain shift. With self-supervised learning (SSL) models as a starting point, we evaluate transfer learning and direct classification from SSL features. We undertake our evaluation under rich conditions, with a goal to develop ADI systems from pretrained models and ultimately evaluate performance on newly collected data. In order to understand what factors contribute to model decisions, we carry out a careful human study of a subset of our data. Our analysis confirms that domain shift is a major challenge for ADI models. We also find that while self-training does alleviate this challenges, it may be insufficient for realistic conditions.
翻訳日:2023-06-11 13:38:14 公開日:2023-06-01
# いくつかの音声はあまりにも一般的である:共通音声データセットを用いた公正な音声認識システムの構築

Some voices are too common: Building fair speech recognition systems using the Common Voice dataset ( http://arxiv.org/abs/2306.03773v1 )

ライセンス: Link先を確認
Lucas Maison, Yannick Est\`eve(参考訳) 自動音声認識(ASR)システムは、自己教師付き学習のようなニューラルネットワークトレーニングの新たな進歩により、効率が向上する。 しかし、特定のグループ、例えばアクセントで話す人々に対して不公平であることが知られている。 本研究では,前訓練されたwav2vec~2.0モデルのバイアスを数集団に対して定量化するために,フランスの共通音声データセットを用いた。 各種の定型的・精巧な訓練セットに事前学習モデルを微調整することにより,話者多様性の重要性を実証する。 また、共通音声コーパスの詳細な分析を行い、このデータセットのユーザが考慮すべき重要な欠点を特定します。

Automatic speech recognition (ASR) systems become increasingly efficient thanks to new advances in neural network training like self-supervised learning. However, they are known to be unfair toward certain groups, for instance, people speaking with an accent. In this work, we use the French Common Voice dataset to quantify the biases of a pre-trained wav2vec~2.0 model toward several demographic groups. By fine-tuning the pre-trained model on a variety of fixed-size, carefully crafted training sets, we demonstrate the importance of speaker diversity. We also run an in-depth analysis of the Common Voice corpus and identify important shortcomings that should be taken into account by users of this dataset.
翻訳日:2023-06-11 13:37:59 公開日:2023-06-01
# 社会技術的ギャップを狭めるモデル評価の再検討

Rethinking Model Evaluation as Narrowing the Socio-Technical Gap ( http://arxiv.org/abs/2306.03100v1 )

ライセンス: Link先を確認
Q. Vera Liao, Ziang Xiao(参考訳) 最近のジェネレーティブ言語モデル(llm)の開発は、研究コミュニティや業界が取り組んでいるモデル評価に新たな挑戦をもたらしている。 これらのモデルの汎用性は興奮を喚起する一方で、必然的に均質化へと跳躍する。 本稿では、この均質化によってもたらされる課題や責任に対処する上で、モデル評価の実践が重要な課題となることを論じる: 下流のユースケースにおける人間のニーズが、与えられたモデルによってどの程度満足できるかを、有効に評価する(\textit{socio-technical gap})。 社会科学、ヒューマン・コンピュータ・インタラクション(HCI)、説明可能なAI(XAI)の学際的な分野から学ぶことにより、現実の社会要求に基づく評価手法の開発をコミュニティに促し、現実主義と社会要求と実用的コストのトレードオフを認め、多様な評価手法を取り入れるよう促す。 HCI と現在の NLG 評価手法をマッピングすることにより,社会技術的ギャップを狭め,オープンな疑問を呈する LLM の新たな評価手法を提案する。

The recent development of generative and large language models (LLMs) poses new challenges for model evaluation that the research community and industry are grappling with. While the versatile capabilities of these models ignite excitement, they also inevitably make a leap toward homogenization: powering a wide range of applications with a single, often referred to as ``general-purpose'', model. In this position paper, we argue that model evaluation practices must take on a critical task to cope with the challenges and responsibilities brought by this homogenization: providing valid assessments for whether and how much human needs in downstream use cases can be satisfied by the given model (\textit{socio-technical gap}). By drawing on lessons from the social sciences, human-computer interaction (HCI), and the interdisciplinary field of explainable AI (XAI), we urge the community to develop evaluation methods based on real-world socio-requirements and embrace diverse evaluation methods with an acknowledgment of trade-offs between realism to socio-requirements and pragmatic costs. By mapping HCI and current NLG evaluation methods, we identify opportunities for new evaluation methods for LLMs to narrow the socio-technical gap and pose open questions.
翻訳日:2023-06-11 13:37:03 公開日:2023-06-01
# 簡易空間認識技術を活用したGEOGLAMのEOデータに基づくカザフスタンの国別小麦収量予測の改善

Improve State-Level Wheat Yield Forecasts in Kazakhstan on GEOGLAM's EO Data by Leveraging A Simple Spatial-Aware Technique ( http://arxiv.org/abs/2306.04646v1 )

ライセンス: Link先を確認
Anh Nhat Nhu, Ritvik Sahajpal, Christina Justice, Inbal Becker-Reshef(参考訳) 正確な利回り予測は、食料安全保障のためのインフォームドポリシーや長期的な意思決定に不可欠である。 地球観測(eo)データと機械学習アルゴリズムは、畑から全国規模までの作物の状態の包括的かつタイムリーな視点を提供する上で重要な役割を果たす。 しかし、機械学習アルゴリズムの予測精度は、作物管理戦略の違いなどリモートセンシングデータに反映されない外因性要因によって生じる空間的不均一性によってしばしば損なわれる。 本稿では,カザフスタンにおけるクロスリージョン収率の不均一性に明示的に対処する,ステートワイド加法バイアスと呼ばれる簡単な手法を提案し,検討する。 ベースライン機械学習モデル(Random Forest, CatBoost, XGBoost)と比較して, RMSE全体の8.9\%, 州別RMSEの28.37\%を削減した。 状態方向加法バイアスの有効性は、空間的不均質性に明示的に対応し、収率予測のための空間対応機械学習アルゴリズムと一般的な地理空間予測問題に対する今後の研究を動機付けることによって、機械学習の性能を大幅に改善できることを示している。

Accurate yield forecasting is essential for making informed policies and long-term decisions for food security. Earth Observation (EO) data and machine learning algorithms play a key role in providing a comprehensive and timely view of crop conditions from field to national scales. However, machine learning algorithms' prediction accuracy is often harmed by spatial heterogeneity caused by exogenous factors not reflected in remote sensing data, such as differences in crop management strategies. In this paper, we propose and investigate a simple technique called state-wise additive bias to explicitly address the cross-region yield heterogeneity in Kazakhstan. Compared to baseline machine learning models (Random Forest, CatBoost, XGBoost), our method reduces the overall RMSE by 8.9\% and the highest state-wise RMSE by 28.37\%. The effectiveness of state-wise additive bias indicates machine learning's performance can be significantly improved by explicitly addressing the spatial heterogeneity, motivating future work on spatial-aware machine learning algorithms for yield forecasts as well as for general geospatial forecasting problems.
翻訳日:2023-06-11 13:27:44 公開日:2023-06-01
# AIと創造的領域:現在と将来の応用の短いレビュー

AI and the creative realm: A short review of current and future applications ( http://arxiv.org/abs/2306.01795v1 )

ライセンス: Link先を確認
Fabio Crimaldi, Manuele Leonelli(参考訳) 本研究では,創造性と人工知能(AI)の概念とその最近の統合について考察する。 AIは伝統的に、新しいアイデアを生み出したり、アートを創造することができないと考えられてきたが、より洗練されたAIモデルの開発と人間とコンピュータの相互作用ツールの普及は、芸術的創造におけるAIの新たな可能性を開く。 本研究は,創造的文脈におけるaiの様々な応用について検討し,使用する芸術,言語,アルゴリズムの類型を区別する。 また、AIと創造性の哲学的意味を考察し、意識が機械やAIの潜在的な関心と意思決定能力で研究できるかどうかを疑問視する。 全体として、創造的な文脈におけるAIの使用と倫理的意味についての考察を刺激することを目指している。

This study explores the concept of creativity and artificial intelligence (AI) and their recent integration. While AI has traditionally been perceived as incapable of generating new ideas or creating art, the development of more sophisticated AI models and the proliferation of human-computer interaction tools have opened up new possibilities for AI in artistic creation. This study investigates the various applications of AI in a creative context, differentiating between the type of art, language, and algorithms used. It also considers the philosophical implications of AI and creativity, questioning whether consciousness can be researched in machines and AI's potential interests and decision-making capabilities. Overall, we aim to stimulate a reflection on AI's use and ethical implications in creative contexts.
翻訳日:2023-06-07 00:22:15 公開日:2023-06-01
# DiffPack: 自己回帰型タンパク質側鎖包装のためのねじり拡散モデル

DiffPack: A Torsional Diffusion Model for Autoregressive Protein Side-Chain Packing ( http://arxiv.org/abs/2306.01794v1 )

ライセンス: Link先を確認
Yangtian Zhan, Zuobai Zhang, Bozitao Zhong, Sanchit Misra, Jian Tang(参考訳) タンパク質は生物学的機能の実行において重要な役割を担い、3D構造はそれらの機能を決定するのに不可欠である。 タンパク質の構造予測、設計、タンパク質-タンパク質相互作用の応用において、タンパク質側鎖の構造を正確に予測することが重要である。 従来の手法は計算集約的で精度に制限があるが、既存の機械学習手法は問題を回帰タスクとして扱い、一定の共有結合長と角度によって課される制限を無視する。 本研究では, 側鎖の束縛における自由度である側鎖の束縛角度の結合分布を, 側鎖の束縛空間を拡散し, 偏微分することによって学習する, 対角拡散モデルDiffPackを提案する。 これら4つの反り角の同時摂動から生じる問題を回避するため、各反り角に対する4つの反り角を \c{hi}1 から \c{hi}4 に自己回帰的に生成し、拡散モデルを訓練する。 本手法はタンパク質側鎖充填のベンチマークで評価し,casp13とcasp14の角度精度が11.9%,13.5%向上した。 さらに,alphafold2モデルにおける側鎖予測の強化に本手法の有効性を示す。 コードは受理時に利用可能になる。

Proteins play a critical role in carrying out biological functions, and their 3D structures are essential in determining their functions. Accurately predicting the conformation of protein side-chains given their backbones is important for applications in protein structure prediction, design and protein-protein interactions. Traditional methods are computationally intensive and have limited accuracy, while existing machine learning methods treat the problem as a regression task and overlook the restrictions imposed by the constant covalent bond lengths and angles. In this work, we present DiffPack, a torsional diffusion model that learns the joint distribution of side-chain torsional angles, the only degrees of freedom in side-chain packing, by diffusing and denoising on the torsional space. To avoid issues arising from simultaneous perturbation of all four torsional angles, we propose autoregressively generating the four torsional angles from \c{hi}1 to \c{hi}4 and training diffusion models for each torsional angle. We evaluate the method on several benchmarks for protein side-chain packing and show that our method achieves improvements of 11.9% and 13.5% in angle accuracy on CASP13 and CASP14, respectively, with a significantly smaller model size (60x fewer parameters). Additionally, we show the effectiveness of our method in enhancing side-chain predictions in the AlphaFold2 model. Code will be available upon the accept.
翻訳日:2023-06-07 00:22:00 公開日:2023-06-01
# タスク関係を意識したユーザ表現学習

Task Relation-aware Continual User Representation Learning ( http://arxiv.org/abs/2306.01792v1 )

ライセンス: Link先を確認
Sein Kim, Namkyeong Lee, Donghyun Kim, Minchul Yang, Chanyoung Park(参考訳) ユーザを過去の行動に基づいて低次元表現空間に表現することを学ぶユーザモデリングは、ユーザにパーソナライズされたサービスを提供する業界から注目を集めている。 ユーザモデリングにおける以前の取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。 しかし、タスク固有のユーザ表現を学習することは不可能であるため、近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念を導入している。 その効果にもかかわらず、データ要求、破滅的な忘れ込み、継続的な追加タスクの限られた学習能力のために、ユーザ表現を学習するための既存のアプローチは現実のアプリケーションでは実用的ではない。 本稿では,タスク間の関係を捉えながら,学習数が増加するにつれて学習能力が制限されない,TERACONと呼ばれる新しいユーザ表現学習手法を提案する。 主なアイデアは、各タスク、すなわちタスク埋め込みへの埋め込みを導入することである。これは、トレーニングシーケンスの終了までモデルパラメータ全体を更新できるだけでなく、キャプチャされるタスク間の関係を容易にするタスク固有のソフトマスクを生成するために使用される。 さらに,継続学習の長年の問題,すなわち破滅的な忘れ込みを解消する疑似ラベル戦略を備えた新しい知識保持モジュールを導入する。 パブリックおよびプロプライエタリな実世界のデータセットに関する大規模な実験は、TERACONの優位性と実用性を示している。 私たちのコードはhttps://github.com/Sein-Kim/TERACONで公開されています。

User modeling, which learns to represent users into a low-dimensional representation space based on their past behaviors, got a surge of interest from the industry for providing personalized services to users. Previous efforts in user modeling mainly focus on learning a task-specific user representation that is designed for a single task. However, since learning task-specific user representations for every task is infeasible, recent studies introduce the concept of universal user representation, which is a more generalized representation of a user that is relevant to a variety of tasks. Despite their effectiveness, existing approaches for learning universal user representations are impractical in real-world applications due to the data requirement, catastrophic forgetting and the limited learning capability for continually added tasks. In this paper, we propose a novel continual user representation learning method, called TERACON, whose learning capability is not limited as the number of learned tasks increases while capturing the relationship between the tasks. The main idea is to introduce an embedding for each task, i.e., task embedding, which is utilized to generate task-specific soft masks that not only allow the entire model parameters to be updated until the end of training sequence, but also facilitate the relationship between the tasks to be captured. Moreover, we introduce a novel knowledge retention module with pseudo-labeling strategy that successfully alleviates the long-standing problem of continual learning, i.e., catastrophic forgetting. Extensive experiments on public and proprietary real-world datasets demonstrate the superiority and practicality of TERACON. Our code is available at https://github.com/Sein-Kim/TERACON.
翻訳日:2023-06-07 00:21:34 公開日:2023-06-01
# Cook-Gen: レシピからの調理行動のロバストな生成モデル

Cook-Gen: Robust Generative Modeling of Cooking Actions from Recipes ( http://arxiv.org/abs/2306.01805v1 )

ライセンス: Link先を確認
Revathy Venkataramanan, Kaushik Roy, Kanak Raj, Renjith Prasad, Yuxin Zi, Vignesh Narayanan, Amit Sheth(参考訳) 人々が食べ物の選択に気付くにつれて、健康的な食事習慣を維持するために食品計算モデルがますます人気を集めている。 例えば、食品レコメンデーションシステムは、栄養内容の評価とレシピレコメンデーションを提供するためのレシピの指示を分析する。 近年、自動回帰型大規模言語モデルのような生成的ai手法の成功は、表面レベルの栄養内容評価以上の健康的な食品推奨のレシピをより包括的に理解するためのロバストな方法につながる可能性がある。 本研究では,食材や食材の分析を主体とした,現在の食品計算モデルを拡張するための生成的AI手法の利用について検討し,調理行為(塩を加え,肉を揚げる,野菜を煮るなど)を取り入れた。 料理のアクションは、不規則なデータパターンのために統計的学習方法を使ってモデル化することが難しいことで悪名高く、同じ行動(例えば、肉をマリネートし、一夜にして出発する)に対する自然言語記述が著しく変化し、しばしば発生するパターン(例えば、塩を加えることは、肉をマリネートするよりもはるかに頻繁に起こる)である。 不規則なデータパターンを扱うための原型的アプローチは、モデルを桁違いに吸収するデータの量を増やすことである。 残念なことに、調理領域では、これらの問題は、単にスケールアップすることで簡単には処理できない、ユニークなチャレンジを示す大きなデータボリュームとさらに複雑になる。 本研究では,不規則なデータパターンが困難であるにも関わらず,レシピからの調理動作を確実に生成する,集約型生成型ai手法であるcook-genを提案する。

As people become more aware of their food choices, food computation models have become increasingly popular in assisting people in maintaining healthy eating habits. For example, food recommendation systems analyze recipe instructions to assess nutritional contents and provide recipe recommendations. The recent and remarkable successes of generative AI methods, such as auto-regressive large language models, can lead to robust methods for a more comprehensive understanding of recipes for healthy food recommendations beyond surface-level nutrition content assessments. In this study, we explore the use of generative AI methods to extend current food computation models, primarily involving the analysis of nutrition and ingredients, to also incorporate cooking actions (e.g., add salt, fry the meat, boil the vegetables, etc.). Cooking actions are notoriously hard to model using statistical learning methods due to irregular data patterns - significantly varying natural language descriptions for the same action (e.g., marinate the meat vs. marinate the meat and leave overnight) and infrequently occurring patterns (e.g., add salt occurs far more frequently than marinating the meat). The prototypical approach to handling irregular data patterns is to increase the volume of data that the model ingests by orders of magnitude. Unfortunately, in the cooking domain, these problems are further compounded with larger data volumes presenting a unique challenge that is not easily handled by simply scaling up. In this work, we propose novel aggregation-based generative AI methods, Cook-Gen, that reliably generate cooking actions from recipes, despite difficulties with irregular data patterns, while also outperforming Large Language Models and other strong baselines.
翻訳日:2023-06-07 00:10:24 公開日:2023-06-01
# 拡散モデルから報酬関数を抽出する

Extracting Reward Functions from Diffusion Models ( http://arxiv.org/abs/2306.01804v1 )

ライセンス: Link先を確認
Felipe Nuti, Tim Franzmeyer, Jo\~ao F. Henriques(参考訳) 拡散モデルは画像生成において顕著な結果をもたらしており、連続的な意思決定タスクでハイパフォーマンスなポリシーを学ぶためにも同様に使われている。 意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。 報酬関数の抽出は,低逆の振る舞いをモデル化した意思決定拡散モデルと高逆の振る舞いをモデル化したモデル,逆強化学習に関連する設定を比較して行う。 まず、2つの拡散モデルの相対報酬関数の概念を定義し、それが存在して一意である条件を示す。 次に、ニューラルネットワークによってパラメータ化される報酬関数の勾配を両拡散モデルの出力の差に合わせることにより、それを抽出するための実用的な学習アルゴリズムを考案する。 本手法はナビゲーション環境において正しい報酬関数を探索し,学習した報酬関数でベースモデルを操ることで,標準ロコモーションベンチマークの性能が著しく向上することを示す。 最後に,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,逐次決定を超越した一般化を実証する。 抽出された報酬関数は、有害な画像に対して低い報酬をうまく割り当てる。

Diffusion models have achieved remarkable results in image generation, and have similarly been used to learn high-performing policies in sequential decision-making tasks. Decision-making diffusion models can be trained on lower-quality data, and then be steered with a reward function to generate near-optimal trajectories. We consider the problem of extracting a reward function by comparing a decision-making diffusion model that models low-reward behavior and one that models high-reward behavior; a setting related to inverse reinforcement learning. We first define the notion of a relative reward function of two diffusion models and show conditions under which it exists and is unique. We then devise a practical learning algorithm for extracting it by aligning the gradients of a reward function -- parametrized by a neural network -- to the difference in outputs of both diffusion models. Our method finds correct reward functions in navigation environments, and we demonstrate that steering the base model with the learned reward functions results in significantly increased performance in standard locomotion benchmarks. Finally, we demonstrate that our approach generalizes beyond sequential decision-making by learning a reward-like function from two large-scale image generation diffusion models. The extracted reward function successfully assigns lower rewards to harmful images.
翻訳日:2023-06-07 00:09:52 公開日:2023-06-01
# ニューラルスパイク列車の潜在軌道推定のための線形時間gps

Linear Time GPs for Inferring Latent Trajectories from Neural Spike Trains ( http://arxiv.org/abs/2306.01802v1 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park(参考訳) 潜在ガウス過程(GP)モデルは、主に神経活動記録において、シーケンシャルな観察から隠れた状態の進化を明らかにするために神経科学で広く用いられている。 遅延GPモデルは理論上は原理的かつ強力な解を提供するが、非共役設定における難解な後部は近似推論スキームを必要とする。 本研究では,hida-mat\'ernカーネルと共役計算変分推論(cvi)を用いた潜在gpモデルの汎用推論フレームワークcvhmを提案する。 cvHMでは、任意の確率で線形時間複雑性を持つ潜在神経軌道の変分推定を行うことができる。 Hida-Mat\'ern GPs を用いた定常カーネルの再パラメータ化は、動的システムによる事前仮定を符号化する潜在変数モデルと、GPs による軌道仮定を符号化する変数モデルとの結合に役立つ。 従来の作業とは対照的に,双方向情報フィルタリングを用いることで,より簡潔な実装を実現しています。 さらに,Whittle近似を用いて高効率なハイパーパラメータ学習を実現する。

Latent Gaussian process (GP) models are widely used in neuroscience to uncover hidden state evolutions from sequential observations, mainly in neural activity recordings. While latent GP models provide a principled and powerful solution in theory, the intractable posterior in non-conjugate settings necessitates approximate inference schemes, which may lack scalability. In this work, we propose cvHM, a general inference framework for latent GP models leveraging Hida-Mat\'ern kernels and conjugate computation variational inference (CVI). With cvHM, we are able to perform variational inference of latent neural trajectories with linear time complexity for arbitrary likelihoods. The reparameterization of stationary kernels using Hida-Mat\'ern GPs helps us connect the latent variable models that encode prior assumptions through dynamical systems to those that encode trajectory assumptions through GPs. In contrast to previous work, we use bidirectional information filtering, leading to a more concise implementation. Furthermore, we employ the Whittle approximate likelihood to achieve highly efficient hyperparameter learning.
翻訳日:2023-06-07 00:09:33 公開日:2023-06-01
# AIデータ豊かさの倫理的曖昧性:研究倫理規範と実践のギャップを測る

The ethical ambiguity of AI data enrichment: Measuring gaps in research ethics norms and practices ( http://arxiv.org/abs/2306.01800v1 )

ライセンス: Link先を確認
Will Hawkins and Brent Mittelstadt(参考訳) 人工知能(AI)研究の技術的進歩は、コンピュータ科学、統計学、数学などの分野におけるブレークスルーの上に構築されている。 しかし、この10年間でAI研究者は、モデル開発における課題を解決するために、人間のインタラクションに目を向けるようになった。 クラウドソーシング労働者にデータの生成やキュレート、あるいはデータ豊か化を納めることは、自然言語処理から人間からのフィードバック(RLHF)からの強化学習まで、AI研究の多くの分野において不可欠である。 心理学のようなクラウドソーシング労働者と日常的に交流する他の分野は、倫理的に研究が行われることを保証するための共通のガバナンス要件と規範を生み出している。 本研究は、ai研究とデータエンリッチメントのために、同等の研究倫理要件と規範がいかにして開発されたかを調査している。 我々は、ICLRとNeurIPSの2つの主要なカンファレンスと、雑誌発行者のSpringerのアプローチに焦点を当てています。 受理された論文の縦断的研究と、心理学やCHIの論文との比較により、主要なAI施設が人間のデータ収集のプロトコルを確立し始めていることが分かるが、これらは矛盾するものである。 クラウドソーシング(クラウドソーシング)に関わる心理学論文は、倫理レビューや支払いデータ、人口統計データなどの情報を頻繁に開示するが、同様のガイダンスにもかかわらず、主要なAI会場では同様の開示が一般的ではない。 この研究は、研究倫理の実践におけるこれらのギャップとその影響についての考察を説明する仮説で締めくくられている。

The technical progression of artificial intelligence (AI) research has been built on breakthroughs in fields such as computer science, statistics, and mathematics. However, in the past decade AI researchers have increasingly looked to the social sciences, turning to human interactions to solve the challenges of model development. Paying crowdsourcing workers to generate or curate data, or data enrichment, has become indispensable for many areas of AI research, from natural language processing to reinforcement learning from human feedback (RLHF). Other fields that routinely interact with crowdsourcing workers, such as Psychology, have developed common governance requirements and norms to ensure research is undertaken ethically. This study explores how, and to what extent, comparable research ethics requirements and norms have developed for AI research and data enrichment. We focus on the approach taken by two leading conferences: ICLR and NeurIPS, and journal publisher Springer. In a longitudinal study of accepted papers, and via a comparison with Psychology and CHI papers, this work finds that leading AI venues have begun to establish protocols for human data collection, but these are are inconsistently followed by authors. Whilst Psychology papers engaging with crowdsourcing workers frequently disclose ethics reviews, payment data, demographic data and other information, similar disclosures are far less common in leading AI venues despite similar guidance. The work concludes with hypotheses to explain these gaps in research ethics practices and considerations for its implications.
翻訳日:2023-06-07 00:09:16 公開日:2023-06-01
# 広告オークションにおける福祉最大化のためのクリックスルー率予測の対数ランキング損失

Pairwise Ranking Losses of Click-Through Rates Prediction for Welfare Maximization in Ad Auctions ( http://arxiv.org/abs/2306.01799v1 )

ライセンス: Link先を確認
Boxiang Lyu, Zhe Feng, Zachary Robertson, Sanmi Koyejo(参考訳) 本稿では,クリックスルーレート(CTR)における損失関数の設計と,広告オークションにおける社会福祉の最適化について検討する。 既存の作業は、オークションにおけるビジネス目的(例えば、福祉)を考慮せずにCTRの予測にのみ焦点をあてるか、または、参加者の期待するコスト・パー・プレッション(eCPM)の分布が予め知られていると仮定するかのいずれかであり、CTRの予測のための損失関数を導出するために、分布のパラメトリックな形式に関する様々な仮定を用いる。 本研究では,広告オークションの福祉目的をCTR予測に戻すとともに,CTRモデルをトレーニングするための新たなランクロスを提案する。 既存の文献と比較して,本手法は,eCPMの分布を前提とせず,既存の学習からランクへの手法の適用の難しさを回避しつつ,福祉の保証を提供する。 さらに,教師ネットワークが$\ell_2$一般化誤差を持つことを前提として,教師ネットワークから生成したラベルを用いて損失を校正する理論的正当化手法を提案する。 最後に,提案する合成データおよび実世界のデータに対する損失の利点を示す。

We study the design of loss functions for click-through rates (CTR) to optimize (social) welfare in advertising auctions. Existing works either only focus on CTR predictions without consideration of business objectives (e.g., welfare) in auctions or assume that the distribution over the participants' expected cost-per-impression (eCPM) is known a priori, then use various additional assumptions on the parametric form of the distribution to derive loss functions for predicting CTRs. In this work, we bring back the welfare objectives of ad auctions into CTR predictions and propose a novel weighted rankloss to train the CTR model. Compared to existing literature, our approach provides a provable guarantee on welfare but without assumptions on the eCPMs' distribution while also avoiding the intractability of naively applying existing learning-to-rank methods. Further, we propose a theoretically justifiable technique for calibrating the losses using labels generated from a teacher network, only assuming that the teacher network has bounded $\ell_2$ generalization error. Finally, we demonstrate the advantages of the proposed loss on synthetic and real-world data.
翻訳日:2023-06-07 00:08:47 公開日:2023-06-01
# 人間-AIストーリー執筆におけるEFL学生の迅速なエンジニアリングの探求--アクティビティ理論の視点から

Exploring EFL students' prompt engineering in human-AI story writing: an Activity Theory perspective ( http://arxiv.org/abs/2306.01798v1 )

ライセンス: Link先を確認
David James Woo, Kai Guo, Hengky Susanto(参考訳) 本研究では,外国語(EFL)の学生が,短編執筆中に生成人工知能(AI)ツールをどのように促すかを検討するために,活動理論を適用した。 香港中学生67人が、オープンソースの言語モデルを用いて生成AIツールを作成し、それらを手書きした。 この研究は、学生の生成AIツール、短編小説、そして彼らの状況や目的について書かれたリフレクションを収集し、分析した。 この研究は、学生が短編執筆中に生成AIツールを促進させる目的、すなわち、目的の認識の欠如、作家のブロックを克服し、ストーリーの開発、拡大、改善の3つの主要なテーマを特定した。 また, 児童生徒の活動システムの特徴として, 生成型AIツールの高度化, 物語の質, 学校全体の学業成績などを明らかにし, 短編執筆における3つの目的のための生成型AIツールの推進について検討した。 本研究の成果は,教師が生成型AIツールの指導や足場指導を行うための学生の目的を意識すべきであることを示唆している。 この発見は、生成AIツールを使用する際に、様々なレベルのストーリー開発を行うユーザに対して、デザイナが区別された指示を提供するのに役立つかもしれない。

This study applies Activity Theory to investigate how English as a foreign language (EFL) students prompt generative artificial intelligence (AI) tools during short story writing. Sixty-seven Hong Kong secondary school students created generative-AI tools using open-source language models and wrote short stories with them. The study collected and analyzed the students' generative-AI tools, short stories, and written reflections on their conditions or purposes for prompting. The research identified three main themes regarding the purposes for which students prompt generative-AI tools during short story writing: a lack of awareness of purposes, overcoming writer's block, and developing, expanding, and improving the story. The study also identified common characteristics of students' activity systems, including the sophistication of their generative-AI tools, the quality of their stories, and their school's overall academic achievement level, for their prompting of generative-AI tools for the three purposes during short story writing. The study's findings suggest that teachers should be aware of students' purposes for prompting generative-AI tools to provide tailored instructions and scaffolded guidance. The findings may also help designers provide differentiated instructions for users at various levels of story development when using a generative-AI tool.
翻訳日:2023-06-07 00:08:24 公開日:2023-06-01
# 量子コンピュータにおけるミラーベンチマークの理論と実演

Theory of mirror benchmarking and demonstration on a quantum computer ( http://arxiv.org/abs/2108.10431v2 )

ライセンス: Link先を確認
Karl Mayer, Alex Hall, Thomas Gatterman, Si Khadir Halit, Kenny Lee, Justin Bohnet, Dan Gresh, Aaron Hankin, Kevin Gilmore, Justin Gerber and John Gaebler(参考訳) 量子コンピュータのシステムレベルの性能を測定するため、ミラーベンチマークと呼ばれる新しいプロトコルが最近提案された。 これらのプロトコルはランダムなゲート列を持つ回路を含み、続いてミラーリング、すなわち各ゲートを逆転させる。 トワイリング群が2つの設計を成すと、一様雑音仮定の下で、ミラーベンチマークがシーケンス長による生存確率の指数関数的減衰をもたらすという簡単な証明を与える。 崩壊速度は、誤差チャネルの二次関数である量によって決定され、ある種のエラーに対してはユニタリ性に等しい。 この結果は、雑音のコヒーレンスを推定する新しい方法をもたらす。 我々はHoneywell System Model H1上で動作するミラーベンチマーク実験のデータを示す。 このデータは、量子ビット数と回路深さの関数としてランダム回路の成功確率を示す一連の性能曲線を構成する。

A new class of protocols called mirror benchmarking was recently proposed to measure the system-level performance of quantum computers. These protocols involve circuits with random sequences of gates followed by mirroring, that is, inverting each gate in the sequence. We give a simple proof that mirror benchmarking leads to an exponential decay of the survival probability with sequence length, under the uniform noise assumption, provided the twirling group forms a 2-design. The decay rate is determined by a quantity that is a quadratic function of the error channel, and for certain types of errors is equal to the unitarity. This result yields a new method for estimating the coherence of noise. We present data from mirror benchmarking experiments run on the Honeywell System Model H1. This data constitutes a set of performance curves, indicating the success probability for random circuits as a function of qubit number and circuit depth.
翻訳日:2023-06-05 21:24:52 公開日:2023-06-01
# 分散システムにおける異常検出のためのグラフベースディープラーニングの検討

A Survey of Graph-based Deep Learning for Anomaly Detection in Distributed Systems ( http://arxiv.org/abs/2206.04149v2 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Arnab A Purkayastha, Jagannadh Vempati, Otto Martin, and Hamed Tabkhi(参考訳) 異常検出は複雑な分散システムにおいて重要なタスクである。 異常検出の要件と課題を徹底的に理解することは、そのようなシステムのセキュリティ、特に現実のデプロイメントにとって重要である。 この問題を扱う作業やアプリケーションドメインはたくさんありますが、そのようなシステムについて深く検討しようとする試みはごくわずかです。 本研究では,分散システムにおける異常を同定するグラフベースアルゴリズムの可能性について検討する。 これらの系は不均一あるいは均質であり、異なる要求をもたらす。 目的の1つは、不均一性や動的構造といった現実世界の課題に対処するそれらの能力を概念的に分析するためのグラフベースのアプローチを詳細に検討することである。 本研究は,その分野における現状研究論文の概要と,その特性を比較比較・比較するものである。 より包括的な理解を容易にするために、ユースケースとして様々な抽象化を持つ3つのシステムを提案する。 このようなシステムにおける異常検出に関わる具体的な課題について検討する。 その後,このようなシステムにおけるグラフの有効性を解明し,その利点を明らかにする。 次に、SotAの手法を掘り下げて、その強みと弱点を強調し、改善の可能性と今後の作業の分野を指摘します。

Anomaly detection is a crucial task in complex distributed systems. A thorough understanding of the requirements and challenges of anomaly detection is pivotal to the security of such systems, especially for real-world deployment. While there are many works and application domains that deal with this problem, few have attempted to provide an in-depth look at such systems. In this survey, we explore the potentials of graph-based algorithms to identify anomalies in distributed systems. These systems can be heterogeneous or homogeneous, which can result in distinct requirements. One of our objectives is to provide an in-depth look at graph-based approaches to conceptually analyze their capability to handle real-world challenges such as heterogeneity and dynamic structure. This study gives an overview of the State-of-the-Art (SotA) research articles in the field and compare and contrast their characteristics. To facilitate a more comprehensive understanding, we present three systems with varying abstractions as use cases. We examine the specific challenges involved in anomaly detection within such systems. Subsequently, we elucidate the efficacy of graphs in such systems and explicate their advantages. We then delve into the SotA methods and highlight their strength and weaknesses, pointing out the areas for possible improvements and future works.
翻訳日:2023-06-05 21:19:07 公開日:2023-06-01
# 電子メール不正に対するアクティブ対策

Active Countermeasures for Email Fraud ( http://arxiv.org/abs/2210.15043v2 )

ライセンス: Link先を確認
Wentao Chen, Fuzhou Wang, Matthew Edwards(参考訳) オンライン犯罪の主要な要素として、メールベースの詐欺は毎年大きな経済的損失をもたらす脅威である。 これらの詐欺に対処するため、詐欺師と呼ばれるボランティアは被害者の役割を担い、詐欺に応答し、長く非生産的な会話で時間と注意を無駄にしようとする。 メール詐欺を抑止し、詐欺行為の有効性を拡大するために、詐欺行為を自動的に行うことができる拡張可能な詐欺行為メールサーバを開発し、デプロイした。 3つの異なるモデルを用いて3つの返信戦略を実装し,130種類の詐欺師から150のメッセージを引き出す1ヶ月間の実験を行った。 我々は,詐欺の注意を惹きつけるための各戦略のパフォーマンスを比較し,人手による対応戦略と自動対応戦略のトレードオフを見出す。 2つ目の実験では、2つのサーバインスタンスを使用して12日間にわたって92の異なる詐欺師と接触した。 私たちは、オンライン詐欺を防ぐための今後の作業をサポートするために、プラットフォームとデータセットの両方をリリースします。

As a major component of online crime, email-based fraud is a threat that causes substantial economic losses every year. To counteract these scammers, volunteers called scam-baiters play the roles of victims, reply to scammers, and try to waste their time and attention with long and unproductive conversations. To curb email fraud and magnify the effectiveness of scam-baiting, we developed and deployed an expandable scam-baiting mailserver that can conduct scam-baiting activities automatically. We implemented three reply strategies using three different models and conducted a one-month-long experiment during which we elicited 150 messages from 130 different scammers. We compare the performance of each strategy at attracting and holding the attention of scammers, finding tradeoffs between human-written and automatically-generated response strategies. We also demonstrate that scammers can be engaged concurrently by multiple servers deploying these strategies in a second experiment, which used two server instances to contact 92 different scammers over 12 days. We release both our platform and a dataset containing conversations between our automatic scam-baiters and real human scammers, to support future work in preventing online fraud.
翻訳日:2023-06-05 20:47:57 公開日:2023-06-01
# 磁気リードアウトによる無調波電位下で磁気浮上する超伝導マイクロスフィア

Superconducting microsphere magnetically levitated in an anharmonic potential with integrated magnetic readout ( http://arxiv.org/abs/2210.13451v3 )

ライセンス: Link先を確認
Mart\'i Gutierrez Latorre and Gerard Higgins and Achintya Paradkar and Thilo Bauch and Witlef Wieczorek(参考訳) 磁気浮上型超伝導微粒子は、ピコグラムを用いた量子実験からマイクログラムオブジェクトへの有望な経路を提供する。 本研究は, 検出を集積した磁気チップトラップにおいて, 700ng$\sim 10^{17}$amu超伝導マイクロスフィアを浮揚する。 我々はDC-SQUID磁気センサを用いて粒子の中心運動を測定する。 トラップ周波数は30Hzから160Hzの間で連続的に調整可能であり、粒子は希釈冷凍機環境下で数日にわたって安定に捕捉される。 我々は、トラップ不調和、すなわちダッフィング非線形性とモード結合から生じる運動振幅依存性の周波数シフトを特徴付ける。 チップに基づくトラップポテンシャルの有限要素モデリングを用いて, この非線形挙動を説明する。 この研究は、磁気浮上超伝導微粒子を用いた量子実験と超感度慣性センサへの第一歩となる。

Magnetically levitated superconducting microparticles offer a promising path to quantum experiments with picogram to microgram objects. In this work, we levitate a 700ng $\sim 10^{17}$amu superconducting microsphere in a magnetic chip trap in which detection is integrated. We measure the particle's center-of-mass motion using a DC-SQUID magnetometer. The trap frequencies are continuously tunable between 30 and 160 Hz and the particle remains stably trapped over days in a dilution refrigerator environment. We characterize motional-amplitude-dependent frequency shifts, which arise from trap anharmonicities, namely Duffing nonlinearities and mode couplings. We explain this nonlinear behavior using finite element modelling of the chip-based trap potential. This work constitutes a first step towards quantum experiments and ultrasensitive inertial sensors with magnetically levitated superconducting microparticles.
翻訳日:2023-06-05 20:47:38 公開日:2023-06-01
# Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.11942v4 )

ライセンス: Link先を確認
Matthias Gerstgrasser, David C. Parkes(参考訳) Stackelberg equilibriaは、セキュリティゲームや間接メカニズム設計など、さまざまな一般的な学習問題に自然に現れ、強化学習文学において注目を集めている。 本稿では,マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。 このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように考えられるかについて議論する。 重要な洞察として、設計空間は、例えば、マルチタスクとメタRL技術を利用して従者収束を図り、これまで文献になかったアプローチを可能にすることに留意する。 我々は,このような手法を文脈ポリシーを用いて提案し,標準領域と新しいベンチマーク領域の両方で実験的に評価し,従来の手法に比べてサンプル効率が大幅に向上したことを示す。 最後に,フレームワークの境界外におけるアルゴリズム設計の適用効果について検討する。

Stackelberg equilibria arise naturally in a range of popular learning problems, such as in security games or indirect mechanism design, and have received increasing attention in the reinforcement learning literature. We present a general framework for implementing Stackelberg equilibria search as a multi-agent RL problem, allowing a wide range of algorithmic design choices. We discuss how previous approaches can be seen as specific instantiations of this framework. As a key insight, we note that the design space allows for approaches not previously seen in the literature, for instance by leveraging multitask and meta-RL techniques for follower convergence. We propose one such approach using contextual policies, and evaluate it experimentally on both standard and novel benchmark domains, showing greatly improved sample efficiency compared to previous approaches. Finally, we explore the effect of adopting algorithm designs outside the borders of our framework.
翻訳日:2023-06-05 20:47:07 公開日:2023-06-01
# ソーシャルメディアにおける国家支援トロル活動の特徴と検出

Characterizing and Detecting State-Sponsored Troll Activity on Social Media ( http://arxiv.org/abs/2210.08786v5 )

ライセンス: Link先を確認
Fatima Ezzeddine and Luca Luceri and Omran Ayoub and Ihab Sbeity and Gianluca Nogara and Emilio Ferrara and Silvia Giordano(参考訳) 影響力のあるキャンペーンで運用されている国家支援トロールの検出は、研究コミュニティにとって重要かつ未解決の課題である。 この課題に対処するために,我々は2段階のプロセスを通じて,共有行動シーケンスやトラジェクタを解析し,国が支援するトロルアカウントを識別する新しいaiベースのソリューションを提案する。 まず, lstmに基づく分類器を用いて, アカウントの軌跡を, 州が支援するトロルまたは有機的正規ユーザのいずれかに分類する。 第二に、分類されたトラジェクトリを使用して、 '`Troll Score'' と呼ばれるメトリックを計算し、アカウントが状態支援トロルのように振る舞う程度を定量化する。 当社のアプローチを評価するため、2016年アメリカ合衆国大統領選挙におけるロシアの干渉キャンペーンについて検討する。 実験の結果,本手法は,約99%のaucでアカウントの軌跡を識別でき,aucの91%でロシアのトロルと有機ユーザを正確に分類できることがわかった。 さらに,様々な国から発生した異なる影響キャンペーンに対するソリューションの汎用性を評価し,今後の研究を導く有望な結果を見出した。

The detection of state-sponsored trolls operating in influence campaigns is a critical and unsolved challenge for the research community, which has significant implications beyond the online realm. To address this challenge, we propose a new AI-based solution that identifies state-sponsored troll accounts by analyzing their sharing activity sequences, or trajectories, through a two-step process. First, we classify accounts' trajectories using an LSTM-based classifier as belonging to either a state-sponsored troll or an organic, legitimate user. Second, we utilize the classified trajectories to compute a metric, named ``Troll Score'', to quantify the extent to which an account behaves like a state-sponsored troll. To evaluate our approach, we examine the Russian interference campaign during the 2016 U.S. Presidential election. The results of our experiments show that our method can identify account trajectories with an AUC close to 99% and accurately classify Russian trolls and organic users with an AUC of 91%. Additionally, we assessed the generalizability of our solution to different influence campaigns originating from various countries and found promising results that will guide future research.
翻訳日:2023-06-05 20:46:30 公開日:2023-06-01
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v7 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-06-05 20:45:47 公開日:2023-06-01
# なぜ鶏は道路を渡ったのか? VQAにおける曖昧な質問の言い直しと分析

Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA ( http://arxiv.org/abs/2211.07516v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Jimena Guallar-Blasco, Yi Zhou, Benjamin Van Durme(参考訳) 自然言語は曖昧である。 あいまいな質問を解決することが、答える上で鍵となる。 画像に関する質問に注目して,曖昧な例のデータセットを作成する。 私たちはこれらに注釈を付け、それらが対処する根底にある質問によって回答をグループ化し、曖昧さを減らすために各グループの質問を言い換えます。 本分析は,視覚的問題における曖昧性の理由の言語学的に整合したオントロジーを明らかにする。 そして、自動的および人的評価により、よりあいまいな質問を生成する英語の質問生成モデルを開発する。 さらに,本モデルを用いた質問生成の目的により,直接の監督なしに回答グループ情報を統合できることを示す。

Natural language is ambiguous. Resolving ambiguous questions is key to successfully answering them. Focusing on questions about images, we create a dataset of ambiguous examples. We annotate these, grouping answers by the underlying question they address and rephrasing the question for each group to reduce ambiguity. Our analysis reveals a linguistically-aligned ontology of reasons for ambiguity in visual questions. We then develop an English question-generation model which we demonstrate via automatic and human evaluation produces less ambiguous questions. We further show that the question generation objective we use allows the model to integrate answer group information without any direct supervision.
翻訳日:2023-06-05 20:37:51 公開日:2023-06-01
# PATO:スケーラブルロボットデータ収集のためのポリシー支援遠隔操作

PATO: Policy Assisted TeleOperation for Scalable Robot Data Collection ( http://arxiv.org/abs/2212.04708v2 )

ライセンス: Link先を確認
Shivin Dass, Karl Pertsch, Hejia Zhang, Youngwoon Lee, Joseph J. Lim, Stefanos Nikolaidis(参考訳) 大規模データは、自然言語処理とコンピュータビジョン研究の最近の進歩で示されているように、機械学習の重要な要素である。 しかし、大規模なロボットデータの収集は、各オペレーターが一度に1つのロボットしか制御できないため、はるかに高価で遅い。 本稿では,このコストのかかるデータ収集プロセスを効率的かつスケーラブルにするために,学習された支援ポリシーを用いてデモ収集プロセスの一部を自動化するシステムであるPATO(Policy Assisted TeleOperation)を提案する。 PATOはデータ収集における反復的な動作を自律的に実行し、どのサブタスクや動作を実行するかが不確実な場合にのみ人間の入力を要求する。 我々は,実際のロボットとシミュレーションロボットの両方を用いて遠隔操作ユーザ研究を行い,データ収集効率を向上しつつ,人間の心的負担を軽減できることを実証した。 さらに、単一のオペレータが複数のロボットを並列に制御できるので、スケーラブルなロボットデータ収集への第一歩となる。 コードとビデオの結果はhttps://clvrai.com/patoを参照。

Large-scale data is an essential component of machine learning as demonstrated in recent advances in natural language processing and computer vision research. However, collecting large-scale robotic data is much more expensive and slower as each operator can control only a single robot at a time. To make this costly data collection process efficient and scalable, we propose Policy Assisted TeleOperation (PATO), a system which automates part of the demonstration collection process using a learned assistive policy. PATO autonomously executes repetitive behaviors in data collection and asks for human input only when it is uncertain about which subtask or behavior to execute. We conduct teleoperation user studies both with a real robot and a simulated robot fleet and demonstrate that our assisted teleoperation system reduces human operators' mental load while improving data collection efficiency. Further, it enables a single operator to control multiple robots in parallel, which is a first step towards scalable robotic data collection. For code and video results, see https://clvrai.com/pato
翻訳日:2023-06-05 20:28:29 公開日:2023-06-01
# マルウェアのサンプルからフラクタル画像へ:分類の新しいパラダイム。 (バージョン2.0、以前のバージョン名:マルウェアを見たことがあるか?)

From Malware Samples to Fractal Images: A New Paradigm for Classification. (Version 2.0, Previous version paper name: Have you ever seen malware?) ( http://arxiv.org/abs/2212.02341v2 )

ライセンス: Link先を確認
Ivan Zelinka, Miloslav Szczypka, Jan Plucar, Nikolay Kuznetsov(参考訳) これまで、マルウェアの分類、その識別、異なる家族への分類、マルウェアとグッドウェアの区別に関する多くの研究論文が書かれてきた。 これらの研究は、捕獲されたマルウェアのサンプルに基づいており、人工知能の分野の技法を含む様々な技術を用いてマルウェアやグッドウェアを分析しようと試みている。 例えば、ニューラルネットワークはこれらの分類法において重要な役割を果たす。 この研究のいくつかは、その視覚化を使ってマルウェアを分析している。 これらは通常、マルウェアの構造をキャプチャするマルウェアのサンプルを画像構造に変換し、それが画像処理の対象となる。 本稿では,視覚的に非常に興味深い画像が,良質なマルウェアの分類に使用されるという考えから,動的行動解析に基づくマルウェアの視覚化に対する極めて従来型で斬新なアプローチを提案する。 提案手法は今後の議論のための広範な話題を開き,結論として,マルウェア解析と分類研究の新たな方向性を多数提示する。 実験の結果は、6つの589 997 goodware、827 853の潜在的に望ましくないアプリケーション、4つの174 203のマルウェアサンプルと選択された実験データ(画像、多項式式の生成、画像生成ソフトウェア)のデータベースに基づいている。 そこで本論文は,比較実験の結果を報告する総合的なコンパクトな研究ではなく,マルウェア解析に応用可能な可視化分野の新たな方向性を示すものである。

To date, a large number of research papers have been written on the classification of malware, its identification, classification into different families and the distinction between malware and goodware. These works have been based on captured malware samples and have attempted to analyse malware and goodware using various techniques, including techniques from the field of artificial intelligence. For example, neural networks have played a significant role in these classification methods. Some of this work also deals with analysing malware using its visualisation. These works usually convert malware samples capturing the structure of malware into image structures, which are then the object of image processing. In this paper, we propose a very unconventional and novel approach to malware visualisation based on dynamic behaviour analysis, with the idea that the images, which are visually very interesting, are then used to classify malware concerning goodware. Our approach opens an extensive topic for future discussion and provides many new directions for research in malware analysis and classification, as discussed in conclusion. The results of the presented experiments are based on a database of 6 589 997 goodware, 827 853 potentially unwanted applications and 4 174 203 malware samples provided by ESET and selected experimental data (images, generating polynomial formulas and software generating images) are available on GitHub for interested readers. Thus, this paper is not a comprehensive compact study that reports the results obtained from comparative experiments but rather attempts to show a new direction in the field of visualisation with possible applications in malware analysis.
翻訳日:2023-06-05 20:27:50 公開日:2023-06-01
# True Detective: GPT-3 と GPT-4 の混在が不可能なディープ・アブダクティブ・推論ベンチマーク

True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3 and Challenging for GPT-4 ( http://arxiv.org/abs/2212.10114v2 )

ライセンス: Link先を確認
Maksym Del and Mark Fishel(参考訳) 大規模言語モデル (LLM) は、現在のテストタスクのパフォーマンスに反映された、ゼロショット推論機能を示す。 これにより、より高度な推論能力を必要とするより困難なベンチマークが要求される。 本稿では,探偵パズルとして構築された191の長文(平均1200語)の謎物語からなるベンチマークを紹介する。 Puzzlesは"5 Minute Mystery"プラットフォームから提供されており、評価のための複数の質問が含まれている。 平均してパズルを解くのは人間の47%に過ぎず、最高の解法者は80%以上の成功率を達成した。 GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。 これは、LLMとヒトの深い推論能力にはまだ大きなギャップがあることを示し、この分野におけるさらなる研究の必要性を強調している。 我々の研究は言語モデルにおける推論の今後の研究のための挑戦的なベンチマークを導入し、LLMの能力の限界をよりよく理解するために貢献する。

Large language models (LLMs) have demonstrated solid zero-shot reasoning capabilities, which is reflected in their performance on the current test tasks. This calls for a more challenging benchmark requiring highly advanced reasoning ability to be solved. In this paper, we introduce such a benchmark, consisting of 191 long-form (1200 words on average) mystery narratives constructed as detective puzzles. Puzzles are sourced from the "5 Minute Mystery" platform and include a multiple-choice question for evaluation. Only 47% of humans solve a puzzle successfully on average, while the best human solvers achieve over 80% success rate. We show that GPT-3 models barely outperform random on this benchmark (with 28% accuracy) while state-of-the-art GPT-4 solves only 38% of puzzles. This indicates that there is still a significant gap in the deep reasoning abilities of LLMs and humans and highlights the need for further research in this area. Our work introduces a challenging benchmark for future studies on reasoning in language models and contributes to a better understanding of the limits of LLMs' abilities.
翻訳日:2023-06-05 20:18:49 公開日:2023-06-01
# CHAD:シャーロット異常データセット

CHAD: Charlotte Anomaly Dataset ( http://arxiv.org/abs/2212.09258v3 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Babak Rahimi Ardabili, Christopher Neff, Hamed Tabkhi(参考訳) 近年,映像の特定のフレームが異常な動作を含むかどうかをアルゴリズムが判断しなければならない,映像異常検出のためのデータ駆動型ディープラーニングアプローチが注目されている。 しかし、ビデオ異常検出は特にコンテキスト固有であり、代表データセットの可用性は現実世界の精度を著しく制限する。 さらに、現在のほとんどの最先端メソッドによって報告されているメトリクスは、実際のシナリオでモデルがどのように機能するかを反映していないことが多い。 本稿では,シャーロット異常データセット(chad)について述べる。 CHADは商用駐車場における高解像度マルチカメラ異常データセットである。 フレームレベルの異常ラベルに加えて、CHADはバウンディングボックス、アイデンティティ、各アクターに対するアノテーションを含む最初の異常データセットである。 これはスケルトンに基づく異常検出に特に有用であり、実世界での計算需要の低減に有用である。 CHADは、同じシーンの複数のビューを含む最初の異常データセットである。 4つのカメラビューと115万フレーム以上のフレームを持つCHADは、静止カメラからの連続ビデオストリームから収集された個人アノテーションを含む、完全注釈付き異常検出データセットとして最大である。 トレーニングおよび評価におけるCHADの有効性を実証するため,CHADに2つの最先端スケルトンに基づく異常検出アルゴリズムをベンチマークし,定量的結果と定性検査の両方を含む包括的解析を行った。 データセットはhttps://github.com/TeCSAR-UNCC/CHADで公開されている。

In recent years, we have seen a significant interest in data-driven deep learning approaches for video anomaly detection, where an algorithm must determine if specific frames of a video contain abnormal behaviors. However, video anomaly detection is particularly context-specific, and the availability of representative datasets heavily limits real-world accuracy. Additionally, the metrics currently reported by most state-of-the-art methods often do not reflect how well the model will perform in real-world scenarios. In this article, we present the Charlotte Anomaly Dataset (CHAD). CHAD is a high-resolution, multi-camera anomaly dataset in a commercial parking lot setting. In addition to frame-level anomaly labels, CHAD is the first anomaly dataset to include bounding box, identity, and pose annotations for each actor. This is especially beneficial for skeleton-based anomaly detection, which is useful for its lower computational demand in real-world settings. CHAD is also the first anomaly dataset to contain multiple views of the same scene. With four camera views and over 1.15 million frames, CHAD is the largest fully annotated anomaly detection dataset including person annotations, collected from continuous video streams from stationary cameras for smart video surveillance applications. To demonstrate the efficacy of CHAD for training and evaluation, we benchmark two state-of-the-art skeleton-based anomaly detection algorithms on CHAD and provide comprehensive analysis, including both quantitative results and qualitative examination. The dataset is available at https://github.com/TeCSAR-UNCC/CHAD.
翻訳日:2023-06-05 20:17:28 公開日:2023-06-01
# 確率計画におけるMCMCの自動マージ

Automatically Marginalized MCMC in Probabilistic Programming ( http://arxiv.org/abs/2302.00564v2 )

ライセンス: Link先を確認
Jinlin Lai, Javier Burroni, Hui Guan, Daniel Sheldon(参考訳) Hamiltonian Monte Carlo (HMC) はベイズモデルから潜伏変数をサンプリングする強力なアルゴリズムである。 確率型プログラミング言語(PPL)の出現により、ユーザーは推論アルゴリズムを書くことができなくなり、モデリングに集中することができる。 しかし、HMCが直接解決するのは難しいモデルが多く、しばしばモデル再パラメータ化のようなトリックを必要とする。 私たちは、これらのモデルの多くがマージン化によって単純化できるという事実に動機づけられています。 本稿では,実世界の階層モデルからのサンプリングを大幅に改善するPPLから抽出したグラフィカルモデルにおいて,HMCを用いたサンプリングプロセスの一部として自動残差化を提案する。

Hamiltonian Monte Carlo (HMC) is a powerful algorithm to sample latent variables from Bayesian models. The advent of probabilistic programming languages (PPLs) frees users from writing inference algorithms and lets users focus on modeling. However, many models are difficult for HMC to solve directly, and often require tricks like model reparameterization. We are motivated by the fact that many of those models could be simplified by marginalization. We propose to use automatic marginalization as part of the sampling process using HMC in a graphical model extracted from a PPL, which substantially improves sampling from real-world hierarchical models.
翻訳日:2023-06-05 20:09:06 公開日:2023-06-01
# 線形関数近似を用いた逆MDPの精製レグレット

Refined Regret for Adversarial MDPs with Linear Function Approximation ( http://arxiv.org/abs/2301.12942v2 )

ライセンス: Link先を確認
Yan Dai, Haipeng Luo, Chen-Yu Wei, Julian Zimmert(参考訳) 我々は,mdp(adversarial markov decision process)において,損失関数がk$エピソード以上で任意に変化し,状態空間が任意に大きくなるような学習を考える。 任意の方針の q-函数は、ある既知の特徴、すなわち線型関数近似において線型であると仮定する。 この設定に対する最大の後悔の上界(Luo et al., 2021)は、シミュレータへのアクセスを条件に、$\tilde{\mathcal O}(K^{2/3})$(他のすべての依存関係を省略)である。 本稿では,同じ設定で$\tilde{\mathcal O}(\sqrt K)$に対する後悔を改善する2つのアルゴリズムを提案する。 我々の最初のアルゴリズムは、FTRLアルゴリズムをログバリア正規化器を用いて精巧に解析する。 この分析により、損失推定者は任意に負であり、独立した関心を持つことができる。 第2のアルゴリズムは、マグニチュード低減損失推定器を開発し、第1のアルゴリズムのアクション数に対する多項式依存性をさらに取り除き、(対数項と水平線への依存性まで)最適な後悔境界へと導く。 さらに、最初のアルゴリズムをシミュレータフリーな線形MDPに拡張し、$\tilde{\mathcal O}(K^{8/9})を後悔し、$\tilde{\mathcal O}(K^{14/15})$に対して大幅に改善する。 このアルゴリズムは、neu & olkhovskaya (2020) による行列幾何学的再サンプリング手順のより良い代替法に依存している。

We consider learning in an adversarial Markov Decision Process (MDP) where the loss functions can change arbitrarily over $K$ episodes and the state space can be arbitrarily large. We assume that the Q-function of any policy is linear in some known features, that is, a linear function approximation exists. The best existing regret upper bound for this setting (Luo et al., 2021) is of order $\tilde{\mathcal O}(K^{2/3})$ (omitting all other dependencies), given access to a simulator. This paper provides two algorithms that improve the regret to $\tilde{\mathcal O}(\sqrt K)$ in the same setting. Our first algorithm makes use of a refined analysis of the Follow-the-Regularized-Leader (FTRL) algorithm with the log-barrier regularizer. This analysis allows the loss estimators to be arbitrarily negative and might be of independent interest. Our second algorithm develops a magnitude-reduced loss estimator, further removing the polynomial dependency on the number of actions in the first algorithm and leading to the optimal regret bound (up to logarithmic terms and dependency on the horizon). Moreover, we also extend the first algorithm to simulator-free linear MDPs, which achieves $\tilde{\mathcal O}(K^{8/9})$ regret and greatly improves over the best existing bound $\tilde{\mathcal O}(K^{14/15})$. This algorithm relies on a better alternative to the Matrix Geometric Resampling procedure by Neu & Olkhovskaya (2020), which could again be of independent interest.
翻訳日:2023-06-05 20:08:27 公開日:2023-06-01
# N-best T5:複数入力仮説と制約付き復号空間を用いたロバストASR誤り訂正

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space ( http://arxiv.org/abs/2303.00456v2 )

ライセンス: Link先を確認
Rao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian(参考訳) 誤り訂正モデルは、書き起こしの可読性と品質を改善するために、自動音声認識(ASR)後処理の重要な部分を形成する。 ほとんどの先行研究は1-best asr仮説を入力として使用しており、1文内の文脈を活用することでのみ修正を行うことができる。 本研究では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。 事前学習された言語モデルから知識を転送し、asr復号空間からよりリッチな情報を得ることにより、提案手法は強いコンフォーメータ・トランスデューサベースラインを上回る。 標準エラー訂正のもう1つの問題は、生成プロセスが適切に制御されていないことである。 これを解決するために、N-bestリストまたはASR格子に基づく制約付き復号プロセスが使用され、追加情報を伝播することができる。

Error correction models form an important part of Automatic Speech Recognition (ASR) post-processing to improve the readability and quality of transcriptions. Most prior works use the 1-best ASR hypothesis as input and therefore can only perform correction by leveraging the context within one sentence. In this work, we propose a novel N-best T5 model for this task, which is fine-tuned from a T5 model and utilizes ASR N-best lists as model input. By transferring knowledge from the pre-trained language model and obtaining richer information from the ASR decoding space, the proposed approach outperforms a strong Conformer-Transducer baseline. Another issue with standard error correction is that the generation process is not well-guided. To address this a constrained decoding process, either based on the N-best list or an ASR lattice, is used which allows additional information to be propagated.
翻訳日:2023-06-05 20:01:05 公開日:2023-06-01
# 固定点経路積分による位相誤差補正過程

Topological error correcting processes from fixed-point path integrals ( http://arxiv.org/abs/2303.16405v2 )

ライセンス: Link先を確認
Andreas Bauer(参考訳) 幾何学的局所チャネルと測定の動的回路としてトポロジカル量子誤り訂正符号を解析・構築するための統一パラダイムを提案する。 この目的のために、これらの回路をユークリッド時空における離散的不動点経路積分に関連付け、その基礎となる位相順序を次のように記述する: 測定結果の履歴を固定すると、位相欠陥のパターンを含む不動点経路積分が得られる。 一例として、安定化器のトーリックコード、サブシステムのトーリックコード、CSSのフロケットコードは、異なる時空格子上で同一のコードとみなすことができ、ハニカムのフロケットコードは、基底の変化の下でCSSのフロケットコードと等価であることを示す。 私たちはまた、2つの新しい誤り訂正符号、すなわち2体の測定だけで3+1ドルのトーリック符号のフロッケバージョンと、ダブルセムの文字列-ネット経路積分に基づく動的コードも導出しています。

We propose a unifying paradigm for analyzing and constructing topological quantum error correcting codes as dynamical circuits of geometrically local channels and measurements. To this end, we relate such circuits to discrete fixed-point path integrals in Euclidean spacetime, which describe the underlying topological order: If we fix a history of measurement outcomes, we obtain a fixed-point path integral carrying a pattern of topological defects. As an example, we show that the stabilizer toric code, subsystem toric code, and CSS Floquet code can be viewed as one and the same code on different spacetime lattices, and the honeycomb Floquet code is equivalent to the CSS Floquet code under a change of basis. We also use our formalism to derive two new error-correcting codes, namely a Floquet version of the $3+1$-dimensional toric code using only 2-body measurements, as well as a dynamic code based on the double-semion string-net path integral.
翻訳日:2023-06-05 19:49:51 公開日:2023-06-01
# 量子メッセージの署名方法

How to Sign Quantum Messages ( http://arxiv.org/abs/2304.06325v2 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 量子メッセージの署名は、計算的な仮定の下でも不可能であることが証明された。 我々は、署名手続きが何らかの次元で変化した場合、この結果は回避できると認識する。 具体的には、公衆の妥当性を保証した最初の量子メッセージに署名する2つのアプローチを提供する: (1) 片方向関数を仮定した時間依存シグネチャを用語とする概念を構築する。 この設定では、メッセージの署名は署名された時間に依存し、その結果、検証手順は署名が受信された時間に依存する。 キーはクラシックだが、検証キーは継続的に更新する必要がある。 2) 敵が有界量子メモリを持つ有界量子記憶モデルにおいて,情報理論的にセキュアなシグネチャスキームを構築する。 提案手法は,伝送量を大きくすることで,任意に大きな量子メモリを持つ敵に対して安全である。一方,正直なユーザは,平文の量子メッセージのサイズである$\ell$ の$o(\ell^2)$ の量子メモリしか必要ではない。 さらに,一方向関数のみを仮定したタスクの実行に時間依存シグネチャを適用する。 (a)敵対的改ざんに抵抗する量子公開鍵を認証した量子公開鍵暗号スキームを構築する。 b) 公開鍵の量子マネースキームを、寿命の制限のある、忘れられない、実行不能で、公に検証可能な紙幣で構築すること。

Signing quantum messages was proven to be impossible even under computational assumptions. We realize that this result can be circumvented if the signing procedure varies with respect to some dimension. Specifically, we provide two approaches to sign quantum messages that are the first to ensure authenticity with public verifiability: (1) We construct a notion we term time-dependent signatures assuming one-way functions. In this setting, the signature of a message depends on the time it is signed and, as a result, the verification procedure depends on the time that the signature is received. The keys are classical but the verification key needs to be continually updated. (2) We construct an information-theoretically secure signature scheme in the bounded quantum storage model where adversaries have bounded quantum memories. Our scheme can be made secure against adversaries with arbitrarily large quantum memories by increasing the size of the transmissions sufficiently, while honest users only need $O(\ell^2)$ quantum memory where $\ell$ is the size of the plaintext quantum messages. Furthermore, we apply our time-dependent signatures to perform the following tasks assuming only one-way functions: (a) Construct a quantum public key encryption scheme with authenticated quantum public keys which resist adversarial tampering. (b) Build a public-key quantum money scheme with unforgeable, unclonable, and publicly verifiable banknotes that have a limited lifespan.
翻訳日:2023-06-05 19:41:21 公開日:2023-06-01
# AIによるテキスト検出の可能性について

On the Possibilities of AI-Generated Text Detection ( http://arxiv.org/abs/2304.04736v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Sicheng Zhu, Bang An, Dinesh Manocha, and Furong Huang(参考訳) 本研究では,大規模言語モデル(llm)が生成する出力を,人間が生成した出力と区別するために検出する課題に着目した。 この能力は多くの応用において最も重要である。 しかし、そのような認識の可能性はコミュニティ内で議論の対象となっている。 したがって、中心となる疑問は、aiが生成したテキストを検出できるかどうかと、それがいつなのかである。 本研究では,人間と機械生成テキストの分布がサポート全体において全く同じでない限り,AI生成テキストをほぼ常に検出できることの証拠を提供する。 この観察は、情報理論における標準的な結果に続き、機械テキストがより人間らしくなった場合、それを検出するためにより多くのサンプルが必要であるという事実に依存している。 ai生成テキストの検出に必要なサンプル数を示す、ai生成テキスト検出の正確なサンプル複雑性を導出する。 これにより、より複雑な検出器を設計し、(たった1つではなく)検出に$n$のサンプルを取り入れることが、このトピックに関する将来の研究のスコープとなる。 さまざまな実・合成データセットに関する実証的な評価は、より良い検出器の存在に関する我々の主張を支持し、AI生成したテキスト検出がほとんどのシナリオで達成可能であることを実証する。 我々の理論と結果は、OpenAIの経験的発見(シーケンス長に関して)と一致し、これらの結果に対して確固たる理論的正当化を初めて提供する。

Our work focuses on the challenge of detecting outputs generated by Large Language Models (LLMs) to distinguish them from those generated by humans. This ability is of the utmost importance in numerous applications. However, the possibility of such discernment has been the subject of debate within the community. Therefore, a central question is whether we can detect AI-generated text and, if so, when. In this work, we provide evidence that it should almost always be possible to detect AI-generated text unless the distributions of human and machine-generated texts are exactly the same over the entire support. This observation follows from the standard results in information theory and relies on the fact that if the machine text becomes more human-like, we need more samples to detect it. We derive a precise sample complexity bound of AI-generated text detection, which tells how many samples are needed to detect AI-generated text. This gives rise to additional challenges of designing more complicated detectors that take in $n$ samples for detection (rather than just one), which is the scope of future research on this topic. Our empirical evaluations on various real and synthetic datasets support our claim about the existence of better detectors, demonstrating that AI-generated text detection should be achievable in the majority of scenarios. Our theory and results align with OpenAI's empirical findings, (in relation to sequence length), and we are the first to provide a solid theoretical justification for these outcomes.
翻訳日:2023-06-05 19:41:02 公開日:2023-06-01
# クイック・デンス・リトリーバーとKALE:非対称二重エンコーダ用エンベディングのトレーニング・コールバック・リブラーアライメント

Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders ( http://arxiv.org/abs/2304.01016v3 )

ライセンス: Link先を確認
Daniel Campos, Alessandro Magnani, and ChengXiang Zhai(参考訳) 本稿では,コンテクストとクエリエンコーダ間の構造的圧縮とモデルサイズ非対称性を導入することで,言語モデルに基づく高密度検索システムの推論遅延を改善する問題を考える。 まず,MSMARCO,Natural Questions,TriviaQA,SQUAD,SCIFACTに対する事前および後圧縮の影響について検討し,高密度検索における二重エンコーダの非対称性が推論効率の向上につながることを示した。 そこで我々はKulback Leibler Alignment of Embeddings (KALE)を紹介した。これは学習後にクエリエンコーダをプルーニング・アライメントすることで、高密度検索手法の推論効率を高めるための効率的かつ正確な方法である。 具体的には、双方向エンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。

In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference.
翻訳日:2023-06-05 19:39:36 公開日:2023-06-01
# HyperMODEST:信頼スコアフィルタリングによる自己監督型3次元物体検出

HyperMODEST: Self-Supervised 3D Object Detection with Confidence Score Filtering ( http://arxiv.org/abs/2304.14446v2 )

ライセンス: Link先を確認
Jenny Xu and Steven L. Waslander(参考訳) 現在のLiDARベースの自動運転用3Dオブジェクト検出器は、特定の地理的領域で収集された人間の注釈付きデータにほぼ完全に訓練されているため、異なる領域に適応することは困難である。 MODESTはラベルなしで3Dオブジェクト検出器を訓練する最初の試みである。 我々の研究であるHyperMODESTは、MODESTの上に実装された普遍的な手法を提案しており、これは自己学習プロセスを大幅に加速し、特定のデータセットのチューニングを必要としない。 信頼度の低いデータ拡張に用いる中間擬似ラベルをフィルタリングする。 nuScenesデータセットでは、IoU=0.25で0-80mでAP BEVが1.6%、IoU=0.5で0-80mでAP BEVが1.7%向上し、MODESTによるトレーニング時間の5分の1しか使われていない。 Lyftデータセットでは、第1ラウンドの反復的自己トレーニングのベースラインの改善も観察しています。 本研究では,提案手法と他の2つのスコアフィルタリング手法,すなわち静的ラベル保持の有無を考慮した疑似ラベルの信頼度スコアフィルタリングを比較し,自己学習プロセスの初期段階における高精度と高リコールのトレードオフを検討する。 この作業のコードとモデルはhttps://github.com/trailab/hypermodestで入手できる。

Current LiDAR-based 3D object detectors for autonomous driving are almost entirely trained on human-annotated data collected in specific geographical domains with specific sensor setups, making it difficult to adapt to a different domain. MODEST is the first work to train 3D object detectors without any labels. Our work, HyperMODEST, proposes a universal method implemented on top of MODEST that can largely accelerate the self-training process and does not require tuning on a specific dataset. We filter intermediate pseudo-labels used for data augmentation with low confidence scores. On the nuScenes dataset, we observe a significant improvement of 1.6% in AP BEV in 0-80m range at IoU=0.25 and an improvement of 1.7% in AP BEV in 0-80m range at IoU=0.5 while only using one-fifth of the training time in the original approach by MODEST. On the Lyft dataset, we also observe an improvement over the baseline during the first round of iterative self-training. We explore the trade-off between high precision and high recall in the early stage of the self-training process by comparing our proposed method with two other score filtering methods: confidence score filtering for pseudo-labels with and without static label retention. The code and models of this work are available at https://github.com/TRAILab/HyperMODEST
翻訳日:2023-06-05 19:29:20 公開日:2023-06-01
# タスク指向多目的最適化による逆例生成

Generating Adversarial Examples with Task Oriented Multi-Objective Optimization ( http://arxiv.org/abs/2304.13229v2 )

ライセンス: Link先を確認
Anh Bui, Trung Le, He Zhao, Quan Tran, Paul Montague, Dinh Phung(参考訳) ディープラーニングモデルは、最先端のモデルでさえも、敵の例に非常に脆弱です。 敵の訓練はモデルの堅牢性を改善する最も効率的な方法の1つである。 敵意トレーニングの成功の鍵となる要因は、目標/ゴール(例えば、複数のモデルを同時に攻撃するモデルの損失を最大化する敵意的な例を見つける)を満たす、適格で多様な敵意の例を生成する能力である。 したがって、多目的最適化(MOO)は、複数の目的/目標を同時に達成するための逆例生成の自然なツールである。 しかし,MOOの単純適用は,目標/目標がまだ達成されているかどうかを気にすることなく,すべての目標/目標を等しく最大化する傾向にある。 これにより、目標達成タスクをさらに改善し、目標達成タスクへのフォーカスを減らし、無駄な労力がかかります。 本稿では,タスクの目標達成を明示的に定義できる状況において,この問題に対処するためのemph{Task Oriented MOO}を提案する。 私たちの原則は、目標達成タスクのみを維持しながら、最適化者が目標達成タスクの改善により多くの労力を費やすことです。 我々は,タスク指向mooに対して,様々な逆例生成方式に関する包括的実験を行う。 実験結果は,提案手法のメリットを確証するものである。 我々のコードは \url{https://github.com/tuananhbui89/TAMOO} で入手できる。

Deep learning models, even the-state-of-the-art ones, are highly vulnerable to adversarial examples. Adversarial training is one of the most efficient methods to improve the model's robustness. The key factor for the success of adversarial training is the capability to generate qualified and divergent adversarial examples which satisfy some objectives/goals (e.g., finding adversarial examples that maximize the model losses for simultaneously attacking multiple models). Therefore, multi-objective optimization (MOO) is a natural tool for adversarial example generation to achieve multiple objectives/goals simultaneously. However, we observe that a naive application of MOO tends to maximize all objectives/goals equally, without caring if an objective/goal has been achieved yet. This leads to useless effort to further improve the goal-achieved tasks, while putting less focus on the goal-unachieved tasks. In this paper, we propose \emph{Task Oriented MOO} to address this issue, in the context where we can explicitly define the goal achievement for a task. Our principle is to only maintain the goal-achieved tasks, while letting the optimizer spend more effort on improving the goal-unachieved tasks. We conduct comprehensive experiments for our Task Oriented MOO on various adversarial example generation schemes. The experimental results firmly demonstrate the merit of our proposed approach. Our code is available at \url{https://github.com/tuananhbui89/TAMOO}.
翻訳日:2023-06-05 19:28:34 公開日:2023-06-01
# マルコフ決定過程における静的リスク対策の動的プログラミング分解について

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes ( http://arxiv.org/abs/2304.12477v2 )

ライセンス: Link先を確認
Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik(参考訳) マルコフ決定過程における静的リスク回避目標の最適化は、強化学習(rl)アルゴリズムに共通する標準的な動的プログラミング方程式を認めないため困難である。 状態空間を個別のリスクレベルで拡張する動的プログラミング分解は、最近rlコミュニティで人気を集めている。 先行研究により、これらの分解はリスクレベルが十分に離散化されている場合に最適であることが示されている。 しかし, 条件値-at-Risk (CVaR) とエントロピー-値-at-Risk (EVaR) の分解は, 離散化レベルに関係なく本質的に準最適であることを示す。 特に,先行文献において保持されると考えられるサドル点特性が侵害される可能性があることを示す。 しかしながら、分解はバリュー・アット・リスクを保ち、このリスク尺度がCVaRとEVaRとどのように異なるかを示す。 リスク回避アルゴリズムは高リスク環境において用いられており,その正確性は極めて重要である。

Optimizing static risk-averse objectives in Markov decision processes is difficult because they do not admit standard dynamic programming equations common in Reinforcement Learning (RL) algorithms. Dynamic programming decompositions that augment the state space with discrete risk levels have recently gained popularity in the RL community. Prior work has shown that these decompositions are optimal when the risk level is discretized sufficiently. However, we show that these popular decompositions for Conditional-Value-at-Risk (CVaR) and Entropic-Value-at-Risk (EVaR) are inherently suboptimal regardless of the discretization level. In particular, we show that a saddle point property assumed to hold in prior literature may be violated. However, a decomposition does hold for Value-at-Risk and our proof demonstrates how this risk measure differs from CVaR and EVaR. Our findings are significant because risk-averse algorithms are used in high-stake environments, making their correctness much more critical.
翻訳日:2023-06-05 19:28:10 公開日:2023-06-01
# 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に

"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation ( http://arxiv.org/abs/2305.09941v4 )

ライセンス: Link先を確認
Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta(参考訳) トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。 近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。 NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。 このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。 この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。 この社会的知識は,(1) 性別開示に対する誤認と(2) 有害な反応の2つの主要な側面から,ポピュラーな大言語モデル(LLM)を評価するためのガイドとして機能する。 そこで本研究では,TGNB指向のコミュニティから収集したテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。 モデルによって反映される二項性規範の優位性を見出した; LLMは二項代名詞を用いたプロンプトによって引き起こされた、生成テキスト中の最少の性別の被験者である。 一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。 TGNBの開示は、性別の開示によって最も厳格な言語を生み出し、平均して最も有毒な結果を得た。 我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。

Transgender and non-binary (TGNB) individuals disproportionately experience discrimination and exclusion from daily life. Given the recent popularity and adoption of language generation technologies, the potential to further marginalize this population only grows. Although a multitude of NLP fairness literature focuses on illuminating and addressing gender biases, assessing gender harms for TGNB identities requires understanding how such identities uniquely interact with societal gender norms and how they differ from gender binary-centric perspectives. Such measurement frameworks inherently require centering TGNB voices to help guide the alignment between gender-inclusive NLP and whom they are intended to serve. Towards this goal, we ground our work in the TGNB community and existing interdisciplinary literature to assess how the social reality surrounding experienced marginalization of TGNB persons contributes to and persists within Open Language Generation (OLG). This social knowledge serves as a guide for evaluating popular large language models (LLMs) on two key aspects: (1) misgendering and (2) harmful responses to gender disclosure. To do this, we introduce TANGO, a dataset of template-based real-world text curated from a TGNB-oriented community. We discover a dominance of binary gender norms reflected by the models; LLMs least misgendered subjects in generated text when triggered by prompts whose subjects used binary pronouns. Meanwhile, misgendering was most prevalent when triggering generation with singular they and neopronouns. When prompted with gender disclosures, TGNB disclosure generated the most stigmatizing language and scored most toxic, on average. Our findings warrant further research on how TGNB harms manifest in LLMs and serve as a broader case study toward concretely grounding the design of gender-inclusive AI in community voices and interdisciplinary literature.
翻訳日:2023-06-05 19:21:55 公開日:2023-06-01
# ProKnow:メンタルヘルス診断支援のための安全・説明可能な質問生成のためのプロセス知識

ProKnow: Process Knowledge for Safety Constrained and Explainable Question Generation for Mental Health Diagnostic Assistance ( http://arxiv.org/abs/2305.08010v2 )

ライセンス: Link先を確認
Kaushik Roy, Manas Gaur, Misagh Soltani, Vipula Rawte, Ashwin Kalyan, Amit Sheth(参考訳) 現在のバーチャルメンタルヘルスアシスタント(vmhas)はカウンセリングと示唆的なケアを提供する。 彼らは安全性と専門的な臨床プロセス知識の訓練が不足しているため、患者の診断支援を控えている。 本研究では,Proknowをエビデンスに基づくガイドラインやドメインの専門家に対する概念理解のカテゴリにマップする情報集合として定義する。 また,医療従事者が使用する安全制約やプロノウハウによって誘導される,新たな診断会話データセットも導入する。 患者からの診断情報を対話的に収集する自然言語質問生成法(NLG)を開発した。 このデータセットで最先端の大規模言語モデル(LM)を使用することの限界を実証する。 我々のアルゴリズムは、安全性、知識獲得、説明可能性を明確にモデル化することでプロセスの知識をモデル化する。 ProKnowガイド法で拡張したLMは、うつ病や不安領域でより安全な89%の質問を発生させた。 生成した質問の説明性は、抑うつや不安に関する知識ベースの概念と類似した計算によって評価される。 総じて,本手法を改良したlmsのタイプに関わらず,安全性,説明可能性,プロセスガイドによる質問生成において,事前学習した単純なlmsと比較して平均82%の改善を達成できた。 提案手法の有効性を定量的に定量的に評価し,安全性,説明可能性,プロセス知識の順守に関する3つの新しい評価指標を導入する。

Current Virtual Mental Health Assistants (VMHAs) provide counseling and suggestive care. They refrain from patient diagnostic assistance because they lack training in safety-constrained and specialized clinical process knowledge. In this work, we define Proknow as an ordered set of information that maps to evidence-based guidelines or categories of conceptual understanding to experts in a domain. We also introduce a new dataset of diagnostic conversations guided by safety constraints and Proknow that healthcare professionals use. We develop a method for natural language question generation (NLG) that collects diagnostic information from the patient interactively. We demonstrate the limitations of using state-of-the-art large-scale language models (LMs) on this dataset. Our algorithm models the process knowledge through explicitly modeling safety, knowledge capture, and explainability. LMs augmented with ProKnow guided method generated 89% safer questions in the depression and anxiety domain. The Explainability of the generated question is assessed by computing similarity with concepts in depression and anxiety knowledge bases. Overall, irrespective of the type of LMs augmented with our ProKnow, we achieved an average 82% improvement over simple pre-trained LMs on safety, explainability, and process-guided question generation. We qualitatively and quantitatively evaluate the efficacy of the proposed ProKnow-guided methods by introducing three new evaluation metrics for safety, explainability, and process knowledge adherence.
翻訳日:2023-06-05 19:20:45 公開日:2023-06-01
# sentecon: 人間の解釈可能な言語表現を学ぶためにレキシコンを活用する

SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language Representations ( http://arxiv.org/abs/2305.14728v2 )

ライセンス: Link先を確認
Victoria Lin, Louis-Philippe Morency(参考訳) 近年,深層言語表現が言語破局の主流となっているが,多くの場面でモデルの意思決定プロセスを理解することが重要である。 これは解釈可能なモデルだけでなく、解釈可能な機能を必要とする。 特に、言語は原文をよく特徴付けながら解釈可能な方法で実現されなければならない。 本稿では,深層言語表現における人間の解釈可能性の導入方法であるSenteConを提案する。 テキストの一節を与えられたSenteConは、テキストを解釈可能なカテゴリの層としてエンコードし、各次元が特定のカテゴリの関連性に対応する。 経験的な評価から,steconによる言語エンコーディングは,下流タスクの予測性能にほとんど,あるいはまったくコストを要しない高レベルな解釈性を提供することが示唆された。 さらに,SenteConは,そのダウンストリーム性能とテキストの人為的特徴との一致に関して,既存の解釈可能な言語表現よりも優れていることがわかった。

Although deep language representations have become the dominant form of language featurization in recent years, in many settings it is important to understand a model's decision-making process. This necessitates not only an interpretable model but also interpretable features. In particular, language must be featurized in a way that is interpretable while still characterizing the original text well. We present SenteCon, a method for introducing human interpretability in deep language representations. Given a passage of text, SenteCon encodes the text as a layer of interpretable categories in which each dimension corresponds to the relevance of a specific category. Our empirical evaluations indicate that encoding language with SenteCon provides high-level interpretability at little to no cost to predictive performance on downstream tasks. Moreover, we find that SenteCon outperforms existing interpretable language representations with respect to both its downstream performance and its agreement with human characterizations of the text.
翻訳日:2023-06-05 19:10:55 公開日:2023-06-01
# 信仰とフェイト:構成性に関するトランスフォーマーの限界

Faith and Fate: Limits of Transformers on Compositionality ( http://arxiv.org/abs/2305.18654v2 )

ライセンス: Link先を確認
Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi(参考訳) transformer large language models (llms) は、複雑なマルチステップ推論を必要とするタスクにおける例外的なパフォーマンスを賞賛している。 しかし、これらのモデルは驚くほど自明な問題に対して同時に失敗を示す。 これらのエラーは偶発的か、それともより重大な制限を示すのか? トランスフォーマーを非神秘化しようとする試みとして,多桁乗算,論理格子パズル,古典的な動的プログラミング問題という,3つの代表的な構成タスクにまたがるモデルの限界について検討する。 これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。 合成タスクを計算グラフとして定式化し、複雑性のレベルを体系的に定量化し、推論ステップを中間のサブ手続きに分割する。 実験により,多段階合成推論を線形化部分グラフマッチングに還元することで,トランスフォーマーが構成課題を解くことを示唆した。 実験的な研究をまとめるために、トランスフォーマーのパフォーマンスがタスクの複雑さの増大とともに急速に低下することを示す抽象的な多段階推論問題について理論的に論じる。

Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify Transformers, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that Transformers solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how Transformers' performance will rapidly decay with increased task complexity.
翻訳日:2023-06-05 19:02:48 公開日:2023-06-01
# ハバード量子シミュレータに現れる双極子量子固体

Dipolar quantum solids emerging in a Hubbard quantum simulator ( http://arxiv.org/abs/2306.00888v1 )

ライセンス: Link先を確認
Lin Su, Alexander Douglas, Michal Szurek, Robin Groth, S. Furkan Ozturk, Aaron Krahn, Anne H. H\'ebert, Gregory A. Phelps, Sepehr Ebadi, Susannah Dickerson, Francesca Ferlaino, Ognjen Markovi\'c, Markus Greiner(参考訳) 量子力学多体系では、長距離相互作用と異方性相互作用はリッチな空間構造を促進し、量子フラストレーションを引き起こし、複雑な強い相関を持つ量子位相を生じる。 長距離相互作用は自然界において重要な役割を果たすが、格子系の量子シミュレーションはそのような相互作用をほとんど実現できていない。 極性分子、リドバーグ原子、光学キャビティ、磁性原子を用いた長距離相互作用格子系の研究が進行中である。 本研究では,超低温磁性エルビウム原子を用いた長距離双極子相互作用を持つ強相関格子系における新しい量子相を実現する。 双極子相互作用を我々の系で支配的なエネルギースケールにチューニングすると、超流動から双極子量子固体への量子相転移を観測し、量子ガス顕微鏡を用いて直接検出する。 ダイポールの配向による相互作用異方性制御により、様々なストライプ秩序状態を実現することができる。 さらに, 強相関状態を通じて非アダイアバティックに遷移することにより, 準安定ストライプ秩序状態の出現を観察した。 この研究は、光学格子における長距離双極子相互作用を用いて、新しい強い相関の量子相が実現できることを示し、長距離および異方性相互作用を持つ幅広い格子モデルの量子シミュレーションへの扉を開く。

In quantum mechanical many-body systems, long-range and anisotropic interactions promote rich spatial structure and can lead to quantum frustration, giving rise to a wealth of complex, strongly correlated quantum phases. Long-range interactions play an important role in nature; however, quantum simulations of lattice systems have largely not been able to realize such interactions. A wide range of efforts are underway to explore long-range interacting lattice systems using polar molecules, Rydberg atoms, optical cavities, and magnetic atoms. Here, we realize novel quantum phases in a strongly correlated lattice system with long-range dipolar interactions using ultracold magnetic erbium atoms. As we tune the dipolar interaction to be the dominant energy scale in our system, we observe quantum phase transitions from a superfluid into dipolar quantum solids, which we directly detect using quantum gas microscopy. Controlling the interaction anisotropy by orienting the dipoles enables us to realize a variety of stripe ordered states. Furthermore, by transitioning non-adiabatically through the strongly correlated regime, we observe the emergence of a range of metastable stripe-ordered states. This work demonstrates that novel strongly correlated quantum phases can be realized using long-range dipolar interaction in optical lattices, opening the door to quantum simulations of a wide range of lattice models with long-range and anisotropic interactions.
翻訳日:2023-06-05 18:51:17 公開日:2023-06-01
# MaxwellのDemonがウォール街へ:確率的熱力学と期待された実用性理論

Maxwell's Demon walks into Wall Street: Stochastic Thermodynamics meets Expected Utility Theory ( http://arxiv.org/abs/2306.00449v1 )

ライセンス: Link先を確認
Andres F. Ducuara, Paul Skrzypczyk, Francesco Buscemi, Peter Sidajaya, Valerio Scarani(参考訳) 熱力学と情報理論の相互作用は長い歴史があるが、その定量的表現はまだ研究されている。 我々は、期待効用理論から経済学から確率的熱力学へ道具をインポートする。 クルックスのゆらぎ関係に従う過程において、すべての$\alpha$ R\'enyi が前処理と逆処理の間で分岐していることが、リスク・アバージョン $r=\alpha-1$ のプレイヤーに対して、散逸された作業(あるいはエントロピー生産)の 'certainty equivalent'' の操作的意味を持つことを証明している。 既知の2つのケース$\alpha=1$と$\alpha=\infty$は、それぞれリスクニュートラルと極端なリスクアバースプレーヤーに関連付けられているという新しい解釈を受け取る。 新しい結果のうち、$\alpha=0$の条件は、第二法則の過渡的違反に賭けようとするリスクを問う選手の行動を記述する。 我々のアプローチは、さらに一般化されたジャージンスキー等式をもたらし、より広範な統計分岐のクラスに一般化する。

The interplay between thermodynamics and information theory has a long history, but its quantitative manifestations are still being explored. We import tools from expected utility theory from economics into stochastic thermodynamics. We prove that, in a process obeying Crooks' fluctuation relations, every $\alpha$ R\'enyi divergence between the forward process and its reverse has the operational meaning of the ``certainty equivalent'' of dissipated work (or, more generally, of entropy production) for a player with risk aversion $r=\alpha-1$. The two known cases $\alpha=1$ and $\alpha=\infty$ are recovered and receive the new interpretation of being associated to a risk-neutral and an extreme risk-averse player respectively. Among the new results, the condition for $\alpha=0$ describes the behavior of a risk-seeking player willing to bet on the transient violations of the second law. Our approach further leads to a generalized Jarzynski equality, and generalizes to a broader class of statistical divergences.
翻訳日:2023-06-05 18:50:54 公開日:2023-06-01
# PV2TEA: テキスト情報抽出への視覚的モダリティの対応

PV2TEA: Patching Visual Modality to Textual-Established Information Extraction ( http://arxiv.org/abs/2306.01016v1 )

ライセンス: Link先を確認
Hejie Cui, Rongmei Lin, Nasser Zalmout, Chenwei Zhang, Jingbo Shang, Carl Yang, Xian Li(参考訳) 属性値抽出などの情報抽出は、テキストのみに基づいて広く研究され、定式化されている。 しかし、多くの属性は、色、形状、パターンなど、画像に基づく抽出の恩恵を受けることができる。 視覚モダリティは、主にマルチモーダルなアノテーションの難しさから、長い間使われていなかった。 本稿では,テキスト化された属性情報抽出器に視覚的モダリティをパッチすることを目的とする。 C1) 画像とテキスト記述は、サンプル内とサンプル間の疎結合である; (C2) 画像は通常、予測を誤解させる可能性のある豊富な背景を含んでいる; (C3) テキスト確立された抽出器からの弱い教師付きラベルは、マルチモーダルトレーニングに偏っている。 本稿では,3つのバイアス低減方式を備えたエンコーダ・デコーダアーキテクチャであるPV2TEAについて述べる。 (S1) ラベルの平滑化コントラストを改良し,ゆるやかにペアリングされた画像とテキストの相互アライメントを改善する; (S2) 視覚的前景を適応的に区別するアテンション・プルーニング; (S3) ラベルのテキストバイアスを軽減する2段階の近傍正規化。 実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。

Information extraction, e.g., attribute value extraction, has been extensively studied and formulated based only on text. However, many attributes can benefit from image-based extraction, like color, shape, pattern, among others. The visual modality has long been underutilized, mainly due to multimodal annotation difficulty. In this paper, we aim to patch the visual modality to the textual-established attribute information extractor. The cross-modality integration faces several unique challenges: (C1) images and textual descriptions are loosely paired intra-sample and inter-samples; (C2) images usually contain rich backgrounds that can mislead the prediction; (C3) weakly supervised labels from textual-established extractors are biased for multimodal training. We present PV2TEA, an encoder-decoder architecture equipped with three bias reduction schemes: (S1) Augmented label-smoothed contrast to improve the cross-modality alignment for loosely-paired image and text; (S2) Attention-pruning that adaptively distinguishes the visual foreground; (S3) Two-level neighborhood regularization that mitigates the label textual bias via reliability estimation. Empirical results on real-world e-Commerce datasets demonstrate up to 11.74% absolute (20.97% relatively) F1 increase over unimodal baselines.
翻訳日:2023-06-05 18:42:38 公開日:2023-06-01
# 事前学習音声モデルのモデル伝達可能性の推定法

How to Estimate Model Transferability of Pre-Trained Speech Models? ( http://arxiv.org/abs/2306.01015v1 )

ライセンス: Link先を確認
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath(参考訳) 本研究では,学習対象タスクに対する事前学習音声モデル(PSM)の伝達可能性を評価するための'スコアベースアセスメント'フレームワークを提案する。 我々は,ベイズ推定法と最適移動法という2つの表現理論を用いて,抽出した表現を用いてpsm候補のランクスコアを生成する。 提案手法は, 時間的独立仮説を定めて, 候補モデルやレイヤの微調整をすることなく, 転送可能性スコアを効率的に計算する。 公開データを用いて,一般的な教師付き音声モデル (Conformer RNN-Transducerなど) と自己教師付き音声モデル (HuBERTなど) をクロス層およびクロスモデル設定で評価する。 実験の結果,スピアマンのランク相関は高く,評価フレームワークと微調整の土台真実との間にはp$-値が低いことがわかった。 提案する転送性フレームワークは計算時間と資源を少なくし,音声基礎モデルをチューニングするための資源節約と時間効率のアプローチとなる。

In this work, we introduce a ``score-based assessment'' framework for estimating the transferability of pre-trained speech models (PSMs) for fine-tuning target tasks. We leverage upon two representation theories, Bayesian likelihood estimation and optimal transport, to generate rank scores for the PSM candidates using the extracted representations. Our framework efficiently computes transferability scores without actual fine-tuning of candidate models or layers by making a temporal independent hypothesis. We evaluate some popular supervised speech models (e.g., Conformer RNN-Transducer) and self-supervised speech models (e.g., HuBERT) in cross-layer and cross-model settings using public data. Experimental results show a high Spearman's rank correlation and low $p$-value between our estimation framework and fine-tuning ground truth. Our proposed transferability framework requires less computational time and resources, making it a resource-saving and time-efficient approach for tuning speech foundation models.
翻訳日:2023-06-05 18:42:11 公開日:2023-06-01
# 時間進化グラフのためのグラフレベル埋め込み

Graph-Level Embedding for Time-Evolving Graphs ( http://arxiv.org/abs/2306.01012v1 )

ライセンス: Link先を確認
Lili Wang, Chenghan Huang, Weicheng Ma, Xinyuan Cao, and Soroush Vosoughi(参考訳) グラフ表現学習(ネットワーク埋め込みとも呼ばれる)は、ノードからグラフまで、様々なレベルの粒度で広く研究されている。 この分野でのほとんどの先行研究はノードレベルの表現に焦点を当てているが、グラフレベルの埋め込み、特に動的ネットワークや時間的ネットワークに関する限られた研究が行われている。 しかし、動的ネットワークに対する低次元グラフレベルの表現の学習は、時間グラフ類似度ランキング、時間グラフ同型、異常検出などの下流グラフ検索タスクにおいて重要である。 本稿では,このギャップに対処する時間グラフレベルの埋め込み手法を提案する。 提案手法では,多層グラフの構築と時間的バックトラックを用いたランダムウォークを用いて,グラフノードの時間的コンテキストを生成する。 次に、これらのコンテキストで"ドキュメントレベル"言語モデルをトレーニングして、グラフレベルの埋め込みを生成します。 提案手法は, 時間グラフ類似度ランキングの課題として, 公開されている5つのデータセット上で提案モデルを評価し, ベースライン法を上回っている。 実験により,動的ネットワークに対するグラフレベルの埋め込み生成における本手法の有効性を実証した。

Graph representation learning (also known as network embedding) has been extensively researched with varying levels of granularity, ranging from nodes to graphs. While most prior work in this area focuses on node-level representation, limited research has been conducted on graph-level embedding, particularly for dynamic or temporal networks. However, learning low-dimensional graph-level representations for dynamic networks is critical for various downstream graph retrieval tasks such as temporal graph similarity ranking, temporal graph isomorphism, and anomaly detection. In this paper, we present a novel method for temporal graph-level embedding that addresses this gap. Our approach involves constructing a multilayer graph and using a modified random walk with temporal backtracking to generate temporal contexts for the graph's nodes. We then train a "document-level" language model on these contexts to generate graph-level embeddings. We evaluate our proposed model on five publicly available datasets for the task of temporal graph similarity ranking, and our model outperforms baseline methods. Our experimental results demonstrate the effectiveness of our method in generating graph-level embeddings for dynamic networks.
翻訳日:2023-06-05 18:41:55 公開日:2023-06-01
# 同時運動量と位置測定とインストゥルメンタルワイル・ハイゼンベルク群

Simultaneous Momentum and Position Measurement and the Instrumental Weyl-Heisenberg Group ( http://arxiv.org/abs/2306.01045v1 )

ライセンス: Link先を確認
Christopher S. Jackson and Carlton M. Caves(参考訳) 標準可換関係、$[Q,P] = i\hbar$ は量子論の基礎とヒルベルト空間の原点である。 可観測性としての$P$ & $Q$の解釈は、ヒルベルト空間のユニタリ変換と古典位相空間の正準変換(つまり接触)の間の類似に常に依存している。 量子測度の理論は本質的に完備である(これはしばらく時間がかかった)ため、一元変換ではなく正の変換に関する量子論の基礎を定める方法で正の可換関係を再考することができる。 本稿では,同時計測の概念が基本的な微分幾何学問題にどのようにつながるかを示し,その解を次のように示す。 同時計測 (p$ & $q$) 測定 (spqm) は,7次元多様体の形をとる普遍計測器を定義し,それをインストゥルメンタルワイル・ハイゼンベルク群 (iwh) と呼ぶ。 群 IWH は、正の演算値測度 (POVM) がエネルギー量子化の完全な代替となるほど、予期せぬ方法で古典位相空間にアイデンティティを接続する。 5つの次元は、容易に認識し理解できるプロセスを定義する。 他の2次元、IWHの中心における正規化と位相は、あまり知られていない。 正規化は特に、SPQMを記述し理解するために特別な処理を必要とする。

The canonical commutation relation, $[Q,P] = i\hbar$, stands at the foundation of quantum theory and the original Hilbert space. The interpretation of $P$ & $Q$ as observables has always relied on the analogies that exist between the unitary transformations of Hilbert space and the canonical (a.k.a. contact) transformations of classical phase space. Now that the theory of quantum measurement is essentially complete (this took a while), it is possible to revisit the canonical commutation relation in a way that sets the foundation of quantum theory not on unitary transformations, but on positive transformations. This paper shows how the concept of simultaneous measurement leads to a fundamental differential geometric problem whose solution shows us the following: The simultaneous $P$ & $Q$ measurement (SPQM) defines a universal measuring instrument, which takes the shape of a 7-dimensional manifold, a universal covering group we call the Instrumental Weyl-Heisenberg Group, IWH. The group IWH connects the identity to classical phase space in unexpected ways that are significant enough that the positive-operator-valued measure (POVM) offers a complete alternative to energy quantization. Five of the dimensions define processes that can be easily recognized and understood. The other two dimensions, the normalization and phase in the center of IWH, are less familiar. The normalization, in particular, requires special handling in order to describe and understand the SPQM instrument.
翻訳日:2023-06-05 18:33:06 公開日:2023-06-01
# Cayley Graph Quotients の Clifford 軌道

Clifford Orbits from Cayley Graph Quotients ( http://arxiv.org/abs/2306.01043v1 )

ライセンス: Link先を確認
Cynthia Keeler, William Munizzi, Jason Pollack(参考訳) 我々は、Cayley グラフによる $n$-qubit Clifford 群 $\mathcal{C}_n$ の構造を説明し、その頂点は群要素を表し、エッジは生成元を表す。 与えられた量子状態に対するクリフォード・ゲートの作用を得るために、商手続きを導入する。 状態の安定化子部分群によるケイリーグラフの引用は、状態のクリフォード軌道を表す縮小グラフを与える。 このプロトコルを使って、arXiv:2204.07593で導入された到達可能性グラフを再現し、一般化する。 手順は状態非依存であるため、w状態やディッケ状態を含む非安定化状態まで研究を拡大する。 我々の新しい構造はクリフォード回路作用の下での状態進化をより正確に理解する。

We describe the structure of the $n$-qubit Clifford group $\mathcal{C}_n$ via Cayley graphs, whose vertices represent group elements and edges represent generators. In order to obtain the action of Clifford gates on a given quantum state, we introduce a quotient procedure. Quotienting the Cayley graph by the stabilizer subgroup of a state gives a reduced graph which depicts the state's Clifford orbit. Using this protocol for $\mathcal{C}_2$, we reproduce and generalize the reachability graphs introduced in arXiv:2204.07593. Since the procedure is state-independent, we extend our study to non-stabilizer states, including the W and Dicke states. Our new construction provides a more precise understanding of state evolution under Clifford circuit action.
翻訳日:2023-06-05 18:32:40 公開日:2023-06-01
# ランダム数保存量子回路からのユニタリk設計

Unitary k-designs from random number-conserving quantum circuits ( http://arxiv.org/abs/2306.01035v1 )

ライセンス: Link先を確認
Sumner N. Hearth, Michael O. Flynn, Anushya Chandran, and Chris R. Laumann(参考訳) 局所ランダム回路は効率的にスクランブルするので、量子情報や量子力学の応用範囲が広い。 しかし、グローバルな$U(1)$チャージにより、スクランブル能力は減少し、例えば、そのようなランダム回路は数保存ユニタリの全体を生成するわけではない。 我々は、k$-fold 複製回路の統計力学を用いて2つの結果を確立する。 まず,有限モーメントは,局所ランダム回路が生成するアンサンブルを,数保存ユニタリ群全体のハールアンサンブルから区別できないことを示す。 具体的には、回路は$k_c$-designと$k_c = O(L^d)$を、線形次元$L$のシステムに対して形成する。 第二に、$k < k_c$ に対して、深さ $\tau$ は $k$-design に収束し、$\tau \gtrsim k L^{d+2}$ となる。 対照的に、数保存のない$\tau \gtrsim k L^{d}$ である。 回路アンサンブルの収束はフラストレーションのない量子統計モデルの低エネルギー特性によって制御され、k$ $u(1)$ 対称性を自発的に破る。 関連するゴールドストーンモードはギャップがなく、予測スケーリングが$\tau$になる。 我々の変分境界は任意の空間次元とqudit次元に対して成り立つ。

Local random circuits scramble efficiently and accordingly have a range of applications in quantum information and quantum dynamics. With a global $U(1)$ charge however, the scrambling ability is reduced; for example, such random circuits do not generate the entire group of number-conserving unitaries. We establish two results using the statistical mechanics of $k$-fold replicated circuits. First, we show that finite moments cannot distinguish the ensemble that local random circuits generate from the Haar ensemble on the entire group of number conserving unitaries. Specifically, the circuits form a $k_c$-design with $k_c = O(L^d)$ for a system in $d$ spatial dimensions with linear dimension $L$. Second, for $k < k_c$, the depth $\tau$ to converge to a $k$-design scales as $\tau \gtrsim k L^{d+2}$. In contrast, without number conservation $\tau \gtrsim k L^{d}$. The convergence of the circuit ensemble is controlled by the low-energy properties of a frustration-free quantum statistical model which spontaneously breaks $k$ $U(1)$ symmetries. The associated Goldstone modes are gapless and lead to the predicted scaling of $\tau$. Our variational bounds hold for arbitrary spatial and qudit dimensions; we conjecture they are tight.
翻訳日:2023-06-05 18:32:26 公開日:2023-06-01
# 単一正のマルチラベル学習のための擬似ラベル

Pseudo Labels for Single Positive Multi-Label Learning ( http://arxiv.org/abs/2306.01034v1 )

ライセンス: Link先を確認
Julio Arroyo(参考訳) データアノテーションのコストは、マルチラベル画像分類の実質的な障害であり、すべての画像において、すべてのカテゴリは、現在または欠落としてラベル付けされなければならない。 単一正のマルチラベル(spml)学習はコスト効率の良いソリューションであり、モデルが画像毎に単一の正のラベルでトレーニングされる。 したがって、SPMLは、欠落したラベルを扱う必要があるため、より困難なドメインである。 本研究では,1つの正のデータを完全なラベル付きデータに変換する手法を提案する。 教師ネットワークは基本的に、単一のポジティブラベルで訓練される。 そして,教師モデルのトレーニングデータに対する予測を地味ラベルとして扱い,学生ネットワークをフルラベル画像で訓練する。 この簡単なアプローチにより、学生モデルによって達成された性能が、実際の完全ラベル付き画像に基づいて訓練されたモデルの性能に近づくことを示す。

The cost of data annotation is a substantial impediment for multi-label image classification: in every image, every category must be labeled as present or absent. Single positive multi-label (SPML) learning is a cost-effective solution, where models are trained on a single positive label per image. Thus, SPML is a more challenging domain, since it requires dealing with missing labels. In this work, we propose a method to turn single positive data into fully-labeled data: Pseudo Multi-Labels. Basically, a teacher network is trained on single positive labels. Then, we treat the teacher model's predictions on the training data as ground-truth labels to train a student network on fully-labeled images. With this simple approach, we show that the performance achieved by the student model approaches that of a model trained on the actual fully-labeled images.
翻訳日:2023-06-05 18:31:55 公開日:2023-06-01
# 適応学習率にもかかわらず大規模マルチエージェント学習におけるカオスの持続

Chaos persists in large-scale multi-agent learning despite adaptive learning rates ( http://arxiv.org/abs/2306.01032v1 )

ライセンス: Link先を確認
Emmanouil-Vasileios Vlatakis-Gkaragkounis, Lampros Flokas and Georgios Piliouras(参考訳) マルチエージェント学習は本質的に難しく、単一のエージェント最適化よりも不安定で予測不能である。 このため、多くの専門的なヒューリスティックや技術が自己プレイにおける均衡への収束を達成するために設計されている。 そのような著名なアプローチの1つは、動的適応学習率の使用である。 このような手法は、小規模ゲームにおける収束保証を改善することが知られているが、エージェントの集団でより関連性の高い設定でそれらを分析することはずっと困難である。 本研究は, ユビキタスな乗算重み更新アルゴリズムにおいても, 適応的な学習率を用いても, 人口密集ゲームにおいてカオスが持続することを示すものである。 技術的なレベルでは、システムの非自発的性質から、不変集合、体積展開、乱流集合を含む力学の基本特性を研究することにより、従来の周期 3 技術の li-yorke を超越したアプローチである。 我々は,システムパラメータのわずかな変化が様々な予測不能な振る舞いを引き起こすことを示す実験によって,理論的な洞察を補完する。

Multi-agent learning is intrinsically harder, more unstable and unpredictable than single agent optimization. For this reason, numerous specialized heuristics and techniques have been designed towards the goal of achieving convergence to equilibria in self-play. One such celebrated approach is the use of dynamically adaptive learning rates. Although such techniques are known to allow for improved convergence guarantees in small games, it has been much harder to analyze them in more relevant settings with large populations of agents. These settings are particularly hard as recent work has established that learning with fixed rates will become chaotic given large enough populations.In this work, we show that chaos persists in large population congestion games despite using adaptive learning rates even for the ubiquitous Multiplicative Weight Updates algorithm, even in the presence of only two strategies. At a technical level, due to the non-autonomous nature of the system, our approach goes beyond conventional period-three techniques Li-Yorke by studying fundamental properties of the dynamics including invariant sets, volume expansion and turbulent sets. We complement our theoretical insights with experiments showcasing that slight variations to system parameters lead to a wide variety of unpredictable behaviors.
翻訳日:2023-06-05 18:31:32 公開日:2023-06-01
# バイパス時間分類:不完全書き起こしを用いた弱教師付き自動音声認識

Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts ( http://arxiv.org/abs/2306.01031v1 )

ライセンス: Link先を確認
Dongji Gao and Matthew Wiesner and Hainan Xu and Leibny Paola Garcia and Daniel Povey and Sanjeev Khudanpur(参考訳) 本稿では,不完全な学習データを持つ自動音声認識(asr)モデルを構築するための新しいアルゴリズムを提案する。 不完全書き起こし音声は、ASRモデルの性能を低下させる人間の注釈付き音声コーパスにおいて一般的な問題である。 この問題に対処するために,接続性時間分類(CTC)基準の拡張として,Bypass Temporal Classification (BTC)を提案する。 BTCは、トレーニング中に転写に関する不確実性を明示的にエンコードする。 これは、重み付き有限状態トランスデューサ(WFST)合成として実装されたトレーニンググラフの柔軟性を向上させることで達成される。 提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。 私たちの実装はオープンソースになります。

This paper presents a novel algorithm for building an automatic speech recognition (ASR) model with imperfect training data. Imperfectly transcribed speech is a prevalent issue in human-annotated speech corpora, which degrades the performance of ASR models. To address this problem, we propose Bypass Temporal Classification (BTC) as an expansion of the Connectionist Temporal Classification (CTC) criterion. BTC explicitly encodes the uncertainties associated with transcripts during training. This is accomplished by enhancing the flexibility of the training graph, which is implemented as a weighted finite-state transducer (WFST) composition. The proposed algorithm improves the robustness and accuracy of ASR systems, particularly when working with imprecisely transcribed speech corpora. Our implementation will be open-sourced.
翻訳日:2023-06-05 18:30:50 公開日:2023-06-01
# SPINEX: 機械学習における回帰・分類タスクの類似性に基づく予測と説明可能な近傍探索

SPINEX: Similarity-based Predictions and Explainable Neighbors Exploration for Regression and Classification Tasks in Machine Learning ( http://arxiv.org/abs/2306.01029v1 )

ライセンス: Link先を確認
M.Z. Naser, M.K. albashiti, A.Z. Naser(参考訳) 機械学習(ML)の分野は近年大きく進歩している。 しかし、多くの既存のアルゴリズムは解釈可能性に欠け、高次元と不均衡なデータを扱う。 本稿では,これらの制約に対処する新しい類似性に基づく解釈可能な近接探索アルゴリズムSPINEXを提案する。 このアルゴリズムは、アンサンブル学習と特徴インタラクション分析を組み合わせて、各特徴の予測への寄与を定量化し、特徴間の相互作用を識別することにより、正確な予測と有意義な洞察を実現する。 SPINEXの性能を評価するため,回帰処理と分類処理の両方において59種類の合成データセットと実データセットについて広範な実験を行った。 その結果、SPINEXは比較性能を達成でき、いくつかのシナリオでは、一般的に採用されているMLアルゴリズムよりも優れていることが示された。 同じ知見はSPINEXの有効性と競争力を示し、様々な実世界のアプリケーションに有望なアプローチである。

The field of machine learning (ML) has witnessed significant advancements in recent years. However, many existing algorithms lack interpretability and struggle with high-dimensional and imbalanced data. This paper proposes SPINEX, a novel similarity-based interpretable neighbor exploration algorithm designed to address these limitations. This algorithm combines ensemble learning and feature interaction analysis to achieve accurate predictions and meaningful insights by quantifying each feature's contribution to predictions and identifying interactions between features, thereby enhancing the interpretability of the algorithm. To evaluate the performance of SPINEX, extensive experiments on 59 synthetic and real datasets were conducted for both regression and classification tasks. The results demonstrate that SPINEX achieves comparative performance and, in some scenarios, may outperform commonly adopted ML algorithms. The same findings demonstrate the effectiveness and competitiveness of SPINEX, making it a promising approach for various real-world applications.
翻訳日:2023-06-05 18:30:29 公開日:2023-06-01
# Tsetlin マシンを用いたオンライン学習のためのFPGAアーキテクチャ

An FPGA Architecture for Online Learning using the Tsetlin Machine ( http://arxiv.org/abs/2306.01027v1 )

ライセンス: Link先を確認
Samuel Prescott and Adrian Wheeldon and Rishad Shafik and Tousif Rahman and Alex Yakovlev and Ole-Christoffer Granmo(参考訳) 教師なしの状況下で進化する機械学習モデルが必要である。 新たな分類が導入されたり、予期せぬ故障が発生したり、データセットが正常な操作中にシステムに提示されるデータポイントに比べて小さい場合があります。 ニューラルネットワークを用いたこのようなシステムの実装には、重要な数学的複雑さが伴う。 本稿では,オンライン学習のための新しいフィールドプログラミング可能なゲートアレイ基盤を提案し,tsetlin machineと呼ばれる低複雑さ機械学習アルゴリズムを実装した。 このインフラストラクチャは、ランタイム学習管理のためのカスタム設計のアーキテクチャを備え、オンチップのオフラインおよびオンライン学習を提供する。 このアーキテクチャを使用すると、推論が行われる前に、事前に分類されたデータで \ac{FPGA} 上でオンデマンドでトレーニングを実行することができる。 さらに、我々のアーキテクチャはオンライン学習を提供し、そこではトレーニングを運用中に推論とインターリーブすることができる。 Tsetlin Machine (TM) のトレーニングは、TMがさらにトレーニングされるにつれてフィードバックを発行する確率を減らすために使用される閾値ハイパーパラメータにも関連付けられる。 提案するアーキテクチャはモジュール化され、データ入力ソースの変更が容易になる一方で、組み込みのクロスバリデーションインフラストラクチャでは、システムテスト中に信頼性と代表的な結果が得られる。 提案するインフラを用いたオンライン学習のユースケースについて,エネルギー/性能/精度のトレードオフを実証する。

There is a need for machine learning models to evolve in unsupervised circumstances. New classifications may be introduced, unexpected faults may occur, or the initial dataset may be small compared to the data-points presented to the system during normal operation. Implementing such a system using neural networks involves significant mathematical complexity, which is a major issue in power-critical edge applications. This paper proposes a novel field-programmable gate-array infrastructure for online learning, implementing a low-complexity machine learning algorithm called the Tsetlin Machine. This infrastructure features a custom-designed architecture for run-time learning management, providing on-chip offline and online learning. Using this architecture, training can be carried out on-demand on the \ac{FPGA} with pre-classified data before inference takes place. Additionally, our architecture provisions online learning, where training can be interleaved with inference during operation. Tsetlin Machine (TM) training naturally descends to an optimum, with training also linked to a threshold hyper-parameter which is used to reduce the probability of issuing feedback as the TM becomes trained further. The proposed architecture is modular, allowing the data input source to be easily changed, whilst inbuilt cross-validation infrastructure allows for reliable and representative results during system testing. We present use cases for online learning using the proposed infrastructure and demonstrate the energy/performance/accuracy trade-offs.
翻訳日:2023-06-05 18:30:13 公開日:2023-06-01
# 相対論的量子力学の新しい時空間アプローチによる量子計測の謎の解明

Unraveling the Mystery of Quantum Measurement with A New Space-Time Approach to Relativistic Quantum Mechanics ( http://arxiv.org/abs/2306.01026v1 )

ライセンス: Link先を確認
Wei Wen(参考訳) 量子計測は量子力学の分野における基本的な概念である。 量子計測の作用は、測定された量子系の重畳状態が一定の出力状態へと導かれるため、量子力学と古典力学の矛盾を解消するだけでなく、読み書きを含む量子状態の操作を促進する。 その重要性にもかかわらず、ランダム性、瞬時性、非可逆性、好ましくないという4つの根本的な問題は、量子測定の幅広い応用と量子力学の総合的な理解に重大な課題をもたらし続けている。 本研究では,相対論的量子力学に新しい時空アプローチを適用し,この問題を体系的に解決する。 このアプローチは、量子計測と量子ユニタリ進化の複雑な関係の包括的解明と、非局所相関と相対論的理論の相互依存性の深い解析を提供する。 これにより、量子力学における伝統的な時間発展方程式を超えて、より基本的な力学理論が明らかにされ、量子測定の公理が自然に系として現れる。 これらの知見は関連分野の発展に寄与し、量子力学の分野における将来の研究と応用に潜在的に示唆されている。

Quantum measurement is a fundamental concept in the field of quantum mechanics. The action of quantum measurement, leading the superposition state of the measured quantum system into a definite output state, not only reconciles contradictions between quantum and classical mechanics but also facilitates quantum state manipulations, including reading and resetting. Despite its significance, four fundamental issues -- randomness, instantaneousness, irreversibility, and preferred-basis -- continue to pose significant challenges to the broader application of quantum measurement and our overall understanding of quantum mechanics. In this work, we employ a new space-time approach to relativistic quantum mechanics to address these issues systematically. Our approach provides a comprehensive elucidation of the intricate connections between quantum measurement and quantum unitary evolution, as well as an in-depth analysis for the interdependence of non-local correlations and relativistic theories. We thereby reveal a more fundamental dynamical theory, beyond the traditional time-evolution equation in quantum mechanics, where the axioms of quantum measurement naturally emerge as a corollary. These findings contribute to the advancement of related fields, and our work holds potential implications for future research and applications in the realm of quantum mechanics.
翻訳日:2023-06-05 18:29:49 公開日:2023-06-01
# ビトゥルフォース型スウォームアルゴリズムによるバランスの取れた円形バンドル問題の解法

A Vitual-Force Based Swarm Algorithm for Balanced Circular Bin Packing Problems ( http://arxiv.org/abs/2306.01021v1 )

ライセンス: Link先を確認
Juliette Gamot, Mathieu Balesdent, Romain Wuilbercq, Arnault Tremolet, Nouredine Melab, El-Ghazali Talbi(参考訳) バランスの取れた円形ビンパッキング問題は、平衡制約を満たすとともに、円形容器の半径を最小化するために、所定の数の重み付き円を配置することである。 これらの問題はNPハードで、非常に制約があり、次元である。 本稿では,バランスの取れた円ビン充填問題を解くために,仮想力システムに基づくスウォームアルゴリズムを提案する。 提案手法では,各コンポーネントに力の系を適用し,制約を考慮し,動力学の基本原理を用いて目的関数を最小化する。 提案アルゴリズムは,最大300円のバランスの取れた円箱包装問題のベンチマークを用いて実験・検証を行った。 報告された結果から,提案手法の有効性を文献による既存の結果と比較して評価することができる。

Balanced circular bin packing problems consist in positioning a given number of weighted circles in order to minimize the radius of a circular container while satisfying equilibrium constraints. These problems are NP-hard, highly constrained and dimensional. This paper describes a swarm algorithm based on a virtual-force system in order to solve balanced circular bin packing problems. In the proposed approach, a system of forces is applied to each component allowing to take into account the constraints and minimizing the objective function using the fundamental principle of dynamics. The proposed algorithm is experimented and validated on benchmarks of various balanced circular bin packing problems with up to 300 circles. The reported results allow to assess the effectiveness of the proposed approach compared to existing results from the literature.
翻訳日:2023-06-05 18:29:27 公開日:2023-06-01
# 自然言語理解のための変圧器の量子化とテンソル圧縮訓練

Quantization-Aware and Tensor-Compressed Training of Transformers for Natural Language Understanding ( http://arxiv.org/abs/2306.01076v1 )

ライセンス: Link先を確認
Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang(参考訳) 微調整トランスフォーマーモデルは、多くの自然言語タスクにおいて優れた性能を示している。 しかし、大きなモデルサイズは、リソース制約のあるデバイスに高性能トランスフォーマーモデルを展開することを禁止している。 本稿では,モデルサイズ,演算演算,最終的にトランスフォーマーモデルの実行待ち時間を削減するために,量子化認識テンソル圧縮トレーニング手法を提案する。 我々はトランスの埋め込み層と線形層を小さな低ランクテンソルコアに圧縮し、モデルパラメータを著しく削減する。 テンソル圧縮モデルの低精度表現を得るために、学習可能なスケール因子を用いた量子化アウェアトレーニングを用いる。 開発されたアプローチは、エンドツーエンドのトレーニングと蒸留ベースのトレーニングの両方に使用できる。 収束性を向上させるため, 既訓練変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。 パフォーマンスは2つの自然言語理解タスクで実証され、最大63\times$の圧縮率、精度の低下、驚くべき推論とトレーニングのスピードアップが示される。

Fine-tuned transformer models have shown superior performances in many natural language tasks. However, the large model size prohibits deploying high-performance transformer models on resource-constrained devices. This paper proposes a quantization-aware tensor-compressed training approach to reduce the model size, arithmetic operations, and ultimately runtime latency of transformer-based models. We compress the embedding and linear layers of transformers into small low-rank tensor cores, which significantly reduces model parameters. A quantization-aware training with learnable scale factors is used to further obtain low-precision representations of the tensor-compressed models. The developed approach can be used for both end-to-end training and distillation-based training. To improve the convergence, a layer-by-layer distillation is applied to distill a quantized and tensor-compressed student model from a pre-trained transformer. The performance is demonstrated in two natural language understanding tasks, showing up to $63\times$ compression ratio, little accuracy loss and remarkable inference and training speedup.
翻訳日:2023-06-05 18:23:24 公開日:2023-06-01
# 3次元キーポイントを用いた歩行者横断行動認識と軌道予測

Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D Human Keypoints ( http://arxiv.org/abs/2306.01075v1 )

ライセンス: Link先を確認
Jiachen Li, Xinwei Shi, Feiyu Chen, Jonathan Stroud, Zhishuai Zhang, Tian Lan, Junhua Mao, Jeonhyung Kang, Khaled S. Refaat, Weilong Yang, Eugene Ie, Congcong Li(参考訳) 人間の行動の正確な理解と予測は自動運転車にとって重要な前提条件であり、特に密集した都市部の交差点のような高度にダイナミックでインタラクティブなシナリオでは重要である。 本研究は,横断歩行者の識別と今後の軌跡の予測を目的とする。 これらの目的を達成するためには,道路形状や交通参加者の文脈情報だけでなく,人間の行動や動き,行動など,人間のキーポイントから推測できる詳細な情報も必要である。 本稿では,センサデータから抽出した3次元キーポイントを用いて,歩行者横断行動認識と軌跡予測のためのマルチタスク学習フレームワークを提案する。 さらに,2つの補助タスクと対照学習を適用し,補助監督による学習キーポイント表現の改善を可能にし,主要なタスクの性能をさらに高めることを提案する。 当社のアプローチは,大規模社内データセットと公開ベンチマークデータセット上で検証し,幅広い評価指標で最先端のパフォーマンスを実現することを実証する。 各モデル成分の有効性を詳細なアブレーション研究で検証する。

Accurate understanding and prediction of human behaviors are critical prerequisites for autonomous vehicles, especially in highly dynamic and interactive scenarios such as intersections in dense urban areas. In this work, we aim at identifying crossing pedestrians and predicting their future trajectories. To achieve these goals, we not only need the context information of road geometry and other traffic participants but also need fine-grained information of the human pose, motion and activity, which can be inferred from human keypoints. In this paper, we propose a novel multi-task learning framework for pedestrian crossing action recognition and trajectory prediction, which utilizes 3D human keypoints extracted from raw sensor data to capture rich information on human pose and activity. Moreover, we propose to apply two auxiliary tasks and contrastive learning to enable auxiliary supervisions to improve the learned keypoints representation, which further enhances the performance of major tasks. We validate our approach on a large-scale in-house dataset, as well as a public benchmark dataset, and show that our approach achieves state-of-the-art performance on a wide range of evaluation metrics. The effectiveness of each model component is validated in a detailed ablation study.
翻訳日:2023-06-05 18:23:07 公開日:2023-06-01
# 階層型注意エンコーダデコーダ

Hierarchical Attention Encoder Decoder ( http://arxiv.org/abs/2306.01070v1 )

ライセンス: Link先を確認
Asier Mujika(参考訳) 近年の大規模言語モデルの進歩により、自己回帰モデリングは多くの実世界のアプリケーションを持つ複雑で新しいシーケンスを生成することができる。 しかし、これらのモデルはアウトプットを自動回帰的に生成し、長いシーケンスを扱うのに時間がかかる。 圧縮データを圧縮する階層的自己回帰的アプローチが提案されているが、これらの手法は依然として元のデータ周波数で出力を生成し、低速かつメモリ集約的なモデルとなる。 本稿では,階層型再帰エンコーダデコーダ(hred)アーキテクチャに基づくモデルを提案する。 このモデルは、グローバルコンテキストのない入力サブシーケンスを独立に符号化し、これらのシーケンスを低周波モデルを用いて処理し、元のデータ周波数で出力を復号する。 エンコーダを暗黙的に定義された埋め込み行列として解釈し、サンプルソフトマックス推定を用いて、階層的アプローチの最もメモリと計算集約的な部分である高周波デコーダを使わずにモデル全体を訓練できる訓練アルゴリズムを開発する。 最後の短いフェーズでは、デコーダをトレーニングして、元の粒度でデータを生成する。 本アルゴリズムは,自己回帰モデルの学習に必要なメモリを著しく削減し,また,壁面の総時間も改善する。

Recent advances in large language models have shown that autoregressive modeling can generate complex and novel sequences that have many real-world applications. However, these models must generate outputs autoregressively, which becomes time-consuming when dealing with long sequences. Hierarchical autoregressive approaches that compress data have been proposed as a solution, but these methods still generate outputs at the original data frequency, resulting in slow and memory-intensive models. In this paper, we propose a model based on the Hierarchical Recurrent Encoder Decoder (HRED) architecture. This model independently encodes input sub-sequences without global context, processes these sequences using a lower-frequency model, and decodes outputs at the original data frequency. By interpreting the encoder as an implicitly defined embedding matrix and using sampled softmax estimation, we develop a training algorithm that can train the entire model without a high-frequency decoder, which is the most memory and compute-intensive part of hierarchical approaches. In a final, brief phase, we train the decoder to generate data at the original granularity. Our algorithm significantly reduces memory requirements for training autoregressive models and it also improves the total training wall-clock time.
翻訳日:2023-06-05 18:22:50 公開日:2023-06-01
# TimelineQA: タイムラインに対する質問回答のベンチマーク

TimelineQA: A Benchmark for Question Answering over Timelines ( http://arxiv.org/abs/2306.01069v1 )

ライセンス: Link先を確認
Wang-Chiew Tan, Jane Dwivedi-Yu, Yuliang Li, Lambert Mathias, Marzieh Saeidi, Jing Nathan Yan, Alon Y. Halevy(参考訳) ライフログ(Lifelog)とは、人生で経験した経験を記述したものである。 lifelogsは、オンライン写真、地図、ショッピング、コンテンツストリーミングサービスなど、多数のデジタルサービスからのデータを使って作成される。 ライフログに対する質問応答は、文脈でアドバイスを提供しようとするときに、パーソナルアシスタントに重要なリソースを提供する。 しかしながら、ライフログに関する質問に対する回答を得ることは、様々な理由から質問応答技術の現状を超えており、最も顕著なのは、ライフログが自由テキストと時間的・地理的情報といったある程度の構造を結合していることである。 ライフログのクエリの進捗を加速するベンチマークであるTimelineQA1を作成した。 TimelineQAは想像上の人々のライフログを生成する。 ライフログのエピソードは、高校卒業などの主要な人生のエピソードから、走りに行くなど日常的に起こるエピソードまで様々である。 本稿では,いくつかの最先端QAモデルを用いたTimelineQA実験について述べる。 実験の結果,原子クエリでは,抽出QAシステムは最先端の検索拡張QAシステムよりも大幅に優れていた。 集約を含むマルチホップクエリでは,回答を導出するエピソードの根本的真理セットが利用可能であることを前提として,最先端のテーブルQA技術を用いて最良の結果が得られることを示す。

Lifelogs are descriptions of experiences that a person had during their life. Lifelogs are created by fusing data from the multitude of digital services, such as online photos, maps, shopping and content streaming services. Question answering over lifelogs can offer personal assistants a critical resource when they try to provide advice in context. However, obtaining answers to questions over lifelogs is beyond the current state of the art of question answering techniques for a variety of reasons, the most pronounced of which is that lifelogs combine free text with some degree of structure such as temporal and geographical information. We create and publicly release TimelineQA1, a benchmark for accelerating progress on querying lifelogs. TimelineQA generates lifelogs of imaginary people. The episodes in the lifelog range from major life episodes such as high school graduation to those that occur on a daily basis such as going for a run. We describe a set of experiments on TimelineQA with several state-of-the-art QA models. Our experiments reveal that for atomic queries, an extractive QA system significantly out-performs a state-of-the-art retrieval-augmented QA system. For multi-hop queries involving aggregates, we show that the best result is obtained with a state-of-the-art table QA technique, assuming the ground truth set of episodes for deriving the answer is available.
翻訳日:2023-06-05 18:22:29 公開日:2023-06-01
# シリコンフォトニックチップ上の量子状態の忠実度推定

Fidelity estimation of quantum states on a silicon photonic chip ( http://arxiv.org/abs/2306.01068v1 )

ライセンス: Link先を確認
Sabine Wollmann, Xiaogang Qiang, Ashley Montanaro, Noah Linden, and Jonathan C.F. Matthews(参考訳) 2つの量子状態の「近接性」の尺度として、忠実性は量子情報理論において基本的な役割を果たす。 忠実度推定プロトコルは、実験から得られた情報と、その実装の効率のバランスを、プロトコルが消費する状態の数の観点から取ろうとする。 ここでは、2量子状態の忠実度推定のために、以前に報告された最適状態検証プロトコル(Phys. Rev. 120, 170502, 2018)を適用する。 完全プログラム可能なシリコンフォトニック2量子ビットチップを用いて実験を行った。 提案プロトコルは、他の広く使われている推定プロトコルと比較して、ポイント推定の誤差バーを著しく小さくし、実用的な装置によって生成された量子状態の忠実度を推定する能力の明確な進歩を示す。

As a measure of the 'closeness' of two quantum states, fidelity plays a fundamental role in quantum information theory. Fidelity estimation protocols try to strike a balance between information gleaned from an experiment, and the efficiency of its implementation, in terms of the number of states consumed by the protocol. Here we adapt a previously reported optimal state verification protocol (Phys. Rev. Lett. 120, 170502, 2018) for fidelity estimation of two-qubit states. We demonstrate the protocol experimentally using a fully-programmable silicon photonic two-qubit chip. Our protocol outputs significantly smaller error bars of its point estimate in comparison with another widely-used estimation protocol, showing a clear step forward in the ability to estimate the fidelity of quantum states produced by a practical device.
翻訳日:2023-06-05 18:22:09 公開日:2023-06-01
# 監視量子イジング鎖における偽真空崩壊に対するモンテカルロ行列生成状態のアプローチ

Monte Carlo matrix-product-state approach to the false vacuum decay in the monitored quantum Ising chain ( http://arxiv.org/abs/2306.01067v1 )

ライセンス: Link先を確認
Jeff Maki, Anna Berti, Iacopo Carusotto, Alberta Biella(参考訳) 本研究では, 強磁性量子イジング鎖の局所磁化の連続的なモニタリングにより, 弱長手磁場下での真空崩壊を特徴付ける。 準安定状態, 偽真空でシステムを初期化することにより, 真真空の共鳴気泡を生成するコヒーレントダイナミクスと, 熱を誘導し量子相関の量を減少させる測定との競合について検討する。 この目的のために, 行列積状態と確率的量子軌道との組合せに基づく数値的手法を応用し, 連続的測定の存在下で相互作用する多体系の軌道分解非平衡ダイナミクスのシミュレーションを可能にする。 測定値の存在が真空崩壊にどのように影響するかを示す。短時間で局所的な最小値からの離脱が加速され、長い時間でシステムは無限温度の非コヒーレント混合物に熱化する。 大きな測定レートでは、システムは量子ゼノレジームに入る。 擬似真空崩壊と熱化物理学は、磁化、連結相関関数、軌道分解エントロピーによって特徴づけられる。

In this work we characterize the false vacuum decay in the ferromagnetic quantum Ising chain with a weak longitudinal field subject to continuous monitoring of the local magnetization. Initializing the system in a metastable state, the false vacuum, we study the competition between coherent dynamics, which tends to create resonant bubbles of the true vacuum, and measurements which induce heating and reduce the amount of quantum correlations. To this end we exploit a numerical approach based on the combination of matrix product states with stochastic quantum trajectories which allows for the simulation of the trajectory-resolved non-equilibrium dynamics of interacting many-body systems in the presence of continuous measurements. We show how the presence of measurements affects the false vacuum decay: at short times the departure from the local minimum is accelerated while at long times the system thermalizes to an infinite-temperature incoherent mixture. For large measurement rates the system enters a quantum Zeno regime. The false vacuum decay and the thermalization physics are characterized in terms of the magnetization, connected correlation function, and the trajectory-resolved entanglement entropy.
翻訳日:2023-06-05 18:21:55 公開日:2023-06-01
# 深部補強学習によるモリス水迷路の航法戦略の検討

Investigating Navigation Strategies in the Morris Water Maze through Deep Reinforcement Learning ( http://arxiv.org/abs/2306.01066v1 )

ライセンス: Link先を確認
Andrew Liu, Alla Borisyuk(参考訳) ナビゲーションは、動物と人間の長い研究の歴史を持つ複雑な技術である。 本研究では,モリス水迷路を2次元でシミュレートし,深層強化学習エージェントを訓練する。 ナビゲーション戦略の自動分類を行い, 人工エージェントが使用する戦略の分布を解析し, 実験データと比較し, 人間やげっ歯類に見られるような学習動態を示す。 環境特異的な補助タスクを開発し,その有用性に影響を与える要因を検討する。 我々は、最も有益なタスクは、実際のエージェントの使用がより生物学的に可能であることを示唆する。 最後に,人工エージェントニューラルネットワークの活性化における内部表現の開発について検討する。 これらの表現はマウスの脳にある場所細胞や頭部指向細胞に似ており、それらの存在は人工エージェントが採用するナビゲーション戦略と相関している。

Navigation is a complex skill with a long history of research in animals and humans. In this work, we simulate the Morris Water Maze in 2D to train deep reinforcement learning agents. We perform automatic classification of navigation strategies, analyze the distribution of strategies used by artificial agents, and compare them with experimental data to show similar learning dynamics as those seen in humans and rodents. We develop environment-specific auxiliary tasks and examine factors affecting their usefulness. We suggest that the most beneficial tasks are potentially more biologically feasible for real agents to use. Lastly, we explore the development of internal representations in the activations of artificial agent neural networks. These representations resemble place cells and head-direction cells found in mouse brains, and their presence has correlation to the navigation strategies that artificial agents employ.
翻訳日:2023-06-05 18:21:38 公開日:2023-06-01
# 検索用拡張言語モデルの再検討

Reimagining Retrieval Augmented Language Models for Answering Queries ( http://arxiv.org/abs/2306.01061v1 )

ライセンス: Link先を確認
Wang-Chiew Tan, Yuliang Li, Pedro Rodriguez, Richard James, Xi Victoria Lin, Alon Halevy, Scott Yih(参考訳) 本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。 このような言語モデルは半パラメトリックであり、モデルが外部データソースからのモデルパラメータと知識を統合して予測を行う。 半パラメトリックアーキテクチャは、ビュー、クエリアナライザ/プランナ、および証明によって拡張され、精度と効率の点でより強力な質問応答システムを実現し、また他のNLPタスクにも適用可能であるという最初の実験結果を与える。

We present a reality check on large language models and inspect the promise of retrieval augmented language models in comparison. Such language models are semi-parametric, where models integrate model parameters and knowledge from external data sources to make their predictions, as opposed to the parametric nature of vanilla large language models. We give initial experimental findings that semi-parametric architectures can be enhanced with views, a query analyzer/planner, and provenance to make a significantly more powerful system for question answering in terms of accuracy and efficiency, and potentially for other NLP tasks
翻訳日:2023-06-05 18:21:25 公開日:2023-06-01
# モチベーション半古典重力:二成分量子系に対する古典量子近似

Motivating semiclassical gravity: a classical-quantum approximation for bipartite quantum systems ( http://arxiv.org/abs/2306.01060v1 )

ライセンス: Link先を確認
Viqar Husain, Irfan Javed, Sanjeev S. Seahra, and Nomaan X(参考訳) 完全量子力学から2成分量子系の広いクラスに対する「古典量子」近似スキームを導出する。 この近似では、1つのサブシステムは量子補正を伴う古典的な運動方程式によって進化し、もう1つのサブシステムは古典的な自由度によって伝達される運動方程式によって量子力学的に進化する。 摂動理論を用いて、サブシステムの絡み合いの増大率を推定し、サブシステムが初期製品状態から著しく絡み合うのに必要な時間を「スクランブルタイム」と推定する。 古典量子近似の妥当性に必要条件は、初期データの一般化されたボーア対応原理との整合性である。 非線形結合を持つ2つの振動子系の完全量子、完全古典、および古典量子力学を数値的に研究することで、一般形式性を説明する。 このシステムはパラメトリック共鳴を呈し、量子効果が後期のパラメトリック共鳴を焼成することを示す。 最後に、相互作用する発振器系のフォン・ノイマン絡み合いの平均値と、その総エネルギーとの興味深い深夜スケーリング関係を示す:$S\sim 2/3 \ln E$。

We derive a "classical-quantum" approximation scheme for a broad class of bipartite quantum systems from fully quantum dynamics. In this approximation, one subsystem evolves via classical equations of motion with quantum corrections, and the other subsystem evolves quantum mechanically with equations of motion informed by the evolving classical degrees of freedom. Using perturbation theory, we derive an estimate for the growth rate of entanglement of the subsystems and deduce a "scrambling time" - the time required for the subsystems to become significantly entangled from an initial product state. We argue that a necessary condition for the validity of the classical-quantum approximation is consistency of initial data with the generalized Bohr correspondence principle. We illustrate the general formalism by numerically studying the fully quantum, fully classical, and classical-quantum dynamics of a system of two oscillators with nonlinear coupling. This system exhibits parametric resonance, and we show that quantum effects quench parametric resonance at late times. Lastly, we present a curious late-time scaling relation between the average value of the von Neumann entanglement of the interacting oscillator system and its total energy: $S\sim 2/3 \ln E$.
翻訳日:2023-06-05 18:21:15 公開日:2023-06-01
# Layout-Infused Language ModelsはLayout Distribution Shiftsにロバストか? 科学文書を用いた事例研究

Are Layout-Infused Language Models Robust to Layout Distribution Shifts? A Case Study with Scientific Documents ( http://arxiv.org/abs/2306.01058v1 )

ライセンス: Link先を確認
Catherine Chen, Zejiang Shen, Dan Klein, Gabriel Stanovsky, Doug Downey and Kyle Lo(参考訳) 近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。 レイアウトを融合したlmmは、慣れ親しんだレイアウト機能を持つ文書(例えば、同じ出版社の論文)で評価されることが多いが、実際には、テキストサイズやスタイルの新しい組み合わせ、テキスト要素の新しい空間構成など、レイアウト特徴の見慣れない分布を持つ文書に遭遇する。 本研究は,レイアウト注入型LMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。 ケーススタディとして、科学論文をその構造カテゴリ(例えば、「タイトル」、「捕獲」、「参照」など)に分割し、科学的文書構造回復のタスクを用いる。 実際に発生する分散シフトをエミュレートするために、GROTOAP2データセットを再分割する。 レイアウト分布下では,モデル性能が最大20 f1に低下することがわかった。 トレーニング多様性の増大のような単純なトレーニング戦略は、この劣化を35%以上の相対f1で減少させることができるが、実験済みのアウトオブディストリビューション条件では、モデルが分散性能に達しない。 本研究は,モデル評価中にレイアウト分布のシフトを考慮する必要性を浮き彫りにして,その評価を行う方法論を提案する。

Recent work has shown that infusing layout features into language models (LMs) improves processing of visually-rich documents such as scientific papers. Layout-infused LMs are often evaluated on documents with familiar layout features (e.g., papers from the same publisher), but in practice models encounter documents with unfamiliar distributions of layout features, such as new combinations of text sizes and styles, or new spatial configurations of textual elements. In this work we test whether layout-infused LMs are robust to layout distribution shifts. As a case study we use the task of scientific document structure recovery, segmenting a scientific paper into its structural categories (e.g., "title", "caption", "reference"). To emulate distribution shifts that occur in practice we re-partition the GROTOAP2 dataset. We find that under layout distribution shifts model performance degrades by up to 20 F1. Simple training strategies, such as increasing training diversity, can reduce this degradation by over 35% relative F1; however, models fail to reach in-distribution performance in any tested out-of-distribution conditions. This work highlights the need to consider layout distribution shifts during model evaluation, and presents a methodology for conducting such evaluations.
翻訳日:2023-06-05 18:20:56 公開日:2023-06-01
# インターネットをどう消したか

How We Ruined The Internet ( http://arxiv.org/abs/2306.01101v1 )

ライセンス: Link先を確認
Micah Beck Terry Moore(参考訳) 19世紀末、論理学者のC・S・パース(英語版)は「我々の知識は絶対ではなく、常に泳いでいるという教義」を「不確実性と不確定性の連続体」と定義した。 科学的実践の観点では、我々は仮定、証拠、そしてその後の経験が疑わしい結論のための議論を再検討する義務を負うことになる。 本稿では,インターネットアーキテクチャ開発の基盤となるもの,すなわち疎同期のポイント・ツー・ポイント・データグラム配信サービスが,世界規模でコンテンツやサービスを配信するアプリケーションを含むすべてのネットワークアプリケーションのニーズを十分に満たすことができるという仮定を検討する。 このような非同期・ポイント・ツー・マルチポイント・アプリケーションをサポートするための公開かつ手頃なメカニズムをネットワークコミュニティが提供できないことが,CDNやクラウドネットワークといったプライベート・オーバーレイ・インフラストラクチャの開発につながったかを検討する。 これらの初期目標と過大なオーバーレイインフラストラクチャーオペレータの独占的商業命令との矛盾は、最も利益率の高いアプリケーション(ソーシャルメディアなど)と戦略(ターゲット広告など)の負の影響によって生じる明らかな矛盾の重要な理由である、と我々は主張する。 我々は、パースの処方則に従って、この矛盾を解決することは、深い仮定を再考することによってのみ解決できると提案する。

At the end of the 19th century the logician C.S. Peirce coined the term "fallibilism" for the "... the doctrine that our knowledge is never absolute but always swims, as it were, in a continuum of uncertainty and of indeterminacy". In terms of scientific practice, this means we are obliged to reexamine the assumptions, the evidence, and the arguments for conclusions that subsequent experience has cast into doubt. In this paper we examine an assumption that underpinned the development of the Internet architecture, namely that a loosely synchronous point-to-point datagram delivery service could adequately meet the needs of all network applications, including those which deliver content and services to a mass audience at global scale. We examine how the inability of the Networking community to provide a public and affordable mechanism to support such asynchronous point-to-multipoint applications led to the development of private overlay infrastructure, namely CDNs and Cloud networks, whose architecture stands at odds with the Open Data Networking goals of the early Internet advocates. We argue that the contradiction between those initial goals and the monopolistic commercial imperatives of hypergiant overlay infrastructure operators is an important reason for the apparent contradiction posed by the negative impact of their most profitable applications (e.g., social media) and strategies (e.g., targeted advertisement). We propose that, following the prescription of Peirce, we can only resolve this contradiction by reconsidering some of our deeply held assumptions.
翻訳日:2023-06-05 18:13:03 公開日:2023-06-01
# ALO-VC:低遅延音声変換

ALO-VC: Any-to-any Low-latency One-shot Voice Conversion ( http://arxiv.org/abs/2306.01100v1 )

ライセンス: Link先を確認
Bohan Wang, Damien Ronssin, Milos Cernak(参考訳) 本稿では,非並列低遅延1ショット音声後部グラフ(PPG)に基づく音声変換手法であるALO-VCを提案する。 ALO-VCは、ターゲット話者からの1つの発声のみを使用して、任意の音声変換を可能にする。 提案するハイブリッド信号処理と機械学習パイプラインは、事前学習された話者エンコーダと、変換音声の韻律を予測するピッチ予測器と、音素の位置情報を伝える位置符号化を組み合わせたものである。 本稿では,事前学習したd-vector話者エンコーダを使用するALO-VC-Rと,ECAPA-TDNN話者エンコーダを用いた性能改善を行うALO-VC-Eの2つのシステムバージョンを紹介する。 ALO-VC-RとALO-VC-Eの両方が、VCTKデータセットと2つの外部データセットの非因果ベースラインシステムに匹敵する性能を達成できることを示す実験結果が得られた。 さらに、どちらのシステムも、55msのレイテンシと 0.78リアルタイムファクタを持つ単一のcpuコアにデプロイできる。 デモはオンラインで公開しています。

This paper presents ALO-VC, a non-parallel low-latency one-shot phonetic posteriorgrams (PPGs) based voice conversion method. ALO-VC enables any-to-any voice conversion using only one utterance from the target speaker, with only 47.5 ms future look-ahead. The proposed hybrid signal processing and machine learning pipeline combines a pre-trained speaker encoder, a pitch predictor to predict the converted speech's prosody, and positional encoding to convey the phoneme's location information. We introduce two system versions: ALO-VC-R, which uses a pre-trained d-vector speaker encoder, and ALO-VC-E, which improves performance using the ECAPA-TDNN speaker encoder. The experimental results demonstrate both ALO-VC-R and ALO-VC-E can achieve comparable performance to non-causal baseline systems on the VCTK dataset and two out-of-domain datasets. Furthermore, both proposed systems can be deployed on a single CPU core with 55 ms latency and 0.78 real-time factor. Our demo is available online.
翻訳日:2023-06-05 18:12:32 公開日:2023-06-01
# 涙のない高速な行列乗算:制約プログラミングアプローチ

Fast Matrix Multiplication Without Tears: A Constraint Programming Approach ( http://arxiv.org/abs/2306.01097v1 )

ライセンス: Link先を確認
Arnaud Deza, Chang Liu, Pashootan Vaezipoor, Elias B. Khalil(参考訳) $N \times M$行列と$M \times P$行列の乗算は、単純な$NMP$アプローチが示唆するよりも少ない乗算で行うことが知られている。 最も有名な例はストラッセンのアルゴリズムで、8つの乗法の代わりに 2$ 2$ の行列を 7 で乗算する。 これにより、高速行列乗法における制約満足度問題が発生し、出力行列上の正しさ制約を満たすために、$R < NMP$ 乗法項の集合を選択して組み合わせなければならない。 組み合わせ性が高いにもかかわらず、最近のAlphaTensorの深層強化学習アプローチのように、この問題は、その観点から徹底的に検討されていない。 本研究では, 高速行列乗算のための非可換アルゴリズムや, 非可換性を証明するための制約プログラミング手法を提案する。 本稿では, 対称性を破る制約と有効不等式を提案する。 実現可能な面では、スパース性に基づく問題分解と組み合わせた解法性能変動の活用により、高速行列乗算のより大きな(実現可能な)インスタンスの解を見つけることができる。 cpオプティマイザを用いた実験結果から,行列の高速行列乗算アルゴリズムを,短時間で3-\times 3$まで得ることができた。

It is known that the multiplication of an $N \times M$ matrix with an $M \times P$ matrix can be performed using fewer multiplications than what the naive $NMP$ approach suggests. The most famous instance of this is Strassen's algorithm for multiplying two $2\times 2$ matrices in 7 instead of 8 multiplications. This gives rise to the constraint satisfaction problem of fast matrix multiplication, where a set of $R < NMP$ multiplication terms must be chosen and combined such that they satisfy correctness constraints on the output matrix. Despite its highly combinatorial nature, this problem has not been exhaustively examined from that perspective, as evidenced for example by the recent deep reinforcement learning approach of AlphaTensor. In this work, we propose a simple yet novel Constraint Programming approach to find non-commutative algorithms for fast matrix multiplication or provide proof of infeasibility otherwise. We propose a set of symmetry-breaking constraints and valid inequalities that are particularly helpful in proving infeasibility. On the feasible side, we find that exploiting solver performance variability in conjunction with a sparsity-based problem decomposition enables finding solutions for larger (feasible) instances of fast matrix multiplication. Our experimental results using CP Optimizer demonstrate that we can find fast matrix multiplication algorithms for matrices up to $3\times 3$ in a short amount of time.
翻訳日:2023-06-05 18:12:12 公開日:2023-06-01
# 大バッチ・ニューラル多目的ベイズ最適化

Large-Batch, Neural Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2306.01095v1 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) ベイズ最適化はブラックボックスと高価な評価関数のグローバル最適化のための強力なフレームワークを提供する。 しかし、デフォルトのガウスプロセスサロゲートのスケーラビリティが低かったため、特に多目的設定において、データ集約的な問題を扱う能力に制限がある。 これらの制約に対処するための新しいベイズ最適化フレームワークを提案する。 本手法は,ベイズ型ニューラルネットワークを用いてサロゲートモデリングを行う。 これにより、大量のデータを効率的に処理し、複雑な問題をモデル化し、予測の不確実性を生成することができる。 さらに,提案手法は,よく知られた,容易にデプロイ可能なNSGA-IIに基づく,スケーラブルで不確実性を考慮した買収戦略を取り入れている。 この完全並列化戦略は、未編入領域の効率的な探索を促進する。 我々のフレームワークは、最小限のイテレーション数でデータ集約環境における効果的な最適化を可能にします。 本手法を最先端の多目的最適化と比較し,その優越性を示す。 実世界の2つの問題であるエアフォイルデザインとカラー印刷について評価を行い,提案手法の適用性と効率性を示す。 コードは、https://github.com/an-on-ym-ous/lbn\_moboで入手できる。

Bayesian optimization provides a powerful framework for global optimization of black-box, expensive-to-evaluate functions. However, it has a limited capacity in handling data-intensive problems, especially in multi-objective settings, due to the poor scalability of default Gaussian Process surrogates. We present a novel Bayesian optimization framework specifically tailored to address these limitations. Our method leverages a Bayesian neural networks approach for surrogate modeling. This enables efficient handling of large batches of data, modeling complex problems, and generating the uncertainty of the predictions. In addition, our method incorporates a scalable, uncertainty-aware acquisition strategy based on the well-known, easy-to-deploy NSGA-II. This fully parallelizable strategy promotes efficient exploration of uncharted regions. Our framework allows for effective optimization in data-intensive environments with a minimum number of iterations. We demonstrate the superiority of our method by comparing it with state-of-the-art multi-objective optimizations. We perform our evaluation on two real-world problems - airfoil design and color printing - showcasing the applicability and efficiency of our approach. Code is available at: https://github.com/an-on-ym-ous/lbn\_mobo
翻訳日:2023-06-05 18:11:48 公開日:2023-06-01
# ucas-iie-nlp at semeval-2023 task 12: 低リソース感情分析のための多言語bertの一般化

UCAS-IIE-NLP at SemEval-2023 Task 12: Enhancing Generalization of Multilingual BERT for Low-resource Sentiment Analysis ( http://arxiv.org/abs/2306.01093v1 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,SemEval-2023 Task 12: Sentiment Analysis for African Languageについて述べる。 このタスクで直面する課題は、低リソース環境におけるラベル付きデータと言語資源の不足である。 そこで本稿では,低リソース言語に対する感情分析のための汎用多言語システムSACL-XLMRを提案する。 具体的には,語彙に基づく多言語BERTを設計し,言語適応と感情認識表現学習を容易にする。 さらに,教師付きコントラスト学習手法を適用し,感情のスプレッド構造表現を学習し,モデルの一般化を促進する。 本システムは,多言語およびゼロショット感情分類サブタスクのベースラインを上回って,競争力のある結果を得た。 特に、システムは、公式のランキングにおいて、ゼロショット分類サブタスクの1位を獲得した。 広範な実験により,本システムの有効性が実証された。

This paper describes our system designed for SemEval-2023 Task 12: Sentiment analysis for African languages. The challenge faced by this task is the scarcity of labeled data and linguistic resources in low-resource settings. To alleviate these, we propose a generalized multilingual system SACL-XLMR for sentiment analysis on low-resource languages. Specifically, we design a lexicon-based multilingual BERT to facilitate language adaptation and sentiment-aware representation learning. Besides, we apply a supervised adversarial contrastive learning technique to learn sentiment-spread structured representations and enhance model generalization. Our system achieved competitive results, largely outperforming baselines on both multilingual and zero-shot sentiment classification subtasks. Notably, the system obtained the 1st rank on the zero-shot classification subtask in the official ranking. Extensive experiments demonstrate the effectiveness of our system.
翻訳日:2023-06-05 18:11:31 公開日:2023-06-01
# 双対拡張による要約システムのロバスト性向上

Improving the Robustness of Summarization Systems with Dual Augmentation ( http://arxiv.org/abs/2306.01090v1 )

ライセンス: Link先を確認
Xiuying Chen, Guodong Long, Chongyang Tao, Mingzhe Li, Xin Gao, Chengqi Zhang, Xiangliang Zhang(参考訳) 頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。 本稿では,まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 セマンティック一貫性を持つ代用語を生成するために,言語モデルに基づく対数サンプルを生成するための効率的なアプローチであるSummAttackerを提案する。 実験結果から, 現状の要約モデルでは, 対向性および雑音性試験セットの性能が著しく低下していることがわかった。 次に,要約システムの脆弱性を分析し,データ拡張による堅牢性の向上を検討する。 特に、私たちが発見した最初の脆さ要因は、入力中の頻繁な単語の理解が不十分であることです。 それに応じて、入力空間でsummattackerによって作成されたより多様なケースでエンコーダを供給します。 もう1つの要因は、攻撃された入力が隠れた状態により多くのバリエーションをもたらす潜時空間にある。 そこで我々は,逆デコーダ入力を構築し,多様体ソフトミキシング演算を隠れ空間で考案し,より多様性をもたらす。 Gigaword と CNN/DM データセットの実験結果から,我々の手法は強いベースラインよりも大幅に向上し,ノイズ,攻撃,クリーンなデータセットに対して高いロバスト性を示すことが示された。

A robust summarization system should be able to capture the gist of the document, regardless of the specific word choices or noise in the input. In this work, we first explore the summarization models' robustness against perturbations including word-level synonym substitution and noise. To create semantic-consistent substitutes, we propose a SummAttacker, which is an efficient approach to generating adversarial samples based on language models. Experimental results show that state-of-the-art summarization models have a significant decrease in performance on adversarial and noisy test sets. Next, we analyze the vulnerability of the summarization systems and explore improving the robustness by data augmentation. Specifically, the first brittleness factor we found is the poor understanding of infrequent words in the input. Correspondingly, we feed the encoder with more diverse cases created by SummAttacker in the input space. The other factor is in the latent space, where the attacked inputs bring more variations to the hidden states. Hence, we construct adversarial decoder input and devise manifold softmixing operation in hidden space to introduce more diversity. Experimental results on Gigaword and CNN/DM datasets demonstrate that our approach achieves significant improvements over strong baselines and exhibits higher robustness on noisy, attacked, and clean datasets.
翻訳日:2023-06-05 18:11:15 公開日:2023-06-01
# 構造類似度指標による半教師付きコミュニティ検出

Semi-supervised Community Detection via Structural Similarity Metrics ( http://arxiv.org/abs/2306.01089v1 )

ライセンス: Link先を確認
Yicong Jiang, Tracy Ke(参考訳) そこで本研究では,ネットワークトポロジーと既存ノードのコミュニティラベルを用いて,新しいノードのコミュニティラベルを推定することを目的とした,半教師ありコミュニティ検出問題を提案する。 ネットワークは次数補正確率ブロックモデルを用いてモデル化され、重度不均一性と潜在的に非代替的なコミュニティを可能にする。 ラベル付きおよびラベルなしデータを集約することにより,新しいノードと$K$コミュニティ間の'構造的類似度メトリック'を計算するアルゴリズムを提案する。 新しいノードの推定ラベルは、この類似度メトリックを最大化する$k$の値に対応する。 提案手法は,既存の半教師付きアルゴリズムよりも高速かつ数値的に優れている。 理論的には、誤分類誤差の明示的な境界を導出し、理想的な分類器と比較することにより、手法の効率性を示す。 我々の知る限りでは、理論的な保証を提供する最初の半教師付きコミュニティ検出アルゴリズムである。

Motivated by social network analysis and network-based recommendation systems, we study a semi-supervised community detection problem in which the objective is to estimate the community label of a new node using the network topology and partially observed community labels of existing nodes. The network is modeled using a degree-corrected stochastic block model, which allows for severe degree heterogeneity and potentially non-assortative communities. We propose an algorithm that computes a `structural similarity metric' between the new node and each of the $K$ communities by aggregating labeled and unlabeled data. The estimated label of the new node corresponds to the value of $k$ that maximizes this similarity metric. Our method is fast and numerically outperforms existing semi-supervised algorithms. Theoretically, we derive explicit bounds for the misclassification error and show the efficiency of our method by comparing it with an ideal classifier. Our findings highlight, to the best of our knowledge, the first semi-supervised community detection algorithm that offers theoretical guarantees.
翻訳日:2023-06-05 18:10:55 公開日:2023-06-01
# 異種処理効果推定のためのマルチスタディr-learner

Multi-study R-learner for Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2306.01086v1 )

ライセンス: Link先を確認
Cathy Shyr, Boyu Ren, Prasad Patil, and Giovanni Parmigiani(参考訳) 複数の研究において不均一な処理効果を推定するアルゴリズムの一般クラスを提案する。 マルチスタディr-リアナー(multi-study r-learner)と呼ばれるアプローチは、r-リアナーを研究間不均一性を考慮して一般化し、結合調整のクロススタディロバストネスを達成する。 マルチスタディのr-learnerは、不均一な処理効果、迷惑機能、メンバーシップ確率を推定するための多くの機械学習技術を組み込む能力において柔軟である。 マルチスタディ型r-リアナー治療効果推定器は, 系列推定フレームワーク内で漸近的に正常であることを示す。 さらに,本手法がr-learnerよりも低い推定誤差をもたらすことを現実的癌データ実験により示す。

We propose a general class of algorithms for estimating heterogeneous treatment effects on multiple studies. Our approach, called the multi-study R-learner, generalizes the R-learner to account for between-study heterogeneity and achieves cross-study robustness of confounding adjustment. The multi-study R-learner is flexible in its ability to incorporate many machine learning techniques for estimating heterogeneous treatment effects, nuisance functions, and membership probabilities. We show that the multi-study R-learner treatment effect estimator is asymptotically normal within the series estimation framework. Moreover, we illustrate via realistic cancer data experiments that our approach results in lower estimation error than the R-learner as between-study heterogeneity increases.
翻訳日:2023-06-05 18:10:41 公開日:2023-06-01
# 4DSR-GCN:グラフ畳み込みネットワークを用いた4Dビデオポイントクラウドアップサンプリング

4DSR-GCN: 4D Video Point Cloud Upsampling using Graph Convolutional Networks ( http://arxiv.org/abs/2306.01081v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Stefano Berretti, Marco Bertini, Alberto Del Bimbo(参考訳) 3Dポイントクラウド(または4Dポイントクラウド)の時間的変化は、現在、いくつかのアプリケーション(例えば、自動運転やアシスト運転におけるLiDAR)で増加ペースで取得されている。 多くの場合、そのようなデータが送信されるため、適切な圧縮ツールが適用され、解像度または帯域幅が減少する。 本稿では,重く圧縮された後,時間変動する3dビデオポイント雲のスケールアップと復元のための新しいソリューションを提案する。 近年の3Dアプリケーションとの関連性を考慮すると、 % はユーザ側のアップスケーリングと3Dビデオポイントクラウドのアーティファクト削除を可能にするモデルに焦点を当てた。 我々のモデルは、動的エッジ畳み込みとグラフアテンションネットワークを組み合わせた、特に設計されたグラフ畳み込みネットワーク(GCN)から構成される。 PointNet++にインスピレーションを与えることで、これらのモジュールをシナジーで動作させ、各ノードにその周辺に関する十分な機能を提供し、後に新しい頂点を生成するための別の方法を提示します。 同じ課題に対処する文献の他のソリューションと比較して、提案したモデルは、かなり少ないパラメータ(約300KB)を使用しながら、再構成の品質の観点から同等の結果を得ることができるため、LiDARのようなエッジコンピューティングデバイスにソリューションをデプロイすることができる。

Time varying sequences of 3D point clouds, or 4D point clouds, are now being acquired at an increasing pace in several applications (e.g., LiDAR in autonomous or assisted driving). In many cases, such volume of data is transmitted, thus requiring that proper compression tools are applied to either reduce the resolution or the bandwidth. In this paper, we propose a new solution for upscaling and restoration of time-varying 3D video point clouds after they have been heavily compressed. In consideration of recent growing relevance of 3D applications, %We focused on a model allowing user-side upscaling and artifact removal for 3D video point clouds, a real-time stream of which would require . Our model consists of a specifically designed Graph Convolutional Network (GCN) that combines Dynamic Edge Convolution and Graph Attention Networks for feature aggregation in a Generative Adversarial setting. By taking inspiration PointNet++, We present a different way to sample dense point clouds with the intent to make these modules work in synergy to provide each node enough features about its neighbourhood in order to later on generate new vertices. Compared to other solutions in the literature that address the same task, our proposed model is capable of obtaining comparable results in terms of quality of the reconstruction, while using a substantially lower number of parameters (about 300KB), making our solution deployable in edge computing devices such as LiDAR.
翻訳日:2023-06-05 18:10:26 公開日:2023-06-01
# 雑音環境における最適分散マルチパラメータ推定

Optimal distributed multiparameter estimation in noisy environments ( http://arxiv.org/abs/2306.01077v1 )

ライセンス: Link先を確認
Arne Hamann, Pavel Sekatski, Wolfgang D\"ur(参考訳) 分散センサのネットワークによる強い相関雑音の存在下での多重パラメータ推定の課題を考察する。 ノイズ非感受性戦略の発見と改善方法について検討する。 ghz状態の逐次検出は最大4.0倍まで最適である。 これにより、この問題を単一パラメータ推定に結びつけることができ、デコヒーレンスのない部分空間における相関ノイズに対する保護や局所的な測定による読み出しといった手法を用いることができる。

We consider the task of multiple parameter estimation in the presence of strong correlated noise with a network of distributed sensors. We study how to find and improve noise-insensitive strategies. We show that sequentially probing GHZ states is optimal up to a factor of at most 4. This allows us to connect the problem to single parameter estimation, and to use techniques such as protection against correlated noise in a decoherence-free subspace, or read-out by local measurements.
翻訳日:2023-06-05 18:09:58 公開日:2023-06-01
# 重み付きリワードを用いた個人用強調学習

Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards ( http://arxiv.org/abs/2306.01121v1 )

ライセンス: Link先を確認
Yulian Wu, Xingyu Zhou, Sayak Ray Chowdhury and Di Wang(参考訳) 本稿では,差分プライバシ(DP)の制約の下で,重み付き報酬を伴う(有限地平線表型)マルコフ決定プロセス(MDP)の問題について検討する。 DPを確保するために、通常、報酬を仮定する私的強化学習の以前の研究と比較すると、報酬分布が有限の$(1+v)$-第モーメントと約$v \in (0,1]$を持つ設定を考える。 報酬に対するロバスト平均推定器を利用することで、まず重み付きMDPのための2つのフレームワーク、すなわち価値反復のためのフレームワークとポリシー最適化のためのフレームワークを提案する。 各フレームワークでは,共同微分プライバシ(JDP)モデルと局所微分プライバシ(LDP)モデルの両方を検討する。 当社の枠組みに基づいて,JDP と LDP の双方のケースに対して,残念な上限を設け,配布時期とプライバシ予算の両方が後悔に重大な影響を及ぼすことを示す。 最後に,JDPモデルにおける重装マルチアームバンディットのインスタンス非依存な下限に減らして,重装マルチアームバンディットに対する最小限の最小限の最小化を実現する。 また,いくつかのプライベート minimax メソッドを採用することで,ldp の問題に対する下限を示す。 その結果,サブガウシアンによるプライベートrl問題と,重み付き報酬問題との間には,根本的な違いがあることが判明した。

In this paper, we study the problem of (finite horizon tabular) Markov decision processes (MDPs) with heavy-tailed rewards under the constraint of differential privacy (DP). Compared with the previous studies for private reinforcement learning that typically assume rewards are sampled from some bounded or sub-Gaussian distributions to ensure DP, we consider the setting where reward distributions have only finite $(1+v)$-th moments with some $v \in (0,1]$. By resorting to robust mean estimators for rewards, we first propose two frameworks for heavy-tailed MDPs, i.e., one is for value iteration and another is for policy optimization. Under each framework, we consider both joint differential privacy (JDP) and local differential privacy (LDP) models. Based on our frameworks, we provide regret upper bounds for both JDP and LDP cases and show that the moment of distribution and privacy budget both have significant impacts on regrets. Finally, we establish a lower bound of regret minimization for heavy-tailed MDPs in JDP model by reducing it to the instance-independent lower bound of heavy-tailed multi-armed bandits in DP model. We also show the lower bound for the problem in LDP by adopting some private minimax methods. Our results reveal that there are fundamental differences between the problem of private RL with sub-Gaussian and that with heavy-tailed rewards.
翻訳日:2023-06-05 18:04:33 公開日:2023-06-01
# 言語モデルにおけるファーストネームの因果関係の検討--ソーシャル・コモンセンス・推論の場合

Examining the Causal Effect of First Names on Language Models: The Case of Social Commonsense Reasoning ( http://arxiv.org/abs/2306.01117v1 )

ライセンス: Link先を確認
Sullam Jeoung, Jana Diesner, Halil Kilicoglu(参考訳) 言語モデルは、個人的および社会的関連性の応用に引き続き統合されるので、特にセンシティブな属性に関係なく一貫した出力を生成するという点において、これらのモデルの信頼性を保証することが重要である。 ファーストネームが社会デミノグラフィー表現のプロキシとして機能することを考えると、ファーストネームがコモンセンス推論能力に与える影響を調べることが不可欠である。 本稿では,特定の入力に対するモデルの推論が,提供された最初の名前に基づいて異なるかどうかについて検討する。 私たちの根底にある前提は、アリスの推論はジェームズの推論と異なるべきではないということです。 我々は,初号の因果効果をコモンセンス推論に測定するための制御実験フレームワークを提案し,実装し,偶然によるモデル予測と実際の関心要因によるモデル予測の区別を可能にした。 以上の結果から,ファーストネームの頻度はモデル予測に直接的な影響を与えることを示し,より頻繁な名前に比べて,より異種な予測を生じさせる可能性が示唆された。 これらの行動に寄与するモデルの内部メカニズムに関する洞察を得るため、我々は詳細な説明可能な分析を行う。 全体として、モデルの堅牢性を確保するためには、設定段階でより多様なファーストネームを持つデータセットを拡張することが不可欠である。

As language models continue to be integrated into applications of personal and societal relevance, ensuring these models' trustworthiness is crucial, particularly with respect to producing consistent outputs regardless of sensitive attributes. Given that first names may serve as proxies for (intersectional) socio-demographic representations, it is imperative to examine the impact of first names on commonsense reasoning capabilities. In this paper, we study whether a model's reasoning given a specific input differs based on the first names provided. Our underlying assumption is that the reasoning about Alice should not differ from the reasoning about James. We propose and implement a controlled experimental framework to measure the causal effect of first names on commonsense reasoning, enabling us to distinguish between model predictions due to chance and caused by actual factors of interest. Our results indicate that the frequency of first names has a direct effect on model prediction, with less frequent names yielding divergent predictions compared to more frequent names. To gain insights into the internal mechanisms of models that are contributing to these behaviors, we also conduct an in-depth explainable analysis. Overall, our findings suggest that to ensure model robustness, it is essential to augment datasets with more diverse first names during the configuration stage.
翻訳日:2023-06-05 18:04:04 公開日:2023-06-01
# RefinedWeb Dataset for Falcon LLM:WebデータとWebデータのみによるキュレーションコーパスのパフォーマンス向上

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only ( http://arxiv.org/abs/2306.01116v1 )

ライセンス: Link先を確認
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay(参考訳) 大規模な言語モデルは通常、フィルタリングされたWebデータと、ソーシャルメディアの会話、書籍、技術論文などの高品質なコーパスの混合に基づいて訓練される。 このキュレーションプロセスは、幅広いゼロショット一般化能力を持つパフォーマンスモデルを作成するために必要であると考えられている。 しかしながら,数兆単位のトークンを事前トレーニングする必要のある大規模モデルが検討されているため,キュレーションのスケーラブル性や,間もなくユニークな高品質なデータを使い果たせるかどうかは不明だ。 従来の信念と相違して、適切にフィルタリングされ、分離されたWebデータは、強力なモデルに繋がる可能性を示し、さらにThe Pileで訓練された最先端のモデルよりもはるかに優れている。 広範囲なフィルタリングにもかかわらず、webから抽出した高品質なデータは依然として豊富であり、commoncrawlから5兆のトークンを得ることができる。 RefinedWebデータセットから600億個のトークンを抽出し、それに基づいてトレーニングされた1.3/7.5Bのパラメータ言語モデルを公開しています。

Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
翻訳日:2023-06-05 18:03:41 公開日:2023-06-01
# 日平均太陽照度時系列予測を時空間で豊かにするとどうなるか?

What if We Enrich day-ahead Solar Irradiance Time Series Forecasting with Spatio-Temporal Context? ( http://arxiv.org/abs/2306.01112v1 )

ライセンス: Link先を確認
Oussama Boussif, Ghait Boukachab, Dan Assouline, Stefano Massaroli, Tianle Yuan, Loubna Benabbou, Yoshua Bengio(参考訳) 太陽発電はCO$_{2}$の排出量を大幅に削減することで気候変動を緩和する大きな可能性を秘めている。 それでも、太陽光の固有の変動は、太陽エネルギーを電力網にシームレスに統合する上で大きな課題となる。 従来の研究の大半は、太陽の予測に時間的な時系列に基づく手法を採用することに集中してきたが、雲や周囲の物理的文脈などの要因を考慮に入れた研究はごく少数しかなかった。 本稿では,衛星データを用いた時空間的コンテキストを活用した深層学習アーキテクチャを考案し,ghi(global horizontal irradiance)の予測に重点を置いた,任意の局に対する高精度な時系列予測を実現する。 また,予測に付随する不確実性の指標として,各時間ステップ予測毎に分布を抽出する手法を提案する。 モデルを評価する際には,重要な状況下でのモデル性能を捉えるために,特に困難な例を簡単な例から分離するテスト手法を提案する。 さらに、複数の地理的に多様な太陽観測所から、太陽放射や関連する物理的変数を観測するための、大規模なゾーンと時系列に衛星画像を収集する新しいマルチモーダルデータセットを提案する。 提案手法は、観測されていない太陽ステーションでのゼロショット一般化試験を含む太陽照射予測において堅牢な性能を示し、太陽エネルギーのグリッドへの効果的な統合を促進する上で非常に有望である。

Solar power harbors immense potential in mitigating climate change by substantially reducing CO$_{2}$ emissions. Nonetheless, the inherent variability of solar irradiance poses a significant challenge for seamlessly integrating solar power into the electrical grid. While the majority of prior research has centered on employing purely time series-based methodologies for solar forecasting, only a limited number of studies have taken into account factors such as cloud cover or the surrounding physical context. In this paper, we put forth a deep learning architecture designed to harness spatio-temporal context using satellite data, to attain highly accurate \textit{day-ahead} time-series forecasting for any given station, with a particular emphasis on forecasting Global Horizontal Irradiance (GHI). We also suggest a methodology to extract a distribution for each time step prediction, which can serve as a very valuable measure of uncertainty attached to the forecast. When evaluating models, we propose a testing scheme in which we separate particularly difficult examples from easy ones, in order to capture the model performances in crucial situations, which in the case of this study are the days suffering from varying cloudy conditions. Furthermore, we present a new multi-modal dataset gathering satellite imagery over a large zone and time series for solar irradiance and other related physical variables from multiple geographically diverse solar stations. Our approach exhibits robust performance in solar irradiance forecasting, including zero-shot generalization tests at unobserved solar stations, and holds great promise in promoting the effective integration of solar power into the grid.
翻訳日:2023-06-05 18:03:23 公開日:2023-06-01
# 間質性肺疾患分類におけるZero-Shot CLIPの有用性の検討

Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung Disease Classification ( http://arxiv.org/abs/2306.01111v1 )

ライセンス: Link先を確認
Cara Van Uden and Christian Bluethgen and Maayane Attias and Malgorzata Polacin and Haiwei Henry Guo and Neha Simha and Rishi Raj and Curtis Langlotz(参考訳) 間質性肺疾患(ILD:interstitial lung disease, ILD)は, 診断上の課題である。 そこで本研究では,ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを用いた機械学習手法を提案する。 ワークフロー全体を通じてゼロショットCLIPを広範囲に統合し、ボリュームCTスキャンから画像パッチを抽出し、"パッチモンタージュ"を用いてILD分類に進む。 さらに,タスク固有画像を用いたdapt(domain adaptive pretraining)クリップ(ct "patch montages" と/またはテキスト(放射線学レポートのlung-specific section of radiology reports)が下流icd分類性能に与える影響について検討した。 CLIP抽出した「パッチモンタージュ」とDAPTを利用して、ラベル付きトレーニングデータを必要としない0.893のAUROCを含む強力なゼロショットLD分類結果を得る。 この研究は、ラベル付きデータが不足している医療画像分類タスクのためのクリップのようなマルチモーダルモデルの汎用性と可能性を強調している。

Interstitial lung diseases (ILD) present diagnostic challenges due to their varied manifestations and overlapping imaging features. To address this, we propose a machine learning approach that utilizes CLIP, a multimodal (image and text) self-supervised model, for ILD classification. We extensively integrate zero-shot CLIP throughout our workflow, starting from the initial extraction of image patches from volumetric CT scans and proceeding to ILD classification using "patch montages". Furthermore, we investigate how domain adaptive pretraining (DAPT) CLIP with task-specific images (CT "patch montages" extracted with ILD-specific prompts for CLIP) and/or text (lung-specific sections of radiology reports) affects downstream ILD classification performance. By leveraging CLIP-extracted "patch montages" and DAPT, we achieve strong zero-shot ILD classification results, including an AUROC of 0.893, without the need for any labeled training data. This work highlights the versatility and potential of multimodal models like CLIP for medical image classification tasks where labeled data is scarce.
翻訳日:2023-06-05 18:02:57 公開日:2023-06-01
# mlに基づく不安検出における騒音の影響の比較研究

Comparative Study on the Effects of Noise in ML-Based Anxiety Detection ( http://arxiv.org/abs/2306.01110v1 )

ライセンス: Link先を確認
Samuel Schapiro, Abdul Alkurdi, Elizabeth Hsiao-Wecksler(参考訳) ウェアラブルな健康デバイスは、継続的かつ非侵襲的な遠隔監視の新時代を支えている。 この技術の応用の一つは不安検出である。 コントロールされたラボ環境では、不安検出の多くの進歩が起きているが、ノイズはこれらの進歩が現実の状況に一般化することを妨げている。 我々は,騒音がモデル性能に与える影響を検証し,ノイズの多い実環境にロバストなモデルを開発し,それゆえ日常生活の混乱に合わせたモデルを開発することにより,この分野の進展を目指す。 本研究では,従来の手法が失敗した理由と方法を検討する。 ウェアラブルストレスと影響検出(wesad)データセットを用いて,3つの分類問題における生理的覚醒レベルを分類する機械学習モデルに対する,さまざまなノイズ強度の影響を比較した。 ノイズを導入する前に、私たちのベースラインモデルのパフォーマンスは98.7%に達し、schmidt 2018の80.3%と比較した。 本稿では,特徴抽出とモデルアーキテクチャの選択を慎重に評価することで,この相違点の可能性について論じる。 最後に、ノイズの導入後、各モデルアーキテクチャに対するノイズの影響を徹底的に分析する。

Wearable health devices are ushering in a new age of continuous and noninvasive remote monitoring. One application of this technology is in anxiety detection. Many advancements in anxiety detection have happened in controlled lab settings, but noise prevents these advancements from generalizing to real-world conditions. We seek to progress the field by studying how noise impacts model performance and developing models that are robust to noisy, real-world conditions and, hence, attuned to the commotion of everyday life. In this study we look to investigate why and how previous methods have failed. Using the wearable stress and affect detection (WESAD) dataset, we compare the effect of various intensities of noise on machine learning models classifying levels of physiological arousal in the three-class classification problem: baseline vs. stress vs. amusement. Before introducing noise, our baseline model performance reaches 98.7%, compared to Schmidt 2018's 80.3%. We discuss potential sources of this discrepancy in results through a careful evaluation of feature extraction and model architecture choices. Finally, after the introduction of noise, we provide a thorough analysis of the effect of noise on each model architecture.
翻訳日:2023-06-05 18:02:34 公開日:2023-06-01
# ウェアラブル型ヒューマンアクティビティ認識のための自己スーパービジョンによる離散表現の学習に向けて

Towards Learning Discrete Representations via Self-Supervision for Wearables-Based Human Activity Recognition ( http://arxiv.org/abs/2306.01108v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa, Thomas Ploetz(参考訳) ウェアラブルコンピューティングにおけるヒューマンアクティビティ認識(HAR)は通常、センサーデータの直接処理に基づいている。 センサ読み込みは、専用の前処理によって導かれるか、エンドツーエンドの学習に統合される。 それらの起源とは独立に、現代のHARの大部分は、これらの表現は本質的に連続である。 それはいつもそうであるとは限らない。 harの初期において、離散化のアプローチは、主に計算要件を最小化したいという願望に動機付けられてきたが、アクティビティ発見、指紋認証、大規模検索といった単なる認識以外のアプリケーションも視野に入れている。 しかし、これらの伝統的な離散化アプローチは、下流のタスクに有害な影響をもたらす結果の表現において、精度と解像度が著しく低下する。 時代が変わり、本稿では、離散化表現への回帰を提案する。 近年のベクトル量子化(VQ)の進歩をウェアラブルアプリケーションに適用し,センサデータの短区間とベクターのコードブック間のマッピングを直接学習し,その結果,現代の連続的な認識性能(時にはそれを上回ることもある)が達成された。 そこで本研究では,効果的な離散表現の導出を実証するための概念実証を行い,単なる活動分類以上の応用を可能にするとともに,自然言語処理などの領域から既知の記号列解析のための高度なツールにも応用できることを示す。 ウェアラブルベースのベンチマークharタスクスイートの広範な実験評価に基づいて,学習した離散化手法の可能性を示し,センサデータ解析がharに大きな変化をもたらす可能性について論じる。

Human activity recognition (HAR) in wearable computing is typically based on direct processing of sensor data. Sensor readings are translated into representations, either derived through dedicated preprocessing, or integrated into end-to-end learning. Independent of their origin, for the vast majority of contemporary HAR, those representations are typically continuous in nature. That has not always been the case. In the early days of HAR, discretization approaches have been explored - primarily motivated by the desire to minimize computational requirements, but also with a view on applications beyond mere recognition, such as, activity discovery, fingerprinting, or large-scale search. Those traditional discretization approaches, however, suffer from substantial loss in precision and resolution in the resulting representations with detrimental effects on downstream tasks. Times have changed and in this paper we propose a return to discretized representations. We adopt and apply recent advancements in Vector Quantization (VQ) to wearables applications, which enables us to directly learn a mapping between short spans of sensor data and a codebook of vectors, resulting in recognition performance that is generally on par with their contemporary, continuous counterparts - sometimes surpassing them. Therefore, this work presents a proof-of-concept for demonstrating how effective discrete representations can be derived, enabling applications beyond mere activity classification but also opening up the field to advanced tools for the analysis of symbolic sequences, as they are known, for example, from domains such as natural language processing. Based on an extensive experimental evaluation on a suite of wearables-based benchmark HAR tasks, we demonstrate the potential of our learned discretization scheme and discuss how discretized sensor data analysis can lead to substantial changes in HAR.
翻訳日:2023-06-05 18:02:17 公開日:2023-06-01
# ヘイトスピーチベンチマークを再考する: データキュレーションからシステム展開へ

Revisiting Hate Speech Benchmarks: From Data Curation to System Deployment ( http://arxiv.org/abs/2306.01105v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Sarah Masud, Vikram Goyal, Tanmoy Chakraborty(参考訳) ソーシャルメディアには憎悪的なコンテンツが溢れており、その多くが言語や話題の多様性に満ちている。 ヘイトスピーチ検出に使用されるベンチマークデータセットは、ヘイトレキシコンを使用して主にコンパイルされるため、そのような拡散を考慮しない。 しかし、中立に封じられた悪意のあるコンテンツでは、ヘイト信号の捕獲が困難になる。 したがって、憎しみの現実的な多様性を模倣するモデルやデータセットを設計することは、さらなる調査となる。 GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソーシングした大規模データセットである。 GOTHateは中立的にシードされ、異なる言語やトピックを含んでいる。 我々は,既存のヘイトスピーチデータセットとgothateの詳細な比較を行い,その新しさを強調する。 最近の10のベースラインでベンチマークします。 実験およびベンチマーク実験により,GOTHateはテキストのみのセットアップでは分類が困難であることが示唆された。 そこで本研究では,内因性信号の付加がヘイトスピーチ検出タスクをいかに強化するかを検討する。 我々はGOTHateをユーザのタイムライン情報とegoネットワークで拡張し、ヘイトフルコンテンツを理解するための実際の設定にデータソースを近づける。 提案するHEN-mBERTは,言語サブスペースを,歴史,トポロジ,先例からの潜在内在的信号で拡張するモジュール型,多言語混在型エキスパートモデルである。 HEN-mBERTは、マクロF1およびヘイトクラスF1において、それぞれ2.5%と5%の最高のベースラインを超越する。 私たちの実験に触発されて、Wipro AIと連携して、オンラインの害に対処するミッションの一環として、ヘイトフルコンテンツを検出する半自動化パイプラインを開発しています。

Social media is awash with hateful content, much of which is often veiled with linguistic and topical diversity. The benchmark datasets used for hate speech detection do not account for such divagation as they are predominantly compiled using hate lexicons. However, capturing hate signals becomes challenging in neutrally-seeded malicious content. Thus, designing models and datasets that mimic the real-world variability of hate warrants further investigation. To this end, we present GOTHate, a large-scale code-mixed crowdsourced dataset of around 51k posts for hate speech detection from Twitter. GOTHate is neutrally seeded, encompassing different languages and topics. We conduct detailed comparisons of GOTHate with the existing hate speech datasets, highlighting its novelty. We benchmark it with 10 recent baselines. Our extensive empirical and benchmarking experiments suggest that GOTHate is hard to classify in a text-only setup. Thus, we investigate how adding endogenous signals enhances the hate speech detection task. We augment GOTHate with the user's timeline information and ego network, bringing the overall data source closer to the real-world setup for understanding hateful content. Our proposed solution HEN-mBERT is a modular, multilingual, mixture-of-experts model that enriches the linguistic subspace with latent endogenous signals from history, topology, and exemplars. HEN-mBERT transcends the best baseline by 2.5% and 5% in overall macro-F1 and hate class F1, respectively. Inspired by our experiments, in partnership with Wipro AI, we are developing a semi-automated pipeline to detect hateful content as a part of their mission to tackle online harm.
翻訳日:2023-06-05 18:01:50 公開日:2023-06-01
# グラフアウトオブディストリビューション一般化のためのラベルと環境因果独立の連成学習

Joint Learning of Label and Environment Causal Independence for Graph Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.01103v1 )

ライセンス: Link先を確認
Shurui Gui, Meng Liu, Xiner Li, Youzhi Luo, Shuiwang Ji(参考訳) 本稿では,分散グラフ(OOD)の一般化問題に取り組む。 既存のグラフOODアルゴリズムは、制限された仮定に依存するか、あるいはトレーニングデータの環境情報を利用することができない。 本稿では,ラベルと環境の因果独立性(leci)を同時に組み込んでラベル情報と環境情報を完全に活用し,因果と不変部分グラフの識別において先行手法が直面する課題を解決することを提案する。 さらに,これら2つの特性を理論的に保証されたカジュアルなサブグラフ発見のために共同で最適化する,敵対的訓練戦略を考案する。 大規模な実験と分析により、LECIは合成データセットと実世界のデータセットの両方において先行手法を著しく上回り、LECIをグラフOOD一般化のための実用的で効果的なソリューションとして確立した。

We tackle the problem of graph out-of-distribution (OOD) generalization. Existing graph OOD algorithms either rely on restricted assumptions or fail to exploit environment information in training data. In this work, we propose to simultaneously incorporate label and environment causal independence (LECI) to fully make use of label and environment information, thereby addressing the challenges faced by prior methods on identifying causal and invariant subgraphs. We further develop an adversarial training strategy to jointly optimize these two properties for casual subgraph discovery with theoretical guarantees. Extensive experiments and analysis show that LECI significantly outperforms prior methods on both synthetic and real-world datasets, establishing LECI as a practical and effective solution for graph OOD generalization.
翻訳日:2023-06-05 18:01:25 公開日:2023-06-01
# LLMatic: 大規模言語モデルによるニューラルアーキテクチャ探索と品質多様性最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality-Diversity Optimization ( http://arxiv.org/abs/2306.01102v1 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-06-05 18:01:10 公開日:2023-06-01
# 無線アドホックネットワークにおける低確率検出のためのフェデレーショングラフ学習

Federated Graph Learning for Low Probability of Detection in Wireless Ad-Hoc Networks ( http://arxiv.org/abs/2306.01143v1 )

ライセンス: Link先を確認
Sivaram Krishnan, Jihong Park, Subhash Sagar, Gregory Sherman, Benjamin Campbell, and Jinho Choi(参考訳) low probability of detection (lpd) は、ワイヤレスネットワークのプライバシーとセキュリティを強化する手段として最近登場した。 既存の無線セキュリティ技術とは異なり、LPD対策は、ユーザから送信された情報を保護するのではなく、無線通信の存在全体を隠蔽することを目的としている。 本稿では,無線アドホックネットワーク全体の検出性を最小化し,無線ネットワークの各ノードに対する最適な通信領域を予測し,外部アクターから検出されていないまま通信できるように,グラフニューラルネットワークに基づくプライバシ保護分散フレームワークについて検討する。 また,提案手法の有効性を,平均絶対誤差と中央値絶対誤差という2つの性能尺度を用いて実証する。

Low probability of detection (LPD) has recently emerged as a means to enhance the privacy and security of wireless networks. Unlike existing wireless security techniques, LPD measures aim to conceal the entire existence of wireless communication instead of safeguarding the information transmitted from users. Motivated by LPD communication, in this paper, we study a privacy-preserving and distributed framework based on graph neural networks to minimise the detectability of a wireless ad-hoc network as a whole and predict an optimal communication region for each node in the wireless network, allowing them to communicate while remaining undetected from external actors. We also demonstrate the effectiveness of the proposed method in terms of two performance measures, i.e., mean absolute error and median absolute error.
翻訳日:2023-06-05 17:52:48 公開日:2023-06-01
# 顔ビデオからのプライバシー保全型遠隔心拍数推定

Privacy-Preserving Remote Heart Rate Estimation from Facial Videos ( http://arxiv.org/abs/2306.01141v1 )

ライセンス: Link先を確認
Divij Gupta, Ali Etemad(参考訳) remote photoplethysmography(rppg)は、顔ビデオからppgを推定するプロセスである。 このアプローチは接触のないインタラクションの恩恵を受けるが、多くの場合、重要なプライバシー上の懸念を構成する顔のビデオに依存している。 近年の研究では、ディープラーニング技術が攻撃に弱いことが明らかにされており、データ漏洩によって深いrPPG推定がさらにセンシティブになる可能性がある。 この問題に対処するために,顔の特定領域を識別情報が少なく抽出し,次いでピクセルシャッフルとぼやけを伴って抽出するデータ摂動法を提案する。 2つの rPPG データセット (PURE と UBFC) を実験した結果,rPPG 抽出に最小限の影響を伴って,顔認識アルゴリズムの精度を60%以上削減できることがわかった。 また,3つの顔認識データセット(LFW, CALFW, AgeDB)を用いて,提案手法の有効性を50%近く低減した。 本研究は,rppg推定のための効果的なプライバシー保護ソリューションとしてのアプローチの可能性を示す。

Remote Photoplethysmography (rPPG) is the process of estimating PPG from facial videos. While this approach benefits from contactless interaction, it is reliant on videos of faces, which often constitutes an important privacy concern. Recent research has revealed that deep learning techniques are vulnerable to attacks, which can result in significant data breaches making deep rPPG estimation even more sensitive. To address this issue, we propose a data perturbation method that involves extraction of certain areas of the face with less identity-related information, followed by pixel shuffling and blurring. Our experiments on two rPPG datasets (PURE and UBFC) show that our approach reduces the accuracy of facial recognition algorithms by over 60%, with minimal impact on rPPG extraction. We also test our method on three facial recognition datasets (LFW, CALFW, and AgeDB), where our approach reduced performance by nearly 50%. Our findings demonstrate the potential of our approach as an effective privacy-preserving solution for rPPG estimation.
翻訳日:2023-06-05 17:52:35 公開日:2023-06-01
# 非可換確率論の基礎(拡張抽象)

Foundations of non-commutative probability theory (Extended abstract) ( http://arxiv.org/abs/2306.01131v1 )

ライセンス: Link先を確認
Daniel Lehmann(参考訳) コルモゴロフの確率論に対する設定は、量子力学から生じる確率を考慮に入れた独自の一般化を与える。 サンプル空間はこの表現において中心的な役割を持ち、確率変数、すなわち可観測変数は自然な方法で定義され、同じ状態では観測できない(非可換)可観測変数で満たされる代数方程式で示される謎は解明される。

Kolmogorov's setting for probability theory is given an original generalization to account for probabilities arising from Quantum Mechanics. The sample space has a central role in this presentation and random variables, i.e., observables, are defined in a natural way.The mystery presented by the algebraic equations satisfied by (non-commuting) observables that cannot be observed in the same states is elucidated.
翻訳日:2023-06-05 17:52:17 公開日:2023-06-01
# 混合状態の量子古典遷移:スケールされたフォン・ノイマン方程式

Quantum Classical Transition for Mixed States: The Scaled Von Neumann Equation ( http://arxiv.org/abs/2306.01130v1 )

ライセンス: Link先を確認
S. V. Mousavi and S. Miret-Art\'es(参考訳) 本研究では,フォン・ノイマンの公式なアンサンブルの枠組みを用いて,量子状態から古典状態への滑らかな遷移波動方程式を提案し,等価スケール方程式を得た。 これにより、量子力学のよく知られたウィグナー・モヤールアプローチに従って、スケールド統計理論を開発することができた。 このスケールド非平衡統計力学は、古典的および量子的な理論のすべての要素を、2つの極端なケースの間の全ての動的レジームを示す連続的なパラメータとして記述している。 最後に, 確率密度プロット, スケールド軌道, 到着時間など様々な量を計算し, 鏡からの反射によるスケールド形式を簡易に応用した。

In this work, we proposed a smooth transition wave equation from a quantum to classical regime in the framework of von Neumann formalism for ensembles and then obtained an equivalent scaled equation. This led us to develop a scaled statistical theory following the well-known Wigner-Moyal approach of quantum mechanics. This scaled nonequilibrium statistical mechanics has in it all the ingredients of the classical and quantum theory described in terms of a continuous parameter displaying all the dynamical regimes in between the two extreme cases. Finally, a simple application of our scaled formalism consisting of reflection from a mirror by computing various quantities, including probability density plots, scaled trajectories, and arrival times, was analyzed.
翻訳日:2023-06-05 17:52:10 公開日:2023-06-01
# スパースレート低減によるホワイトボックス変圧器

White-Box Transformers via Sparse Rate Reduction ( http://arxiv.org/abs/2306.01129v1 )

ライセンス: Link先を確認
Yaodong Yu and Sam Buchanan and Druv Pai and Tianzhe Chu and Ziyang Wu and Shengbang Tong and Benjamin D. Haeffele and Yi Ma(参考訳) 本稿では,表現学習の目的は,非一貫性部分空間上で支持される低次元ガウス分布の混合に対して,トークン集合などのデータの分布を圧縮して変換することである。 最終的な表現の品質はスパースレート低減と呼ばれる統一目的関数によって測定できる。 この観点から、トランスフォーマーのような一般的なディープネットワークは、この目標を漸進的に最適化するための反復的なスキームを実現すると見なすことができる。 特に、標準変圧器ブロックは、この目的の相補的な部分の交互な最適化から導出できることを示す: 多頭自己照準演算子は、損失の少ない符号化レートを最小化することでトークン集合を圧縮するための勾配降下ステップと見なすことができ、その後の多層パーセプトロンは、トークンの表現をスパース化しようとするものと見なすことができる。 これは、数学的に完全に解釈可能な、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。 これらのネットワークは、ImageNetのような大規模な現実世界のビジョンデータセットの表現を圧縮し、分散させ、ViTのような徹底的に設計されたトランスフォーマーに非常に近いパフォーマンスを達成する。 コードは \url{https://github.com/Ma-Lab-Berkeley/CRATE} にある。

In this paper, we contend that the objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a mixture of low-dimensional Gaussian distributions supported on incoherent subspaces. The quality of the final representation can be measured by a unified objective function called sparse rate reduction. From this perspective, popular deep networks such as transformers can be naturally viewed as realizing iterative schemes to optimize this objective incrementally. Particularly, we show that the standard transformer block can be derived from alternating optimization on complementary parts of this objective: the multi-head self-attention operator can be viewed as a gradient descent step to compress the token sets by minimizing their lossy coding rate, and the subsequent multi-layer perceptron can be viewed as attempting to sparsify the representation of the tokens. This leads to a family of white-box transformer-like deep network architectures which are mathematically fully interpretable. Despite their simplicity, experiments show that these networks indeed learn to optimize the designed objective: they compress and sparsify representations of large-scale real-world vision datasets such as ImageNet, and achieve performance very close to thoroughly engineered transformers such as ViT. Code is at \url{https://github.com/Ma-Lab-Berkeley/CRATE}.
翻訳日:2023-06-05 17:51:59 公開日:2023-06-01
# 学習用トランスフォーマープログラム

Learning Transformer Programs ( http://arxiv.org/abs/2306.01128v1 )

ライセンス: Link先を確認
Dan Friedman, Alexander Wettig, Danqi Chen(参考訳) 機械的解釈可能性に関する最近の研究は、ネットワークの重みとアクティベーションを慎重に調べることでリバースエンジニアリングトランスフォーマーモデルを試みている。 しかし、これらのアプローチにはかなりの手作業が必要であり、基礎となるアルゴリズムの完全な忠実な記述を提供するには不足している。 本研究では,設計によって機械的に解釈可能なトランスフォーマーの訓練手順を紹介する。 私たちは、Transformerの重みにコンパイルできるプログラミング言語であるRASP [Weiss et al., 2021] をベースにしています。 人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングし、自動的に個別の人間可読プログラムに変換できる改良されたTransformerを設計する。 これらのモデルをTransformer Programsと呼ぶ。 提案手法を検証するために,テキスト内学習タスク,アルゴリズム上の問題(例えば,ダイク言語を分類,認識する),名前付きエンティティ認識やテキスト分類を含むNLPタスクなど,さまざまな問題に対してTransformer Programsを学習する。 トランスフォーマープログラムは、同等の大きさの標準トランスフォーマーと同等の性能で実行することで、合理的なソリューションを自動的に見つけることができる。 これらの利点を実証するために、トランスフォーマーをPythonプログラムに変換し、既製のコード解析ツールを使用してモデルエラーをデバッグし、異なるサブプロブレムを解決するために使用される ``circuits'' を識別する。 トランスフォーマープログラムが、本質的に解釈可能な機械学習の目標に向けて、新たな道を開くことを願っている。

Recent research in mechanistic interpretability has attempted to reverse-engineer Transformer models by carefully inspecting network weights and activations. However, these approaches require considerable manual effort and still fall short of providing complete, faithful descriptions of the underlying algorithms. In this work, we introduce a procedure for training Transformers that are mechanistically interpretable by design. We build on RASP [Weiss et al., 2021], a programming language that can be compiled into Transformer weights. Instead of compiling human-written programs into Transformers, we design a modified Transformer that can be trained using gradient-based optimization and then be automatically converted into a discrete, human-readable program. We refer to these models as Transformer Programs. To validate our approach, we learn Transformer Programs for a variety of problems, including an in-context learning task, a suite of algorithmic problems (e.g. sorting, recognizing Dyck-languages), and NLP tasks including named entity recognition and text classification. The Transformer Programs can automatically find reasonable solutions, performing on par with standard Transformers of comparable size; and, more importantly, they are easy to interpret. To demonstrate these advantages, we convert Transformers into Python programs and use off-the-shelf code analysis tools to debug model errors and identify the ``circuits'' used to solve different sub-problems. We hope that Transformer Programs open a new path toward the goal of intrinsically interpretable machine learning.
翻訳日:2023-06-05 17:51:34 公開日:2023-06-01
# 励起状態量子相転移を利用した精密磁気計測

Precision magnetometry exploiting excited state quantum phase transitions ( http://arxiv.org/abs/2306.01126v1 )

ライセンス: Link先を確認
Qian Wang, Ugo Marzolino(参考訳) 相転移における臨界挙動は精密計測の資源である。 理由は、フィッシャー情報として知られるこの関数が臨界点において超指数関数であり、同時にメトロジープロトコルのパフォーマンスを定量化するからである。 したがって、位相遷移におけるメロジカルプローブの作成により、遷移制御パラメータの測定精度が向上する。 我々は、異なる磁場で励起状態量子相転移を示すリプキン-メシュコフ-グリックモデルに焦点を当てる。 モデルスペクトル特性に基づき、フィッシャー情報の広いピークを示し、高精度磁力計の効率的なスキームを提案する。 lipkin-meshkov-glickモデルは、超伝導と核系のために初めて導入され、最近いくつかの凝縮物プラットフォームで実現された。 上記のメトロロジースキームは、リプキン-メシュコフ-グリック模型をシミュレートできるシステムの微視的性質を測定するためにも利用できる。

Critical behaviour in phase transitions is a resource for enhanced precision metrology. The reason is that the function, known as Fisher information, is superextensive at critical points, and, at the same time, quantifies performances of metrological protocols. Therefore, preparing metrological probes at phase transitions provides enhanced precision in measuring the transition control parameter. We focus on the Lipkin-Meshkov-Glick model that exhibits excited state quantum phase transitions at different magnetic fields. Resting on the model spectral properties, we show broad peaks of the Fisher information, and propose efficient schemes for precision magnetometry. The Lipkin-Meshkov-Glick model was first introduced for superconductivity and for nuclear systems, and recently realised in several condensed matter platforms. The above metrological schemes can be also exploited to measure microscopic properties of systems able to simulate the Lipkin-Meshkov-Glick model.
翻訳日:2023-06-05 17:51:08 公開日:2023-06-01
# 知覚不能摂動による学習画像圧縮の再構成歪み

Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations ( http://arxiv.org/abs/2306.01125v1 )

ライセンス: Link先を確認
Yang Sui, Zhuohang Li, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Zhenzhong Chen(参考訳) Learned Image Compression (LIC)は近年,その顕著な性能から画像伝送のトレンド技術となっている。 その人気にもかかわらず、画像再構成の質に関するlicの堅牢性は未検討のままである。 本稿では,リコンの復元品質を効果的に低下させるため,再構成画像の任意のオブジェクトが事実上不可能なノイズにより,再構成画像が著しく破壊されるようにする。 具体的には、Frobeniusノルムに基づく損失関数を導入し、元の画像と再構成された逆例との差を最大化する。 さらに,人間の視覚に高周波成分の不感性を活用することで,摂動が目立たないことを保証するために,不感性制約(ic)を導入する。 様々なlicモデルを用いてkodakデータセット上で行った実験が有効性を示している。 さらに,今後の防御設計について,いくつかの知見と提案を行う。

Learned Image Compression (LIC) has recently become the trending technique for image transmission due to its notable performance. Despite its popularity, the robustness of LIC with respect to the quality of image reconstruction remains under-explored. In this paper, we introduce an imperceptible attack approach designed to effectively degrade the reconstruction quality of LIC, resulting in the reconstructed image being severely disrupted by noise where any object in the reconstructed images is virtually impossible. More specifically, we generate adversarial examples by introducing a Frobenius norm-based loss function to maximize the discrepancy between original images and reconstructed adversarial examples. Further, leveraging the insensitivity of high-frequency components to human vision, we introduce Imperceptibility Constraint (IC) to ensure that the perturbations remain inconspicuous. Experiments conducted on the Kodak dataset using various LIC models demonstrate effectiveness. In addition, we provide several findings and suggestions for designing future defenses.
翻訳日:2023-06-05 17:50:51 公開日:2023-06-01
# 経路依存型PDEを解くニューラルネットワークRDEモデル

A Neural RDE-based model for solving path-dependent PDEs ( http://arxiv.org/abs/2306.01123v1 )

ライセンス: Link先を確認
Bowen Fang, Hao Ni, Yue Wu(参考訳) 経路依存偏微分方程式(PPDE)の概念は、金融市場の経路依存微分の文脈で最初に導入された。 その半線型形式は後に非マルコフ的後方確率微分方程式 (BSDE) として同定された。 古典的な PDE と比較して、PPDE の解は無限次元空間変数を含むため、不可能ではないとしても近似が難しい。 本稿では,PPDE を学習するためのニューラル粗微分方程式 (NRDE) に基づくモデルを提案する。 提案したPPDEソリューションの連続時間モデルは、効率的なメモリ使用率と次元でスケールする能力の利点を提供する。 提案モデルの性能を文献の強い基準と比較するために,いくつかの数値実験を行い,その有効性を実証した。

The concept of the path-dependent partial differential equation (PPDE) was first introduced in the context of path-dependent derivatives in financial markets. Its semilinear form was later identified as a non-Markovian backward stochastic differential equation (BSDE). Compared to the classical PDE, the solution of a PPDE involves an infinite-dimensional spatial variable, making it challenging to approximate, if not impossible. In this paper, we propose a neural rough differential equation (NRDE)-based model to learn PPDEs, which effectively encodes the path information through the log-signature feature while capturing the fundamental dynamics. The proposed continuous-time model for the PPDE solution offers the benefits of efficient memory usage and the ability to scale with dimensionality. Several numerical experiments, provided to validate the performance of the proposed model in comparison to the strong baseline in the literature, are used to demonstrate its effectiveness.
翻訳日:2023-06-05 17:50:37 公開日:2023-06-01
# 座標上昇変分推論の収束について

On the Convergence of Coordinate Ascent Variational Inference ( http://arxiv.org/abs/2306.01122v1 )

ライセンス: Link先を確認
Anirban Bhattacharya, Debdeep Pati, Yun Yang(参考訳) マルコフ連鎖モンテカルロの計算的な代替として、変分推論(vi)は、同等の有効性と優れた効率性のため、大規模ベイズモデルにおける難解な後続分布を近似するためにますます普及している。 近年のいくつかの研究は、パラメータ推定の統計的最適性を様々な条件下で証明することで、VIの理論的正当性を証明している。 本稿では, 平均場(MF) VI を係数分布の空間上でのKullback-Leibler分散目的関数の最適化に向けて実装するための共通座標アセント変分推論(CAVI)アルゴリズムについて検討する。 2ブロックの場合に着目し,機能解析と最適化から広範なツールボックスを活用することでCAVIの収束を分析する。 我々はCAVIの大域的あるいは局所的な指数収束を証明するための一般的な条件を提供する。 具体的には、vi目的汎関数に影響を与える構成ブロック間の相互作用を特徴付ける新しい一般化相関の概念を導入し、理論により2ブロックcaviのアルゴリズム的収縮率を定量化する。 具体例として,開発理論をいくつかの例に適用し,アルゴリズム的収縮率の明示的な問題依存上界を導出する。

As a computational alternative to Markov chain Monte Carlo approaches, variational inference (VI) is becoming more and more popular for approximating intractable posterior distributions in large-scale Bayesian models due to its comparable efficacy and superior efficiency. Several recent works provide theoretical justifications of VI by proving its statistical optimality for parameter estimation under various settings; meanwhile, formal analysis on the algorithmic convergence aspects of VI is still largely lacking. In this paper, we consider the common coordinate ascent variational inference (CAVI) algorithm for implementing the mean-field (MF) VI towards optimizing a Kullback--Leibler divergence objective functional over the space of all factorized distributions. Focusing on the two-block case, we analyze the convergence of CAVI by leveraging the extensive toolbox from functional analysis and optimization. We provide general conditions for certifying global or local exponential convergence of CAVI. Specifically, a new notion of generalized correlation for characterizing the interaction between the constituting blocks in influencing the VI objective functional is introduced, which according to the theory, quantifies the algorithmic contraction rate of two-block CAVI. As illustrations, we apply the developed theory to a number of examples, and derive explicit problem-dependent upper bounds on the algorithmic contraction rate.
翻訳日:2023-06-05 17:50:24 公開日:2023-06-01
# エッジノード配置とワークロード割り当てのための量子ベース分散アルゴリズム

Quantum-based Distributed Algorithms for Edge Node Placement and Workload Allocation ( http://arxiv.org/abs/2306.01159v1 )

ライセンス: Link先を確認
Duong The Do and Ni Trieu and Duong Tung Nguyen(参考訳) エッジコンピューティングは、優れたユーザエクスペリエンスを提供し、様々な革新的なモノのインターネットアプリケーションを可能にする有望な技術である。 本稿では,npハードであることが知られている最適エッジサーバ配置とワークロード割り当てのための混合整数線形プログラミング(milp)モデルを提案する。 この目的のために,量子コンピューティングを用いてこの問題に対処する可能性を検討する。 しかし、既存の量子解法は制約のないバイナリプログラミングの問題に限られている。 この障害を克服するために、元の問題を2次非制約バイナリ最適化(QUBO)問題と線形プログラム(LP)サブプロブレムに分解するハイブリッド量子古典解を提案する。 QUBO問題は量子ソルバで解くことができ、LPサブプロブレムは従来のLPソルバで解くことができる。 数値実験により,エッジコンピューティングの複雑な最適化問題を解くために量子超越性を活用できることが実証された。

Edge computing is a promising technology that offers a superior user experience and enables various innovative Internet of Things applications. In this paper, we present a mixed-integer linear programming (MILP) model for optimal edge server placement and workload allocation, which is known to be NP-hard. To this end, we explore the possibility of addressing this computationally challenging problem using quantum computing. However, existing quantum solvers are limited to solving unconstrained binary programming problems. To overcome this obstacle, we propose a hybrid quantum-classical solution that decomposes the original problem into a quadratic unconstrained binary optimization (QUBO) problem and a linear program (LP) subproblem. The QUBO problem can be solved by a quantum solver, while the LP subproblem can be solved using traditional LP solvers. Our numerical experiments demonstrate the practicality of leveraging quantum supremacy to solve complex optimization problems in edge computing.
翻訳日:2023-06-05 17:44:38 公開日:2023-06-01
# 不均一知識に基づく拡張型モジュール強化学習

Augmented Modular Reinforcement Learning based on Heterogeneous Knowledge ( http://arxiv.org/abs/2306.01158v1 )

ライセンス: Link先を確認
Lorenz Wolf, Mirco Musolesi(参考訳) 強化学習(rl)の非効率を緩和するために,様々なタスクを遂行できるエージェントを導出するための異なる意思決定方針を構成するモジュラーアプローチが提案されている。 これらのアーキテクチャに基づくモジュールは一般的に再利用可能なもので、"プラグ・アンド・プレイ"統合も可能である。 しかし、そのようなソリューションにはルール、サブゴール、スキルといった複数の種類の情報(知識)を処理し統合する能力が欠けている。 これらの制約に対処するため、AMRL(Augmented Modular Reinforcement Learning)を提案する。 この新しいフレームワークは、仲裁器を使って異種モジュールを選択し、異なるタイプの知識をシームレスに組み込む。 さらに,選択機構の変種,すなわち,時間情報を利用する能力を付加したメモリ提示型調停器を導入する。 提案手法の確立と新しい環境の評価を行い,それらを深部RLアルゴリズムと比較した。 この結果から, 従来のモジュールRLを異種知識で拡張することにより, 性能改善を実現することができた。

In order to mitigate some of the inefficiencies of Reinforcement Learning (RL), modular approaches composing different decision-making policies to derive agents capable of performing a variety of tasks have been proposed. The modules at the basis of these architectures are generally reusable, also allowing for "plug-and-play" integration. However, such solutions still lack the ability to process and integrate multiple types of information (knowledge), such as rules, sub-goals, and skills. We propose Augmented Modular Reinforcement Learning (AMRL) to address these limitations. This new framework uses an arbitrator to select heterogeneous modules and seamlessly incorporate different types of knowledge. Additionally, we introduce a variation of the selection mechanism, namely the Memory-Augmented Arbitrator, which adds the capability of exploiting temporal information. We evaluate the proposed mechanisms on established as well as new environments and benchmark them against prominent deep RL algorithms. Our results demonstrate the performance improvements that can be achieved by augmenting traditional modular RL with other forms of heterogeneous knowledge.
翻訳日:2023-06-05 17:44:23 公開日:2023-06-01
# 非同定型隠れ結合によるdelphicオフライン強化学習

Delphic Offline Reinforcement Learning under Nonidentifiable Hidden Confounding ( http://arxiv.org/abs/2306.01157v1 )

ライセンス: Link先を確認
Aliz\'ee Pace, Hugo Y\`eche, Bernhard Sch\"olkopf, Gunnar R\"atsch, Guy Tennenholtz(参考訳) オフライン強化学習(RL)の顕著な課題は、隠れた共起の問題である: 観測されていない変数は、エージェントが取る行動と観察結果の両方に影響を及ぼす可能性がある。 隠れた結合は、データから引き出された因果的結論の有効性を損なう可能性があり、効果的なオフラインrlへの大きな障害となる。 本稿では,同定不能な設定において隠れた共起の問題に取り組む。 デルフィック不確実性(delphic uncertainty)とよばれる隠された共起バイアスによる不確実性の定義を,観測と整合する世界モデル上での変動を用いて提案し,よく知られた認識論的・随伴的不確実性と区別する。 提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築する。 提案手法は,観察されていない共同創設者の識別性を仮定せず,共起バイアスの低減を試みている。 本研究は、広範囲な実験を通じて、敗血症管理ベンチマークおよび電子健康記録におけるアプローチの有効性を実証する。 この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。

A prominent challenge of offline reinforcement learning (RL) is the issue of hidden confounding: unobserved variables may influence both the actions taken by the agent and the observed outcomes. Hidden confounding can compromise the validity of any causal conclusion drawn from data and presents a major obstacle to effective offline RL. In the present paper, we tackle the problem of hidden confounding in the nonidentifiable setting. We propose a definition of uncertainty due to hidden confounding bias, termed delphic uncertainty, which uses variation over world models compatible with the observations, and differentiate it from the well-known epistemic and aleatoric uncertainties. We derive a practical method for estimating the three types of uncertainties, and construct a pessimistic offline RL algorithm to account for them. Our method does not assume identifiability of the unobserved confounders, and attempts to reduce the amount of confounding bias. We demonstrate through extensive experiments and ablations the efficacy of our approach on a sepsis management benchmark, as well as on electronic health records. Our results suggest that nonidentifiable hidden confounding bias can be mitigated to improve offline RL solutions in practice.
翻訳日:2023-06-05 17:44:05 公開日:2023-06-01
# ディープリニアネットワーク学習のための勾配降下におけるparsimonyの法則

The Law of Parsimony in Gradient Descent for Learning Deep Linear Networks ( http://arxiv.org/abs/2306.01154v1 )

ライセンス: Link先を確認
Can Yaras, Peng Wang, Wei Hu, Zhihui Zhu, Laura Balzano, and Qing Qu(参考訳) 過去数年間、ディープネットワークのトレーニングで広く研究された現象は、従順解に対する勾配降下の暗黙のバイアスである。 本研究では,この現象を,深い線形ネットワークに焦点を絞ることで検討する。 本研究では,データに低次元構造を持つ場合の学習ダイナミクスにおける驚くべき「パリティの法則」を明らかにする。 具体的には、直交初期化から始まる勾配降下の進化は、すべての重み行列における特異ベクトル空間の最小部分にしか影響しないことを示す。 言い換えれば、学習プロセスは各重み行列の小さな不変部分空間内でのみ行われるが、すべての重みパラメータはトレーニングを通じて更新される。 この学習ダイナミクスの単純さは、効率的なトレーニングと深層ネットワークのより深い理解の両方に重大な影響を与える可能性がある。 まず,学習ダイナミクスの低次元構造を生かして,学習効率を大幅に向上させることができる。 より広いネットワークの利点を犠牲にすることなく、より小さく等価な深い線形ネットワークを構築することができる。 第二に、浅層から深層への表現の線形漸進的分離と集中を解明することにより、深層表現学習の理解を深める。 理論的結果を支持する数値実験も実施する。 実験のコードはhttps://github.com/cjyaras/lawofparsimony.comにある。

Over the past few years, an extensively studied phenomenon in training deep networks is the implicit bias of gradient descent towards parsimonious solutions. In this work, we investigate this phenomenon by narrowing our focus to deep linear networks. Through our analysis, we reveal a surprising "law of parsimony" in the learning dynamics when the data possesses low-dimensional structures. Specifically, we show that the evolution of gradient descent starting from orthogonal initialization only affects a minimal portion of singular vector spaces across all weight matrices. In other words, the learning process happens only within a small invariant subspace of each weight matrix, despite the fact that all weight parameters are updated throughout training. This simplicity in learning dynamics could have significant implications for both efficient training and a better understanding of deep networks. First, the analysis enables us to considerably improve training efficiency by taking advantage of the low-dimensional structure in learning dynamics. We can construct smaller, equivalent deep linear networks without sacrificing the benefits associated with the wider counterparts. Second, it allows us to better understand deep representation learning by elucidating the linear progressive separation and concentration of representations from shallow to deep layers. We also conduct numerical experiments to support our theoretical results. The code for our experiments can be found at https://github.com/cjyaras/lawofparsimony.
翻訳日:2023-06-05 17:43:43 公開日:2023-06-01
# 逐次後進推論による多様で忠実な知識に基づく対話生成

Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference ( http://arxiv.org/abs/2306.01153v1 )

ライセンス: Link先を確認
Yan Xu, Deqian Kong, Dehong Xu, Ziwei Ji, Bo Pang, Pascale Fung, Ying Nian Wu(参考訳) 事実知識を用いて多様性と忠実さで応答を生成する能力は、人間のような信頼できる対話システムを構築する上で最重要である。 共通戦略は、知識選択と応答生成を別々に最適化する2段階のパラダイムを採用し、これらの2つのタスクの固有の相関性を見落とし、条件付き変分法を利用して推論ネットワークを用いて知識選択と応答生成を協調的に最適化する。 本稿では,後続分布からおよそサンプリングすることで,知識を選択し,対話を生成する,逐次的後続推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。 他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。 この直感的で直感的なSPI推論手順は、応答生成モデルを直接クエリし、正確な知識選択と忠実な応答の生成を可能にする。 また,2つの共通対話データセット(ウィザード・オブ・ウィキペディアとホール-E)を用いた実験結果から,SPIが従来の強力なベースラインを自動評価と人的評価の両方で上回ることを示した。

The capability to generate responses with diversity and faithfulness using factual knowledge is paramount for creating a human-like, trustworthy dialogue system. Common strategies either adopt a two-step paradigm, which optimizes knowledge selection and response generation separately, and may overlook the inherent correlation between these two tasks, or leverage conditional variational method to jointly optimize knowledge selection and response generation by employing an inference network. In this paper, we present an end-to-end learning framework, termed Sequential Posterior Inference (SPI), capable of selecting knowledge and generating dialogues by approximately sampling from the posterior distribution. Unlike other methods, SPI does not require the inference network or assume a simple geometry of the posterior distribution. This straightforward and intuitive inference procedure of SPI directly queries the response generation model, allowing for accurate knowledge selection and generation of faithful responses. In addition to modeling contributions, our experimental results on two common dialogue datasets (Wizard of Wikipedia and Holl-E) demonstrate that SPI outperforms previous strong baselines according to both automatic and human evaluation metrics.
翻訳日:2023-06-05 17:43:24 公開日:2023-06-01
# 指示は読んだか? 授業学習におけるタスク定義の有効性再考

Did You Read the Instructions? Rethinking the Effectiveness of Task Definitions in Instruction Learning ( http://arxiv.org/abs/2306.01150v1 )

ライセンス: Link先を確認
Fan Yin, Jesse Vig, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Jason Wu(参考訳) 大規模言語モデル(LLM)は、目に見えないタスクを解決するために、自然言語命令に従うことで素晴らしいパフォーマンスを示している。 しかし、モデルがタスク定義を本当に理解しているか、そして、人間が書いた定義が最適かどうかは不明である。 本稿では,授業学習におけるタスク定義の役割を体系的に研究する。 まず,タスク定義のどの部分が最も重要かを理解するために,人間のアノテーションに通知されたアブレーション分析を行い,タスクの出力を記述する内容,特にラベル情報を削除すると,モデルの性能が著しく低下することがわかった。 次に,タスク定義を最小サポートトークン集合に圧縮する自動アルゴリズムを提案し,モデル性能を維持したり改良したりしながら,60\%のトークンを除去できることを示す。 これらの結果に基づき,(1)共通構造化形式におけるタスクのキー情報のみを提供する,(2)モデルの定義をより理解するためのメタチューニングステージを追加する,という2つの手法を提案する。 これら2つの戦略により、119の未認識のテストタスクに対して4.2ルージュlの改善を達成しました。

Large language models (LLMs) have shown impressive performance in following natural language instructions to solve unseen tasks. However, it remains unclear whether models truly understand task definitions and whether the human-written definitions are optimal. In this paper, we systematically study the role of task definitions in instruction learning. We first conduct an ablation analysis informed by human annotations to understand which parts of a task definition are most important, and find that model performance only drops substantially when removing contents describing the task output, in particular label information. Next, we propose an automatic algorithm to compress task definitions to a minimal supporting set of tokens, and find that 60\% of tokens can be removed while maintaining or even improving model performance. Based on these results, we propose two strategies to help models better leverage task instructions: (1) providing only key information for tasks in a common structured format, and (2) adding a meta-tuning stage to help the model better understand the definitions. With these two strategies, we achieve a 4.2 Rouge-L improvement over 119 unseen test tasks.
翻訳日:2023-06-05 17:43:01 公開日:2023-06-01
# AIライカビリティ保険とAIによるe-diagnosisシステムの例

AI Liability Insurance With an Example in AI-Powered E-diagnosis System ( http://arxiv.org/abs/2306.01149v1 )

ライセンス: Link先を確認
Yunfei Ge and Quanyan Zhu(参考訳) 人工知能(AI)は、複数の分野で注目を集めている。 ai駆動システムの不確実性とリスクは、彼らの大胆な採用に抵抗を生み出した。 潜在的な損害を補う経済ソリューションとして、ai責任保険は、日常生活へのaiの統合を強化する有望な市場である。 本研究では、AIによるE-diagnosisシステムを用いて、AI責任保険の研究を行う。 証拠に基づく数値分析を用いた定量的リスク評価モデルを提案する。 我々は,AI技術の信頼性基準について議論し,AI製品の特徴に対応するために必要な調整を提案する。 我々は、AI責任保険がコンプライアンス行動のインセンティブを与えるための規制メカニズムとして機能し、高品質なAIシステムの証明書として機能することを示します。 さらに,AIの本質的不確実性の動的進化を反映したプレミアム調整を提案する。 モラルハザード問題について議論し、AI責任保険の提案を行う。

Artificial Intelligence (AI) has received an increasing amount of attention in multiple areas. The uncertainties and risks in AI-powered systems have created reluctance in their wild adoption. As an economic solution to compensate for potential damages, AI liability insurance is a promising market to enhance the integration of AI into daily life. In this work, we use an AI-powered E-diagnosis system as an example to study AI liability insurance. We provide a quantitative risk assessment model with evidence-based numerical analysis. We discuss the insurability criteria for AI technologies and suggest necessary adjustments to accommodate the features of AI products. We show that AI liability insurance can act as a regulatory mechanism to incentivize compliant behaviors and serve as a certificate of high-quality AI systems. Furthermore, we suggest premium adjustment to reflect the dynamic evolution of the inherent uncertainty in AI. Moral hazard problems are discussed and suggestions for AI liability insurance are provided.
翻訳日:2023-06-05 17:42:44 公開日:2023-06-01
# ニューラルネットワークにおける意味的・視覚的アライメントの相違

Addressing Discrepancies in Semantic and Visual Alignment in Neural Networks ( http://arxiv.org/abs/2306.01148v1 )

ライセンス: Link先を確認
Natalie Abreu, Nathan Vaska, Victoria Helus(参考訳) 画像分類のタスクでは、ニューラルネットワークは主に視覚パターンに依存します。 堅牢なネットワークでは、視覚的に類似したクラスが同じように表現されることを期待する。 意味的に類似するクラスが視覚的に異なっていたり、類似しないクラスの間に視覚的類似性が存在するときの問題を考える。 本稿では,意味論的に類似したクラスと任意の(視覚的でない)意味的関係をよりよく整合させる目的で,データ拡張手法を提案する。 拡散に基づくセマンティックミキシングにおける最近の研究を活用して、2つのクラスのセマンティックハイブリットを生成し、これらのハイブリットを拡張データとしてトレーニングセットに追加する。 本手法は,あるクラスを類似表現されたクラスに切り替える方が容易であるという考えから,逆摂動データにおけるモデル性能を評価することにより,意味的アライメントが向上するかどうかを評価する。 その結果,提案手法を用いて意味的に類似したクラスのアライメントが増加することが示された。

For the task of image classification, neural networks primarily rely on visual patterns. In robust networks, we would expect for visually similar classes to be represented similarly. We consider the problem of when semantically similar classes are visually dissimilar, and when visual similarity is present among non-similar classes. We propose a data augmentation technique with the goal of better aligning semantically similar classes with arbitrary (non-visual) semantic relationships. We leverage recent work in diffusion-based semantic mixing to generate semantic hybrids of two classes, and these hybrids are added to the training set as augmented data. We evaluate whether the method increases semantic alignment by evaluating model performance on adversarially perturbed data, with the idea that it should be easier for an adversary to switch one class to a similarly represented class. Results demonstrate that there is an increase in alignment of semantically similar classes when using our proposed data augmentation method.
翻訳日:2023-06-05 17:42:28 公開日:2023-06-01
# 滑らかな単調ネットワーク

Smooth Monotonic Networks ( http://arxiv.org/abs/2306.01147v1 )

ライセンス: Link先を確認
Christian Igel(参考訳) 単調性制約は統計モデリングにおける強力な正則化器である。 コンピュータが支援する意思決定の公平性をサポートし、データ駆動科学モデルにおける可能性を高めることができる。 セミナル min-max (MM) ニューラルネットワークアーキテクチャは、単調性を保証するが、勾配が消えるため、トレーニング中に望ましくない局所最適状態に陥ることがしばしばある。 本稿では,この問題を緩和するスムーズな非線形性を用いたMMネットワークの簡易な修正を提案する。 結果として生じるスムーズなmin-max(SMM)ネットワークモジュールは、MMアーキテクチャから漸近近似特性を継承する。 エンドツーエンドでトレーニングされた大規模なディープラーニングシステムで使用することができる。 SMMモジュールは、モノトニックモデリングのための最先端のニューラルネットワークよりもはるかにシンプルで、計算量も少ない。 それでも我々の実験では、一般化性能の観点からは、代替神経および非神経アプローチに好適な比較を行いました。

Monotonicity constraints are powerful regularizers in statistical modelling. They can support fairness in computer supported decision making and increase plausibility in data-driven scientific models. The seminal min-max (MM) neural network architecture ensures monotonicity, but often gets stuck in undesired local optima during training because of vanishing gradients. We propose a simple modification of the MM network using strictly-increasing smooth non-linearities that alleviates this problem. The resulting smooth min-max (SMM) network module inherits the asymptotic approximation properties from the MM architecture. It can be used within larger deep learning systems trained end-to-end. The SMM module is considerably simpler and less computationally demanding than state-of-the-art neural networks for monotonic modelling. Still, in our experiments, it compared favorably to alternative neural and non-neural approaches in terms of generalization performance.
翻訳日:2023-06-05 17:42:01 公開日:2023-06-01
# 合成タスクデータを用いたマルチモーダル推論モデルの能力評価

Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data ( http://arxiv.org/abs/2306.01144v1 )

ライセンス: Link先を確認
Nathan Vaska, Victoria Helus(参考訳) 大規模言語と統合言語と視覚理解モデルの印象的な進歩と応用により、潜在的な推論能力を調べる方法の必要性が高まっている。 しかし、複雑なマルチモーダル推論タスクに対する自然に発生するデータ収集の難しさは、すでに学術データセットでカバーされていないタスクに対するAIメソッドの評価をボトルネックにしている。 本研究では,高解像度テキスト・画像生成の最近の進歩を活用し,マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。 このフレームワークをコンテキスト依存の異常データ生成に適用し、既存のデータセットではあまりカバーされていない課題タスクで合成データセットを作成する。 本手法によって生成されたデータに対して,最先端のビジュアル質問応答(vqa)モデルの性能をベンチマークし,そのタスクが扱いやすい一方で,通常のvqaタスクよりもコンテキスト依存異常検出タスクにおいて著しく性能が低下することを示す。

The impressive advances and applications of large language and joint language-and-visual understanding models has led to an increased need for methods of probing their potential reasoning capabilities. However, the difficulty of gather naturally-occurring data for complex multi-modal reasoning tasks bottlenecks the evaluation of AI methods on tasks which are not already covered by an academic dataset. In this work, we leverage recent advances in high resolution text-to-image generation to develop a framework for generating evaluation data for multi-modal reasoning tasks. We apply this framework to generate context-dependent anomaly data, creating a synthetic dataset on a challenging task which is not well covered by existing datasets. We benchmark the performance of a state-of-the-art visual question answering (VQA) model against data generated with this method, and demonstrate that while the task is tractable, the model performs significantly worse on the context-dependent anomaly detection task than on standard VQA tasks.
翻訳日:2023-06-05 17:41:39 公開日:2023-06-01
# 連続時間ガウス過程回帰による時間分解能を考慮したイベントベースビジュアルオドメトリー

Event-based Visual Odometry with Full Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v1 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-06-05 17:33:57 公開日:2023-06-01
# カオスアトラクションの不変性維持のためのニューラルオペレーターの訓練

Training neural operators to preserve invariant measures of chaotic attractors ( http://arxiv.org/abs/2306.01187v1 )

ライセンス: Link先を確認
Ruoxi Jiang, Peter Y. Lu, Elena Orlova, Rebecca Willett(参考訳) カオスシステムは、初期状態の小さな摂動がトラジェクトリを指数的な速度で発散させるため、長期の水平予測を難しくする。 この設定では、ニューラルネットワークオペレータは2乗誤差損失を最小限に抑えながら、正確な短期予測が可能でありながら、長い時間的地平線上での力学の統計的または構造的特性の再現に失敗し、縮退する結果をもたらすことができる。 本稿では,力学の時間不変な統計特性を特徴付けるカオス的アトラクタの不変測度を保存するための代替フレームワークを提案する。 具体的には,マルチ環境設定(各サンプル軌道がわずかに異なるダイナミクスによって制御される)において,ノイズデータを用いたトレーニングを行うための2つの新しい手法を検討する。 まず、観測されたダイナミクスとニューラルネットワークの出力との間の最適な輸送距離に基づく損失を提案する。 このアプローチでは、最適な輸送損失に含まれる統計的特徴を決定するために基礎となる物理学の専門知識が必要である。 第2に,特別な事前知識を必要としないコントラスト学習フレームワークは,最適移動アプローチと同様に,力学の統計的性質を保存できることを示した。 様々なカオス系において, 本手法はカオスアトラクタの不変測度を保存するための実証的手法である。

Chaotic systems make long-horizon forecasts difficult because small perturbations in initial conditions cause trajectories to diverge at an exponential rate. In this setting, neural operators trained to minimize squared error losses, while capable of accurate short-term forecasts, often fail to reproduce statistical or structural properties of the dynamics over longer time horizons and can yield degenerate results. In this paper, we propose an alternative framework designed to preserve invariant measures of chaotic attractors that characterize the time-invariant statistical properties of the dynamics. Specifically, in the multi-environment setting (where each sample trajectory is governed by slightly different dynamics), we consider two novel approaches to training with noisy data. First, we propose a loss based on the optimal transport distance between the observed dynamics and the neural operator outputs. This approach requires expert knowledge of the underlying physics to determine what statistical features should be included in the optimal transport loss. Second, we show that a contrastive learning framework, which does not require any specialized prior knowledge, can preserve statistical properties of the dynamics nearly as well as the optimal transport approach. On a variety of chaotic systems, our method is shown empirically to preserve invariant measures of chaotic attractors.
翻訳日:2023-06-05 17:33:40 公開日:2023-06-01
# ゼロショットパーソナリティ推定のためのGPT-3のシステム評価

Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation ( http://arxiv.org/abs/2306.01183v1 )

ライセンス: Link先を確認
Adithya V Ganesan, Yash Kumar Lal, August H{\aa}kan Nilsson, H. Andrew Schwartz(参考訳) 非常に大きな言語モデル(LLM)は、ゼロショット設定でのNLPタスクのスペクトルにおいて非常によく機能する。 しかしながら、人格特性の評価など、心理的概念の理解に依存する人間レベルのNLP問題に対する彼らの業績については、ほとんど分かっていない。 本研究では,GPT-3のゼロショット機能を用いて,ユーザのソーシャルメディア投稿からBig 5の性格特性を推定する。 系統的な実験により,ゼロショットgpt-3の性能は,プロンプトにその特性に関する知識を注入することで,より広い分類のために既存の事前学習されたsomaに近いことが判明した。 しかし、きめ細かい分類を提供するように促されると、その性能は単純な最も頻繁なクラス(mfc)ベースラインに近くなる。 我々はさらに、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、人間のNLPタスクにおけるLCMを改善する方法を提案する。

Very large language models (LLMs) perform extremely well on a spectrum of NLP tasks in a zero-shot setting. However, little is known about their performance on human-level NLP problems which rely on understanding psychological concepts, such as assessing personality traits. In this work, we investigate the zero-shot ability of GPT-3 to estimate the Big 5 personality traits from users' social media posts. Through a set of systematic experiments, we find that zero-shot GPT-3 performance is somewhat close to an existing pre-trained SotA for broad classification upon injecting knowledge about the trait in the prompts. However, when prompted to provide fine-grained classification, its performance drops to close to a simple most frequent class (MFC) baseline. We further analyze where GPT-3 performs better, as well as worse, than a pretrained lexical model, illustrating systematic errors that suggest ways to improve LLMs on human-level NLP tasks.
翻訳日:2023-06-05 17:33:18 公開日:2023-06-01
# TMI! 微調整モデル、事前訓練データから個人情報を漏洩

TMI! Finetuned Models Leak Private Information from their Pretraining Data ( http://arxiv.org/abs/2306.01181v1 )

ライセンス: Link先を確認
John Abascal, Stanley Wu, Alina Oprea, Jonathan Ullman(参考訳) トランスファー学習は、関連するタスクの微調整モデルの構築を支援するために、1つのタスクのためにトレーニングされた事前トレーニングされたモデルを活用する手段として、機械学習でますます普及しているテクニックである。 このパラダイムは機械学習において特にプライバシとして人気があり、事前訓練されたモデルは公開され、微調整のためのデータのみが機密視されている。 しかし、事前トレーニングに使用するデータがまだセンシティブであると考える理由があり、微調整されたモデルが事前トレーニングデータについてどの程度の情報漏えいするかを理解することが不可欠である。 本研究では,対戦相手が微調整されたモデルにのみアクセスでき,事前学習データのメンバシップを推測する新たな会員推論脅威モデルを提案する。 この脅威モデルを実現するために、下流タスクの予測に対する記憶済み事前学習サンプルの影響を利用した新しいメタ分類器ベースの攻撃TMIを実装した。 我々は、視覚と自然言語の両方のタスクにおいて、異なるプライバシによる微調整を含む複数のトランスファー学習設定でTMIを評価した。 評価の結果,TMIは,提案モデルに対するクエリアクセスを用いて,事前学習したサンプルのメンバシップを推測できることがわかった。

Transfer learning has become an increasingly popular technique in machine learning as a way to leverage a pretrained model trained for one task to assist with building a finetuned model for a related task. This paradigm has been especially popular for privacy in machine learning, where the pretrained model is considered public, and only the data for finetuning is considered sensitive. However, there are reasons to believe that the data used for pretraining is still sensitive, making it essential to understand how much information the finetuned model leaks about the pretraining data. In this work we propose a new membership-inference threat model where the adversary only has access to the finetuned model and would like to infer the membership of the pretraining data. To realize this threat model, we implement a novel metaclassifier-based attack, TMI, that leverages the influence of memorized pretraining samples on predictions in the downstream task. We evaluate TMI on both vision and natural language tasks across multiple transfer learning settings, including finetuning with differential privacy. Through our evaluation, we find that TMI can successfully infer membership of pretraining examples using query access to the finetuned model.
翻訳日:2023-06-05 17:33:02 公開日:2023-06-01
# スナップショット圧縮画像の協調的ハードウェア・プロンプト学習

Cooperative Hardware-Prompt Learning for Snapshot Compressive Imaging ( http://arxiv.org/abs/2306.01176v1 )

ライセンス: Link先を確認
Jiamian Wang, Zongliang Wu, Yulun Zhang, Xin Yuan, Tao Lin, Zhiqiang Tao(参考訳) スナップショット圧縮イメージングは、現実世界のハイパースペクトル信号を取得するための有望な技術として現れる。 光学エンコーダを用いて2次元計測を圧縮的に生成し、3次元ハイパースペクトルデータを深部再構成ネットワークをトレーニングすることで検索する。 既存の再構成モデルは、ハードウェアの摂動や置換に弱い単一ハードウェアインスタンスでトレーニングされ、物理的な構成に過度に適合する問題を示す。 この欠陥は、未確認のハードウェアに組み立てられた場合、大きなパフォーマンス劣化に悩まされるため、事前訓練されたモデルのデプロイを制限する。 新しいハードウェアによる再構築モデルをより容易にするため、従来の取り組みは、機関間の独占資産を扱う際には非現実的なマルチハードウエアとデータ収集による集中的なトレーニングに頼っていた。 これを踏まえて、フェデレートドラーニング(FL)は、プライバシーを破ることなく、クロスハードウェアな協調を可能にするための実現可能なソリューションとなっている。 しかしながら、単純なFedAvgは、ハードウェアの不整合を所有するデータの不均一性にクライアントのドリフトを受けます。 そこで本研究では,FLを用いた高速チューニングを併用して,初めて圧縮画像のスナップショット化を行い,FedHP(Federated Hardware-prompt Learning)手法を提案する。 学習多様体にのみ作用するが入力データ空間に根ざした不均一性には触れない勾配を修正してクライアントドリフトを緩和する代わりに、提案するfedhpは、異なる予め定義された符号化された開口部から生じるデータ不整合の指標となる、データ分布を調整するためのハードウェアコンディショニングプロンサをグローバルに学習する。 広範な実験により,提案手法が事前学習したモデルをよく調整し,ハードウェア構成を不確定化することを示した。

Snapshot compressive imaging emerges as a promising technology for acquiring real-world hyperspectral signals. It uses an optical encoder and compressively produces the 2D measurement, followed by which the 3D hyperspectral data can be retrieved via training a deep reconstruction network. Existing reconstruction models are trained with a single hardware instance, whose performance is vulnerable to hardware perturbation or replacement, demonstrating an overfitting issue to the physical configuration. This defect limits the deployment of pre-trained models since they would suffer from large performance degradation when are assembled to unseen hardware. To better facilitate the reconstruction model with new hardware, previous efforts resort to centralized training by collecting multi-hardware and data, which is impractical when dealing with proprietary assets among institutions. In light of this, federated learning (FL) has become a feasible solution to enable cross-hardware cooperation without breaking privacy. However, the naive FedAvg is subject to client drift upon data heterogeneity owning to the hardware inconsistency. In this work, we tackle this challenge by marrying prompt tuning with FL to snapshot compressive imaging for the first time and propose an federated hardware-prompt learning (FedHP) method. Rather than mitigating the client drift by rectifying the gradients, which only takes effect on the learning manifold but fails to touch the heterogeneity rooted in the input data space, the proposed FedHP globally learns a hardware-conditioned prompter to align the data distribution, which serves as an indicator of the data inconsistency stemming from different pre-defined coded apertures. Extensive experiments demonstrate that the proposed method well coordinates the pre-trained model to indeterminate hardware configurations.
翻訳日:2023-06-05 17:32:42 公開日:2023-06-01
# ニューラル理想大渦シミュレーション:ニューラル確率微分方程式による乱流のモデル化

Neural Ideal Large Eddy Simulation: Modeling Turbulence with Neural Stochastic Differential Equations ( http://arxiv.org/abs/2306.01174v1 )

ライセンス: Link先を確認
Anudhyan Boral, Zhong Yi Wan, Leonardo Zepeda-N\'u\~nez, James Lottes, Qing Wang, Yi-fan Chen, John Roberts Anderson, Fei Sha(参考訳) 本稿では,乱流閉包モデルからの理想的な大渦シミュレーション(LES)と確率的モデリングのためのニューラル確率微分方程式(SDE)の2つの強力なアイデアを同化するデータ駆動学習フレームワークを提案する。 理想的なLESは、各全階軌道を基礎となる力学のランダムな実現として扱うことでLESの流れをモデル化する。 しかし、理想 les は解析的に難解である。 本研究では、確率過程の進化をモデル化するために潜時ニューラルネットワークSDEと、潜時空間と所望の理想の流れ場の間の変換のためのエンコーダデコーダペアを用いる。 これは、各軌道が力学の決定論的実現として扱われる閉包モデルの他のタイプの神経パラメータ化とは対照的である。 我々のアプローチ (niLES - Neural ideal LES) のカオス力学系に対する効果を示す: Kolmogorov flow at a Reynolds number 20,000。 競合する手法と比較して,非構造メッシュを用いて不均一なジオメトリをシームレスに処理できる。 特にナイルズはより正確な統計量を持つ軌道につながり、特に長いホリゾンのロールアウトにおいて安定性を高めている。

We introduce a data-driven learning framework that assimilates two powerful ideas: ideal large eddy simulation (LES) from turbulence closure modeling and neural stochastic differential equations (SDE) for stochastic modeling. The ideal LES models the LES flow by treating each full-order trajectory as a random realization of the underlying dynamics, as such, the effect of small-scales is marginalized to obtain the deterministic evolution of the LES state. However, ideal LES is analytically intractable. In our work, we use a latent neural SDE to model the evolution of the stochastic process and an encoder-decoder pair for transforming between the latent space and the desired ideal flow field. This stands in sharp contrast to other types of neural parameterization of closure models where each trajectory is treated as a deterministic realization of the dynamics. We show the effectiveness of our approach (niLES - neural ideal LES) on a challenging chaotic dynamical system: Kolmogorov flow at a Reynolds number of 20,000. Compared to competing methods, our method can handle non-uniform geometries using unstructured meshes seamlessly. In particular, niLES leads to trajectories with more accurate statistics and enhances stability, particularly for long-horizon rollouts.
翻訳日:2023-06-05 17:32:11 公開日:2023-06-01
# C2F-FARとChatGPTを用いたハイブリッド長文要約 : 実践的研究

Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study ( http://arxiv.org/abs/2306.01169v1 )

ライセンス: Link先を確認
Guang Lu, Sylvia B. Larcher, Tu Tran(参考訳) テキスト要約は、言語モデルの理解と生成能力に挑戦する下流自然言語処理(NLP)タスクである。 ニュース記事のような短い文章を自動的に要約することでかなりの進歩があり、しばしば満足のいく結果に繋がる。 しかし、長い文書の要約は依然として大きな課題である。 これは、テキスト内の複雑なコンテキスト情報と、モデルパフォーマンスの開発とテストに使用できるオープンソースのベンチマークデータセットや評価フレームワークが欠如していることによるものだ。 本研究では,大規模言語モデル(LLM)分野における最新のブレークスルーであるChatGPTと,抽出要約モデルC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)を併用して,ビジネス記事や書籍などの長期文書を対象としたハイブリッド抽出と要約パイプラインを提案する。 私たちは世界有数の企業である getAbstract AG と協力して,専門的な書籍要約の専門知識と経験を活用しています。 実践的な研究により,現在の自動評価指標を用いて評価すると,機械生成サマリーは少なくとも人書きサマリーと同等の性能を発揮することが示されている。 しかし,ChatGPTが人間による評価を通じて生成したテキストについてより精査した結果,テキストのコヒーレンス,忠実性,スタイルにはまだ重要な問題があることが判明した。 以上の結果から,ChatGPTの使用は長い文書を要約するための非常に有望なアプローチであり,人間の編集者のインスピレーションとなることが示唆された。 我々は,長い文書を要約するChatGPTの能力が,実践者のニーズとどのように重複しているかを,NLP研究者に知らせることを期待している。 提案したハイブリッド要約パイプライン(特にGPT-4を含む)のテストや,長い文書の要約作業に適した新たな評価フレームワークの提案には,さらなる作業が必要である。

Text summarization is a downstream natural language processing (NLP) task that challenges the understanding and generation capabilities of language models. Considerable progress has been made in automatically summarizing short texts, such as news articles, often leading to satisfactory results. However, summarizing long documents remains a major challenge. This is due to the complex contextual information in the text and the lack of open-source benchmarking datasets and evaluation frameworks that can be used to develop and test model performance. In this work, we use ChatGPT, the latest breakthrough in the field of large language models (LLMs), together with the extractive summarization model C2F-FAR (Coarse-to-Fine Facet-Aware Ranking) to propose a hybrid extraction and summarization pipeline for long documents such as business articles and books. We work with the world-renowned company getAbstract AG and leverage their expertise and experience in professional book summarization. A practical study has shown that machine-generated summaries can perform at least as well as human-written summaries when evaluated using current automated evaluation metrics. However, a closer examination of the texts generated by ChatGPT through human evaluations has shown that there are still critical issues in terms of text coherence, faithfulness, and style. Overall, our results show that the use of ChatGPT is a very promising but not yet mature approach for summarizing long documents and can at best serve as an inspiration for human editors. We anticipate that our work will inform NLP researchers about the extent to which ChatGPT's capabilities for summarizing long documents overlap with practitioners' needs. Further work is needed to test the proposed hybrid summarization pipeline, in particular involving GPT-4, and to propose a new evaluation framework tailored to the task of summarizing long documents.
翻訳日:2023-06-05 17:31:48 公開日:2023-06-01
# YouTube上の公衆衛生検査のための自然言語処理の活用:COVID-19のケーススタディ

Leveraging Natural Language Processing For Public Health Screening On YouTube: A COVID-19 Case Study ( http://arxiv.org/abs/2306.01164v1 )

ライセンス: Link先を確認
Ahrar Bin Aslam (1), Zafi Sherhan Syed (1), Muhammad Faiz Khan (1), Asghar Baloch (1), and Muhammad Shehram Shah Syed (1) ((1) Mehran University of Engineering and Technology)(参考訳) 背景: ソーシャルメディアプラットフォームは医療情報の有効な情報源となり、患者や医療専門家が医療関連情報を共有し、病気を追跡できるようになっている。 同様に、世界最大のビデオ共有プラットフォームであるyoutubeには、個人が病気について話すvlogが含まれている。 本研究の目的は、2019年の新型コロナウイルス(covid-19)の診断に関連するyoutube vlogの音声コンテンツの特定に自然言語処理(nlp)を用いた公衆衛生スクリーニングを行うことである。 方法:YouTube上のCOVID-19ビデオは関連キーワードを使って検索された。 英語で話されている合計1000本のビデオがダウンロードされ、そのうち791本がvlog、192本が非vlog、17本がチャンネルによって削除された。 ビデオはMicrosoft Streamsを使ってテキストフォーマットに変換された。 テキストデータは基礎的および高度な前処理法を用いて前処理された。 新型コロナウイルスに関連する言葉を含む200語からなる辞書が作成された。 データはトピックモデリング、ワードクラウド、辞書マッチングを用いて分析された。 結果:"マスク"や"アイソレーション"といった一般的な用語とともに、新型コロナウイルスの症状に関する議論が明らかになった。 語彙分析では、96.46%の患者が一般的な用語を話し、95.45%の患者が新型コロナウイルスの症状について話した。 LDA Topic Modelingの結果は、YouTubeのvlogsにおけるCOVID-19の診断に関する主要なテーマとコンテンツをうまく捉えたトピックも生成した。 結論:YouTubeのvlogにNLP技術を活用することで、公衆衛生実践者はパンデミックの影響を緩和し、公衆衛生上の課題に効果的に対応する能力を高めることができる。

Background: Social media platforms have become a viable source of medical information, with patients and healthcare professionals using them to share health-related information and track diseases. Similarly, YouTube, the largest video-sharing platform in the world contains vlogs where individuals talk about their illnesses. The aim of our study was to investigate the use of Natural Language Processing (NLP) to identify the spoken content of YouTube vlogs related to the diagnosis of Coronavirus disease of 2019 (COVID-19) for public health screening. Methods: COVID-19 videos on YouTube were searched using relevant keywords. A total of 1000 videos being spoken in English were downloaded out of which 791 were classified as vlogs, 192 were non-vlogs, and 17 were deleted by the channel. The videos were converted into a textual format using Microsoft Streams. The textual data was preprocessed using basic and advanced preprocessing methods. A lexicon of 200 words was created which contained words related to COVID-19. The data was analyzed using topic modeling, word clouds, and lexicon matching. Results: The word cloud results revealed discussions about COVID-19 symptoms like "fever", along with generic terms such as "mask" and "isolation". Lexical analysis demonstrated that in 96.46% of videos, patients discussed generic terms, and in 95.45% of videos, people talked about COVID-19 symptoms. LDA Topic Modeling results also generated topics that successfully captured key themes and content related to our investigation of COVID-19 diagnoses in YouTube vlogs. Conclusion: By leveraging NLP techniques on YouTube vlogs public health practitioners can enhance their ability to mitigate the effects of pandemics and effectively respond to public health challenges.
翻訳日:2023-06-05 17:31:17 公開日:2023-06-01
# エッジ人工知能のための統合センシング通信計算

Integrated Sensing-Communication-Computation for Edge Artificial Intelligence ( http://arxiv.org/abs/2306.01162v1 )

ライセンス: Link先を確認
Dingzhu Wen, Xiaoyang Li, Yong Zhou, Yuanming Shi, Sheng Wu, and Chunxiao Jiang(参考訳) エッジ人工知能(AI)は、あらゆるインテリジェンスを達成するために、デジタルツイン、ホログラム投影、セマンティックコミュニケーション、自動運転といった一連の高度な技術を強化するために、6Gに対する有望なソリューションである。 エッジ学習やエッジAI推論を含むエッジAIタスクのパフォーマンスは、データ取得のセンシング、情報抽出の計算、情報伝達の通信という3つの高度に結合されたプロセスの品質に依存する。 しかし、これらの3つのモジュールは、サービスの品質を向上させるためにネットワークリソースと競合する必要がある。 この目的のために、統合センシング通信計算(ISCC)は、リソース利用の改善と、エッジAIタスクのカスタマイズされた目標達成に最重要となる。 本稿では,これら3つのモジュール間の相互作用を調べることにより,アプリケーション層と物理層の両方において,融合エッジ学習タスクとエッジai推論タスクのための各種isccスキームを提案する。

Edge artificial intelligence (AI) has been a promising solution towards 6G to empower a series of advanced techniques such as digital twin, holographic projection, semantic communications, and auto-driving, for achieving intelligence of everything. The performance of edge AI tasks, including edge learning and edge AI inference, depends on the quality of three highly coupled processes, i.e., sensing for data acquisition, computation for information extraction, and communication for information transmission. However, these three modules need to compete for network resources for enhancing their own quality-of-services. To this end, integrated sensing-communication-computation (ISCC) is of paramount significance for improving resource utilization as well as achieving the customized goals of edge AI tasks. By investigating the interplay among the three modules, this article presents various kinds of ISCC schemes for federated edge learning tasks and edge AI inference tasks in both application and physical layers.
翻訳日:2023-06-05 17:30:47 公開日:2023-06-01
# スパースフラッシュアテンションによる大規模シーケンスに対するより高速な因果注意

Faster Causal Attention Over Large Sequences Through Sparse Flash Attention ( http://arxiv.org/abs/2306.01160v1 )

ライセンス: Link先を確認
Matteo Pagliardini, Daniele Paliotta, Martin Jaggi, Fran\c{c}ois Fleuret(参考訳) トランスフォーマーベースの言語モデルは、長いシーケンスを処理しなければならない様々なアプリケーションを見出している。 これらのアプリケーションでは、シーケンス長を二次的にスケーリングする唯一のコンポーネントである因果的自己アテンション(causal self-attention)が中心的関心事となる。 多くの作品では注意パターンのスパース化と自己注意の計算オーバーヘッドの削減が提案されているが、それらはしばしば実装上の懸念によって制限され、注意行列の上にシンプルで静的な構造を課すことになる。 逆に、よりダイナミックなスパース・アテンションを実装すると、daoら(2022年)のflash実装を使ったフルアテンションの計算よりもランタイムが大幅に遅くなります。 FlashAttentionを拡張して、特にキー/クエリのドロップやハッシュベースのアテンションを含む、大規模な注目空間パターンに対応します。 これにより、計算の複雑さのオーバーヘッドがなく、FlashAttention上でのランタイムの高速化が実現する。 比較的低いスパース度であっても, 配列長の増加に伴ってフラッシュアテンションを可視的に改善する。 複雑さを犠牲にすることなく、トランスフォーマー言語モデルのトレーニング速度を$2.0\times$と$3.3\times$で、それぞれ$8k$と$16k$トークンのシーケンスで増加させます。

Transformer-based language models have found many diverse applications requiring them to process sequences of increasing length. For these applications, the causal self-attention -- which is the only component scaling quadratically w.r.t. the sequence length -- becomes a central concern. While many works have proposed schemes to sparsify the attention patterns and reduce the computational overhead of self-attention, those are often limited by implementations concerns and end up imposing a simple and static structure over the attention matrix. Conversely, implementing more dynamic sparse attentions often results in runtimes significantly slower than computing the full attention using the Flash implementation from Dao et al. (2022). We extend FlashAttention to accommodate a large class of attention sparsity patterns that, in particular, encompass key/query dropping and hashing-based attention. This leads to implementations with no computational complexity overhead and a multi-fold runtime speedup on top of FlashAttention. Even with relatively low degrees of sparsity, our method improves visibly upon FlashAttention as the sequence length increases. Without sacrificing perplexity, we increase the training speed of a transformer language model by $2.0\times$ and $3.3\times$ for sequences of respectively $8k$ and $16k$ tokens.
翻訳日:2023-06-05 17:30:29 公開日:2023-06-01
# SelFLoc: 大規模クラウドによる位置認識のための選択的特徴融合

SelFLoc: Selective Feature Fusion for Large-scale Point Cloud-based Place Recognition ( http://arxiv.org/abs/2306.01205v1 )

ライセンス: Link先を確認
Qibo Qiu, Haiming Gao, Wenxiao Wang, Zhiyi Su, Tian Xie, Wei Hua, and Xiaofei He(参考訳) ポイントクラウドベースの位置認識は、特にグローバル位置センサがアクセスできない場合、モバイルロボットや自動運転車にとって不可欠である。 物体や建物の表面にはLiDARの点が散在しており、異なる軸に沿って強い形状の先行している。 特定の軸に沿ったメッセージパッシングを改善するために,本論文の主なコントリビューションの一つであるSACB(Stacked Asymmetric Convolution Block)が設計されている。 包括的な実験により、非対称畳み込みとそのsacbが採用する戦略が、ポイントクラウド機能のより効果的な表現に寄与できることが示されている。 そこで本研究では,特定のキー領域における局所的特徴を選択的に高め,融合前の特徴を整列するために,ポイント・チャネル・ワイズ・ゲーティング層を予め定義された配列に積み重ねて形成した選択的特徴融合ブロック(sffb)を提案する。 SACBとSFFBは、SelFLocと呼ばれるポイントクラウドベースの位置認識のための堅牢で正確なアーキテクチャを構築するために結合される。 比較実験の結果、selflocはoxfordや他の3つの社内ベンチマークにおいて、平均リコール@1で1.6の絶対パーセンテージの改善で最先端(sota)のパフォーマンスを達成していることがわかった。

Point cloud-based place recognition is crucial for mobile robots and autonomous vehicles, especially when the global positioning sensor is not accessible. LiDAR points are scattered on the surface of objects and buildings, which have strong shape priors along different axes. To enhance message passing along particular axes, Stacked Asymmetric Convolution Block (SACB) is designed, which is one of the main contributions in this paper. Comprehensive experiments demonstrate that asymmetric convolution and its corresponding strategies employed by SACB can contribute to the more effective representation of point cloud feature. On this basis, Selective Feature Fusion Block (SFFB), which is formed by stacking point- and channel-wise gating layers in a predefined sequence, is proposed to selectively boost salient local features in certain key regions, as well as to align the features before fusion phase. SACBs and SFFBs are combined to construct a robust and accurate architecture for point cloud-based place recognition, which is termed SelFLoc. Comparative experimental results show that SelFLoc achieves the state-of-the-art (SOTA) performance on the Oxford and other three in-house benchmarks with an improvement of 1.6 absolute percentages on mean average recall@1.
翻訳日:2023-06-05 17:24:00 公開日:2023-06-01
# 物理インフォームド・ユニセットによる不均一材料中の隠れ弾性の発見

Physics-informed UNets for Discovering Hidden Elasticity in Heterogeneous Materials ( http://arxiv.org/abs/2306.01204v1 )

ライセンス: Link先を確認
Ali Kamali, Kaveh Laksari(参考訳) 軟質の生体組織は、しばしば構造成分の変化による複雑な機械的特性を持つ。 本稿では, 入力画像, 通常の応力境界条件, ドメイン物理情報から, 機械的パラメータの空間分布を推定するための, 弾性の反転(El-UNet)のための新しいUNetベースニューラルネットワークモデルを開発する。 等方的線形弾性に対する未知パラメータと応力分布の推定において,El-UNetの精度と計算コストの両面において,完全連結な物理情報ニューラルネットワークと比較して優れた性能を示す。 我々は,el-unetの異なるバリエーションを特徴付け,自己適応型空間損失重み付け手法を提案する。 インバージョンモデルを検証するため, 材料パラメータの異種分布を持つ等方性領域の有限要素シミュレーションを行い, 合成データを生成する。 El-UNetは、未知のフィールドの分布を解く際に、完全に接続された物理インフォームの実装よりも高速で正確である。 実験されたモデルのうち、自己適応型空間重み付けモデルが最も正確な復元を等しい計算時間で行った。 学習した空間重み分布は,非重み付けモデルが不正確に解いている領域と明確に一致した。 本研究では,畳み込みニューラルネットワークを用いた弾性イメージングのための計算効率の高い逆変換アルゴリズムを示し,従来提案してきた手法では達成できなかった3次元逆弾性問題に対する潜在的高速枠組みを提案する。

Soft biological tissues often have complex mechanical properties due to variation in structural components. In this paper, we develop a novel UNet-based neural network model for inversion in elasticity (El-UNet) to infer the spatial distributions of mechanical parameters from strain maps as input images, normal stress boundary conditions, and domain physics information. We show superior performance, both in terms of accuracy and computational cost, by El-UNet compared to fully-connected physics-informed neural networks in estimating unknown parameters and stress distributions for isotropic linear elasticity. We characterize different variations of El-UNet and propose a self-adaptive spatial loss weighting approach. To validate our inversion models, we performed various finite-element simulations of isotropic domains with heterogenous distributions of material parameters to generate synthetic data. El-UNet is faster and more accurate than the fully-connected physics-informed implementation in resolving the distribution of unknown fields. Among the tested models, the self-adaptive spatially weighted models had the most accurate reconstructions in equal computation times. The learned spatial weighting distribution visibly corresponded to regions that the unweighted models were resolving inaccurately. Our work demonstrates a computationally efficient inversion algorithm for elasticity imaging using convolutional neural networks and presents a potential fast framework for three-dimensional inverse elasticity problems that have proven unachievable through previously proposed methods.
翻訳日:2023-06-05 17:23:36 公開日:2023-06-01
# 発話の学習:オフラインモデルを用いた同時音声合成のためのレイテンシと品質トレードオフ

Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models ( http://arxiv.org/abs/2306.01201v1 )

ライセンス: Link先を確認
Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan(参考訳) 音声から音声への翻訳(s2st)における最近の研究は、オフラインの設定に重点を置いている。 しかし、これは多くの現実世界のシナリオでは妥当ではない。 完全な発話を待つのではなく、レイテンシに敏感なアプリケーションでは、入力の情報が存在するとすぐに翻訳が話される。 本研究では,実世界のユースケースを対象とした同時S2STシステムを提案する。 我々のシステムは、出力シーケンスをいつ話すかを決定する4つのポリシーを含む、出力のレイテンシを動的に調整可能なパラメータで57言語から英語への翻訳をサポートする。 これらのポリシーは,Greedy(wait-$k$)ベースライン上でのレイテンシの増加を最小限に抑え,オフラインレベルの精度を実現する。 我々は、将来のSimulS2ST研究とアプリケーション開発を支援するために、評価コードとインタラクティブなテストスクリプトをオープンソース化する。

Recent work in speech-to-speech translation (S2ST) has focused primarily on offline settings, where the full input utterance is available before any output is given. This, however, is not reasonable in many real-world scenarios. In latency-sensitive applications, rather than waiting for the full utterance, translations should be spoken as soon as the information in the input is present. In this work, we introduce a system for simultaneous S2ST targeting real-world use cases. Our system supports translation from 57 languages to English with tunable parameters for dynamically adjusting the latency of the output -- including four policies for determining when to speak an output sequence. We show that these policies achieve offline-level accuracy with minimal increases in latency over a Greedy (wait-$k$) baseline. We open-source our evaluation code and interactive test script to aid future SimulS2ST research and application development.
翻訳日:2023-06-05 17:23:14 公開日:2023-06-01
# インコンテキスト学習によるテキスト要約の多次元評価

Multi-Dimensional Evaluation of Text Summarization with In-Context Learning ( http://arxiv.org/abs/2306.01200v1 )

ライセンス: Link先を確認
Sameer Jain, Vaishakh Keshava, Swarnashree Mysore Sathyendra, Patrick Fernandes, Pengfei Liu, Graham Neubig and Chunting Zhou(参考訳) 自然言語生成(NLG)の評価は複雑で多次元である。 生成されたテキストは、流布、コヒーレンス、事実性、その他の興味のある次元に対して評価することができる。 このような多次元評価を行うほとんどのフレームワークは、手作業または合成生成されたデータセットのトレーニングを必要とする。 本稿では,大規模学習データセットの必要性を回避し,文脈内学習を用いた多次元評価器としての大規模言語モデルの有効性を検討する。 本実験は,テキスト要約作業における学習評価フレームワークと,関連性や事実整合性といった次元の最先端性を確立することを目的とした。 次に,コンテキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。 最後に,GPT-3 などの大規模言語モデルによるゼロショット要約の評価において,文脈内学習に基づく評価器の有効性を検討した。

Evaluation of natural language generation (NLG) is complex and multi-dimensional. Generated text can be evaluated for fluency, coherence, factuality, or any other dimensions of interest. Most frameworks that perform such multi-dimensional evaluation require training on large manually or synthetically generated datasets. In this paper, we study the efficacy of large language models as multi-dimensional evaluators using in-context learning, obviating the need for large training datasets. Our experiments show that in-context learning-based evaluators are competitive with learned evaluation frameworks for the task of text summarization, establishing state-of-the-art on dimensions such as relevance and factual consistency. We then analyze the effects of factors such as the selection and number of in-context examples on performance. Finally, we study the efficacy of in-context learning based evaluators in evaluating zero-shot summaries written by large language models such as GPT-3.
翻訳日:2023-06-05 17:23:00 公開日:2023-06-01
# マッチング作業におけるエラー率の信頼区間:批判的レビューと勧告

Confidence Intervals for Error Rates in Matching Tasks: Critical Review and Recommendations ( http://arxiv.org/abs/2306.01198v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Pietro Perona(参考訳) マッチングアルゴリズムは、コレクション内のアイテム間のマッチングを予測するために一般的に使用される。 例えば、1:1の顔認証では、マッチングアルゴリズムが2つの顔画像が同一人物を表すかどうかを予測する。 このようなアルゴリズムの誤り率の不確実性を正確に評価することは、データが依存していてエラー率が低い場合には困難であり、文献でしばしば見過ごされている2つの側面がある。 本研究では,1:1の顔認証などのタスクにおける誤り率に対する信頼区間を構築する手法について検討する。 提案手法の統計的特性を導出し, サンプルサイズ, 誤差率, およびデータ依存度に応じて, 実世界と実世界の両方のデータセットを用いて, 範囲と間隔幅がいかに異なるかを示す。 そこで本研究では,マッチングタスクにおける誤り率の信頼区間を構築するためのベストプラクティスを提案する。

Matching algorithms are commonly used to predict matches between items in a collection. For example, in 1:1 face verification, a matching algorithm predicts whether two face images depict the same person. Accurately assessing the uncertainty of the error rates of such algorithms can be challenging when data are dependent and error rates are low, two aspects that have been often overlooked in the literature. In this work, we review methods for constructing confidence intervals for error rates in matching tasks such as 1:1 face verification. We derive and examine the statistical properties of these methods and demonstrate how coverage and interval width vary with sample size, error rates, and degree of data dependence using both synthetic and real-world datasets. Based on our findings, we provide recommendations for best practices for constructing confidence intervals for error rates in matching tasks.
翻訳日:2023-06-05 17:22:45 公開日:2023-06-01
# 生存モデルを評価する効果的な方法

An Effective Meaningful Way to Evaluate Survival Models ( http://arxiv.org/abs/2306.01196v1 )

ライセンス: Link先を確認
Shi-ang Qi, Neeraj Kumar, Mahtab Farrokh, Weijie Sun, Li-Hao Kuan, Rajesh Ranganath, Ricardo Henao, Russell Greiner(参考訳) 生存予測モデルを評価するための簡単な指標の1つは、平均絶対誤差(MAE)に基づいており、モデルによって予測される時間と真のイベント時間との絶対差の平均である。 残念ながら、このテストセットには(正しい)検閲された個人が含まれているため、これは難しい。 本稿では,検閲された個人を含む生存データセットのMAEを推定するための様々な指標について検討する。 さらに,メトリクスの評価を容易にするために,リアルな半合成サバイバルデータセットを生成する新しい効果的手法を提案する。 半合成データセットの分析結果から,提案した測定値(擬似観測値を用いたMAE)が,その性能に基づいて精度よくモデルにランク付けでき,真のMAEとよく一致することが判明した。

One straightforward metric to evaluate a survival prediction model is based on the Mean Absolute Error (MAE) -- the average of the absolute difference between the time predicted by the model and the true event time, over all subjects. Unfortunately, this is challenging because, in practice, the test set includes (right) censored individuals, meaning we do not know when a censored individual actually experienced the event. In this paper, we explore various metrics to estimate MAE for survival datasets that include (many) censored individuals. Moreover, we introduce a novel and effective approach for generating realistic semi-synthetic survival datasets to facilitate the evaluation of metrics. Our findings, based on the analysis of the semi-synthetic datasets, reveal that our proposed metric (MAE using pseudo-observations) is able to rank models accurately based on their performance, and often closely matches the true MAE -- in particular, is better than several alternative methods.
翻訳日:2023-06-05 17:22:31 公開日:2023-06-01
# 視覚言語モデルのための一貫性誘導型プロンプト学習

Consistency-guided Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2306.01195v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) そこで本稿では,視覚言語モデルのための新しい微調整手法copromptを提案する。これは,数ショット設定で下流タスクを微調整しながら,大規模基礎モデルの一般化能力向上の課題に対処するものである。 CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。 さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。 摂動入力における一貫性の強化は、一貫性の制約をさらに規則化し、最適化を効果的に改善すると同時に、プロンプトとアダプタによる追加パラメータのチューニングにより、下流タスクのパフォーマンスが向上する。 広範な実験により、copromptは、ベース・ツー・ノベルの一般化、ドメインの一般化、データセット間の評価タスクなど、さまざまな評価スイートで既存のメソッドよりも優れていることが示されている。 一般化タスクでは、CoPromptはゼロショットタスクで2.09%、11の認識データセットで1.93%改善している。 詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。

We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models that addresses the challenge of improving the generalization capability of large foundation models while fine-tuning them on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input further regularizes the consistency constraint, effectively improving generalization, while tuning additional parameters with prompting and adapters improves the performance on downstream tasks. Extensive experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation tasks. On the generalization task, CoPrompt improves the state-of-the-art by 2.09% on the zero-shot task and 1.93% on the harmonic mean over 11 recognition datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt.
翻訳日:2023-06-05 17:22:15 公開日:2023-06-01
# 部分ラベルデータによる共形予測

Conformal Prediction with Partially Labeled Data ( http://arxiv.org/abs/2306.01191v1 )

ライセンス: Link先を確認
Alireza Javanmardi, Yusuf Sale, Paul Hofman, Eyke H\"ullermeier(参考訳) 共形予測によって生成された予測はセット値であるが、トレーニングや校正に使用されるデータは正確である。 超集合学習や部分ラベルからの学習の設定において、弱い教師付き学習の亜種は、全く逆の方法である:トレーニングデータは、おそらく不正確(セット評価)であるが、このデータから引き起こされたモデルは、正確な予測をもたらす。 本稿では,この2つの設定を組み合わせて,定値トレーニングデータに共形予測を適用可能にする。 本稿では,定値トレーニングおよび校正データに適用可能な共形予測手順の一般化を提案する。 提案手法の有効性を実証し,本手法が自然ベースラインと好適に比較した実験的検討を行った。

While the predictions produced by conformal prediction are set-valued, the data used for training and calibration is supposed to be precise. In the setting of superset learning or learning from partial labels, a variant of weakly supervised learning, it is exactly the other way around: training data is possibly imprecise (set-valued), but the model induced from this data yields precise predictions. In this paper, we combine the two settings by making conformal prediction amenable to set-valued training data. We propose a generalization of the conformal prediction procedure that can be applied to set-valued training and calibration data. We prove the validity of the proposed method and present experimental studies in which it compares favorably to natural baselines.
翻訳日:2023-06-05 17:21:48 公開日:2023-06-01
# 脳外科手術における術中超音波像の可視組織同定法とその応用

Identifying Visible Tissue in Intraoperative Ultrasound Images during Brain Surgery: A Method and Application ( http://arxiv.org/abs/2306.01190v1 )

ライセンス: Link先を確認
Alistair Weld, Luke Dixon, Giulio Anichini, Michael Dyck, Alex Ranne, Sophie Camp, Stamatia Giannarou(参考訳) 術中超音波検査は精査を要する作業である。 オペレーターは超音波の視点を同時に配置し、プローブの姿勢を手作業で調整し、過度の力を加えるか、組織に接触しないようにし、可視的な組織を特徴付ける必要がある。 本稿では,超音波プローブと組織接触を音響シャドウの検出と知覚的サリエンスの信頼度マップの構築を通じて解析できる可視的組織同定法を提案する。 in vivoおよびphantomデータによる詳細な検証を行う。 まず, 未知の0.87データに対して, 平均2値分類精度で, 最先端の音響陰影線分類を実現できることを示す。 第2に、信頼度マップを構築するためのフレームワークは、最適性内外に向けたプローブの姿勢に対する理想的な応答を生成できることを示し、0.174の5つのスキャンで平均rmseを達成する。 臨床訓練支援とロボット支援超音波組織スキャンの最適化の両方に使用できる方法の潜在的な臨床価値を正当化する。

Intraoperative ultrasound scanning is a demanding visuotactile task. It requires operators to simultaneously localise the ultrasound perspective and manually perform slight adjustments to the pose of the probe, making sure not to apply excessive force or breaking contact with the tissue, whilst also characterising the visible tissue. In this paper, we propose a method for the identification of the visible tissue, which enables the analysis of ultrasound probe and tissue contact via the detection of acoustic shadow and construction of confidence maps of the perceptual salience. Detailed validation with both in vivo and phantom data is performed. First, we show that our technique is capable of achieving state of the art acoustic shadow scan line classification - with an average binary classification accuracy on unseen data of 0.87. Second, we show that our framework for constructing confidence maps is able to produce an ideal response to a probe's pose that is being oriented in and out of optimality - achieving an average RMSE across five scans of 0.174. The performance evaluation justifies the potential clinical value of the method which can be used both to assist clinical training and optimise robot-assisted ultrasound tissue scanning.
翻訳日:2023-06-05 17:21:36 公開日:2023-06-01
# ニューラルSDE-RNNによる不確実性定量のための一般的なフレームワーク

A General Framework for Uncertainty Quantification via Neural SDE-RNN ( http://arxiv.org/abs/2306.01189v1 )

ライセンス: Link先を確認
Shweta Dahale, Sai Munikoti, Balasubramaniam Natarajan(参考訳) 不確かさの定量化は、特に不規則なサンプル測定を伴う時系列計算において、ディープラーニングにとって重要な課題であるが未解決の課題である。 そこで本研究では, 再帰型ニューラルネットワークの原理と, 不規則サンプリング値の整合性を考慮したニューラル確率微分方程式を提案する。 任意の時間スケールで測定を行い、原理的な方法で計算の不確実性を定量化する。 具体的には,認識的不確かさを時間的瞬間にわたって定量化し,伝播する解析的表現を導出する。 ieee 37 バステスト配信システムにおける実験により,時系列データインプットに対する不確実性定量化手法を超越できることを明らかにした。

Uncertainty quantification is a critical yet unsolved challenge for deep learning, especially for the time series imputation with irregularly sampled measurements. To tackle this problem, we propose a novel framework based on the principles of recurrent neural networks and neural stochastic differential equations for reconciling irregularly sampled measurements. We impute measurements at any arbitrary timescale and quantify the uncertainty in the imputations in a principled manner. Specifically, we derive analytical expressions for quantifying and propagating the epistemic and aleatoric uncertainty across time instants. Our experiments on the IEEE 37 bus test distribution system reveal that our framework can outperform state-of-the-art uncertainty quantification approaches for time-series data imputations.
翻訳日:2023-06-05 17:21:18 公開日:2023-06-01
# 適応不能なASRシステムへの適応

Adapting an Unadaptable ASR System ( http://arxiv.org/abs/2306.01208v1 )

ライセンス: Link先を確認
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill(参考訳) 音声認識モデルのサイズとトレーニングデータ要件が大きくなるにつれて、システムはモデルそのものに直接アクセスするのではなく、オンラインサービスプロバイダのAPIを通じてのみ利用できるようになる。 このシナリオでは、システムを特定のターゲットドメインに適応させることが難しい。 この問題に対処するため,最近リリースされたOpenAI Whisper ASRを,適応手法を評価するための大規模ASRシステムの例として検討した。 エラー修正に基づくアプローチは、モデルへのアクセスを必要としないため採用されているが、通常はASR API経由で利用できる1-bestまたはN-bestの出力からトレーニングすることができる。 librispeechは適応の主要なターゲットドメインとして使用される。 次に、2つの異なる次元におけるシステムの一般化能力を評価する。 第1に、補正モデルの形式が他の音声認識領域に移植可能かどうか、第2に、異なるアーキテクチャを持つASRモデルに使用できるかどうか。

As speech recognition model sizes and training data requirements grow, it is increasingly common for systems to only be available via APIs from online service providers rather than having direct access to models themselves. In this scenario it is challenging to adapt systems to a specific target domain. To address this problem we consider the recently released OpenAI Whisper ASR as an example of a large-scale ASR system to assess adaptation methods. An error correction based approach is adopted, as this does not require access to the model, but can be trained from either 1-best or N-best outputs that are normally available via the ASR API. LibriSpeech is used as the primary target domain for adaptation. The generalization ability of the system in two distinct dimensions are then evaluated. First, whether the form of correction model is portable to other speech recognition domains, and secondly whether it can be used for ASR models having a different architecture.
翻訳日:2023-06-05 17:11:16 公開日:2023-06-01
# ドメイン内およびドメイン外サンプル間の意味的類似性の推定

Estimating Semantic Similarity between In-Domain and Out-of-Domain Samples ( http://arxiv.org/abs/2306.01206v1 )

ライセンス: Link先を確認
Rhitabrat Pokharel and Ameeta Agrawal(参考訳) 従来の作業では、トレーニングセットとは別のデータセットやソース(s)に由来するものと同じタスクのために、ドメイン外(ood)または分散外(oodist)のサンプルを記述する。 in-domain (id) サンプルと比較すると、モデルは通常 ood サンプルでより貧弱であることが知られているが、この観測は一致しない。 もう一つの研究のスレッドは、主に教師付きアプローチを用いたOOD検出に焦点を当てている。 本研究では,まず,OOD と OODist の複数の定義を整理し,体系的に分析する。 次に、IDおよびOOD/OODist設定下でのモデルの性能を原則的に分析する。 最後に,OOD/OODistサンプルを訓練モデルを用いずに確実に同定する教師なし手法を提案する。 4つのタスクから12のデータセットを用いて広範囲に評価した結果、このタスクにおける教師なしメトリクスの可能性が示唆された。

Prior work typically describes out-of-domain (OOD) or out-of-distribution (OODist) samples as those that originate from dataset(s) or source(s) different from the training set but for the same task. When compared to in-domain (ID) samples, the models have been known to usually perform poorer on OOD samples, although this observation is not consistent. Another thread of research has focused on OOD detection, albeit mostly using supervised approaches. In this work, we first consolidate and present a systematic analysis of multiple definitions of OOD and OODist as discussed in prior literature. Then, we analyze the performance of a model under ID and OOD/OODist settings in a principled way. Finally, we seek to identify an unsupervised method for reliably identifying OOD/OODist samples without using a trained model. The results of our extensive evaluation using 12 datasets from 4 different tasks suggest the promising potential of unsupervised metrics in this task.
翻訳日:2023-06-05 17:11:01 公開日:2023-06-01
# 一般KDEモード探索のための次元化

Dimensionality Reduction for General KDE Mode Finding ( http://arxiv.org/abs/2305.18755v3 )

ライセンス: Link先を確認
Xinyu Luo, Christopher Musco, Cas Widdershoven(参考訳) 高次元確率分布のモードの発見 $d$ は統計学やデータ分析における基本的なアルゴリズム問題である。 d$ が混合モデルまたはカーネル密度推定として表現されるとき、この問題の効率的な解法には特に関心があるが、最悪の場合の近似と実行時の保証を伴うアルゴリズム的な結果はほとんど知られていない。 本研究では,ガウス混合モデルのモード近似における (LeeLiMusco:2021) の結果を著しく一般化する。 本研究では,一般的なロジスティック,シグモイド,一般化ガウス核を含む,幅広い種類のカーネルを含む混合系のランダム次元低減法を開発した。 Leeらの研究と同様に、我々の次元減少結果は、任意の$\epsilon > 0$に対して、乗法精度(1-\epsilon)$のモード探索のための準多項式アルゴリズムを生成する。 さらに、勾配降下と組み合わせると、この問題に対する効率的な実用的ヒューリスティックが生まれる。 正の結果に加えて、ボックスカーネルの硬度結果も証明し、$\mathit{P} = \mathit{NP}$でない限り、カーネル密度推定のモードを見つける多項式時間アルゴリズムは存在しないことを示した。 現実に使われているカーネル(ガウスやロジスティックカーネルなど)の同様のハードネス結果を得ることは、興味深い将来的な方向性である。

Finding the mode of a high dimensional probability distribution $D$ is a fundamental algorithmic problem in statistics and data analysis. There has been particular interest in efficient methods for solving the problem when $D$ is represented as a mixture model or kernel density estimate, although few algorithmic results with worst-case approximation and runtime guarantees are known. In this work, we significantly generalize a result of (LeeLiMusco:2021) on mode approximation for Gaussian mixture models. We develop randomized dimensionality reduction methods for mixtures involving a broader class of kernels, including the popular logistic, sigmoid, and generalized Gaussian kernels. As in Lee et al.'s work, our dimensionality reduction results yield quasi-polynomial algorithms for mode finding with multiplicative accuracy $(1-\epsilon)$ for any $\epsilon > 0$. Moreover, when combined with gradient descent, they yield efficient practical heuristics for the problem. In addition to our positive results, we prove a hardness result for box kernels, showing that there is no polynomial time algorithm for finding the mode of a kernel density estimate, unless $\mathit{P} = \mathit{NP}$. Obtaining similar hardness results for kernels used in practice (like Gaussian or logistic kernels) is an interesting future direction.
翻訳日:2023-06-05 11:21:24 公開日:2023-06-01
# 応答性判断課題によるモデル伝達可能性

Model Transferability With Responsive Decision Subjects ( http://arxiv.org/abs/2107.05911v4 )

ライセンス: Link先を確認
Yatong Chen, Zeyu Tang, Kun Zhang, Yang Liu(参考訳) 戦略的な人的決定課題からなる情報源の集団で正確であるアルゴリズム的予測器を考えると、人口がそれに対応していれば正確か? 私たちの設定では、エージェントまたはユーザは、分布$\cal{D}$から引き出されたサンプル$(X,Y)$に対応し、モデル$h$とその分類結果$h(X)$に直面する。 エージェントは$X$を$h$に適応させることができ、$(X,Y)$の分散シフトが発生する。 当社の定式化は、デプロイされた機械学習モデルがヒューマンエージェントに従属し、最終的に応答性とインタラクティブなデータ分散に直面するアプリケーションによって動機付けられたものです。 我々は、利用可能なソース分散(データ)でトレーニングされたモデルのパフォーマンスが、その誘導されたドメインのパフォーマンスにどのように変換されるかを研究することによって、モデルの転送可能性に関する議論を形式化する。 我々は、誘導されたドメインシフトによるパフォーマンスギャップの上限と、分類器がソーストレーニング分布または誘導されたターゲット分布に悩まさなければならないトレードオフの上限の両方を提供する。 共変量シフトと目標シフトを含む2つの一般的なドメイン適応設定のさらなるインスタンス化分析を提供する。

Given an algorithmic predictor that is accurate on some source population consisting of strategic human decision subjects, will it remain accurate if the population respond to it? In our setting, an agent or a user corresponds to a sample $(X,Y)$ drawn from a distribution $\cal{D}$ and will face a model $h$ and its classification result $h(X)$. Agents can modify $X$ to adapt to $h$, which will incur a distribution shift on $(X,Y)$. Our formulation is motivated by applications where the deployed machine learning models are subjected to human agents, and will ultimately face responsive and interactive data distributions. We formalize the discussions of the transferability of a model by studying how the performance of the model trained on the available source distribution (data) would translate to the performance on its induced domain. We provide both upper bounds for the performance gap due to the induced domain shift, as well as lower bounds for the trade-offs that a classifier has to suffer on either the source training distribution or the induced target distribution. We provide further instantiated analysis for two popular domain adaptation settings, including covariate shift and target shift.
翻訳日:2023-06-03 02:34:02 公開日:2023-06-01
# 適応的リアルタイム知覚のための学習ランタイム決定

Learning Runtime Decisions for Adaptive Real-Time Perception ( http://arxiv.org/abs/2106.05665v2 )

ライセンス: Link先を確認
Anurag Ghosh, Akshay Nambi, Vaibhav Balloli, Aditya Singh, Tanuja Ganu(参考訳) リアルタイムの知覚には計画された資源利用が必要である。 リアルタイム知覚における計算計画には、精度とレイテンシという2つの考慮事項がある。 特定のハードウェアの性能に影響を与えるトレードオフを誘発する実行時決定(例えば、入力解像度の選択)があり、本質的(コンテンツ、シーンクラッタなど)と外生的(システム、リソース競合など)の特性から生じる。 以前のランタイム実行フレームワークはルールベースの決定アルゴリズムを採用し、これらの懸念のバランスをとるためにアルゴリズムの遅延予算を固定した。 ストリーミング認識パラダイムから自然に派生した学習された近似実行フレームワークであるChanakyaを提案し、代わりにこれらのトレードオフによって引き起こされる決定を自動的に学習する。 Chanakyaは、どちらの目標も近似することなく、正確さとレイテンシを暗黙的にバランスさせる新しい報酬を通じてトレーニングされている。 チャナキヤは内在的な文脈と外在的な文脈を同時に考慮し、柔軟な方法で決定を予測する。 オーバーヘッドを念頭に設計されたChanakyaは、サーバGPUとエッジデバイスの両方のパブリックデータセット上で、最先端の静的および動的実行ポリシより優れています。

Real-time perception requires planned resource utilization. Computational planning in real-time perception is governed by two considerations -- accuracy and latency. There exist run-time decisions (e.g. choice of input resolution) that induce tradeoffs affecting performance on a given hardware, arising from intrinsic (content, e.g. scene clutter) and extrinsic (system, e.g. resource contention) characteristics. Earlier runtime execution frameworks employed rule-based decision algorithms and operated with a fixed algorithm latency budget to balance these concerns, which is sub-optimal and inflexible. We propose Chanakya, a learned approximate execution framework that naturally derives from the streaming perception paradigm, to automatically learn decisions induced by these tradeoffs instead. Chanakya is trained via novel rewards balancing accuracy and latency implicitly, without approximating either objectives. Chanakya simultaneously considers intrinsic and extrinsic context, and predicts decisions in a flexible manner. Chanakya, designed with low overhead in mind, outperforms state-of-the-art static and dynamic execution policies on public datasets on both server GPUs and edge devices.
翻訳日:2023-06-03 02:33:40 公開日:2023-06-01
# Rational ClosureによるRDFSのデフォルト化

Defeasible RDFS via Rational Closure ( http://arxiv.org/abs/2007.07573v2 )

ライセンス: Link先を確認
Giovanni Casini, Umberto Straccia(参考訳) 非単調論理の分野では、Rational Closure(RC)の概念が顕著なアプローチとして認められている。 近年、RCは、クラスや役割を主とするセマンティックWeb標準オントロジー言語OWL 2の基盤となるロジックである記述論理(DL)の文脈でさらに人気が高まっている。 本稿では,三重言語rdfsにrcを組み込む方法について述べる。owl2とともに,semantic web ontologyの2つの主要な標準言語である。 そのために、RDFSの背後にあるロジックである$\rho df$から始まり、それを$\rho df_\bot$に拡張します。 最終的に、典型的なRC構成によるデファシブル$\rho df_\bot$を提案する。 私たちのアプローチの主な特徴は (i)単調rdf上に余分な非単調規則層を追加する他のほとんどのアプローチとは異なり、defeasible $\rho df_\bot$は構文的には三重言語であり、特定の意味を持つ新しい述語記号を導入することで$\rho df_\bot$の単純な拡張である。 特に、RDFSの推論/ストアは、新しい述語記号の余分な意味を考慮したくない場合は、それらを通常の用語として扱うことができる。 (ii)defeasible $\rho df_\bot$ entailment 決定手続きは、$\rho df_\bot$ entailment 決定手順の上に構築されており、これは、潜在的な実装を支持するいくつかの追加の推論ルールを介して$\rho df$ の拡張である。 (iii) defeasible $\rho df_\bot$ entailment は多項式時間で決定できる。

In the field of non-monotonic logics, the notion of Rational Closure (RC) is acknowledged as a prominent approach. In recent years, RC has gained even more popularity in the context of Description Logics (DLs), the logic underpinning the semantic web standard ontology language OWL 2, whose main ingredients are classes and roles. In this work, we show how to integrate RC within the triple language RDFS, which together with OWL2 are the two major standard semantic web ontology languages. To do so, we start from $\rho df$, which is the logic behind RDFS, and then extend it to $\rho df_\bot$, allowing to state that two entities are incompatible. Eventually, we propose defeasible $\rho df_\bot$ via a typical RC construction. The main features of our approach are: (i) unlike most other approaches that add an extra non-monotone rule layer on top of monotone RDFS, defeasible $\rho df_\bot$ remains syntactically a triple language and is a simple extension of $\rho df_\bot$ by introducing some new predicate symbols with specific semantics. In particular, any RDFS reasoner/store may handle them as ordinary terms if it does not want to take account for the extra semantics of the new predicate symbols; (ii) the defeasible $\rho df_\bot$ entailment decision procedure is build on top of the $\rho df_\bot$ entailment decision procedure, which in turn is an extension of the one for $\rho df$ via some additional inference rules favouring an potential implementation; and (iii) defeasible $\rho df_\bot$ entailment can be decided in polynomial time.
翻訳日:2023-06-03 02:31:58 公開日:2023-06-01
# コントラスト多重対応分析(cmca) : コントラスト学習を用いた政党における潜在部分集団の同定

Contrastive Multiple Correspondence Analysis (cMCA): Using Contrastive Learning to Identify Latent Subgroups in Political Parties ( http://arxiv.org/abs/2007.04540v3 )

ライセンス: Link先を確認
Takanori Fujiwara, Tzu-Ping Liu(参考訳) スケーリング手法は長い間、高次元データの単純化とクラスタ化に利用されてきた。 しかし、これらの方法から導かれるすべての予め定義された群にまたがる一般の潜在空間は、しばしば群内の特定のパターンに関する研究者の関心の対象とならない。 この問題に取り組むために,我々はコントラスト学習と呼ばれる新しい分析手法を採用する。 我々は、社会科学者がしばしば遭遇するデータの分析を可能にするために、そのアイデアを複数の対応分析(MCA)に拡張することで、この成長分野に貢献する。 この結果から,cmcaは従来の手法で見過ごされているサブグループの中で,統計的に重要な次元と分割を識別できることが示唆され,また,他のケースでは,cmcaが従来の手法で中程度に見られたサブグループを強調する潜在特性を導出することができる。

Scaling methods have long been utilized to simplify and cluster high-dimensional data. However, the general latent spaces across all predefined groups derived from these methods sometimes do not fall into researchers' interest regarding specific patterns within groups. To tackle this issue, we adopt an emerging analysis approach called contrastive learning. We contribute to this growing field by extending its ideas to multiple correspondence analysis (MCA) in order to enable an analysis of data often encountered by social scientists -- containing binary, ordinal, and nominal variables. We demonstrate the utility of contrastive MCA (cMCA) by analyzing two different surveys of voters in the U.S. and U.K. Our results suggest that, first, cMCA can identify substantively important dimensions and divisions among subgroups that are overlooked by traditional methods; second, for other cases, cMCA can derive latent traits that emphasize subgroups seen moderately in those derived by traditional methods.
翻訳日:2023-06-03 02:31:24 公開日:2023-06-01
# グラフニューラルネットワークによるグラフクラスタリング

Graph Clustering with Graph Neural Networks ( http://arxiv.org/abs/2006.16904v3 )

ライセンス: Link先を確認
Anton Tsitsulin, John Palowitch, Bryan Perozzi, Emmanuel M\"uller(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測といった多くのグラフ解析タスクにおいて,最先端の結果を得た。 しかし、グラフクラスタリングのようなグラフ上の重要な教師なしの問題は、GNNの進歩に抵抗性があることが証明されている。 グラフクラスタリングはGNNのノードプーリングと同じ目標を持っていますが、これはGNNプーリングメソッドがクラスタリンググラフでうまく機能することを意味していますか? 現在のGNNプーリングメソッドは、学習した表現に適用されるk-meansのような単純なベースラインがうまく機能する場合、クラスタ構造を回復できないことが多い。 グラフ構造と属性データの両方において異なる信号対雑音のシナリオを研究するための一連の実験を慎重に設計してさらに検討する。 クラスタリングにおけるこれらの手法の貧弱な性能に対処するため,クラスタリング品質のモジュラリティ尺度にインスパイアされた教師なしプーリング手法であるDeep Modularity Networks (DMoN)を導入し,実際のグラフのクラスタリング構造の回復にどのように取り組むかを示す。 同様に、実世界のデータでは、DMoNは、地上の真理ラベルと強く相関する高品質なクラスタを生成し、異なるメトリクスにわたる他のプール手法よりも40%以上改善された最先端の結果を達成する。

Graph Neural Networks (GNNs) have achieved state-of-the-art results on many graph analysis tasks such as node classification and link prediction. However, important unsupervised problems on graphs, such as graph clustering, have proved more resistant to advances in GNNs. Graph clustering has the same overall goal as node pooling in GNNs - does this mean that GNN pooling methods do a good job at clustering graphs? Surprisingly, the answer is no - current GNN pooling methods often fail to recover the cluster structure in cases where simple baselines, such as k-means applied on learned representations, work well. We investigate further by carefully designing a set of experiments to study different signal-to-noise scenarios both in graph structure and attribute data. To address these methods' poor performance in clustering, we introduce Deep Modularity Networks (DMoN), an unsupervised pooling method inspired by the modularity measure of clustering quality, and show how it tackles recovery of the challenging clustering structure of real-world graphs. Similarly, on real-world data, we show that DMoN produces high quality clusters which correlate strongly with ground truth labels, achieving state-of-the-art results with over 40% improvement over other pooling methods across different metrics.
翻訳日:2023-06-03 02:31:08 公開日:2023-06-01
# 条件付き確率に基づくランク整合順序回帰のためのディープニューラルネットワーク

Deep Neural Networks for Rank-Consistent Ordinal Regression Based On Conditional Probabilities ( http://arxiv.org/abs/2111.08851v5 )

ライセンス: Link先を確認
Xintong Shi, Wenzhi Cao, Sebastian Raschka(参考訳) 近年、ディープニューラルネットワークは様々な分類やパターン認識タスクにおいて優れた予測性能を達成している。 しかし、実世界の多くの予測問題は順序応答変数を持ち、この順序情報は多カテゴリークロスエントロピーのような従来の分類損失によって無視される。 ディープニューラルネットワークのための順序回帰手法がこれに対処する。 そのような手法の1つは、初期のバイナリラベル拡張フレームワークに基づくCORAL法であり、重み付け制約を課すことで出力層タスク間のランク一貫性を実現する。 しかし、以前の実験では、コーラルのランク一貫性は性能に有益であるが、ニューラルネットワークの完全連結出力層における重み共有制約によって制限され、コーラルで訓練されたネットワークの表現力と能力を制限する可能性がある。 本稿では,この制限を伴わないランク一貫性の順序回帰法を提案する。 ランク整合順序回帰フレームワーク(corn)は,新しいトレーニングスキームによってランク一貫性を実現する。 条件付き確率分布の連鎖規則を適用することにより、条件付きトレーニングセットを用いて無条件のランク確率を得る。 各種データセットを用いた実験により,本手法の有効性が示され,重み共有制限がないことにより,サンゴ基準法に比べて性能が大幅に向上した。 さらに、推奨されるコーン法は特定のアーキテクチャに縛られず、任意のディープニューラルネットワーク分類器を使って順序回帰タスクを訓練することができる。

In recent times, deep neural networks achieved outstanding predictive performance on various classification and pattern recognition tasks. However, many real-world prediction problems have ordinal response variables, and this ordering information is ignored by conventional classification losses such as the multi-category cross-entropy. Ordinal regression methods for deep neural networks address this. One such method is the CORAL method, which is based on an earlier binary label extension framework and achieves rank consistency among its output layer tasks by imposing a weight-sharing constraint. However, while earlier experiments showed that CORAL's rank consistency is beneficial for performance, it is limited by a weight-sharing constraint in a neural network's fully connected output layer, which may restrict the expressiveness and capacity of a network trained using CORAL. We propose a new method for rank-consistent ordinal regression without this limitation. Our rank-consistent ordinal regression framework (CORN) achieves rank consistency by a novel training scheme. This training scheme uses conditional training sets to obtain the unconditional rank probabilities through applying the chain rule for conditional probability distributions. Experiments on various datasets demonstrate the efficacy of the proposed method to utilize the ordinal target information, and the absence of the weight-sharing restriction improves the performance substantially compared to the CORAL reference approach. Additionally, the suggested CORN method is not tied to any specific architecture and can be utilized with any deep neural network classifier to train it for ordinal regression tasks.
翻訳日:2023-06-03 02:23:14 公開日:2023-06-01
# 最大相対エントロピーの平滑化と量子プライバシー増幅のためのタイト指数解析

Tight Exponential Analysis for Smoothing the Max-Relative Entropy and for Quantum Privacy Amplification ( http://arxiv.org/abs/2111.01075v3 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, Masahito Hayashi(参考訳) 最大相対エントロピーとその滑らかなバージョンは、量子情報理論の基本的な道具である。 本稿では, 量子状態の小さな変化による漸近崩壊の正確な指数を導出し, 精製された距離に基づいて最大相対エントロピーを滑らか化する。 次に、この結果を量子側情報に対するプライバシー増幅問題に適用し、精製された距離または相対エントロピーを用いて測定した非セキュリティの漸近的減少指数の上限を求める。 我々の上界は林が確立した初期の下界を補完し、2つの境界はランダム性抽出の速度が臨界値を超えるときに一致する。 したがって、高いレートの場合、厳密なセキュリティ指数を決定した。 この後、例を挙げて、低レートの場合、上界も下界も一般には厳密でないことを示す。 これは、チャネル符号化におけるエラー指数に類似した画像を示す。 最後に, 従来量子環境では扱わなかった位数 $s\in (1,2]$ のサンドイッチ付き R'enyi 偏差を用いて, 等価性とその指数の漸近性について検討する。

The max-relative entropy together with its smoothed version is a basic tool in quantum information theory. In this paper, we derive the exact exponent for the asymptotic decay of the small modification of the quantum state in smoothing the max-relative entropy based on purified distance. We then apply this result to the problem of privacy amplification against quantum side information, and we obtain an upper bound for the exponent of the asymptotic decreasing of the insecurity, measured using either purified distance or relative entropy. Our upper bound complements the earlier lower bound established by Hayashi, and the two bounds match when the rate of randomness extraction is above a critical value. Thus, for the case of high rate, we have determined the exact security exponent. Following this, we give examples and show that in the low-rate case, neither the upper bound nor the lower bound is tight in general. This exhibits a picture similar to that of the error exponent in channel coding. Lastly, we investigate the asymptotics of equivocation and its exponent under the security measure using the sandwiched R\'enyi divergence of order $s\in (1,2]$, which has not been addressed previously in the quantum setting.
翻訳日:2023-06-03 02:22:51 公開日:2023-06-01
# モデル再利用のための物質モデル探索

Finding Materialized Models for Model Reuse ( http://arxiv.org/abs/2110.06532v5 )

ライセンス: Link先を確認
Minjun Zhao, Lu Chen, Keyu Yang, Yuntao Du, Yunjun Gao(参考訳) 物質化モデルクエリは、モデル再利用の初期モデルとして最も適切な物質化モデルを見つけることを目的としている。 これはモデル再利用の前提条件であり、最近多くの注目を集めている。 それにもかかわらず、既存の手法は、物質化モデルのターゲット関連知識を測定するための適切な指標を構築していないため、ソースデータ、限られた範囲のアプリケーション、非効率性を提供する必要がある。 これに対処するために,我々は,ソースデータフリーで汎用的,効率的,効率的なモデルクエリフレームワークである \textsf{mmq} を提案する。 これは、分離度と呼ばれるガウス混合計量を用いて、物質化されたモデルをランク付けする。 各物質化モデルについて、まずこのモデルを直接適用してターゲットデータセットのサンプルを確率ベクトルにベクトル化し、その後、ガウス分布を用いて各確率ベクトルのクラスに適合し、最終的にガウス分布上の分離度を用いて物質化モデルのターゲット関連知識を測定する。 さらに,改良された \textsf{MMQ} (\textsf{I-MMQ}) を提案する。 実用的モデル再利用ワークロードの広範囲な実験は、 \textsf{mmq}の有効性と効率を示している。

Materialized model query aims to find the most appropriate materialized model as the initial model for model reuse. It is the precondition of model reuse, and has recently attracted much attention. {Nonetheless, the existing methods suffer from the need to provide source data, limited range of applications, and inefficiency since they do not construct a suitable metric to measure the target-related knowledge of materialized models. To address this, we present \textsf{MMQ}, a source-data free, general, efficient, and effective materialized model query framework.} It uses a Gaussian mixture-based metric called separation degree to rank materialized models. For each materialized model, \textsf{MMQ} first vectorizes the samples in the target dataset into probability vectors by directly applying this model, then utilizes Gaussian distribution to fit for each class of probability vectors, and finally uses separation degree on the Gaussian distributions to measure the target-related knowledge of the materialized model. Moreover, we propose an improved \textsf{MMQ} (\textsf{I-MMQ}), which significantly reduces the query time while retaining the query performance of \textsf{MMQ}. Extensive experiments on a range of practical model reuse workloads demonstrate the effectiveness and efficiency of \textsf{MMQ}.
翻訳日:2023-06-03 02:22:10 公開日:2023-06-01
# 縦断CTによるCOVID-19感染定量のためのインタラクティブセグメンテーション

Interactive Segmentation for COVID-19 Infection Quantification on Longitudinal CT scans ( http://arxiv.org/abs/2110.00948v2 )

ライセンス: Link先を確認
Michelle Xiao-Lin Foo, Seong Tae Kim, Magdalini Paschali, Leili Goli, Egon Burian, Marcus Makowski, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 病状進行と治療に対する反応を正確に評価するためには,複数の時点にまたがる患者のCTスキャンの連続的セグメンテーションが不可欠である。 既存の医療画像の自動およびインタラクティブセグメンテーションモデルは、単一の時点(静的)のデータのみを使用する。 しかし、以前の時点からの貴重なセグメンテーション情報は、患者のフォローアップスキャンのセグメンテーションを助けるためにはあまり使われない。 また、完全自動セグメンテーション技術は、臨床使用のためにさらなる編集を必要とする結果をもたらすことが多い。 本研究では,利用可能な全ての過去の情報を十分に活用し,フォローアップスキャンのセグメント化を洗練するインタラクティブセグメンテーションのための新しい単一ネットワークモデルを提案する。 第1のセグメンテーションラウンドでは、2つの時点(ターゲットと参照)から3dの医療画像を取り込んだスライスとして、追加の参照時点セグメンテーションをガイドとして、ターゲットスキャンをセグメンテーションする。 その後のセグメンテーション改良ラウンドでは、セグメンテーションを補正するスクリブル形式のユーザフィードバックと、ターゲットの以前のセグメンテーション結果がモデルに付加される。 これにより、以前の精錬ラウンドからのセグメンテーション情報が保持される。 施設内における多クラス縦断型COVID-19データセットの実験結果から、提案モデルが静的バージョンより優れており、患者のフォローアップスキャンでCOVID-19感染の局所化を支援できることが判明した。

Consistent segmentation of COVID-19 patient's CT scans across multiple time points is essential to assess disease progression and response to therapy accurately. Existing automatic and interactive segmentation models for medical images only use data from a single time point (static). However, valuable segmentation information from previous time points is often not used to aid the segmentation of a patient's follow-up scans. Also, fully automatic segmentation techniques frequently produce results that would need further editing for clinical use. In this work, we propose a new single network model for interactive segmentation that fully utilizes all available past information to refine the segmentation of follow-up scans. In the first segmentation round, our model takes 3D volumes of medical images from two-time points (target and reference) as concatenated slices with the additional reference time point segmentation as a guide to segment the target scan. In subsequent segmentation refinement rounds, user feedback in the form of scribbles that correct the segmentation and the target's previous segmentation results are additionally fed into the model. This ensures that the segmentation information from previous refinement rounds is retained. Experimental results on our in-house multiclass longitudinal COVID-19 dataset show that the proposed model outperforms its static version and can assist in localizing COVID-19 infections in patient's follow-up scans.
翻訳日:2023-06-03 02:21:41 公開日:2023-06-01
# 鉱業地区と地域影響による時間ネットワークにおける帰納的表現学習

Inductive Representation Learning in Temporal Networks via Mining Neighborhood and Community Influences ( http://arxiv.org/abs/2110.00267v3 )

ライセンス: Link先を確認
Meng Liu, Yong Liu(参考訳) ネットワーク表現学習は、ノード分類やリンク予測などの下流機械学習タスクを容易にするネットワーク内の各ノードへの埋め込みを生成することを目的としている。 現在の研究は主にトランスダクティブネットワーク表現学習(すなわち、実世界のアプリケーションには適さない固定ノード埋め込みの生成)に焦点を当てている。 そこで本研究では,マイニング地区と時間ネットワークにおけるコミュニティの影響から,MNCIと呼ばれる新しい帰納的ネットワーク表現学習手法を提案する。 本研究では,地域の影響をコミュニティの影響と統合してノード埋め込みを生成するアグリゲータ関数を提案する。 複数の実世界のデータセットについて広範な実験を行い、ノード分類やネットワーク可視化など、様々なタスクにおけるmnciと最先端のベースライン手法を比較した。 実験の結果,MNCIはベースラインよりも優れた性能を示した。

Network representation learning aims to generate an embedding for each node in a network, which facilitates downstream machine learning tasks such as node classification and link prediction. Current work mainly focuses on transductive network representation learning, i.e. generating fixed node embeddings, which is not suitable for real-world applications. Therefore, we propose a new inductive network representation learning method called MNCI by mining neighborhood and community influences in temporal networks. We propose an aggregator function that integrates neighborhood influence with community influence to generate node embeddings at any time. We conduct extensive experiments on several real-world datasets and compare MNCI with several state-of-the-art baseline methods on various tasks, including node classification and network visualization. The experimental results show that MNCI achieves better performance than baselines.
翻訳日:2023-06-03 02:21:06 公開日:2023-06-01
# レーティング遷移予測:フィルタリングアプローチ

Rating transitions forecasting: a filtering approach ( http://arxiv.org/abs/2109.10567v4 )

ライセンス: Link先を確認
Areski Cousin (IRMA), J\'er\^ome Lelong (DAO), Tom Picard (DAO)(参考訳) 特にストレステストの規制当局からの圧力が高まっているため、この15年間、ビジネスサイクルがレーティング移行に与える影響を分析することは大きな関心事となっている。 本稿では,評価移動のダイナミクスが観測されていない潜在要因によって制御されていることを考察する。 点過程フィルタリングフレームワークでは,評価履歴の観測から隠蔽因子の現在の状態を効率的に推定する方法について説明する。 次に、古典的なbaum-welshアルゴリズムを設定に適応させ、潜在因子パラメータを推定する方法を示す。 一度校正すれば、レーティングマイグレーションのダイナミクスに影響を与える経済変化をリアルタイムで明らかにし、検出することができる。 この目的のために、外部共変量を用いることなく、経済体制に従って将来の遷移確率を予測するために使用できるフィルタリング公式を適用する。 離散バージョンと連続バージョンという2つのフィルタリングフレームワークを提案する。 我々は,企業信用格付けデータベースと企業信用格付けデータベースの両方におけるアプローチの効率を実証し,比較する。 この方法は、小売ローンにも適用できる。

Analyzing the effect of business cycle on rating transitions has been a subject of great interest these last fifteen years, particularly due to the increasing pressure coming from regulators for stress testing. In this paper, we consider that the dynamics of rating migrations is governed by an unobserved latent factor. Under a point process filtering framework, we explain how the current state of the hidden factor can be efficiently inferred from observations of rating histories. We then adapt the classical Baum-Welsh algorithm to our setting and show how to estimate the latent factor parameters. Once calibrated, we may reveal and detect economic changes affecting the dynamics of rating migration, in real-time. To this end we adapt a filtering formula which can then be used for predicting future transition probabilities according to economic regimes without using any external covariates. We propose two filtering frameworks: a discrete and a continuous version. We demonstrate and compare the efficiency of both approaches on fictive data and on a corporate credit rating database. The methods could also be applied to retail credit loans.
翻訳日:2023-06-03 02:20:54 公開日:2023-06-01
# 機械学習における汚損について:理論と応用

On Tilted Losses in Machine Learning: Theory and Applications ( http://arxiv.org/abs/2109.06141v3 )

ライセンス: Link先を確認
Tian Li, Ahmad Beirami, Maziar Sanjabi, Virginia Smith(参考訳) 指数傾き(英: Exponential tilting)は、統計学、確率、情報理論、パラメトリック分布シフトを生成する最適化などの分野でよく用いられる技法である。 関連する分野での流行にもかかわらず、傾きは機械学習で広く使われていない。 本研究では,リスク最小化における傾きの利用を探求することにより,このギャップを埋めることを目的とする。 本研究では, 個別損失の影響を柔軟に調整するために指数傾斜を用いたERM(傾き型経験的リスク最小化法)の簡易拡張について検討した。 結果のフレームワークにはいくつかの有用な性質がある: TERM は、それぞれ、公平性や堅牢性を実現するために、外乱の影響を増大または減少させることができること、一般化に寄与する分散還元特性を持ち、損失の尾の確率の滑らかな近似と見なすことができる。 我々の研究は、TERMと関連する目的、例えばValue-at-Risk、Conditional Value-at-Risk、分散ロバストな最適化(DRO)との間の厳密な接続を可能にします。 我々は,TERMを解くためのバッチおよび確率論的一階最適化手法を開発し,解法に対する収束保証を提供し,そのフレームワークが共通の代替案に対して効率的に解けることを示す。 最後に,サブグループ間の公平さの強化,アウトレーヤの効果の緩和,クラス不均衡の処理など,多数の機械学習応用にTERMが利用できることを示す。 TERMは従来のERMの目的に直感的な修正を加えるが、このフレームワークはEMMを一貫して上回り、最先端の問題解決アプローチと競合する性能を提供できる。

Exponential tilting is a technique commonly used in fields such as statistics, probability, information theory, and optimization to create parametric distribution shifts. Despite its prevalence in related fields, tilting has not seen widespread use in machine learning. In this work, we aim to bridge this gap by exploring the use of tilting in risk minimization. We study a simple extension to ERM -- tilted empirical risk minimization (TERM) -- which uses exponential tilting to flexibly tune the impact of individual losses. The resulting framework has several useful properties: We show that TERM can increase or decrease the influence of outliers, respectively, to enable fairness or robustness; has variance-reduction properties that can benefit generalization; and can be viewed as a smooth approximation to the tail probability of losses. Our work makes rigorous connections between TERM and related objectives, such as Value-at-Risk, Conditional Value-at-Risk, and distributionally robust optimization (DRO). We develop batch and stochastic first-order optimization methods for solving TERM, provide convergence guarantees for the solvers, and show that the framework can be efficiently solved relative to common alternatives. Finally, we demonstrate that TERM can be used for a multitude of applications in machine learning, such as enforcing fairness between subgroups, mitigating the effect of outliers, and handling class imbalance. Despite the straightforward modification TERM makes to traditional ERM objectives, we find that the framework can consistently outperform ERM and deliver competitive performance with state-of-the-art, problem-specific approaches.
翻訳日:2023-06-03 02:20:37 公開日:2023-06-01
# システムダイナミクスのロバスト予測のための遠絡生成モデル

Disentangled Generative Models for Robust Prediction of System Dynamics ( http://arxiv.org/abs/2108.11684v3 )

ライセンス: Link先を確認
Stathi Fotiadis, Mario Lino, Shunlong Hu, Stef Garasto, Chris D Cantwell, Anil Anthony Bharath(参考訳) ディープニューラルネットワークは、動的システムの予測にますます関心が寄せられているが、分散の一般化と長期的な安定性は依然として困難である。 本研究では,動的システムの領域パラメータをデータ生成過程の変動要因として扱う。 教師付き乱れと因果因果分解からアイデアを活用することで、生成モデルの潜在空間におけるダイナミクスからドメインパラメータを分離することを目指している。 実験では、位相空間とビデオシーケンスの両方でダイナミクスをモデル化し、厳密なOOD評価を行う。 その結果,不整合VAEはトレーニングデータに存在しない領域パラメータ空間に適応することが示唆された。 同時に、ビデオシーケンスにおける最先端モデルの長期的および外部的予測を改善することができる。

Deep neural networks have become increasingly of interest in dynamical system prediction, but out-of-distribution generalization and long-term stability still remains challenging. In this work, we treat the domain parameters of dynamical systems as factors of variation of the data generating process. By leveraging ideas from supervised disentanglement and causal factorization, we aim to separate the domain parameters from the dynamics in the latent space of generative models. In our experiments we model dynamics both in phase space and in video sequences and conduct rigorous OOD evaluations. Results indicate that disentangled VAEs adapt better to domain parameters spaces that were not present in the training data. At the same time, disentanglement can improve the long-term and out-of-distribution predictions of state-of-the-art models in video sequences.
翻訳日:2023-06-03 02:20:05 公開日:2023-06-01
# SMARAGD: 高精度かつ高速なグラフ距離学習のためのSMatch

SMARAGD: Learning SMatch for Accurate and Rapid Approximate Graph Distance ( http://arxiv.org/abs/2203.13226v2 )

ライセンス: Link先を確認
Juri Opitz and Philipp Meier and Anette Frank(参考訳) 意味表現 (MRs) のようなグラフ構造の類似性は、しばしば Smatch (Cai and Knight, 2013) のような構造マッチングアルゴリズムによって評価される。 しかし、smatchにはnp完全性に苦しむ組合せ問題があり、グラフクラスタリングや検索といった大規模アプリケーションでは実現不可能である。 この問題を緩和するために、SMARAGD: Semantic Match for Accurate and Rapid Approximate Graph Distanceを学ぶ。 Smatchスコアを近似するニューラルネットワークの可能性を示す。 一 機械翻訳フレームワークを用いてアライメントの予測を直線的に行うこと。 ii)シームズCNNを用いて一定の時間内にSmatchスコアを直接予測する。 近似誤差はデータ拡張とグラフ匿名化によって大幅に低減できることを示す。

The similarity of graph structures, such as Meaning Representations (MRs), is often assessed via structural matching algorithms, such as Smatch (Cai and Knight, 2013). However, Smatch involves a combinatorial problem that suffers from NP-completeness, making large-scale applications, e.g., graph clustering or search, infeasible. To alleviate this issue, we learn SMARAGD: Semantic Match for Accurate and Rapid Approximate Graph Distance. We show the potential of neural networks to approximate Smatch scores, i) in linear time using a machine translation framework to predict alignments, or ii) in constant time using a Siamese CNN to directly predict Smatch scores. We show that the approximation error can be substantially reduced through data augmentation and graph anonymization.
翻訳日:2023-06-03 02:14:08 公開日:2023-06-01
# 自律走行車知覚のオンライン自己評価のための品質指標と方法

A Quality Index Metric and Method for Online Self-Assessment of Autonomous Vehicles Sensory Perception ( http://arxiv.org/abs/2203.02588v2 )

ライセンス: Link先を確認
Ce Zhang and Azim Eskandarian(参考訳) カメラを用いた信頼性の高い物体検出は、自動運転車が周囲を知覚する上で重要な役割を果たす。 しかし、既存のカメラによる自律走行のためのオブジェクト検出アプローチでは、個々のフレームに対する検出性能に対する包括的なフィードバックを提供する能力が欠如している。 この制限に対処するため,検出品質指標(DQI)と呼ばれる新しい評価指標を提案し,カメラを用いた物体検出アルゴリズムの性能を評価し,検出品質に対するフレーム単位のフィードバックを提供する。 DQIは、細粒度分布マップの強度とオブジェクト検出アルゴリズムの出力結果とを組み合わせて生成される。 さらに,生の画素とスーパーピクセルを入力として,提案するdqi評価指標を予測するスーパーピクセルベースのアテンションネットワーク(spa-net)を開発した。 このアプローチを検証するために、3つのオープンソースデータセットの実験を行った。 その結果,自動走行環境におけるカメラベースシステムの検知品質を精度良く評価できることがわかった。 さらに、提案したSPA-NETは他の画像ベースの品質回帰モデルよりも優れている。 このことは、DQIが視覚シーンを知覚するカメラの能力を評価する上での有効性を強調している。 われわれの研究は、自動運転車におけるカメラによる物体検出のための貴重な自己評価ツールを導入している。

Reliable object detection using cameras plays a crucial role in enabling autonomous vehicles to perceive their surroundings. However, existing camera-based object detection approaches for autonomous driving lack the ability to provide comprehensive feedback on detection performance for individual frames. To address this limitation, we propose a novel evaluation metric, named as the detection quality index (DQI), which assesses the performance of camera-based object detection algorithms and provides frame-by-frame feedback on detection quality. The DQI is generated by combining the intensity of the fine-grained saliency map with the output results of the object detection algorithm. Additionally, we have developed a superpixel-based attention network (SPA-NET) that utilizes raw image pixels and superpixels as input to predict the proposed DQI evaluation metric. To validate our approach, we conducted experiments on three open-source datasets. The results demonstrate that the proposed evaluation metric accurately assesses the detection quality of camera-based systems in autonomous driving environments. Furthermore, the proposed SPA-NET outperforms other popular image-based quality regression models. This highlights the effectiveness of the DQI in evaluating a camera's ability to perceive visual scenes. Overall, our work introduces a valuable self-evaluation tool for camera-based object detection in autonomous vehicles.
翻訳日:2023-06-03 02:13:56 公開日:2023-06-01
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v4 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
翻訳日:2023-06-03 02:13:22 公開日:2023-06-01
# 等尺法を超えたロバストネスの法則

A Law of Robustness beyond Isoperimetry ( http://arxiv.org/abs/2202.11592v2 )

ライセンス: Link先を確認
Yihan Wu, Heng Huang, Hongyang Zhang(参考訳) 有界空間上で支持される任意のデータ分布のロバスト補間問題を研究し、ロバスト性に関する2次元法則を提案する。 ロバスト補間(Robust interpolation)とは、リプシッツ関数によって$\mathbb{R}^d$で$n$ノイズの多いトレーニングデータポイントを補間する問題を指す。 この問題はイソペリメトリー分布からサンプルを引き出す際によく理解されているが、一般分布や最悪の場合においてもその性能については不明な点が多い。 我々は任意のデータ分布に対して$p$パラメータを持つ補間ニューラルネットワークの低境界$\Omega(\sqrt{n/p})$を証明する。 この結果から, 多項式重み付き2層ニューラルネットワークにおいて, bubeck, li, nagarajによる先行研究におけるロバストネス予想の法則を検証する。 そして、任意の補間近似子に結果を拡張し、ロバスト補間のために下限の$\omega(n^{1/d})$ を証明する。 私たちの結果は、堅牢性の2倍の法則を示します。 i) $n=\mathrm{poly}(d)$, and and then $n=\mathrm{poly}(d)$, and overparametrization による滑らかなデータ補間の可能性を示す。 i)$n=\exp(\omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。

We study the robust interpolation problem of arbitrary data distributions supported on a bounded space and propose a two-fold law of robustness. Robust interpolation refers to the problem of interpolating $n$ noisy training data points in $\mathbb{R}^d$ by a Lipschitz function. Although this problem has been well understood when the samples are drawn from an isoperimetry distribution, much remains unknown concerning its performance under generic or even the worst-case distributions. We prove a Lipschitzness lower bound $\Omega(\sqrt{n/p})$ of the interpolating neural network with $p$ parameters on arbitrary data distributions. With this result, we validate the law of robustness conjecture in prior work by Bubeck, Li, and Nagaraj on two-layer neural networks with polynomial weights. We then extend our result to arbitrary interpolating approximators and prove a Lipschitzness lower bound $\Omega(n^{1/d})$ for robust interpolation. Our results demonstrate a two-fold law of robustness: i) we show the potential benefit of overparametrization for smooth data interpolation when $n=\mathrm{poly}(d)$, and ii) we disprove the potential existence of an $O(1)$-Lipschitz robust interpolating function when $n=\exp(\omega(d))$.
翻訳日:2023-06-03 02:12:59 公開日:2023-06-01
# ハイパーパラメータ構成の多元性競合の監視

Supervising the Multi-Fidelity Race of Hyperparameter Configurations ( http://arxiv.org/abs/2202.09774v2 )

ライセンス: Link先を確認
Martin Wistuba, Arlind Kadra, Josif Grabocka(参考訳) 近年,多自由度(グレーボックス)ハイパーパラメータ最適化技術 (HPO) が深層学習法をチューニングするための有望な方向として登場した。 しかし、既存の手法ではhpo予算をハイパーパラメータ構成に最適に割り当てることができない。 そこで本研究では,動的レースにおいてどのハイパーパラメータ構成をトレーニングすべきかを学習するベイズ最適化手法であるdyhpoを提案する。 本稿では,学習曲線ダイナミクスを組み込んだガウス過程のための新しい深層カーネルと,マルチバジェット情報を含む獲得関数を提案する。 我々は,50のデータセット(Tabular, Image, NLP)と多様なアーキテクチャ(MLP, CNN/NAS, RNN)からなる大規模実験により,DyHPOの最先端ハイパーパラメータ最適化手法に対する大きな優位性を示す。

Multi-fidelity (gray-box) hyperparameter optimization techniques (HPO) have recently emerged as a promising direction for tuning Deep Learning methods. However, existing methods suffer from a sub-optimal allocation of the HPO budget to the hyperparameter configurations. In this work, we introduce DyHPO, a Bayesian Optimization method that learns to decide which hyperparameter configuration to train further in a dynamic race among all feasible configurations. We propose a new deep kernel for Gaussian Processes that embeds the learning curve dynamics, and an acquisition function that incorporates multi-budget information. We demonstrate the significant superiority of DyHPO against state-of-the-art hyperparameter optimization methods through large-scale experiments comprising 50 datasets (Tabular, Image, NLP) and diverse architectures (MLP, CNN/NAS, RNN).
翻訳日:2023-06-03 02:12:39 公開日:2023-06-01
# エネルギー効率の良い音声モデルのためのニューラルアーキテクチャ探索

Neural Architecture Search for Energy Efficient Always-on Audio Models ( http://arxiv.org/abs/2202.05397v2 )

ライセンス: Link先を確認
Daniel T. Speckhard, Karolis Misiunas, Sagi Perel, Tenghui Zhu, Simon Carlile, Malcolm Slaney(参考訳) 常時オンの分類タスクのためのモバイルおよびエッジコンピューティングデバイスは、エネルギー効率のよいニューラルネットワークアーキテクチャを必要とする。 本稿では,ニューラルネットワークサーチ(NAS)の実践的状況における成功の可能性を改善するためのいくつかの変更について述べる。 検索は,ネットワークの精度,エネルギー効率,メモリ使用量を同時に最適化する。 実際のハードウェアで検索のパフォーマンスをベンチマークするが、実際のハードウェアで何千ものテストを実行することは難しいため、ランダムフォレストモデルを用いて、候補ネットワークのエネルギー使用量を概ね予測する。 本稿では,粒子群を用いたベイジアン探索と正規化進化探索の両方を用いた探索戦略を提案し,計算負荷を軽減するために早期停止を用いる。 本研究では,AudioSetをベースとした音響イベント分類データセットで評価した結果,基本となるMobileNetV1/V2実装よりもはるかに少ないエネルギーとメモリフットプリントを実現し,タスク精度をわずかに改善した。 また,2次元スペクトログラムと多くのフィルタの畳み込みを組み合わせれば,音声分類の計算ボトルネックが生じ,計算負担を低減できるがタスク精度を犠牲にする手法が提案されている。

Mobile and edge computing devices for always-on classification tasks require energy-efficient neural network architectures. In this paper we present several changes to neural architecture searches (NAS) that improve the chance of success in practical situations. Our search simultaneously optimizes for network accuracy, energy efficiency and memory usage. We benchmark the performance of our search on real hardware, but since running thousands of tests with real hardware is difficult we use a random forest model to roughly predict the energy usage of a candidate network. We present a search strategy that uses both Bayesian and regularized evolutionary search with particle swarms, and employs early-stopping to reduce the computational burden. Our search, evaluated on a sound-event classification dataset based upon AudioSet, results in an order of magnitude less energy per inference and a much smaller memory footprint than our baseline MobileNetV1/V2 implementations while slightly improving task accuracy. We also demonstrate how combining a 2D spectrogram with a convolution with many filters causes a computational bottleneck for audio classification and that alternative approaches reduce the computational burden but sacrifice task accuracy.
翻訳日:2023-06-03 02:12:23 公開日:2023-06-01
# 表面誘導ganを用いた実物匿名化

Realistic Full-Body Anonymization with Surface-Guided GANs ( http://arxiv.org/abs/2201.02193v2 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Morten Smebye, Rudolf Mester, Frank Lindseth(参考訳) 画像匿名化に関する最近の研究は、生成的敵ネットワーク(gans)が個人を匿名化するためにほぼフォトリアリスティックな顔を生成することができることを示した。 しかし、これらのネットワークを人体全体に拡大することは、困難でありながら未解決の課題である。 In-the-wild画像のためのリアルな人間を生成する新しい匿名化手法を提案する。 我々の設計の鍵となるのは、画像と正準3次元表面との間の高密度画素対面対応による対向ネットの誘導である。 本稿では,ジェネレータ全体にサーフェス情報を埋め込む可変表面適応変調(V-SAM)を提案する。 これを新しい識別器表面監視損失と組み合わせることで、複雑な場面や様々な場面で様々な外観で高品質な人間を合成することができる。 表面指導は画像品質とサンプルの多様性を著しく改善し,実用性の高い生成装置となることを実証する。 最後に,コンピュータビジョンモデルのトレーニング用画像データセットの収集において,プライバシを侵害することなくデータのユーザビリティを保護できることを示す。 ソースコードと付録は以下の通りである。 \href{https://github.com/hukkelas/full_body_anonymization}{github.com/hukkelas/full\_body\_anonymization}

Recent work on image anonymization has shown that generative adversarial networks (GANs) can generate near-photorealistic faces to anonymize individuals. However, scaling up these networks to the entire human body has remained a challenging and yet unsolved task. We propose a new anonymization method that generates realistic humans for in-the-wild images. A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface. We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator. Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearances in complex and varying scenes. We demonstrate that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator. Finally, we show that our method preserves data usability without infringing privacy when collecting image datasets for training computer vision models. Source code and appendix is available at: \href{https://github.com/hukkelas/full_body_anonymization}{github.com/hukkelas/full\_body\_anonymization}
翻訳日:2023-06-03 02:12:04 公開日:2023-06-01
# NN2Poly:ディープフィードフォワード人工ニューラルネットワークの多項式表現

NN2Poly: A polynomial representation for deep feed-forward artificial neural networks ( http://arxiv.org/abs/2112.11397v3 )

ライセンス: Link先を確認
Pablo Morala (1 and 2), Jenny Alexandra Cifuentes (3), Rosa E. Lillo (1 and 2), I\~naki Ucar (1 and 2) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid. Spain., (2) Department of Statistics, Universidad Carlos III de Madrid. Spain., (3) ICADE, Department of Quantitative Methods, Faculty of Economics and Business Administration, Universidad Pontificia Comillas. Spain.)(参考訳) ニューラルネットワークの解釈可能性とその基礎となる理論的振る舞いは、特にディープラーニングの出現において、実践的応用の大きな成功の後でも、研究のオープンフィールドのままである。 NN2Polyは、すでに訓練済みの完全接続フィードフォワード人工ニューラルネットワーク(多層パーセプトロンまたはMLP)の正確な表現を提供する明示的な多項式モデルを得るための理論的アプローチである。 このアプローチは、レグレッションタスクと分類タスクの両方で任意に深いMLPを扱うために、単一の隠れ層ネットワークに限定された文献で提案された以前のアイデアを拡張している。 本研究の目的は,各層における活性化関数のテイラー展開を用いて,いくつかの組合せ特性を用いて所望の多項式の係数を計算することである。 本手法の主な計算上の課題と,訓練段階で一定の制約を課すことで克服する方法について考察を行った。 最後に,提案手法の有効性を示すため,シミュレーション実験と実データセットへの適用について述べる。

Interpretability of neural networks and their underlying theoretical behavior remain an open field of study even after the great success of their practical applications, particularly with the emergence of deep learning. In this work, NN2Poly is proposed: a theoretical approach to obtain an explicit polynomial model that provides an accurate representation of an already trained fully-connected feed-forward artificial neural network (a multilayer perceptron or MLP). This approach extends a previous idea proposed in the literature, which was limited to single hidden layer networks, to work with arbitrarily deep MLPs in both regression and classification tasks. The objective of this paper is to achieve this by using a Taylor expansion on the activation function, at each layer, and then using several combinatorial properties to calculate the coefficients of the desired polynomials. Discussion is presented on the main computational challenges of this method, and the way to overcome them by imposing certain constraints during the training phase. Finally, simulation experiments as well as an application to a real data set are presented to demonstrate the effectiveness of the proposed method.
翻訳日:2023-06-03 02:11:19 公開日:2023-06-01
# 結び目と絡み目

Knots and entanglement ( http://arxiv.org/abs/2112.08398v2 )

ライセンス: Link先を確認
Jin-Long Huang, John McGreevy, Bowen Shi(参考訳) 絡み合うブートストラップアプローチを (3+1)-次元に拡張する。 3+1次元液体トポロジカル秩序の結び付き励起とループのエキゾチック融合過程について検討した。 2+1)次元の以前の研究と同様に、基底状態エンタングルメントエントロピー上の2つの公理から様々な超選択セクターと融合空間を定義する。 特に、結び目に関連する融合空間を同定する。 我々は情報凸集合を没入領域と呼ばれる新しい種類の領域に一般化し、この新しい文脈に様々な定理を奨励する。 例えば、結び目多重性の具体的な計算は、トレフォイル結び目の結び目補集合が量子情報を格納できることを示している。 我々は、トーラス結び目とフラックスのスパイラル融合の一貫性関係を理解することができるスパイラル写像を定義する。

We extend the entanglement bootstrap approach to (3+1)-dimensions. We study knotted excitations of (3+1)-dimensional liquid topological orders and exotic fusion processes of loops. As in previous work in (2+1)-dimensions, we define a variety of superselection sectors and fusion spaces from two axioms on the ground state entanglement entropy. In particular, we identify fusion spaces associated with knots. We generalize the information convex set to a new class of regions called immersed regions, promoting various theorems to this new context. Examples from solvable models are provided; for instance, a concrete calculation of knot multiplicity shows that the knot complement of a trefoil knot can store quantum information. We define spiral maps that allow us to understand consistency relations for torus knots as well as spiral fusions of fluxes.
翻訳日:2023-06-03 02:11:03 公開日:2023-06-01
# 非線形ICAの識別可能性について:スパーシリティと超越性

On the Identifiability of Nonlinear ICA: Sparsity and Beyond ( http://arxiv.org/abs/2206.07751v4 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Kun Zhang(参考訳) 非線形独立成分分析(ICA)は、観測可能な非線形混合物から基礎となる独立潜伏源を回収することを目的としている。 非線形icaモデルを特定の自明な不確定性まで識別する方法は、教師なし学習における長年の問題である。 最近のブレークスルーは、補助変数(例えばクラスラベルやドメイン/時間インデックス)が弱い監督や帰納バイアスとして与えられる条件付き独立性としてソースの標準的な独立性仮定を再構成している。 しかし、非条件事前を持つ非線形ICAはそのような発展の恩恵を受けることができない。 我々は、代替経路を探究し、構造空間のような混合過程の仮定のみを考える。 このような制約の特定のインスタンス化の下では、独立潜水源は置換や成分変換まで非線形混合から同定でき、補助変数のない非線形ICAの非自明な識別性を実現することができる。 評価法と理論結果の検証を実験的に行う。 画像データの結果から,我々の条件は多くの実用的データ生成プロセスに保持される可能性が示唆された。

Nonlinear independent component analysis (ICA) aims to recover the underlying independent latent sources from their observable nonlinear mixtures. How to make the nonlinear ICA model identifiable up to certain trivial indeterminacies is a long-standing problem in unsupervised learning. Recent breakthroughs reformulate the standard independence assumption of sources as conditional independence given some auxiliary variables (e.g., class labels and/or domain/time indexes) as weak supervision or inductive bias. However, nonlinear ICA with unconditional priors cannot benefit from such developments. We explore an alternative path and consider only assumptions on the mixing process, such as Structural Sparsity. We show that under specific instantiations of such constraints, the independent latent sources can be identified from their nonlinear mixtures up to a permutation and a component-wise transformation, thus achieving nontrivial identifiability of nonlinear ICA without auxiliary variables. We provide estimation methods and validate the theoretical results experimentally. The results on image data suggest that our conditions may hold in a number of practical data generating processes.
翻訳日:2023-06-03 02:03:49 公開日:2023-06-01
# 低ロバストサンプルにより規則化を施すことによる対向ロバスト性の改善

Improving Adversarial Robustness by Putting More Regularizations on Less Robust Samples ( http://arxiv.org/abs/2206.03353v4 )

ライセンス: Link先を確認
Dongyoon Yang, Insung Kong, Yongdai Kim(参考訳) 敵の攻撃に対する堅牢性を高めるための敵意トレーニングは、与えられた深層ニューラルネットワークを欺くために、人間の知覚可能なデータの摂動を生成することが容易であるため、多くの注目を集めている。 本稿では,既存のアルゴリズムよりも理論的にモチベーションが高く,経験的に優れている新しい学習アルゴリズムを提案する。 提案アルゴリズムの新たな特徴は、既存の正規化アルゴリズムよりも敵攻撃に弱いデータに対してより規則化を適用することである。 理論的には,本アルゴリズムはロバストリスクの新たな上限から誘導される正規化経験的リスクを最小化するためのアルゴリズムとして理解できることを示す。 数値実験により,提案アルゴリズムは一般化(実例の精度)と強靭性(敵攻撃の精度)を同時に改善し,最先端の性能を実現する。

Adversarial training, which is to enhance robustness against adversarial attacks, has received much attention because it is easy to generate human-imperceptible perturbations of data to deceive a given deep neural network. In this paper, we propose a new adversarial training algorithm that is theoretically well motivated and empirically superior to other existing algorithms. A novel feature of the proposed algorithm is to apply more regularization to data vulnerable to adversarial attacks than other existing regularization algorithms do. Theoretically, we show that our algorithm can be understood as an algorithm of minimizing the regularized empirical risk motivated from a newly derived upper bound of the robust risk. Numerical experiments illustrate that our proposed algorithm improves the generalization (accuracy on examples) and robustness (accuracy on adversarial attacks) simultaneously to achieve the state-of-the-art performance.
翻訳日:2023-06-03 02:02:28 公開日:2023-06-01
# geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性

GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles ( http://arxiv.org/abs/2205.12505v5 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。 しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。 限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。 本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。 このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。 次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。 このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。 各種のEAEモデルを6種類ベンチマークする。 その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。 全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。 コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
翻訳日:2023-06-03 02:02:12 公開日:2023-06-01
# 航空ビジョン・アンド・ダイアログナビゲーション

Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2205.12219v3 )

ライセンス: Link先を確認
Yue Fan, Winson Chen, Tongzhou Jiang, Chun Zhou, Yi Zhang, Xin Eric Wang(参考訳) 人間と会話し、自然言語コマンドに従う能力は、インテリジェントな無人航空機(ドローン)にとって不可欠である。 コントローラーを常に持ち続けることの負担を軽減し、マルチタスクを可能にし、障害のある人や手を使ってドローンの制御をより容易に行えるようにする。 この目的のために,Aerial Vision-and-Dialog Navigation (AVDN)を導入し,自然言語による会話を通じてドローンをナビゲートする。 我々は、連続したフォトリアリスティック環境を備えたドローンシミュレータを構築し、3k以上のナビゲーショントラジェクトリの新たなAVDNデータセットを、指揮官とフォロワー間の非同期な人間と人間の対話で収集する。 コマンドは初期ナビゲーションの指示と要求によるガイダンスを提供するが、フォロワーはシミュレータでドローンをナビゲートし、必要なときに質問する。 データ収集中、ドローンの視覚的観察に対するフォロワーの注意も記録されている。 AVDNデータセットに基づいて、(フル)ダイアログ履歴から空中ナビゲーションのタスクを調査し、ナビゲーションの経路と人間の注意の両方を予測する効果的なヒューマンアテンション支援トランスフォーマーモデル(HAA-Transformer)を提案する。

The ability to converse with humans and follow natural language commands is crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can relieve people's burden of holding a controller all the time, allow multitasking, and make drone control more accessible for people with disabilities or with their hands occupied. To this end, we introduce Aerial Vision-and-Dialog Navigation (AVDN), to navigate a drone via natural language conversation. We build a drone simulator with a continuous photorealistic environment and collect a new AVDN dataset of over 3k recorded navigation trajectories with asynchronous human-human dialogs between commanders and followers. The commander provides initial navigation instruction and further guidance by request, while the follower navigates the drone in the simulator and asks questions when needed. During data collection, followers' attention on the drone's visual observation is also recorded. Based on the AVDN dataset, we study the tasks of aerial navigation from (full) dialog history and propose an effective Human Attention Aided Transformer model (HAA-Transformer), which learns to predict both navigation waypoints and human attention.
翻訳日:2023-06-03 02:01:46 公開日:2023-06-01
# MixFlows: 混合フローによる原理的変動推論

MixFlows: principled variational inference via mixed flows ( http://arxiv.org/abs/2205.07475v5 )

ライセンス: Link先を確認
Zuheng Xu, Naitong Chen, Trevor Campbell(参考訳) この研究は、地図の繰り返し適用を初期参照分布に混合した新しい変分族である混合変分流(MixFlows)を提示する。 まず,サンプリング,密度評価,偏りのないELBO推定のための効率的なアルゴリズムを提案する。 次に, フローマップがエルゴードかつ測度保存である場合, 混合フローはmcmcライクな収束を保証し, フローマップを近似する実用的な実装のために誤差の蓄積に関する境界を与えることを示す。 最後に, 決定論的運動量リフレッシュを併用した非補正離散ハミルトン力学に基づく混合フローの実装を開発した。 シミュレーションおよび実データ実験により、MixFlowsは複数のブラックボックス正規化フローよりも信頼性の高い後部近似を提供し、また最先端MCMCMC法と同等の品質のサンプルを提供することが示された。

This work presents mixed variational flows (MixFlows), a new variational family that consists of a mixture of repeated applications of a map to an initial reference distribution. First, we provide efficient algorithms for i.i.d. sampling, density evaluation, and unbiased ELBO estimation. We then show that MixFlows have MCMC-like convergence guarantees when the flow map is ergodic and measure-preserving, and provide bounds on the accumulation of error for practical implementations where the flow map is approximated. Finally, we develop an implementation of MixFlows based on uncorrected discretized Hamiltonian dynamics combined with deterministic momentum refreshment. Simulated and real data experiments show that MixFlows can provide more reliable posterior approximations than several black-box normalizing flows, as well as samples of comparable quality to those obtained from state-of-the-art MCMC methods.
翻訳日:2023-06-03 02:01:08 公開日:2023-06-01
# コミュニケーション効率の良いDNNトレーニングを実現するには? 変換、圧縮、正しい

How to Attain Communication-Efficient DNN Training? Convert, Compress, Correct ( http://arxiv.org/abs/2204.08211v2 )

ライセンス: Link先を確認
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang and Stefano Rini(参考訳) 本稿では,通信効率の高いDeep Neural Network (DNN) トレーニングのためのアルゴリズムであるCO3を紹介する。 CO3は、リモートユーザからパラメータサーバにローカルDNN勾配を送信する際の通信負荷を低減する3つの処理から名付けられた。 通称。 (i)浮動小数点変換による勾配量子化 (ii)定量勾配の損失のない圧縮、 三 量子化誤差補正 上記の各ステップを慎重に設計し,コミュニケーション速度の制約下で良好なトレーニング性能を保証する。 特にステップでは (i)および (II) DNN勾配は一般化正規分布に従って分布しているという仮定を採用し、本論文で数値的に検証する。 ステップ (iii)ステップで導入された量子化誤差を補正するために,メモリ減衰機構を用いた誤差フィードバックを用いる。 (i)。 学習速度と同様に、記憶減衰係数は収束性を改善するために最適に調整できると主張する。 提案したCO3とSGDとの厳密な収束解析を行う。 さらに,CO3は,スケッチや局所勾配の非一様量子化を用いた文献において,既存の勾配圧縮方式と比較して性能が向上することを示した。

This paper introduces CO3 -- an algorithm for communication-efficient federated Deep Neural Network (DNN) training. CO3 takes its name from three processing applied which reduce the communication load when transmitting the local DNN gradients from the remote users to the Parameter Server. Namely: (i) gradient quantization through floating-point conversion, (ii) lossless compression of the quantized gradient, and (iii) quantization error correction. We carefully design each of the steps above to assure good training performance under a constraint on the communication rate. In particular, in steps (i) and (ii), we adopt the assumption that DNN gradients are distributed according to a generalized normal distribution, which is validated numerically in the paper. For step (iii), we utilize an error feedback with memory decay mechanism to correct the quantization error introduced in step (i). We argue that the memory decay coefficient, similarly to the learning rate, can be optimally tuned to improve convergence. A rigorous convergence analysis of the proposed CO3 with SGD is provided. Moreover, with extensive simulations, we show that CO3 offers improved performance when compared with existing gradient compression schemes in the literature which employ sketching and non-uniform quantization of the local gradients.
翻訳日:2023-06-03 02:00:54 公開日:2023-06-01
# 孤立符号と後処理を用いた連続手話における単語分離

Word separation in continuous sign language using isolated signs and post-processing ( http://arxiv.org/abs/2204.00923v4 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) . 連続手話認識(cslr)は、手話中の単語間の明示的な境界を検出するのが困難であるため、コンピュータビジョンにおいて長い課題である。 この課題に対処するため,我々は2段階モデルを提案する。 第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。 第2段階では,モデルの第一部分から得られたソフトマックス出力に後処理アルゴリズムを適用し,連続符号の孤立した符号を分離する。 提案手法は, 同一のフレーム数を持つ孤立符号クラス上で訓練されるが, 分離符号クラスごとに異なるフレーム長を持つ連続符号ビデオ上で評価される。 符号列とそれに対応する孤立符号の両方を含む大きなデータセットがないため、独立手話認識(ISLR)、RKS-PERSIANSIGN、ASLLVDの2つの公開データセットが評価に使用される。 連続手話ビデオの結果は、孤立手話境界検出に対処するために提案したモデルの効率性を確認する。

. Continuous Sign Language Recognition (CSLR) is a long challenging task in Computer Vision due to the difficulties in detecting the explicit boundaries between the words in a sign sentence. To deal with this challenge, we propose a two-stage model. In the first stage, the predictor model, which includes a combination of CNN, SVD, and LSTM, is trained with the isolated signs. In the second stage, we apply a post-processing algorithm to the Softmax outputs obtained from the first part of the model in order to separate the isolated signs in the continuous signs. While the proposed model is trained on the isolated sign classes with similar frame numbers, it is evaluated on the continuous sign videos with a different frame length per each isolated sign class. Due to the lack of a large dataset, including both the sign sequences and the corresponding isolated signs, two public datasets in Isolated Sign Language Recognition (ISLR), RKS-PERSIANSIGN and ASLLVD, are used for evaluation. Results of the continuous sign videos confirm the efficiency of the proposed model to deal with isolated sign boundaries detection.
翻訳日:2023-06-03 02:00:36 公開日:2023-06-01
# マジック角のカイラルモデルにおける平面バンドの微細構造

Fine structure of flat bands in a chiral model of magic angles ( http://arxiv.org/abs/2208.01628v2 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) 我々は,Becker--Embree--Wittsten--Zworskiによって導入されたフレームワークに従って,Tarnopolsky--Kruchkov--Vishwanath型二層グラフェン(TBG)の魔法角におけるブロッホ固有関数の対称性を解析した。 ディラック点から遠ざかる最初のブロッホ固有値の消失は、すべての瞬間においてその消失を意味する、すなわち平坦なバンドの存在を示す。 また、平面バンドの多重度がブロッホ固有関数の結節集合とどのように関係しているかを示す。 フラットバンドの構造に関する2つの数値的観測を終える。

We analyze symmetries of Bloch eigenfunctions at magic angles for the Tarnopolsky--Kruchkov--Vishwanath chiral model of the twisted bilayer graphene (TBG) following the framework introduced by Becker--Embree--Wittsten--Zworski. We show that vanishing of the first Bloch eigenvalue away from the Dirac points implies its vanishing at all momenta, that is the existence of a flat band. We also show how the multiplicity of the flat band is related to the nodal set of the Bloch eigenfunctions. We conclude with two numerical observations about the structure of flat bands.
翻訳日:2023-06-03 01:54:54 公開日:2023-06-01
# マジック角のカイラルモデルにおける積分可能性

Integrability in the chiral model of magic angles ( http://arxiv.org/abs/2208.01620v3 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) ツイスト二層グラフェンのキラルモデルにおけるマジック角は、ビストリッツァー=マクドナルド・ハミルトニアンのキラルバージョンがエネルギーゼロで平坦なバンドを示すパラメータである。 我々は(複素)マジック角の和を計算し、それを用いてマジック角の集合が無限であることを示す。 また、第1次マジックアングルの存在を証明し、対応するフラットバンドがすべての対称性を満たすポテンシャルの最も単純な選択に対して最小の乗算性を持つことを示す。 これらの結果は(証明できないが)カイラルモデルの隠れた可積分性を示している。

Magic angles in the chiral model of twisted bilayer graphene are parameters for which the chiral version of the Bistritzer--MacDonald Hamiltonian exhibits a flat band at energy zero. We compute the sums over powers of (complex) magic angles and use that to show that the set of magic angles is infinite. We also provide a new proof of the existence of the first real magic angle, showing also that the corresponding flat band has minimal multiplicity for the simplest possible choice of potentials satisfying all symmetries. These results indicate (though do not prove) a hidden integrability of the chiral model.
翻訳日:2023-06-03 01:54:42 公開日:2023-06-01
# Claim-Dissector:ジョイントリグレードとVeracity予測を備えた解釈可能なFact-Checkingシステム

Claim-Dissector: An Interpretable Fact-Checking System with Joint Re-ranking and Veracity Prediction ( http://arxiv.org/abs/2207.14116v3 )

ライセンス: Link先を確認
Martin Fajcik, Petr Motlicek, Pavel Smrz(参考訳) ファクトチェックと分析のための新しい潜在変数モデルであり、クレームと検索されたエビデンスが共同で識別することを学ぶ。 (i)当該クレームに関連する証拠 (ii)クレームの妥当性。 本稿では,各証拠関連確率とその最終妥当性確率への寄与を解釈可能な方法で解き放つことを提案し,その最終的な妥当性確率は,各証拠関連確率の線形アンサンブルに比例する。 このようにして、最終的な予測確率に対する証拠の個々の寄与を特定できる。 このモデルでは,各証拠が(s) を支持しているか,(r) を反論しているか,さらに識別することができる。 これにより、S/R確率が最終的な判定にどの程度貢献するかを定量化したり、不一致の証拠を検出することができる。 その解釈可能な性質にもかかわらず、本システムはFEVERデータセットの最先端と競合する結果を、典型的な2段階のシステムパイプラインと比較して実現し、パラメータは大幅に少ない。 また、faviqとrealfcデータセットに新しい最先端を設定する。 さらに,我々のモデルでは,粗粒度監視を用いて細粒度関係の学習が可能であり,その2つの方法が示されている。 i)本モデルでは,段落レベルの関連性監視のみを用いながら,競争力のある文のリコールが可能であることを示す。 (ii) 妥当性の最も細かい粒度に目を向けると, このモデルはトークンレベルで妥当性を識別できることを示す。 そこで我々は,トークンレベルの解釈可能性に着目した新しいベンチマークTLR-FEVERを提案する。 そして、モデルが注目しているトークンにこれらのアノテーションがどの程度似ているかを測定します。

We present Claim-Dissector: a novel latent variable model for fact-checking and analysis, which given a claim and a set of retrieved evidences jointly learns to identify: (i) the relevant evidences to the given claim, (ii) the veracity of the claim. We propose to disentangle the per-evidence relevance probability and its contribution to the final veracity probability in an interpretable way -- the final veracity probability is proportional to a linear ensemble of per-evidence relevance probabilities. In this way, the individual contributions of evidences towards the final predicted probability can be identified. In per-evidence relevance probability, our model can further distinguish whether each relevant evidence is supporting (S) or refuting (R) the claim. This allows to quantify how much the S/R probability contributes to the final verdict or to detect disagreeing evidence. Despite its interpretable nature, our system achieves results competitive with state-of-the-art on the FEVER dataset, as compared to typical two-stage system pipelines, while using significantly fewer parameters. It also sets new state-of-the-art on FAVIQ and RealFC datasets. Furthermore, our analysis shows that our model can learn fine-grained relevance cues while using coarse-grained supervision, and we demonstrate it in 2 ways. (i) We show that our model can achieve competitive sentence recall while using only paragraph-level relevance supervision. (ii) Traversing towards the finest granularity of relevance, we show that our model is capable of identifying relevance at the token level. To do this, we present a new benchmark TLR-FEVER focusing on token-level interpretability -- humans annotate tokens in relevant evidences they considered essential when making their judgment. Then we measure how similar are these annotations to the tokens our model is focusing on.
翻訳日:2023-06-03 01:54:30 公開日:2023-06-01
# 予測集約のサンプル複雑性

Sample Complexity of Forecast Aggregation ( http://arxiv.org/abs/2207.13126v3 )

ライセンス: Link先を確認
Yiling Chen, Tao Lin(参考訳) ベイズ予測集約モデルでは、未知のバイナリイベントに関するプライベートなシグナルを観察した後、そのイベントに関する後発の信念をプリンシパルに報告し、そのレポートを単一の予測に集約する。 専門家の信号とイベントの結果は、プリンシパルに知られていない共同分布に従うが、プリンシパルは、各サンプルが専門家の報告(信号ではない)とイベントの実現のタプルである分布から、i.i.d.の「サンプル」にアクセスすることができる。 これらのサンプルを用いて、主目的は$\varepsilon$-approximately optimal aggregatorを見つけることである。 この問題のサンプル複雑性は、任意の離散分布に対して少なくとも$\tilde \Omega(m^{n-2} / \varepsilon)$である。 このサンプルの複雑さは専門家の数で指数関数的に増加する。 しかし、専門家の信号が事象の実現に独立して条件付けされている場合、サンプルの複雑さは著しく減少し、$n$に依存しない$\tilde o(1 / \varepsilon^2)$となる。 結果は非バイナリイベントに一般化できる。 この結果の証明は,分布学習問題からの削減を用い,予測集約が分布学習と同程度に困難であることを示す。

We consider a Bayesian forecast aggregation model where $n$ experts, after observing private signals about an unknown binary event, report their posterior beliefs about the event to a principal, who then aggregates the reports into a single prediction for the event. The signals of the experts and the outcome of the event follow a joint distribution that is unknown to the principal, but the principal has access to i.i.d. "samples" from the distribution, where each sample is a tuple of the experts' reports (not signals) and the realization of the event. Using these samples, the principal aims to find an $\varepsilon$-approximately optimal aggregator, where optimality is measured in terms of the expected squared distance between the aggregated prediction and the realization of the event. We show that the sample complexity of this problem is at least $\tilde \Omega(m^{n-2} / \varepsilon)$ for arbitrary discrete distributions, where $m$ is the size of each expert's signal space. This sample complexity grows exponentially in the number of experts $n$. But, if the experts' signals are independent conditioned on the realization of the event, then the sample complexity is significantly reduced, to $\tilde O(1 / \varepsilon^2)$, which does not depend on $n$. Our results can be generalized to non-binary events. The proof of our results uses a reduction from the distribution learning problem and reveals the fact that forecast aggregation is almost as difficult as distribution learning.
翻訳日:2023-06-03 01:53:57 公開日:2023-06-01
# クアドネット:CT金属アーチファクト低減のためのクアドドメインネットワーク

Quad-Net: Quad-domain Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2207.11678v2 )

ライセンス: Link先を確認
Zilong Li, Qi Gao, Yaping Wu, Chuang Niu, Junping Zhang, Meiyun Wang, Ge Wang, Hongming Shan(参考訳) 患者の金属インプラントやその他の高密度物体は、ct画像に重度のストレッチアーティファクトを導入し、画像品質と診断性能を損なう。 過去数十年間、最新のデュアルドメインディープネットワークを含む様々な方法がCT金属アーティファクト削減のために開発されたが、残っている金属アーティファクトは、多くの場合、まだ臨床的に困難である。 ここでは、最先端のデュアルドメインディープネットワークアプローチをクワッドドメインに拡張し、シングラム、画像、およびそれに対応するフーリエドメインの全ての特徴を相乗化して、構造的微妙性を損なうことなく金属のアーティファクトを最適に除去する。 提案手法はquad-netと呼ばれ,フーリエ変換が高効率であるため計算コストをほとんど必要とせず,大域的および局所的特徴とそれらの関係を学習するために4つの受容的分野にまたがって機能する。 具体的には,まずシンノグラム領域とそのフーリエ空間内のシンノグラム-フーリエ復元ネットワーク(sfr-net)を忠実に塗装された金属腐食跡に設計した。 次に、sfr-netに画像とフーリエスペクトルの両方を取り込む画像フーリエリファインメントネットワーク(ifr-net)を結合し、クロスドメインコンテキスト情報を用いてsfr-net出力から再構成されたct画像を改善する。 quad-netは、複合損失関数を最小化するために臨床データセットでトレーニングされる。 クアッドネットは正確な金属マスクを必要としないため、臨床では非常に重要である。 実験結果は,最先端のmar法に対するquad-netの優位性を定量的,視覚的,統計的に示している。 Quad-Netコードはhttps://github.com/longzilicart/Quad-Netで公開されている。

Metal implants and other high-density objects in patients introduce severe streaking artifacts in CT images, compromising image quality and diagnostic performance. Although various methods were developed for CT metal artifact reduction over the past decades, including the latest dual-domain deep networks, remaining metal artifacts are still clinically challenging in many cases. Here we extend the state-of-the-art dual-domain deep network approach into a quad-domain counterpart so that all the features in the sinogram, image, and their corresponding Fourier domains are synergized to eliminate metal artifacts optimally without compromising structural subtleties. Our proposed quad-domain network for MAR, referred to as Quad-Net, takes little additional computational cost since the Fourier transform is highly efficient, and works across the four receptive fields to learn both global and local features as well as their relations. Specifically, we first design a Sinogram-Fourier Restoration Network (SFR-Net) in the sinogram domain and its Fourier space to faithfully inpaint metal-corrupted traces. Then, we couple SFR-Net with an Image-Fourier Refinement Network (IFR-Net) which takes both an image and its Fourier spectrum to improve a CT image reconstructed from the SFR-Net output using cross-domain contextual information. Quad-Net is trained on clinical datasets to minimize a composite loss function. Quad-Net does not require precise metal masks, which is of great importance in clinical practice. Our experimental results demonstrate the superiority of Quad-Net over the state-of-the-art MAR methods quantitatively, visually, and statistically. The Quad-Net code is publicly available at https://github.com/longzilicart/Quad-Net.
翻訳日:2023-06-03 01:53:28 公開日:2023-06-01
# エッジにおけるリアルタイムビジュアル処理のための超低消費電力TinyMLシステム

An Ultra-low Power TinyML System for Real-time Visual Processing at Edge ( http://arxiv.org/abs/2207.04663v2 )

ライセンス: Link先を確認
Kunran Xu, Huawei Zhang, Yishi Li, Yuhao Zhang, Rui Lai and Yi Liu(参考訳) リソースと電力を厳密に制限されたシステム上でaiワークロードを実行するtinyml(small machine learning)は、重要かつ困難なトピックである。 まず、様々な視覚タスクのための高効率cnnモデルを構築するための非常に小さなバックボーンを示す。 そして、特別に設計されたニューラルコプロセッサ(ncp)をmcuと接続して超低消費電力のtinymlシステムを構築し、チップにすべての機能と重みを格納し、チップ外のメモリアクセスにおけるレイテンシと消費電力の両方を完全に排除する。 さらに、アジャイル開発と迅速なデプロイメントを実現するためのアプリケーション固有の命令セットも提示されている。 実験の結果,提案したTinyMLシステムは精度が高く,オブジェクト検出と認識を30FPSで実現しつつ,160mWの超低消費電力を実現していることがわかった。 デモビデオは \url{https://www.youtube.com/watch? v=mIZPxtJ-9EY}。

Tiny machine learning (TinyML), executing AI workloads on resource and power strictly restricted systems, is an important and challenging topic. This brief firstly presents an extremely tiny backbone to construct high efficiency CNN models for various visual tasks. Then, a specially designed neural co-processor (NCP) is interconnected with MCU to build an ultra-low power TinyML system, which stores all features and weights on chip and completely removes both of latency and power consumption in off-chip memory access. Furthermore, an application specific instruction-set is further presented for realizing agile development and rapid deployment. Extensive experiments demonstrate that the proposed TinyML system based on our model, NCP and instruction set yields considerable accuracy and achieves a record ultra-low power of 160mW while implementing object detection and recognition at 30FPS. The demo video is available on \url{https://www.youtube.com/watch?v=mIZPxtJ-9EY}.
翻訳日:2023-06-03 01:52:57 公開日:2023-06-01
# クラス不均衡下における学習ダイナミクスの理論解析

A Theoretical Analysis of the Learning Dynamics under Class Imbalance ( http://arxiv.org/abs/2207.00391v3 )

ライセンス: Link先を確認
Emanuele Francazi, Marco Baity-Jesi, Aurelien Lucchi(参考訳) データ不均衡は機械学習において一般的な問題であり、モデルの性能に重大な影響を与える可能性がある。 様々な解決策が存在するが、その学習ダイナミクスの収束への影響は理解されていない。 ここでは,データ不均衡が学習に与える影響を解明し,マイノリティクラスとマイノリティクラスの学習曲線が,グラデーションに基づくオプティマイザを用いた学習において,準最適軌道に従うことを示した。 この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。 我々の主な貢献は、全バッチ(GD)と確率勾配降下(SGD)の収束の解析と、各クラスごとの勾配の寄与を再正規化する変種の分析である。 GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。 SGDでは、クラス不均衡が勾配の方向に付加的な影響を与え、マイノリティクラスは高い指向性ノイズに悩まされ、クラスごとの勾配正規化の有効性が低下する。 以上の結果から,クラス毎の勾配を含む戦略の可能性と限界を把握できるだけでなく,従来使用されていたオーバーサンプリングなどのクラス不均衡に対するソリューションの有効性も把握できた。

Data imbalance is a common problem in machine learning that can have a critical effect on the performance of a model. Various solutions exist but their impact on the convergence of the learning dynamics is not understood. Here, we elucidate the significant negative impact of data imbalance on learning, showing that the learning curves for minority and majority classes follow sub-optimal trajectories when training with a gradient-based optimizer. This slowdown is related to the imbalance ratio and can be traced back to a competition between the optimization of different classes. Our main contribution is the analysis of the convergence of full-batch (GD) and stochastic gradient descent (SGD), and of variants that renormalize the contribution of each per-class gradient. We find that GD is not guaranteed to decrease the loss for each class but that this problem can be addressed by performing a per-class normalization of the gradient. With SGD, class imbalance has an additional effect on the direction of the gradients: the minority class suffers from a higher directional noise, which reduces the effectiveness of the per-class gradient normalization. Our findings not only allow us to understand the potential and limitations of strategies involving the per-class gradients, but also the reason for the effectiveness of previously used solutions for class imbalance such as oversampling.
翻訳日:2023-06-03 01:52:40 公開日:2023-06-01
# the quantum internet:ハードウェアレビュー

The Quantum Internet: A Hardware Review ( http://arxiv.org/abs/2206.15376v2 )

ライセンス: Link先を確認
Rohit K. Ramakrishnan, Aravinth Balaji Ravichandran, Ishwar Kaushik, Gopalkrishna Hegde, Srinivas Talabattula, Peter P. Rohde(参考訳) その発見から1世紀が経ち、量子物理学の応用が技術の可能性の新しい世界を開く。 量子超越性を目の当たりにするこの10年で、量子技術はすでに情報の生成、送信、保存、処理の方法を変え始めている。 量子技術における次の大きなマイルストーンは、すでに急速に出現している。 光は量子通信の最も論理的な候補であるため、量子フォトニクスは重要な技術である。 本稿では,主にフォトニクスの観点から,量子インターネットのハードウェア面を概観する。 近年、多くの量子技術やデバイスが登場していますが、私たちは量子インターネットを可能にするデバイスやコンポーネントに重点を置いています。 我々のアプローチは主に質的であり、大規模な量子インターネットに必要な技術の概要を提供する。

In the century following its discovery, applications for quantum physics are opening a new world of technological possibilities. With the current decade witnessing quantum supremacy, quantum technologies are already starting to change the ways information is generated, transmitted, stored and processed. The next major milestone in quantum technology is already rapidly emerging -- the quantum internet. Since light is the most logical candidate for quantum communication, quantum photonics is a critical enabling technology. This paper reviews the hardware aspects of the quantum internet, mainly from a photonics perspective. Though a plethora of quantum technologies and devices have emerged in recent years, we are more focused on devices or components that may enable the quantum internet. Our approach is primarily qualitative, providing a broad overview of the necessary technologies for a large-scale quantum internet.
翻訳日:2023-06-03 01:52:18 公開日:2023-06-01
# 非適応20問の解答限界 : 移動対象の探索

Resolution Limits of Non-Adaptive 20 Questions Search for a Moving Target ( http://arxiv.org/abs/2206.08884v2 )

ライセンス: Link先を確認
Lin Zhou and Alfred Hero(参考訳) 問合せ依存雑音を伴う20問推定フレームワークを用いて,未知の初期位置と速度を有する単位立方体上の移動対象の非適応探索戦略を区分的定数速度モデルを用いて検討する。 この検索問題では、ターゲットの即時位置をいつでも知っているオラクルがいます。 我々のタスクは、特定の時間にターゲットの位置を正確に推定するために、できるだけ数回オラクルに問い合わせることです。 まず,各クエリに対するオラクルの回答が離散ノイズによって損なわれるケースを調査し,その結果を白色ガウスノイズに一般化した。 我々の定式化では、性能基準は解像度であり、真の位置と推定位置の間の最大$l_\infty$距離として定義される。 非漸近的および漸近的境界を導出することにより、有限数のクエリで最適な非適応的クエリ手順の最小解法を特徴付ける。 私たちの境界は、クエリ数が一定の条件を満たす場合の1次漸近的な感覚と、目標が一定の速度で移動する場合のより強い2次漸近的な感覚とが密接である。 この結果を証明するために、チャネル符号化、有限ブロック長情報理論からのアイデアの借用、および量子化された対象軌道の数に基づく構成境界について、現状の問題点を考察する。

Using the 20 questions estimation framework with query-dependent noise, we study non-adaptive search strategies for a moving target over the unit cube with unknown initial location and velocities under a piecewise constant velocity model. In this search problem, there is an oracle who knows the instantaneous location of the target at any time. Our task is to query the oracle as few times as possible to accurately estimate the location of the target at any specified time. We first study the case where the oracle's answer to each query is corrupted by discrete noise and then generalize our results to the case of additive white Gaussian noise. In our formulation, the performance criterion is the resolution, which is defined as the maximal $L_\infty$ distance between the true locations and estimated locations. We characterize the minimal resolution of an optimal non-adaptive query procedure with a finite number of queries by deriving non-asymptotic and asymptotic bounds. Our bounds are tight in the first-order asymptotic sense when the number of queries satisfies a certain condition and our bounds are tight in the stronger second-order asymptotic sense when the target moves with a constant velocity. To prove our results, we relate the current problem to channel coding, borrow ideas from finite blocklength information theory and construct bounds on the number of possible quantized target trajectories.
翻訳日:2023-06-03 01:51:45 公開日:2023-06-01
# 真空中の巨視体に対する量子力学からのニュートン方程式

Newton's equations from quantum mechanics for macroscopic bodies in the vacuum ( http://arxiv.org/abs/2209.07318v4 )

ライセンス: Link先を確認
Kenichi Konishi(参考訳) ニュートンの力法則 $\frac{d {\bf P}}{dt} = {\bf F}$ は、孤立したマクロ体、例えば$N\sim 10^{25}, 10^{51}, \ldots$ 原子と分子の有限体温度での合成状態である Schr\"odinger 方程式から導かれる。 この文脈でまず量子力学(QM)の3つの側面を概観する。 (i)ハイゼンベルクの質量中心の不確実性関係(cm) (ii)c.m.波束の拡散、及び (iii) 身体の準安定(混合)状態を意味する有限の体温:光子放出と自己解離。 これらは、マクロな物体の古典的軌道の起源を説明する。 CMの量子ゆらぎが有効である範囲である$R_q$と、体の(線形)サイズである$L_0$と$R_q/L_0 \lesssim 1$と$R_q/L_0 \gg 1$との比は、それぞれ古典的または量子力学的に挙動するかどうかを示す。 最初のケースでは、そのCMに対するニュートンの力法則はエレンフェストの定理から従う。 弱い重力力、調和振動子ポテンシャル、宇宙空間でゆっくりと変化する一定の外部電磁場について説明する。 多体系に対する標準ハミルトン方程式の導出についても論じる。 重力潮流力のような物体の有限サイズの影響は摂動理論に現れる。 我々の研究は、古典物理学のQMにおける出現は環境誘起のデコヒーレンスに起因するというよく知られた考え方と一致しているが、ニュートンの方程式がQMから従う条件を明確にし、それらを明示的に導出することによってそれを補完し完成させる。

Newton's force law $\frac{d {\bf P}}{dt} = {\bf F}$ is derived from the Schr\"odinger equation for isolated macroscopic bodies, composite states of e.g., $N\sim 10^{25}, 10^{51}, \ldots$ atoms and molecules, at finite body temperatures. We first review three aspects of quantum mechanics (QM) in this context: (i) Heisenberg's uncertainty relations for their center of mass (CM), (ii) the diffusion of the C.M. wave packet, and (iii) a finite body-temperature which implies a metastable (mixed-) state of the body: photon emissions and self-decoherence. They explain the origin of the classical trajectory for a macroscopic body. The ratio between the range $R_q$ over which the quantum fluctuations of its CM are effective, and the body's (linear) size $L_0$, $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, tells whether the body's CM behaves classically or quantum mechanically, respectively. In the first case, Newton's force law for its CM follows from the Ehrenfest theorem. We illustrate this for weak gravitational forces, a harmonic-oscillator potential, and for constant external electromagnetic fields slowly varying in space. The derivation of the canonical Hamilton equations for many-body systems is also discussed. Effects due to the body's finite size such as the gravitational tidal forces appear in perturbation theory. Our work is consistent with the well-known idea that the emergence of classical physics in QM is due to the environment-induced decoherence, but complements and completes it, by clarifying the conditions under which Newton's equations follow from QM, and by deriving them explicitly.
翻訳日:2023-06-03 01:44:45 公開日:2023-06-01
# 準周期連鎖を結合した臨界相への一般的アプローチ

The general approach to the critical phase with coupled quasiperiodic chains ( http://arxiv.org/abs/2209.03060v2 )

ライセンス: Link先を確認
Xiaoshui Lin, Xiaoman Chen, Guang-Can Guo and Ming Gong(参考訳) 障害系では、Schr\"{o}dinger 方程式の波動関数は、拡張相から局所相への遷移を示し、境界あるいは移動端の状態は多重フラクタル性を示す。 一方、全ての状態が多重フラクタル構造を示す臨界相(cp)も、過去数十年で大きな注目を集めている。 しかし、オンデマンドでcpを構築する一般的な方法はまだ不明である。 ここで、この位相に対する一般的なアプローチは、2つの結合準周期鎖(英語版)を用いて示され、鎖は、結合する前に一方が拡張状態を持ち、もう一方が局所状態を持つように選択される。 マルチフラクタル解析に基づくフラクタル次元と最小スケーリング指数を用いた鎖間結合の存在下での重畳スペクトルにおけるCPの存在を示す。 次に、重なり合ったスペクトルにもCPが現れる鎖間結合と準周期ポテンシャルの形式を変化させて、この物理学の一般性を検討する。 我々は、この位相の出現を、特異な連続スペクトルを生じさせ、重なり合う状態における拡張状態を排除する効果的な非有界ポテンシャルの結果として考慮する。 最後に、このCPを二色不規則光格子を持つ超低温原子を用いた連続モデルで実現することについても論じる。 2つの鎖の可変性のため、この研究はcpを可変的に実現するための一般的なアプローチを提供する。 このアプローチはcpの実験的な検出に広く応用でき、多体cpの相互作用の存在下でより興味深い物理学に一般化することができる。

In disordered systems, wave functions in the Schr\"{o}dinger equation may exhibit a transition from the extended phase to the localized phase, in which the states at the boundaries or mobility edges may exhibit multifractality. Meanwhile, the Critical Phase (CP), where all states exhibit multifractal structures, has also attracted much attention in the past decades. However, a generic way to construct the CP on demand still remains elusive. Here, a general approach for this phase is presented using two coupled quasiperiodic chains, where the chains are chosen so that before coupling one of them has extended states while the other one has localized states. We demonstrate the existence of CP in the overlapped spectra in the presence of inter-chain coupling using fractal dimension and minimal scaling index based on multifractal analysis. Then we examine the generality of this physics by changing the forms of inter-chain coupling and quasiperiodic potential, where the CP also emerges in the overlapped spectra. We account for the emergence of this phase as a result of effective unbounded potential, which yields singular continuous spectra and excludes the extended states in the overlapped regimes. Finally, the realization of this CP in the continuous model using ultracold atoms with bichromatic incommensurate optical lattice is also discussed. Due to the tunability of the two chains, this work provides a general approach to realizing the CP in a tunable way. This approach may have wide applications in the experimental detection of CP and can be generalized to much more intriguing physics in the presence of interaction for the many-body CP.
翻訳日:2023-06-03 01:44:08 公開日:2023-06-01
# 大きな言語モデルは、人間が知っていることを知っていますか?

Do Large Language Models know what humans know? ( http://arxiv.org/abs/2209.01515v3 )

ライセンス: Link先を確認
Sean Trott, Cameron Jones, Tyler Chang, James Michaelov, Benjamin Bergen(参考訳) 人間は信念を他人に当てはめることができる。 しかし、この能力が生来の生物学的養育や、発達を通じて得られた経験、特に他者の精神状態を記述する言語にどの程度影響するかは不明である。 文中の文字の暗黙的知識状態に対して,多量の人間の言語に露出したモデルが感性を示すか否かを評価することで,言語暴露仮説の有効性を検証する。 事前登録された分析では,False Belief Task の言語版を人間と大規模言語モデル GPT-3 に提示する。 どちらも他人の信念に敏感だが、言語モデルは確率的行動を大幅に上回るが、人間と同等に機能するわけではない。 これは、言語曝露による統計的学習が、人間が他人の精神状態について推論する能力をいかに発達させるかを説明する一方で、他のメカニズムも責任を負っていることを示唆している。

Humans can attribute beliefs to others. However, it is unknown to what extent this ability results from an innate biological endowment or from experience accrued through child development, particularly exposure to language describing others' mental states. We test the viability of the language exposure hypothesis by assessing whether models exposed to large quantities of human language display sensitivity to the implied knowledge states of characters in written passages. In pre-registered analyses, we present a linguistic version of the False Belief Task to both human participants and a Large Language Model, GPT-3. Both are sensitive to others' beliefs, but while the language model significantly exceeds chance behavior, it does not perform as well as the humans, nor does it explain the full extent of their behavior -- despite being exposed to more language than a human would in a lifetime. This suggests that while statistical learning from language exposure may in part explain how humans develop the ability to reason about the mental states of others, other mechanisms are also responsible.
翻訳日:2023-06-03 01:43:42 公開日:2023-06-01
# 関連事実は存在しない。 関係量子力学は、jay lawrence, marcin markiewicz, marek \'{z}ukowskiによる「量子力学とは相容れない」

Comments on: `Relative facts do not exist. Relational quantum mechanics is incompatible with quantum mechanics' by Jay Lawrence, Marcin Markiewicz and Marek \'{Z}ukowski ( http://arxiv.org/abs/2209.01237v2 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) リレーショナル量子力学(Relational Quantum Mechanics、RQM)は、Cによって提唱された量子力学の代替解釈である。 ロヴェリ。 RQM はコペンハーゲン (orthodox) 解釈の論理的完備化と一般化と見なすことができるが、ハイゼンベルクの量子 'shifty-split' あるいは 'cut' の仲裁性は、観測されたサブシステムと観測されたサブシステムとを分離している。 コペンハーゲン解釈とは異なり、カットは巨視的領域に限定されず、観測および観測システムの役割は相対的であり、反転することができる。 したがって、RQMはより対称で一般的なアプローチである。 さらに、近年RQMは様々な著者によって批判され評価されている。 本コメントの目的は,最近のjに対する短い回答を提供することである。 〜Lawrence et al. article [arxiv: 2210.09025] では、RQMと量子文脈性の役割について論じている。

The Relational Quantum Mechanics (RQM) is an alternative interpretation of quantum mechanics that was proposed originally by C.~Rovelli. RQM can be seen as a logical completion and generalization of the Copenhagen (orthodox) interpretation but where the arbitrariness of Heisenberg's quantum `shifty-split' or `cut', which is separating observed and observing subsystems, is taken more seriously. Unlike, the Copenhagen interpretation the cut is not confined to the macroscopic domain and the roles of observed and observing systems are relative and can be inverted. RQM is therefore a more symmetric and general approach.\\ Moreover, recently RQM has been criticized and assessed by various authors. The aim of the present comment is to give a short reply to the recent J.~Lawrence et al. article [arxiv: 2210.09025] that concerns RQM and the role of quantum contextuality.
翻訳日:2023-06-03 01:43:26 公開日:2023-06-01
# 絡み合い支援通信のための強 Converse Exponent

Strong Converse Exponent for Entanglement-Assisted Communication ( http://arxiv.org/abs/2209.00555v2 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao(参考訳) 量子チャネルの絡み合い支援による古典的通信の厳密な逆指数を決定する。 我々の主な貢献は、サンドイッチされたR'enyi分散を特徴とする強逆指数の上界の導出である。 この上限は gupta と wilde の下限と一致することが判明した(数学 phys 334:867--887, 2015)。 したがって、強い逆指数はこれら2つの境界の組み合わせから従う。 私たちの結果は2つの意味を持つ。 第一に、コニー、モソニ、ワイルド(Commun Math Phys 344:797-829, 2016)が導いた量子フィードバック支援古典通信の強い逆性に対する指数的境界が最適であることを意味する。 これは、肯定的な質問に答える。 それゆえ、我々はこの問題に対する厳密な逆指数も決定しました。 第二に、Lung と Matthews の観測により、エンタングルメントや量子フィードバックの助けを借りて量子情報の伝達を扱うことができ、同様の結果が得られる。 上記の結果は、チャネルのサンドイッチ化されたR'enyi情報に対して初めて、$\alpha > 1$の完全な操作解釈を提供する。

We determine the exact strong converse exponent for entanglement-assisted classical communication of a quantum channel. Our main contribution is the derivation of an upper bound for the strong converse exponent which is characterized by the sandwiched R\'enyi divergence. It turns out that this upper bound coincides with the lower bound of Gupta and Wilde (Commun Math Phys 334:867--887, 2015). Thus, the strong converse exponent follows from the combination of these two bounds. Our result has two implications. Firstly, it implies that the exponential bound for the strong converse property of quantum-feedback-assisted classical communication, derived by Cooney, Mosonyi and Wilde (Commun Math Phys 344:797--829, 2016), is optimal. This answers their open question in the affirmative. Hence, we have determined the exact strong converse exponent for this problem as well. Secondly, due to an observation of Leung and Matthews, it can be easily extended to deal with the transmission of quantum information under the assistance of entanglement or quantum feedback, yielding similar results. The above findings provide, for the first time, a complete operational interpretation to the channel's sandwiched R\'enyi information of order $\alpha > 1$.
翻訳日:2023-06-03 01:42:58 公開日:2023-06-01
# テンソルネットワークと直交関数展開による量子状態の振幅に符号化された関数の抽出

Extracting a function encoded in amplitudes of a quantum state by tensor network and orthogonal function expansion ( http://arxiv.org/abs/2208.14623v2 )

ライセンス: Link先を確認
Koichi Miyamoto, Hiroshi Ueda(参考訳) 偏微分方程式の解法のような一連の条件を満たす関数 $f$ を見つける量子アルゴリズムがあり、それらは既存の古典的手法と比較して指数関数的量子スピードアップ(特に $f$ の変数の$d$ が大きい場合)を達成する。 しかし、一般にこれらのアルゴリズムは振幅で$f$を符号化する量子状態を出力し、そのような状態から古典的なデータとして$f$の値を読み取るのに時間がかかり、量子スピードアップが破壊される。 本研究では,この関数読み出しタスクの一般的な方法を提案する。 テンソルネットワークと直交関数展開の組み合わせによる関数近似に基づいて、量子回路とその最適化手順を示し、d$に対して自由度多項式数を持ち、古典コンピュータ上で効率的に蒸発可能な近似関数を得る。 また,金融モチベーション関数を近似し,提案手法が有効であることを示す数値実験を行った。

There are quantum algorithms for finding a function $f$ satisfying a set of conditions, such as solving partial differential equations, and these achieve exponential quantum speedup compared to existing classical methods, especially when the number $d$ of the variables of $f$ is large. In general, however, these algorithms output the quantum state which encodes $f$ in the amplitudes, and reading out the values of $f$ as classical data from such a state can be so time-consuming that the quantum speedup is ruined. In this study, we propose a general method for this function readout task. Based on the function approximation by a combination of tensor network and orthogonal function expansion, we present a quantum circuit and its optimization procedure to obtain an approximating function of $f$ that has a polynomial number of degrees of freedom with respect to $d$ and is efficiently evaluable on a classical computer. We also conducted a numerical experiment to approximate a finance-motivated function to demonstrate that our method works.
翻訳日:2023-06-03 01:42:38 公開日:2023-06-01
# Oracle の強化学習における不確実性指標によるポリシの導入

Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics ( http://arxiv.org/abs/2208.10533v2 )

ライセンス: Link先を確認
Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri(参考訳) 強化学習の本質的な問題は、ランダムな行動を通じて環境を探索することであり、その大部分は非生産的である。 代わりに、学習ポリシーを既存の(学習あるいはハードコードされた)オラクルポリシー、オフラインデータ、あるいはデモで初期化することで、探索を改善することができる。 oracleのポリシを使用する場合、サンプル効率の学習を最大化する方法で、oracleのポリシの経験を学習ポリシに組み込む方法が明確になる可能性がある。 本稿では,このようなoracleポリシーを標準のアクタ-批判的強化学習アルゴリズムに組み込むための,批判的信頼度誘導探索(ccge)という手法を提案する。 より具体的には、CCGEは託宣方針の行動を提案として受け取り、不確実性が高ければ学習計画にこの情報を組み込むとともに、不確実性が低い場合は無視する。 CCGEは不確実性を推定する手法に非依存であり、2つの異なる手法でも同様に有効であることを示す。 CCGEが様々なベンチマーク強化学習タスクに与える影響を実証的に評価し、このアイデアがサンプル効率と最終性能の向上につながることを示す。 さらに、スパース報酬環境の評価において、CCGEは、オラクルポリシーも活用する隣接するアルゴリズムに対して競合的に実行することができる。 本実験は,不確実性をヒューリスティックとして活用して,強化学習におけるオラクルを用いた探索をガイドできることを示唆する。 さまざまなヒューリスティックを使って学習指導の方向性を決定することで、この方向にさらなる研究がもたらされることを期待する。

An inherent problem of reinforcement learning is performing exploration of an environment through random actions, of which a large portion can be unproductive. Instead, exploration can be improved by initializing the learning policy with an existing (previously learned or hard-coded) oracle policy, offline data, or demonstrations. In the case of using an oracle policy, it can be unclear how best to incorporate the oracle policy's experience into the learning policy in a way that maximizes learning sample efficiency. In this paper, we propose a method termed Critic Confidence Guided Exploration (CCGE) for incorporating such an oracle policy into standard actor-critic reinforcement learning algorithms. More specifically, CCGE takes in the oracle policy's actions as suggestions and incorporates this information into the learning scheme when uncertainty is high, while ignoring it when the uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and we show that it is equally effective with two different techniques. Empirically, we evaluate the effect of CCGE on various benchmark reinforcement learning tasks, and show that this idea can lead to improved sample efficiency and final performance. Furthermore, when evaluated on sparse reward environments, CCGE is able to perform competitively against adjacent algorithms that also leverage an oracle policy. Our experiments show that it is possible to utilize uncertainty as a heuristic to guide exploration using an oracle in reinforcement learning. We expect that this will inspire more research in this direction, where various heuristics are used to determine the direction of guidance provided to learning.
翻訳日:2023-06-03 01:41:50 公開日:2023-06-01
# 量子化学への応用のための変分量子アルゴリズムにおける異なる最適化器のベンチマーク

Benchmarking of Different Optimizers in the Variational Quantum Algorithms for Applications in Quantum Chemistry ( http://arxiv.org/abs/2208.10285v3 )

ライセンス: Link先を確認
Harshdeep Singh, Sabyashachi Mishra, Sonjoy Majumder(参考訳) 古典最適化器は変分量子アルゴリズムの精度と収束を決定する上で重要な役割を果たす。 文献では、それぞれ独自のアーキテクチャを持つ多くのオプティマイザが、異なるアプリケーションに適切に採用されている。 本研究では,量子化学における変動量子アルゴリズムの性能を,現実的な雑音環境下で評価する手法を提案する。 我々は、水素、水素化リチウム、水素化ベリリウム、水、フッ化水素などの単純な分子の量子シミュレーションに基づく臨界解析で最適化器をベンチマークした。 基底状態エネルギー、解離エネルギー、双極子モーメントの誤差は、ヤードスティックとして使われるパラメータである。 すべてのシミュレーションは理想的な量子回路シミュレータ、ノイズ量子回路シミュレータ、およびibm cairo量子デバイスからノイズを埋め込んだノイズシミュレータを用いて行われ、理想的で現実的な量子環境における古典的最適化の性能を理解した。 計算には標準ユニタリ結合クラスター (ucc) ansatz を用い, フッ化水素中では水素分子から10量子ビットまで, 量子ビットの数は2つから10つに変化した。 理想的な量子回路におけるこれらのオプティマイザの性能に基づいて、共役勾配(CG)、限定メモリのブロイデン=フレッチャー=ゴールドファーブ=シャンノ境界(L_BFGS)B、および逐次最小二乗計画(SLSQP)最適化器が最適性能の勾配に基づく最適化器であることが判明した。 線形近似法(cobyla)とパウエル法(powell)による制約付き最適化が最も効率的である。 しかし、ノイズ量子回路では、同時摂動確率近似(spsa)、パウエル(powell)、コビラ(cobyla)が最適である。

Classical optimizers play a crucial role in determining the accuracy and convergence of variational quantum algorithms. In literature, many optimizers, each having its own architecture, have been employed expediently for different applications. In this work, we consider a few popular optimizers and assess their performance in variational quantum algorithms for applications in quantum chemistry in a realistic noisy setting. We benchmark the optimizers with critical analysis based on quantum simulations of simple molecules, such as Hydrogen, Lithium Hydride, Beryllium Hydride, water, and Hydrogen Fluoride. The errors in the ground-state energy, dissociation energy, and dipole moment are the parameters used as yardsticks. All the simulations were carried out with an ideal quantum circuit simulator, a noisy quantum circuit simulator, and a noisy simulator with noise embedded from the IBM Cairo quantum device to understand the performance of the classical optimizers in ideal and realistic quantum environments. We used the standard unitary coupled cluster (UCC) ansatz for simulations, and the number of qubits varied from two, starting from the Hydrogen molecule to ten qubits, in Hydrogen Fluoride. Based on the performance of these optimizers in the ideal quantum circuits, the conjugate gradient (CG), limited-memory Broyden-Fletcher-Goldfarb-Shanno bound (L_BFGS)B), and sequential least squares programming (SLSQP) optimizers are found to be the best-performing gradient-based optimizers. While constrained optimization by linear approximation (COBYLA) and POWELL perform most efficiently among the gradient-free methods. However, in noisy quantum circuit conditions, Simultaneous Perturbation Stochastic Approximation (SPSA), POWELL, and COBYLA are among the best-performing optimizers.
翻訳日:2023-06-03 01:41:23 公開日:2023-06-01
# 楕円体のランダム点への準最適嵌合

Near-optimal fitting of ellipsoids to random points ( http://arxiv.org/abs/2208.09493v4 )

ライセンス: Link先を確認
Aaron Potechin, Paxton Turner, Prayaag Venkat, Alexander S. Wein(参考訳) 独立標準ガウス点 $v_1, \ldots, v_n$ in dimension $d$, for what value of $(n, d)$ は高確率で存在し、同時にすべての点を通過する原点対称楕円体が存在するか? 楕円体をランダムな点に当てはめるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析と関係している。 Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] の強い数値的証拠に基づいて、楕円体嵌合問題は、点数$n$が増加し、鋭い閾値が$n \sim d^2/4$となるにつれて、実現不可能から不可能へと遷移する。 我々はこの予想を、ある$n = \Omega( \, d^2/\mathrm{polylog}(d) \,)$ の適合楕円体を構築し、Ghosh et al の以前の仕事を改善することで対数的因子に分解する。 [コンピュータ科学の基礎シンポジウム, pp. 954-965, 2020]$n = o(d^{3/2})$. 我々の証明は、ある非標準確率行列の便利な分解とグラフ行列の理論によるノイマン展開の注意深い解析を用いて、サンダーソン等最小二乗構成の実現可能性を示す。

Given independent standard Gaussian points $v_1, \ldots, v_n$ in dimension $d$, for what values of $(n, d)$ does there exist with high probability an origin-symmetric ellipsoid that simultaneously passes through all of the points? This basic problem of fitting an ellipsoid to random points has connections to low-rank matrix decompositions, independent component analysis, and principal component analysis. Based on strong numerical evidence, Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] conjecture that the ellipsoid fitting problem transitions from feasible to infeasible as the number of points $n$ increases, with a sharp threshold at $n \sim d^2/4$. We resolve this conjecture up to logarithmic factors by constructing a fitting ellipsoid for some $n = \Omega( \, d^2/\mathrm{polylog}(d) \,)$, improving prior work of Ghosh et al. [Proc. of Symposium on Foundations of Computer Science, pp. 954-965, 2020] that requires $n = o(d^{3/2})$. Our proof demonstrates feasibility of the least squares construction of Saunderson et al. using a convenient decomposition of a certain non-standard random matrix and a careful analysis of its Neumann expansion via the theory of graph matrices.
翻訳日:2023-06-03 01:40:50 公開日:2023-06-01
# 因果的位置スケール騒音モデルの同定可能性と推定について

On the Identifiability and Estimation of Causal Location-Scale Noise Models ( http://arxiv.org/abs/2210.09054v2 )

ライセンス: Link先を確認
Alexander Immer, Christoph Schultheiss, Julia E. Vogt, Bernhard Sch\"olkopf, Peter B\"uhlmann, Alexander Marx(参考訳) 位置スケールまたはヘテロシドスティックノイズモデル(lsnms)のクラスについて検討し、y$ は原因 $x$ の関数として書くことができ、ノイズソースは $x$ から独立して $n$ であり、それは原因よりも正の関数 $g$ でスケールできる。 モデルクラスの一般化にもかかわらず,病的症例では因果方向が特定可能であることを示す。 これらの理論的知見を実証的に検証するために、lsnmの2つの推定器、すなわち(非線形な)特徴マップに基づく推定器と、ニューラルネットワークに基づく推定器を提案する。 どちらも、自然パラメータによってパラメータ化されたガウス型として与えられる$x$の条件分布をモデル化する。 特徴マップが正しく指定された場合、我々の推定器は合同で凹凸であり、因果効果識別タスクの一貫した推定器であることが証明される。 ニューラルネットワークはこれらの保証を継承しないが、任意の複雑性の関数に適合し、ベンチマーク全体で最先端のパフォーマンスに達する。

We study the class of location-scale or heteroscedastic noise models (LSNMs), in which the effect $Y$ can be written as a function of the cause $X$ and a noise source $N$ independent of $X$, which may be scaled by a positive function $g$ over the cause, i.e., $Y = f(X) + g(X)N$. Despite the generality of the model class, we show the causal direction is identifiable up to some pathological cases. To empirically validate these theoretical findings, we propose two estimators for LSNMs: an estimator based on (non-linear) feature maps, and one based on neural networks. Both model the conditional distribution of $Y$ given $X$ as a Gaussian parameterized by its natural parameters. When the feature maps are correctly specified, we prove that our estimator is jointly concave, and a consistent estimator for the cause-effect identification task. Although the the neural network does not inherit those guarantees, it can fit functions of arbitrary complexity, and reaches state-of-the-art performance across benchmarks.
翻訳日:2023-06-03 01:34:00 公開日:2023-06-01
# フレーズ表現検索による名前付きエンティティ認識データセットの自動生成

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations ( http://arxiv.org/abs/2210.07586v4 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang(参考訳) 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。 このアプローチは辞書が存在しない多くのドメインでは実現不可能である。 最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。 本研究では,高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。 具体的には,様々なエンティティに密集した空間を検索することを促す句埋め込み探索と呼ばれる新しい検索手法を用いて,エンティティに富む辞書を作成する。 さらに,エンティティ参照候補とエンティティタイプ間の埋め込み距離に基づく新しい検証プロセスを用いて,高被覆辞書によって生成された弱ラベルの偽陽性ノイズを低減する。 5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。

Most weakly supervised named entity recognition (NER) models rely on domain-specific dictionaries provided by experts. This approach is infeasible in many domains where dictionaries do not exist. While a phrase retrieval model was used to construct pseudo-dictionaries with entities retrieved from Wikipedia automatically in a recent study, these dictionaries often have limited coverage because the retriever is likely to retrieve popular entities rather than rare ones. In this study, we present a novel framework, HighGEN, that generates NER datasets with high-coverage pseudo-dictionaries. Specifically, we create entity-rich dictionaries with a novel search method, called phrase embedding search, which encourages the retriever to search a space densely populated with various entities. In addition, we use a new verification process based on the embedding distance between candidate entity mentions and entity types to reduce the false-positive noise in weak labels generated by high-coverage dictionaries. We demonstrate that HighGEN outperforms the previous best model by an average F1 score of 4.7 across five NER benchmark datasets.
翻訳日:2023-06-03 01:33:23 公開日:2023-06-01
# SQuId: 多くの言語における音声の自然度の測定

SQuId: Measuring Speech Naturalness in Many Languages ( http://arxiv.org/abs/2210.06324v2 )

ライセンス: Link先を確認
Thibault Sellam, Ankur Bapna, Joshua Camp, Diana Mackinnon, Ankur P. Parikh, Jason Riesa(参考訳) テキストから音声への研究の多くは、人的評価に依存しているため、コストがかかり、開発プロセスが遅くなる。 特に多言語アプリケーションでは、採用とポーリングの審査員が数週間かかることがある。 我々は,100万人以上のレーティングで訓練され,65箇所でテストされた多言語自然性予測モデルであるsquid(speech quality identification)を紹介する。 主な洞察は、多くのローカルでの1つのモデルのトレーニングが、単ローカルベースラインを一貫して上回ることである。 本稿では,W2v-BERTとVoiceMOSに基づく競争ベースラインを50.0%上回る性能を示した。 次に, 微調整時のクロスロケール転送の有効性を実証し, その効果をゼロショットロケール, すなわち微調整データがないロケールに強調する。 クロスローカリー転送における音響アーチファクトなどの非言語的効果の役割を,一連の分析を通じて強調する。 最後に,いくつかのアブレーション実験を用いて,モデルサイズ,事前学習の多様性,言語リバランスなど,設計決定の効果について述べる。

Much of text-to-speech research relies on human evaluation, which incurs heavy costs and slows down the development process. The problem is particularly acute in heavily multilingual applications, where recruiting and polling judges can take weeks. We introduce SQuId (Speech Quality Identification), a multilingual naturalness prediction model trained on over a million ratings and tested in 65 locales-the largest effort of this type to date. The main insight is that training one model on many locales consistently outperforms mono-locale baselines. We present our task, the model, and show that it outperforms a competitive baseline based on w2v-BERT and VoiceMOS by 50.0%. We then demonstrate the effectiveness of cross-locale transfer during fine-tuning and highlight its effect on zero-shot locales, i.e., locales for which there is no fine-tuning data. Through a series of analyses, we highlight the role of non-linguistic effects such as sound artifacts in cross-locale transfer. Finally, we present the effect of our design decision, e.g., model size, pre-training diversity, and language rebalancing with several ablation experiments.
翻訳日:2023-06-03 01:33:07 公開日:2023-06-01
# E3Bind:タンパク質-リガンドドッキングのためのエンドツーエンドの等価ネットワーク

E3Bind: An End-to-End Equivariant Network for Protein-Ligand Docking ( http://arxiv.org/abs/2210.06069v2 )

ライセンス: Link先を確認
Yangtian Zhang, Huiyu Cai, Chence Shi, Bozitao Zhong, Jian Tang(参考訳) 特定のタンパク質標的に対するリガンド結合反応のシリコ予測は、薬物発見において決定的だが難しい課題である。 本研究は, ドッキング分子の位置, 配向, 配向の予測を目的とした, ブラインドフレキシブルな自己ドッキングに焦点を当てる。 従来の物理学に基づく手法は通常、不正確なスコアリング機能と高い推論コストに苦しむ。 近年,深層学習技術に基づくデータ駆動手法は,推論時の効率や有望な性能により,関心が高まりつつある。 これらの方法は通常、まずタンパク質とリガンドの間の距離を予測し、その後、予測された距離に基づいて最終的な座標を生成する2段階のアプローチを採用するか、あるいはリガンドのグローバルロート変換を直接予測する。 本稿では,異なる経路を採る。 タンパク質構造予測におけるAlphaFold2の再検討の成功に触発されて,リガンドポーズを反復的に更新するエンドツーエンドの同変ネットワークであるE3Bindを提案する。 E3Bindはドッキングにおける幾何学的制約と結合部位の局所的文脈を慎重に考慮し、タンパク質-リガンド相互作用をモデル化する。 標準ベンチマークデータセットの実験は、従来の、最近提案されたディープラーニング手法と比較して、エンドツーエンドのトレーニング可能なモデルの優れたパフォーマンスを示している。

In silico prediction of the ligand binding pose to a given protein target is a crucial but challenging task in drug discovery. This work focuses on blind flexible selfdocking, where we aim to predict the positions, orientations and conformations of docked molecules. Traditional physics-based methods usually suffer from inaccurate scoring functions and high inference cost. Recently, data-driven methods based on deep learning techniques are attracting growing interest thanks to their efficiency during inference and promising performance. These methods usually either adopt a two-stage approach by first predicting the distances between proteins and ligands and then generating the final coordinates based on the predicted distances, or directly predicting the global roto-translation of ligands. In this paper, we take a different route. Inspired by the resounding success of AlphaFold2 for protein structure prediction, we propose E3Bind, an end-to-end equivariant network that iteratively updates the ligand pose. E3Bind models the protein-ligand interaction through careful consideration of the geometric constraints in docking and the local context of the binding site. Experiments on standard benchmark datasets demonstrate the superior performance of our end-to-end trainable model compared to traditional and recently-proposed deep learning methods.
翻訳日:2023-06-03 01:32:45 公開日:2023-06-01
# 多様性とプライバシ保護のための特徴ベース学習

Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations ( http://arxiv.org/abs/2209.13446v5 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung(参考訳) 解釈可能な機械学習は、説明可能性の欠如で長年悪名高い複雑なブラックボックスシステムの推論プロセスを理解しようとする。 優れたアプローチの1つは、ユーザーが結果を変更するために何ができるかを示唆する反事実的な説明を通じてである。 偽の例がブラックボックス分類器の当初の予測に逆らわなければならないだけでなく、実用上の様々な制約を満たすべきである。 多様性は、議論の少ない重要な制約の1つです。 多様な反事実は理想的であるが、他の制約に同時に対処することは計算的に困難である。 さらに、リリースされた偽データに対するプライバシーの懸念が高まっている。 そこで本研究では,非現実的制約を効果的に処理し,プライベートな説明モデルのプールに寄与する機能ベースの学習フレームワークを提案する。 本手法の柔軟性と有効性を実証し,その有効性を検証した。 我々のカウンターファクトエンジンは同じキャパシティのエンジンよりも効率的であり、低い再識別リスクをもたらす。

Interpretable machine learning seeks to understand the reasoning process of complex black-box systems that are long notorious for lack of explainability. One flourishing approach is through counterfactual explanations, which provide suggestions on what a user can do to alter an outcome. Not only must a counterfactual example counter the original prediction from the black-box classifier but it should also satisfy various constraints for practical applications. Diversity is one of the critical constraints that however remains less discussed. While diverse counterfactuals are ideal, it is computationally challenging to simultaneously address some other constraints. Furthermore, there is a growing privacy concern over the released counterfactual data. To this end, we propose a feature-based learning framework that effectively handles the counterfactual constraints and contributes itself to the limited pool of private explanation models. We demonstrate the flexibility and effectiveness of our method in generating diverse counterfactuals of actionability and plausibility. Our counterfactual engine is more efficient than counterparts of the same capacity while yielding the lowest re-identification risks.
翻訳日:2023-06-03 01:32:08 公開日:2023-06-01
# テキストから画像へのモデルのベストプロンプトとその検索方法

Best Prompts for Text-to-Image Models and How to Find Them ( http://arxiv.org/abs/2209.11711v3 )

ライセンス: Link先を確認
Nikita Pavlichenko and Dmitry Ustalov(参考訳) 生成モデル、特にテキスト誘導拡散モデルにおける最近の進歩は、プロのヒトアーティストの作品に類似した美的なイメージの制作を可能にしている。 しかし、プロンプトと呼ばれるテキスト記述を慎重に作成し、明確なキーワードのセットで拡張する必要がある。 審美学は計算的評価が難しいため、最適な迅速な定式化とキーワードの組み合わせを決定するには人間のフィードバックが必要である。 本稿では,遺伝的アルゴリズムを用いて,命令キーワードの最も有用な組み合わせを学習するための,ループ内の人間的アプローチを提案する。 また,このようなアプローチが,同一の描写を表現した画像の美的魅力をいかに改善するかを示す。

Recent progress in generative models, especially in text-guided diffusion models, has enabled the production of aesthetically-pleasing imagery resembling the works of professional human artists. However, one has to carefully compose the textual description, called the prompt, and augment it with a set of clarifying keywords. Since aesthetics are challenging to evaluate computationally, human feedback is needed to determine the optimal prompt formulation and keyword combination. In this paper, we present a human-in-the-loop approach to learning the most useful combination of prompt keywords using a genetic algorithm. We also show how such an approach can improve the aesthetic appeal of images depicting the same descriptions.
翻訳日:2023-06-03 01:31:53 公開日:2023-06-01
# 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model ( http://arxiv.org/abs/2211.01751v2 )

ライセンス: Link先を確認
Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov(参考訳) ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。 ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。 その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。 しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。 従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。 本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。 提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。

Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model's quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios.
翻訳日:2023-06-03 01:24:13 公開日:2023-06-01
# ネストフーリエニューラルネットワークを用いたリアルタイム高分解能co$_2$地層貯留予測

Real-time high-resolution CO$_2$ geological storage prediction using nested Fourier neural operators ( http://arxiv.org/abs/2210.17051v2 )

ライセンス: Link先を確認
Gege Wen, Zongyi Li, Qirui Long, Kamyar Azizzadenesheli, Anima Anandkumar, Sally M. Benson(参考訳) 炭素捕獲貯蔵(CCS)は、地球規模の脱炭酸に不可欠な役割を担っている。 CCS展開のスケールアップには, 貯水池圧力上昇とガス配管マイグレーションの高精度かつ高精度なモデリングが必要である。 しかし、既存の数値計算手法の計算コストが高いため、そのようなモデリングは非常に困難である。 この課題はストレージの機会を評価する上で大きな不確実性をもたらし、大規模なCCSデプロイメントのペースを遅らせる可能性がある。 我々は,高分解能な3D CO2ストレージモデリングのための機械学習フレームワークであるNested Fourier Neural Operator (FNO)を,盆地スケールで導入した。 Nested FNOは、FNOの階層構造を用いて異なる洗練レベルで予測を生成し、既存の手法と比較して70,000倍近いフロー予測を高速化する。 偏微分方程式の族に対する解演算子を学習することにより、ネステッドFNOは多様な貯留条件、地質的不均一性、注入スキームを持つCO2貯蔵の汎用的な数値シミュレータを作成する。 我々のフレームワークは,グローバルCCS展開のスケールアップを支援する,前例のないリアルタイムモデリングと確率的シミュレーションを実現する。

Carbon capture and storage (CCS) plays an essential role in global decarbonization. Scaling up CCS deployment requires accurate and high-resolution modeling of the storage reservoir pressure buildup and the gaseous plume migration. However, such modeling is very challenging at scale due to the high computational costs of existing numerical methods. This challenge leads to significant uncertainties in evaluating storage opportunities, which can delay the pace of large-scale CCS deployment. We introduce Nested Fourier Neural Operator (FNO), a machine-learning framework for high-resolution dynamic 3D CO2 storage modeling at a basin scale. Nested FNO produces forecasts at different refinement levels using a hierarchy of FNOs and speeds up flow prediction nearly 700,000 times compared to existing methods. By learning the solution operator for the family of governing partial differential equations, Nested FNO creates a general-purpose numerical simulator alternative for CO2 storage with diverse reservoir conditions, geological heterogeneity, and injection schemes. Our framework enables unprecedented real-time modeling and probabilistic simulations that can support the scale-up of global CCS deployment.
翻訳日:2023-06-03 01:23:20 公開日:2023-06-01
# GPA-Net:マルチタスクグラフ畳み込みネットワークによる非参照点クラウド品質評価

GPA-Net:No-Reference Point Cloud Quality Assessment with Multi-task Graph Convolutional Network ( http://arxiv.org/abs/2210.16478v3 )

ライセンス: Link先を確認
Ziyu Shan, Qi Yang, Rui Ye, Yujie Zhang, Yiling Xu, Xiaozhong Xu and Shan Liu(参考訳) 3Dビジョンの急速な発展に伴い、ポイントクラウドはますます人気のある3Dビジュアルメディアコンテンツになりつつある。 不規則な構造のため、ポイントクラウドは、圧縮、伝達、レンダリング、品質評価など、関連する研究に新たな課題をもたらした。 これらの最新の研究で、ポイントクラウドの品質評価(PCQA)は、特に参照ポイントクラウドが利用できない場合において、実用的なアプリケーションを導く上で重要な役割を担っているため、広く注目を集めている。 しかし、一般的なディープニューラルネットワークに基づく現在の非参照メトリクスには明らかな欠点がある。 例えば、点雲の不規則構造に適応するためには、余分な歪みをもたらすボキセル化やプロジェクションのような前処理が必要であり、Convolutional Neural Networksのような応用グリッドカーネルネットワークは、効果的な歪み関連の特徴を抽出できない。 さらに、彼らは様々な歪みパターンや、PCQAがシフト、スケーリング、回転不変性を示すべきという哲学を考えることはめったにない。 本稿では,グラフ畳み込みPCQAネットワーク (GPA-Net) と呼ばれる新しい非参照PCQAメトリックを提案する。 PCQAに有効な特徴を抽出するために,構造とテクスチャの摂動を注意深く捉えた新しいグラフ畳み込みカーネル,すなわちGPAConvを提案する。 次に,1つのメインタスク(品質回帰)と2つの補助タスク(歪タイプと次数予測)からなるマルチタスクフレームワークを提案する。 最後に,GPAConvの結果をシフト,スケール,回転変換で安定化させる座標正規化モジュールを提案する。 2つの独立したデータベースの実験結果から、GPA-Netは最先端の非参照PCQAメトリクスと比較して最高のパフォーマンスを達成している。

With the rapid development of 3D vision, point cloud has become an increasingly popular 3D visual media content. Due to the irregular structure, point cloud has posed novel challenges to the related research, such as compression, transmission, rendering and quality assessment. In these latest researches, point cloud quality assessment (PCQA) has attracted wide attention due to its significant role in guiding practical applications, especially in many cases where the reference point cloud is unavailable. However, current no-reference metrics which based on prevalent deep neural network have apparent disadvantages. For example, to adapt to the irregular structure of point cloud, they require preprocessing such as voxelization and projection that introduce extra distortions, and the applied grid-kernel networks, such as Convolutional Neural Networks, fail to extract effective distortion-related features. Besides, they rarely consider the various distortion patterns and the philosophy that PCQA should exhibit shifting, scaling, and rotational invariance. In this paper, we propose a novel no-reference PCQA metric named the Graph convolutional PCQA network (GPA-Net). To extract effective features for PCQA, we propose a new graph convolution kernel, i.e., GPAConv, which attentively captures the perturbation of structure and texture. Then, we propose the multi-task framework consisting of one main task (quality regression) and two auxiliary tasks (distortion type and degree predictions). Finally, we propose a coordinate normalization module to stabilize the results of GPAConv under shift, scale and rotation transformations. Experimental results on two independent databases show that GPA-Net achieves the best performance compared to the state-of-the-art no-reference PCQA metrics, even better than some full-reference metrics in some cases.
翻訳日:2023-06-03 01:23:01 公開日:2023-06-01
# 算術サンプリング:大規模言語モデルのための並列ディバースデコーディング

Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models ( http://arxiv.org/abs/2210.15458v2 )

ライセンス: Link先を確認
Luke Vilnis, Yury Zemlyanskiy, Patrick Murray, Alexandre Passos, Sumit Sanghai(参考訳) 大規模言語モデルの復号法は、しばしば出力の多様性と計算の並列性の間でトレードオフがある。 ビームサーチやガンベルトップkサンプリングのような手法はビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。 あるいは、温度サンプリングとその修正方法(トップkサンプリング、核サンプリング、典型的な復号化など)は恥ずかしく並列であるが、重複サンプルについては保証がない。 本稿では,大言語モデルによって暗黙的に定義された算術コードブックに従ってサンプリングを行うためのフレームワークを提案する。 本稿では, wmt機械翻訳における提案手法の有効性を実証し, 期待bleuスコアの報酬を推定する際の標準偏差を半減し, 独立サンプリングとビーム探索の間のbleuスコアギャップを最大63%削減した。

Decoding methods for large language models often trade-off between diversity of outputs and parallelism of computation. Methods such as beam search and Gumbel top-k sampling can guarantee a different output for each element of the beam, but are not easy to parallelize. Alternatively, methods such as temperature sampling and its modifications (top-k sampling, nucleus sampling, typical decoding, and others), are embarrassingly parallel, but have no guarantees about duplicate samples. We present a framework for sampling according to an arithmetic code book implicitly defined by a large language model, compatible with common sampling variations, with provable beam diversity under certain conditions, as well as being embarrassingly parallel and providing unbiased and consistent expectations from the original model. We demonstrate the effectiveness of our approach on WMT machine translation, more than halving the standard deviation when estimating expected BLEU score reward, and closing the BLEU score gap between independent sampling and beam search by up to 63%.
翻訳日:2023-06-03 01:22:30 公開日:2023-06-01
# midpoint mixupによるマルチビューデータの多様な特徴の学習

Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup ( http://arxiv.org/abs/2210.13512v3 )

ライセンス: Link先を確認
Muthu Chidambaram, Xiang Wang, Chenwei Wu, Rong Ge(参考訳) Mixupはデータポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存するデータ拡張技術である。 近年、ミックスアップは、一般化とロバスト性に関して経験的リスク最小化よりもメリットがあるため、最先端の画像分類モデルのトレーニングで使用される標準的なプリミティブとなっている。 本研究では、機能学習の観点から、この成功のいくつかを説明しようとしている。 我々は,各クラスがクラスを正確に予測できる複数の関連する特徴(あるいはビュー)を持つ可能性のある分類問題に注目する。 実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。 また、これらの理論的洞察が、複数の特徴を持つように修正された画像ベンチマークの実践的な設定にまで拡張されることを実証的に示す。

Mixup is a data augmentation technique that relies on training using random convex combinations of data points and their labels. In recent years, Mixup has become a standard primitive used in the training of state-of-the-art image classification models due to its demonstrated benefits over empirical risk minimization with regards to generalization and robustness. In this work, we try to explain some of this success from a feature learning perspective. We focus our attention on classification problems in which each class may have multiple associated features (or views) that can be used to predict the class correctly. Our main theoretical results demonstrate that, for a non-trivial class of data distributions with two features per class, training a 2-layer convolutional network using empirical risk minimization can lead to learning only one feature for almost all classes while training with a specific instantiation of Mixup succeeds in learning both features for every class. We also show empirically that these theoretical insights extend to the practical settings of image benchmarks modified to have multiple features.
翻訳日:2023-06-03 01:22:12 公開日:2023-06-01
# カナリア・イン・ア・カルミン : 対立的クエリを組み込んだより良いメンバーシップ推論

Canary in a Coalmine: Better Membership Inference with Ensembled Adversarial Queries ( http://arxiv.org/abs/2210.10750v2 )

ライセンス: Link先を確認
Yuxin Wen, Arpit Bansal, Hamid Kazemi, Eitan Borgnia, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 産業アプリケーションは、機械学習モデルによってますます自動化されているため、個人データ所有と知的財産権の強制は、トレーニングデータを正当な所有者に遡る必要がある。 会員推論アルゴリズムは、統計的手法を用いて、対象サンプルがモデルのトレーニングセットに含まれるかどうかを識別する。 しかし、既存の手法では、変更されていないターゲットサンプルまたは単純なターゲットの加算のみを使用して統計を計算する。 このようなモデルの振る舞いをまばらにサンプリングすると、情報が少なくなり、推論能力が低下する。 本研究では,識別的かつ多様なクエリを直接最適化するために,逆ツールを用いる。 我々の改善は、既存の方法、特にオフラインシナリオや法的な設定において重要な低い偽陽性体制において、かなり正確な会員推測を実現する。 コードはhttps://github.com/yuxinwenrick/canary-in-a-coalmineで入手できる。

As industrial applications are increasingly automated by machine learning models, enforcing personal data ownership and intellectual property rights requires tracing training data back to their rightful owners. Membership inference algorithms approach this problem by using statistical techniques to discern whether a target sample was included in a model's training set. However, existing methods only utilize the unaltered target sample or simple augmentations of the target to compute statistics. Such a sparse sampling of the model's behavior carries little information, leading to poor inference capabilities. In this work, we use adversarial tools to directly optimize for queries that are discriminative and diverse. Our improvements achieve significantly more accurate membership inference than existing methods, especially in offline scenarios and in the low false-positive regime which is critical in legal settings. Code is available at https://github.com/YuxinWenRick/canary-in-a-coalmine.
翻訳日:2023-06-03 01:21:33 公開日:2023-06-01
# Recommendation Denoisingのための効率的なバイレベル最適化

Efficient Bi-Level Optimization for Recommendation Denoising ( http://arxiv.org/abs/2210.10321v2 )

ライセンス: Link先を確認
Zongwei Wang, Min Gao, Wentao Li, Junliang Yu, Linxin Guo, Hongzhi Yin(参考訳) 現実世界のレコメンデーションシステムにおける明示的なユーザーフィードバック(例えば評価)の獲得は、アクティブなユーザー関与の必要性によってしばしば妨げられる。 この問題を緩和するために、ユーザブラウジング中に発生する暗黙のフィードバック(例えばクリック)は、実行可能な代用として利用される。 しかし、暗黙的なフィードバックは高いノイズを持ち、推薦品質を著しく損なう。 様々な重み付けを暗黙のフィードバックに割り当てることでこの問題に対処する多くの手法が提案されているが、(1)これらの方法における重み計算は、前回の反復における重みの影響を考慮せずに、イテレーション非依存であり、(2)重み計算は、しばしば事前の知識に依存している。 この2つの制約を克服するために,二段階最適化問題として推奨をモデル化した。 内的最適化は、推奨のための効果的なモデルと重量決定を導くことを目的としており、それによって事前の知識の必要性を排除している。 外的最適化は内的最適化の勾配を活用し、前回の重みの影響を考慮した方法で重みを調整する。 この二段階最適化問題を効率的に解くために,重み発生器を用いて重みの記憶と1段階の勾配マッチングに基づく損失を回避し,計算時間を著しく短縮する。 3つのベンチマークデータセットによる実験結果から,提案手法は最先端の一般モデルとデノーミングレコメンデーションモデルの両方より優れていることが示された。 コードはhttps://github.com/coderwzw/bodで入手できる。

The acquisition of explicit user feedback (e.g., ratings) in real-world recommender systems is often hindered by the need for active user involvement. To mitigate this issue, implicit feedback (e.g., clicks) generated during user browsing is exploited as a viable substitute. However, implicit feedback possesses a high degree of noise, which significantly undermines recommendation quality. While many methods have been proposed to address this issue by assigning varying weights to implicit feedback, two shortcomings persist: (1) the weight calculation in these methods is iteration-independent, without considering the influence of weights in previous iterations, and (2) the weight calculation often relies on prior knowledge, which may not always be readily available or universally applicable. To overcome these two limitations, we model recommendation denoising as a bi-level optimization problem. The inner optimization aims to derive an effective model for the recommendation, as well as guiding the weight determination, thereby eliminating the need for prior knowledge. The outer optimization leverages gradients of the inner optimization and adjusts the weights in a manner considering the impact of previous weights. To efficiently solve this bi-level optimization problem, we employ a weight generator to avoid the storage of weights and a one-step gradient-matching-based loss to significantly reduce computational time. The experimental results on three benchmark datasets demonstrate that our proposed approach outperforms both state-of-the-art general and denoising recommendation models. The code is available at https://github.com/CoderWZW/BOD.
翻訳日:2023-06-03 01:21:17 公開日:2023-06-01
# ドーナツ核を用いたパターン注目トランス

Pattern Attention Transformer with Doughnut Kernel ( http://arxiv.org/abs/2211.16961v4 )

ライセンス: Link先を確認
WenYuan Sheng(参考訳) 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。 NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。 ViTでは、画像を正方形のパッチにカットする。 ViTの後継として、Swin Transformerは、モデルの最小単位として「2つの連結Swin Transformerブロック」を発生させる固定境界の存在を減らすための追加ステップを提案する。 パッチ/ウィンドウのアイデアを継承することで、downutカーネルはパッチの設計をさらに強化します。 ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。 ドーナツカーネルはまた、正方形を超えてカーネルの形に関する新しいトピックをもたらす。 画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。 そのアーキテクチャはより軽量で、最小のパターン注意層は各ステージに1つしかない。 同様の計算の複雑さの下で、imagenet 1kの性能は高いスループット(+10%)に達し、スウィントランス(+0.8acc1)を超える。

We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. In ViT, an image is cut into square-shaped patches. As the follow-up of ViT, Swin Transformer proposes an additional step of shifting to decrease the existence of fixed boundaries, which also incurs 'two connected Swin Transformer blocks' as the minimum unit of the model. Inheriting the patch/window idea, our doughnut kernel enhances the design of patches further. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels beyond square. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its architecture is lighter: the minimum pattern attention layer is only one for each stage. Under similar complexity of computation, its performances on ImageNet 1K reach higher throughput (+10%) and surpass Swin Transformer (+0.8 acc1).
翻訳日:2023-06-03 01:14:58 公開日:2023-06-01
# ニューラルHMMを用いた韻律制御型自発性TS

Prosody-controllable spontaneous TTS with neural HMMs ( http://arxiv.org/abs/2211.13533v2 )

ライセンス: Link先を確認
Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely(参考訳) 自発音声には多くの感情的・実践的な機能があり、TSのモデル化は興味深い。 しかし, 自発音声における調音, 補聴器, 繰り返し, その他の不一致の存在は, テキストや音響の整合性を, 注意に基づくTTSでは問題となる読み上げ音声よりも小さくする。 本稿では, 自然発話における表現現象の多様性を再現しながら, 小型・不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。 具体的には,自発音声に対して安定な単調アライメントが可能な既存のニューラルhmmベースのttsシステムに発話レベルの韻律制御を追加する。 制御精度を客観的に評価し,韻律制御が合成品質を劣化させないことを示す知覚テストを行う。 複雑な自然発声現象を再現するための韻律制御と生態学的に有効なデータの組み合わせの力を例示するために,2種類のクレーキー音声を合成するシステムの能力を評価する。 オーディオサンプルはhttps://www.speech.kth.se/tts-demos/prosodic-hmm/で入手できる。

Spontaneous speech has many affective and pragmatic functions that are interesting and challenging to model in TTS. However, the presence of reduced articulation, fillers, repetitions, and other disfluencies in spontaneous speech make the text and acoustics less aligned than in read speech, which is problematic for attention-based TTS. We propose a TTS architecture that can rapidly learn to speak from small and irregular datasets, while also reproducing the diversity of expressive phenomena present in spontaneous speech. Specifically, we add utterance-level prosody control to an existing neural HMM-based TTS system which is capable of stable, monotonic alignments for spontaneous speech. We objectively evaluate control accuracy and perform perceptual tests that demonstrate that prosody control does not degrade synthesis quality. To exemplify the power of combining prosody control and ecologically valid data for reproducing intricate spontaneous speech phenomena, we evaluate the system's capability of synthesizing two types of creaky voice. Audio samples are available at https://www.speech.kth.se/tts-demos/prosodic-hmm/
翻訳日:2023-06-03 01:14:15 公開日:2023-06-01
# 連続クラスタリングと機械学習によるシンボル検出のための因子グラフの構造最適化

Structural Optimization of Factor Graphs for Symbol Detection via Continuous Clustering and Machine Learning ( http://arxiv.org/abs/2211.11406v2 )

ライセンス: Link先を確認
Lukas Rapp, Luca Schmid, Andrej Rode, Laurent Schmalen(参考訳) 本稿では,因子グラフの構造をグラフベース推論に最適化する新しい手法を提案する。 例として,線形シンボル間干渉チャネルにおけるシンボル検出について考察する。 因子グラフフレームワークは、低複雑さのシンボル検出器を生成する可能性がある。 しかし、循環係数グラフ上の和積アルゴリズムは最適以下であり、その性能は基礎となるグラフに非常に敏感である。 そこで,機械学習を用いて,基礎となる因子グラフの構造をエンドツーエンドに最適化する。 その目的のために,構造最適化を,既知のチャネルモデルを最適化に組み込んだ低次因子ノードのクラスタリング問題に変換する。 さらに,本手法とニューラル信念伝搬の組合せについて検討し,特定のチャネルに対する後部シンボル検出性能を最大に近いものにした。

We propose a novel method to optimize the structure of factor graphs for graph-based inference. As an example inference task, we consider symbol detection on linear inter-symbol interference channels. The factor graph framework has the potential to yield low-complexity symbol detectors. However, the sum-product algorithm on cyclic factor graphs is suboptimal and its performance is highly sensitive to the underlying graph. Therefore, we optimize the structure of the underlying factor graphs in an end-to-end manner using machine learning. For that purpose, we transform the structural optimization into a clustering problem of low-degree factor nodes that incorporates the known channel model into the optimization. Furthermore, we study the combination of this approach with neural belief propagation, yielding near-maximum a posteriori symbol detection performance for specific channels.
翻訳日:2023-06-03 01:13:55 公開日:2023-06-01
# 量子アニーラを用いた特徴選択の利点

An Advantage Using Feature Selection with a Quantum Annealer ( http://arxiv.org/abs/2211.09756v4 )

ライセンス: Link先を確認
Andrew Vlasic, Hunter Grant and Salvatore Certo(参考訳) 特徴選択(英: feature selection)は、対象変数と強い統計接続を持つレコード中の特徴を識別する統計予測モデリングの手法である。 トレーニングにおいて、ターゲット変数に弱い統計的接続を持つ特徴は、データの次元を減少させるだけでなく、アルゴリズムの時間的複雑さを減少させるだけでなく、過度な適合を避けるのに役立つデータ内のノイズも減少させる。 全体として、特徴選択は、良好に動作し安定な堅牢な統計モデルのトレーニングを支援する。 古典的な計算におけるスケーラビリティの欠如を考えると、現在のテクニックは機能の予測能力のみを考慮し、機能自体の冗長性は考慮しない。 量子アニール(QA)を利用した最近の特徴選択の進歩は、冗長性を最小化しながら特徴の予測力を最大化することを目的としたスケーラブルな技術を提供する。 その結果、このアルゴリズムはバイアス/分散トレードオフを補助し、統計モデルのトレーニングにより良い特徴をもたらすことが期待できる。 本稿では,オープンソースのデータセットを用いて,古典的手法に対する直観性を検証し,各訓練された統計モデルでよく知られた予測アルゴリズムの有効性を評価する。 数値結果は,QAを利用したアルゴリズムから選択した特徴を利用した利点を示す。

Feature selection is a technique in statistical prediction modeling that identifies features in a record with a strong statistical connection to the target variable. Excluding features with a weak statistical connection to the target variable in training not only drops the dimension of the data, which decreases the time complexity of the algorithm, it also decreases noise within the data which assists in avoiding overfitting. In all, feature selection assists in training a robust statistical model that performs well and is stable. Given the lack of scalability in classical computation, current techniques only consider the predictive power of the feature and not redundancy between the features themselves. Recent advancements in feature selection that leverages quantum annealing (QA) gives a scalable technique that aims to maximize the predictive power of the features while minimizing redundancy. As a consequence, it is expected that this algorithm would assist in the bias/variance trade-off yielding better features for training a statistical model. This paper tests this intuition against classical methods by utilizing open-source data sets and evaluate the efficacy of each trained statistical model well-known prediction algorithms. The numerical results display an advantage utilizing the features selected from the algorithm that leveraged QA.
翻訳日:2023-06-03 01:13:43 公開日:2023-06-01
# トーリック符号ハミルトニアンの非摂動フロケット工学とその基底状態

Non-perturbative Floquet engineering of the toric-code Hamiltonian and its ground state ( http://arxiv.org/abs/2211.09724v2 )

ライセンス: Link先を確認
Francesco Petiziol, Sandro Wimberger, Andr\'e Eckardt, Florian Mintert(参考訳) 理論的には、時間周期駆動に基づく量子スピン液体のパラダイムモデルであるトーリック符号ハミルトニアンの量子シミュレーションスキームを提案する。 ターゲットハミルトニアンの異なる項の可換性を利用するハイブリッドな連続デジタル戦略を開発した。 非摂動的な方法で必要な4体相互作用を実現し、強い結合と望ましくないプロセスの抑制を実現する。 さらに,高忠実度でトポロジカルに順序付けられた基底状態を作成するための最適プロトコルを設計する。 トポロジカルデバイスの実装とそのトポロジカル位相遷移をシミュレートするための利用についても論じる。 提案手法は超伝導量子ビットとチューナブルカップリングのアーキテクチャにおいて自然に実装されている。

We theoretically propose a quantum simulation scheme for the toric-code Hamiltonian, the paradigmatic model of a quantum spin liquid, based on time-periodic driving. We develop a hybrid continuous-digital strategy that exploits the commutativity of different terms in the target Hamiltonian. It allows one to realize the required four-body interactions in a nonperturbative way, attaining strong coupling and the suppression of undesired processes. In addition, we design an optimal protocol for preparing the topologically ordered ground states with high fidelity. A proof-of-principle implementation of a topological device and its use to simulate the topological phase transition are also discussed. The proposed scheme finds natural implementation in architectures of superconducting qubits with tuneable couplings.
翻訳日:2023-06-03 01:13:22 公開日:2023-06-01
# 条件付きテキスト生成における報酬ゲーム

Reward Gaming in Conditional Text Generation ( http://arxiv.org/abs/2211.08714v3 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Vishakh Padmakumar, Thibault Sellam, Ankur P. Parikh, He He(参考訳) 条件付きテキスト生成モデル出力を所望の動作に合わせるため,人間アノテーションから学習した報酬関数と強化学習(RL)を用いたモデルのトレーニングに注目が集まっている。 この枠組みでは,ノイズ誘発スプリアス相関,自然発生スプリアス相関,共変量シフトという,望ましくないパターンに対して高い報酬が誤って割り当てられる一般的な3つの事例を同定する。 学習した指標が報酬関数のトレーニングに使用されるデータの分布において高いパフォーマンスを達成しても,テキスト生成モデルのrlトレーニング中に望ましくないパターンが増幅される可能性がある。 RLや安全コミュニティでは報酬ゲームが議論されているが、本稿では、具体的な条件付きテキスト生成例を用いて自然言語生成(NLG)コミュニティにおける報酬ゲームを強調し、今後の作業の潜在的な修正や領域について議論したい。

To align conditional text generation model outputs with desired behaviors, there has been an increasing focus on training the model using reinforcement learning (RL) with reward functions learned from human annotations. Under this framework, we identify three common cases where high rewards are incorrectly assigned to undesirable patterns: noise-induced spurious correlation, naturally occurring spurious correlation, and covariate shift. We show that even though learned metrics achieve high performance on the distribution of the data used to train the reward function, the undesirable patterns may be amplified during RL training of the text generation model. While there has been discussion about reward gaming in the RL or safety community, in this discussion piece, we would like to highlight reward gaming in the natural language generation (NLG) community using concrete conditional text generation examples and discuss potential fixes and areas for future work.
翻訳日:2023-06-03 01:13:08 公開日:2023-06-01
# MTメトリクスと同時音声翻訳の人間のレーティングの関係

MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation ( http://arxiv.org/abs/2211.08633v2 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre(参考訳) BLEU、chrF2、BertScore、COMETなど、人間の評価とオフライン機械翻訳(MT)評価の相関に関するメタ評価研究がいくつか行われている。 これらの指標は同時音声翻訳(SST)の評価に用いられてきたが、最近CRとして収集されたSSTの人間評価との相関は明らかでない。 本稿では,IWSLT 2022における英独SSTタスクに提案される候補システムの評価を活用し,CRと上記のメトリクスの広範な相関分析を行う。 本研究は、オフラインメトリクスがCRとよく相関しており、テストセットサイズに制限のある同時モードで機械翻訳を評価するために確実に使用できることを示した。 SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができる。 また, 同時解釈よりも, 基準値と翻訳値の相関が有意に高いことを観察し, 信頼性の高い評価のために前者を推薦する。

There have been several meta-evaluation studies on the correlation between human ratings and offline machine translation (MT) evaluation metrics such as BLEU, chrF2, BertScore and COMET. These metrics have been used to evaluate simultaneous speech translation (SST) but their correlations with human ratings of SST, which has been recently collected as Continuous Ratings (CR), are unclear. In this paper, we leverage the evaluations of candidate systems submitted to the English-German SST task at IWSLT 2022 and conduct an extensive correlation analysis of CR and the aforementioned metrics. Our study reveals that the offline metrics are well correlated with CR and can be reliably used for evaluating machine translation in simultaneous mode, with some limitations on the test set size. We conclude that given the current quality levels of SST, these metrics can be used as proxies for CR, alleviating the need for large scale human evaluation. Additionally, we observe that correlations of the metrics with translation as a reference is significantly higher than with simultaneous interpreting, and thus we recommend the former for reliable evaluation.
翻訳日:2023-06-03 01:12:50 公開日:2023-06-01
# メカニスティックモード接続性

Mechanistic Mode Connectivity ( http://arxiv.org/abs/2211.08422v3 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Eric J. Bigelow, Robert P. Dick, David Krueger, Hidenori Tanaka(参考訳) 本研究では,データセット上でのトレーニングによって得られたニューラルネットワークの最小値が,低損失の単純な経路を介して接続される,モード接続のレンズを通してニューラルネットワークロスランドスケープを調査した。 特に、以下の疑問に答える: 損失の少ない単純な経路を通して予測を結び付けるための異なるメカニズムに依存している最小化器は? 入力変換に対する共有不変性としての機械的類似性の定義を提供し、2つのモデル間の線形接続の欠如が、それらの予測に相似メカニズムを使うことを実証する。 実際に、この結果は、ダウンストリームデータセットに内在する微調整が、モデルのメカニズムを変更することに失敗する可能性があること、例えば、微調整は、モデルのスプリアス属性への依存をなくすことを実証するのに役立ちます。 また,本分析は,接続型ファインチューニング(CBFT)と呼ばれるモデル機構のターゲット変更を動機付け,複数の合成データセットを用いてモデルがスプリアス属性に依存する度合いを低減させる手法である。

We study neural network loss landscapes through the lens of mode connectivity, the observation that minimizers of neural networks retrieved via training on a dataset are connected via simple paths of low loss. Specifically, we ask the following question: are minimizers that rely on different mechanisms for making their predictions connected via simple paths of low loss? We provide a definition of mechanistic similarity as shared invariances to input transformations and demonstrate that lack of linear connectivity between two models implies they use dissimilar mechanisms for making their predictions. Relevant to practice, this result helps us demonstrate that naive fine-tuning on a downstream dataset can fail to alter a model's mechanisms, e.g., fine-tuning can fail to eliminate a model's reliance on spurious attributes. Our analysis also motivates a method for targeted alteration of a model's mechanisms, named connectivity-based fine-tuning (CBFT), which we analyze using several synthetic datasets for the task of reducing a model's reliance on spurious attributes.
翻訳日:2023-06-03 01:12:31 公開日:2023-06-01
# 複数の言語を話すことが言語モデルのモラルバイアスに影響を及ぼす

Speaking Multiple Languages Affects the Moral Bias of Language Models ( http://arxiv.org/abs/2211.07733v2 )

ライセンス: Link先を確認
Katharina H\"ammerl, Bj\"orn Deiseroth, Patrick Schramowski, Jind\v{r}ich Libovick\'y, Constantin A. Rothkopf, Alexander Fraser, Kristian Kersting(参考訳) 事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。 しかし、pmlmは各言語のさまざまな量のデータに基づいて訓練される。 実際には、他の多くの言語よりも英語の方がパフォーマンスが優れている。 道徳的規範にもどの程度適用できるかを探求する。 モデルは英語から道徳的規範を捉え、他の言語に強制するか? モデルは特定の言語にランダムで潜在的に有害な信念を示すか? どちらの問題も言語間移動に悪影響を及ぼし、有害な結果をもたらす可能性がある。 本稿では,(1)ドイツ語,チェコ語,アラビア語,中国語,英語の結果を比較して,MoralDirectionフレームワークを多言語モデルに適用し,(2)フィルタリングしたパラレル字幕コーパスのモデル挙動を分析し,(3)Moral Foundations Questionnaireに適用し,異なる国の人的反応と比較する。 実験の結果,pmlmsは異なる道徳バイアスをコード化しているが,必ずしも人間の意見における文化的差異や共通性に対応しているとは限らない。 コードとモデルをリリースします。

Pre-trained multilingual language models (PMLMs) are commonly used when dealing with data from multiple languages and cross-lingual transfer. However, PMLMs are trained on varying amounts of data for each language. In practice this means their performance is often much better on English than many other languages. We explore to what extent this also applies to moral norms. Do the models capture moral norms from English and impose them on other languages? Do the models exhibit random and thus potentially harmful beliefs in certain languages? Both these issues could negatively impact cross-lingual transfer and potentially lead to harmful outcomes. In this paper, we (1) apply the MoralDirection framework to multilingual models, comparing results in German, Czech, Arabic, Chinese, and English, (2) analyse model behaviour on filtered parallel subtitles corpora, and (3) apply the models to a Moral Foundations Questionnaire, comparing with human responses from different countries. Our experiments demonstrate that, indeed, PMLMs encode differing moral biases, but these do not necessarily correspond to cultural differences or commonalities in human opinions. We release our code and models.
翻訳日:2023-06-03 01:12:13 公開日:2023-06-01
# チェーン・オブ・サート・プロンプティングの理解に向けて--何が重要かの実証的研究

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters ( http://arxiv.org/abs/2212.10001v2 )

ライセンス: Link先を確認
Boshi Wang, Sewon Min, Xiang Deng, Jiaming Shen, You Wu, Luke Zettlemoyer, Huan Sun(参考訳) CoT(Chain-of-Thought)は大規模言語モデル(LLM)の多段階推論能力を劇的に改善する。 CoTは、デモにおいて一連の推論ステップを提供することで、問題を解くための中間的論理を生成することを明示的にLLMに促している。 その成功にもかかわらず、cotを効果的に促す要因と、実証された推論ステップのどの側面がそのパフォーマンスに寄与するかについては、いまだに理解されていない。 本稿では,CoTの推理を無効にした場合であっても,CoTの推理が可能であることを示し,その推算において,CoTを用いて得られた性能の80~90%以上を推算しながら,推論中に一貫性のある推理線を生成できることを示す。 さらなる実験により、クエリに関連する他の側面や推論ステップの順序付けが、効果的なcot推論にとってより重要であることが示されている。 全体として、これらの知見はCoTの促進に対する理解を深め、LLMが文脈で推論を学ぶ能力について新たな疑問を提起する。

Chain-of-Thought (CoT) prompting can dramatically improve the multi-step reasoning abilities of large language models (LLMs). CoT explicitly encourages the LLM to generate intermediate rationales for solving a problem, by providing a series of reasoning steps in the demonstrations. Despite its success, there is still little understanding of what makes CoT prompting effective and which aspects of the demonstrated reasoning steps contribute to its performance. In this paper, we show that CoT reasoning is possible even with invalid demonstrations - prompting with invalid reasoning steps can achieve over 80-90% of the performance obtained using CoT under various metrics, while still generating coherent lines of reasoning during inference. Further experiments show that other aspects of the rationales, such as being relevant to the query and correctly ordering the reasoning steps, are much more important for effective CoT reasoning. Overall, these findings both deepen our understanding of CoT prompting, and open up new questions regarding LLMs' capability to learn to reason in context.
翻訳日:2023-06-03 01:04:08 公開日:2023-06-01
# 小さな言語モデルに推論を教える

Teaching Small Language Models to Reason ( http://arxiv.org/abs/2212.08410v3 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn(参考訳) 思考の連鎖は、大きな言語モデルの推論能力を改善することに成功し、さまざまなデータセット上で技術結果の状態を達成します。 しかし、これらの推論能力は、1000億以上のパラメータを持つモデルでのみ現れるように見える。 本稿では,1000億以上のパラメータを持つモデルへの知識蒸留による推論能力の移転について検討する。 具体的には,より大きな教師モデルによって生成された思考アウトプットの連鎖に学生モデルを適用した。 提案手法は算術,コモンセンス,シンボリック推論データセット全体のタスク性能を向上させる。 例えば、GSM8K 上の T5 XXL の精度は PaLM-540B で微調整すると 8.11% から 21.99% に向上する。

Chain of thought prompting successfully improves the reasoning capabilities of large language models, achieving state of the art results on a range of datasets. However, these reasoning capabilities only appear to emerge in models with a size of over 100 billion parameters. In this paper, we explore the transfer of such reasoning capabilities to models with less than 100 billion parameters via knowledge distillation. Specifically, we finetune a student model on the chain of thought outputs generated by a larger teacher model. Our experiments show that the proposed method improves task performance across arithmetic, commonsense and symbolic reasoning datasets. For example, the accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on PaLM-540B generated chains of thought.
翻訳日:2023-06-03 01:03:50 公開日:2023-06-01
# gaussianの個人的推定:効率的、ロバスト、最適

Privately Estimating a Gaussian: Efficient, Robust and Optimal ( http://arxiv.org/abs/2212.08018v2 )

ライセンス: Link先を確認
Daniel Alabi, Pravesh K. Kothari, Pranay Tankala, Prayaag Venkat, Fred Zhang(参考訳) 本研究では,標本複雑性の次元に最適に依存する純粋および近似微分プライバシー(DP)モデルにおいて,ガウス分布をプライベートに推定する効率的なアルゴリズムを提案する。 純粋なDP設定では、未知の$d$次元ガウス分布を$\widetilde{O}(d^2 \log \kappa)$サンプルを用いて任意の小さな総変分誤差まで推定し、対数外乱の一定割合を許容する効率的なアルゴリズムを与える。 ここで、$\kappa$ は対象共分散行列の条件数である。 サンプル境界は、次元(多対数因子まで)への依存において最良の非プライベートな推定値に一致する。 差分的にプライベートな共分散推定における新しい下界を証明し、上記のサンプル境界における条件数$\kappa$への依存も厳密であることを示す。 我々の研究に先立って、この問題は識別可能性(非効率な超多項時間アルゴリズム)の結果のみが知られていた。 近似dp設定では、非未知のガウス分布を任意に小さい総変動誤差まで推定する効率的なアルゴリズムを$\widetilde{o}(d^2)$のサンプルを用いて与え、その逆の外れ値の一定分数を解き放つ。 我々の研究に先立ち、全ての効率的なDPアルゴリズムは超4次サンプルコストを発生させた。 平均推定の特別な場合、我々のアルゴリズムは、$\widetilde O(d)$の最適なサンプル複雑性を達成し、以前の作業から有界な$\widetilde O(d^{1.5})$を改善する。 我々の純粋なDPアルゴリズムは、最近のプライベート平均推定(Hopkins et al., 2022)の成果を利用した再帰的なプライベートプレコンディショニングサブルーチンに依存している。 我々の近似DPアルゴリズムは, [Kothari et al., 2022] で導入された凸緩和を安定化する手法の大幅なアップグレードに基づいている。

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
翻訳日:2023-06-03 01:03:22 公開日:2023-06-01
# AirfRANS:レイノルズ平均Navier-Stokes溶液の近似のための高忠実度計算流体力学データセット

AirfRANS: High Fidelity Computational Fluid Dynamics Dataset for Approximating Reynolds-Averaged Navier-Stokes Solutions ( http://arxiv.org/abs/2212.07564v3 )

ライセンス: Link先を確認
Florent Bonnet, Ahmed Jocelyn Mazari, Paola Cinnella, Patrick Gallinari(参考訳) サーロゲートモデルは、再帰的な数値解法がしばしば必然的に高価であるため、物理力学において有意義な量を最適化するために必要である。 これは主に流体力学とナビエ・ストークス方程式の分解のケースである。 しかし、物理システムのデータ駆動モデルが急速に成長しているにもかかわらず、実世界の現象を表す参照データセットは不足している。 本研究では,2次元非圧縮性定常状態Reynolds-Averaged Navier-Stokes方程式をサブソニックな状態と異なる攻撃角度で観測するためのデータセットであるAirfRANSを開発した。 また,ジオメトリ表面における応力力の指標と境界層の可視化を導入し,問題の有意義な情報を正確に予測するモデルの能力を評価する。 最後に,4つの機械学習タスクに基づくディープラーニングベースラインを提案し,大小のデータ構造,レイノルズ数,攻撃外挿角度など,さまざまな制約下でAirfRANSを研究する。

Surrogate models are necessary to optimize meaningful quantities in physical dynamics as their recursive numerical resolutions are often prohibitively expensive. It is mainly the case for fluid dynamics and the resolution of Navier-Stokes equations. However, despite the fast-growing field of data-driven models for physical systems, reference datasets representing real-world phenomena are lacking. In this work, we develop AirfRANS, a dataset for studying the two-dimensional incompressible steady-state Reynolds-Averaged Navier-Stokes equations over airfoils at a subsonic regime and for different angles of attacks. We also introduce metrics on the stress forces at the surface of geometries and visualization of boundary layers to assess the capabilities of models to accurately predict the meaningful information of the problem. Finally, we propose deep learning baselines on four machine learning tasks to study AirfRANS under different constraints for generalization considerations: big and scarce data regime, Reynolds number, and angle of attack extrapolation.
翻訳日:2023-06-03 01:02:51 公開日:2023-06-01
# 量子資源理論におけるロバストネス測定の連続性

Continuity of robustness measures in quantum resource theories ( http://arxiv.org/abs/2212.06654v2 )

ライセンス: Link先を確認
Jonathan Schluck, Gl\'aucia Murta, Hermann Kampermann, Dagmar Bru{\ss} and Nikolai Wyderka(参考訳) ロバストネス測度は、絡み合いやコヒーレンスのような量子資源理論のために導入された顕著なリソース量化器である。 これらの測度の一般性にもかかわらず、その有用性は、その数学的性質のいくつかが、特に資源のない状態の集合が凸でないとき、不明確であるという事実によって妨げられている。 本稿では, 異なるロバスト性関数の連続性特性について検討する。 それらの連続性は自由状態の集合の形に依存することを示す。 特に、多くの場合、恒星凸性はロバスト性のリプシッツ連続性に十分であり、非連続測度につながる集合の具体例を提供する。 最後に, テレポータビリティと量子不一致のロバスト性を定義することにより, 結果の適用性を示す。

Robustness measures are increasingly prominent resource quantifiers that have been introduced for quantum resource theories such as entanglement and coherence. Despite the generality of these measures, their usefulness is hindered by the fact that some of their mathematical properties remain unclear, especially when the set of resource-free states is non-convex. In this paper, we investigate continuity properties of different robustness functions. We show that their continuity depends on the shape of the set of free states. In particular, we demonstrate that in many cases, star-convexity is sufficient for Lipschitz-continuity of the robustness, and we provide specific examples of sets leading to non-continuous measures. Finally, we illustrate the applicability of our results by defining a robustness of teleportability and of quantum discord.
翻訳日:2023-06-03 01:02:33 公開日:2023-06-01
# 動的デカップリングにおける連続的問合せによる測定精度の向上

Enhanced measurement precision with continuous interrogation during dynamical decoupling ( http://arxiv.org/abs/2212.04829v2 )

ライセンス: Link先を確認
Jun Zhang, Peng Du, Lei Jing, Peng Xu, Li You, Wenxian Zhang(参考訳) 動的デカップリング(DD)は通常、直流測定では効果がない。 単純な実装では、DDはノイズを抑えながらDC信号も無効にする。 本研究は,多くのDDサイクル上で連続的にDC信号を問うことができる位相リレー法(PRM)を提案する。 原子スピノルBose-Einstein凝縮体を用いた弱い直流磁場の測定に応用した場合の有効性を述べる。 標準量子限界(sql)またはハイゼンベルク極限(hl)に接近する感度は、それぞれ10,000原子のコヒーレントスピン状態(css)またはスクイーズスピン状態(sss)に対して可能であり、周囲実験室レベルのノイズはddによって抑制される。 本研究は,直流計測に対するddの限界を緩和するための実用的なアプローチを提供し,量子センシングや量子情報処理研究におけるコヒーレンスを活用するための他の応用を期待する。

Dynamical decoupling (DD) is normally ineffective when applied to DC measurement. In its straightforward implementation, DD nulls out DC signal as well while suppressing noise. This work proposes a phase relay method (PRM) that is capable of continuously interrogating the DC signal over many DD cycles. We illustrate its efficacy when applied to measurement of a weak DC magnetic field with an atomic spinor Bose-Einstein condensate. Sensitivities approaching standard quantum limit (SQL) or Heisenberg limit (HL) are potentially realizable for a coherent spin state (CSS) or a squeezed spin state (SSS) of 10,000 atoms respectively, while ambient laboratory level noise is suppressed by DD. Our work offers a practical approach to mitigate the limitations of DD to DC measurement and will like find other applications for resorting coherence in quantum sensing and quantum information processing research.
翻訳日:2023-06-03 01:02:19 公開日:2023-06-01
# 時間反転対称性の破れた構造浴における巨大原子の崩壊ダイナミクス

Decay dynamics of a giant atom in a structured bath with broken time-reversal symmetry ( http://arxiv.org/abs/2212.04208v2 )

ライセンス: Link先を確認
Lei Du, Yao-Tong Chen, Yan Zhang, Yong Li, and Jin-Hui Wu(参考訳) 本研究では, 均一な磁束に露出した準1次元のソートゥース格子に結合した2層巨大原子の崩壊ダイナミクスについて検討する。 2つの部分格子が大きなデチューンを持つ場合、巨大原子は、フラックス制御エネルギーバンドと時間反転対称性を持つ単一バンド構造浴槽に効果的に結合される。 この特徴は、放出された光子の伝播と同様に、巨大原子の崩壊ダイナミクスに大きく影響する。 特に、巨大原子はキラルな自発放出を示すことができ、非相互遅延光を許すが、この格子に小さな原子を結合させることで達成できない。 周波数の異なる巨大原子は、異なる方向と異なるグループ速度の光子を放出するように設計することができる。 我々の結果は、量子ネットワークのエンジニアリングと巨大原子干渉効果の操作への道を開いた。

We study in this paper the decay dynamics of a two-level giant atom, which is coupled to a quasi-one-dimensional sawtooth lattice exposed to uniform synthetic magnetic fluxes. In the case where the two sublattices have a large detuning, the giant atom is effectively coupled to a single-band structured bath with flux-controlled energy band and time-reversal symmetry. This feature significantly affects the decay dynamics of the giant atom as well as the propagation of the emitted photon. In particular, the giant atom can exhibit chiral spontaneous emission and allow for nonreciprocal delayed light, which are however unattainable by coupling a small atom to this lattice. Giant atoms with different frequencies can be designed to emit photons towards different directions and with different group velocities. Our results pave the way towards engineering quantum networks and manipulating giant-atom interference effects.
翻訳日:2023-06-03 01:02:02 公開日:2023-06-01
# super-clevr:ビジュアル推論におけるドメインロバストネスを診断する仮想ベンチマーク

Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning ( http://arxiv.org/abs/2212.00259v2 )

ライセンス: Link先を確認
Zhuowan Li, Xingrui Wang, Elias Stengel-Eskin, Adam Kortylewski, Wufei Ma, Benjamin Van Durme, Alan Yuille(参考訳) ビジュアル質問応答(vqa)モデルは、しばしば分散データで性能が悪く、ドメインの一般化に苦しむ。 このタスクのマルチモーダル性のため、変動の複数の要因が絡み合っており、一般化は分析が困難である。 これにより、VQAドメインシフトの異なる要因を分離して、その効果を独立して研究できる仮想ベンチマークであるSuper-CLEVRを導入することができる。 視覚の複雑さ、質問の冗長性、概念分布、概念構成性である。 制御されたデータにより、テストデータが各軸に沿ったトレーニングデータと異なる状況下で、Super-CLEVRはVQAメソッドをテストすることができる。 2つのニューラルシンボリックメソッドNSCLとNSVQAと2つの非シンボリックメソッドFiLMとmDETRを含む4つの既存手法と、不確実な推論でNSVQAを拡張する確率的NSVQA(P-NSVQA)を提案する。 P-NSVQAは4つの領域シフト因子のうち3つで他の手法より優れている。 この結果から,確率的不確実性と相まって,ドメインシフトに対してより堅牢な強いVQAモデルを形成することが示唆された。 データセットとコードはhttps://github.com/lizw14/super-clevrでリリースされる。

Visual Question Answering (VQA) models often perform poorly on out-of-distribution data and struggle on domain generalization. Due to the multi-modal nature of this task, multiple factors of variation are intertwined, making generalization difficult to analyze. This motivates us to introduce a virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts can be isolated in order that their effects can be studied independently. Four factors are considered: visual complexity, question redundancy, concept distribution and concept compositionality. With controllably generated data, Super-CLEVR enables us to test VQA methods in situations where the test data differs from the training data along each of these axes. We study four existing methods, including two neural symbolic methods NSCL and NSVQA, and two non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA outperforms other methods on three of the four domain shift factors. Our results suggest that disentangling reasoning and perception, combined with probabilistic uncertainty, form a strong VQA model that is more robust to domain shifts. The dataset and code are released at https://github.com/Lizw14/Super-CLEVR.
翻訳日:2023-06-03 01:01:48 公開日:2023-06-01
# 非線形アドバンテージ:学習ネットワークは複雑ではないかもしれない

Nonlinear Advantage: Trained Networks Might Not Be As Complex as You Think ( http://arxiv.org/abs/2211.17180v2 )

ライセンス: Link先を確認
Christian H.X. Ali Mehmeti-G\"opel, Jan Disselhoff(参考訳) 我々は,ネットワーク内の非線形ユニットの総数に先立って,その特徴チャネルの一部を完全に線形化する場合に,ディープネットワークの挙動に関する実証的研究を行う。 画像分類および機械翻訳タスクの実験において,性能低下前の線形性に対するネットワーク機能をどの程度単純化できるかを検討する。 まず, ネットワーク機能の非線形性を早期に低下させる場合, トレーニングの遅れに対して, データ依存NTKの時間進化に関する最近の観測をインラインで行う。 第2に,訓練後,高い性能を維持しながらかなりの数の非線形単位を線形化することができ,ネットワークの表現性の多くは未使用のままであるが,トレーニングの初期段階では勾配降下に寄与することを示す。 得られた部分線形化ネットワークの深さを特徴付けるために,ネットワークグラフの経路に沿って発生するアクティブ非線形の平均数を表す平均経路長という尺度を導入する。 スパルシティ圧力下では、残りの非線形ユニットは異なる構造に組織され、ほぼ一定の有効深さと幅のコアネットワークを形成し、それはタスクの難易度に依存する。

We perform an empirical study of the behaviour of deep networks when fully linearizing some of its feature channels through a sparsity prior on the overall number of nonlinear units in the network. In experiments on image classification and machine translation tasks, we investigate how much we can simplify the network function towards linearity before performance collapses. First, we observe a significant performance gap when reducing nonlinearity in the network function early on as opposed to late in training, in-line with recent observations on the time-evolution of the data-dependent NTK. Second, we find that after training, we are able to linearize a significant number of nonlinear units while maintaining a high performance, indicating that much of a network's expressivity remains unused but helps gradient descent in early stages of training. To characterize the depth of the resulting partially linearized network, we introduce a measure called average path length, representing the average number of active nonlinearities encountered along a path in the network graph. Under sparsity pressure, we find that the remaining nonlinear units organize into distinct structures, forming core-networks of near constant effective depth and width, which in turn depend on task difficulty.
翻訳日:2023-06-03 01:01:24 公開日:2023-06-01
# 地球モニタリングの基礎モデルに向けて:自然災害セグメンテーションのための一般化可能な深層学習モデル

Toward Foundation Models for Earth Monitoring: Generalizable Deep Learning Models for Natural Hazard Segmentation ( http://arxiv.org/abs/2301.09318v3 )

ライセンス: Link先を確認
Johannes Jakubik, Michal Muszynski, Michael V\"ossing, Niklas K\"uhl, Thomas Brunschwiler(参考訳) 気候変動は、社会やビジネスを世界的な規模で危険にさらす極端な気象事象の確率を増加させる。 したがって、自然災害のほぼリアルタイムマッピングは、自然災害の救済、リスク管理、政府の政策決定の伝達を支援するための新たな優先事項である。 リアルタイムに近いマッピングを実現するための最近の手法は、ディープラーニング(DL)を活用している。 しかし、DLベースのアプローチは、衛星データの特定の周波数帯域に基づいて、1つの地理的領域における1つの特定のタスクのために設計されている。 そのため、特定の自然災害をマップするために使われるDLモデルは、目に見えない地域での他の種類の自然災害への一般化に苦しむ。 本研究では,適切なプレタスクによる事前学習に基づいて,DL自然災害マッパーの一般化可能性を大幅に向上させる手法を提案する。 対象領域からのデータにアクセスせずに、4つのU-Netアーキテクチャにまたがる一般化可能性の向上を実証する。 重要な点として,本手法は衛星データの周波数帯域の種類と地理的差に不変である。 公開可能な対象領域からのラベルなし画像の特性を活用することで,より微調整することなく,一般化動作をさらに改善することができる。 そこで本研究では,衛星画像の異なる領域にまたがる未知の自然災害を直接分類することを目的として,地球観測のための基盤モデルの開発を支援する。

Climate change results in an increased probability of extreme weather events that put societies and businesses at risk on a global scale. Therefore, near real-time mapping of natural hazards is an emerging priority for the support of natural disaster relief, risk management, and informing governmental policy decisions. Recent methods to achieve near real-time mapping increasingly leverage deep learning (DL). However, DL-based approaches are designed for one specific task in a single geographic region based on specific frequency bands of satellite data. Therefore, DL models used to map specific natural hazards struggle with their generalization to other types of natural hazards in unseen regions. In this work, we propose a methodology to significantly improve the generalizability of DL natural hazards mappers based on pre-training on a suitable pre-task. Without access to any data from the target domain, we demonstrate this improved generalizability across four U-Net architectures for the segmentation of unseen natural hazards. Importantly, our method is invariant to geographic differences and differences in the type of frequency bands of satellite data. By leveraging characteristics of unlabeled images from the target domain that are publicly available, our approach is able to further improve the generalization behavior without fine-tuning. Thereby, our approach supports the development of foundation models for earth monitoring with the objective of directly segmenting unseen natural hazards across novel geographic regions given different sources of satellite imagery.
翻訳日:2023-06-03 00:55:23 公開日:2023-06-01
# 境界カオス: 厳密な絡み合いダイナミクス

Boundary Chaos: Exact Entanglement Dynamics ( http://arxiv.org/abs/2301.08168v3 )

ライセンス: Link先を確認
Felix Fritzsch, Roopayan Ghosh, Toma\v{z} Prosen(参考訳) 我々は、エルゴードと混合量子多体力学を生成する最小のセットアップにおける絡み合いのダイナミクスを計算する。 これは自由で非相互作用のブリックワーク量子回路から成り、カオスとエルゴディシティは不純物相互作用、すなわち2量子ゲートが系の境界に配置されている。 我々は、初期積状態に対する不純物相互作用を含む連結部分系と、初期局所作用素のいわゆる作用素エンタングルメントエントロピーに関して、従来の二部交絡エントロピーを計算する。 これにより、非常に小さなサブシステムまたは非常に大きなサブシステムに対して、時間とシステムサイズの両方の特定のスケーリング制限の正確な結果を提供する。 不純物相互作用の異なるクラスは、非常に異なる絡み合いダイナミクスをもたらすことを示す。 初期状態のバルクを形成する局所生成状態を保存する不純物ゲートに対して、状態の絡み合いエントロピーは、システムサイズによって設定された周期で持続的なスパイクを示し、エルゴード系の予測線形成長とは対照的に、間の絡み合いを抑制する。 一般不純物に対する作用素絡みの同様のダイナミクスを観察する。 対照的に、部分変換の下でユニタリなT-双対不純物に対しては、状態と作用素の絡み合いエントロピーは、系の幾何学によって許容される最大速度に間に合うように線形に成長する。 あらゆるケースにおける相互作用の集中的な性質は、システムサイズに比例する広範な時間スケールで絡み合いを増大させる。

We compute the dynamics of entanglement in the minimal setup producing ergodic and mixing quantum many-body dynamics, which we previously dubbed {\em boundary chaos}. This consists of a free, non-interacting brickwork quantum circuit, in which chaos and ergodicity is induced by an impurity interaction, i.e., an entangling two-qudit gate, placed at the system's boundary. We compute both the conventional bipartite entanglement entropy with respect to a connected subsystem including the impurity interaction for initial product states as well as the so-called operator entanglement entropy of initial local operators. Thereby we provide exact results in a particular scaling limit of both time and system size going to infinity for either very small or very large subsystems. We show that different classes of impurity interactions lead to very distinct entanglement dynamics. For impurity gates preserving a local product state forming the bulk of the initial state, entanglement entropies of states show persistent spikes with period set by the system size and suppressed entanglement in between, contrary to the expected linear growth in ergodic systems. We observe similar dynamics of operator entanglement for generic impurities. In contrast, for T-dual impurities, which remain unitary under partial transposition, we find entanglement entropies of both states and operators to grow linearly in time with the maximum possible speed allowed by the geometry of the system. The intensive nature of interactions in all cases cause entanglement to grow on extensive time scales proportional to system size.
翻訳日:2023-06-03 00:55:03 公開日:2023-06-01
# 量子重力による多ビット絡み合い

Multiqubit entanglement due to quantum gravity ( http://arxiv.org/abs/2301.05437v2 )

ライセンス: Link先を確認
Shaomin Liu, Lin Chen, Mengfan Liang(参考訳) 質量間の量子重力は、思考実験で絡み合った状態を生み出すことができる。 実験を三部構成に拡張し、確率的局所演算および古典的通信の下で、グリーンベルガー・ホーン・ザイリンガー状態およびW状態に相当する状態を構築する。 絡み合いは重力相互作用によって引き起こされる進化相と関連している。 実験により多くの質量を巻き込むと、同様の方法で多粒子交絡状態を構築することができる。 幾何測度の計算により多成分の絡み合いの程度を測定する。 幾何学的測度と進化相の関係について述べる。 強固な絡み合いで状態を探すのに役立ちます。

Quantum gravity between masses can produce entangled states in thought experiments. We extend the experiments to tripartite case and construct states equivalent to Greenberger- Horne-Zeilinger states and W states under stochastic local operations and classical communication. The entanglement relates to the evolution phases induced by gravitational interaction. When we involve more masses in the experiments, multipartite entangled states can be constructed in a similar way. We measure the degree of multipartite entanglement by calculating the geometric measure. We describe the relationship between geometric measure and the evolution phases. It helps in searching out the states with robust entanglement.
翻訳日:2023-06-03 00:54:37 公開日:2023-06-01
# 高速フーリエ変換を用いた誤り関連表現の学習

Learning Decorrelated Representations Efficiently Using Fast Fourier Transform ( http://arxiv.org/abs/2301.01569v2 )

ライセンス: Link先を確認
Yutaro Shigeto, Masashi Shimbo, Yuya Yoshikawa, Akikazu Takeuchi(参考訳) Barlow Twins と VICReg は、正規化子を使って特徴をデコレーションする自己教師型表現学習モデルである。 これらのモデルは従来の表現学習モデルと同じくらい効果的であるが、投影された埋め込みの次元dが高い場合、その訓練は計算的に要求される。 正規化器は相互相関行列や共分散行列の個々の要素で定義されるので、n 個のサンプルの損失を計算するのに O(n d^2) 時間を要する。 本稿では,高速フーリエ変換によりo(n d log d)時間で計算できる緩和された相関正規化器を提案する。 また,緩和に伴う局所的な極小化を緩和する安価な手法を提案する。 提案する正規化器は下流タスクにおける既存の正規化器に匹敵する精度を示すが,その訓練では少ないメモリを必要とする。 ソースコードは利用可能である。

Barlow Twins and VICReg are self-supervised representation learning models that use regularizers to decorrelate features. Although these models are as effective as conventional representation learning models, their training can be computationally demanding if the dimension d of the projected embeddings is high. As the regularizers are defined in terms of individual elements of a cross-correlation or covariance matrix, computing the loss for n samples takes O(n d^2) time. In this paper, we propose a relaxed decorrelating regularizer that can be computed in O(n d log d) time by Fast Fourier Transform. We also propose an inexpensive technique to mitigate undesirable local minima that develop with the relaxation. The proposed regularizer exhibits accuracy comparable to that of existing regularizers in downstream tasks, whereas their training requires less memory and is faster for large d. The source code is available.
翻訳日:2023-06-03 00:54:01 公開日:2023-06-01
# 転送可能エネルギー貯蔵入札者

Transferable Energy Storage Bidder ( http://arxiv.org/abs/2301.01233v2 )

ライセンス: Link先を確認
Yousuf Baker, Ningkun Zheng, Bolun Xu(参考訳) エネルギー貯蔵資源は、電力市場全体に参加する際に価格の不確実性と物理的な運用特性の両方を考慮する必要がある。 電力価格は不安定であり、エネルギー貯蔵は効率の損失、電力、エネルギーの制約があるため、これは難しい問題である。 本稿では,エネルギー貯蔵のための畳み込み型長期記憶ネットワークとモデルベース最適化を組み合わせることで,電力市場への応答や入札を可能とした,新しい,多用途で転送可能な手法を提案する。 提案手法をニューヨーク州の歴史的価格を用いて検証し, エネルギー貯蔵期間の異なる価格反応とホールセール市場での入札条件の両方において, 完全フォアテアケースと比較して70%から90%の利益率を達成した。 また,ニューヨークのデータを用いて入札モデルを事前学習し,オーストラリアのクイーンズランド州の仲裁に適用することで,転校学習アプローチをテストした。 その結果、トランスファーラーニングは3日間のローカルトレーニングデータで例外的な仲裁収益性を実現し、データの可用性が極めて制限されたシナリオにおいて、スクラッチからのトレーニングよりも大きな優位性を示している。

Energy storage resources must consider both price uncertainties and their physical operating characteristics when participating in wholesale electricity markets. This is a challenging problem as electricity prices are highly volatile, and energy storage has efficiency losses, power, and energy constraints. This paper presents a novel, versatile, and transferable approach combining model-based optimization with a convolutional long short-term memory network for energy storage to respond to or bid into wholesale electricity markets. We test our proposed approach using historical prices from New York State, showing it achieves state-of-the-art results, achieving between 70% to near 90% profit ratio compared to perfect foresight cases, in both price response and wholesale market bidding setting with various energy storage durations. We also test a transfer learning approach by pre-training the bidding model using New York data and applying it to arbitrage in Queensland, Australia. The result shows transfer learning achieves exceptional arbitrage profitability with as little as three days of local training data, demonstrating its significant advantage over training from scratch in scenarios with very limited data availability.
翻訳日:2023-06-03 00:53:44 公開日:2023-06-01
# インコンテキスト学習に関する調査

A Survey on In-context Learning ( http://arxiv.org/abs/2301.00234v3 )

ライセンス: Link先を確認
Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li and Zhifang Sui(参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、インコンテキスト学習(ICL)は自然言語処理(NLP)の新しいパラダイムとなり、LLMはいくつかの例で拡張されたコンテキストに基づいてのみ予測を行う。 ICLを探索してLLMの能力を評価・外挿する新たな傾向がみられた。 本稿では,ICLの進歩と課題を調査し,整理することを目的とする。 まず, iclの形式的定義と関連する研究との関係を明らかにする。 そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。 最後に,ICLの課題について論じ,今後の研究の方向性を示す。 iclの動作と改善について、私たちの研究がさらなる研究を促進することを期待しています。

With the increasing ability of large language models (LLMs), in-context learning (ICL) has become a new paradigm for natural language processing (NLP), where LLMs make predictions only based on contexts augmented with a few examples. It has been a new trend to explore ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress and challenges of ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques, including training strategies, demonstration designing strategies, as well as related analysis. Finally, we discuss the challenges of ICL and provide potential directions for further research. We hope that our work can encourage more research on uncovering how ICL works and improving ICL.
翻訳日:2023-06-03 00:52:59 公開日:2023-06-01
# 戸外空間におけるブラインドナビゲーション手法の実装

Implementation of a Blind navigation method in outdoors/indoors areas ( http://arxiv.org/abs/2212.12185v2 )

ライセンス: Link先を確認
Mohammad Javadian Farzaneh, Hossein Mahvash Mohammadi(参考訳) WHO統計によると、視覚障害者の数は毎年増加している。 視覚障害者にとって最も重要な必需品の1つは、安全に移動できる能力である。 本稿では,単眼カメラを用いた視覚スラムとヨロアルゴリズムに基づくナビゲーションシステムを提案する。 提案システムは,障害物距離推定,経路偏差検出,次段階予測の3段階からなる。 提案手法は,ORB-SLAMアルゴリズムを用いて事前に定義された経路から地図を作成し,利用者に経路に留まるように誘導する。 さらに、このシステムはYOLOアルゴリズムを使って経路上の障害物を検出し、ユーザーに警告する。 ラップトップカメラを用いた実験の結果,提案システムは,屋内および屋外において,予め定義された11メートルの経路内でユーザを誘導しながら,毎秒30フレームで動作可能であることがわかった。 位置決めシステムの精度は8cmであり、事前に定義された経路から60cm以上ずれた場合にはユーザーに通知する。

According to WHO statistics, the number of visually impaired people is increasing annually. One of the most critical necessities for visually impaired people is the ability to navigate safely. This paper proposes a navigation system based on the visual slam and Yolo algorithm using monocular cameras. The proposed system consists of three steps: obstacle distance estimation, path deviation detection, and next-step prediction. Using the ORB-SLAM algorithm, the proposed method creates a map from a predefined route and guides the users to stay on the route while notifying them if they deviate from it. Additionally, the system utilizes the YOLO algorithm to detect obstacles along the route and alert the user. The experimental results, obtained by using a laptop camera, show that the proposed system can run in 30 frame per second while guiding the user within predefined routes of 11 meters in indoors and outdoors. The accuracy of the positioning system is 8cm, and the system notifies the users if they deviate from the predefined route by more than 60 cm.
翻訳日:2023-06-03 00:52:46 公開日:2023-06-01
# DISCO: 大規模言語モデルによるファラカル・カウンティファクトの蒸留

DISCO: Distilling Phrasal Counterfactuals with Large Language Models ( http://arxiv.org/abs/2212.10534v2 )

ライセンス: Link先を確認
Zeming Chen and Qiyue Gao and Antoine Bosselut and Ashish Sabharwal and Kyle Richardson(参考訳) 反証的に拡張されたデータでトレーニングされたモデルは、タスクの因果構造の表現を学習し、堅牢な一般化を可能にする。 しかし、高品質な偽データはほとんどのタスクで不足しており、大規模に生成するのは容易ではない。 クラウドソースされた場合、そのようなデータは一般的に規模や多様性に制限されるが、教師付き手法で生成された場合、新しいカウンターファクト次元に拡張する計算コストがかかる。 そこで本研究では,高品質な偽データの自動生成手法であるdisco (distilled counterfactual data) を提案する。 DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。 そして、タスク固有の教師モデルがこれらの世代をフィルタリングし、高品質なカウンターファクトデータを蒸留する。 タスク非依存では、パイプラインを自然言語推論(NLI)タスクに適用し、NLIストレステスト(NLI stress test)のような挑戦的な評価において、disCO生成した偽物によりトレーニングされた比較的小さな学生モデルの方がより堅牢(6%絶対)であり、データ強化なしでトレーニングされたモデルと比較して分散(2%)を一般化する。 さらに、ディスコ拡張モデルは、3つの評価セットで反事実ペア間で10%一貫性があり、ディスコ拡張によりモデルがより確実に因果表現を学習できることを示している。 私たちのリポジトリは、https://github.com/eric11eca/discoで利用可能です。

Models trained with counterfactually augmented data learn representations of the causal structure of tasks, enabling robust generalization. However, high-quality counterfactual data is scarce for most tasks and not easily generated at scale. When crowdsourced, such data is typically limited in scale and diversity; when generated using supervised methods, it is computationally expensive to extend to new counterfactual dimensions. In this work, we introduce DISCO (DIStilled COunterfactual Data), a new method for automatically generating high quality counterfactual data at scale. DISCO engineers prompts to generate phrasal perturbations with a large general language model. Then, a task-specific teacher model filters these generations to distill high-quality counterfactual data. While task-agnostic, we apply our pipeline to the task of natural language inference (NLI) and find that on challenging evaluations such as the NLI stress test, comparatively smaller student models trained with DISCO generated counterfactuals are more robust (6% absolute) and generalize better across distributions (2%) compared to models trained without data augmentation. Furthermore, DISCO augmented models are 10% more consistent between counterfactual pairs on three evaluation sets, demonstrating that DISCO augmentation enables models to more reliably learn causal representations. Our repository is available at: https://github.com/eric11eca/disco
翻訳日:2023-06-03 00:52:30 公開日:2023-06-01
# ニューラルエージェントにおける言語普遍性の創発を駆動するコミュニケーション:単語順/ケースマーキングトレードオフからの証拠

Communication Drives the Emergence of Language Universals in Neural Agents: Evidence from the Word-order/Case-marking Trade-off ( http://arxiv.org/abs/2301.13083v2 )

ライセンス: Link先を確認
Yuchen Lian, Arianna Bisazza, Tessa Verhoef(参考訳) 人工学習者は、神経エージェントに基づく言語の発生と変化のシミュレーションの文脈で、人間の学習者と異なる振る舞いをすることが多い。 一般的な説明は、学習者に適切な認知バイアスがないことである。 しかし、言語学習と使用のより自然主義的な設定が、より人間的な結果をもたらすことも提案されている。 本稿では,この単語順/ケースマーキングのトレードオフに着目し,特にシミュレーションが困難であることが証明された,広く証明された言語普遍性について考察する。 本稿では,会話エージェントと聞き取りエージェントのペアが教師付き学習を通じてまずミニチュア言語を学習し,強化学習によるコミュニケーションに最適化する,ニューラルエージェント型言語学習・コミュニケーションフレームワーク(nellcom)を提案する。 初期の人間実験のセットアップに追随して、エージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークとのトレードオフを複製することに成功した。 これは、ニューラル学習者による言語普遍性の調査に不可欠なステップだと考えています。

Artificial learners often behave differently from human learners in the context of neural agent-based simulations of language emergence and change. A common explanation is the lack of appropriate cognitive biases in these learners. However, it has also been proposed that more naturalistic settings of language learning and use could lead to more human-like results. We investigate this latter account focusing on the word-order/case-marking trade-off, a widely attested language universal that has proven particularly hard to simulate. We propose a new Neural-agent Language Learning and Communication framework (NeLLCom) where pairs of speaking and listening agents first learn a miniature language via supervised learning, and then optimize it for communication via reinforcement learning. Following closely the setup of earlier human experiments, we succeed in replicating the trade-off with the new framework without hard-coding specific biases in the agents. We see this as an essential step towards the investigation of language universals with neural learners.
翻訳日:2023-06-03 00:44:35 公開日:2023-06-01
# 基準点を用いた参照型進化的多目的最適化のための品質指標:レビューと分析

Quality Indicators for Preference-based Evolutionary Multi-objective Optimization Using a Reference Point: A Review and Analysis ( http://arxiv.org/abs/2301.12148v2 )

ライセンス: Link先を確認
Ryoji Tanabe and Ke Li(参考訳) 参照点を用いた選好に基づく進化的多目的最適化アルゴリズムのための品質指標がいくつか提案されている。 品質指標の体系的なレビューと分析は、ベンチマークと実用的な意思決定の両方に役立つが、どちらも実施されていない。 本稿では,まず,既存の関心領域と基準点を用いた嗜好に基づく進化的多目的最適化のための品質指標について概説する。 各品質指標は異なる関心領域のために設計されていると指摘する。 そこで本研究では,品質指標の特性について検討する。 目的空間における解から基準点までの距離は,達成度スカラー化関数値が必ずしも一致しないことを示す。 我々は、基準点の位置とパレート前面の形状によって、興味のある領域が著しく異なることを観察する。 いくつかの品質指標の望ましくない性質を識別する。 また,選好に基づく進化的多目的最適化アルゴリズムのランキングは品質指標の選択に依存することを示した。

Some quality indicators have been proposed for benchmarking preference-based evolutionary multi-objective optimization algorithms using a reference point. Although a systematic review and analysis of the quality indicators are helpful for both benchmarking and practical decision-making, neither has been conducted. In this context, first, this paper reviews existing regions of interest and quality indicators for preference-based evolutionary multi-objective optimization using the reference point. We point out that each quality indicator was designed for a different region of interest. Then, this paper investigates the properties of the quality indicators. We demonstrate that an achievement scalarizing function value is not always consistent with the distance from a solution to the reference point in the objective space. We observe that the regions of interest can be significantly different depending on the position of the reference point and the shape of the Pareto front. We identify undesirable properties of some quality indicators. We also show that the ranking of preference-based evolutionary multi-objective optimization algorithms depends on the choice of quality indicators.
翻訳日:2023-06-03 00:43:57 公開日:2023-06-01
# 真空揺らぎによる電子の運動

Motion of an electron through vacuum fluctuations ( http://arxiv.org/abs/2301.11946v2 )

ライセンス: Link先を確認
Anirudh Gundhi and Angelo Bassi(参考訳) 非相対論的電子の動きに対する電磁真空の効果について検討する。 まず、電子の位置演算子の期待値に対する運動方程式を導出する。 この方程式が古典的アブラハム・ローレンツ方程式とどのように同じ形式を持つかを示すが、同時に、よく知られた暴走解を含まない。 次に真空揺らぎによるデコヒーレンスについて検討する。 本研究では,電子の密度行列の低下レベルに現れる真空ゆらぎによるデコヒーレンスは,放射場を追跡して得られるが,実際の非可逆的なコヒーレンス損失とは一致しないことを示す。

We study the effects of the electromagnetic vacuum on the motion of a nonrelativistic electron. First, we derive the equation of motion for the expectation value of the electron's position operator. We show how this equation has the same form as the classical Abraham-Lorentz equation but, at the same time, is free of the well known runaway solution. Second, we study decoherence induced by vacuum fluctuations. We show that decoherence due to vacuum fluctuations that appears at the level of the reduced density matrix of the electron, obtained after tracing over the radiation field, does not correspond to actual irreversible loss of coherence.
翻訳日:2023-06-03 00:43:18 公開日:2023-06-01
# D$^2$CSG: 2次補足とドロップアウトを持つ小型CSG木の教師なし学習

D$^2$CSG: Unsupervised Learning of Compact CSG Trees with Dual Complements and Dropouts ( http://arxiv.org/abs/2301.11497v2 )

ライセンス: Link先を確認
Fenggen Yu, Qimin Chen, Maham Tanveer, Ali Mahdavi Amiri, Hao Zhang(参考訳) 3次元cad形状のコンパクトな構成的立体幾何学(csg)表現の教師なし学習のために,2つのネットワーク分岐とドロップアウトからなるニューラルモデルであるd$^2$csgを提案する。 ネットワークは2次プリミティブの固定階組立により3次元形状を再構築し、両枝が原始交叉や逆の結合を生成する。 D$^2$CSGと以前の全てのニューラルCSGモデルの主な違いは、カバーブランチによってモデル化された全体形状から引かれる、潜在的に複雑な形状補体を組み立てる専用の残留枝である。 形状補間により,本ネットワークは確実に一般化され,余剰プリミティブを除去することによりCSGツリーのコンパクト性はさらに向上する。 我々は、D$^2$CSGが既存のすべての代替品、特に複雑なCAD形状よりも優れた品質とより自然なプリミティブを持つコンパクトCSG再構成を生成することを定量的かつ定性的に示す。

We present D$^2$CSG, a neural model composed of two dual and complementary network branches, with dropouts, for unsupervised learning of compact constructive solid geometry (CSG) representations of 3D CAD shapes. Our network is trained to reconstruct a 3D shape by a fixed-order assembly of quadric primitives, with both branches producing a union of primitive intersections or inverses. A key difference between D$^2$CSG and all prior neural CSG models is its dedicated residual branch to assemble the potentially complex shape complement, which is subtracted from an overall shape modeled by the cover branch. With the shape complements, our network is provably general, while the weight dropout further improves compactness of the CSG tree by removing redundant primitives. We demonstrate both quantitatively and qualitatively that D$^2$CSG produces compact CSG reconstructions with superior quality and more natural primitives than all existing alternatives, especially over complex and high-genus CAD shapes.
翻訳日:2023-06-03 00:43:07 公開日:2023-06-01
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v4 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,RLHFと最大エントロピー逆強化学習(IRL)の問題を統一し,最大エントロピーIRLに束縛された最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.
翻訳日:2023-06-03 00:42:46 公開日:2023-06-01
# ハードプロンプトが容易になった:プロンプトチューニングと発見のための勾配に基づく離散最適化

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery ( http://arxiv.org/abs/2302.03668v2 )

ライセンス: Link先を確認
Yuxin Wen, Neel Jain, John Kirchenbauer, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 現代の生成モデルの強みは、テキストベースのプロンプトによって制御できる能力にある。 典型的な「硬い」プロンプトは解釈可能な単語とトークンから作られ、人間が手作りしなければならない。 連続的な特徴ベクトルからなる"ソフト"プロンプトもある。 これらは強力な最適化手法で発見できるが、容易に解釈したり、モデル間で再使用したり、テキストベースのインターフェイスに差し込むことはできない。 本稿では,効率的な勾配に基づく最適化により,テキストプロンプトを頑健に最適化する手法について述べる。 本手法では,テキストから画像へのプロンプトとテキストからテキストへのプロンプトの両方に対して,テキストベースのプロンプトを自動的に生成する。 テキスト・トゥ・イメージ・セッティングでは、拡散モデルのハードプロンプトを生成し、モデルのプロンプトに関する事前知識なしに、APIユーザーが容易に画像概念を生成、発見、混合できる。 テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることを示す。

The strength of modern generative models lies in their ability to be controlled through text-based prompts. Typical "hard" prompts are made from interpretable words and tokens, and must be hand-crafted by humans. There are also "soft" prompts, which consist of continuous feature vectors. These can be discovered using powerful optimization methods, but they cannot be easily interpreted, re-used across models, or plugged into a text-based interface. We describe an approach to robustly optimize hard text prompts through efficient gradient-based optimization. Our approach automatically generates hard text-based prompts for both text-to-image and text-to-text applications. In the text-to-image setting, the method creates hard prompts for diffusion models, allowing API users to easily generate, discover, and mix and match image concepts without prior knowledge on how to prompt the model. In the text-to-text setting, we show that hard prompts can be automatically discovered that are effective in tuning LMs for classification.
翻訳日:2023-06-03 00:36:12 公開日:2023-06-01
# SSLのインタープレイ:拡張、インダクティブバイアス、一般化

The SSL Interplay: Augmentations, Inductive Bias, and Generalization ( http://arxiv.org/abs/2302.02774v2 )

ライセンス: Link先を確認
Vivien Cabannes, Bobak T. Kiani, Randall Balestriero, Yann LeCun, Alberto Bietti(参考訳) 自己教師付き学習(SSL)は、監視なしで生データから表現を学習する強力なフレームワークとして登場した。 しかし実際には、エンジニアはチューニングオプティマイザの不安定さやトレーニング中の表現の崩壊といった問題に直面している。 このような課題は、データ拡張の選択、ネットワークアーキテクチャ、トレーニングアルゴリズムの間の複雑な相互作用に光を当てる理論の必要性を動機付けている。 本研究では,理論フレンドリな設定において,事前学習タスクと下流タスクの両方における一般化性能の正確な解析を行い,我々の理論から生じるSSL実践者に対するいくつかの知見を明らかにする。

Self-supervised learning (SSL) has emerged as a powerful framework to learn representations from raw data without supervision. Yet in practice, engineers face issues such as instability in tuning optimizers and collapse of representations during training. Such challenges motivate the need for a theory to shed light on the complex interplay between the choice of data augmentation, network architecture, and training algorithm. We study such an interplay with a precise analysis of generalization performance on both pretraining and downstream tasks in a theory friendly setup, and highlight several insights for SSL practitioners that arise from our theory.
翻訳日:2023-06-03 00:35:54 公開日:2023-06-01
# 低ビットビジョン変換器の無振動量子化

Oscillation-free Quantization for Low-bit Vision Transformers ( http://arxiv.org/abs/2302.02210v2 )

ライセンス: Link先を確認
Shih-Yang Liu, Zechun Liu, Kwang-Ting Cheng(参考訳) 重み振動は量子化対応トレーニングの望ましくない副作用であり、量子化された重みは2つの量子化レベルの間で頻繁にジャンプし、トレーニングの不安定性と準最適最終モデルをもたらす。 学習可能なスケーリング係数である$\textit{de facto}$の量子化設定は、重みの振動を増大させる。 本研究では,学習可能なスケーリング因子と量的重み振動との関係について検討し,vitをケースドライバとして活用し,その発見と改善について検討した。 さらに、量子化重みの相互依存性が$\textit{query}$と$\textit{key}$の自己アテンション層であることから、ViTは振動に弱いことが判明した。 そこで,本研究では, 統計的量量化($\rm StatsQ$)による量子化ロバスト性の向上と, 一般的な学習可能スケール法と比較しての信頼性向上($\rm CGA$)による重み付けを凍結し, 発振重みを緩和する($\textit{high confidence}$, $\textit{query}$-$\textit{key}$再パラメータ化($\rm QKR$)によるクエリキーの相互交叉振動の解消と, 結果の勾配推定の緩和を行う($\rm QKR$)3つの手法を提案する。 広汎な実験により、これらの手法は重量振動を緩和し、一貫して画像ネットの精度を向上することを示した。 具体的には、我々の2ビットのDeiT-T/DeiT-Sアルゴリズムは、それぞれ9.8%と7.7%で先行技術を上回っている。 コードとモデルは \url{https://github.com/nbasyl/ofq} で利用可能である。

Weight oscillation is an undesirable side effect of quantization-aware training, in which quantized weights frequently jump between two quantized levels, resulting in training instability and a sub-optimal final model. We discover that the learnable scaling factor, a widely-used $\textit{de facto}$ setting in quantization aggravates weight oscillation. In this study, we investigate the connection between the learnable scaling factor and quantized weight oscillation and use ViT as a case driver to illustrate the findings and remedies. In addition, we also found that the interdependence between quantized weights in $\textit{query}$ and $\textit{key}$ of a self-attention layer makes ViT vulnerable to oscillation. We, therefore, propose three techniques accordingly: statistical weight quantization ($\rm StatsQ$) to improve quantization robustness compared to the prevalent learnable-scale-based method; confidence-guided annealing ($\rm CGA$) that freezes the weights with $\textit{high confidence}$ and calms the oscillating weights; and $\textit{query}$-$\textit{key}$ reparameterization ($\rm QKR$) to resolve the query-key intertwined oscillation and mitigate the resulting gradient misestimation. Extensive experiments demonstrate that these proposed techniques successfully abate weight oscillation and consistently achieve substantial accuracy improvement on ImageNet. Specifically, our 2-bit DeiT-T/DeiT-S algorithms outperform the previous state-of-the-art by 9.8% and 7.7%, respectively. Code and models are available at: \url{https://github.com/nbasyl/OFQ}.
翻訳日:2023-06-03 00:35:44 公開日:2023-06-01
# LazyGNN: Lazy Propagationによる大規模グラフニューラルネットワーク

LazyGNN: Large-Scale Graph Neural Networks via Lazy Propagation ( http://arxiv.org/abs/2302.01503v2 )

ライセンス: Link先を確認
Rui Xue, Haoyu Han, MohamadAli Torkamani, Jian Pei, Xiaorui Liu(参考訳) 最近の研究は、より深いグラフニューラルネットワーク(GNN)によるグラフの長距離依存性のキャプチャの利点を示している。 しかし、より深いGNNは、大規模なグラフにおける近隣の爆発問題による長期にわたるスケーラビリティの問題に悩まされている。 本研究では,より深いモデルではなく,より浅いモデルによってグラフの長距離依存性を捉え,より効率的なグラフ表現学習モデルlazygnnを提案する。 さらに,LazyGNNは,ミニバッチLazyGNNの開発を通じて,さらなる高速化を実現するため,既存のスケーラブルなアプローチ(サンプリング手法など)と互換性があることを実証した。 総合的な実験は、大規模なベンチマークで優れた予測性能とスケーラビリティを示す。 LazyGNNの実装はhttps://github.com/RXPHD/Lazy_GNNで公開されている。

Recent works have demonstrated the benefits of capturing long-distance dependency in graphs by deeper graph neural networks (GNNs). But deeper GNNs suffer from the long-lasting scalability challenge due to the neighborhood explosion problem in large-scale graphs. In this work, we propose to capture long-distance dependency in graphs by shallower models instead of deeper models, which leads to a much more efficient model, LazyGNN, for graph representation learning. Moreover, we demonstrate that LazyGNN is compatible with existing scalable approaches (such as sampling methods) for further accelerations through the development of mini-batch LazyGNN. Comprehensive experiments demonstrate its superior prediction performance and scalability on large-scale benchmarks. The implementation of LazyGNN is available at https://github.com/RXPHD/Lazy_GNN.
翻訳日:2023-06-03 00:35:04 公開日:2023-06-01
# Fed-GLOSS-DP: 最高レベルの差分プライバシーを持つ合成集合を用いたグローバル学習

Fed-GLOSS-DP: Federated, Global Learning using Synthetic Sets with Record Level Differential Privacy ( http://arxiv.org/abs/2302.01068v2 )

ライセンス: Link先を確認
Hui-Po Wang, Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) 本研究は,フェデレーション学習のための新しいプライバシ保護手法であるFed-GLOSS-DPを提案する。 fedavg のような従来の線形点方向勾配共有方式とは異なり、クライアントから受信した合成サンプルを活用し、大域的な最適化を実現する。 これらの合成サンプルは、損失サーロゲートとして機能し、局所領域内の実画像の有用性をシミュレートして、局所的損失景観を近似する。 また,近似の質を反映した効果的な近似領域の測定手法を提案する。 したがって、サーバはグローバルな損失状況を回復し、モデルを総合的に最適化することができる。 さらに,新たなプライバシの懸念に動機づけられて,当社のアプローチが記録レベルの差分プライバシ(dp)とシームレスに連携し,クライアント上のデータレコード毎に理論的プライバシ保証を付与できることを実証した。 その結果,高度に歪んだ分布を持つ各種データセットに対する定式化の有効性が検証された。 特にDPによる高歪分布と雑音勾配を考慮すると,本手法はベースラインを常に改善する。 ソースコードは公開時に公開される。

This work proposes Fed-GLOSS-DP, a novel privacy-preserving approach for federated learning. Unlike previous linear point-wise gradient-sharing schemes, such as FedAvg, our formulation enables a type of global optimization by leveraging synthetic samples received from clients. These synthetic samples, serving as loss surrogates, approximate local loss landscapes by simulating the utility of real images within a local region. We additionally introduce an approach to measure effective approximation regions reflecting the quality of the approximation. Therefore, the server can recover the global loss landscape and comprehensively optimize the model. Moreover, motivated by the emerging privacy concerns, we demonstrate that our approach seamlessly works with record-level differential privacy (DP), granting theoretical privacy guarantees for every data record on the clients. Extensive results validate the efficacy of our formulation on various datasets with highly skewed distributions. Our method consistently improves over the baselines, especially considering highly skewed distributions and noisy gradients due to DP. The source code will be released upon publication.
翻訳日:2023-06-03 00:34:54 公開日:2023-06-01
# マルチモーダル入力と出力のための画像への接地言語モデル

Grounding Language Models to Images for Multimodal Inputs and Outputs ( http://arxiv.org/abs/2301.13823v3 )

ライセンス: Link先を確認
Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried(参考訳) 本研究では,事前学習したテキストのみの言語モデルを視覚領域に最適化し,任意にインターリーブされた画像とテキストデータを処理し,検索した画像でインターリーブされたテキストを生成する。 本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。 我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。 これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。 本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。 当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。

We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
翻訳日:2023-06-03 00:34:34 公開日:2023-06-01
# デュアルバリューネットワークによる再合成計画

Retrosynthetic Planning with Dual Value Networks ( http://arxiv.org/abs/2301.13755v2 )

ライセンス: Link先を確認
Guoqing Liu, Di Xue, Shufang Xie, Yingce Xia, Austin Tripp, Krzysztof Maziarz, Marwin Segler, Tao Qin, Zongzhang Zhang, Tie-Yan Liu(参考訳) 市販の開始物質から標的分子を合成する経路を見つけることを目的とした再合成は、薬物発見と材料設計において重要な課題である。 近年,MLに基づく単段階反応予測器と多段階計画器の組み合わせにより,有望な結果が得られた。 しかしながら、シングルステップ予測器は、完全なルートを考慮せずに、主にオフラインでトレーニングされ、シングルステップ精度を最適化する。 ここでは,木形MDPを用いて完全経路を最適化することにより,強化学習(RL)を活用して単段階予測を改善する。 具体的には,計画段階と更新段階を交互に行う2値ネットワークを用いたオンライン学習アルゴリズム,planning with dual value networks (pdvn)を提案する。 pdvnでは,分子の合成可能性とコストを予測するために2つの値ネットワークを構築した。 単段精度を維持するため,単段予測器のための2分岐ネットワーク構造を設計する。 広く使われているUSPTOデータセットでは、PDVNアルゴリズムは既存のマルチステッププランナの検索成功率を改善する(Retro*では85.79%から98.95%に増加し、RetroGraphでは99.47%の分子を解きながらモデルの呼び出し回数を半分に減らす)。 さらにpdvnは、より短い合成経路(例えば、レトロ*では5.76から4.83、レトログラフでは5.63から4.78)を見つけるのに役立つ。

Retrosynthesis, which aims to find a route to synthesize a target molecule from commercially available starting materials, is a critical task in drug discovery and materials design. Recently, the combination of ML-based single-step reaction predictors with multi-step planners has led to promising results. However, the single-step predictors are mostly trained offline to optimize the single-step accuracy, without considering complete routes. Here, we leverage reinforcement learning (RL) to improve the single-step predictor, by using a tree-shaped MDP to optimize complete routes. Specifically, we propose a novel online training algorithm, called Planning with Dual Value Networks (PDVN), which alternates between the planning phase and updating phase. In PDVN, we construct two separate value networks to predict the synthesizability and cost of molecules, respectively. To maintain the single-step accuracy, we design a two-branch network structure for the single-step predictor. On the widely-used USPTO dataset, our PDVN algorithm improves the search success rate of existing multi-step planners (e.g., increasing the success rate from 85.79% to 98.95% for Retro*, and reducing the number of model calls by half while solving 99.47% molecules for RetroGraph). Additionally, PDVN helps find shorter synthesis routes (e.g., reducing the average route length from 5.76 to 4.83 for Retro*, and from 5.63 to 4.78 for RetroGraph).
翻訳日:2023-06-03 00:33:54 公開日:2023-06-01
# マイクロctで得られた鉱物試料からの個々の粒子のスケーラブル・アウト・オブ・ザ・ボックスセグメンテーション

[Work in progress] Scalable, out-of-the box segmentation of individual particles from mineral samples acquired with micro CT ( http://arxiv.org/abs/2301.13319v3 )

ライセンス: Link先を確認
Karol Gotkowski and Shuvam Gupta and Jose R. A. Godinho and Camila G. S. Tochtrop and Klaus H. Maier-Hein and Fabian Isensee(参考訳) 鉱物は機能する現代社会に欠かせない。 しかし、その供給量は限られており、鉱石とリサイクル可能な材料の両方から探査と抽出を最適化する必要がある。 通常、これらのプロセスは、加工された粒子の正確な性質、形状、外観、および全体的な材料組成の広範な特徴に慎重に適応する必要がある。 現在のアプローチでは、マイクロctで撮像された粒子のバルクセグメンテーションとキャラクタリゼーションに基づいて分析を行い、接触粒子を分離する基本的な後処理技術に依存している。 しかしながら、この分離を確実に実行できないことと、新しいイメージごとにメソッドをトレーニングまたは再構成する必要から、これらのアプローチは未解決のポテンシャルを生かすことになる。 本稿では,エポキシマトリクスに埋め込まれた鉱物試料から採取した大型マイクロct画像から個々の粒子を抽出できるインスタンス分割法である particleeg3d を提案する。 我々のアプローチは、強力なnnU-Netフレームワークをベースとして、粒子サイズ正規化を導入し、境界コア表現を用いてインスタンスセグメンテーションを可能にし、多数の異なる材料や鉱物の粒子を含む大規模なデータセットで訓練する。 本研究では,トレーニングセットに含まれていない材料や外観を含む多種多様な粒子タイプに対して,箱外で粒子eg3dを適用できることを実証する。 したがって、新しいミネラルサンプルに適用する場合、手動のアノテーションや再訓練は不要であり、既存の手法よりも実験のスケーラビリティが著しく向上する。 私たちのコードとデータセットは公開されています。

Minerals are indispensable for a functioning modern society. Yet, their supply is limited causing a need for optimizing their exploration and extraction both from ores and recyclable materials. Typically, these processes must be meticulously adapted to the precise properties of the processed particles, an extensive characterization of their shapes, appearances as well as the overall material composition. Current approaches perform this analysis based on bulk segmentation and characterization of particles imaged with a micro CT, and rely on rudimentary postprocessing techniques to separate touching particles. However, due to their inability to reliably perform this separation as well as the need to retrain or reconfigure methods for each new image, these approaches leave untapped potential to be leveraged. Here, we propose ParticleSeg3D, an instance segmentation method that is able to extract individual particles from large micro CT images taken from mineral samples embedded in an epoxy matrix. Our approach is based on the powerful nnU-Net framework, introduces a particle size normalization, makes use of a border-core representation to enable instance segmentation and is trained with a large dataset containing particles of numerous different materials and minerals. We demonstrate that ParticleSeg3D can be applied out-of-the box to a large variety of particle types, including materials and appearances that have not been part of the training set. Thus, no further manual annotations and retraining are required when applying the method to new mineral samples, enabling substantially higher scalability of experiments than existing methods. Our code and dataset are made publicly available.
翻訳日:2023-06-03 00:33:04 公開日:2023-06-01
# マシンラーニングのセキュリティ防衛における品質測定

Measuring Equality in Machine Learning Security Defenses ( http://arxiv.org/abs/2302.08973v5 )

ライセンス: Link先を確認
Luke E. Richards, Edward Raff, Cynthia Matuszek(参考訳) 機械学習セキュリティコミュニティは、過去10年間にわたって、回避攻撃に対する無数の防御を開発してきた。 このコミュニティの未熟な疑問は: この防御策は誰を擁護するのか? 本研究では,学習システムを守るための一般的なアプローチと,それらのアプローチが異なるサブ集団で使用する場合,予期せぬ性能の低下をもたらすかどうかを検討する。 機械学習のセキュリティ手法の公正性に関する実証的な結果を通じて、この問題に答えることのできる単純なパリティ指標と分析のためのフレームワークについて概説する。 直接的害を引き起こす可能性のある多くの手法が提案されているが、これは偏りの脆弱性と偏りの拒絶である。 当社のフレームワークとメトリックは,堅牢にトレーニングされたモデル,前処理ベースのメソッド,セキュリティ予算を越える行動をキャプチャする拒否メソッドにも適用可能です。 我々は、防衛の平等性を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定する。 音声認識におけるケーススタディを通じて、このような防衛が社会的サブグループに対して平等な保護を提供していないこと、そして、ロバストネストレーニングのためにそのような分析を行う方法を示し、ランダム化スムーシングとニューラルリジェクションの2つの拒否に基づく防御の公平性の比較を示す。 我々は, 公平防衛と相関する要因のさらなる分析を行い, 今後, 防衛体制の整備を支援する方法についての調査を促進させる。 我々の知る限りでは、音声データの正確さと損益性とのトレードオフの公平性を検証し、拒絶に基づく防御に対する公平性評価に対処する最初の研究である。

The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses.
翻訳日:2023-06-03 00:26:09 公開日:2023-06-01
# 確率的ライジングバンドのためのベストアーム識別

Best Arm Identification for Stochastic Rising Bandits ( http://arxiv.org/abs/2302.07510v2 )

ライセンス: Link先を確認
Marco Mussi, Alessandro Montenegro, Francesco Trov\'o, Marcello Restelli and Alberto Maria Metelli(参考訳) 確率的上昇バンディット(srbs)は、選択する度に利用可能なオプションの期待報酬が増加する逐次的な意思決定問題である。 この設定は、利用可能な選択肢が、時間とともにパフォーマンスが向上する(期待して)学習エンティティである、幅広いシナリオをキャプチャします。 先行研究が後悔の最小化問題に対処する一方で,本論文はsrbsにおける固定予算最善アーム識別(bai)問題に焦点を当てている。 このシナリオでは、ラウンドの固定予算を前提として、識別プロセスの終了時に最適な選択肢について推奨することを求めます。 提案手法は, UCBのようなアプローチを取り入れたR-UCBEと, 逐次リジェクション手法を用いたR-SRという2つのアルゴリズムを提案する。 そして、十分な予算で、学習プロセスの終了時に最適な選択肢を適切に特定する確率を保証できることを証明した。 さらに、R-SR(対数因子まで)で一致した誤差確率の低い境界を導出し、SRB設定において十分に大きな予算の必要性が避けられないことを示す。 最後に,提案アルゴリズムを合成環境と実環境の両方で数値的に検証し,現在利用可能なBAI戦略と比較する。

Stochastic Rising Bandits (SRBs) model sequential decision-making problems in which the expected rewards of the available options increase every time they are selected. This setting captures a wide range of scenarios in which the available options are learning entities whose performance improves (in expectation) over time. While previous works addressed the regret minimization problem, this paper, focuses on the fixed-budget Best Arm Identification (BAI) problem for SRBs. In this scenario, given a fixed budget of rounds, we are asked to provide a recommendation about the best option at the end of the identification process. We propose two algorithms to tackle the above-mentioned setting, namely R-UCBE, which resorts to a UCB-like approach, and R-SR, which employs a successive reject procedure. Then, we prove that, with a sufficiently large budget, they provide guarantees on the probability of properly identifying the optimal option at the end of the learning process. Furthermore, we derive a lower bound on the error probability, matched by our R-SR (up to logarithmic factors), and illustrate how the need for a sufficiently large budget is unavoidable in the SRB setting. Finally, we numerically validate the proposed algorithms in both synthetic and real-world environments and compare them with the currently available BAI strategies.
翻訳日:2023-06-03 00:25:41 公開日:2023-06-01
# 電磁誘導透過による周波数領域Hong-Ou-Mandel干渉の制御

Controlling Frequency-Domain Hong-Ou-Mandel Interference via Electromagnetically Induced Transparency ( http://arxiv.org/abs/2302.06888v2 )

ライセンス: Link先を確認
Zi-Yu Liu, Jiun-Shiuan Shiu, Chin-Yao Cheng, Yong-Fan Chen(参考訳) ホン・ウー・マンデル(hom)干渉は、単一光子の非古典的性質を示す説得力のある量子現象である。 本研究では、量子化光場の観点から、電磁誘導透過型ダブルロンバダ$4波混合系について検討する。 このシステムは周波数領域における効率的なHOM干渉を実現するために使用できる。 還元密度演算子理論を用いることで, 2つの入射単光子の閉ループの場合において, ダブルロンビダ$媒体は位相依存性を示さないが, 周波数領域HOM二光子干渉が発生することを示した。 実験的に達成可能な光深度条件では、この倍の$\Lambda$スキームは、周波数符号化された単一光子量子ビット上で高忠実なアダマールゲート演算を行い、0.99以上の光度を持つHOM二光子NOON状態を生成することができる。 さらに,レーザーデチューニングと位相制御を単純に行い,多機能性を示し,スケーラブルな光学量子コンピューティングへの新たな経路を提供することにより,任意の単一量子ゲートと2量子スワップゲートを実現することができることを示す。

Hong-Ou-Mandel (HOM) interference is a compelling quantum phenomenon that demonstrates the nonclassical nature of single photons. In this study, we investigate an electromagnetically induced transparency-based double-$\Lambda$ four-wave mixing system from the perspective of quantized light fields. The system can be used to realize efficient HOM interference in the frequency domain. By using the reduced density operator theory, we demonstrate that, although the double-$\Lambda$ medium does not exhibit phase-dependent properties for the closed-loop case of two incident single photons, frequency-domain HOM two-photon interference occurs. For experimentally achievable optical depth conditions, our theory indicates that this double-$\Lambda$ scheme can perform high-fidelity Hadamard gate operations on frequency-encoded single-photon qubits, and thereby generate HOM two-photon NOON states with a fidelity greater than 0.99. Furthermore, we demonstrate that this scheme can be used to realize arbitrary single-qubit gates and two-qubit SWAP gates by simply controlling the laser detuning and phase, exhibiting its multifunctional properties and providing a new route to scalable optical quantum computing.
翻訳日:2023-06-03 00:25:18 公開日:2023-06-01
# 平均h\"older smoothnessを用いた近最適学習

Near-optimal learning with average H\"older smoothness ( http://arxiv.org/abs/2302.06005v2 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski(参考訳) 我々は、Ashlagi et al. (COLT 2021) によって提案された平均リプシッツの滑らかさの概念を、H\"古い滑らかさに拡張することで一般化する。 我々は, 平均H\"高齢者の滑らかさの観点から, 可逆性および非可逆性(雑音性)の回帰設定を, 平均リプシッツの滑らかさの特殊な場合においても, 既知率と既知率の両方で改善する。 さらに,我々の下限は,ログ係数に対する実現可能な設定に密着しているため,minimaxレートが確立される。 アルゴリズムの観点からは, 平均滑らか性の概念は未知の分布に対して定義されるため, 学習者は関数クラスの明示的な表現を持たないため, ERMの実行は不可能である。 それにもかかわらず、我々は(ほぼ)最適な学習率を達成する異なる学習アルゴリズムを提供する。 我々の結果は任意の完全有界距離空間を持ち、その内在幾何学の観点で述べられている。 総じて,h\"older smoothness の古典的な最悪ケース概念は,本質的に平均値に置き換えられ,よりシャープな保証が得られることを示した。

We generalize the notion of average Lipschitz smoothness proposed by Ashlagi et al. (COLT 2021) by extending it to H\"older smoothness. This measure of the "effective smoothness" of a function is sensitive to the underlying distribution and can be dramatically smaller than its classic "worst-case H\"older constant. We consider both the realizable and the agnostic (noisy) regression settings, proving upper and lower risk bounds in terms of the average H\"older smoothness; these rates improve upon both previously known rates even in the special case of average Lipschitz smoothness. Moreover, our lower bound is tight in the realizable setting up to log factors, thus we establish the minimax rate. From an algorithmic perspective, since our notion of average smoothness is defined with respect to the unknown underlying distribution, the learner does not have an explicit representation of the function class, hence is unable to execute ERM. Nevertheless, we provide distinct learning algorithms that achieve both (nearly) optimal learning rates. Our results hold in any totally bounded metric space, and are stated in terms of its intrinsic geometry. Overall, our results show that the classic worst-case notion of H\"older smoothness can be essentially replaced by its average, yielding considerably sharper guarantees.
翻訳日:2023-06-03 00:24:56 公開日:2023-06-01
# 大規模言語モデルによるレベル生成

Level Generation Through Large Language Models ( http://arxiv.org/abs/2302.05817v2 )

ライセンス: Link先を確認
Graham Todd, Sam Earle, Muhammad Umair Nasir, Michael Cerny Green, Julian Togelius(参考訳) 大規模な言語モデル(llm)は強力なツールであり、自然言語のトレーニングを活用してストーリーを書き、コードを生成し、質問に答えることができる。 しかし、彼らは機能的なビデオゲームレベルを生成できるだろうか? 複雑な機能的制約と1次元以上の空間的関係を持つゲームレベルは、LLMがトレーニング中に一般的に見るデータの種類とは大きく異なる。 ゲームレベルのデータセットも難しいため、これらのデータ格納モデルの能力に課税される可能性がある。 我々は,ゲーム sokoban のレベルを生成するための llms の使用について検討し,llm が実際に実現可能であり,その性能はデータセットサイズとともに劇的に向上することを確認した。 また,LLMレベルジェネレータの制御に関する予備実験を行い,今後の課題について検討する。

Large Language Models (LLMs) are powerful tools, capable of leveraging their training on natural language to write stories, generate code, and answer questions. But can they generate functional video game levels? Game levels, with their complex functional constraints and spatial relationships in more than one dimension, are very different from the kinds of data an LLM typically sees during training. Datasets of game levels are also hard to come by, potentially taxing the abilities of these data-hungry models. We investigate the use of LLMs to generate levels for the game Sokoban, finding that LLMs are indeed capable of doing so, and that their performance scales dramatically with dataset size. We also perform preliminary experiments on controlling LLM level generators and discuss promising areas for future work.
翻訳日:2023-06-03 00:24:34 公開日:2023-06-01
# 物体検出のための二重関係知識蒸留

Dual Relation Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2302.05637v2 )

ライセンス: Link先を確認
Zhenliang Ni, Fukui Yang, Shengzhao Wen, Gang Zhang(参考訳) 知識蒸留はモデル圧縮に有効な方法である。 しかし,検出課題に知識蒸留を適用することは依然として難しい課題である。 検出タスクの蒸留性能が低下する2つのキーポイントがある。 ひとつはフォアグラウンドとバックグラウンド機能の深刻な不均衡です。もうひとつは、小さなオブジェクトには十分な機能表現が欠けていることです。 以上の課題を解決するために,二元関係知識蒸留(drkd)と呼ばれる,画素関係蒸留とインスタンス関係蒸留を含む新しい蒸留法を提案する。 画素ワイド関係蒸留はグラフ空間に画素ワイド特徴を埋め込み、グラフ畳み込みを適用してグローバルな画素関係を捉える。 グローバル画素関係を蒸留することにより、学生検出器は、前景と背景の特徴の関係を学習し、特徴不均衡問題に対して直接特徴を蒸留することの難しさを回避することができる。 さらに、インスタンスワイド関係は、小さなオブジェクトに対する独立した特徴以上の貴重な知識を補う。 これにより、異なるインスタンスの類似度を計算して関係行列を得る、インスタンス回り関係蒸留が設計される。 さらに重要なことに、リレーションフィルタモジュールは、価値のあるインスタンス関係を強調するように設計されている。 提案する二重関係知識蒸留は一般的であり、一段階と二段階の両方の検出器に容易に適用できる。 ResNet50をベースとした高速R-CNNを38.4%から41.6%mAPに改善し、ResNet50をベースとしたRetinaNetを37.4%から40.3%mAPに改善した。

Knowledge distillation is an effective method for model compression. However, it is still a challenging topic to apply knowledge distillation to detection tasks. There are two key points resulting in poor distillation performance for detection tasks. One is the serious imbalance between foreground and background features, another one is that small object lacks enough feature representation. To solve the above issues, we propose a new distillation method named dual relation knowledge distillation (DRKD), including pixel-wise relation distillation and instance-wise relation distillation. The pixel-wise relation distillation embeds pixel-wise features in the graph space and applies graph convolution to capture the global pixel relation. By distilling the global pixel relation, the student detector can learn the relation between foreground and background features, and avoid the difficulty of distilling features directly for the feature imbalance issue. Besides, we find that instance-wise relation supplements valuable knowledge beyond independent features for small objects. Thus, the instance-wise relation distillation is designed, which calculates the similarity of different instances to obtain a relation matrix. More importantly, a relation filter module is designed to highlight valuable instance relations. The proposed dual relation knowledge distillation is general and can be easily applied for both one-stage and two-stage detectors. Our method achieves state-of-the-art performance, which improves Faster R-CNN based on ResNet50 from 38.4% to 41.6% mAP and improves RetinaNet based on ResNet50 from 37.4% to 40.3% mAP on COCO 2017.
翻訳日:2023-06-03 00:24:07 公開日:2023-06-01
# 因果強化学習に関する調査研究

A Survey on Causal Reinforcement Learning ( http://arxiv.org/abs/2302.05209v3 )

ライセンス: Link先を確認
Yan Zeng, Ruichu Cai, Fuchun Sun, Libo Huang, Zhifeng Hao(参考訳) 強化学習(Reinforcement Learning, RL)は多くの領域の逐次決定問題において大きな成功を収める一方で、データ非効率性と解釈可能性の欠如という重要な課題に直面している。 興味深いことに、近年多くの研究者が因果関係の文献からの洞察を活用して、因果関係の利点を統一し、RLの課題にうまく対処するための卓越した成果を生み出している。 そのため、これらの因果強化学習(CRL)の成果を照合し、CRL手法のレビューを行い、因果性からRLへの潜在的な機能について検討することが極めて重要である。 特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。 さらに、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から各カテゴリを解析する。 さらに,今後のCRL開発に向けての展望とともに,新たなアプリケーションについて議論しながら,評価行列とオープンソースを要約する。

While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
翻訳日:2023-06-03 00:23:35 公開日:2023-06-01
# より良い拡散モデルによる対人訓練の改善

Better Diffusion Models Further Improve Adversarial Training ( http://arxiv.org/abs/2302.04638v2 )

ライセンス: Link先を確認
Zekai Wang, Tianyu Pang, Chao Du, Min Lin, Weiwei Liu, Shuicheng Yan(参考訳) DDPM(denoising diffusion probabilistic model)によって生成されたデータは、対向訓練を改善することが認識されている。 拡散モデルにおける2年間の急速な発展の後、自然な疑問が生まれている。 本稿では, DDPMと比較して高効率(20ドルサンプリングステップ)で画像品質(FIDスコアが低い)の最新の拡散モデルを用いて, 肯定的な回答を与える。 我々の敵対的に訓練されたモデルは、生成されたデータ(外部データセットなし)のみを使用してRobostBenchの最先端のパフォーマンスを達成する。 このモデルは$\ell_\infty$-normの脅威モデルで$\epsilon=8/255$で、それぞれ$4.58\%$と$+8.03\%$で、cifar-10とcifar-100で$0.69\%$と$2.67\%$ロバストな精度を達成した。 我々のモデルは、$\epsilon=128/255$の$\ell_2$-norm脅威モデルの下で、cifar-10 (+4.44\%$) で$4.86\% を達成。 これらの結果は、外部データを使用する以前の作業にも匹敵する。 また,SVHN と TinyImageNet のデータセットにも魅力的な結果が得られた。 私たちのコードはhttps://github.com/wzekai99/DM-Improves-ATで利用可能です。

It has been recognized that the data generated by the denoising diffusion probabilistic model (DDPM) improves adversarial training. After two years of rapid development in diffusion models, a question naturally arises: can better diffusion models further improve adversarial training? This paper gives an affirmative answer by employing the most recent diffusion model which has higher efficiency ($\sim 20$ sampling steps) and image quality (lower FID score) compared with DDPM. Our adversarially trained models achieve state-of-the-art performance on RobustBench using only generated data (no external datasets). Under the $\ell_\infty$-norm threat model with $\epsilon=8/255$, our models achieve $70.69\%$ and $42.67\%$ robust accuracy on CIFAR-10 and CIFAR-100, respectively, i.e. improving upon previous state-of-the-art models by $+4.58\%$ and $+8.03\%$. Under the $\ell_2$-norm threat model with $\epsilon=128/255$, our models achieve $84.86\%$ on CIFAR-10 ($+4.44\%$). These results also beat previous works that use external data. We also provide compelling results on the SVHN and TinyImageNet datasets. Our code is available at https://github.com/wzekai99/DM-Improves-AT.
翻訳日:2023-06-03 00:23:04 公開日:2023-06-01
# 言語モデルからデータ抽出を訓練するためのトリックのバグ

Bag of Tricks for Training Data Extraction from Language Models ( http://arxiv.org/abs/2302.04460v2 )

ライセンス: Link先を確認
Weichen Yu, Tianyu Pang, Qian Liu, Chao Du, Bingyi Kang, Yan Huang, Min Lin, Shuicheng Yan(参考訳) 言語モデルの進歩により、プライバシー保護はより注目を集めている。 そのため、プライバシー漏洩を評価する潜在的なツールとして機能するため、データ抽出のトレーニングは非常に重要である。 しかし、この作業の難しさから、既存の手法のほとんどは概念実証であり、まだ有効ではない。 本稿では,公開データセットを用いたトレーニングデータ抽出手法の検討とベンチマーク手法を提案する。 既存の抽出方法は,テキスト候補を潜在的訓練データとして生成し,特定の基準に基づいてランク付けするパイプラインを使用するため,テキスト生成(サンプリング戦略など)とテキストランキング(トークンレベルの基準など)の両方のトリックに注目している。 実験の結果,これまで見過ごされていたいくつかの手技が,トレーニングデータ抽出の成功に不可欠であることが判明した。 gpt-neo 1.3bの評価結果に基づいて,提案手法は,多くの場合においてベースラインを大きなマージンで上回り,今後の研究においてはるかに強力なベースラインとなる。 コードはhttps://github.com/weichen-yu/lm-extractionで入手できる。

With the advance of language models, privacy protection is receiving more attention. Training data extraction is therefore of great importance, as it can serve as a potential tool to assess privacy leakage. However, due to the difficulty of this task, most of the existing methods are proof-of-concept and still not effective enough. In this paper, we investigate and benchmark tricks for improving training data extraction using a publicly available dataset. Because most existing extraction methods use a pipeline of generating-then-ranking, i.e., generating text candidates as potential training data and then ranking them based on specific criteria, our research focuses on the tricks for both text generation (e.g., sampling strategy) and text ranking (e.g., token-level criteria). The experimental results show that several previously overlooked tricks can be crucial to the success of training data extraction. Based on the GPT-Neo 1.3B evaluation results, our proposed tricks outperform the baseline by a large margin in most cases, providing a much stronger baseline for future research. The code is available at https://github.com/weichen-yu/LM-Extraction.
翻訳日:2023-06-03 00:22:44 公開日:2023-06-01
# おしゃべりしよう! ChatGPTとの会話:技術・応用・限界

Let's have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations ( http://arxiv.org/abs/2302.13817v3 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) 人間のような文を生成し、一貫性のあるエッセイを書くことができるAIベースのチャットボットの出現は、世界の注目を集めている。 本稿ではチャットボットの歴史的概要とチャット生成事前学習トランス(ChatGPT)を支える技術について述べる。 さらに、医療、教育、研究など様々な分野におけるChatGPTの応用の可能性を強調した。 有望な結果にもかかわらず、ChatGPTにはいくつかのプライバシーと倫理上の懸念がある。 さらに、現在のバージョンのChatGPTの重要な制限をいくつか強調する。 また、ChatGPTにその視点を提供して、答えようとするいくつかの質問に対する回答を提示するように求めます。

The emergence of an AI-powered chatbot that can generate human-like sentences and write coherent essays has caught the world's attention. This paper discusses the historical overview of chatbots and the technology behind Chat Generative Pre-trained Transformer, better known as ChatGPT. Moreover, potential applications of ChatGPT in various domains, including healthcare, education, and research, are highlighted. Despite promising results, there are several privacy and ethical concerns surrounding ChatGPT. In addition, we highlight some of the important limitations of the current version of ChatGPT. We also ask ChatGPT to provide its point of view and present its responses to several questions we attempt to answer.
翻訳日:2023-06-03 00:15:57 公開日:2023-06-01
# データを隠すことが助けになる: スパースコーディングのためのマスキングの利点

Hiding Data Helps: On the Benefits of Masking for Sparse Coding ( http://arxiv.org/abs/2302.12715v2 )

ライセンス: Link先を確認
Muthu Chidambaram, Chenwei Wu, Yu Cheng, Rong Ge(参考訳) スパース符号化(Sparse coding)は、学習辞書の要素の疎線形結合としての信号のモデリングであり、信号処理、コンピュータビジョン、医用画像などの応用において成功(かつ解釈可能な)アプローチであることが証明されている。 この成功は、学習辞書が基礎辞書と同じ大きさである場合の辞書回復の証明可能な保証に多くの取り組みを駆り立ててきたが、基礎真理に関して学習辞書がより大きく(あるいは過剰に実現されている)設定が比較的新鮮である。 この設定における既存の理論的結果は、ノイズのないデータの場合に制約されている。 本研究では,ノイズが存在する場合,標準辞書学習目標の最小化は,データ生成過程における信号の大きさによらず,実現過剰な状況下での辞書の要素の回復に失敗することを示す。 さらに, 自己教師型学習における研究の進展から, 大規模データ生成プロセスにおいて, 信号が増大するにつれて, 地上構造辞書の復元が実際最適となる新しいマスキング目標を提案する。 我々は,提案する目的が標準の再構成目的よりも優れた経験的性能を享受できることを示す複数のパラメータレジームをまたいだ実験で理論的結果と照合した。

Sparse coding, which refers to modeling a signal as sparse linear combinations of the elements of a learned dictionary, has proven to be a successful (and interpretable) approach in applications such as signal processing, computer vision, and medical imaging. While this success has spurred much work on provable guarantees for dictionary recovery when the learned dictionary is the same size as the ground-truth dictionary, work on the setting where the learned dictionary is larger (or over-realized) with respect to the ground truth is comparatively nascent. Existing theoretical results in this setting have been constrained to the case of noise-less data. We show in this work that, in the presence of noise, minimizing the standard dictionary learning objective can fail to recover the elements of the ground-truth dictionary in the over-realized regime, regardless of the magnitude of the signal in the data-generating process. Furthermore, drawing from the growing body of work on self-supervised learning, we propose a novel masking objective for which recovering the ground-truth dictionary is in fact optimal as the signal increases for a large class of data-generating processes. We corroborate our theoretical results with experiments across several parameter regimes showing that our proposed objective also enjoys better empirical performance than the standard reconstruction objective.
翻訳日:2023-06-03 00:15:36 公開日:2023-06-01
# オンライン意思決定のためのadversarial calibrated regression

Adversarial Calibrated Regression for Online Decision Making ( http://arxiv.org/abs/2302.12196v2 )

ライセンス: Link先を確認
Volodymyr Kuleshov, Shachi Deshpande(参考訳) 不確実性を正確に推定することは、機械学習における意思決定と予測の重要な要素である。 しかし、既存の不確実性推定手法は、トレーニング中に見られる分布にデータが従わなければ失敗する可能性がある。 ここでは、敵が選択したデータを含む任意のデータポイントのストリームで信頼性が保証されるオンライン不確実性推定アルゴリズムを導入する。 具体的には、我々のアルゴリズムは、ブラックボックス回帰モデルのポストホックな再校正を行い、確実に校正された出力を生成する。すなわち、80%の信頼区間は、実際の結果の80%を包含し、ベースモデルの学習目標に対して後悔が少ない。 我々は,データ分散が時間とともに変化するオンラインモデルに基づく意思決定タスクであるベイズ最適化(Bayesian Optimization)のコンテキストにアルゴリズムを適用する。 以上の結果から,ロバストな不確実性定量化はオンライン意思決定を改善する可能性を示唆する。

Accurately estimating uncertainty is an essential component of decision-making and forecasting in machine learning. However, existing uncertainty estimation methods may fail when data no longer follows the distribution seen during training. Here, we introduce online uncertainty estimation algorithms that are guaranteed to be reliable on arbitrary streams of data points, including data chosen by an adversary. Specifically, our algorithms perform post-hoc recalibration of a black-box regression model and produce outputs that are provably calibrated -- i.e., an 80% confidence interval will contain the true outcome 80% of the time -- and that have low regret relative to the learning objective of the base model. We apply our algorithms in the context of Bayesian optimization, an online model-based decision-making task in which the data distribution shifts over time, and observe accelerated convergence to improved optima. Our results suggest that robust uncertainty quantification has the potential to improve online decision-making.
翻訳日:2023-06-03 00:15:13 公開日:2023-06-01
# 自己教師型音声モデルのための韻律ベンチマークProsAudit

ProsAudit, a prosodic benchmark for self-supervised speech models ( http://arxiv.org/abs/2302.12057v3 )

ライセンス: Link先を確認
Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux(参考訳) 本稿では,自己教師付き学習(ssl)における構造的韻律知識を評価するための英語ベンチマークprosauditを提案する。 2つのサブタスク、対応するメトリクス、評価データセットで構成される。 プロトシンタックスタスクでは、モデルは強くて弱い韻律境界を正確に識別しなければならない。 語彙的タスクでは、モデルが単語と単語の間に挿入されたポーズを正しく区別する必要がある。 このベンチマークでは人による評価スコアも提供する。 SSLモデルを一連のモデルで評価した結果,見当たらない言語で評価した場合でも,いずれも両タスクにおいてより高い確率で実行可能であることがわかった。 しかし、非ネイティブモデルは語彙課題においてネイティブモデルよりも著しく悪く、この課題における語彙知識の重要性を強調した。 また、2つのサブタスクにおいて、より多くのデータに基づいてトレーニングされたモデルによるサイズの影響も明らかになりました。

We present ProsAudit, a benchmark in English to assess structural prosodic knowledge in self-supervised learning (SSL) speech models. It consists of two subtasks, their corresponding metrics, and an evaluation dataset. In the protosyntax task, the model must correctly identify strong versus weak prosodic boundaries. In the lexical task, the model needs to correctly distinguish between pauses inserted between words and within words. We also provide human evaluation scores on this benchmark. We evaluated a series of SSL models and found that they were all able to perform above chance on both tasks, even when evaluated on an unseen language. However, non-native models performed significantly worse than native ones on the lexical task, highlighting the importance of lexical knowledge in this task. We also found a clear effect of size with models trained on more data performing better in the two subtasks.
翻訳日:2023-06-03 00:14:58 公開日:2023-06-01
# 機械学習のためのVQE生成量子回路データセット

VQE-generated Quantum Circuit Dataset for Machine Learning ( http://arxiv.org/abs/2302.09751v2 )

ライセンス: Link先を確認
Akimoto Nakayama, Kosuke Mitarai, Leonardo Placidi, Takanori Sugimoto, Keisuke Fujii(参考訳) 量子機械学習は、古典的な機械学習を計算的に上回る可能性を秘めているが、実際に現実的な問題に価値があるかどうかはまだ分かっていない。 いくつかの人工的なシナリオでは、特定の量子機械学習技術が従来のものに比べて有利である可能性が示されているが、量子機械学習がmnistのようなポピュラーな古典的データセットの伝統的な手法を上回っている可能性は低い。 対照的に、量子状態や回路のような量子データを扱うことは、量子手法の恩恵を受けることができるタスクであるかもしれない。 したがって、量子手法が優れていると期待する実用的な量子データセットを開発することが重要である。 本稿では,量子回路のクラスタリングと分類という,現実の世界でまもなく発生するであろう機械学習タスクを提案する。 変動量子固有解法により最適化された量子回路のデータセットを提供する。 我々は、凝縮物質物理学において6つの一般的な種類のハミルトンを4から16キュービットの範囲で利用し、それぞれ300のサンプルを含む6つの異なるクラスの量子回路データセットを生成するために、深さの異なる10種類のアンス\"{a}tzeを適用した。 このデータセットは量子的手法で容易に学習できることを示す。 特に、IBMQを通じて利用可能な実際の4ビットデバイスを用いて、データセットの分類に成功したことを実証する。 量子機械学習が有益な設定と基本データセットを提供することで、フィールドの進歩を奨励し、緩和したいと思っています。

Quantum machine learning has the potential to computationally outperform classical machine learning, but it is not yet clear whether it will actually be valuable for practical problems. While some artificial scenarios have shown that certain quantum machine learning techniques may be advantageous compared to their classical counterpart, it is unlikely that quantum machine learning will outclass traditional methods on popular classical datasets such as MNIST. In contrast, dealing with quantum data, such as quantum states or circuits, may be the task where we can benefit from quantum methods. Therefore, it is important to develop practically meaningful quantum datasets for which we expect quantum methods to be superior. In this paper, we propose a machine learning task that is likely to soon arise in the real world: clustering and classification of quantum circuits. We provide a dataset of quantum circuits optimized by the variational quantum eigensolver. We utilized six common types of Hamiltonians in condensed matter physics, with a range of 4 to 16 qubits, and applied ten different ans\"{a}tze with varying depths (ranging from 3 to 32) to generate a quantum circuit dataset of six distinct classes, each containing 300 samples. We show that this dataset can be easily learned using quantum methods. In particular, we demonstrate a successful classification of our dataset using real 4-qubit devices available through IBMQ. By providing a setting and an elementary dataset where quantum machine learning is expected to be beneficial, we hope to encourage and ease the advancement of the field.
翻訳日:2023-06-03 00:14:44 公開日:2023-06-01
# 予測誤差保証による分散オフラインポリシー評価

Distributional Offline Policy Evaluation with Predictive Error Guarantees ( http://arxiv.org/abs/2302.09456v2 )

ライセンス: Link先を確認
Runzhe Wu, Masatoshi Uehara, Wen Sun(参考訳) 本研究では,ポリシから生成されていないオフラインデータセット,すなわち分散オフラインポリシ評価(OPE)を用いて,ポリシの戻り値の分布を推定する問題について検討する。 本稿では,mle (maximum likelihood estimation) のシーケンスを実行し,mle を通じて訓練できる限り,任意の状態確率的生成モデルを統合する柔軟性を有する適応度推定 (adapted likelihood estimation, fle) というアルゴリズムを提案する。 FLEは、報酬が多次元ベクトルとなるような有限水平と無限水平の割引設定の両方に使うことができる。 我々の理論的結果は、有限水平と無限水平の割引設定の両方において、FLEは総変分距離とワッサーシュタイン距離で基底真理に近い分布を学習できることを示している。 我々の理論的結果は、オフラインデータがテストポリシーのトレースをカバーし、教師付き学習MLEが成功するという条件下で成り立つ。 実験では,2つの生成モデル,ガウス混合モデルと拡散モデルを用いてFLEの性能を示す。 多次元報酬設定では、拡散モデルを持つFLEは、テストポリシの戻りの複雑な分布を推定することができる。

We study the problem of estimating the distribution of the return of a policy using an offline dataset that is not generated from the policy, i.e., distributional offline policy evaluation (OPE). We propose an algorithm called Fitted Likelihood Estimation (FLE), which conducts a sequence of Maximum Likelihood Estimation (MLE) and has the flexibility of integrating any state-of-the-art probabilistic generative models as long as it can be trained via MLE. FLE can be used for both finite-horizon and infinite-horizon discounted settings where rewards can be multi-dimensional vectors. Our theoretical results show that for both finite-horizon and infinite-horizon discounted settings, FLE can learn distributions that are close to the ground truth under total variation distance and Wasserstein distance, respectively. Our theoretical results hold under the conditions that the offline data covers the test policy's traces and that the supervised learning MLE procedures succeed. Experimentally, we demonstrate the performance of FLE with two generative models, Gaussian mixture models and diffusion models. For the multi-dimensional reward setting, FLE with diffusion models is capable of estimating the complicated distribution of the return of a test policy.
翻訳日:2023-06-03 00:14:18 公開日:2023-06-01
# 強化学習によるロバスト二足跳躍制御

Robust and Versatile Bipedal Jumping Control through Reinforcement Learning ( http://arxiv.org/abs/2302.09450v2 )

ライセンス: Link先を確認
Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) この研究は、トルク制御二足歩行ロボットが現実世界でロバストで多用途な動的ジャンプを行えるようにすることで、二足歩行ロボットのアジリティの限界を押し上げることを目的としている。 本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。 そこで我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを提供する新しいポリシー構造を開発した。 多様なジャンプポリシーを訓練するために,異なる目的のために異なるトレーニング段階を含む多段階のトレーニングスキームを利用する。 マルチステージトレーニングの後、ポリシーは本物の2足歩行のカシーロボットに直接転送できる。 さまざまなタスクのトレーニングと、より多様なシナリオの探索は、現実世界の展開中に摂動や低着陸から回復するために、多種多様な学習操作を活用できる非常に堅牢なポリシーにつながる。 提案されたポリシーのロバスト性により、カッシーは長いジャンプ、高架プラットフォームへのジャンプ、マルチアックスジャンプなど、現実世界での様々な挑戦的なジャンプタスクを完了することができる。

This work aims to push the limits of agility for bipedal robots by enabling a torque-controlled bipedal robot to perform robust and versatile dynamic jumps in the real world. We present a reinforcement learning framework for training a robot to accomplish a large variety of jumping tasks, such as jumping to different locations and directions. To improve performance on these challenging tasks, we develop a new policy structure that encodes the robot's long-term input/output (I/O) history while also providing direct access to a short-term I/O history. In order to train a versatile jumping policy, we utilize a multi-stage training scheme that includes different training stages for different objectives. After multi-stage training, the policy can be directly transferred to a real bipedal Cassie robot. Training on different tasks and exploring more diverse scenarios lead to highly robust policies that can exploit the diverse set of learned maneuvers to recover from perturbations or poor landings during real-world deployment. Such robustness in the proposed policy enables Cassie to succeed in completing a variety of challenging jump tasks in the real world, such as standing long jumps, jumping onto elevated platforms, and multi-axes jumps.
翻訳日:2023-06-03 00:13:57 公開日:2023-06-01
# インストラクション-NeRF2NeRF:インストラクションによる3Dシーンの編集

Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions ( http://arxiv.org/abs/2303.12789v2 )

ライセンス: Link先を確認
Ayaan Haque, Matthew Tancik, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa(参考訳) テキストインストラクションによるnrfシーンの編集手法を提案する。 シーンのNeRFと画像の再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いて画像の編集を反復的に行い,編集命令を尊重する最適化された3Dシーンを生成する。 提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを示す。

We propose a method for editing NeRF scenes with text-instructions. Given a NeRF of a scene and the collection of images used to reconstruct it, our method uses an image-conditioned diffusion model (InstructPix2Pix) to iteratively edit the input images while optimizing the underlying scene, resulting in an optimized 3D scene that respects the edit instruction. We demonstrate that our proposed method is able to edit large-scale, real-world scenes, and is able to accomplish more realistic, targeted edits than prior work.
翻訳日:2023-06-03 00:05:39 公開日:2023-06-01
# 対物的テクスト記述を用いた推薦システム

Explaining Recommendation System Using Counterfactual Textual Explanations ( http://arxiv.org/abs/2303.11160v2 )

ライセンス: Link先を確認
Niloofar Ranjbar and Saeedeh Momtazi and MohammadMehdi Homayounpour(参考訳) 現在、ディープラーニングモデルの説明可能性と解釈可能性を改善するために、人工知能の分野でかなりの研究が行われている。 エンドユーザーが何らかのアウトプットを生産する理由を理解すれば、システムへの信頼がより容易になる。 レコメンダシステムは、アウトプットをより説明しやすくするために非常に努力されたシステムの例である。 より説明可能な出力を生成する方法の1つは、最小限の機能を変更することで、システム出力を変更する結果となる対実アイテムを生成する、反実的推論を使用することである。 このプロセスは、望ましいアウトプットに大きな影響を与える入力特徴の識別を可能にし、効果的な説明につながる。 本稿では,表とテキストの特徴の両面について,反実的説明を生成する手法を提案する。 提案手法の性能を実世界の3つのデータセットで評価し,ベースライン法と比較して,有効性(モデルに基づく測度に基づく)を求める上で,+5\%の改善効果を示した。

Currently, there is a significant amount of research being conducted in the field of artificial intelligence to improve the explainability and interpretability of deep learning models. It is found that if end-users understand the reason for the production of some output, it is easier to trust the system. Recommender systems are one example of systems that great efforts have been conducted to make their output more explainable. One method for producing a more explainable output is using counterfactual reasoning, which involves altering minimal features to generate a counterfactual item that results in changing the output of the system. This process allows the identification of input features that have a significant impact on the desired output, leading to effective explanations. In this paper, we present a method for generating counterfactual explanations for both tabular and textual features. We evaluated the performance of our proposed method on three real-world datasets and demonstrated a +5\% improvement on finding effective features (based on model-based measures) compared to the baseline method.
翻訳日:2023-06-03 00:05:27 公開日:2023-06-01
# VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] ( http://arxiv.org/abs/2303.04068v2 )

ライセンス: Link先を確認
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska(参考訳) VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。 また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。 最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
翻訳日:2023-06-03 00:04:44 公開日:2023-06-01
# Bures-Wasserstein 損失を学習した線形生成ネットワークの臨界点と収束解析

Critical Points and Convergence Analysis of Generative Deep Linear Networks Trained with Bures-Wasserstein Loss ( http://arxiv.org/abs/2303.03027v2 )

ライセンス: Link先を確認
Pierre Br\'echet, Katerina Papagiannouli, Jing An, Guido Mont\'ufar(参考訳) 我々は、bures-wasserstein距離で訓練された共分散行列の深い行列分解モデルを考える。 最近の研究は、過パラメータ化低ランク行列近似の最適化問題の研究において重要な進歩を遂げているが、判別的設定と正方形損失に重点が置かれている。 対照的に、このモデルは別の興味深いタイプの損失を考え、生成的設定と結びつける。 我々は、ランク境界行列の空間上のbures-wasserstein距離の臨界点と最小点を特徴付ける。 低ランク行列の場合、この損失のヘシアンは理論的に爆発し、オプティミザトン法の収束を分析するのに挑戦する。 有限ステップサイズ勾配降下に対する損失および収束結果の滑らかな摂動バージョンを用いて,初期重み付けに対する一定の仮定下での勾配流の収束結果を確立する。

We consider a deep matrix factorization model of covariance matrices trained with the Bures-Wasserstein distance. While recent works have made important advances in the study of the optimization problem for overparametrized low-rank matrix approximation, much emphasis has been placed on discriminative settings and the square loss. In contrast, our model considers another interesting type of loss and connects with the generative setting. We characterize the critical points and minimizers of the Bures-Wasserstein distance over the space of rank-bounded matrices. For low-rank matrices the Hessian of this loss can theoretically blow up, which creates challenges to analyze convergence of optimizaton methods. We establish convergence results for gradient flow using a smooth perturbative version of the loss and convergence results for finite step size gradient descent under certain assumptions on the initial weights.
翻訳日:2023-06-03 00:04:30 公開日:2023-06-01
# 特権情報はいつラベルノイズを取り除くのか?

When does Privileged Information Explain Away Label Noise? ( http://arxiv.org/abs/2303.01806v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Mark Collier, Anant Nawalgaria, Alexander D'Amour, Jesse Berent, Rodolphe Jenatton, Effrosyni Kokiopoulou(参考訳) 特権情報(pi)や、トレーニング中に利用可能だがテスト時ではない機能を活用することは、最近ラベルノイズに対処する効果的な方法であることが示されている。 しかし、その効果の理由はよく理解されていない。 本研究では,PIの特性の違いによるラベルノイズの除去に果たす役割について検討した。 実PI(CIFAR-N/H)と新しい大規模ベンチマークであるImageNet-PIによる複数のデータセットの実験により,ネットワークがノイズの多いデータとクリーンなデータを容易に区別できると同時に,学習ショートカットによってノイズの多いサンプルを記憶できることが確認できた。 興味深いことに、PIがターゲットラベルを予測しすぎると、PIメソッドは非PIベースラインよりもパフォーマンスが悪くなります。 これらの知見に基づいて,最新のPI手法のいくつかの改良を提案し,ラベルノイズに対処する手段としてのPIの可能性を示す。 最後に、ラベルノイズに対処するための既存のno-PI手法と結果のPIアプローチを簡単に組み合わせる方法について述べる。

Leveraging privileged information (PI), or features available during training but not at test time, has recently been shown to be an effective method for addressing label noise. However, the reasons for its effectiveness are not well understood. In this study, we investigate the role played by different properties of the PI in explaining away label noise. Through experiments on multiple datasets with real PI (CIFAR-N/H) and a new large-scale benchmark ImageNet-PI, we find that PI is most helpful when it allows networks to easily distinguish clean from noisy data, while enabling a learning shortcut to memorize the noisy examples. Interestingly, when PI becomes too predictive of the target label, PI methods often perform worse than their no-PI baselines. Based on these findings, we propose several enhancements to the state-of-the-art PI methods and demonstrate the potential of PI as a means of tackling label noise. Finally, we show how we can easily combine the resulting PI approaches with existing no-PI techniques designed to deal with label noise.
翻訳日:2023-06-03 00:04:03 公開日:2023-06-01
# 相対表現のためのブートストラップ並列アンカー

Bootstrapping Parallel Anchors for Relative Representations ( http://arxiv.org/abs/2303.00721v2 )

ライセンス: Link先を確認
Irene Cannistraci, Luca Moschella, Valentino Maiorca, Marco Fumero, Antonio Norelli, Emanuele Rodol\`a(参考訳) 潜在埋め込みに対する相対表現の使用は、幅広いアプリケーションにわたって潜在空間通信とゼロショットモデルステッチを可能にする可能性を示している。 それにもかかわらず、相対表現は入力として与えられる一定の量の平行アンカーに依存しており、特定のシナリオでは実現不可能である。 この制限を克服するために、限定された既知の集合(シード)から新しい並列アンカーを発見する最適化手法を提案する。 提案手法は,異なるドメイン間の意味的対応を見つけ,それらの相対空間を整列させ,複数のタスクにおいて競合的な結果が得られる。

The use of relative representations for latent embeddings has shown potential in enabling latent space communication and zero-shot model stitching across a wide range of applications. Nevertheless, relative representations rely on a certain amount of parallel anchors to be given as input, which can be impractical to obtain in certain scenarios. To overcome this limitation, we propose an optimization-based method to discover new parallel anchors from a limited known set (seed). Our approach can be used to find semantic correspondence between different domains, align their relative spaces, and achieve competitive results in several tasks.
翻訳日:2023-06-03 00:03:27 公開日:2023-06-01
# 最小観測可能性原理による量子力学

Quantum Mechanics From Principle of Least Observability ( http://arxiv.org/abs/2302.14619v4 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 非相対論的量子力学の定式化は最小観測可能性の原理から導出できることを示す。 可観測性(observability)は、物理オブジェクトがそのダイナミクス中に示す識別性(またはトレーサビリティ)を測定するためにここで導入された概念である。 可観測性を定量化するために、プランク定数は、観測可能となるために物理オブジェクトが提示する必要がある離散的なアクション量を定義すると仮定する。 そして観測可能性を計算する 1) 動作変数をプランク定数で古典的な経路に沿って分割し、 2 真空変動による識別可能性に関する情報指標の追加 最小観測可能性原理は不確実性関係を含む量子定式化を回復するだけでなく、位置表現と運動量表現の両方においてschr\"{o}dinger方程式を含む。 概念レベルでは、真空揺らぎに関する情報指標は、基礎となる物理的相互作用を伴わずに絡み合い効果を示すものであり、絡み合い効果が非因果関係であることを示唆している。 数学のレベルでは、相対エントロピーのより一般的な定義を用いて真空揺らぎの情報量を定義することは、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式をもたらす。 観測可能性の最も低い原理は、新しい数学的ツールであり、他の高度な量子定式化を得られることを期待する。

We show that the formulations of non-relativistic quantum mechanics can be derived from the principle of least observability. Observability is a concept introduced here to measure the distinguishability (or traceability) that a physical object exhibits during its dynamics. To quantify observability, we assume that the Planck constant defines the discrete amount of action a physical object needs to exhibit in order to be observable. Then, observability is calculated by 1.) dividing the action variable along the classical path by the Planck constant, and 2.) adding information metrics on distinguishability due to vacuum fluctuations. The least observability principle not only recovers quantum formulations including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations, but also brings in new results on two fronts. At the conceptual level, we find that the information metrics for vacuum fluctuations are responsible for manifesting entanglement effects without underlying physical interactions, implying that entanglement effects are non-causal. At the mathematical level, defining the information metrics for vacuum fluctuations using more general definitions of relative entropy results in a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. The least observability principle is a new mathematical tool, and we expect other advanced quantum formulations can be obtained from it.
翻訳日:2023-06-03 00:03:16 公開日:2023-06-01
# MCDIP-ADMM : DIPによるCT再構成におけるオーバーフィッティングの克服

MCDIP-ADMM: Overcoming Overfitting in DIP-based CT reconstruction ( http://arxiv.org/abs/2304.03895v3 )

ライセンス: Link先を確認
Chen Cheng, Qingping Zhou(参考訳) 本稿では,CT再構成における教師なし学習手法の適用について検討する。 本研究の動機付けとして,既存のガウス前駆体,l_1$前駆体,全変動前駆体,深部画像前駆体(DIP)について検討した。 DIPは表現能力と視覚性能の点で他の3つよりも優れていた。 しかし、オーバーフィットによりイテレーション数が一定のしきい値を超えるとディップの性能が低下する。 この問題に対処するために,マルチコード深層画像優先法と,マルチプライヤのプラグアンドプレイ代替方向法に基づく新しい手法(MCDIP-ADMM)を提案する。 具体的には、MCDIPは複数の潜在コードを使用して、ジェネレータモデル内の中間層で一連の特徴写像を生成する。 これらの地図はトレーニング可能な重みで構成され、前の完全なイメージを表す。 MCDIP-ADMMは既存の3つの競合と比較して優れた性能を示した。 ガウス雑音を伴う平行ビーム投影の場合、MCDIP-ADMMはDIPで4.3dB、ADMM DIP-WTVで1.7dB、PSNRで1.2dBとなる。 同様に、ポアソンノイズを伴うファンビーム投影では、CDIP-ADMMはDIP平均3.09dB、ADMM DIP-WTV平均1.86dB、PSNRではPnP-DIP平均0.84dBを達成する。

This paper investigates the application of unsupervised learning methods for computed tomography (CT) reconstruction. To motivate our work, we review several existing priors, namely the truncated Gaussian prior, the $l_1$ prior, the total variation prior, and the deep image prior (DIP). We find that DIP outperforms the other three priors in terms of representational capability and visual performance. However, the performance of DIP deteriorates when the number of iterations exceeds a certain threshold due to overfitting. To address this issue, we propose a novel method (MCDIP-ADMM) based on Multi-Code Deep Image Prior and plug-and-play Alternative Direction Method of Multipliers. Specifically, MCDIP utilizes multiple latent codes to generate a series of feature maps at an intermediate layer within a generator model. These maps are then composed with trainable weights, representing the complete image prior. Experimental results demonstrate the superior performance of the proposed MCDIP-ADMM compared to three existing competitors. In the case of parallel beam projection with Gaussian noise, MCDIP-ADMM achieves an average improvement of 4.3 dB over DIP, 1.7 dB over ADMM DIP-WTV, and 1.2 dB over PnP-DIP in terms of PSNR. Similarly, for fan-beam projection with Poisson noise, MCDIP-ADMM achieves an average improvement of 3.09 dB over DIP, 1.86 dB over ADMM DIP-WTV, and 0.84 dB over PnP-DIP in terms of PSNR.
翻訳日:2023-06-02 23:57:58 公開日:2023-06-01
# 機械学習とドメイン知識を用いたデジタル健康行動変化介入のパーソナライズ

Personalising Digital Health Behavior Change Interventions using Machine Learning and Domain Knowledge ( http://arxiv.org/abs/2304.03392v3 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Mor Peleg(参考訳) 我々は,患者の行動変化介入(BCI)への適応を支援する仮想コーチングシステムを開発している。 提案システムは, 患者が対象行動を行うかどうかを予測し, bciのパーソナライズを導くために, 機能制御を伴う偽例を用いる。 患者データを様々なレベルの受容性を持つシミュレーションデータを用いて介入を行い,本システムの評価を可能にする研究設計に着く。

We are developing a virtual coaching system that helps patients adhere to behavior change interventions (BCI). Our proposed system predicts whether a patient will perform the targeted behavior and uses counterfactual examples with feature control to guide personalizsation of BCI. We use simulated patient data with varying levels of receptivity to intervention to arrive at the study design which would enable evaluation of our system.
翻訳日:2023-06-02 23:57:25 公開日:2023-06-01
# スコアベース拡散ポリシーを用いた目標条件付き模倣学習

Goal-Conditioned Imitation Learning using Score-based Diffusion Policies ( http://arxiv.org/abs/2304.02532v2 )

ライセンス: Link先を確認
Moritz Reuss, Maximilian Li, Xiaogang Jia, Rudolf Lioutikov(参考訳) 本稿では,スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。 我々は、ゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しいポリシー表現を適用し、報酬のない大規模未計算データセットから汎用目標特定ポリシーを学習する。 我々の新しいゴール条件付きポリシーアーキテクチャ "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) は、生成的なスコアベースの拡散モデルをポリシーとして活用する。 BESOは、スコアモデルの学習を推論サンプリングプロセスから切り離し、その結果、他の拡散ベースのポリシーの30以上のステップと比較して、わずか3ステップでゴール特定行動を生成する高速サンプリング戦略を可能にする。 また、besoは表現力が高く、プレイデータの解空間に存在するマルチモダリティを効果的に捉えることができる。 latent planやc-betのような従来の方法とは異なり、besoは効果的な目標条件付き行動学習のために複雑な階層ポリシーや追加のクラスタリングに依存しない。 最後に, BESO を用いてプレイデータからゴールに依存しないポリシーを学習する方法を示す。 私たちの知る限りでは これが最初の作品です a)そのような分離されたsdmに基づく行動方針を表す b)GCILの領域でSDMに基づく政策を学習し、 c) プレイデータからゴール依存とゴール非依存のポリシーを同時に学習する方法を提供する。 詳細なシミュレーションによりbesoを評価し,課題ベンチマークにおいて,最先端の目標条件付き模倣学習手法を一貫して上回っていることを示す。 また,目標条件付き行動生成法の有効性を示すため,広範囲なアブレーション研究と実験を行った。 デモとコードはhttps://intuitive-robots.github.io/beso-website/で入手できる。

We propose a new policy representation based on score-based diffusion models (SDMs). We apply our new policy representation in the domain of Goal-Conditioned Imitation Learning (GCIL) to learn general-purpose goal-specified policies from large uncurated datasets without rewards. Our new goal-conditioned policy architecture "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) leverages a generative, score-based diffusion model as its policy. BESO decouples the learning of the score model from the inference sampling process, and, hence allows for fast sampling strategies to generate goal-specified behavior in just 3 denoising steps, compared to 30+ steps of other diffusion based policies. Furthermore, BESO is highly expressive and can effectively capture multi-modality present in the solution space of the play data. Unlike previous methods such as Latent Plans or C-Bet, BESO does not rely on complex hierarchical policies or additional clustering for effective goal-conditioned behavior learning. Finally, we show how BESO can even be used to learn a goal-independent policy from play-data using classifier-free guidance. To the best of our knowledge this is the first work that a) represents a behavior policy based on such a decoupled SDM b) learns an SDM based policy in the domain of GCIL and c) provides a way to simultaneously learn a goal-dependent and a goal-independent policy from play-data. We evaluate BESO through detailed simulation and show that it consistently outperforms several state-of-the-art goal-conditioned imitation learning methods on challenging benchmarks. We additionally provide extensive ablation studies and experiments to demonstrate the effectiveness of our method for goal-conditioned behavior generation. Demonstrations and Code are available at https://intuitive-robots.github.io/beso-website/
翻訳日:2023-06-02 23:57:16 公開日:2023-06-01
# テキストに基づく人物検索のためのクロスモーダル特徴の校正

Calibrating Cross-modal Features for Text-Based Person Searching ( http://arxiv.org/abs/2304.02278v2 )

ライセンス: Link先を確認
Donglai Wei, Sipeng Zhang, Tong Yang, Yang Liu, Jing Liu(参考訳) テキストベースPerson Searching (TBPS) は,大規模ギャラリーからの歩行者対象の画像の特定を目的としている。 クロスモーダルなtbpsタスクでは、共通の埋め込み空間でよく分布した表現を得ることが重要であり、モーダル間ギャップを減少させる。 さらに,詳細な画像テキスト対応を効率的に学習し,類似したターゲットを識別し,きめ細かいターゲット探索を可能にすることも重要である。 これらの課題に対処するために,我々は,これらの2つの視点からクロスモーダルな特徴を包含する単純かつ効果的な手法を提案する。 本手法は,細粒度のクロスモーダル特性を提供するための2つの新しい損失からなる。 Sewキャリブレーションの損失は、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。 一方、マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを利用して、テキスト部品と視覚部品間の詳細かつ汎用的な関係を確立する。 提案手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。 アーキテクチャはマルチレベルブランチや余分なインタラクションモジュールを持たないデュアルエンコーダのみを持ち、高速推論を行う。 提案手法は, CUHK-PEDES, ICFG-PEDES, RSTPReIDにおいて, 73.81%, 74.25%, 57.35%の精度で3つのベンチマークの上位結果を得た。 当社のスケーラブルな手法が強固なベースラインとして機能し、TBPSの将来的な研究を容易にすることを願っています。 コードは公開される予定だ。

Text-Based Person Searching (TBPS) aims to identify the images of pedestrian targets from a large-scale gallery with given textual caption. For cross-modal TBPS task, it is critical to obtain well-distributed representation in the common embedding space to reduce the inter-modal gap. Furthermore, it is also essential to learn detailed image-text correspondence efficiently to discriminate similar targets and enable fine-grained target search. To address these challenges, we present a simple yet effective method that calibrates cross-modal features from these two perspectives. Our method consists of two novel losses to provide fine-grained cross-modal features. The Sew calibration loss takes the quality of textual captions as guidance and aligns features between image and text modalities. On the other hand, the Masking Caption Modeling (MCM) loss leverages a masked captions prediction task to establish detailed and generic relationships between textual and visual parts. The proposed method is cost-effective and can easily retrieve specific persons with textual captions. The architecture has only a dual-encoder without multi-level branches or extra interaction modules, making a high-speed inference. Our method achieves top results on three popular benchmarks with 73.81%, 74.25% and 57.35% Rank1 accuracy on the CUHK-PEDES, ICFG-PEDES, and RSTPReID, respectively. We hope our scalable method will serve as a solid baseline and help ease future research in TBPS. The code will be publicly available.
翻訳日:2023-06-02 23:56:47 公開日:2023-06-01
# 軽量ビジョントランスにおける局所認識の再考

Rethinking Local Perception in Lightweight Vision Transformer ( http://arxiv.org/abs/2303.17803v5 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He(参考訳) 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。 しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。 そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。 本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。 cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。 CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。 提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。 CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。 画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。 コードは \url{https://github.com/qhfan/cloformer} で入手できる。

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer. The code is available at \url{https://github.com/qhfan/CloFormer}.
翻訳日:2023-06-02 23:56:18 公開日:2023-06-01
# 1次元キュービットアレイにおける距離3 9 量子ビット表面符号の測定-無障害耐性論理ゼロ状態符号化

Measurement-free fault-tolerant logical zero-state encoding of the distance-three nine-qubit surface code in a one-dimensional qubit array ( http://arxiv.org/abs/2303.17211v2 )

ライセンス: Link先を確認
Hayato Goto, Yinghao Ho, and Taro Kanao(参考訳) 量子エラー訂正符号で符号化された論理零状態の生成は、フォールトトレラントな量子計算の第一ステップであるが、一般にかなりのリソースオーバーヘッドを必要とする。 このようなオーバーヘッドを軽減するため,距離3,9ビット面符号の符号化手法を提案し,その耐故障性を示す。 この方法は、他のフォールトトレラント符号化法とは異なり、測定を必要としない。 さらに、これは1次元キュービットアレイに適用できる。 これらの事実を観察し,クラウド上の超伝導量子コンピュータを用いた表面符号の論理零状態符号化を実験的に実証した。 また,qubitアレー専用の動的デカップリング手法により,本マシンの固有残差相互作用による遅延の抑制を実験的に実証した。 この手法をより大きなコードに拡張するために、表面コード自体との結合も検討し、距離9、81キュービットのコードを生成する。 この大規模コードのフォールトトレラントな符号化は,適切なエラー検出によって実現できることを示す。 そこで,提案手法は,低オーバヘッドフォールトトレラント量子計算のための新しい手法を提供する。

Generation of logical zero states encoded with a quantum error-correcting code is the first step for fault-tolerant quantum computation, but requires considerably large resource overheads in general. To reduce such overheads, we propose an efficient encoding method for the distance-three, nine-qubit surface code and show its fault tolerance. This method needs no measurement, unlike other fault-tolerant encoding methods. Moreover, this is applicable to a one-dimensional qubit array. Observing these facts, we experimentally demonstrate the logical zero-state encoding of the surface code using a superconducting quantum computer on the cloud. We also experimentally demonstrate the suppression of fast dephasing due to intrinsic residual interactions in this machine by a dynamical decoupling technique dedicated for the qubit array. To extend this method to larger codes, we also investigate the concatenation of the surface code with itself, resulting in a distance-nine, 81-qubit code. We numerically show that fault-tolerant encoding of this large code can be achieved by appropriate error detection. Thus, the proposed encoding method will provide a new way to low-overhead fault-tolerant quantum computation.
翻訳日:2023-06-02 23:55:59 公開日:2023-06-01
# G-不変グラフラプラシアン

The G-invariant graph Laplacian ( http://arxiv.org/abs/2303.17001v3 )

ライセンス: Link先を確認
Eitan Rosen, Paulina Hoyos, Xiuyuan Cheng, Joe Kileel and Yoel Shkolnisky(参考訳) グラフラプラシアンに基づく多様体上のデータに対するアルゴリズムは、次元減少、クラスタリング、デノナイジングといったタスクに有効であることが証明されている。 本研究では,データポイントが多様体上に存在するだけでなく,連続群の作用の下でも閉集合であるようなデータセットを考える。 そのようなデータセットの例として、低次元多様体上の体積があり、各体積は3次元空間で回転することができる。 G-不変グラフ Laplacian を導入し、グラフ Laplacian はデータセット上の群の作用を考慮し、グラフ Laplacian を一般化する。 標準グラフ Laplacian と同様に、G-不変グラフ Laplacian はデータ多様体上の Laplace-Beltrami 作用素に収束するが、収束速度は大幅に改善される。 さらに、G-不変グラフラプラシアンの固有函数は群要素とある種の行列の固有ベクトルの間のテンソル積の形式を認め、FFT型アルゴリズムを用いて効率的に計算できることを示す。 特殊ユニタリ群 SU(2) の作用の下で閉じたノイジー多様体上のデータをフィルタリングする問題に対する我々の構成とその利点を実証する。

Graph Laplacian based algorithms for data lying on a manifold have been proven effective for tasks such as dimensionality reduction, clustering, and denoising. In this work, we consider data sets whose data points not only lie on a manifold, but are also closed under the action of a continuous group. An example of such a data set is volumes that lie on a low dimensional manifold, where each volume may be rotated in three-dimensional space. We introduce the G-invariant graph Laplacian that generalizes the graph Laplacian by accounting for the action of the group on the data set. We show that like the standard graph Laplacian, the G-invariant graph Laplacian converges to the Laplace-Beltrami operator on the data manifold, but with a significantly improved convergence rate. Furthermore, we show that the eigenfunctions of the G-invariant graph Laplacian admit the form of tensor products between the group elements and eigenvectors of certain matrices, which can be computed efficiently using FFT-type algorithms. We demonstrate our construction and its advantages on the problem of filtering data on a noisy manifold closed under the action of the special unitary group SU(2).
翻訳日:2023-06-02 23:55:41 公開日:2023-06-01
# 数量体ランダムフォレストモデルによる密度汎関数理論の完全基底集合極限の補間

Extrapolation to complete basis-set limit in density-functional theory by quantile random-forest models ( http://arxiv.org/abs/2303.14760v3 )

ライセンス: Link先を確認
Daniel T. Speckhard, Christian Carbogno, Luca Ghiringhelli, Sven Lubeck, Matthias Scheffler, Claudia Draxl(参考訳) 密度汎関数理論(DFT)計算の数値的精度は、基底セットのサイズがもっとも重要である様々な計算パラメータに依存する。 最終的な精度は無限に大きな基底集合、すなわち完全な基底集合(CBS)の極限で到達する。 本研究の目的は, 有限基底サイズ計算をCBS限界まで外挿する機械学習モデルを見つけることである。 2つの全電子DFT符号(エキサイティングとFHIエイム)で調べられた63個のバイナリソリッドのデータセットから始める。 基礎集合サイズの関数としての完全収束計算に対する総エネルギー補正を量的ランダム森モデルを用いて推定する。 ランダムフォレストモデルでは、符号の25%未満の対称平均絶対パーセンテージ誤差を達成し、文献における従来のアプローチを上回っている。 提案手法は予測間隔も提供し,モデルの予測の不確かさを定量化する。

The numerical precision of density-functional-theory (DFT) calculations depends on a variety of computational parameters, one of the most critical being the basis-set size. The ultimate precision is reached with an infinitely large basis set, i.e., in the limit of a complete basis set (CBS). Our aim in this work is to find a machine-learning model that extrapolates finite basis-size calculations to the CBS limit. We start with a data set of 63 binary solids investigated with two all-electron DFT codes, exciting and FHI-aims, which employ very different types of basis sets. A quantile-random-forest model is used to estimate the total-energy correction with respect to a fully converged calculation as a function of the basis-set size. The random-forest model achieves a symmetric mean absolute percentage error of lower than 25% for both codes and outperforms previous approaches in the literature. Our approach also provides prediction intervals, which quantify the uncertainty of the models' predictions.
翻訳日:2023-06-02 23:55:20 公開日:2023-06-01
# 物理認識型単一画像デハジングのための曲線コントラスト正則化

Curricular Contrastive Regularization for Physics-aware Single Image Dehazing ( http://arxiv.org/abs/2303.14218v2 )

ライセンス: Link先を確認
Yu Zheng, Jiahui Zhan, Shengfeng He, Junyu Dong, and Yong Du(参考訳) 不適切な性質を考えると、単一の画像デハジングのためにコントラスト正則化が開発され、負の画像からの情報を下界として導入している。 しかし、対照的なサンプルは、通常、負はクリアな(すなわち正の)像から遠ざかって表現され、解空間は下限のままである。 さらに、深層デハジングモデルの解釈性は、ハジング過程の物理に対して過小評価されている。 本稿では, コンセンサスでないコントラスト空間を対象として, 非コンセンサスなコントラスト正規化を提案する。 より低いバウンダリの制約を提供する私たちの負は 1) ぼやけた画像, そして 2) 他の方法による対応する復旧 さらに、鮮明な画像の埋め込みと負の類似性が異なるため、複数のコンポーネントの学習困難は本質的に不均衡である。 この問題に取り組むために,異なる否定の重要性を強調するためにカリキュラム学習戦略をカスタマイズする。 さらに, 特徴空間の解釈性を向上させるため, 大気圧散乱モデルに基づく物理対応二分岐ユニットを構築した。 このユニットとカーキュラーコントラスト正則化により、我々はc2pnetと呼ばれるデハザーズネットワークを確立する。 我々のC2PNetは、SOTS-indoorデータセットとSOTS-outdoorデータセットにおいて、それぞれ3.94dBと1.50dBの極端なPSNRアップで最先端の手法を大幅に上回ることを示した。

Considering the ill-posed nature, contrastive regularization has been developed for single image dehazing, introducing the information from negative images as a lower bound. However, the contrastive samples are nonconsensual, as the negatives are usually represented distantly from the clear (i.e., positive) image, leaving the solution space still under-constricted. Moreover, the interpretability of deep dehazing models is underexplored towards the physics of the hazing process. In this paper, we propose a novel curricular contrastive regularization targeted at a consensual contrastive space as opposed to a non-consensual one. Our negatives, which provide better lower-bound constraints, can be assembled from 1) the hazy image, and 2) corresponding restorations by other existing methods. Further, due to the different similarities between the embeddings of the clear image and negatives, the learning difficulty of the multiple components is intrinsically imbalanced. To tackle this issue, we customize a curriculum learning strategy to reweight the importance of different negatives. In addition, to improve the interpretability in the feature space, we build a physics-aware dual-branch unit according to the atmospheric scattering model. With the unit, as well as curricular contrastive regularization, we establish our dehazing network, named C2PNet. Extensive experiments demonstrate that our C2PNet significantly outperforms state-of-the-art methods, with extreme PSNR boosts of 3.94dB and 1.50dB, respectively, on SOTS-indoor and SOTS-outdoor datasets.
翻訳日:2023-06-02 23:55:03 公開日:2023-06-01
# 自己引用グラフを用いたインパクト指向文脈学者のプロファイリング

Impact-Oriented Contextual Scholar Profiling using Self-Citation Graphs ( http://arxiv.org/abs/2304.12217v2 )

ライセンス: Link先を確認
Yuankai Luo, Lei Shi, Mufan Xu, Yuwen Ji, Fengli Xiao, Chunming Hu, Zhiguang Shan(参考訳) 研究者の科学的影響を定量的にプロファイリングすることは、現代研究社会にとって重要である。 現代の文献指標(h-indexなど)やリスト、ネットワークの実践は、学者のランキングではよく機能するが、プロファイル推論や理解のような学者中心の分析的なタスクには構造化された文脈を提供していない。 本稿では,構造化コンテキスト,研究者中心,進化に富む3つの必須要件を満たす,グラフベースの新たな学術プロファイルのスイートであるgeneticflow(gf)を提案する。 何百万人もの学者による大規模学術データソース上でGFを計算するためのフレームワークを提案する。 このフレームワークは、新しい教師なしアドバイザ・アドバイザ検出アルゴリズム、解釈可能な特徴を用いたよく設計された引用型分類器、微調整されたグラフニューラルネットワーク(GNN)モデルを含んでいる。 科学賞推理の実際の課題について評価を行う。 実験の結果,ベストgfプロファイルのf1スコアは,検討した6つのコンピュータサイエンス分野において,インパクトインジケータや書誌ネットワークの代替手法を有意に上回っていることがわかった。 さらに、63.6%-66.5%のノードと12.5%-29.9%のエッジを持つコアgfプロファイルは、6つのフィールドのうち5つで既存の方法を大きく上回っている。 GFプロファイリングの結果の可視化は、高インパクト研究者のための人間の説明可能なパターンも明らかにする。

Quantitatively profiling a scholar's scientific impact is important to modern research society. Current practices with bibliometric indicators (e.g., h-index), lists, and networks perform well at scholar ranking, but do not provide structured context for scholar-centric, analytical tasks such as profile reasoning and understanding. This work presents GeneticFlow (GF), a suite of novel graph-based scholar profiles that fulfill three essential requirements: structured-context, scholar-centric, and evolution-rich. We propose a framework to compute GF over large-scale academic data sources with millions of scholars. The framework encompasses a new unsupervised advisor-advisee detection algorithm, a well-engineered citation type classifier using interpretable features, and a fine-tuned graph neural network (GNN) model. Evaluations are conducted on the real-world task of scientific award inference. Experiment outcomes show that the F1 score of best GF profile significantly outperforms alternative methods of impact indicators and bibliometric networks in all the 6 computer science fields considered. Moreover, the core GF profiles, with 63.6%-66.5% nodes and 12.5%-29.9% edges of the full profile, still significantly outrun existing methods in 5 out of 6 fields studied. Visualization of GF profiling result also reveals human explainable patterns for high-impact scholars.
翻訳日:2023-06-02 23:46:49 公開日:2023-06-01
# 応用機械学習における電力グリッドの動作パターンと一般化リスク

Power Grid Behavioral Patterns and Risks of Generalization in Applied Machine Learning ( http://arxiv.org/abs/2304.10702v2 )

ライセンス: Link先を確認
Shimiao Li, Jan Drgona, Shrirang Abhyankar, Larry Pileggi(参考訳) 近年、電力グリッドアプリケーション向けに設計されたデータ駆動アプローチの豊富な文献が見られる。 しかし、ドメイン知識の不十分な考慮は、メソッドの実用性に高いリスクを課す可能性がある。 具体的には、グリッド固有の時空間パターン(負荷、生成、トポロジーなど)を無視して、新しい入力に対して非実用的、実現不可能、あるいは全く意味のない予測を出力する。 この問題に対処するため,本研究では実世界の運用データを調査し,時間変化トポロジ,負荷,発生,および個々の負荷と世代間の空間差(ピーク時,多様なスタイル)など,電力グリッドの挙動パターンの洞察を提供する。 そして,これらの観測結果に基づいて,モデル設計とトレーニングにおけるグリッド固有のパターンを無視した既存ML作業の一般化リスクを評価する。

Recent years have seen a rich literature of data-driven approaches designed for power grid applications. However, insufficient consideration of domain knowledge can impose a high risk to the practicality of the methods. Specifically, ignoring the grid-specific spatiotemporal patterns (in load, generation, and topology, etc.) can lead to outputting infeasible, unrealizable, or completely meaningless predictions on new inputs. To address this concern, this paper investigates real-world operational data to provide insights into power grid behavioral patterns, including the time-varying topology, load, and generation, as well as the spatial differences (in peak hours, diverse styles) between individual loads and generations. Then based on these observations, we evaluate the generalization risks in some existing ML works causedby ignoring these grid-specific patterns in model design and training.
翻訳日:2023-06-02 23:45:45 公開日:2023-06-01
# グラフニューラルネットワークを用いた河川ネットワークシステムの異常検出

Graph Neural Network-Based Anomaly Detection for River Network Systems ( http://arxiv.org/abs/2304.09367v3 )

ライセンス: Link先を確認
Katie Buchhorn, Edgar Santos-Fernandez, Kerrie Mengersen, Robert Salomone(参考訳) 水は河川網の活力であり、その品質は水生生態系と人間社会の両方を維持する上で重要な役割を担っている。 水質のリアルタイムモニタリングは, センサ技術に依存しつつある。 異常検出はセンサデータの誤ったパターンを特定するのに不可欠であるが、通常の状況でもデータの複雑さと変動性のために困難な課題となる。 本稿では,河川ネットワークセンサデータに対する異常検出の課題に対する解決法を提案する。 我々はグラフニューラルネットワークモデル、最近提案されたグラフ偏差ネットワーク(GDN)を用いて、グラフ注意に基づく予測を用いて、センサ間の複雑な時空間関係をキャプチャする。 本稿では,学習グラフに基づく別の異常スコアリング手法GDN+を提案する。 モデルの有効性を評価するため,高度に洗練された依存構造と各種のサブシーケンス異常を用いたベンチマークシミュレーション実験を導入する。 このベースラインアプローチであるgdnの強みと弱みを,複雑な実世界の河川ネットワークデータに対する他のベンチマーク手法と比較して検討する。 GDN+は高次元データのベースラインアプローチよりも優れており、解釈性も向上している。 gnnadというソフトウェアも導入しています。

Water is the lifeblood of river networks, and its quality plays a crucial role in sustaining both aquatic ecosystems and human societies. Real-time monitoring of water quality is increasingly reliant on in-situ sensor technology. Anomaly detection is crucial for identifying erroneous patterns in sensor data, but can be a challenging task due to the complexity and variability of the data, even under normal conditions. This paper presents a solution to the challenging task of anomaly detection for river network sensor data, which is essential for accurate and continuous monitoring. We use a graph neural network model, the recently proposed Graph Deviation Network (GDN), which employs graph attention-based forecasting to capture the complex spatio-temporal relationships between sensors. We propose an alternate anomaly scoring method, GDN+, based on the learned graph. To evaluate the model's efficacy, we introduce new benchmarking simulation experiments with highly-sophisticated dependency structures and subsequence anomalies of various types. We further examine the strengths and weaknesses of this baseline approach, GDN, in comparison to other benchmarking methods on complex real-world river network data. Findings suggest that GDN+ outperforms the baseline approach in high-dimensional data, while also providing improved interpretability. We also introduce software called gnnad.
翻訳日:2023-06-02 23:45:30 公開日:2023-06-01
# Data-OOB: シンプルで効率的なデータ値として推定されるアウトオブバッグ

Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value ( http://arxiv.org/abs/2304.07718v3 )

ライセンス: Link先を確認
Yongchan Kwon, James Zou(参考訳) データバリュエーション(data valuation)は、モデルトレーニングに有用なデータや有害なデータに関する統計的な洞察を提供するための強力なフレームワークである。 多くのShapleyベースのデータ評価手法は、様々な下流タスクにおいて有望な結果を示しているが、多くのモデルをトレーニングする必要があるため、計算的に困難であることが知られている。 その結果、大規模なデータセットに適用することは不可能であると認識されている。 そこで本研究では,バッグ外推定を用いたバッグモデルのためのデータ評価手法であるData-OOBを提案する。 提案手法は計算効率が高く,訓練された弱学習者を用いて数百万データにスケールできる。 具体的には、Data-OOBは、評価するために10^6$のサンプルがあり、入力次元が100である場合、1つのCPUプロセッサ上で2.25時間未満である。 さらに、data-oob は、2つの異なる点を比較した場合の無限小jackknife影響関数と同じ重要なデータポイントを識別する、という理論的な解釈を持っている。 数千のサンプルサイズを持つ12の分類データセットを用いて,包括的な実験を行った。 提案手法は,既存のデータ評価手法を著しく上回っており,誤ラベルデータを特定し,有用な(あるいは有害な)データポイントのセットを見つけ,実世界のアプリケーションでデータ値を適用する可能性を強調している。

Data valuation is a powerful framework for providing statistical insights into which data are beneficial or detrimental to model training. Many Shapley-based data valuation methods have shown promising results in various downstream tasks, however, they are well known to be computationally challenging as it requires training a large number of models. As a result, it has been recognized as infeasible to apply to large datasets. To address this issue, we propose Data-OOB, a new data valuation method for a bagging model that utilizes the out-of-bag estimate. The proposed method is computationally efficient and can scale to millions of data by reusing trained weak learners. Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor when there are $10^6$ samples to evaluate and the input dimension is 100. Furthermore, Data-OOB has solid theoretical interpretations in that it identifies the same important data point as the infinitesimal jackknife influence function when two different points are compared. We conduct comprehensive experiments using 12 classification datasets, each with thousands of sample sizes. We demonstrate that the proposed method significantly outperforms existing state-of-the-art data valuation methods in identifying mislabeled data and finding a set of helpful (or harmful) data points, highlighting the potential for applying data values in real-world applications.
翻訳日:2023-06-02 23:44:58 公開日:2023-06-01
# 自己監督型視覚表現学習のための多モードオンライン知識蒸留

Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2304.06461v2 )

ライセンス: Link先を確認
Kaiyou Song, Jin Xie, Shan Zhang, Zimeng Luo(参考訳) 自己教師付き学習(SSL)は視覚表現学習において顕著な進歩を遂げている。 SSLと知識蒸留(SSL-KD)を組み合わせて、小型モデルの表現学習性能を高める研究もある。 本研究では,自己教師付き視覚表現学習を促進するマルチモードオンライン知識蒸留法(mokd)を提案する。 静的事前訓練された教師から学生に知識を伝達する既存のSSL-KD法とは異なり、MOKDでは2つの異なるモデルが自己指導的な方法で協調的に学習する。 具体的には、mokdは自己蒸留モードと相互蒸留モードの2つの蒸留モードからなる。 自己蒸留は各モデルに対して独立して自己教師付き学習を行い、相互蒸留は異なるモデル間の知識相互作用を実現する。 クロス蒸留では,異なるモデル間の意味的特徴アライメントを強化するために,クロスアテンション特徴探索戦略を提案する。 その結果、2つのモデルは相互に知識を吸収し、表現学習性能を高めることができる。 異なるバックボーンとデータセットの広範な実験結果から、2つの異種モデルがMOKDの恩恵を受け、独立に訓練されたベースラインよりも優れていることが示された。 さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。

Self-supervised learning (SSL) has made remarkable progress in visual representation learning. Some studies combine SSL with knowledge distillation (SSL-KD) to boost the representation learning performance of small models. In this study, we propose a Multi-mode Online Knowledge Distillation method (MOKD) to boost self-supervised visual representation learning. Different from existing SSL-KD methods that transfer knowledge from a static pre-trained teacher to a student, in MOKD, two different models learn collaboratively in a self-supervised manner. Specifically, MOKD consists of two distillation modes: self-distillation and cross-distillation modes. Among them, self-distillation performs self-supervised learning for each model independently, while cross-distillation realizes knowledge interaction between different models. In cross-distillation, a cross-attention feature search strategy is proposed to enhance the semantic feature alignment between different models. As a result, the two models can absorb knowledge from each other to boost their representation learning performance. Extensive experimental results on different backbones and datasets demonstrate that two heterogeneous models can benefit from MOKD and outperform their independently trained baseline. In addition, MOKD also outperforms existing SSL-KD methods for both the student and teacher models.
翻訳日:2023-06-02 23:44:35 公開日:2023-06-01
# 動的離散選択モデルのためのデータ駆動状態集約手法

A Data-Driven State Aggregation Approach for Dynamic Discrete Choice Models ( http://arxiv.org/abs/2304.04916v3 )

ライセンス: Link先を確認
Sinong Geng, Houssam Nassif and Carlos A. Manzanares(参考訳) 本研究では,エージェント行動データを用いてエージェント報酬関数(構造的パラメータとも呼ばれる)のパラメータを推定する動的離散選択モデルについて検討する。 そのようなモデルの最大確率推定には、次元の呪いによって制限される動的プログラミングが必要である。 本稿では,状態の選択と集約のためのデータ駆動型手法を提供する新しいアルゴリズムを提案する。 我々の方法は2つの段階で動作する。 第1段階では,フレキシブルな逆強化学習手法を用いてエージェントq関数を推定する。 これらの推定されたq関数とクラスタリングアルゴリズムを用いて、q関数の変化を駆動する最も重要な状態のサブセットを選択する。 第2段階では、これらの選択された「集約」状態を用いて、一般に使用されるネスト固定点アルゴリズムを用いて最大確率推定を行う。 提案手法は,問題次元を小さくすることで次元の呪いを軽減する。 理論的には、関連する推定誤差の有限サンプル境界を導出し、計算複雑性、推定誤差、サンプル複雑性のトレードオフを特徴付ける。 2つの古典的動的離散的選択推定法におけるアルゴリズムの実証的性能を示す。

We study dynamic discrete choice models, where a commonly studied problem involves estimating parameters of agent reward functions (also known as "structural" parameters), using agent behavioral data. Maximum likelihood estimation for such models requires dynamic programming, which is limited by the curse of dimensionality. In this work, we present a novel algorithm that provides a data-driven method for selecting and aggregating states, which lowers the computational and sample complexity of estimation. Our method works in two stages. In the first stage, we use a flexible inverse reinforcement learning approach to estimate agent Q-functions. We use these estimated Q-functions, along with a clustering algorithm, to select a subset of states that are the most pivotal for driving changes in Q-functions. In the second stage, with these selected "aggregated" states, we conduct maximum likelihood estimation using a commonly used nested fixed-point algorithm. The proposed two-stage approach mitigates the curse of dimensionality by reducing the problem dimension. Theoretically, we derive finite-sample bounds on the associated estimation error, which also characterize the trade-off of computational complexity, estimation error, and sample complexity. We demonstrate the empirical performance of the algorithm in two classic dynamic discrete choice estimation applications.
翻訳日:2023-06-02 23:44:15 公開日:2023-06-01
# スケーラブル最適マージン分配機

Scalable Optimal Margin Distribution Machine ( http://arxiv.org/abs/2305.04837v2 )

ライセンス: Link先を確認
Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi and Hai Jin(参考訳) 最適マージン分布マシン(optimize margin distribution machine、odm)は、新しいマージン理論に根ざした新しく提案された統計学習フレームワークである。 それにもかかわらず、他のカーネルメソッドと同様に計算時間とメモリの両方に関するユビキタスなスケーラビリティの問題に悩まされている。 本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。 非線形カーネルに対しては,各パーティションで訓練されたローカルODMを,グローバルカーネルに高速に収束させる分散対応パーティション法を提案する。 線形カーネルを適用すると、通信効率のよいSVRG法を拡張してトレーニングをさらに加速する。 大規模な実証研究により,提案手法は計算効率が高く,一般化をほとんど悪化させることはなかった。

Optimal margin Distribution Machine (ODM) is a newly proposed statistical learning framework rooting in the novel margin theory, which demonstrates better generalization performance than the traditional large margin based counterparts. Nonetheless, it suffers from the ubiquitous scalability problem regarding both computation time and memory as other kernel methods. This paper proposes a scalable ODM, which can achieve nearly ten times speedup compared to the original ODM training method. For nonlinear kernels, we propose a novel distribution-aware partition method to make the local ODM trained on each partition be close and converge fast to the global one. When linear kernel is applied, we extend a communication efficient SVRG method to accelerate the training further. Extensive empirical studies validate that our proposed method is highly computational efficient and almost never worsen the generalization.
翻訳日:2023-06-02 23:38:43 公開日:2023-06-01
# 逐次推薦のためのグラフマスク自動エンコーダ

Graph Masked Autoencoder for Sequential Recommendation ( http://arxiv.org/abs/2305.04619v3 )

ライセンス: Link先を確認
Yaowen Ye, Lianghao Xia, Chao Huang(参考訳) 一部の強力なニューラルネットワークアーキテクチャ(Transformer、Graph Neural Networksなど)は、高次アイテム依存モデリングによる逐次レコメンデーションのパフォーマンス向上を実現しているが、ラベル不足のシナリオでは表現能力の低下に悩まされる可能性がある。 ラベル不足の問題に対処するため、コントラスト学習(cl)は、自己スーパービジョンのためのコントラストを埋め込むことによってデータ拡張を行う最近の手法で多くの注目を集めている。 しかし、その対比的視点生成戦略の手作り性から、既存のclエンハンスドモデル 一 多様なレコメンデーション業務において一貫した性能を得られないこと。 ii) ユーザの行動データノイズに免疫しない場合がある。 そこで本研究では,自己教師付き増補のためのグローバルアイテム遷移情報を適応的かつ動的に蒸留する,単純かつ効果的なグラフマスク付き自動エンコーダエンハンスドシーケンシャルリコメンダシステム(maerec)を提案する。 上述した、高品質な埋め込み型コントラストビューの構築に大きく依存する問題を自然に避けている。 代わりに、アダプティブデータ再構成パラダイムは、シーケンシャルレコメンデーションにおける情報拡張のために、長距離アイテム依存モデリングと統合するように設計されている。 大規模な実験により,本手法は最先端のベースラインモデルを大幅に上回り,データノイズや疎性に対するより正確な表現を学習できることが示されている。 実装済みのモデルコードはhttps://github.com/hkuds/maerec.comで利用可能です。

While some powerful neural network architectures (e.g., Transformer, Graph Neural Networks) have achieved improved performance in sequential recommendation with high-order item dependency modeling, they may suffer from poor representation capability in label scarcity scenarios. To address the issue of insufficient labels, Contrastive Learning (CL) has attracted much attention in recent methods to perform data augmentation through embedding contrasting for self-supervision. However, due to the hand-crafted property of their contrastive view generation strategies, existing CL-enhanced models i) can hardly yield consistent performance on diverse sequential recommendation tasks; ii) may not be immune to user behavior data noise. In light of this, we propose a simple yet effective Graph Masked AutoEncoder-enhanced sequential Recommender system (MAERec) that adaptively and dynamically distills global item transitional information for self-supervised augmentation. It naturally avoids the above issue of heavy reliance on constructing high-quality embedding contrastive views. Instead, an adaptive data reconstruction paradigm is designed to be integrated with the long-range item dependency modeling, for informative augmentation in sequential recommendation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baseline models and can learn more accurate representations against data noise and sparsity. Our implemented model code is available at https://github.com/HKUDS/MAERec.
翻訳日:2023-06-02 23:38:27 公開日:2023-06-01
# 行列多様体上のニューラルネットワークの構築:ジャイロビクター空間アプローチ

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach ( http://arxiv.org/abs/2305.04560v2 )

ライセンス: Link先を確認
Xuan Son Nguyen, Shuo Yang(参考訳) 対称正定値(spd)行列やグラスマン多様体のような行列多様体は、多くの応用において現れる。 近年、双曲幾何学研究の強力な枠組みであるジャイロ群とジャイロベクトル空間の理論を適用することで、行列多様体上のユークリッドニューラルネットワークの原理的一般化を構築しようとする研究もある。 しかし、ジャイロビクター空間(例えば内積やジャイロ角形)の多くの概念が欠けているため、これらの作品によって提供される技法や数学的道具は双曲幾何学を研究するために開発されたものと比べてまだ限られている。 本稿では、SPDおよびグラスマン多様体のジャイロベクトル空間におけるいくつかの概念を一般化し、これらの多様体上にニューラルネットワークを構築するための新しいモデルと層を提案する。 本稿では,人間の行動認識と知識グラフ補完という2つの応用にアプローチの有効性を示す。

Matrix manifolds, such as manifolds of Symmetric Positive Definite (SPD) matrices and Grassmann manifolds, appear in many applications. Recently, by applying the theory of gyrogroups and gyrovector spaces that is a powerful framework for studying hyperbolic geometry, some works have attempted to build principled generalizations of Euclidean neural networks on matrix manifolds. However, due to the lack of many concepts in gyrovector spaces for the considered manifolds, e.g., the inner product and gyroangles, techniques and mathematical tools provided by these works are still limited compared to those developed for studying hyperbolic geometry. In this paper, we generalize some notions in gyrovector spaces for SPD and Grassmann manifolds, and propose new models and layers for building neural networks on these manifolds. We show the effectiveness of our approach in two applications, i.e., human action recognition and knowledge graph completion.
翻訳日:2023-06-02 23:38:01 公開日:2023-06-01
# 遠絡多要素深ベイズ能動学習

Disentangled Multi-Fidelity Deep Bayesian Active Learning ( http://arxiv.org/abs/2305.04392v2 )

ライセンス: Link先を確認
Dongxia Wu, Ruijia Niu, Matteo Chinazzi, Yian Ma, Rose Yu(参考訳) 品質とコストのバランスをとるため、様々な領域の科学と工学が様々なレベルの洗練度でシミュレーションを実行する。 複数の忠実度レベルからデータを積極的に取得することにより、入力パラメータからシミュレーション出力への直接マッピングを最も高い忠実度で学習することを目的とする。 しかし、ガウス過程に基づく既存のアプローチは高次元データに対してはほとんどスケーラブルではない。 深層学習に基づく手法は、しばしば隠れ表現に階層構造を課し、低忠実度から高忠実度への情報伝達のみをサポートする。 これらのアプローチは、低い忠実度表現から高い忠実度表現への誤りの望ましくない伝播につながる可能性がある。 本稿では,多次元関数の分布を前提としたサロゲートモデルを学ぶために,d-mfdal(disentangled multi-fidelity deep bayesian active learning)という新しいフレームワークを提案する。 熱方程式,ポアソン方程式,流体シミュレーションといった偏微分方程式の深いサロゲートを学習するベンチマークタスクにおいて,予測精度とサンプル効率の面では,本手法が有意な差を及ぼしている。 私たちのコードはhttps://github.com/Rose-STL-Lab/Multi-Fidelity-Deep-Active-Learningで公開しています。

To balance quality and cost, various domain areas of science and engineering run simulations at multiple levels of sophistication. Multi-fidelity active learning aims to learn a direct mapping from input parameters to simulation outputs at the highest fidelity by actively acquiring data from multiple fidelity levels. However, existing approaches based on Gaussian processes are hardly scalable to high-dimensional data. Deep learning-based methods often impose a hierarchical structure in hidden representations, which only supports passing information from low-fidelity to high-fidelity. These approaches can lead to the undesirable propagation of errors from low-fidelity representations to high-fidelity ones. We propose a novel framework called Disentangled Multi-fidelity Deep Bayesian Active Learning (D-MFDAL), that learns the surrogate models conditioned on the distribution of functions at multiple fidelities. On benchmark tasks of learning deep surrogates of partial differential equations including heat equation, Poisson's equation and fluid simulations, our approach significantly outperforms state-of-the-art in prediction accuracy and sample efficiency. Our code is available at https://github.com/Rose-STL-Lab/Multi-Fidelity-Deep-Active-Learning.
翻訳日:2023-06-02 23:37:44 公開日:2023-06-01
# 連続手話認識のための条件拡散特徴量補正

Conditional Diffusion Feature Refinement for Continuous Sign Language Recognition ( http://arxiv.org/abs/2305.03614v2 )

ライセンス: Link先を確認
Leming Guo and Wanli Xue and Qing Guo and Yuxi Zhou and Tiantian Yuan and Shengyong Chen(参考訳) 本研究は,自己エンコーダによる拡散過程をマスク・アンド・予測方式として,拡散モデルの成功と特徴改善の定式化を活用することを目的としている。 最先端のcslrフレームワークは、空間モジュール、視覚モジュール、シーケンスモジュール、シーケンス学習関数で構成される。 しかし、このフレームワークは目的関数と小規模なベンチマークによってシーケンスモジュールが過度に適合し、結果としてモデルトレーニングが不十分になった。 過度に適合する問題を克服するために、いくつかのCSLR研究はシーケンスモジュールを強制し、より視覚的な時間的情報を学ぶか、その表現を洗練させるためにより情報的な監督によってガイドされる。 本研究では,符号化-復号化最適化過程をエンドツーエンドに学習することにより,シーケンス表現を洗練し,所望の特性を付与する,新しいオートエンコーダ形式の条件拡散機能改善(ACDR)を提案する。 特に、acdrでは、シーケンス表現に意味的条件を備えたノイズを段階的に付加するノージングエンコーダが提案されている。 また, 雑音列表現を意味的条件で段階的に denoise するデコーダを提案する。 したがって、シーケンス表現は、提供された意味的条件のセマンティクスに組み込むことができる。 さらに、意味的制約を用いて、識別されたシーケンス表現が意味的腐敗を防止する。 本稿では,ACDRの有効性を検証し,最先端の手法を活かし,3つのベンチマークで顕著な利得を得た。

In this work, we are dedicated to leveraging the denoising diffusion models' success and formulating feature refinement as the autoencoder-formed diffusion process, which is a mask-and-predict scheme. The state-of-the-art CSLR framework consists of a spatial module, a visual module, a sequence module, and a sequence learning function. However, this framework has faced sequence module overfitting caused by the objective function and small-scale available benchmarks, resulting in insufficient model training. To overcome the overfitting problem, some CSLR studies enforce the sequence module to learn more visual temporal information or be guided by more informative supervision to refine its representations. In this work, we propose a novel autoencoder-formed conditional diffusion feature refinement~(ACDR) to refine the sequence representations to equip desired properties by learning the encoding-decoding optimization process in an end-to-end way. Specifically, for the ACDR, a noising Encoder is proposed to progressively add noise equipped with semantic conditions to the sequence representations. And a denoising Decoder is proposed to progressively denoise the noisy sequence representations with semantic conditions. Therefore, the sequence representations can be imbued with the semantics of provided semantic conditions. Further, a semantic constraint is employed to prevent the denoised sequence representations from semantic corruption. Extensive experiments are conducted to validate the effectiveness of our ACDR, benefiting state-of-the-art methods and achieving a notable gain on three benchmarks.
翻訳日:2023-06-02 23:37:03 公開日:2023-06-01
# 限定的関係抽出のための大規模言語モデルのパワーを解き放つには?

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? ( http://arxiv.org/abs/2305.01555v3 )

ライセンス: Link先を確認
Xin Xu, Yuqi Zhu, Xiaohan Wang, Ningyu Zhang(参考訳) 言語モデルのスケーリングは、広範囲にわたるnlpタスクに革命をもたらしたが、大規模言語モデルによる限定的な関係抽出を包括的に検討した例はほとんどない。 本稿では,GPT-3.5による一括関係抽出のための基本手法,文脈内学習とデータ生成について,徹底的な実験により検討する。 少数ショットの性能を向上させるため,タスク関連命令とスキーマ制約付きデータ生成を提案する。 コンテキスト内学習は,従来のプロンプト学習手法と同等のパフォーマンスを達成し,大規模言語モデルによるデータ生成は,4つの広く研究された関係抽出データセットに対して,新たな最先端の限定的な結果を得るための,これまでのソリューションを促進できる。 我々の研究が、数ショットの関係抽出における大規模言語モデルの能力に関する将来の研究を刺激することを期待している。 コードはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。

Scaling language models have revolutionized widespread NLP tasks, yet little comprehensively explored few-shot relation extraction with large language models. In this paper, we investigate principal methodologies, in-context learning and data generation, for few-shot relation extraction via GPT-3.5 through exhaustive experiments. To enhance few-shot performance, we further propose task-related instructions and schema-constrained data generation. We observe that in-context learning can achieve performance on par with previous prompt learning approaches, and data generation with the large language model can boost previous solutions to obtain new state-of-the-art few-shot results on four widely-studied relation extraction datasets. We hope our work can inspire future research for the capabilities of large language models in few-shot relation extraction. Code is available in https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-06-02 23:36:14 公開日:2023-06-01
# 緩やかな混合過程の一般化

Generalization for slowly mixing processes ( http://arxiv.org/abs/2305.00977v2 )

ライセンス: Link先を確認
Andreas Maurer(参考訳) 固定的およびフィミキシングプロセスによって生成されるデータに対して、様々な損失クラス上の有界なユニフォームが与えられ、混合時間(近似独立を得るのに必要な時間)が加法的にのみサンプル複雑性に入る。 緩やかな混合プロセスの場合、これは混合時間に乗法的に依存する結果よりもかなり有利である。 許容損失クラスは、所定のリプシッツノルムあるいは滑らか度パラメータを持つ関数を含む。 境界は、サンプルパス上の関数の局所リプシッツの性質に依存する、制約のない損失クラスに対して均一に適用することもできる。

A bound uniform over various loss-classes is given for data generated by stationary and phi-mixing processes, where the mixing time (the time needed to obtain approximate independence) enters the sample complexity only in an additive way. For slowly mixing processes this can be a considerable advantage over results with multiplicative dependence on the mixing time. The admissible loss-classes include functions with prescribed Lipschitz norms or smoothness parameters. The bound can also be applied to be uniform over unconstrained loss-classes, where it depends on local Lipschitz properties of the function on the sample path.
翻訳日:2023-06-02 23:35:46 公開日:2023-06-01
# ギャップを埋める:自然言語生成のための(Human)フィードバックの統合に関する調査

Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation ( http://arxiv.org/abs/2305.00955v2 )

ライセンス: Link先を確認
Patrick Fernandes, Aman Madaan, Emmy Liu, Ant\'onio Farinhas, Pedro Henrique Martins, Amanda Bertsch, Jos\'e G. C. de Souza, Shuyan Zhou, Tongshuang Wu, Graham Neubig, Andr\'e F. T. Martins(参考訳) 自然言語生成の最近の進歩は、インターネット規模のデータで大規模な言語モデルを訓練することで加速されている。 しかし、このパラダイムは有害で不正確で不正確なコンテンツを生成するモデルにつながる可能性があり、自動評価指標はこれらの振る舞いを特定するのに失敗することが多い。 モデルがより有能になるにつれて、人間のフィードバックはモデルの評価と改善にとって貴重なシグナルとなる。 この調査は、人間のフィードバックを利用して自然言語生成を改善する最近の研究の概要を提供することを目的としている。 まず、フィードバックの形式化を包含し、この形式化に従って既存の研究を分類学に分類し整理する。 次に、その形式と目的によってフィードバックをどのように記述するかについて議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて述べる。 また、人間フィードバックデータ収集のための既存のデータセットや、フィードバック収集に関する懸念についても論じる。 最後に、大言語モデルを利用して一連の原則に基づいた判断を行い、人間の介入の必要性を最小限に抑える、aiフィードバックの生まれたばかりの分野の概要を提供する。

Many recent advances in natural language generation have been fueled by training large language models on internet-scale data. However, this paradigm can lead to models that generate toxic, inaccurate, and unhelpful content, and automatic evaluation metrics often fail to identify these behaviors. As models become more capable, human feedback is an invaluable signal for evaluating and improving models. This survey aims to provide an overview of the recent research that has leveraged human feedback to improve natural language generation. First, we introduce an encompassing formalization of feedback, and identify and organize existing research into a taxonomy following this formalization. Next, we discuss how feedback can be described by its format and objective, and cover the two approaches proposed to use feedback (either for training or decoding): directly using the feedback or training feedback models. We also discuss existing datasets for human-feedback data collection, and concerns surrounding feedback collection. Finally, we provide an overview of the nascent field of AI feedback, which exploits large language models to make judgments based on a set of principles and minimize the need for human intervention.
翻訳日:2023-06-02 23:35:36 公開日:2023-06-01
# NeRFによる3次元のセグメンテーション

Segment Anything in 3D with NeRFs ( http://arxiv.org/abs/2304.12308v3 )

ライセンス: Link先を確認
Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Chen Yang, Wei Shen, Lingxi Xie, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian(参考訳) 最近,Segment Anything Model (SAM) は,任意のものを2次元画像に分割できる強力なビジョン基盤モデルとして登場した。 本稿では,SAMを3次元オブジェクトに分割する手法を提案する。 3Dでコストがかかるデータ取得とアノテーションの手順を複製するのではなく、我々はNeural Radiance Field(NeRF)を安価でオフザシェルフとして活用し、マルチビュー2D画像を3D空間に接続する効率的なソリューションを設計する。 提案したソリューションを,SA3D, セグメンテーション・アニーシング(Seegment Anything in 3D)と呼ぶ。 単一のビューでターゲットオブジェクトに対して手動のセグメンテーションプロンプト(例えば粗い点)を提供することが要求され、SAMでこのビューでその2Dマスクを生成するのに使用される。 次に、SA3Dは、ボクセルグリッドで構築されたターゲットオブジェクトの3Dマスクを反復的に完了するように、様々な視点でマスク逆レンダリングとクロスビューのセルフプロンプトを交互に行う。 前者は、SAMが取得した2Dマスクを現在の視点で3Dマスクに投影し、NeRFが学習した密度分布を誘導し、後者は、NeRFレンダリングされた2DマスクからのSAMへの入力として、信頼性の高いプロンプトを自動的に抽出する。 実験では,sa3dが様々なシーンに適応し,数分で3dセグメンテーションを実現することを示す。 我々の研究は、2Dモデルが複数のビューにまたがる高速なセグメンテーションに着実に対処できる限り、2D視覚基盤モデルを3Dに引き上げる汎用的で効率的な手法を提供する。 プロジェクトページはhttps://jumpat.github.io/SA3D/。

Recently, the Segment Anything Model (SAM) emerged as a powerful vision foundation model which is capable to segment anything in 2D images. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the Neural Radiance Field (NeRF) as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, for Segment Anything in 3D. It is only required to provide a manual segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its 2D mask in this view with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively complete the 3D mask of the target object constructed with voxel grids. The former projects the 2D mask obtained by SAM in the current view onto 3D mask with guidance of the density distribution learned by the NeRF; The latter extracts reliable prompts automatically as the input to SAM from the NeRF-rendered 2D mask in another view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within minutes. Our research offers a generic and efficient methodology to lift a 2D vision foundation model to 3D, as long as the 2D model can steadily address promptable segmentation across multiple views. The project page is at https://jumpat.github.io/SA3D/.
翻訳日:2023-06-02 23:35:18 公開日:2023-06-01
# 局所励起と電荷移動を組み合わせた一次元励起模型の位相特性

Topological properties of a one-dimensional excitonic model combining local excitation and charge transfer ( http://arxiv.org/abs/2305.18299v2 )

ライセンス: Link先を確認
Jianhua Zhu and Wei Wu(参考訳) 我々は、二量化、局所および電荷移動励起状態を考慮した1次元励起モデルのためのザック位相を計算した。 ホッピングパラメータは4つあり、物理学の豊富なスペクトルを生じさせるように変化することができる。 複数のパラメータをオンにすることで、私たちは見つけることができます (i)位相次数に関連する一様鎖であっても位相相は$\pi$である。 (II) 位相的に非自明な平坦なバンドが存在し、平坦なバンドと位相の間の興味深い相関が示唆される。 (iii)量子干渉によるエキゾチックな分数相であって、オン及び分数統計に関係しているもの (iv)二階ホッピングに関連する相転移 - 励起ホッピング。 我々はまた、計算を解釈する効果的なカイラル状態(励起状態の線形結合)の概念を開発した。 本モデルは,原子,分子,半導体ドーパント,量子ドットなどの物理単位によって形成される一次元鎖構造の励起的トポロジー特性を記述するのに十分一般的なモデルである。

We have computed the Zak phase for a one-dimensional excitonic model, which takes into account dimerisation, local and charge-transfer excited states. There are four hopping parameters, which can be varied to give rise to a rich spectrum of physics. By turning on more than one parameters, we can find (i) the topological phase could be $\pi$ even for a uniform chain, which is related to topological order, (ii) there exist topologically nontrivial flat bands, suggesting an interesting correlation between flat bands and topology, (iii) exotic fractional phases, which are due to quantum interference and relevant to anyon and fractional statistics, and (iv) a phase transition related to second-order hopping event - excitonic hopping. We have also developed the concept of effective chiral states (linear combination of excitonic states) to interpret our calculations. Our model is sufficiently general to describe excitonic topological properties for one-dimensional chain structures formed by physical unit such as atom, molecule, semiconductor dopant, and quantum dot.
翻訳日:2023-06-02 23:26:45 公開日:2023-06-01
# 機械学習に基づく分散システムの認定に向けて

Towards Certification of Machine Learning-Based Distributed Systems ( http://arxiv.org/abs/2305.16822v2 )

ライセンス: Link先を確認
Marco Anisetti and Claudio A. Ardagna and Nicola Bena and Ernesto Damiani(参考訳) 機械学習(ml)は、5gで実現されるクラウドエッジ連続体上にデプロイされる複雑な分散システムの運用を推進するためにますます使われている。 それに応じて、分散システムの振る舞いは、本質的に非決定論的になっています。 この分散システムの進化は、非機能特性の検証のための新しい保証アプローチの定義を必要とする。 システムおよびソフトウェア検証の最も一般的な保証技術である認証は、機械学習ベースの推論によって行動が決定されるシステムには、直ちに適用されない。 しかし、政策立案者、規制当局、産業利害関係者からは、MLの非機能的財産(公正性、堅牢性、プライバシーなど)の認証技術の定義への圧力が高まっている。 本稿では、現状の認定制度の課題と欠陥を分析し、オープンな研究課題を論じ、MLベースの分散システムのための最初の認証方式を提案する。

Machine Learning (ML) is increasingly used to drive the operation of complex distributed systems deployed on the cloud-edge continuum enabled by 5G. Correspondingly, distributed systems' behavior is becoming more non-deterministic in nature. This evolution of distributed systems requires the definition of new assurance approaches for the verification of non-functional properties. Certification, the most popular assurance technique for system and software verification, is not immediately applicable to systems whose behavior is determined by Machine Learning-based inference. However, there is an increasing push from policy makers, regulators, and industrial stakeholders towards the definition of techniques for the certification of non-functional properties (e.g., fairness, robustness, privacy) of ML. This article analyzes the challenges and deficiencies of current certification schemes, discusses open research issues and proposes a first certification scheme for ML-based distributed systems.
翻訳日:2023-06-02 23:26:27 公開日:2023-06-01
# DNN圧縮の評価基準

Evaluation Metrics for DNNs Compression ( http://arxiv.org/abs/2305.10616v2 )

ライセンス: Link先を確認
Abanoub Ghobrial, Samuel Budgett, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワーク圧縮のためのさまざまな技術の開発には、多くの研究努力がある。 しかし、コミュニティには標準化された評価指標が欠けているため、異なるアプリケーションに最適な圧縮テクニックを特定する上で鍵となる。 本稿では,既存のニューラルネットワーク圧縮評価メトリクスをレビューし,netzipと呼ばれる標準化フレームワークに実装する。 既存の評価のギャップをカバーするための2つの新しい指標を文献に紹介する。 1)圧縮・ハードウェア非依存理論速度(CHATS)と 2) 総合圧縮成功(OCS)。 オブジェクト分類とオブジェクト検出に着目した2つのケーススタディを用いて、NetZIPの使用を実証する。

There is a lot of research effort into developing different techniques for neural networks compression. However, the community lacks standardised evaluation metrics, which are key to identifying the most suitable compression technique for different applications. This paper reviews existing neural network compression evaluation metrics and implements them into a standardisation framework called NetZIP. We introduce two novel metrics to cover existing gaps of evaluation in the literature: 1) Compression and Hardware Agnostic Theoretical Speed (CHATS) and 2) Overall Compression Success (OCS). We demonstrate the use of NetZIP using two case studies focusing on object classification and object detection.
翻訳日:2023-06-02 23:25:41 公開日:2023-06-01
# 畳み込みニューラルネットワークを用いた自動光配向検出

Automatic Photo Orientation Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2305.10319v2 )

ライセンス: Link先を確認
Ujash Joshi, Michael Guerzhoy(参考訳) 畳み込みニューラルネットワーク(cnn)を,消費者写真の正しい方向(0,90,180,270度)を決定する文脈における像方位検出問題に適用する。 この問題は特にアナログ写真のデジタル化に重要である。 我々は、標準データセットの1つのパフォーマンスの観点から、公開技術の公開状況を大幅に改善し、より難しい消費者写真の大規模データセットでシステムをテストします。 我々はガイドバックプロパゲーションを用いて、CNNが写真方向を検出する方法の洞察を得、その誤りを説明する。

We apply convolutional neural networks (CNN) to the problem of image orientation detection in the context of determining the correct orientation (from 0, 90, 180, and 270 degrees) of a consumer photo. The problem is especially important for digitazing analog photographs. We substantially improve on the published state of the art in terms of the performance on one of the standard datasets, and test our system on a more difficult large dataset of consumer photos. We use Guided Backpropagation to obtain insights into how our CNN detects photo orientation, and to explain its mistakes.
翻訳日:2023-06-02 23:25:34 公開日:2023-06-01
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v3 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien(参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態のゲージ不変量 qgt は導出され、その実部と虚部はそれぞれバーズ計量とウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離を結び、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 ビューズ計量は、密度行列の固有値がプロセス中に変化しない場合、温度がゼロに近づくとフビニ・スタディ計量に還元され、純粋な状態と混合状態の対応が確立される。 また,局所的な地形を対比した2つの例を示し,実験的含意について論じる。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The gauge-invariant QGT of mixed states is derived, whose real and imaginary parts are the Bures metric and the Uhlmann form, respectively. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances and reflect the underlying fibration. The Bures metric reduces to the Fubini-Study metric as temperature approaches zero if the eigenvalues of the density matrix do not change during the process, establishing a correspondence between pure and mixed states. We also present two examples with contrasting local geometries and discuss experimental implications.
翻訳日:2023-06-02 23:25:24 公開日:2023-06-01
# 対角情報を用いた連続視覚言語表現学習

Continual Vision-Language Representation Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v5 )

ライセンス: Link先を確認
Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian(参考訳) CLIPのような大規模なマルチモーダルなコントラスト学習フレームワークは、トレーニングに大量の画像テキストサンプルを必要とする。 しかし、これらのサンプルは常に実際のシナリオで継続的に収集される。 本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。 純粋画像の自己教師型学習法に基づく連続学習とは違って,CLIPの性能劣化は重要で無視できない。 空間幾何学的視点から連続的CLIPトレーニングにおけるモデル表現空間の変化を分析することにより、これらの空間変動を空間障害(SD)として探索・要約し、モーダル内回転とモーダル間偏差に分割することができる。 さらに,SDがCLIPのクロスモーダル検索タスクの性能低下につながることを実証的,理論的に実証した。 SDを緩和するために,新たな視覚言語表現学習フレームワークMod-Xを提案する。 コントラスト行列のオフ対角情報分布を選択的に整列させることにより、mod-xは、新しいトレーニングデータ領域を連続的に適合させる間、旧データ領域のマルチモーダル表現空間アライメントを維持してマルチモーダルモデルの能力を向上させる。 スケールやスコープの異なるデータセットを用いた実験により,提案手法の有効性が実証された。

Large-scale multi-modal contrastive learning frameworks like CLIP typically require a large amount of image-text samples for training. However, these samples are always collected continuously in real scenarios. This paper discusses the feasibility of continual CLIP training using streaming data. Unlike continual learning based on self-supervised learning methods for pure images, which is empirically robust against catastrophic forgetting, CLIP's performance degeneration in the continual setting is significant and non-neglectable. By analyzing the changes in the model's representation space during continual CLIP training from a spatial geometry perspective, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we empirically and theoretically demonstrate how SD leads to a performance decline for CLIP on cross-modal retrieval tasks. To alleviate SD, we propose a new continual vision-language representation learning framework Mod-X: Maintain off-diagonal information-matriX. By selectively aligning the off-diagonal information distribution of contrastive matrices, the Mod-X improves the capability of the multi-modal model by maintaining the multi-modal representation space alignment on the old data domain during continuously fitting the new training data domain. Experiments on commonly used datasets with different scales and scopes have demonstrated the effectiveness of our method.
翻訳日:2023-06-02 23:25:06 公開日:2023-06-01
# chatgptはバイアスを取り除くためのテキスト簡易化ツール

ChatGPT as a Text Simplification Tool to Remove Bias ( http://arxiv.org/abs/2305.06166v2 )

ライセンス: Link先を確認
Charmaine Barker and Dimitar Kazakov(参考訳) 特定のサブグループに特有の特定の言語信号の存在は、訓練中に言語モデルによって拾うことができる。 モデルが特定の言語を別のグループに関連付け始めると、この言語に基づく決定は、その保護された特徴に基づく決定と強い相関関係を持ち、差別につながる可能性がある。 テキストの簡易化という形でバイアス緩和の可能性を探る。 この考え方の原動力は、テキストを単純化することで、異なるサブグループ間の言語を同じ意味を維持しながら、一つの話し方へと標準化すべきである。 この実験は, 簡易データに対して, 感度特性を最大17%低下させる分類器の精度として有望な結果を示した。

The presence of specific linguistic signals particular to a certain sub-group of people can be picked up by language models during training. If the model begins to associate specific language with a distinct group, any decisions made based upon this language would hold a strong correlation to a decision based upon their protected characteristic, leading to possible discrimination. We explore a potential technique for bias mitigation in the form of simplification of text. The driving force of this idea is that simplifying text should standardise language between different sub-groups to one way of speaking while keeping the same meaning. The experiment shows promising results as the classifier accuracy for predicting the sensitive attribute drops by up to 17% for the simplified data.
翻訳日:2023-06-02 23:24:41 公開日:2023-06-01
# 音声によるLM:音声トークン以外の音声言語モデリング

LMs with a Voice: Spoken Language Modeling beyond Speech Tokens ( http://arxiv.org/abs/2305.15255v2 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Julian Salazar, Chulayuth Asawaroengchai, Soroosh Mariooryad, RJ Skerry-Ryan, Michelle Tadmor Ramanovich(参考訳) 本稿では,前訓練言語モデル(lms)を音声継続に適応させる新しいアプローチであるspectronを提案する。 事前学習した音声エンコーダを利用することで、本モデルはテキストと音声の両方の出力を生成し、システム全体がスペクトルを直接操作するエンドツーエンドの訓練を行う。 スペクトログラム領域におけるモデル全体の訓練は、離散的な音声表現を使用する既存のカスケード法と比較して、音声継続システムを単純化する。 さらに,提案手法は,既存の言語モデルに先行する知識の恩恵を受けつつ,意味的内容と話者保存の両方において既存の音声言語モデルを上回ることを示す。 オーディオサンプルは当社のwebサイトhttps://michelleramanovich.github.io/spectron/spectronにあります。

We present SPECTRON, a novel approach to adapting pre-trained language models (LMs) to perform speech continuation. By leveraging pre-trained speech encoders, our model generates both text and speech outputs with the entire system being trained end-to-end operating directly on spectrograms. Training the entire model in the spectrogram domain simplifies our speech continuation system versus existing cascade methods which use discrete speech representations. We further show our method surpasses existing spoken language models both in semantic content and speaker preservation while also benefiting from the knowledge transferred from pre-existing models. Audio samples can be found in our website https://michelleramanovich.github.io/spectron/spectron
翻訳日:2023-06-02 21:37:06 公開日:2023-06-01
# BeamSearchQA: 大規模言語モデルは強力なゼロショットQAソルバー

BeamSearchQA: Large Language Models are Strong Zero-Shot QA Solver ( http://arxiv.org/abs/2305.14766v2 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Anlei Dong, Jingwen Lu, Yan Zhang, Daxin Jiang, Linjun Yang, Rangan Majumder, Nan Duan(参考訳) オープンドメインの質問応答は、しばしば外部情報へのアクセスを必要とする重要なタスクである。 既存の手法では、関連文書を最初に検索し、検索した情報に基づいて質問に回答する単一ターン検索-then-readアプローチが一般的である。 しかし、質問に答えるには、質問自体から直接は理解できない暗黙の知識が必要となる場合がある。 本研究では,BeamSearchQAと呼ばれる質問応答パイプラインを提案する。 提案手法では, 大規模言語モデルを用いて, 元の質問に対する質問を反復的に生成し, 反復的推論プロセスを実現する。 本手法は,質問の範囲を反復的に精錬し拡張することにより,検索によって直接取得できないような隠れた知識を捉え,活用することを目的としている。 我々は、広く使われているオープンドメインNQおよびWebQデータセットに対するアプローチを評価する。 実験の結果,BeamSearchQAは他のゼロショットベースラインよりも優れており,オープンドメイン質問応答の課題に対処する上での有効性が示された。

Open-domain question answering is a crucial task that often requires accessing external information. Existing methods typically adopt a single-turn retrieve-then-read approach, where relevant documents are first retrieved, and questions are then answered based on the retrieved information. However, there are cases where answering a question requires implicit knowledge that is not directly retrievable from the question itself. In this work, we propose a novel question-answering pipeline called BeamSearchQA. Our approach leverages large language models to iteratively generate new questions about the original question, enabling an iterative reasoning process. By iteratively refining and expanding the scope of the question, our method aims to capture and utilize hidden knowledge that may not be directly obtainable through retrieval. We evaluate our approach on the widely-used open-domain NQ and WebQ datasets. The experimental results demonstrate that BeamSearchQA significantly outperforms other zero-shot baselines, indicating its effectiveness in tackling the challenges of open-domain question answering.
翻訳日:2023-06-02 21:36:39 公開日:2023-06-01
# 大言語モデルはゼロショットテキスト・ビデオ生成のためのフレームレベルディレクトリである

Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation ( http://arxiv.org/abs/2305.14330v2 )

ライセンス: Link先を確認
Susung Hong, Junyoung Seo, Sunghwan Hong, Heeseong Shin, Seungryong Kim(参考訳) AI生成コンテンツ(AIGC)のパラダイムでは、事前訓練されたテキスト・ツー・イメージ(T2I)モデルからテキスト・ツー・ビデオ(T2V)生成への拡張に注目が集まっている。 その効果にもかかわらず、これらのフレームワークは、一貫性のある物語の維持と、1人のユーザープロンプトからのシーン構成またはオブジェクト配置の迅速なシフトを扱う上での課題に直面している。 本稿では,1つの抽象ユーザプロンプトからフレーム・バイ・フレーム記述を生成するために,命令調整型大規模言語モデル(LLM)を利用するDirecT2Vという新しいフレームワークを提案する。 DirecT2VはLDMディレクトリを使用して、ユーザ入力を各フレーム毎に別々のプロンプトに分割し、時間変化のあるコンテンツを含め、一貫したビデオ生成を容易にする。 時間的一貫性を維持し,オブジェクトの崩壊を防止するため,新しい値マッピング法とデュアルソフトマックスフィルタを提案する。 広範にわたる実験結果は、ゼロショットビデオ生成の課題に対処するため、抽象ユーザプロンプトから視覚的に一貫性のある一貫したビデオを生成する上で、DirecT2Vフレームワークの有効性を検証する。

In the paradigm of AI-generated content (AIGC), there has been increasing attention in extending pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling rapid shifts in scene composition or object placement from a single user prompt. This paper introduces a new framework, dubbed DirecT2V, which leverages instruction-tuned large language models (LLMs) to generate frame-by-frame descriptions from a single abstract user prompt. DirecT2V utilizes LLM directors to divide user inputs into separate prompts for each frame, enabling the inclusion of time-varying content and facilitating consistent video generation. To maintain temporal consistency and prevent object collapse, we propose a novel value mapping method and dual-softmax filtering. Extensive experimental results validate the effectiveness of the DirecT2V framework in producing visually coherent and consistent videos from abstract user prompts, addressing the challenges of zero-shot video generation.
翻訳日:2023-06-02 21:36:23 公開日:2023-06-01
# リウビリアン例外点による緩和の促進

Accelerating relaxation through Liouvillian exceptional point ( http://arxiv.org/abs/2305.12745v2 )

ライセンス: Link先を確認
Yan-Li Zhou, Xiao-Die Yu, Chun-Wang Wu, Xie-Qian Li, Jie Zhang, Weibin Li, Ping-Xing Chen(参考訳) 我々は、より高速な崩壊モードで最も遅い崩壊モードが縮退するLouvillianException point (LEP)によるマルコフ開量子系の緩和の高速化について検討する。 退化はリウビリアン作用素のギャップを大きく増加させ、そのような系の定常性への収束における時間スケールを決定するため、緩和過程を加速する。 固有行列と固有スペクトルが完全に解析的に得られる3段階の原子系を実験的に検討する。 これにより、LEPの洞察を得て、各ダイナミクスを詳細に調べることができます。 このギャップをフロッケ工学によってさらに拡大し,緩和過程をさらに加速できることを示す。 最後に、このアプローチを拡張して、閉じ込められたイオンのレーザー冷却を分析し、振動(フォノン)が電子状態と結合する。 最適冷却条件は解析的に得られ、既存の実験と数値シミュレーションの両方と一致する。 本研究は、LEPの理解と、原子とイオンの散逸ダイナミクスの制御と最適化に関する分析的な知見を提供する。

We investigate speeding up of relaxation of Markovian open quantum systems with the Liouvillian exceptional point (LEP), where the slowest decay mode degenerate with a faster decay mode. The degeneracy significantly increases the gap of the Liouvillian operator, which determines the timescale of such systems in converging to stationarity, and hence accelerates the relaxation process. We explore an experimentally relevant three level atomic system, whose eigenmatrices and eigenspectra are obtained completely analytically. This allows us to gain insights in the LEP and examine respective dynamics with details. We illustrate that the gap can be further widened through Floquet engineering, which further accelerates the relaxation process. Finally, we extend this approach to analyze laser cooling of trapped ions, where vibrations (phonons) couple to the electronic states. An optimal cooling condition is obtained analytically, which agrees with both existing experiments and numerical simulations. Our study provides analytical insights in understanding LEP, as well as in controlling and optimizing dissipative dynamics of atoms and trapped ions.
翻訳日:2023-06-02 21:36:00 公開日:2023-06-01
# 中国語における対話レベルの係り受け解析に関するパイロット研究

A Pilot Study on Dialogue-Level Dependency Parsing for Chinese ( http://arxiv.org/abs/2305.12441v2 )

ライセンス: Link先を確認
Gongyao Jiang, Shuang Liu, Meishan Zhang, Min Zhang(参考訳) 対話レベルの依存関係解析は特に中国語では不十分である。 この目的のために,構文依存と修辞構造理論 (rst) からのアイデアを引き合いに出し,850の対話と199,803の依存関係を含む高品質な人間注釈コーパスを開発する。 このようなタスクはアノテーションのコストが高いため、ゼロショットと少数ショットのシナリオを調査する。 既存の構文木バンクをベースとした信号ベース手法を用いて,信号がマスキングされた言語モデルによって検出される基本談話単位(EDU)間において,目に見えないものへと変換する。 さらに、信頼できる擬似ラベルインスタンスにアクセスするために、シングルビューおよびマルチビューデータ選択を適用する。 実験の結果,これらのベースラインの有効性が示された。 さらに、データセットとアプローチに関するいくつかの重要なポイントについても論じる。

Dialogue-level dependency parsing has received insufficient attention, especially for Chinese. To this end, we draw on ideas from syntactic dependency and rhetorical structure theory (RST), developing a high-quality human-annotated corpus, which contains 850 dialogues and 199,803 dependencies. Considering that such tasks suffer from high annotation costs, we investigate zero-shot and few-shot scenarios. Based on an existing syntactic treebank, we adopt a signal-based method to transform seen syntactic dependencies into unseen ones between elementary discourse units (EDUs), where the signals are detected by masked language modeling. Besides, we apply single-view and multi-view data selection to access reliable pseudo-labeled instances. Experimental results show the effectiveness of these baselines. Moreover, we discuss several crucial points about our dataset and approach.
翻訳日:2023-06-02 21:35:44 公開日:2023-06-01
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v3 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。 私たちのコードは利用できます。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition. Our code would be available.
翻訳日:2023-06-02 21:35:30 公開日:2023-06-01
# ゼロショット多言語ニューラルマシン翻訳の目標外問題について

On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation ( http://arxiv.org/abs/2305.10930v2 )

ライセンス: Link先を確認
Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang(参考訳) 多言語ニューラルマシン翻訳は大きな成功を収めているが、翻訳が間違った言語であるターゲット外の問題に苦しめられている。 この問題はゼロショット翻訳タスクでより顕著である。 本研究では,識別対象言語信号の符号化に失敗した場合,2言語の語彙間距離 (kl-divergence) がより高いオフターゲット率に関連していることを示す。 また、デコーダ内で異なる言語のボクタブを分離するだけで問題を軽減することができる。 そこで本研究では,多言語語彙構築のための単純かつ効果的なアルゴリズムであるlanguage aware vocabulary sharing (lavs)を提案する。 我々は11言語で多言語機械翻訳ベンチマーク実験を行った。 実験の結果、90の翻訳タスクのオフターゲットレートは29\%から8\%に削減され、BLEUスコアは平均1.9ポイント改善され、追加のトレーニングコストや監督方向のパフォーマンスが犠牲になる。 私たちは、再生のために \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} でコードをリリースします。

While multilingual neural machine translation has achieved great success, it suffers from the off-target issue, where the translation is in the wrong language. This problem is more pronounced on zero-shot translation tasks. In this work, we find that failing in encoding discriminative target language signal will lead to off-target and a closer lexical distance (i.e., KL-divergence) between two languages' vocabularies is related with a higher off-target rate. We also find that solely isolating the vocab of different languages in the decoder can alleviate the problem. Motivated by the findings, we propose Language Aware Vocabulary Sharing (LAVS), a simple and effective algorithm to construct the multilingual vocabulary, that greatly alleviates the off-target problem of the translation model by increasing the KL-divergence between languages. We conduct experiments on a multilingual machine translation benchmark in 11 languages. Experiments show that the off-target rate for 90 translation tasks is reduced from 29\% to 8\%, while the overall BLEU score is improved by an average of 1.9 points without extra training cost or sacrificing the supervised directions' performance. We release the code at \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} for reproduction.
翻訳日:2023-06-02 21:35:05 公開日:2023-06-01
# 花や植物の隠語名抽出のための深層学習法

Deep Learning Methods for Extracting Metaphorical Names of Flowers and Plants ( http://arxiv.org/abs/2305.10833v3 )

ライセンス: Link先を確認
Amal Haddad Haddad, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov(参考訳) 植物学の領域はメタファー用語が豊富である。 これらの用語は、花や植物の記述と識別に重要な役割を果たしている。 しかし、言論におけるそのような用語の識別は困難な作業である。 これにより、翻訳プロセスや辞書作業中にエラーを犯すケースもある。 このプロセスは、シングルワード語とマルチワード語の両方の場合において、機械翻訳に関してさらに難しい。 自然言語処理 (NLP) アプリケーションと機械翻訳 (MT) 技術に関する最近の懸念の1つは、ディープラーニング (DL) による会話におけるメタファーベースの単語の自動識別である。 本研究では,このギャップをChatGPTとともに13種類の人気トランスフォーマーモデルを用いて補うことを目的としており,識別モデルはGPT-3.5モデルよりも優れた性能を示し,最も優れたパフォーマーは92.2349%のF1スコアをメタファーや植物名識別タスクで報告している。

The domain of Botany is rich with metaphorical terms. Those terms play an important role in the description and identification of flowers and plants. However, the identification of such terms in discourse is an arduous task. This leads in some cases to committing errors during translation processes and lexicographic tasks. The process is even more challenging when it comes to machine translation, both in the cases of single-word terms and multi-word terms. One of the recent concerns of Natural Language Processing (NLP) applications and Machine Translation (MT) technologies is the automatic identification of metaphor-based words in discourse through Deep Learning (DL). In this study, we seek to fill this gap through the use of thirteen popular transformer based models, as well as ChatGPT, and we show that discriminative models perform better than GPT-3.5 model with our best performer reporting 92.2349% F1 score in metaphoric flower and plant names identification task.
翻訳日:2023-06-02 21:34:26 公開日:2023-06-01
# 教師なし根本原因分析のための不連続因果グラフ学習

Disentangled Causal Graph Learning forOnline Unsupervised Root Cause Analysis ( http://arxiv.org/abs/2305.10638v2 )

ライセンス: Link先を確認
Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen(参考訳) 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。 効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。 しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。 本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。 Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。 これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。 RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。 その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。 オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。 ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。

The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-06-02 21:34:10 公開日:2023-06-01
# 感情自動体験者認識

Automatic Emotion Experiencer Recognition ( http://arxiv.org/abs/2305.16731v2 )

ライセンス: Link先を確認
Maximilian Wegge and Roman Klinger(参考訳) 感情分析における最も顕著なサブタスクは感情分類であり、例えばソーシャルメディアの投稿のように、カテゴリをテキスト単位に割り当てる。 しかし、社会科学からの多くの研究質問は、ポストの著者の感情を検知するだけでなく、誰がテキストで感情を記述しているかを理解することを必要とする。 このタスクは、テキストで記述された人物を抽出して感情、理由、そして誰に向かって経験することを目的とした感情ロールラベリングによって取り組まれる。 しかし、答えるべき主な疑問が、どの感情を感じるかであるなら、これは過度に洗練される可能性がある。 このような設定のためのターゲットとなるアプローチは、おそらく知覚される感情について、感情経験者による言及(いわゆる「エモーター」)を分類することである。 このタスクは、上記のすべてのエンティティ名がエモターであるとは限らないため、名前付きエンティティ認識と似ている。 emoterアノテーションを備えたデータはごく最近利用可能になったが、そのような言及を検出する実験はまだ行われていない。 本稿では,タスクの難しさを理解するためのベースライン実験を行う。 金の言及が得られない場合,経験者固有の感情分類とパイプラインにおける評価検出への影響をさらに評価する。 テキストにおける経験者検出は.82の精度と.56のリコール(f1 =.66)の難しい課題である。 これらの結果は、エモスタスパンと感情/評価予測を共同でモデル化する将来の仕事の動機付けとなる。

The most prominent subtask in emotion analysis is emotion classification; to assign a category to a textual unit, for instance a social media post. Many research questions from the social sciences do, however, not only require the detection of the emotion of an author of a post but to understand who is ascribed an emotion in text. This task is tackled by emotion role labeling which aims at extracting who is described in text to experience an emotion, why, and towards whom. This could, however, be considered overly sophisticated if the main question to answer is who feels which emotion. A targeted approach for such setup is to classify emotion experiencer mentions (aka "emoters") regarding the emotion they presumably perceive. This task is similar to named entity recognition of person names with the difference that not every mentioned entity name is an emoter. While, very recently, data with emoter annotations has been made available, no experiments have yet been performed to detect such mentions. With this paper, we provide baseline experiments to understand how challenging the task is. We further evaluate the impact on experiencer-specific emotion categorization and appraisal detection in a pipeline, when gold mentions are not available. We show that experiencer detection in text is a challenging task, with a precision of .82 and a recall of .56 (F1 =.66). These results motivate future work of jointly modeling emoter spans and emotion/appraisal predictions.
翻訳日:2023-06-02 21:26:40 公開日:2023-06-01
# 疾患拡散シミュレーションにおけるリスク行動の時間的進化

Temporal Evolution of Risk Behavior in a Disease Spread Simulation ( http://arxiv.org/abs/2305.16600v2 )

ライセンス: Link先を確認
Ollin D. Langle-Chimal, Scott C. Merrill, Eric M. Clark, Gabriela Bucini, Tung-Lin Liu, Trisha R. Shrum, Christopher Koliba, Asim Zia, Julia M. Smith, and Nicholas Cheney(参考訳) 人間の行動は経験によって進化する動的なプロセスである。 個人のリスク適合性の進化を理解することは、より良いバイオセキュリティプロトコルの採用を促進するために公衆衛生介入を設計し、伝染病の伝染を防ぐために重要である。 ブタ農場のネットワークにおける病気の拡散をシミュレートする実験ゲームを用いて、体験からの学習が1000ドル以上のプレイヤーのリスク回避にどのように影響するかを測定する。 完全に自動化されたアプローチで,ゲームプレイの時間的傾向に基づいて4つのカテゴリに分類し,ゲーム全体のパフォーマンスの比較を行った。 リスク耐性群は,リスク回避群よりも50〜%高い確率で感染する可能性が示唆された。 また,全ての個人がゲームで経験を積むにつれて意思決定に要する時間を短縮する一方で,意思決定に要する時間を急速に短縮する一定の意思決定戦略を持つプレイヤーのグループと,意思決定よりも長いことを考えながら,おそらくはリアルタイムのリスクアセスメントを行う第2のコンテキスト対応決定グループを見出した。 このシミュレートされた設定でプレーヤが採用する行動戦略は、将来、好ましくないバイオセキュリティ関連のリスク回避の選好や行動の変化を識別するための早期警告信号として使用される可能性がある。

Human behavior is a dynamic process that evolves with experience. Understanding the evolution of individual's risk propensity is critical to design public health interventions to propitiate the adoption of better biosecurity protocols and thus, prevent the transmission of an infectious disease. Using an experimental game that simulates the spread of a disease in a network of porcine farms, we measure how learning from experience affects the risk aversion of over $1000$ players. We used a fully automated approach to segment the players into 4 categories based on the temporal trends of their game plays and compare the outcomes of their overall game performance. We found that the risk tolerant group is $50\%$ more likely to incur an infection than the risk averse one. We also find that while all individuals decrease the amount of time it takes to make decisions as they become more experienced at the game, we find a group of players with constant decision strategies who rapidly decrease their time to make a decision and a second context-aware decision group that contemplates longer before decisions while presumably performing a real-time risk assessment. The behavioral strategies employed by players in this simulated setting could be used in the future as an early warning signal to identify undesirable biosecurity-related risk aversion preferences, or changes in behavior, which may allow for targeted interventions to help mitigate them.
翻訳日:2023-06-02 21:26:17 公開日:2023-06-01
# 政策蒸留を用いた深層強化学習モデルのための実例記述フレームワーク

Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation ( http://arxiv.org/abs/2305.16532v2 )

ライセンス: Link先を確認
Amir Samadi, Konstantinos Koufos and Mehrdad Dianati(参考訳) 深層強化学習(DRL)は複雑な制御問題を解く上で有望な能力を示した。 しかし、安全クリティカルなシステムにおけるDRLの応用は、そのようなアプリケーションの性能を保証するための堅牢な検証技術が固有の欠如によって妨げられている。 検証プロセスの重要な要件の1つは、システム機能を説明する効果的な技術、すなわちシステムが特定の状況で特定の結果を生成する理由の開発である。 近年,DRLにおける説明問題に対処するために,対実的(CF)説明法に基づく解釈手法が提案されている。 本稿では,ブラックボックスDRLによる決定を説明するための新しいCF説明フレームワークを提案する。 提案手法の有効性を評価するため,自動走行システムおよびatari pongゲームの分野で,いくつかの実験を行った。 本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。 ソースコードは: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}

Deep Reinforcement Learning (DRL) has demonstrated promising capability in solving complex control problems. However, DRL applications in safety-critical systems are hindered by the inherent lack of robust verification techniques to assure their performance in such applications. One of the key requirements of the verification process is the development of effective techniques to explain the system functionality, i.e., why the system produces specific results in given circumstances. Recently, interpretation methods based on the Counterfactual (CF) explanation approach have been proposed to address the problem of explanation in DRLs. This paper proposes a novel CF explanation framework to explain the decisions made by a black-box DRL. To evaluate the efficacy of the proposed explanation framework, we carried out several experiments in the domains of automated driving systems and Atari Pong game. Our analysis demonstrates that the proposed framework generates plausible and meaningful explanations for various decisions made by deep underlying DRLs. Source codes are available at: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}
翻訳日:2023-06-02 21:25:33 公開日:2023-06-01
# CommonScenes: シーングラフによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs ( http://arxiv.org/abs/2305.16283v2 )

ライセンス: Link先を確認
Guangyao Zhai, Evin P{\i}nar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つの枝から構成されており、1つは変分オートエンコーダで全体のシーンレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2023-06-02 21:25:18 公開日:2023-06-01
# 長文のニューラル自然言語処理:最新技術に関する調査

Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2305.16259v2 )

ライセンス: Link先を確認
Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis(参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。 しかし、長文解析の要求は短いテキストの要求とは大きく異なり、オンラインにアップロードされた文書のサイズが増大すると、長いテキストの自動理解が重要な研究領域となる。 この記事には2つの目標がある。 a) 関連するニューラルビルディングブロックを概観し、短いチュートリアルとして機能し、 b) 主に文書分類と文書要約という2つの中心的なタスクに焦点を当てた,長文NLPの最先端を調査する。 典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。 さらに、長文NLPに関連する主な課題、課題、現在のソリューションについても論じる。 最後に、さらなる研究を促進するために、関連する、公開可能な注釈付きデータセットが提示される。

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Additionally, this article discusses the main challenges, issues and current solutions related to long document NLP. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.
翻訳日:2023-06-02 21:24:50 公開日:2023-06-01
# テキストと画像の拡散モデルから「テキスト」を取り出すプロンプトフリー拡散

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16223v2 )

ライセンス: Link先を確認
Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, Humphrey Shi(参考訳) テキスト・ツー・イメージ(T2I)の研究は、大規模な事前学習による拡散モデルや、新たなパーソナライズと編集アプローチによって、近年爆発的に成長している。 テキストのプロンプトエンジニアリングや、高品質なテキストプロンプトの検索は、科学よりも芸術的だ。 さらに、一般的に議論されているように、「画像は千語に値する」 - 所望の画像をテキストで記述しようとする試みは、しばしば曖昧で、繊細な視覚詳細を包括的にカバーできないため、視覚領域からのさらなる制御が必要となる。 本稿では,事前学習したt2i拡散モデルから"テキスト"を取り出して,ユーザへの迅速なエンジニアリング作業の負担を軽減するという大胆な一歩を踏み出す。 提案するフレームワークであるPrompt-Free Diffusionは、参照イメージを"context"、任意の画像構造条件付け、および初期ノイズとして、まったくテキストプロンプトなしで、新しい画像を生成するための視覚入力のみに依存している。 シーンの背後にあるコアアーキテクチャはセマンティックコンテキストエンコーダ(seecoder)で、一般的なクリップベースまたはllmベースのテキストエンコーダを構成する。 seecoderの再利用性は、t2iモデルでseecoderを事前トレーニングし、別のモデルで再利用することができるため、ドロップインコンポーネントとして便利である。 広範囲な実験により、即席拡散が実験的に検出される。 (i)前例に基づく画像合成手法より優れる。 (ii) ベストプラクティスに従うプロンプトを用いて、最先端のT2Iモデルと同等に実行する。 (iii) アニメフィギュア生成や仮想トライオンといった他の下流アプリケーションにも自然に拡張可能であり、有望な品質を持つ。 私たちのコードとモデルは、https://github.com/shi-labs/prompt-free-diffusionでオープンソースです。

Text-to-image (T2I) research has grown explosively in the past year, owing to the large-scale pre-trained diffusion models and many emerging personalization and editing approaches. Yet, one pain point persists: the text prompt engineering, and searching high-quality text prompts for customized results is more art than science. Moreover, as commonly argued: "an image is worth a thousand words" - the attempt to describe a desired image with texts often ends up being ambiguous and cannot comprehensively cover delicate visual details, hence necessitating more additional controls from the visual domain. In this paper, we take a bold step forward: taking "Text" out of a pre-trained T2I diffusion model, to reduce the burdensome prompt engineering efforts for users. Our proposed framework, Prompt-Free Diffusion, relies on only visual inputs to generate new images: it takes a reference image as "context", an optional image structural conditioning, and an initial noise, with absolutely no text prompt. The core architecture behind the scene is Semantic Context Encoder (SeeCoder), substituting the commonly used CLIP-based or LLM-based text encoder. The reusability of SeeCoder also makes it a convenient drop-in component: one can also pre-train a SeeCoder in one T2I model and reuse it for another. Through extensive experiments, Prompt-Free Diffusion is experimentally found to (i) outperform prior exemplar-based image synthesis approaches; (ii) perform on par with state-of-the-art T2I models using prompts following the best practice; and (iii) be naturally extensible to other downstream applications such as anime figure generation and virtual try-on, with promising quality. Our code and models are open-sourced at https://github.com/SHI-Labs/Prompt-Free-Diffusion.
翻訳日:2023-06-02 21:24:36 公開日:2023-06-01
# 条件分布間の経験的最適輸送

Empirical Optimal Transport between Conditional Distributions ( http://arxiv.org/abs/2305.15901v2 )

ライセンス: Link先を確認
Piyushi Manupriya, Rachit Keerti Das, Sayantan Biswas, Shivam Chandhok, Saketha Nath Jagarlapudi(参考訳) 2つのジョイント分布からのサンプルが与えられたとき、共通変数に条件付けられた対応する分布間の最適輸送(ot)の問題を考える。 この研究の目的は、条件付き値の関数として条件付き物間の輸送計画だけでなく、関連する輸送コスト(wasserstein距離)を推定することである。 条件分布のマッチングは、識別モデルと(単純)条件生成モデルの教師付きトレーニングの中核であるので、条件間のOTは、多様な機械学習アプリケーションに利用される可能性がある。 しかし、OTに関わる条件は、共同サンプルを通して暗黙的に特定されるため、特にこの問題を定式化することは困難である。 (i)条件づけられた変数は連続的で (ii) 2つの分布におけるこの変数の限界は異なる。 これらの課題を克服するために、特定のカーネルMD(Maximum Mean Discrepancy)ベースの正規化器を用いて、条件輸送計画の限界が与えられたジョイントサンプルを介して指定された条件に近いことを保証する。 軽度条件下では、この正規化輸送コストの推定器が統計的に一貫したものであり、推定誤差に有限サンプル境界を導出することを証明する。 条件付き輸送計画のパラメータ化のためのアプリケーション固有の詳細も提示する。 さらに, 癌治療に対する細胞応答予測の文脈において, 分類, 短時間学習, 条件生成などのアプリケーションにおけるベンチマークデータセットに関する方法論を実証的に評価した。

Given samples from two joint distributions, we consider the problem of Optimal Transportation (OT) between the corresponding distributions conditioned on a common variable. The objective of this work is to estimate the associated transport cost (Wasserstein distance) as well as the transport plan between the conditionals as a function of the conditioned value. Since matching conditional distributions is at the core of supervised training of discriminative models and (implicit) conditional-generative models, OT between conditionals has the potential to be employed in diverse machine learning applications. However, since the conditionals involved in OT are implicitly specified via the joint samples, it is challenging to formulate this problem, especially when (i) the variable conditioned on is continuous and (ii) the marginal of this variable in the two distributions is different. We overcome these challenges by employing a specific kernel MMD (Maximum Mean Discrepancy) based regularizer that ensures the marginals of our conditional transport plan are close to the conditionals specified via the given joint samples. Under mild conditions, we prove that our estimator for this regularized transport cost is statistically consistent and derive finite-sample bounds on the estimation error. Application-specific details for parameterizing our conditional transport plan are also presented. Furthermore, we empirically evaluate our methodology on benchmark datasets in applications like classification, prompt learning for few-shot classification, and conditional-generation in the context of predicting cell responses to cancer treatment.
翻訳日:2023-06-02 21:24:03 公開日:2023-06-01
# LFTK:計算言語学における手作りの特徴

LFTK: Handcrafted Features in Computational Linguistics ( http://arxiv.org/abs/2305.15878v2 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee(参考訳) 過去の研究で、様々なタスクに役立つ豊富な手作りの言語特徴が特定された。 しかし、その膨大な数が既存の手作りの機能を効果的に選択し活用することは困難である。 研究における一貫性のない実装の問題と相まって、分類スキームや一般に受け入れられる特徴名は存在しない。 これは望ましくない混乱を引き起こす。 また、既存の手作りの機能抽出ライブラリのほとんどはオープンソースではない。 結果として、研究者はしばしばそのような抽出システムをゼロから構築しなければならない。 過去の文献に基づく220以上の人気手工芸品を収集・分類した。 次に,複数のタスク固有のデータセットの相関分析を行い,各特徴の潜在的なユースケースを報告する。 最後に,多言語手作り言語特徴抽出システムを体系的に拡張可能な方法で考案する。 我々は,実装済みの豊富な手作り機能にパブリックアクセスするためのシステムをオープンソース化した。 我々のシステムはLFTKと呼ばれており、その種類の中で最大である。 github.com/brucewlee/lftkを参照。

Past research has identified a rich set of handcrafted linguistic features that can potentially assist various tasks. However, their extensive number makes it difficult to effectively select and utilize existing handcrafted features. Coupled with the problem of inconsistent implementation across research works, there has been no categorization scheme or generally-accepted feature names. This creates unwanted confusion. Also, most existing handcrafted feature extraction libraries are not open-source or not actively maintained. As a result, a researcher often has to build such an extraction system from the ground up. We collect and categorize more than 220 popular handcrafted features grounded on past literature. Then, we conduct a correlation analysis study on several task-specific datasets and report the potential use cases of each feature. Lastly, we devise a multilingual handcrafted linguistic feature extraction system in a systematically expandable manner. We open-source our system for public access to a rich set of pre-implemented handcrafted features. Our system is coined LFTK and is the largest of its kind. Find it at github.com/brucewlee/lftk.
翻訳日:2023-06-02 21:23:40 公開日:2023-06-01
# 思考連鎖の背後にある謎の解明に向けて--理論的展望

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective ( http://arxiv.org/abs/2305.15408v2 )

ライセンス: Link先を確認
Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang(参考訳) 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。 実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。 本稿では,これらの疑問に理論的に答える第一歩を踏み出す。 具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。 まず,モデルサイズが入力長に対して超多項式的に大きくなる限り,有界深度変換器は基本演算/方程式タスクの正解を直接生成できないことを示す。 対照的に,定サイズの自己回帰変換器は,一般的な数学言語形式を用いてCoTの導出を生成することで,両方のタスクを解くのに十分であることを示す。 さらに, COT を用いた LLM は, 動的プログラミング(Dynamic Programming) と呼ばれる一般的な意思決定問題を解くことができ, 複雑な実世界のタスクに対処する能力の正当化を図っている。 最後に、4つのタスクに関する広範な実験では、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. We start by giving an impossibility result showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, we show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, extensive experiments on four tasks show that, while Transformers always fail to predict the answers directly, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
翻訳日:2023-06-02 21:23:29 公開日:2023-06-01
# 分散不確かさ定量化のためのフェデレート共形予測器

Federated Conformal Predictors for Distributed Uncertainty Quantification ( http://arxiv.org/abs/2305.17564v2 )

ライセンス: Link先を確認
Charles Lu, Yaodong Yu, Sai Praneeth Karimireddy, Michael I. Jordan, Ramesh Raskar(参考訳) 共形予測(conformal prediction)は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして登場している。 本稿では,共用学習環境に共形予測を拡張した。 私たちが直面している主な課題は、クライアント間のデータ不均一性です。 本稿では,fl設定に適した部分交換可能性の弱い概念を提案し,fcp(federated conformal prediction)フレームワークの開発に使用する。 複数のコンピュータビジョンおよび医用画像データセットにおいて、fcpは厳密な理論的保証と優れた経験的性能を享受している。 本研究は,分散環境と異種環境に意味のある不確実性定量化を組み込むための実践的アプローチを示す。 実験で使われたコードはhttps://github.com/clu5/federated-conformalです。

Conformal prediction is emerging as a popular paradigm for providing rigorous uncertainty quantification in machine learning since it can be easily applied as a post-processing step to already trained models. In this paper, we extend conformal prediction to the federated learning setting. The main challenge we face is data heterogeneity across the clients - this violates the fundamental tenet of exchangeability required for conformal prediction. We propose a weaker notion of partial exchangeability, better suited to the FL setting, and use it to develop the Federated Conformal Prediction (FCP) framework. We show FCP enjoys rigorous theoretical guarantees and excellent empirical performance on several computer vision and medical imaging datasets. Our results demonstrate a practical approach to incorporating meaningful uncertainty quantification in distributed and heterogeneous environments. We provide code used in our experiments https://github.com/clu5/federated-conformal.
翻訳日:2023-06-02 21:17:46 公開日:2023-06-01
# Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳

Translatotron 3: Speech to Speech Translation with Monolingual Data ( http://arxiv.org/abs/2305.17547v2 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayuth Asawaroengchai, Heiga Zen, Michelle Tadmor Ramanovich(参考訳) 本稿ではtranslatotron 3について述べる。このtranslatotron 3は,単言語音声テキストデータセットから直接音声から音声への翻訳モデルを,教師なしの方法でのみ訓練する新しい手法である。 Translatotron 3はマスク付きオートエンコーダ、教師なし埋め込みマッピング、バックトランスレーションを組み合わせてこの目標を達成する。 スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインカスケードシステムよりも優れており、18.14 BLEUは合成されたアンペア・会話データセットの改善点を報告している。 不可能な実対データを必要とする教師付きアプローチや、パラ言語情報や非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3は停止、発話率、話者識別などのパラ言語/非言語情報を維持できる能力を示している。 オーディオサンプルは当社のwebサイトhttp://google-research.github.io/lingvo-lab/translatotron3にあります。

This paper presents Translatotron 3, a novel approach to train a direct speech-to-speech translation model from monolingual speech-text datasets only in a fully unsupervised manner. Translatotron 3 combines masked autoencoder, unsupervised embedding mapping, and back-translation to achieve this goal. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting 18.14 BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, which is unavailable, or specialized modeling to replicate para-/non-linguistic information, Translatotron 3 showcases its capability to retain para-/non-linguistic such as pauses, speaking rates, and speaker identity. Audio samples can be found in our website http://google-research.github.io/lingvo-lab/translatotron3
翻訳日:2023-06-02 21:17:32 公開日:2023-06-01
# 量子ldpc符号に対するpauli演算子のデカップリング表現に基づく信念伝播復号アルゴリズムの改良

Improved belief propagation decoding algorithm based on decoupling representation of Pauli operators for quantum LDPC codes ( http://arxiv.org/abs/2305.17505v2 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Kaixin Zhong, Yulin Wu, Zhou Fang, Xuan Wang(参考訳) そこで我々は,量子低密度パリティチェック符号に対する部分的疎結合な信念伝播と完全疎結合な信念伝播復号アルゴリズムを提案する。 Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. 完全に分離された信念伝播アルゴリズムの印象的な性能は、工学における量子エラー訂正符号の実現を促進するかもしれない。

We propose a new method called decoupling representation to represent Pauli operators as vectors over GF(2), based on which we propose partially decoupled belief propagation and fully decoupled belief propagation decoding algorithm for quantum low density parity-check codes. Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. The impressive performance of fully decoupled belief propagation algorithm might promote the realization of quantum error correcting codes in engineering.
翻訳日:2023-06-02 21:17:16 公開日:2023-06-01
# FACTUAL: 忠実で一貫性のあるテキストシーングラフ解析のためのベンチマーク

FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing ( http://arxiv.org/abs/2305.17497v2 )

ライセンス: Link先を確認
Zhuang Li, Yuyang Chai, Terry Yue Zhuo, Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji, Quan Hung Tran(参考訳) 画像キャプション評価や画像検索など,様々な視覚言語アプリケーションにおいて,テキストシーングラフ解析の重要性が高まっている。 しかし、画像キャプションをシーングラフに変換する既存のシーングラフパーサは、しばしば2種類のエラーに悩まされる。 まず、生成されたシーングラフは、キャプションや対応する画像の真の意味を捉えられなかったため、忠実さが欠落した。 第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。 これらの課題に対処するために,視覚ゲノム(vg)のキャプションをfactual-mrと呼ばれる新しい中間表現を用いて再注釈する新しいデータセットを提案する。 factual-mrは、忠実で一貫性のあるシーングラフアノテーションに直接変換できる。 実験の結果、データセットでトレーニングされたパーサは、忠実さと一貫性の観点から既存のアプローチよりも優れています。 この改善は、画像キャプション評価とゼロショット画像検索タスクの両方において、大幅なパフォーマンス向上をもたらす。 さらに,シーングラフの類似度を測定するための新しい指標を導入し,改良されたシーングラフパーサと組み合わせることで,上記タスクの複数のベンチマークデータセットで最先端(sota)結果を得る。 コードとデータセットはhttps://github.com/zhuang-li/factualで入手できる。

Textual scene graph parsing has become increasingly important in various vision-language applications, including image caption evaluation and image retrieval. However, existing scene graph parsers that convert image captions into scene graphs often suffer from two types of errors. First, the generated scene graphs fail to capture the true semantics of the captions or the corresponding images, resulting in a lack of faithfulness. Second, the generated scene graphs have high inconsistency, with the same semantics represented by different annotations. To address these challenges, we propose a novel dataset, which involves re-annotating the captions in Visual Genome (VG) using a new intermediate representation called FACTUAL-MR. FACTUAL-MR can be directly converted into faithful and consistent scene graph annotations. Our experimental results clearly demonstrate that the parser trained on our dataset outperforms existing approaches in terms of faithfulness and consistency. This improvement leads to a significant performance boost in both image caption evaluation and zero-shot image retrieval tasks. Furthermore, we introduce a novel metric for measuring scene graph similarity, which, when combined with the improved scene graph parser, achieves state-of-the-art (SOTA) results on multiple benchmark datasets for the aforementioned tasks. The code and dataset are available at https://github.com/zhuang-li/FACTUAL .
翻訳日:2023-06-02 21:17:04 公開日:2023-06-01
# 確率勾配Descenceにおける動的安定性の帰納規則化

The Implicit Regularization of Dynamical Stability in Stochastic Gradient Descent ( http://arxiv.org/abs/2305.17490v2 )

ライセンス: Link先を確認
Lei Wu, Weijie J. Su(参考訳) 本稿では, 確率勾配勾配(SGD)の暗黙的正則化を, {\displaystyle {\em dynamical stability} のレンズを通して検討する(Wu et al., 2018)。 まずsgdの既存の安定性解析を改訂し、フロベニウスのノルムとヘッセンのトレースが安定性の異なる概念とどのように関係しているかを示す。 特に、大域的最小値が SGD に対して線形安定であれば、ヘッセン語のトレースは 2/\eta$ 以下でなければならず、$\eta$ は学習率を表す。 対照的に、勾配降下 (gd) では、安定性は同様の制約を課すが、ヘッセンの最大固有値にのみ依存する。 次に、これらの安定ミニマの一般化特性を解析し、2層ReLUネットワークと対角線ネットワークに焦点をあてる。 特に、これらのシャープネスの測定値と2つのモデルに対するパラメータノルムとの等価性を確立し、SGDの安定な最小値が確実に一般化可能であることを示す。 対照的に、gd の安定性によって引き起こされる正則化は、十分に一般化するには弱すぎる。 この矛盾は、SGD が GD よりもよく一般化する理由を説明する。 学習速度(LR)は安定誘導正規化の強さにおいて重要な役割を果たす。 LRが増加するにつれて正規化効果がより顕著になり、より大きなLRを持つSGDが常に優れた一般化能力を示す理由が解明される。 さらに,我々の理論的知見を裏付ける数値実験を行った。

In this paper, we study the implicit regularization of stochastic gradient descent (SGD) through the lens of {\em dynamical stability} (Wu et al., 2018). We start by revising existing stability analyses of SGD, showing how the Frobenius norm and trace of Hessian relate to different notions of stability. Notably, if a global minimum is linearly stable for SGD, then the trace of Hessian must be less than or equal to $2/\eta$, where $\eta$ denotes the learning rate. By contrast, for gradient descent (GD), the stability imposes a similar constraint but only on the largest eigenvalue of Hessian. We then turn to analyze the generalization properties of these stable minima, focusing specifically on two-layer ReLU networks and diagonal linear networks. Notably, we establish the {\em equivalence} between these metrics of sharpness and certain parameter norms for the two models, which allows us to show that the stable minima of SGD provably generalize well. By contrast, the stability-induced regularization of GD is provably too weak to ensure satisfactory generalization. This discrepancy provides an explanation of why SGD often generalizes better than GD. Note that the learning rate (LR) plays a pivotal role in the strength of stability-induced regularization. As the LR increases, the regularization effect becomes more pronounced, elucidating why SGD with a larger LR consistently demonstrates superior generalization capabilities. Additionally, numerical experiments are provided to support our theoretical findings.
翻訳日:2023-06-02 21:16:40 公開日:2023-06-01
# ディープラーニングモデルの概要と比較分析:CNN, RNN, LSTM, GRU

A Comprehensive Overview and Comparative Analysis on Deep Learning Models: CNN, RNN, LSTM, GRU ( http://arxiv.org/abs/2305.17473v2 )

ライセンス: Link先を確認
Farhad Mortezapour Shiri, Thinagaran Perumal, Norwati Mustapha, Raihani Mohamed(参考訳) ディープラーニング(DL)は、機械学習(ML)と人工知能(AI)の強力なサブセットとして現れ、特に非構造化および大規模データセットの処理において、従来のMLメソッドよりも優れています。 その影響は、音声認識、ヘルスケア、自動運転車、サイバーセキュリティ、予測分析など、さまざまなドメインに及んでいる。 しかし、現実世界の問題の複雑さと動的性質は、効果的なディープラーニングモデルを設計する上での課題をもたらす。 その結果、様々な問題や応用に取り組むために、いくつかのディープラーニングモデルが開発された。 本稿では、畳み込みニューラルネットワーク(cnns)、リカレントニューラルネットワーク(rnn)、生成モデル、深層強化学習(drl)、深層伝達学習など、さまざまなディープラーニングモデルに関する総合的な調査を行う。 我々は,各モデルの構造,アプリケーション,メリット,および制限について検討する。 さらに、imdb, aras, fruit-360の3つの公開データセットを用いて分析を行う。 CNN,Simple RNN,Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), Bidirectional GRUの6つの有名なディープラーニングモデルの性能を比較した。

Deep learning (DL) has emerged as a powerful subset of machine learning (ML) and artificial intelligence (AI), outperforming traditional ML methods, especially in handling unstructured and large datasets. Its impact spans across various domains, including speech recognition, healthcare, autonomous vehicles, cybersecurity, predictive analytics, and more. However, the complexity and dynamic nature of real-world problems present challenges in designing effective deep learning models. Consequently, several deep learning models have been developed to address different problems and applications. In this article, we conduct a comprehensive survey of various deep learning models, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Generative Models, Deep Reinforcement Learning (DRL), and Deep Transfer Learning. We examine the structure, applications, benefits, and limitations of each model. Furthermore, we perform an analysis using three publicly available datasets: IMDB, ARAS, and Fruit-360. We compare the performance of six renowned deep learning models: CNN, Simple RNN, Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), and Bidirectional GRU.
翻訳日:2023-06-02 21:16:15 公開日:2023-06-01
# 神経エージェントの注意スキーマ

Attention Schema in Neural Agents ( http://arxiv.org/abs/2305.17375v2 )

ライセンス: Link先を確認
Dianbo Liu, Samuele Bolotta, He Zhu, Yoshua Bengio, Guillaume Dumas(参考訳) ディープラーニングアーキテクチャでは、注意が一般的な要素になっている。 重み付けによってサポートされている情報の静的な選択の上に、情報の動的選択を追加している。 同様に、注意の上に構築された高次情報フィルタを想像することができる:注意スキーマ(as)、すなわち注意の記述と予測モデル。 認知神経科学において、注意スキーマ理論(AST)は、注意をASと区別するこの考え方を支持している。 この理論の強い予測は、エージェントが自身のASを使用して他のエージェントの注意を推論し、結果として他のエージェントとの協調を強化することができるということである。 このように、多エージェント強化学習は、ASTの有効性を実験的に検証するのに理想的な設定である。 我々は、注意とアソシエーションが互いに相互作用する方法を探究する。 予備結果は,asをリカレント内部制御として実装したエージェントが最高の性能を得ることを示す。 一般に、これらの探索実験は、注意モデルによる人工エージェントの装備が、彼らの社会的知性を高めることを示唆している。

Attention has become a common ingredient in deep learning architectures. It adds a dynamical selection of information on top of the static selection of information supported by weights. In the same way, we can imagine a higher-order informational filter built on top of attention: an Attention Schema (AS), namely, a descriptive and predictive model of attention. In cognitive neuroscience, Attention Schema Theory (AST) supports this idea of distinguishing attention from AS. A strong prediction of this theory is that an agent can use its own AS to also infer the states of other agents' attention and consequently enhance coordination with other agents. As such, multi-agent reinforcement learning would be an ideal setting to experimentally test the validity of AST. We explore different ways in which attention and AS interact with each other. Our preliminary results indicate that agents that implement the AS as a recurrent internal control achieve the best performance. In general, these exploratory experiments suggest that equipping artificial agents with a model of attention can enhance their social intelligence.
翻訳日:2023-06-02 21:15:53 公開日:2023-06-01
# 大規模言語モデルにおける異種価値評価

Heterogeneous Value Evaluation for Large Language Models ( http://arxiv.org/abs/2305.17147v2 )

ライセンス: Link先を確認
Zhaowei Zhang, Nian Liu, Siyuan Qi, Ceyao Zhang, Ziqi Rong, Song-Chun Zhu, Shuguang Cui, Yaodong Yang(参考訳) 大規模言語モデル(llm)の創発的な能力は、それらの価値を人間のものと一致させることを重要にしている。 現在の方法論は、通常、均質な人間の価値とアライメントを試み、人間の検証を必要とするが、望ましい側面とアライメントの深さについてコンセンサスを欠いている。 本稿では,(1)個人バイアスを最小化するために自動化され,(2)多様な目標値に対する評価を可能とし,異種エージェントを育成する,異種価値システムによる自動アライメント評価手法であるa2ehvを提案する。 当社のアプローチは,目標値を満たす行動を実行するエージェントの能力を表す,価値合理性の概念を軸にしている。 価値合理性の定量化は、価値空間を4つのカテゴリに分割し、エージェントの行動から社会的嗜好を評価する社会的価値指向フレームワークによって促進される。 我々は8つの主要なLCMの値合理性を評価し、大きなモデルは強い個人値と比較して中性値の整合性が高いことを観察した。 これらのLCMの挙動を調べることにより、不均一な値体系における値アライメントのより深い理解に寄与する。

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. Current methodologies typically attempt alignment with a homogeneous human value and requires human verification, yet lack consensus on the desired aspect and depth of alignment and resulting human biases. In this paper, we propose A2EHV, an Automated Alignment Evaluation with a Heterogeneous Value system that (1) is automated to minimize individual human biases, and (2) allows assessments against various target values to foster heterogeneous agents. Our approach pivots on the concept of value rationality, which represents the ability for agents to execute behaviors that satisfy a target value the most. The quantification of value rationality is facilitated by the Social Value Orientation framework from social psychology, which partitions the value space into four categories to assess social preferences from agents' behaviors. We evaluate the value rationality of eight mainstream LLMs and observe that large models are more inclined to align neutral values compared to those with strong personal values. By examining the behavior of these LLMs, we contribute to a deeper understanding of value alignment within a heterogeneous value system.
翻訳日:2023-06-02 21:15:19 公開日:2023-06-01
# ghost in the minecraft: テキストベースの知識とメモリを持つ大規模言語モデルによるオープンワールド環境のエージェント

Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory ( http://arxiv.org/abs/2305.17144v2 )

ライセンス: Link先を確認
Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai(参考訳) 近年、Minecraftの魅惑的な領域は、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊富なプラットフォームとして、かなりの研究関心を集めている。 しかし、現在の研究の展望は主に一般的な「オブタンダイアモンド」タスクのような特定の目的に焦点を当てており、より広い範囲のタスクに対して効果的な一般化をまだ示していない。 さらに、"ObtainDiamond"タスクの現在の成功率は約20%であり、既存のメソッドで使用される強化学習(RL)ベースのコントローラの制限を強調している。 これらの課題に対処するために、Ghost in the Minecraft (GITM)という、テキストベースの知識と記憶とLarge Language Models (LLM)を統合した新しいフレームワークを紹介します。 これらのエージェントはLLMの論理的・常識的能力を備えており、テキストベースのインタラクションで複雑な疎逆環境を巧みにナビゲートすることができる。 我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 結果として生じるLCMベースのエージェントは、従来のRLベースのコントローラよりも優れたロバスト性を示し、"ObtainDiamond"タスクで+47.5%の成功率を著しく向上させた。 特に、当社のエージェントはminecraft overworld technology treeのすべてのアイテムを初めて入手し、その広範な機能を示しました。 GITMはトレーニングにGPUを必要としないが、32CPUコアを持つ単一のCPUノードで十分である。 本研究は,LLMが長期の複雑なタスクに対処し,オープンワールド環境における不確実性に適応するための有能なエージェントを開発する可能性を示す。 プロジェクトのWebサイトはhttps://github.com/OpenGVLab/GITMを参照してください。

The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
翻訳日:2023-06-02 21:14:50 公開日:2023-06-01
# 継続的強化学習のためのポリシー最適化

Policy Optimization for Continuous Reinforcement Learning ( http://arxiv.org/abs/2305.18901v2 )

ライセンス: Link先を確認
Hanyang Zhao, Wenpin Tang, David D. Yao(参考訳) 本研究では,連続時間と空間の設定における強化学習(rl)について,確率微分方程式によって駆動される無限大地平線と基礎となる力学について検討する。 RLへの継続的なアプローチの最近の進歩を基盤として、職業時間(具体的には割引対象)の概念を開発し、性能差と局所近似式を効果的に導出する方法を示す。 さらに、これらの結果を拡張し、PG(政治勾配)とTRPO/PPO(信頼地域政策最適化/近位政策最適化)の手法で、離散的なRL設定では馴染み深く、かつ強力なツールであるが、連続的なRLでは未開発であることを示す。 数値実験により,本手法の有効性と利点を実証した。

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.
翻訳日:2023-06-02 21:07:28 公開日:2023-06-01
# 教師なし多変量時系列表現学習のためのコントラストシェープレット学習

Contrastive Shapelet Learning for Unsupervised Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2305.18888v2 )

ライセンス: Link先を確認
Zhiyu Liang, Jianfeng Zhang, Chen Liang, Hongzhi Wang, Zheng Liang, Lujia Pan(参考訳) 最近の研究は、多変量時系列に対する教師なし表現学習(URL)において、URLはアクセス不能なラベルを使わずに多くの下流タスクに対して一般化可能な表現を学習する能力を持っているため、大きな可能性を示している。 しかし、既存のアプローチは通常、他のドメイン(例えばコンピュータビジョン)向けに設計されたモデルを採用して時系列データをエンコードし、学習目標を設計するための強い仮定に依存している。 これらの問題に対処するために,一般的なコントラスト学習パラダイムを通じて,時系列特異的なシェープレット表現を学習することにより,多変量時系列のための新しいurlフレームワークを提案する。 私たちの知る限りでは、これは教師なしの汎用表現学習にシェープレットベースの埋め込みを探求する最初の作品です。 統一シェープレット型エンコーダと,多粒度コントラストとマルチスケールアライメントを用いた新しい学習目標を特に目標として設計し,その一般化のためにデータ拡張ライブラリを用いた。 我々は,何万もの実世界のデータセットを用いて,分類,クラスタリング,異常検出など,多くの下流タスクにおける表現品質の評価を行う。 提案手法は,URLコンペティタだけでなく,ダウンストリームタスク用に特別に設計された技術に対して優れていることを示す。 私たちのコードはhttps://github.com/real2fish/CSLで公開されています。

Recent studies have shown great promise in unsupervised representation learning (URL) for multivariate time series, because URL has the capability in learning generalizable representation for many downstream tasks without using inaccessible labels. However, existing approaches usually adopt the models originally designed for other domains (e.g., computer vision) to encode the time series data and rely on strong assumptions to design learning objectives, which limits their ability to perform well. To deal with these problems, we propose a novel URL framework for multivariate time series by learning time-series-specific shapelet-based representation through a popular contrasting learning paradigm. To the best of our knowledge, this is the first work that explores the shapelet-based embedding in the unsupervised general-purpose representation learning. A unified shapelet-based encoder and a novel learning objective with multi-grained contrasting and multi-scale alignment are particularly designed to achieve our goal, and a data augmentation library is employed to improve the generalization. We conduct extensive experiments using tens of real-world datasets to assess the representation quality on many downstream tasks, including classification, clustering, and anomaly detection. The results demonstrate the superiority of our method against not only URL competitors, but also techniques specially designed for downstream tasks. Our code has been made publicly available at https://github.com/real2fish/CSL.
翻訳日:2023-06-02 21:07:15 公開日:2023-06-01
# ビジュアルプログラミングのためのニューラルタスク合成

Neural Task Synthesis for Visual Programming ( http://arxiv.org/abs/2305.18342v2 )

ライセンス: Link先を確認
Victor-Alexandru P\u{a}durean, Georgios Tzannetos, Adish Singla(参考訳) 生成型ニューラルモデルは、学生向けの新しいコンテンツを合成することで、プログラミング教育の強化に大いに貢献する。 視覚的プログラミング領域のコンテキストにおいて、与えられた仕様のプログラミングタスクを自動的に生成できるニューラルモデルを設計することを模索する。 GPT-4のような大規模生成モデルの成功にもかかわらず、初期の結果は、これらのモデルが視覚プログラミングのタスクを合成し、論理的および空間的推論に苦しむのに効果がないことを示している。 本稿では,ニューラルシンボリックな手法であるNeurTaskSynを提案し,その解法コードと視覚的タスクの制約により,所望のプログラミング概念の形で与えられた仕様のプログラミングタスクを合成する。 neurtasksynには2つのコンポーネントがある。 第一のコンポーネントは模倣学習手順でトレーニングされ、第二のコンポーネントは強化学習手順によってトレーニングされ、これらのコードに対して視覚的なタスクを生成する基盤となるシンボリック実行エンジンをガイドする。 Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming by Code-dot-org, and the Intro to Programming with Karel course by CodeHS-dot-com。

Generative neural models hold great promise in enhancing programming education by synthesizing new content for students. We seek to design neural models that can automatically generate programming tasks for a given specification in the context of visual programming domains. Despite the recent successes of large generative models like GPT-4, our initial results show that these models are ineffective in synthesizing visual programming tasks and struggle with logical and spatial reasoning. We propose a novel neuro-symbolic technique, NeurTaskSyn, that can synthesize programming tasks for a specification given in the form of desired programming concepts exercised by its solution code and constraints on the visual task. NeurTaskSyn has two components: the first component is trained via imitation learning procedure to generate possible solution codes, and the second component is trained via reinforcement learning procedure to guide an underlying symbolic execution engine that generates visual tasks for these codes. We demonstrate the effectiveness of NeurTaskSyn through an extensive empirical evaluation and a qualitative study on reference tasks taken from the Hour of Code: Classic Maze challenge by Code-dot-org and the Intro to Programming with Karel course by CodeHS-dot-com.
翻訳日:2023-06-02 21:06:36 公開日:2023-06-01
# 実世界のスーパーリゾリューションにおける高精度一般化トレードオフのためのクラフトトレーニング劣化分布

Crafting Training Degradation Distribution for the Accuracy-Generalization Trade-off in Real-World Super-Resolution ( http://arxiv.org/abs/2305.18107v2 )

ライセンス: Link先を確認
Ruofan Zhang, Jinjin Gu, Haoyu Chen, Chao Dong, Yulun Zhang, Wenming Yang(参考訳) 超解像(SR)技術は、一般に、一般化性能と復元精度の2つの主要な課題に直面する。 一般化を促進するために,複雑な大規模分解を用いて手法を訓練する場合,精度の低下が避けられないことを示す。 しかし、ある実世界のアプリケーションにおける劣化は、通常、限定的な変動範囲を示すため、このスコープでの一般化性能とテスト精度のトレードオフを犯すことができる。 そこで本研究では,少数の参照画像を用いたクラフトトレーニング劣化分布の新しい手法を提案する。 我々の戦略は分解空間の双対表現と分解分布の間のfr\'echet距離に基づいている。 提案手法は,実世界のアプリケーションにおける一般化能力を保ちながら,テスト画像の性能を著しく向上することを示す。

Super-resolution (SR) techniques designed for real-world applications commonly encounter two primary challenges: generalization performance and restoration accuracy. We demonstrate that when methods are trained using complex, large-range degradations to enhance generalization, a decline in accuracy is inevitable. However, since the degradation in a certain real-world applications typically exhibits a limited variation range, it becomes feasible to strike a trade-off between generalization performance and testing accuracy within this scope. In this work, we introduce a novel approach to craft training degradation distributions using a small set of reference images. Our strategy is founded upon the binned representation of the degradation space and the Fr\'echet distance between degradation distributions. Our results indicate that the proposed technique significantly improves the performance of test images while preserving generalization capabilities in real-world applications.
翻訳日:2023-06-02 21:06:14 公開日:2023-06-01
# 物理に変形したコンピュータビジョン : レビューと展望

Physics-Informed Computer Vision: A Review and Perspectives ( http://arxiv.org/abs/2305.18035v2 )

ライセンス: Link先を確認
Chayan Banerjee, Kien Nguyen, Clinton Fookes, George Karniadakis(参考訳) 機械学習フレームワークにおける物理情報の取り込みは、多くのアプリケーションドメインを開放し、変換している。 ここでは、基本的な知識の誘導と物理法則の統制を通じて学習プロセスが強化される。 本研究では,視覚データの解釈と理解におけるコンピュータビジョンタスクの有用性について検討する。 本稿では,物理法則に基づくコンピュータビジョンタスクの定式化とアプローチに関する体系的文献レビューを行う。 まず,一般的なコンピュータビジョンパイプラインを段階分類に分解し,各段階に物理方程式を組み込む手法を検討する。 各タスクにおける既存のアプローチは、物理プロセスがモデル化され、形式化され、どのように組み込まれているか、すなわちデータの修正(観察バイアス)、ネットワークの変更(帰納バイアス)、損失の修正(学習バイアス)に関して分析される。 分類学は、物理学インフォームド能力の適用を統一的に捉え、物理学インフォームド・ラーニングがどこで行われ、ギャップと機会がどこにあるかを強調している。 最後に、今後の研究を知らせるためのオープンな問題と課題を強調します。 まだ初期の段階だが、物理に変形したコンピュータビジョンの研究は、より現実的なアプリケーションにおいて、物理的実用性、正確性、データ効率、一般化を改善できるより良いコンピュータビジョンモデルの開発を約束している。

Incorporation of physical information in machine learning frameworks are opening and transforming many application domains. Here the learning process is augmented through the induction of fundamental knowledge and governing physical laws. In this work we explore their utility for computer vision tasks in interpreting and understanding visual data. We present a systematic literature review of formulation and approaches to computer vision tasks guided by physical laws. We begin by decomposing the popular computer vision pipeline into a taxonomy of stages and investigate approaches to incorporate governing physical equations in each stage. Existing approaches in each task are analyzed with regard to what governing physical processes are modeled, formulated and how they are incorporated, i.e. modify data (observation bias), modify networks (inductive bias), and modify losses (learning bias). The taxonomy offers a unified view of the application of the physics-informed capability, highlighting where physics-informed learning has been conducted and where the gaps and opportunities are. Finally, we highlight open problems and challenges to inform future research. While still in its early days, the study of physics-informed computer vision has the promise to develop better computer vision models that can improve physical plausibility, accuracy, data efficiency and generalization in increasingly realistic applications.
翻訳日:2023-06-02 21:05:36 公開日:2023-06-01
# 部分微分方程式のスケッチによる粒子とテンソルネットワークの組合せ

Combining Particle and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v2 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 提案手法は,最近提案するテンソルトレインスケッチ手法を用いて,新しい解をテンソルネットワークとして更新し,再評価するために粒子シミュレーションを併用した包括的解法を提供する。 本手法は, 粒子がテンソルネットワークを起点と仮定して粒子数制御を行うための代替手法としても解釈できる。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を実証する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach offers a comprehensive solution methodology, wherein we employ a combination of particle simulations to update the solution and re-estimations of the new solution as a tensor-network using a recently proposed tensor train sketching technique. Our method can also be interpreted as an alternative approach for performing particle number control by assuming the particles originate from an underlying tensor network. We demonstrate the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo.
翻訳日:2023-06-02 21:05:01 公開日:2023-06-01
# シャープネスを考慮したマルチデータセット協調学習

Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing ( http://arxiv.org/abs/2305.19953v2 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen(参考訳) 自動話者認証のための音声アンチスプーフィングは、スプーフィング攻撃からユーザのアイデンティティを保護することを目的としている。 最先端スプーフィング対策(CM)モデルは特定のデータセットでよく機能するが、異なるデータセットで評価すると一般化が欠如する。 この制限に対処するため、以前の研究では、かなりのリソースと時間を要する大規模な事前訓練モデルについて検討してきた。 我々は,大規模事前学習モデルと競合するコンパクトかつ一般化したcmモデルの開発を目指している。 このアプローチには,マルチデータセットのコトレーニングとシャープネス認識の最小化が関与する。 大規模な実験により,提案手法は,大規模な事前学習モデルよりも4,000倍少ないパラメータを生かしながら,各種データセット間の競争結果が得られることがわかった。

Audio anti-spoofing for automatic speaker verification aims to safeguard users' identities from spoofing attacks. Although state-of-the-art spoofing countermeasure(CM) models perform well on specific datasets, they lack generalization when evaluated with different datasets. To address this limitation, previous studies have explored large pre-trained models, which require significant resources and time. We aim to develop a compact but well-generalizing CM model that can compete with large pre-trained models. Our approach involves multi-dataset co-training and sharpness-aware minimization, which has not been investigated in this domain. Extensive experiments reveal that proposed method yield competitive results across various datasets while utilizing 4,000 times less parameters than the large pre-trained models.
翻訳日:2023-06-02 20:58:12 公開日:2023-06-01
# 推薦のための大規模言語モデルに関する調査

A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v2 )

ライセンス: Link先を確認
Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen(参考訳) 自然言語処理(nlp)の分野では,大規模言語モデル(llm)が強力なツールとして登場し,最近はレコメンデーションシステム(rs)の分野で大きな注目を集めている。 これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍表現の学習において顕著な成功を示しており、微調整やプロンプトチューニングなどの効果的な転送技術によって、レコメンデーションシステムの様々な側面を強化する可能性を秘めている。 推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関を確立するための外部知識の広範なカバレッジである。 既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。 さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。 さらに、研究者や実践者にインスピレーションを与える上で、重要な課題といくつかの重要な発見を特定する。 また、レコメンデーションのためにLLMに関する関連書類をインデックスするGitHubリポジトリも作成しました。

Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. We have also created a GitHub repository to index relevant papers on LLMs for recommendation, https://github.com/WLiK/LLM4Rec.
翻訳日:2023-06-02 20:57:25 公開日:2023-06-01
# チュートリアル:オープン量子システムへのプロジェクターアプローチ

Tutorial: projector approach to open quantum systems ( http://arxiv.org/abs/2305.19704v2 )

ライセンス: Link先を確認
C. Gonzalez-Ballestero(参考訳) ほとんどの量子理論家は、ボルン=マルコフマスター方程式や断熱除去のような外部自由度に結合したシステムの効果的な量子力学を記述する異なる方法に精通している。 これらの明らかに無関係な手法間の深いつながりを理解することは強力なツールであり、非伝統的なシステムや体制における効果的なダイナミクスを導出することができる。 このチュートリアルは、nレベルエミッタからメカニカル共振器まで、システムに適用可能な効果的な量子力学を導出するための自己完結型実用的なツールボックスによって、複数の分野(量子光学、原子光学、光メカニクス、ハイブリッド量子システムなど)にまたがる量子論者に提供することを目的としている。 まず,開量子システムへのプロジェクタアプローチと,中島-ツワンジヒ方程式の導出について概説する。 そこで本研究では,中島・ズワンツィヒ方程式の摂動膨張から,ボルン・マルコフ・マスター方程式,原子物理学における断熱除去,サイドバンド冷却における断熱除去の3つの共通効用方程式を導出した。 また、ラムダ系における断熱除去と、光学キャビティによって冷却される機械共振器の有効方程式という、2つの具体的な例を詳細に解く。

Most quantum theorists are familiar with different ways of describing the effective quantum dynamics of a system coupled to external degrees of freedom, such as the Born-Markov master equation or the adiabatic elimination. Understanding the deep connection between these apparently unrelated methods can be a powerful tool, allowing us to derive effective dynamics in unconventional systems or regimes. This tutorial aims at providing quantum theorists across multiple fields (e.g. quantum and atom optics, optomechanics, or hybrid quantum systems) with a self-contained practical toolbox to derive effective quantum dynamics, applicable to systems ranging from N-level emitters to mechanical resonators. First, we summarize the projector approach to open quantum systems and the derivation of the fundamental Nakajima-Zwanzig equation. Then, we show how three common effective equations, namely the Born-Markov Master Equation, the adiabatic elimination used in atom physics, and a different adiabatic elimination used in sideband cooling, can be derived from different perturbative expansions of the Nakajima-Zwanzig equation. We also solve in detail two specific examples using this formalism, namely the adiabatic elimination in a Lambda system and the effective equations of a mechanical resonator cooled by an optical cavity.
翻訳日:2023-06-02 20:56:56 公開日:2023-06-01
# 絡み合った光によるLEOクロック同期

LEO Clock Synchronization with Entangled Light ( http://arxiv.org/abs/2305.19639v2 )

ライセンス: Link先を確認
Ronakraj Gosalia, Robert Malaney, Ryan Aguinaldo, Jonathan Green and Peter Brereton(参考訳) 精密ナビゲーションとタイミング、非常に長いベースライン干渉計、次世代通信、センシング、基礎物理学のテストはすべて、高度に同期されたクロックネットワークを必要とする。 高精度の光原子時計の進歩により、同期の精度の要求は古典物理学の限界(つまり標準量子限界、sql)に達している。 基本的な Heisenberg の限界に達するために,SQL を効率よく克服することは,シャープされた光や絡み合った光を使用することで実現できる。 ハイゼンベルク限界へのアプローチは理論的にはよく理解されているが、空間ベースのプラットフォームのような実用的な実装では、その利点は追加のコストと複雑さを上回っている。 エンタングルメントは、失われた衛星から衛星へのチャネルに対するクロック同期において、量子的な優位性をもたらすか? 非対称な損失チャネルでも、2モードの絡み合いの性質によって得られる冗長性が回復可能であることを示す。 さらに,この回復性は,単一モードのスクイーズセンシングよりも改善され,空間ベースのセンシングアプリケーションに対する新しい複雑さとパフォーマンスのトレードオフを示す。

Precision navigation and timing, very-long-baseline interferometry, next-generation communication, sensing, and tests of fundamental physics all require a highly synchronized network of clocks. With the advance of highly-accurate optical atomic clocks, the precision requirements for synchronization are reaching the limits of classical physics (i.e. the standard quantum limit, SQL). Efficiently overcoming the SQL to reach the fundamental Heisenberg limit can be achieved via the use of squeezed or entangled light. Although approaches to the Heisenberg limit are well understood in theory, a practical implementation, such as in space-based platforms, requires that the advantage outweighs the added costs and complexity. Here, we focus on the question: can entanglement yield a quantum advantage in clock synchronization over lossy satellite-to-satellite channels? We answer in the affirmative, showing that the redundancy afforded by the two-mode nature of entanglement allows recoverability even over asymmetrically lossy channels. We further show this recoverability is an improvement over single-mode squeezing sensing, thereby illustrating a new complexity-performance trade-off for space-based sensing applications.
翻訳日:2023-06-02 20:56:31 公開日:2023-06-01
# DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer ( http://arxiv.org/abs/2305.19567v2 )

ライセンス: Link先を確認
Yerin Choi, Myoung-Wan Koo(参考訳) TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。 本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。 近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。 具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。 さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。 その結果、プロソディ転送TSをエンドツーエンドで訓練する。 本手法は主観的評価と客観的評価の両方を通して有効性を示す。 実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。 さらに,少ないパラメータを入力しても比較結果が得られる。

Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted.
翻訳日:2023-06-02 20:56:11 公開日:2023-06-01
# 原子配列$^{171}$ybにおける中回路量子ビットの測定と再構成

Mid-circuit qubit measurement and rearrangement in a $^{171}$Yb atomic array ( http://arxiv.org/abs/2305.19119v2 )

ライセンス: Link先を確認
M. A. Norcia, W. B. Cairncross, K. Barnes, P. Battaglino, A. Brown, M. O. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, A. M. W. Jones, H. Kim, J. M. Kindem, J. King, S. S. Kondov, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J. A. Muniz, S. Narayanaswami, C. Nishiguchi, R. Notermans, T. Paule, K. Pawlak, L. Peng, A. Ryou, A. Smull, D. Stack, M. Stone, A. Sucich, M. Urbanek, R. van de Veerdonk, Z. Vendeiro, T. Wilkason, T.-Y. Wu, X. Xie, X. Zhang, B. J. Bloom(参考訳) 測定に基づく量子誤り訂正は、残りの量子ビットの状態を明らかにしたり邪魔したりすることなく、プロセッサ内の量子ビット(アンシラ)のサブセットの状態を決定する能力に依存する。 中性原子ベースのプラットフォームでは、アンシラキュービットを将来の操作に適した状態で保持する中回路計測へのスケーラブルで高忠実なアプローチはまだ実証されていない。 本研究では,Tweezer-confined $^{171}$Yb 原子配列の狭い直線遷移を用いてイメージングを行い,非破壊的な状態選択およびサイト選択検出を示す。 サイト固有の光シフトを適用することで、アレイ内の選択された原子を撮像光から隠蔽することができるため、残りの量子ビットにパーセンテージレベルのエラーしか発生せず、キュービットのサブセットを測定できる。 中間回路測定結果に基づく条件付き操作の原理実証と,この条件付き量子ビットを再利用する能力の実証として,データキュービットのコヒーレンスを維持しつつ,アシラサイトを条件付きで満たし,時折アトムロスを補正する。 真の連続動作をめざして、最小の量子ビットデコヒーレンスを持つ磁気光学トラップの載荷を実演する。

Measurement-based quantum error correction relies on the ability to determine the state of a subset of qubits (ancillae) within a processor without revealing or disturbing the state of the remaining qubits. Among neutral-atom based platforms, a scalable, high-fidelity approach to mid-circuit measurement that retains the ancilla qubits in a state suitable for future operations has not yet been demonstrated. In this work, we perform imaging using a narrow-linewidth transition in an array of tweezer-confined $^{171}$Yb atoms to demonstrate nondestructive state-selective and site-selective detection. By applying site-specific light shifts, selected atoms within the array can be hidden from imaging light, which allows a subset of qubits to be measured while causing only percent-level errors on the remaining qubits. As a proof-of-principle demonstration of conditional operations based on the results of the mid-circuit measurements, and of our ability to reuse ancilla qubits, we perform conditional refilling of ancilla sites to correct for occasional atom loss, while maintaining the coherence of data qubits. Looking towards true continuous operation, we demonstrate loading of a magneto-optical trap with a minimal degree of qubit decoherence.
翻訳日:2023-06-02 20:55:59 公開日:2023-06-01
# 単一spoofing-aware speaker verification embeddedsに向けて

Towards single integrated spoofing-aware speaker verification embeddings ( http://arxiv.org/abs/2305.19051v2 )

ライセンス: Link先を確認
Sung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang, Xuechen Liu, Md Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong Aik Lee, Junichi Yamagishi, Nicholas Evans, Tomi Kinnunen, Nam Soo Kim, and Jee-weon Jung(参考訳) 本研究は,2つの側面を満たす1つの統合スプーフィング対応話者検証(SASV)の組込みを開発することを目的とする。 まず、ターゲット以外の話者の入力とターゲット話者のスプーフ入力を拒否する。 第2に、自動話者検証(ASV)と対策(CM)の融合との比較により、SASV2022の課題において、単一埋め込みソリューションよりも優れた競合性能を示すべきである。 単一のSASV埋め込みの劣った性能は、トレーニングデータの不足と、ASVおよびCMタスクの異なる性質から生じると分析する。 そこで本研究では,多段階学習と損失関数の組み合わせを含む新しいフレームワークを提案する。 コピー合成といくつかのボコーダを組み合わせることで、スプーフデータの欠如にも対処することができる。 実験結果から,SASV2022課題の評価プロトコルにおいて,SASV-EERが1.06%に達した。

This study aims to develop a single integrated spoofing-aware speaker verification (SASV) embeddings that satisfy two aspects. First, rejecting non-target speakers' input as well as target speakers' spoofed inputs should be addressed. Second, competitive performance should be demonstrated compared to the fusion of automatic speaker verification (ASV) and countermeasure (CM) embeddings, which outperformed single embedding solutions by a large margin in the SASV2022 challenge. We analyze that the inferior performance of single SASV embeddings comes from insufficient amount of training data and distinct nature of ASV and CM tasks. To this end, we propose a novel framework that includes multi-stage training and a combination of loss functions. Copy synthesis, combined with several vocoders, is also exploited to address the lack of spoofed data. Experimental results show dramatic improvements, achieving a SASV-EER of 1.06% on the evaluation protocol of the SASV2022 challenge.
翻訳日:2023-06-02 20:55:35 公開日:2023-06-01
# 加速指紋強調:GPU最適化混合アーキテクチャアプローチ

Accelerated Fingerprint Enhancement: A GPU-Optimized Mixed Architecture Approach ( http://arxiv.org/abs/2306.00272v1 )

ライセンス: Link先を確認
Andr\'e Brasil Vieira Wyzykowski, Anil K. Jain(参考訳) 本論文は,Unet混合アーキテクチャを中心に設計された潜伏指紋強調への予備的アプローチを示す。 Resnet-101ネットワークとUnetエンコーダの能力を組み合わせることで、潜在的に強力なコンポジットを作ることを目指している。 この組み合わせは、注意機構と前方スキップ接続によって強化され、指紋の隆起と微小な特徴の増強を最適化することを目的としている。 このアプローチの革新的な要素の1つは、GPU計算用に特別に設計された新しいFingerprint Enhancement Gabor層である。 このことは、現代の計算資源をどのように活用して拡張を迅速化するかを示している。 cnnまたはtransformer層としての機能を考えると、このgabor層はシステムの俊敏性と処理速度を改善することができる。 ただし、このアプローチはまだ開発の初期段階にあり、厳密な実験によって完全に検証されていない点には注意が必要だ。 そのため、潜在指紋強調の分野で堅牢性とユーザビリティを確立するためには、追加の時間とテストが必要になる可能性がある。 これには、処理速度の向上、異なる潜在指紋タイプへの適応性の向上、open-set (identification 1:n) やopen-set validation、指紋品質評価などの実験的なアプローチでの完全な検証が含まれる。

This document presents a preliminary approach to latent fingerprint enhancement, fundamentally designed around a mixed Unet architecture. It combines the capabilities of the Resnet-101 network and Unet encoder, aiming to form a potentially powerful composite. This combination, enhanced with attention mechanisms and forward skip connections, is intended to optimize the enhancement of ridge and minutiae features in fingerprints. One innovative element of this approach includes a novel Fingerprint Enhancement Gabor layer, specifically designed for GPU computations. This illustrates how modern computational resources might be harnessed to expedite enhancement. Given its potential functionality as either a CNN or Transformer layer, this Gabor layer could offer improved agility and processing speed to the system. However, it is important to note that this approach is still in the early stages of development and has not yet been fully validated through rigorous experiments. As such, it may require additional time and testing to establish its robustness and usability in the field of latent fingerprint enhancement. This includes improvements in processing speed, enhancement adaptability with distinct latent fingerprint types, and full validation in experimental approaches such as open-set (identification 1:N) and open-set validation, fingerprint quality evaluation, among others.
翻訳日:2023-06-02 18:51:00 公開日:2023-06-01
# Jaynes-Cummings-Hubbardモデルにおける粒子ホールアンサッツ

Particle-Hole Ansatz in the Jaynes-Cummings-Hubbard Model ( http://arxiv.org/abs/2306.00270v1 )

ライセンス: Link先を確認
Moorad Alexanian(参考訳) Jaynes-Cummings-Hubbardモデル(JCHM)のホッピング相互作用項に適用された消滅演算子間の繰り返し関係アンサッツは、ホッピング強度に依存するボソンエネルギーを持つ通常のJaynes-Cummingsモデル(JCM)のものと、JCHMを減少させる。 これにより、モットー超流動相転移の位相図と、デチューニングの関数としての臨界ホッピング強度を計算することができる。

A recurrence relation ansatz between annihilation operators applied to the hopping interaction term of the Jaynes-Cummings-Hubbard model (JCHM) reduces the JCHM to that of the ordinary Jaynes-Cummings model (JCM), albeit, with a boson energy depending on the hopping strength. This allows us to calculate the phase diagram for the Mott-to-superfluid phase transition and the critical hopping strength as a function of the detuning.
翻訳日:2023-06-02 18:50:39 公開日:2023-06-01
# 最適決定境界探索のための混合の確率的便益

Provable Benefit of Mixup for Finding Optimal Decision Boundaries ( http://arxiv.org/abs/2306.00267v1 )

ライセンス: Link先を確認
Junsoo Oh, Chulee Yun(参考訳) 線形分類問題において,Mixupのようなペアワイドデータ拡張手法が最適決定境界の探索の複雑さに与える影響を検討する。 分離性定数 $\kappa$ を持つデータ分布の族に対して、トレーニング損失の観点で最適分類器がテスト精度(すなわちベイズ最適分類器)において最適分類器とどの程度よく一致するかを分析する。 拡張のないバニラトレーニングでは,分離性の呪いという興味深い現象が発見される。 データ分散をより分離可能にするために$\kappa$を増加させると、バニラトレーニングのサンプル複雑性は$\kappa$で指数関数的に増加する。 Mixupのトレーニングでは、Mixupはサンプルの複雑さを大幅に減らしてこの問題を軽減する。 そこで本研究では, 重なり合うペア間の依存関係を慎重に処理することにより, 独立データから構築した$n^2$のペアワイド拡張データポイントに適用可能な新しい集中度を求める。 最後に,マスクをベースとしたMixupスタイルの他の手法について検討し,トレーニング損失を歪曲し,その最小化をテスト精度で最適下分類器に収束させることを示す。

We investigate how pair-wise data augmentation techniques like Mixup affect the sample complexity of finding optimal decision boundaries in a binary linear classification problem. For a family of data distributions with a separability constant $\kappa$, we analyze how well the optimal classifier in terms of training loss aligns with the optimal one in test accuracy (i.e., Bayes optimal classifier). For vanilla training without augmentation, we uncover an interesting phenomenon named the curse of separability. As we increase $\kappa$ to make the data distribution more separable, the sample complexity of vanilla training increases exponentially in $\kappa$; perhaps surprisingly, the task of finding optimal decision boundaries becomes harder for more separable distributions. For Mixup training, we show that Mixup mitigates this problem by significantly reducing the sample complexity. To this end, we develop new concentration results applicable to $n^2$ pair-wise augmented data points constructed from $n$ independent data, by carefully dealing with dependencies between overlapping pairs. Lastly, we study other masking-based Mixup-style techniques and show that they can distort the training loss and make its minimizer converge to a suboptimal classifier in terms of test accuracy.
翻訳日:2023-06-02 18:50:28 公開日:2023-06-01
# 非消滅相関を用いたランダムグラフマッチングのための多項式時間反復アルゴリズム

A polynomial-time iterative algorithm for random graph matching with non-vanishing correlation ( http://arxiv.org/abs/2306.00266v1 )

ライセンス: Link先を確認
Jian Ding, Zhangsong Li(参考訳) 本稿では,2つの相関した Erd\H{o}s--R\enyi グラフと,エッジが潜在頂点対応によって相関する$n$頂点とのマッチングアルゴリズムを提案する。 定数$\alpha \in [0,1)$に対して、エッジ密度$q=n^{- \alpha+o(1)}$のとき、我々のアルゴリズムは多項式実行時間を持ち、エッジ相関が消滅しない限り遅延マッチングを回復することに成功した。 これは、2つのガウス・ウィグナー行列と非バニッシュ相関をマッチングする多項式時間アルゴリズムの以前の研究と密接に関連しており、エッジ相関がオッター定数の平方根以下(約0.338$)である場合、最初の多項式時間ランダムグラフマッチングアルゴリズム($q$の条件によらず)を提供する。

We propose an efficient algorithm for matching two correlated Erd\H{o}s--R\'enyi graphs with $n$ vertices whose edges are correlated through a latent vertex correspondence. When the edge density $q= n^{- \alpha+o(1)}$ for a constant $\alpha \in [0,1)$, we show that our algorithm has polynomial running time and succeeds to recover the latent matching as long as the edge correlation is non-vanishing. This is closely related to our previous work on a polynomial-time algorithm that matches two Gaussian Wigner matrices with non-vanishing correlation, and provides the first polynomial-time random graph matching algorithm (regardless of the regime of $q$) when the edge correlation is below the square root of the Otter's constant (which is $\approx 0.338$).
翻訳日:2023-06-02 18:50:02 公開日:2023-06-01
# ダブルロバストなセルフトレーニング

Doubly Robust Self-Training ( http://arxiv.org/abs/2306.00265v1 )

ライセンス: Link先を確認
Banghua Zhu, Mingyu Ding, Philip Jacobson, Ming Wu, Wei Zhan, Michael Jordan, Jiantao Jiao(参考訳) 自己学習は半教師付き学習問題を解決する重要な手法である。 擬似ラベルを生成して、限定ラベル付きデータセットと組み合わせてトレーニングすることで、ラベルのないデータを活用する。 自己学習の有効性は、これらの擬似ラベルの精度に大きく依存する。 本稿では,2つのエクストリーム間のバランスを確実に表す新しい半教師付きアルゴリズムである,二重頑健な自己学習を提案する。 擬似ラベルが完全に正しくない場合、ラベル付きデータのみを使用してトレーニングプロセスに還元する。 逆に、擬似ラベルが完全に正確である場合には、擬似ラベル付きデータとラベル付きデータを利用するトレーニングプロセスに変換し、有効サンプルサイズを増大させる。 画像分類のためのImageNetデータセットと3次元オブジェクト検出のためのnuScenes自律走行データセットの両方に関する実証的な評価を通じて、標準の自己学習ベースラインよりも2倍頑健な損失が優れていることを示す。

Self-training is an important technique for solving semi-supervised learning problems. It leverages unlabeled data by generating pseudo-labels and combining them with a limited labeled dataset for training. The effectiveness of self-training heavily relies on the accuracy of these pseudo-labels. In this paper, we introduce doubly robust self-training, a novel semi-supervised algorithm that provably balances between two extremes. When the pseudo-labels are entirely incorrect, our method reduces to a training process solely using labeled data. Conversely, when the pseudo-labels are completely accurate, our method transforms into a training process utilizing all pseudo-labeled data and labeled data, thus increasing the effective sample size. Through empirical evaluations on both the ImageNet dataset for image classification and the nuScenes autonomous driving dataset for 3D object detection, we demonstrate the superiority of the doubly robust loss over the standard self-training baseline.
翻訳日:2023-06-02 18:49:44 公開日:2023-06-01
# 最大領域独立表現は転校学習を改善する

Maximal Domain Independent Representations Improve Transfer Learning ( http://arxiv.org/abs/2306.00262v1 )

ライセンス: Link先を確認
Adrian Shuai Li, Elisa Bertino, Xuan-Hong Dang, Ankush Singla, Yuhai Tu, Mark N Wegman(参考訳) ドメイン適応(DA)は、ターゲットドメインの学習タスクに使用するソースドメインからトレーニングデータセットを、ターゲットで利用可能なデータと組み合わせて適用する。 DAの一般的なアプローチの1つは、すべての入力サンプルからジェネレータによって学習されたドメイン非依存表現(DIRep)を作成し、その上にラベル付きサンプルを使用して分類器を訓練することである。 DIRepからドメイン固有の特徴を除外するために、ジェネレータを逆さまに訓練するためにドメイン判別器が追加される。 しかし、この手法は正確な分類学習には不十分な情報を生み出す傾向にある。 本稿では,可変オートエンコーダと逆モデルを統合する新しい手法を提案する。 DIRepに加えて、ドメイン依存表現(DDRep)を導入し、DIRepとDDRepの両方からの情報が両ドメインからのサンプルを再構築するのに十分であることを示す。 さらにddrepのサイズをペナルティ化し,direpに対して可能な限り多くの情報を駆動することで,両ドメインのサンプルラベリングにおける分類器の精度を最大化する。 提案手法を合成データセットを用いて実験的に評価し,DDRepによりソース領域に導入されたスプリアスなクラス関連特徴が吸収されることを実証した。 これにより、ターゲットドメインでの正確な転送学習のためのリッチでクリーンなDIRepが残される。 我々はさらに,一般的な画像データセットに対して,他のアルゴリズムよりも優れた性能を示す。 また、トレーニング済みのモデルを活用できることも示します。

Domain adaptation (DA) adapts a training dataset from a source domain for use in a learning task in a target domain in combination with data available at the target. One popular approach for DA is to create a domain-independent representation (DIRep) learned by a generator from all input samples and then train a classifier on top of it using all labeled samples. A domain discriminator is added to train the generator adversarially to exclude domain specific features from the DIRep. However, this approach tends to generate insufficient information for accurate classification learning. In this paper, we present a novel approach that integrates the adversarial model with a variational autoencoder. In addition to the DIRep, we introduce a domain-dependent representation (DDRep) such that information from both DIRep and DDRep is sufficient to reconstruct samples from both domains. We further penalize the size of the DDRep to drive as much information as possible to the DIRep, which maximizes the accuracy of the classifier in labeling samples in both domains. We empirically evaluate our model using synthetic datasets and demonstrate that spurious class-related features introduced in the source domain are successfully absorbed by the DDRep. This leaves a rich and clean DIRep for accurate transfer learning in the target domain. We further demonstrate its superior performance against other algorithms for a number of common image datasets. We also show we can take advantage of pretrained models.
翻訳日:2023-06-02 18:49:28 公開日:2023-06-01
# 科学機械学習の基礎モデルに向けて:スケーリングと伝達の挙動を特徴付ける

Towards Foundation Models for Scientific Machine Learning: Characterizing Scaling and Transfer Behavior ( http://arxiv.org/abs/2306.00258v1 )

ライセンス: Link先を確認
Shashank Subramanian, Peter Harrington, Kurt Keutzer, Wahid Bhimji, Dmitriy Morozov, Michael Mahoney, Amir Gholami(参考訳) 事前学習機械学習(ML)モデルは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、幅広いアプリケーションにおいて優れた性能を示している。 本稿では,科学機械学習(SciML)の応用,特に伝達学習の文脈において,事前学習をどのように活用できるかを検討する。 これらのモデルの伝達挙動について検討する。 (i)事前学習したモデルサイズをスケールする。 (ii)下流トレーニングデータセットのサイズを拡大する。 (iii)物理パラメーターは系統的に分布から外され、 (4) 異なる物理問題を混合して事前学習した単一モデルを、下流の様々な応用に適用する方法。 適切な転校学習が望ましい精度レベルに達するのに役立つと、下流のサンプル数を桁違いに減らす(分散外になる可能性のある異なるタスクを横断する)ことは、スクラッチからトレーニングするよりも、幅広い下流のサンプルにまたがる一貫した振る舞いを持つ。 また、これらのモデルを微調整すると、新しい下流タスクのスクラッチからトレーニングするよりもモデルのサイズが大きくなるにつれて、パフォーマンスが向上することがわかった。 これらの結果は、幅広いPDE学習タスクを支えている。 全体として、SciML問題に対する"事前訓練と微調整"パラダイムの可能性を示し、SciML基盤モデル構築への道筋を示す。 再現性のためのコードをオープンソースにしています。

Pre-trained machine learning (ML) models have shown great performance for a wide range of applications, in particular in natural language processing (NLP) and computer vision (CV). Here, we study how pre-training could be used for scientific machine learning (SciML) applications, specifically in the context of transfer learning. We study the transfer behavior of these models as (i) the pre-trained model size is scaled, (ii) the downstream training dataset size is scaled, (iii) the physics parameters are systematically pushed out of distribution, and (iv) how a single model pre-trained on a mixture of different physics problems can be adapted to various downstream applications. We find that-when fine-tuned appropriately-transfer learning can help reach desired accuracy levels with orders of magnitude fewer downstream examples (across different tasks that can even be out-of-distribution) than training from scratch, with consistent behavior across a wide range of downstream examples. We also find that fine-tuning these models yields more performance gains as model size increases, compared to training from scratch on new downstream tasks. These results hold for a broad range of PDE learning tasks. All in all, our results demonstrate the potential of the "pre-train and fine-tune" paradigm for SciML problems, demonstrating a path towards building SciML foundation models. We open-source our code for reproducibility.
翻訳日:2023-06-02 18:49:07 公開日:2023-06-01
# DSGD-CECA:コミュニケーション最適化合意アルゴリズムによる分散SGD

DSGD-CECA: Decentralized SGD with Communication-Optimal Exact Consensus Algorithm ( http://arxiv.org/abs/2306.00256v1 )

ライセンス: Link先を確認
Lisang Ding, Kexin Jin, Bicheng Ying, Kun Yuan, Wotao Yin(参考訳) Decentralized Stochastic Gradient Descent (SGD)は、複数のエージェントが協調的に同時にモデルをトレーニングできるようにする、新たなニューラルネットワークトレーニングアプローチである。 すべてのエージェントから勾配を収集するために中央パラメータサーバを使用する代わりに、各エージェントはモデルのパラメータのコピーを保持し、少数のエージェントと通信してモデルの更新を交換する。 彼らのコミュニケーションは、コミュニケーショントポロジーとゴシップ重み行列によって制御され、モデル更新の交換を促進する。 最先端のアプローチでは動的ワンピア指数2トポロジーを使用し、リング、グリッド、トーラス、ハイパーキューブトポロジーよりも高速なトレーニング時間とスケーラビリティの向上を実現している。 しかし、このアプローチには、大規模には実用的でないエージェントのパワー・オブ・2が必要となる。 本稿では,この制約を排除し,任意のエージェントに対して,最先端特性を保ちながら機能する,Shaunderline{D}ecentralized \underline{SGD} with \underline{C}ommunication-optimal \underline{E}xact \underline{C}onsensus \underline{A}lgorithm (DSGD-CECA)を提案する。 特にdsgd-cecaは、単位毎の通信オーバーヘッドと$\tilde{o}(n^3)$の過渡的反復複雑性を負う。 本証明は,ゴシップ重量行列の新たに発見された性質と,DSGDの収束解析と組み合わせた新しい手法に基づく。 数値実験によりDSGD-CECAの効率が示された。

Decentralized Stochastic Gradient Descent (SGD) is an emerging neural network training approach that enables multiple agents to train a model collaboratively and simultaneously. Rather than using a central parameter server to collect gradients from all the agents, each agent keeps a copy of the model parameters and communicates with a small number of other agents to exchange model updates. Their communication, governed by the communication topology and gossip weight matrices, facilitates the exchange of model updates. The state-of-the-art approach uses the dynamic one-peer exponential-2 topology, achieving faster training times and improved scalability than the ring, grid, torus, and hypercube topologies. However, this approach requires a power-of-2 number of agents, which is impractical at scale. In this paper, we remove this restriction and propose \underline{D}ecentralized \underline{SGD} with \underline{C}ommunication-optimal \underline{E}xact \underline{C}onsensus \underline{A}lgorithm (DSGD-CECA), which works for any number of agents while still achieving state-of-the-art properties. In particular, DSGD-CECA incurs a unit per-iteration communication overhead and an $\tilde{O}(n^3)$ transient iteration complexity. Our proof is based on newly discovered properties of gossip weight matrices and a novel approach to combine them with DSGD's convergence analysis. Numerical experiments show the efficiency of DSGD-CECA.
翻訳日:2023-06-02 18:48:41 公開日:2023-06-01
# 量子滴の密度汎関数理論

The density-functional theory of quantum droplets ( http://arxiv.org/abs/2306.00254v1 )

ライセンス: Link先を確認
Fan Zhang and Lan Yin(参考訳) 量子滴では、平均場エネルギーはlee-huang-yang (lhy)エネルギーに匹敵する。 ボゴリューボフ理論では、量子滴のLHYエネルギーは想像上の部分を持つが、実際は無視されている。 これまでのところ、量子滴の理論的な研究は、GP方程式にLHYエネルギーを加えて得られる拡張グロス・ピタエフスキー方程式に基づいている。 本稿では,量子滴の密度汎関数理論について述べる。 提案手法では, 量子滴の量子揺らぎは実効作用によって説明され, 実数であり, 自己整合的に決定できる相関エネルギーを生成する。 この結果は希薄限界における拡張GP方程式と一致し、量子滴における現在の実験への影響を論じる。

In quantum droplets, the mean-field energy is comparable to the Lee-Huang-Yang (LHY) energy. In the Bogoliubov theory, the LHY energy of the quantum droplet has an imaginary part, but it is neglected for practical purposes. So far, most theoretical studies of quantum droplets have been based on the extended Gross-Pitaevskii (GP) equation obtained by adding the LHY energy to the GP equation. In this article, we present the density-functional theory of quantum droplets. In our approach, the quantum fluctuations in quantum droplets, as described by an effective action, generate the correlation energy which is real and can be determined self-consistently. Our results are consistent with the extended GP equation in the dilute limit, and the implications to current experiments on quantum droplets are discussed.
翻訳日:2023-06-02 18:48:06 公開日:2023-06-01
# AfriNames: ほとんどのASRモデルは「肉屋」アフリカ名

AfriNames: Most ASR models "butcher" African Names ( http://arxiv.org/abs/2306.00253v1 )

ライセンス: Link先を確認
Tobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh(参考訳) 例えば、音声アシスタントに特定のアーティストからのトラックを再生するよう依頼したり、特定の場所へのナビゲーションを開始したり、患者のために実験結果を文書化したりする。 しかしながら、 '`Ukachukwu`' (Igbo)、 ``Lakicia`` (Swahili)、 ``Ingabire`` (Rwandan) などの名前付きエンティティが話される場合、自動音声認識(ASR)モデルの性能は著しく低下し、下流システムにエラーを伝播する。 我々は,この問題を分散シフトとしてモデル化し,多言語事前学習によるモデルバイアスの緩和,アフリカ名のエンティティの表現を向上するための知的データ拡張戦略,アフリカ語アクセント上での微調整型多言語ASRモデルなどを示す。 結果として得られた微調整モデルでは、アフリカ名を持つ標本のベースラインに比べて81.5\%の相対的なWER改善が見られた。

Useful conversational agents must accurately capture named entities to minimize error for downstream tasks, for example, asking a voice assistant to play a track from a certain artist, initiating navigation to a specific location, or documenting a laboratory result for a patient. However, where named entities such as ``Ukachukwu`` (Igbo), ``Lakicia`` (Swahili), or ``Ingabire`` (Rwandan) are spoken, automatic speech recognition (ASR) models' performance degrades significantly, propagating errors to downstream systems. We model this problem as a distribution shift and demonstrate that such model bias can be mitigated through multilingual pre-training, intelligent data augmentation strategies to increase the representation of African-named entities, and fine-tuning multilingual ASR models on multiple African accents. The resulting fine-tuned models show an 81.5\% relative WER improvement compared with the baseline on samples with African-named entities.
翻訳日:2023-06-02 18:47:55 公開日:2023-06-01
# フル量子力学からの創発的量子確率とエネルギー保存の役割

Emergent quantum probability from full quantum dynamics and the role of energy conservation ( http://arxiv.org/abs/2306.00298v1 )

ライセンス: Link先を確認
Chen Wang, Jincheng Lu, and Jianhua Jiang(参考訳) 我々は、ボルンの量子確率の規則を導く量子測定のためのおもちゃモデルを提案し、研究する。 このモデルでは、電子は局所光子モードと相互作用し、光子モードは局所光子貯水池と散逸的に結合する。 我々は、電子と光子の相互作用を完全な量子力学的記述で扱う一方、光子モードの散逸ダイナミクスはリンドブラッドマスター方程式によって処理される。 局所光子やフォトニック貯水池と結合する電子に二重量子ドットを割り当てることで、ボーンの量子確率の規則が顕微鏡量子力学から直接現れることを示した。 さらに、電子-光子カップリング、デチューニング、光子散逸速度といった微視的量が量子力学をどのように決定するかについても論じる。 驚くべきことに、無限の時間測定限界において、エネルギー保存はボルンの量子確率の規則の出現を既に決定づけている。 有限時間測定では、局所光子散逸速度は測定完了の特徴的な時間スケールを決定するが、他の微視的量は測定ダイナミクスに影響を与える。 したがって、真の測定では、測定確率は局所的デバイスと量子力学的波動関数の両方によって決定される。

We propose and study a toy model for the quantum measurements that yield the Born's rule of quantum probability. In this model, the electrons interact with local photon modes and the photon modes are dissipatively coupled with local photon reservoirs. We treat the interactions of the electrons and photons with full quantum mechanical description, while the dissipative dynamics of the photon modes are treated via the Lindblad master equation. By assigning double quantum dot setup for the electrons coupling with local photons and photonic reservoirs, we show that the Born's rule of quantum probability can emerge directly from microscopic quantum dynamics. We further discuss how the microscopic quantities such as the electron-photon couplings, detuning, and photon dissipation rate determine the quantum dynamics. Surprisingly, in the infinite long time measurement limit, the energy conservation already dictates the emergence of the Born's rule of quantum probability. For finite-time measurement, the local photon dissipation rate determines the characteristic time-scale for the completion of the measurement, while other microscopic quantities affect the measurement dynamics. Therefore, in genuine measurements, the measured probability is determined by both the local devices and the quantum mechanical wavefunction.
翻訳日:2023-06-02 18:42:16 公開日:2023-06-01
# トランスフォーマーは文脈内学習のための事前条件付き勾配降下の実装を学習する

Transformers learn to implement preconditioned gradient descent for in-context learning ( http://arxiv.org/abs/2306.00297v1 )

ライセンス: Link先を確認
Kwangjun Ahn, Xiang Cheng, Hadi Daneshmand, Suvrit Sra(参考訳) 文脈内学習のための変換器の印象的な能力に触発されたいくつかの研究は、変換器が勾配降下のようなアルゴリズムを実装できることを実証した。 重みの注意深い構成により、これらの作業は複数のトランスフォーマの層が勾配降下イテレーションをシミュレートするのに十分な表現力を持っていることを示している。 トランスフォーマーは、ランダムな問題インスタンス上でトレーニングすることで、そのようなアルゴリズムを実装することを学べますか? 我々の知る限り、線形回帰のランダムなインスタンス上で訓練された線形変圧器の損失景観の解析を通じて、この問題に対する最初の理論的前進を行う。 1つの注意層に対して、トレーニング対象のグローバルな最小値が事前条件付き勾配勾配の単一イテレーションを実装することを証明する。 特に、プレコンディショニング行列は入力分布だけでなく、データ不足によって引き起こされる分散にも適応する。 注意層が$k$の変換器の場合、トレーニング対象の特定の臨界点は、事前条件付き勾配勾配の反復を$k$で実装することを証明する。 この結果から,変圧器の訓練による学習アルゴリズムの理論的研究が望まれる。

Motivated by the striking ability of transformers for in-context learning, several works demonstrate that transformers can implement algorithms like gradient descent. By a careful construction of weights, these works show that multiple layers of transformers are expressive enough to simulate gradient descent iterations. Going beyond the question of expressivity, we ask: Can transformers learn to implement such algorithms by training over random problem instances? To our knowledge, we make the first theoretical progress toward this question via analysis of the loss landscape for linear transformers trained over random instances of linear regression. For a single attention layer, we prove the global minimum of the training objective implements a single iteration of preconditioned gradient descent. Notably, the preconditioning matrix not only adapts to the input distribution but also to the variance induced by data inadequacy. For a transformer with $k$ attention layers, we prove certain critical points of the training objective implement $k$ iterations of preconditioned gradient descent. Our results call for future theoretical studies on learning algorithms by training transformers.
翻訳日:2023-06-02 18:41:57 公開日:2023-06-01
# EMOTE:共感を通じて他をモデリングするための説明可能なアーキテクチャ

EMOTE: An Explainable architecture for Modelling the Other Through Empathy ( http://arxiv.org/abs/2306.00295v1 )

ライセンス: Link先を確認
Manisha Senadeera, Thommen Karimpanal George, Sunil Gupta, Stephan Jacobs, Santu Rana(参考訳) 私たちは通常、他の人が自分自身に類似した目標を持っていると仮定できる。 例えば、エージェント1のグリーンペレットへのアトラクションはエージェント2のレッドペレットへのアトラクションと類似している。 この「アナロジー」の仮定は共感として知られる認知過程と密接に結びついている。 共感に触発されて、他のエージェントのアクション値関数をモデル化するためのシンプルで説明可能なアーキテクチャを設計する。 これは、人間解釈可能な「共感状態」を生成するために、他のエージェントの観察状態を変換するための「想像ネットワーク」を学習することを含み、学習エージェントに提示すると、他のエージェントを模倣した行動を生成する。 本手法は,1つの学習エージェントと他の(独立)エージェントが一定の方針に従って行動するマルチエージェントシナリオに適用できる。 このアーキテクチャは、複合値や報酬関数を使用するアルゴリズムに特に有益である(ただし、制限はない)。 提案手法はマルチエージェントゲームにおいて,異なる環境構成で相手のモデルを頑健に推定し,性能が向上することを示す。 さらに、共感状態は人間の解釈可能であり、検証可能であることを示す。

We can usually assume others have goals analogous to our own. This assumption can also, at times, be applied to multi-agent games - e.g. Agent 1's attraction to green pellets is analogous to Agent 2's attraction to red pellets. This "analogy" assumption is tied closely to the cognitive process known as empathy. Inspired by empathy, we design a simple and explainable architecture to model another agent's action-value function. This involves learning an "Imagination Network" to transform the other agent's observed state in order to produce a human-interpretable "empathetic state" which, when presented to the learning agent, produces behaviours that mimic the other agent. Our approach is applicable to multi-agent scenarios consisting of a single learning agent and other (independent) agents acting according to fixed policies. This architecture is particularly beneficial for (but not limited to) algorithms using a composite value or reward function. We show our method produces better performance in multi-agent games, where it robustly estimates the other's model in different environment configurations. Additionally, we show that the empathetic states are human interpretable, and thus verifiable.
翻訳日:2023-06-02 18:41:40 公開日:2023-06-01
# 自己教師付きトランスフォーマーにおける親和性に基づく注意はヒトの物体群形成のダイナミクスを予測する

Affinity-based Attention in Self-supervised Transformers Predicts Dynamics of Object Grouping in Humans ( http://arxiv.org/abs/2306.00294v1 )

ライセンス: Link先を確認
Hossein Adeli, Seoyoung Ahn, Nikolaus Kriegeskorte, Gregory Zelinsky(参考訳) 人間のグループがどのようにセグメンテーションオブジェクトを特徴付けるかのメカニズムとして注目の拡散が提案されている。 しかし、そのようなメカニズムは、まだ自然主義的な画像で実装およびテストされていない。 本稿では,自己監督型視覚変換器の機能マップを活用し,人間の対象に基づく注意分散とセグメンテーションのモデルを提案する。 注意は、画像の異なるパッチ間の特徴親和性信号を介してオブジェクト内に広がる。 また,2つの点が同一物なのか,あるいは2つの異なる物体なのかを判定することで,自然画像中の物体をグループ化する人々の行動データを収集した。 自己教師型トランスフォーマーの機能マップ上に構築した親和性スプレッドは,タスクや他のオブジェクトラベルでトレーニングされていないにもかかわらず,人間の反応時間パターンを予測する上で,ベースラインやCNNベースモデルよりも大幅に改善されていることがわかった。 本研究はトランスフォーマーを含む視覚表現学習のモデルを評価するための新しいベンチマークを提供する。

The spreading of attention has been proposed as a mechanism for how humans group features to segment objects. However, such a mechanism has not yet been implemented and tested in naturalistic images. Here, we leverage the feature maps from self-supervised vision Transformers and propose a model of human object-based attention spreading and segmentation. Attention spreads within an object through the feature affinity signal between different patches of the image. We also collected behavioral data on people grouping objects in natural images by judging whether two dots are on the same object or on two different objects. We found that our models of affinity spread that were built on feature maps from the self-supervised Transformers showed significant improvement over baseline and CNN based models on predicting reaction time patterns of humans, despite not being trained on the task or with any other object labels. Our work provides new benchmarks for evaluating models of visual representation learning including Transformers.
翻訳日:2023-06-02 18:41:21 公開日:2023-06-01
# 持続可能なAI規制

Sustainable AI Regulation ( http://arxiv.org/abs/2306.00292v1 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) 本稿では,AI規制が信頼性から持続可能性へのシフトを必要とすることを示唆する。 ChatGPTやGPT-4のような大規模な生成AIモデルの炭素フットプリントがこの目標に緊急性を加えることにより、この論文はAIとテクノロジーをより広く、環境に持続可能なものにするためのロードマップを開発する。 AIをよりグリーンにする法的手段と、AI規制をより持続可能なものにするための方法だ。 前者については、第11条のAI法に基づくGHGフットプリントの開示などの透明性メカニズムが第1ステップとなる可能性がある。 しかし、開示の既知の制限を考えると、規制は透明性を超える必要がある。 そこで本稿では,共規制戦略,設計による持続可能性,トレーニングデータに対する制約,消費キャップの混合を提案する。 この規制ツールキットは、第2段階として、ブロックチェーン、メタバースアプリケーション、データセンターなどの高いGHG排出量のために、サステナビリティの問題に直面している他の情報技術やインフラの青写真として機能する可能性がある。 第2の次元は、AI規制の実施と、法律自体をより持続可能なものにすることで構成される。 消去権(第17条GDPR)など、私たちが当然としてきた特定の権利は、持続可能性を考慮して制限されなければならない。 例えば、ある状況では、根絶する主観的な権利は、気候変動の緩和に対する集団的関心に対してバランスをとる必要がある。 この論文は、このバランスを公平に打つためのガイドラインを定式化し、特定のユースケースについて議論し、そのような「持続可能性制限」を既存の(例えば17条(3)GDPR)および将来の法(例えばAI法)に組み込む教義的な法的方法を特定する。 最終的に、法、計算機科学、持続可能性の研究は、デジタル化と持続可能性の2つの大規模変換を効果的に扱うために協力する必要がある。

This paper suggests that AI regulation needs a shift from trustworthiness to sustainability. With the carbon footprint of large generative AI models like ChatGPT or GPT-4 adding urgency to this goal, the paper develops a roadmap to make AI, and technology more broadly, environmentally sustainable. It explores two key dimensions: legal instruments to make AI greener; and methods to render AI regulation more sustainable. Concerning the former, transparency mechanisms, such as the disclosure of the GHG footprint under Article 11 AI Act, could be a first step. However, given the well-known limitations of disclosure, regulation needs to go beyond transparency. Hence, I propose a mix of co-regulation strategies; sustainability by design; restrictions on training data; and consumption caps. This regulatory toolkit may then, in a second step, serve as a blueprint for other information technologies and infrastructures facing significant sustainability challenges due to their high GHG emissions, e.g.: blockchain; metaverse applications; and data centers. The second dimension consists in efforts to render AI regulation, and by implication the law itself, more sustainable. Certain rights we have come to take for granted, such as the right to erasure (Article 17 GDPR), may have to be limited due to sustainability considerations. For example, the subjective right to erasure, in some situations, has to be balanced against the collective interest in mitigating climate change. The paper formulates guidelines to strike this balance equitably, discusses specific use cases, and identifies doctrinal legal methods for incorporating such a "sustainability limitation" into existing (e.g., Art. 17(3) GDPR) and future law (e.g., AI Act). Ultimately, law, computer science and sustainability studies need to team up to effectively address the dual large-scale transformations of digitization and sustainability.
翻訳日:2023-06-02 18:41:05 公開日:2023-06-01
# RNNと変圧器の学習不要ニューラルネットワーク探索

Training-free Neural Architecture Search for RNNs and Transformers ( http://arxiv.org/abs/2306.00288v1 )

ライセンス: Link先を確認
Aaron Serianni (Princeton University), Jugal Kalita (University of Colorado at Colorado Springs)(参考訳) ニューラルネットワーク検索(NAS)は、新しい効果的なニューラルネットワークアーキテクチャの自動生成を可能にし、複雑なアーキテクチャを手動で設計する面倒なプロセスに代わるものだ。 しかし、従来のNASアルゴリズムは遅く、膨大な計算能力を必要とする。 最近の研究では、画像分類アーキテクチャのトレーニングフリーnasメトリクスを調査し、検索アルゴリズムを劇的に高速化している。 本稿では,言語モデリングタスクを対象としたリカレントニューラルネットワーク(RNN)とBERTベースのトランスフォーマーアーキテクチャのトレーニングフリーNASメトリクスについて検討する。 まず、RNNアーキテクチャのトレーニング性能を予測し、既存のトレーニングフリーメトリクスを著しく上回る、隠れ共分散と呼ばれる新しいトレーニングフリーメトリックを開発する。 NAS-Bench-NLPベンチマークにおける隠れ共分散測定の有効性を実験的に評価した。 第二に、トランスフォーマーアーキテクチャの現在の検索空間パラダイムは、トレーニング不要なニューラルアーキテクチャサーチに最適化されていない。 代わりに、単純な定性解析は、検索空間を効果的に最適なアーキテクチャに縮小することができる。 この結論は、既存のトレーニングフリーメトリクスと、最近のトランスフォーマープルーニング文献から開発された新しいメトリクスについて、我々のトレーニングされたBERTアーキテクチャのベンチマークに基づいて検討した。 分析の結果,実効性を得るためには,アーキテクチャ検索空間と学習自由度を併用しなければならないことがわかった。

Neural architecture search (NAS) has allowed for the automatic creation of new and effective neural network architectures, offering an alternative to the laborious process of manually designing complex architectures. However, traditional NAS algorithms are slow and require immense amounts of computing power. Recent research has investigated training-free NAS metrics for image classification architectures, drastically speeding up search algorithms. In this paper, we investigate training-free NAS metrics for recurrent neural network (RNN) and BERT-based transformer architectures, targeted towards language modeling tasks. First, we develop a new training-free metric, named hidden covariance, that predicts the trained performance of an RNN architecture and significantly outperforms existing training-free metrics. We experimentally evaluate the effectiveness of the hidden covariance metric on the NAS-Bench-NLP benchmark. Second, we find that the current search space paradigm for transformer architectures is not optimized for training-free neural architecture search. Instead, a simple qualitative analysis can effectively shrink the search space to the best performing architectures. This conclusion is based on our investigation of existing training-free metrics and new metrics developed from recent transformer pruning literature, evaluated on our own benchmark of trained BERT architectures. Ultimately, our analysis shows that the architecture search space and the training-free metric must be developed together in order to achieve effective results.
翻訳日:2023-06-02 18:40:28 公開日:2023-06-01
# サイバーセキュリティにおける量子機械学習の事例研究--マルウェア分類と保護のための量子支援ベクトルマシン

Case Study-Based Approach of Quantum Machine Learning in Cybersecurity: Quantum Support Vector Machine for Malware Classification and Protection ( http://arxiv.org/abs/2306.00284v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Sheikh Iqbal Ahamed, Kishor Datta Gupta, Muhammad Rahman, Atef Mohamed, Mohammad Rahman, Akond Rahman, Fan Wu(参考訳) 量子機械学習(QML)は、量子コンピューティングを利用して従来の機械学習アプローチを改善し、複雑な現実世界の問題を解決する研究分野である。 QMLは、サイバーセキュリティ関連の課題に対処する可能性がある。 QMLの斬新で複雑なアーキテクチャを考えると、サイバーセキュリティ学習者にこの新興技術の効率的な知識を浸透させるリソースは、まだ明らかではない。 本研究では,学習者中心のケーススタディに基づく学習アプローチを採用することで,様々なサイバーセキュリティトピックをカバーするQMLベースの学習モジュールを設計・開発する。 我々は、QMLの1つのサブトピックを、プレラボ、ラボ、ポストラボの活動からなるサイバーセキュリティトピックに適用し、現実世界のセキュリティ問題を解決するためのQML体験を学習者に提供します。 すべての生徒に学習を促す学習環境に学生を参加させ、動機づけるために、Pre-labはQMLのサブトピックとサイバーセキュリティの問題を簡潔に紹介する。 本稿では,drebin215データセット上のオープンソースのPennylane QMLフレームワークを用いて,マルウェアの分類と保護に量子支援ベクトルマシン(QSVM)を用いる。 我々はQSVMモデルを実証し、マルウェアの分類と保護において95%の精度を達成する。 すべてのモジュールを開発し、今後数日のうちにサイバーセキュリティコミュニティに導入する予定です。

Quantum machine learning (QML) is an emerging field of research that leverages quantum computing to improve the classical machine learning approach to solve complex real world problems. QML has the potential to address cybersecurity related challenges. Considering the novelty and complex architecture of QML, resources are not yet explicitly available that can pave cybersecurity learners to instill efficient knowledge of this emerging technology. In this research, we design and develop QML-based ten learning modules covering various cybersecurity topics by adopting student centering case-study based learning approach. We apply one subtopic of QML on a cybersecurity topic comprised of pre-lab, lab, and post-lab activities towards providing learners with hands-on QML experiences in solving real-world security problems. In order to engage and motivate students in a learning environment that encourages all students to learn, pre-lab offers a brief introduction to both the QML subtopic and cybersecurity problem. In this paper, we utilize quantum support vector machine (QSVM) for malware classification and protection where we use open source Pennylane QML framework on the drebin215 dataset. We demonstrate our QSVM model and achieve an accuracy of 95% in malware classification and protection. We will develop all the modules and introduce them to the cybersecurity community in the coming days.
翻訳日:2023-06-02 18:40:06 公開日:2023-06-01
# 伝達学習技術を用いた自閉症疾患検出:ニューラルネットワークにおける中央処理ユニットとグラフ処理ユニット関数の性能比較

Autism Disease Detection Using Transfer Learning Techniques: Performance Comparison Between Central Processing Unit vs Graphics Processing Unit Functions for Neural Networks ( http://arxiv.org/abs/2306.00283v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Alfredo Cuzzocrea(参考訳) ニューラルネットワークアプローチは、医療やサイバーセキュリティなど、さまざまな領域で広く使用されている機械学習手法である。 ニューラルネットワークは特に、画像データセットを扱う能力で有名である。 画像を用いたトレーニングプロセスでは、ニューラルネットワークで様々な基本的な数学的操作が行われる。 これらの演算には、微分、畳み込み、行列反転や転置など、代数的および数学的関数が含まれる。 このような操作は、通常コンピュータの使用に必要なものよりも高い処理能力を必要とする。 CPUはシリアル処理で構築されているため、大きな画像データセットを扱うには適していない。 一方、GPUは並列処理機能を備え、高速な処理を実現することができる。 本稿では,vgg16,resnet50,drknet,inceptionv3,xception,mobilenet,xgboost vgg16などの高度なニューラルネットワーク技術と,提案するモデルを用いて,cpuとgpuリソースを比較する。 自閉症児と非自閉症児の顔画像を用いた自閉症疾患の分類システムを構築し, 検査成績の比較を行った。 精度,F1スコア,精度,リコール,実行時間などの評価行列を用いた。 また,全試験でGPUがCPUより優れていた。 さらに、CPUと比較して、GPU上での精度でニューラルネットワークモデルの性能が向上した。

Neural network approaches are machine learning methods that are widely used in various domains, such as healthcare and cybersecurity. Neural networks are especially renowned for their ability to deal with image datasets. During the training process with images, various fundamental mathematical operations are performed in the neural network. These operations include several algebraic and mathematical functions, such as derivatives, convolutions, and matrix inversions and transpositions. Such operations demand higher processing power than what is typically required for regular computer usage. Since CPUs are built with serial processing, they are not appropriate for handling large image datasets. On the other hand, GPUs have parallel processing capabilities and can provide higher speed. This paper utilizes advanced neural network techniques, such as VGG16, Resnet50, Densenet, Inceptionv3, Xception, Mobilenet, XGBOOST VGG16, and our proposed models, to compare CPU and GPU resources. We implemented a system for classifying Autism disease using face images of autistic and non-autistic children to compare performance during testing. We used evaluation matrices such as Accuracy, F1 score, Precision, Recall, and Execution time. It was observed that GPU outperformed CPU in all tests conducted. Moreover, the performance of the neural network models in terms of accuracy increased on GPU compared to CPU.
翻訳日:2023-06-02 18:39:43 公開日:2023-06-01
# 過小表現音楽生成のための転送学習

Transfer Learning for Underrepresented Music Generation ( http://arxiv.org/abs/2306.00281v1 )

ライセンス: Link先を確認
Anahita Doosti and Matthew Guzdial(参考訳) 本稿では,音楽生成のための深層ニューラルネットワークモデル(ood)の性能を向上させるために,トランスファー学習のための組み合わせ創造性アプローチについて検討する。 我々は,イランの民謡を,大規模な生成音楽モデルであるMusicVAEのOODジャンルの例として挙げる。 イランのフォーク・ミュージック・データセットにMusicVAEを効率よく適応させることで、将来、あまり表現されていない音楽ジャンルを創出できる可能性が示唆された。

This paper investigates a combinational creativity approach to transfer learning to improve the performance of deep neural network-based models for music generation on out-of-distribution (OOD) genres. We identify Iranian folk music as an example of such an OOD genre for MusicVAE, a large generative music model. We find that a combinational creativity transfer learning approach can efficiently adapt MusicVAE to an Iranian folk music dataset, indicating potential for generating underrepresented music genres in the future.
翻訳日:2023-06-02 18:39:25 公開日:2023-06-01
# 不均一・時変通信におけるFedAvgのバイアス補正

Towards Bias Correction of FedAvg over Nonuniform and Time-Varying Communications ( http://arxiv.org/abs/2306.00280v1 )

ライセンス: Link先を確認
Ming Xiang, Stratis Ioannidis, Edmund Yeh, Carlee Joe-Wong, Lili Su(参考訳) Federated Learning(FL)は、パラメータサーバ(PS)とクライアントのコレクションが協調して、グローバルな目的を最小化してモデルをトレーニングする分散学習フレームワークである。 通信帯域幅は乏しいリソースであり、各ラウンドでPSはクライアントのサブセットからのみ更新を集約する。 本稿では,PSとクライアント間の非一様・時間的通信障害に対して脆弱な非凸最小化に着目した。 具体的には、各ラウンド$t$ において、ps とクライアント $i$ のリンクは、確率 $p_i^t$ でアクティブであり、これは ps とクライアントの両方に$\textit{unknown}$である。 これは、チャネル条件がクライアント間で異種で、時間とともに変化する場合に発生する。 p_i^t$'sが一様でない場合、最も広く採用されているFLアルゴリズムである$\textit{Federated Average}$ (FedAvg)は、グローバルな目的を最小化できない。 これを見て、FedAvgの単純な変種である$\textit{Federated Postponed Broadcast}$ (FedPBC)を提案する。 PSは各ラウンドの終了までグローバルモデルを放送することを延期するという点でFedAvgとは異なる。 我々は,FedPBCが本来の目的の静止点に収束していることを示す。 導入された停滞は軽度であり、明らかな減速はない。 理論的解析と数値計算の両方が提供される。 技術的な面では、グローバルモデルのブロードキャストを延期することで、ラウンド$t$でアクティブリンクを持つクライアント間の暗黙のゴシップが可能になる。 p_i^t$'sは時間的変化があるにもかかわらず、ゴシップ型情報混合誤差を制御する技術により、グローバルモデル力学の摂動を束縛することができる。

Federated learning (FL) is a decentralized learning framework wherein a parameter server (PS) and a collection of clients collaboratively train a model via minimizing a global objective. Communication bandwidth is a scarce resource; in each round, the PS aggregates the updates from a subset of clients only. In this paper, we focus on non-convex minimization that is vulnerable to non-uniform and time-varying communication failures between the PS and the clients. Specifically, in each round $t$, the link between the PS and client $i$ is active with probability $p_i^t$, which is $\textit{unknown}$ to both the PS and the clients. This arises when the channel conditions are heterogeneous across clients and are changing over time. We show that when the $p_i^t$'s are not uniform, $\textit{Federated Average}$ (FedAvg) -- the most widely adopted FL algorithm -- fails to minimize the global objective. Observing this, we propose $\textit{Federated Postponed Broadcast}$ (FedPBC) which is a simple variant of FedAvg. It differs from FedAvg in that the PS postpones broadcasting the global model till the end of each round. We show that FedPBC converges to a stationary point of the original objective. The introduced staleness is mild and there is no noticeable slowdown. Both theoretical analysis and numerical results are provided. On the technical front, postponing the global model broadcasts enables implicit gossiping among the clients with active links at round $t$. Despite $p_i^t$'s are time-varying, we are able to bound the perturbation of the global model dynamics via the techniques of controlling the gossip-type information mixing errors.
翻訳日:2023-06-02 18:39:16 公開日:2023-06-01
# ブレンディングヒューリスティックスによるオフラインRLの改善

Improving Offline RL by Blending Heuristics ( http://arxiv.org/abs/2306.00321v1 )

ライセンス: Link先を確認
Sinong Geng, Aldo Pacchiano, Andrey Kolobov, Ching-An Cheng(参考訳) 本稿では,値ブートストラップに基づくオフラインRLアルゴリズムの簡易な性能改善手法であるHUBLを提案する。 HUBLはこれらのアルゴリズムで使用されるベルマン演算子を修正し、ブートストラップされた値を部分的にモンテカルロの戻り値をヒューリスティックとして置き換える。 高いリターンを持つ軌道では、HUBLはヒューリスティックに頼り、ブートストレッピングに頼らず、そうでなければブートストレッピングに強く依存する。 このアイデアは、調整された報酬と割引係数でオフラインデータセットを緩和することで容易に実装できることを示し、既存の多くのオフラインRL実装で容易に利用できるようにする。 理論的には、HUBLはオフラインRLの複雑さを減らし、有限サンプル性能を向上させる。 さらに私たちは,4つの最先端ブートストラップベースのオフラインrlアルゴリズム(atac, cql, td3+bc, iql)のポリシ品質を,d4rlおよびメタワールドベンチマークの27のデータセット平均で9%一貫して向上させることを実証した。

We propose Heuristic Blending (HUBL), a simple performance-improving technique for a broad class of offline RL algorithms based on value bootstrapping. HUBL modifies Bellman operators used in these algorithms, partially replacing the bootstrapped values with Monte-Carlo returns as heuristics. For trajectories with higher returns, HUBL relies more on heuristics and less on bootstrapping; otherwise, it leans more heavily on bootstrapping. We show that this idea can be easily implemented by relabeling the offline datasets with adjusted rewards and discount factors, making HUBL readily usable by many existing offline RL implementations. We theoretically prove that HUBL reduces offline RL's complexity and thus improves its finite-sample performance. Furthermore, we empirically demonstrate that HUBL consistently improves the policy quality of four state-of-the-art bootstrapping-based offline RL algorithms (ATAC, CQL, TD3+BC, and IQL), by 9% on average over 27 datasets of the D4RL and Meta-World benchmarks.
翻訳日:2023-06-02 18:32:05 公開日:2023-06-01
# FlexRound: トレーニング後の量子化のための要素分割に基づく学習可能なラウンドリング

FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization ( http://arxiv.org/abs/2306.00317v1 )

ライセンス: Link先を確認
Jung Hyun Lee, Jeonghoon Kim, Se Jung Kwon, Dongsoo Lee(参考訳) トレーニング後の量子化(PTQ)は、量子化対応トレーニングとは異なり、完全なトレーニングデータセットもエンドツーエンドトレーニングもまったく必要としないため、リソース制限されたデバイスへのディープニューラルネットワークのデプロイで人気を集めている。 近年, 各層やブロック出力を再構成したPTQスキームは, 定量化モデルの性能向上に有効であることが判明し, 各層やブロック出力をより良く再構築するための新しい重み付きスキームを考案し, 学習するアルゴリズムが開発されている。 本研究では,一般的な要素分割ではなく,要素分割を基本としたptqの簡易かつ効果的な重みラウンド機構を提案する。flexroundは,事前学習した重み付け毎に異なるスケールで,共通の量子化グリッドサイズを共同学習できる。 要素分割によって引き起こされる微分の相互規則により、フレックスラウンドは本質的に、対応するスケールを更新する際に事前訓練された重みを活用できるため、その大きさに応じて柔軟に事前訓練された重みを定量化することができる。 幅広いモデルやタスクにおいてFlexRoundの有効性を実証的に検証する。 我々の知識を最大限に活用するために、画像分類と自然言語理解だけでなく、テンソルごとのPTQ設定を前提とした自然言語生成に関する総合的な実験を初めて行った。 さらに,大規模言語モデルをブロック単位で再構築することで,半精度のベースラインと比較して,性能に無視できる影響しか持たず,効率的に定量化できることを実証した。

Post-training quantization (PTQ) has been gaining popularity for the deployment of deep neural networks on resource-limited devices since unlike quantization-aware training, neither a full training dataset nor end-to-end training is required at all. As PTQ schemes based on reconstructing each layer or block output turn out to be effective to enhance quantized model performance, recent works have developed algorithms to devise and learn a new weight-rounding scheme so as to better reconstruct each layer or block output. In this work, we propose a simple yet effective new weight-rounding mechanism for PTQ, coined FlexRound, based on element-wise division instead of typical element-wise addition such that FlexRound enables jointly learning a common quantization grid size as well as a different scale for each pre-trained weight. Thanks to the reciprocal rule of derivatives induced by element-wise division, FlexRound is inherently able to exploit pre-trained weights when updating their corresponding scales, and thus, flexibly quantize pre-trained weights depending on their magnitudes. We empirically validate the efficacy of FlexRound on a wide range of models and tasks. To the best of our knowledge, our work is the first to carry out comprehensive experiments on not only image classification and natural language understanding but also natural language generation, assuming a per-tensor uniform PTQ setting. Moreover, we demonstrate, for the first time, that large language models can be efficiently quantized, with only a negligible impact on performance compared to half-precision baselines, achieved by reconstructing the output in a block-by-block manner.
翻訳日:2023-06-02 18:31:45 公開日:2023-06-01
# オンラインマーケティングのための明示的機能インタラクション対応アップリフトネットワーク

Explicit Feature Interaction-aware Uplift Network for Online Marketing ( http://arxiv.org/abs/2306.00315v1 )

ライセンス: Link先を確認
Dugang Liu, Xing Tang, Han Gao, Fuyuan Lyu, Xiuqiang He(参考訳) オンラインマーケティングの重要な要素として、uplift modelingは、個々の治療効果(ite)の推定として知られるクーポンや割引など、異なるユーザーを動機づけるさまざまな治療法の程度を正確に把握することを目的としている。 実際のビジネスシナリオでは、治療の選択肢は多様で複雑であり、異なる治療の間に相関がある可能性がある。 さらに、各マーケティングインスタンスには、リッチなユーザとコンテキスト機能もある。 しかし, 処理情報の完全活用と特定の処理に敏感なマイニングの両面で, 既存の手法は依然として不足している。 本稿では,これらの2つの問題に対処するために,特徴量対応高揚ネットワーク(EFIN)を提案する。 EFINには4つのカスタマイズされたモジュールがあります。 1) 特徴符号化モジュールは,ユーザ及び文脈的特徴だけでなく,治療的特徴も符号化する。 2) 自己相互作用モジュールは,ユーザの自然な応答を,治療機能以外の全てで正確にモデル化することを目的としている。 3) 治療認識インタラクションモジュールは、治療特徴と他の特徴、すなわちiteとの相互作用を通じて、特定の治療がユーザを動機づける程度を正確にモデル化する。 4) 介入制約モジュールは、制御群と治療群の間の利用者のite分布のバランスをとるために使用され、非ランダム介入マーケティングシナリオから収集したデータの正確な上昇ランキングを達成する。 EFINの有効性を検証するため、2つの公開データセットと1つの製品データセットについて広範な実験を行った。 さらに、当社のefinは、大規模なオンライン金融プラットフォームのクレジットカード決済シナリオに展開され、大幅に改善されています。

As a key component in online marketing, uplift modeling aims to accurately capture the degree to which different treatments motivate different users, such as coupons or discounts, also known as the estimation of individual treatment effect (ITE). In an actual business scenario, the options for treatment may be numerous and complex, and there may be correlations between different treatments. In addition, each marketing instance may also have rich user and contextual features. However, existing methods still fall short in both fully exploiting treatment information and mining features that are sensitive to a particular treatment. In this paper, we propose an explicit feature interaction-aware uplift network (EFIN) to address these two problems. Our EFIN includes four customized modules: 1) a feature encoding module encodes not only the user and contextual features, but also the treatment features; 2) a self-interaction module aims to accurately model the user's natural response with all but the treatment features; 3) a treatment-aware interaction module accurately models the degree to which a particular treatment motivates a user through interactions between the treatment features and other features, i.e., ITE; and 4) an intervention constraint module is used to balance the ITE distribution of users between the control and treatment groups so that the model would still achieve a accurate uplift ranking on data collected from a non-random intervention marketing scenario. We conduct extensive experiments on two public datasets and one product dataset to verify the effectiveness of our EFIN. In addition, our EFIN has been deployed in a credit card bill payment scenario of a large online financial platform with a significant improvement.
翻訳日:2023-06-02 18:31:16 公開日:2023-06-01
# 二次的古典的機械学習検証手法に基づくadversarial-aware deep learning system

Adversarial-Aware Deep Learning System based on a Secondary Classical Machine Learning Verification Approach ( http://arxiv.org/abs/2306.00314v1 )

ライセンス: Link先を確認
Mohammed Alkhowaiter, Hisham Kholidy, Mnassar Alyami, Abdulmajeed Alghamdi, Cliff Zou(参考訳) ディープラーニングモデルは、様々な効果的な画像分類アプリケーションの作成に使われている。 しかし、モデルに誤ったクラスを予測させようとする敵の攻撃に対して脆弱である。 主要な敵対的攻撃モデルに関する我々の研究は、ニューラルネットワークの構造を特にターゲットとし、その設計に活用していることを示している。 この理解は、ランダムフォレスト(RF)のような古典的な機械学習モデルの多くが、ニューラルネットワーク設計に全く依存していないため、敵の攻撃モデルに免疫があるという仮説を立証する。 従来の機械学習モデルによる攻撃に対する実験的な研究がこの仮説を支持している。 この仮説に基づき,画像分類における一次ディープラーニングモデルを補完する2次検証システムとして,古典的機械学習モデルを用いた新しい敵対的認識型深層学習システムを提案する。 第二の古典的機械学習モデルは、精度が低いが、第一のディープラーニングモデルの出力精度に影響を与えない検証目的にのみ使用され、同時に、明確なミスマッチが発生した場合の敵攻撃を効果的に検出することができる。 CIFAR-100データセットをベースとした実験により,提案手法は現状の敵防衛システムよりも優れた性能を示した。

Deep learning models have been used in creating various effective image classification applications. However, they are vulnerable to adversarial attacks that seek to misguide the models into predicting incorrect classes. Our study of major adversarial attack models shows that they all specifically target and exploit the neural networking structures in their designs. This understanding makes us develop a hypothesis that most classical machine learning models, such as Random Forest (RF), are immune to adversarial attack models because they do not rely on neural network design at all. Our experimental study of classical machine learning models against popular adversarial attacks supports this hypothesis. Based on this hypothesis, we propose a new adversarial-aware deep learning system by using a classical machine learning model as the secondary verification system to complement the primary deep learning model in image classification. Although the secondary classical machine learning model has less accurate output, it is only used for verification purposes, which does not impact the output accuracy of the primary deep learning model, and at the same time, can effectively detect an adversarial attack when a clear mismatch occurs. Our experiments based on CIFAR-100 dataset show that our proposed approach outperforms current state-of-the-art adversarial defense systems.
翻訳日:2023-06-02 18:30:49 公開日:2023-06-01
# 不一致による分布シフト下での(ほぼ)証明可能な誤差境界

(Almost) Provable Error Bounds Under Distribution Shift via Disagreement Discrepancy ( http://arxiv.org/abs/2306.00312v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Saurabh Garg(参考訳) 我々は、ラベルなしテストデータを用いて、分布シフト中のディープニューラルネットワークの誤差を(ほぼ)保証した上限を導出する。 従来の手法では、実際は空でない境界を与えるか、あるいは、ある大きさのシフトに対して平均で正確だが非常に過小評価される誤差を見積もる。 特に後者は、ラベルなしでは識別できないテストキャリブレーションのような複雑な連続的な測定に基づいてのみ保証し、従って信頼できない。 その代わり、我々の境界は単純で直感的な条件を必要とし、これは以前の経験的作業によって十分に正当化され、事実上100%の時間を保持する。 このバウンダリは$\mathcal{H}\Delta\mathcal{H}$-divergenceにインスパイアされるが、評価が簡単で、より厳密で、常に空でない保証を提供する。 境界を推定するには、1つのマルチクラス分類器を最適化し、それとは違って、いくつかの先行研究では、準最適プロキシ損失を使用しており、理論的に正当化され、実際より優れた性能を発揮する「診断損失」を考案する。 この損失は、マルチクラス不一致の最大化を必要とする将来のメソッドのドロップイン代替になることを期待しています。 提案手法は, 幅広いベンチマークで有効な誤差境界を与えつつ, 平均精度を競合推定ベースラインと比較した。 コードはhttps://github.com/erosenfeld/disagree_discrepで公開されている。

We derive an (almost) guaranteed upper bound on the error of deep neural networks under distribution shift using unlabeled test data. Prior methods either give bounds that are vacuous in practice or give estimates that are accurate on average but heavily underestimate error for a sizeable fraction of shifts. In particular, the latter only give guarantees based on complex continuous measures such as test calibration -- which cannot be identified without labels -- and are therefore unreliable. Instead, our bound requires a simple, intuitive condition which is well justified by prior empirical works and holds in practice effectively 100% of the time. The bound is inspired by $\mathcal{H}\Delta\mathcal{H}$-divergence but is easier to evaluate and substantially tighter, consistently providing non-vacuous guarantees. Estimating the bound requires optimizing one multiclass classifier to disagree with another, for which some prior works have used sub-optimal proxy losses; we devise a "disagreement loss" which is theoretically justified and performs better in practice. We expect this loss can serve as a drop-in replacement for future methods which require maximizing multiclass disagreement. Across a wide range of benchmarks, our method gives valid error bounds while achieving average accuracy comparable to competitive estimation baselines. Code is publicly available at https://github.com/erosenfeld/disagree_discrep .
翻訳日:2023-06-02 18:30:29 公開日:2023-06-01
# タスク合成のためのプロンプト代数

Prompt Algebra for Task Composition ( http://arxiv.org/abs/2306.00310v1 )

ライセンス: Link先を確認
Pramuditha Perera, Matthew Trager, Luca Zancato, Alessandro Achille, Stefano Soatto(参考訳) 異なるタスクに対して独立に学習したプロンプトが後からプロンプト代数によって結合され、タスクの構成をサポートするモデルが得られるかどうかを調べる。 我々は,プロンプトチューニングを用いた視覚言語モデル(VLM)を基本分類器として検討し,プロンプト代数の概念を正式に定義する。 合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。 提案手法では,事前学習された語彙の基底ベクトルにまたがる低次元部分空間にプロンプトが現れるように制約される。 さらに規則化を加えて、学習したプロンプトが既存の訓練済み語彙に正しく接地されることを保証する。 本手法がオブジェクト分類およびオブジェクト属性分類データセットに与える影響を実証する。 総合モデルは平均して, 最良ベースモデルの2.5%以内の分類精度を得る。 UTZapposでは、最高のベースモデルの分類精度を平均8.45%向上させる。

We investigate whether prompts learned independently for different tasks can be later combined through prompt algebra to obtain a model that supports composition of tasks. We consider Visual Language Models (VLM) with prompt tuning as our base classifier and formally define the notion of prompt algebra. We propose constrained prompt tuning to improve performance of the composite classifier. In the proposed scheme, prompts are constrained to appear in the lower dimensional subspace spanned by the basis vectors of the pre-trained vocabulary. Further regularization is added to ensure that the learned prompt is grounded correctly to the existing pre-trained vocabulary. We demonstrate the effectiveness of our method on object classification and object-attribute classification datasets. On average, our composite model obtains classification accuracy within 2.5% of the best base model. On UTZappos it improves classification accuracy over the best base model by 8.45% on average.
翻訳日:2023-06-02 18:30:06 公開日:2023-06-01
# ウェーブレットベース拡散モデルによる低光強調

Low-Light Image Enhancement with Wavelet-based Diffusion Models ( http://arxiv.org/abs/2306.00306v1 )

ライセンス: Link先を確認
Hai Jiang, Ao Luo, Songchen Han, Haoqiang Fan, Shuaicheng Liu(参考訳) 拡散モデルは画像復元タスクにおいて有望な結果を得たが、時間的消費、過剰な計算リソース消費、不安定な修復に苦しめられている。 これらの問題に対処するため,DiffLLと呼ばれる拡散型低光画像強調手法を提案する。 具体的には,ウェーブレットに基づく条件拡散モデル(WCDM)を提案する。 さらに、ウェーブレット変換の強みを利用して推論を大幅に加速し、情報を犠牲にすることなく計算資源の使用を減らす。 カオスコンテンツや多様性を避けるために,wcdmのトレーニングフェーズにおいて前方拡散と逆雑音化の両方を行い,モデルが安定した雑音化を実現し,推論中のランダム性を低減する。 さらに、画像の垂直および水平の細部を利用した高周波数復元モジュール(HFRM)を設計し、対角線情報を補完し、よりきめ細かい復元を行う。 公開されている実世界のベンチマーク実験により,本手法は既存の最先端手法よりも定量的かつ視覚的に優れており,従来の拡散法に比べて効率が著しく向上していることが示された。 また,低照度顔検出への応用により,本手法の潜在的な実用的価値も明らかにできることを示す。

Diffusion models have achieved promising results in image restoration tasks, yet suffer from time-consuming, excessive computational resource consumption, and unstable restoration. To address these issues, we propose a robust and efficient Diffusion-based Low-Light image enhancement approach, dubbed DiffLL. Specifically, we present a wavelet-based conditional diffusion model (WCDM) that leverages the generative power of diffusion models to produce results with satisfactory perceptual fidelity. Additionally, it also takes advantage of the strengths of wavelet transformation to greatly accelerate inference and reduce computational resource usage without sacrificing information. To avoid chaotic content and diversity, we perform both forward diffusion and reverse denoising in the training phase of WCDM, enabling the model to achieve stable denoising and reduce randomness during inference. Moreover, we further design a high-frequency restoration module (HFRM) that utilizes the vertical and horizontal details of the image to complement the diagonal information for better fine-grained restoration. Extensive experiments on publicly available real-world benchmarks demonstrate that our method outperforms the existing state-of-the-art methods both quantitatively and visually, and it achieves remarkable improvements in efficiency compared to previous diffusion-based methods. In addition, we empirically show that the application for low-light face detection also reveals the latent practical values of our method.
翻訳日:2023-06-02 18:29:51 公開日:2023-06-01
# リモートセンシング画像による海氷抽出:アルゴリズム,データセット,応用と課題

Sea Ice Extraction via Remote Sensed Imagery: Algorithms, Datasets, Applications and Challenges ( http://arxiv.org/abs/2306.00303v1 )

ライセンス: Link先を確認
Anzhu Yu, Wenjun Huang, Qing Xu, Qun Sun, Wenyue Guo, Song Ji, Bowei Wen, Chunping Qiu(参考訳) ディープラーニングは人工知能において支配的な技術であり、過去10年間で画像の理解を完全に変えてきた。 その結果,海氷抽出問題(SIE)は新たな時代を迎えた。 我々は、アルゴリズム、データセット、アプリケーション、今後のトレンドを含む、SIEの4つの重要な側面について包括的なレビューを行う。 本稿では,2016年から現在までの5年間の深層学習に基づくアプローチに着目した研究について紹介する。 従来の画像分割手法,機械学習に基づく手法,深層学習に基づく手法の3つに分類した。 我々は、SARベースのデータセット、光学ベースのデータセットなど、アクセス可能な氷のデータセットをレビューした。 これらの応用は、気候研究、ナビゲーション、地理情報システム(GIS)生産など4つの側面で紹介される。 また、洞察に富んだ観察と将来の研究の方向性も提供する。

The deep learning, which is a dominating technique in artificial intelligence, has completely changed the image understanding over the past decade. As a consequence, the sea ice extraction (SIE) problem has reached a new era. We present a comprehensive review of four important aspects of SIE, including algorithms, datasets, applications, and the future trends. Our review focuses on researches published from 2016 to the present, with a specific focus on deep learning-based approaches in the last five years. We divided all relegated algorithms into 3 categories, including classical image segmentation approach, machine learning-based approach and deep learning-based methods. We reviewed the accessible ice datasets including SAR-based datasets, the optical-based datasets and others. The applications are presented in 4 aspects including climate research, navigation, geographic information systems (GIS) production and others. It also provides insightful observations and inspiring future research directions.
翻訳日:2023-06-02 18:29:27 公開日:2023-06-01
# CapText:イメージコンテキストと記述による大規模言語モデルベースのキャプション生成

CapText: Large Language Model-based Caption Generation From Image Context and Description ( http://arxiv.org/abs/2306.00301v1 )

ライセンス: Link先を確認
Shinjini Ghosh, Sagnik Anupam(参考訳) ディープラーニングモデルは画像からテキストへのデータセットでうまく機能することが示されているが、実際に画像のキャプションに使用するのは難しい。 これは、伝統的に \textit{captions} は文脈依存であり、画像に関する補完的な情報を提供する傾向があるのに対し、モデルは画像の視覚的特徴を記述する \textit{descriptions} を生成する傾向があるためである。 キャプション生成における以前の研究は、それぞれの記述や文脈と共に画像が提供されたときにキャプションを生成するモデルの使用を探求した。 我々は,既存の大規模言語モデルを利用して,画像を直接処理することなく,テキスト記述や文脈のみからキャプションを生成するアプローチを提案し,評価する。 我々は、細調整後、OSCAR-VinVLのような現在の最先端画像テキストアライメントモデルよりもCIDErメトリック上で高い性能を示す。

While deep-learning models have been shown to perform well on image-to-text datasets, it is difficult to use them in practice for captioning images. This is because \textit{captions} traditionally tend to be context-dependent and offer complementary information about an image, while models tend to produce \textit{descriptions} that describe the visual features of the image. Prior research in caption generation has explored the use of models that generate captions when provided with the images alongside their respective descriptions or contexts. We propose and evaluate a new approach, which leverages existing large language models to generate captions from textual descriptions and context alone, without ever processing the image directly. We demonstrate that after fine-tuning, our approach outperforms current state-of-the-art image-text alignment models like OSCAR-VinVL on this task on the CIDEr metric.
翻訳日:2023-06-02 18:29:14 公開日:2023-06-01
# 点雲データによる表面曲率情報のロバスト推定

Robust Estimation of Surface Curvature Information from Point Cloud Data ( http://arxiv.org/abs/2306.00299v1 )

ライセンス: Link先を確認
Jared Spang(参考訳) 本稿では,アルゴリズム的曲率と正規推定の手法について調査・評価を行う。 また, 既存手法の調査に加えて, 頑健な曲率推定法を提案し, 既存手法に対する評価を行い, 有意なデータノイズの場合には既存手法よりも優れていることを示す。 本稿では, 低次元空間 (n < 10) での計算に着目し, 主にワイナルテン写像の計算とそれに由来する量の計算に焦点をあてるが, 議論されるアルゴリズムは任意の次元において理論的に適用可能である。 これらすべての方法に共通する点の1つは、推定グラフ構造の基底である。 しかし、点クラウドデータの場合、データの基礎となる強固な多様体構造を発見することはしばしば困難であり、単純な場合であっても、これらのアルゴリズムの結果に大きな影響を与える可能性がある。 これらのアルゴリズムを限界まで押し上げることで、潜在的なユーザや将来の研究者に影響を及ぼす可能性のある多くの大きな落とし穴を発見し、解決できることを願っている。

This paper surveys and evaluates some popular state of the art methods for algorithmic curvature and normal estimation. In addition to surveying existing methods we also propose a new method for robust curvature estimation and evaluate it against existing methods thus demonstrating its superiority to existing methods in the case of significant data noise. Throughout this paper we are concerned with computation in low dimensional spaces (N < 10) and primarily focus on the computation of the Weingarten map and quantities that may be derived from this; however, the algorithms discussed are theoretically applicable in any dimension. One thing that is common to all these methods is their basis in an estimated graph structure. For any of these methods to work the local geometry of the manifold must be exploited; however, in the case of point cloud data it is often difficult to discover a robust manifold structure underlying the data, even in simple cases, which can greatly influence the results of these algorithms. We hope that in pushing these algorithms to their limits we are able to discover, and perhaps resolve, many major pitfalls that may affect potential users and future researchers hoping to improve these methods
翻訳日:2023-06-02 18:28:58 公開日:2023-06-01
# CALICO: BEV知覚のためのカメラ-LiDARコントラスト事前トレーニング

CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV Perception ( http://arxiv.org/abs/2306.00349v1 )

ライセンス: Link先を確認
Jiachen Sun, Haizhong Zheng, Qingzhao Zhang, Atul Prakash, Z. Morley Mao, and Chaowei Xiao(参考訳) 認識は、バードアイビュー(BEV)ベースのアーキテクチャが最近最先端のパフォーマンスに到達した、自律走行システムの領域において不可欠である。 自己教師付き表現学習の望ましさは、2dおよび3dデータを注釈するコストと労力のかかるプロセスに由来する。 従来の研究では、LiDARとカメラベースの3Dオブジェクト検出のための事前学習手法が検討されてきたが、マルチモーダルなBEV認識のための統合事前学習フレームワークが欠落している。 本研究では,LiDARとカメラのバックボーンに対照的な目的を適用可能な新しいフレームワークであるCALICOを紹介する。 特に、CALICOは、ポイント・リージョン・コントラスト(PRC)とリージョン・アウェア・蒸留(RAD)の2段階を取り入れている。 PRCは、LiDARのモダリティに基づいて、地域レベルの表現学習とシーンレベルの表現学習のバランスを良くし、既存の手法と比較して大幅な性能改善を提供する。 RADは, 自己学習型教師モデルにおいて, コントラスト蒸留を効果的に実現する。 calicoの有効性は、3dオブジェクト検出とbevマップセグメンテーションタスクの広範な評価によって実証され、大幅なパフォーマンス改善をもたらす。 特に、CALICOはベースライン法を10.5%、NDSとmAPで8.6%上回る。 さらに、CALICOは敵攻撃や腐敗に対するマルチモーダル3Dオブジェクト検出の堅牢性を高める。 さらに、我々のフレームワークは異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。

Perception is crucial in the realm of autonomous driving systems, where bird's eye view (BEV)-based architectures have recently reached state-of-the-art performance. The desirability of self-supervised representation learning stems from the expensive and laborious process of annotating 2D and 3D data. Although previous research has investigated pretraining methods for both LiDAR and camera-based 3D object detection, a unified pretraining framework for multimodal BEV perception is missing. In this study, we introduce CALICO, a novel framework that applies contrastive objectives to both LiDAR and camera backbones. Specifically, CALICO incorporates two stages: point-region contrast (PRC) and region-aware distillation (RAD). PRC better balances the region- and scene-level representation learning on the LiDAR modality and offers significant performance improvement compared to existing methods. RAD effectively achieves contrastive distillation on our self-trained teacher model. CALICO's efficacy is substantiated by extensive evaluations on 3D object detection and BEV map segmentation tasks, where it delivers significant performance improvements. Notably, CALICO outperforms the baseline method by 10.5% and 8.6% on NDS and mAP. Moreover, CALICO boosts the robustness of multimodal 3D object detection against adversarial attacks and corruption. Additionally, our framework can be tailored to different backbones and heads, positioning it as a promising approach for multimodal BEV perception.
翻訳日:2023-06-02 18:23:34 公開日:2023-06-01
# 物質量子定規を用いた関係重ね合わせ測定

Relational superposition measurements with a material quantum ruler ( http://arxiv.org/abs/2306.00347v1 )

ライセンス: Link先を確認
Hui Wang, Flaminia Giacomini, Franco Nori, Miles P. Blencowe(参考訳) 物理学では、抽象量に物理的意味を与えるための操作的測定手順を特定することが重要である。 量子システムを用いた運用時間の定義には多大な努力が払われてきたが、空間でも同じことが達成されていない。 量子系の位置に関する情報を得るための操作手順の開発は、時空の古典的な概念に頼らない一般相対性理論と量子論を組み合わせた理論にとって特に重要である。 ここでは、この目標に向けて第一歩を踏み出し、位置測定装置として働く拡張材料量子システムを記述するモデルを紹介する。 このような「量子定規」は、Nが調和して相互作用する双極子から構成され、別の量子系の位置に対する(量子)参照システムとして機能する。 位置の重ね合わせ」に対応する量子計測手順を定義することができ、この測定を行うことで、量子系が位置基底においてコヒーレントまたは非コヒーレントな重ね合わせにあるときを区別できることを示す。 モデルは完全にリレーショナルであり、唯一の有意な変数は定規と系の間の相対的な位置であり、測定値は測定装置と測定システムの間の相互作用によって表される。

In physics, it is crucial to identify operational measurement procedures to give physical meaning to abstract quantities. There has been significant effort to define time operationally using quantum systems, but the same has not been achieved for space. Developing an operational procedure to obtain information about the location of a quantum system is particularly important for a theory combining general relativity and quantum theory, which cannot rest on the classical notion of spacetime. Here, we take a first step towards this goal, and introduce a model to describe an extended material quantum system working as a position measurement device. Such a "quantum ruler" is composed of N harmonically interacting dipoles and serves as a (quantum) reference system for the position of another quantum system. We show that we can define a quantum measurement procedure corresponding to the "superposition of positions", and that by performing this measurement we can distinguish when the quantum system is in a coherent or incoherent superposition in the position basis. The model is fully relational, because the only meaningful variables are the relative positions between the ruler and the system, and the measurement is expressed in terms of an interaction between the measurement device and the measured system.
翻訳日:2023-06-02 18:23:10 公開日:2023-06-01
# CAISA at SemEval-2023 Task 8: Counterfactual Data Augmentation for Mitigating Class Un Balance in Causal Claim Identification

CAISA at SemEval-2023 Task 8: Counterfactual Data Augmentation for Mitigating Class Imbalance in Causal Claim Identification ( http://arxiv.org/abs/2306.00346v1 )

ライセンス: Link先を確認
Akbar Karimi, Lucie Flek(参考訳) クラス不均衡の問題は、機械学習モデルが少数派クラスとデータセット全体に対して望ましくないパフォーマンスをもたらす可能性がある。 データ拡張技術を使ってサンプル数を増やすことは、この問題に取り組む一つの方法です。 医療クレームの識別のために,動詞置換による反事実データ拡張を提案する。 また,提案手法がマイノリティクラスにおいて有意な(相対的な)改善をもたらすことを示すため,本手法の影響を調査し,他の3つのデータ拡張手法と比較した。

The class imbalance problem can cause machine learning models to produce an undesirable performance on the minority class as well as the whole dataset. Using data augmentation techniques to increase the number of samples is one way to tackle this problem. We introduce a novel counterfactual data augmentation by verb replacement for the identification of medical claims. In addition, we investigate the impact of this method and compare it with 3 other data augmentation techniques, showing that the proposed method can result in a significant (relative) improvement in the minority class.
翻訳日:2023-06-02 18:22:49 公開日:2023-06-01
# BOtied: 連結多変量階数を持つ多目的ベイズ最適化

BOtied: Multi-objective Bayesian optimization with tied multivariate ranks ( http://arxiv.org/abs/2306.00344v1 )

ライセンス: Link先を確認
Ji Won Park, Nata\v{s}a Tagasovska, Michael Maser, Stephen Ra, Kyunghyun Cho(参考訳) 多くの科学的および工業的応用は、競合する可能性のある複数の目標の合同最適化を必要とする。 多目的ベイズ最適化(MOBO)は、パレート最適解を特定するためのサンプリング効率の高いフレームワークである。 非支配的解と最大多変量階の自然な関係を示すが、これは合同累積分布関数(CDF)の最外層線と一致する。 我々は,一般的なハイパーボリューム指標を補完する近似パレート集合の品質評価のためのパレート対応指標であるcdfインジケータを提案する。 MOBOの核心は獲得関数であり、目標間の最良の妥協をナビゲートすることによって次の候補を評価する。 超体積改善(EHVI)やエントロピー探索など、対象空間のボックス分解に依存する多目的獲得関数は、多数の目的に対して低スケールである。 我々はCDF指標に基づいてBOtiedと呼ばれる取得関数を提案する。 BOtied は複雑な高次元分布をモデル化する統計ツールである copulas と効率的に実装することができる。 EHVI やランダムスカラー化 (ParEGO) を含む一般的な取得関数に対して, 一連の合成および実データ実験でベンチマークを行った。 BOtiedは、計算効率を保ちながら、データセットやメトリクスをまたいだベースラインと同等に動作します。

Many scientific and industrial applications require joint optimization of multiple, potentially competing objectives. Multi-objective Bayesian optimization (MOBO) is a sample-efficient framework for identifying Pareto-optimal solutions. We show a natural connection between non-dominated solutions and the highest multivariate rank, which coincides with the outermost level line of the joint cumulative distribution function (CDF). We propose the CDF indicator, a Pareto-compliant metric for evaluating the quality of approximate Pareto sets that complements the popular hypervolume indicator. At the heart of MOBO is the acquisition function, which determines the next candidate to evaluate by navigating the best compromises among the objectives. Multi-objective acquisition functions that rely on box decomposition of the objective space, such as the expected hypervolume improvement (EHVI) and entropy search, scale poorly to a large number of objectives. We propose an acquisition function, called BOtied, based on the CDF indicator. BOtied can be implemented efficiently with copulas, a statistical tool for modeling complex, high-dimensional distributions. We benchmark BOtied against common acquisition functions, including EHVI and random scalarization (ParEGO), in a series of synthetic and real-data experiments. BOtied performs on par with the baselines across datasets and metrics while being computationally efficient.
翻訳日:2023-06-02 18:22:36 公開日:2023-06-01
# 深層ネットワークにおける効率的な学習のための明示と暗黙の規則化の組み合わせ

Combining Explicit and Implicit Regularization for Efficient Learning in Deep Networks ( http://arxiv.org/abs/2306.00342v1 )

ライセンス: Link先を確認
Dan Zhao(参考訳) 暗黙的正規化の研究は、なぜディープネットワークが他のネットワークよりも特定の種類の解を好むのかを説明するために最適化プロセス中の勾配軌道を研究した。 深い線形ネットワークでは、勾配降下が行列の完備化/ファクトリゼーションタスクにおける低ランク解に対して暗黙的に正規化されることが示されている。 深さを追加することでこれらのタスクのパフォーマンスが向上するだけでなく、低ランク化へのバイアスをさらに高める加速度的前提条件としても機能する。 このことに触発されて、ある適応的勾配最適化器(例えばアダム)でのみ作用するこの暗黙のバイアスを反映する明示的なペナルティを提案する。 この組み合わせにより、縮退した単層ネットワークは、深い線形ネットワークに匹敵する一般化誤差で低ランク近似を達成でき、学習に必要な深度は不要になる。 単一層ネットワークは、単純さに拘わらず、パラメータやデータレシエーションの範囲で、行列補完のための様々なアプローチを競合的に、あるいは性能的に実行します。 我々の研究は、最適化者の帰納バイアスとともに、明示的な正規化が、異なる望ましい正規化の形式を設計する上で重要な役割を果たし、この相互作用をより曖昧に理解する必要があることを示唆している。

Works on implicit regularization have studied gradient trajectories during the optimization process to explain why deep networks favor certain kinds of solutions over others. In deep linear networks, it has been shown that gradient descent implicitly regularizes toward low-rank solutions on matrix completion/factorization tasks. Adding depth not only improves performance on these tasks but also acts as an accelerative pre-conditioning that further enhances this bias towards low-rankedness. Inspired by this, we propose an explicit penalty to mirror this implicit bias which only takes effect with certain adaptive gradient optimizers (e.g. Adam). This combination can enable a degenerate single-layer network to achieve low-rank approximations with generalization error comparable to deep linear networks, making depth no longer necessary for learning. The single-layer network also performs competitively or out-performs various approaches for matrix completion over a range of parameter and data regimes despite its simplicity. Together with an optimizer's inductive bias, our findings suggest that explicit regularization can play a role in designing different, desirable forms of regularization and that a more nuanced understanding of this interplay may be necessary.
翻訳日:2023-06-02 18:22:16 公開日:2023-06-01
# 単調ペイオフ機能を有する最後のスイッチ依存バンディット

Last Switch Dependent Bandits with Monotone Payoff Functions ( http://arxiv.org/abs/2306.00338v1 )

ライセンス: Link先を確認
Ayoub Foussoul, Vineet Goyal, Orestis Papadigenopoulos, Assaf Zeevi(参考訳) 最近の研究で、Laforgueらは、プレイヤーと環境の間の相互作用によって引き起こされる非定常現象を捉えるために、最後のスイッチ依存(LSD)バンディットのモデルを導入した。 例えば、同じアクションの連続したプレイがパフォーマンスを低下させる風刺や、不活性化の期間後にアクションのペイオフが増加するデプリベーションなどがある。 本研究では,LSDブロードバンド計画の近似性,すなわち,モデルを完全に理解した最適なアーム推進戦略を計算する(NP-hard)問題を理解するための一歩を踏み出した。 特に,この問題に対する最初の効率的な定数近似アルゴリズムを設計し,自然単調性仮定の下では,その近似保証が,遅延依存(relay-dependent)と呼ばれる特別な,よく研究された帯状帯状体(recharging bandits)の最先端技術と一致することを示す。 本研究では,新しい高次元緩和法や仮想状態の進化を反映する技術など,この問題に対する新たなツールと洞察を開発する。 これらの新しい要素は、アクション誘発非定常バンディットのよりリッチなクラス(例えば、レストレスバンディットの特別なインスタンス)へのアプローチに使用できる可能性があると信じている。 モデルパラメータが未知である場合,本アルゴリズムのオンライン学習適応法を開発し,本アルゴリズムの完全情報に対するサブリニア後悔保証を提供する。

In a recent work, Laforgue et al. introduce the model of last switch dependent (LSD) bandits, in an attempt to capture nonstationary phenomena induced by the interaction between the player and the environment. Examples include satiation, where consecutive plays of the same action lead to decreased performance, or deprivation, where the payoff of an action increases after an interval of inactivity. In this work, we take a step towards understanding the approximability of planning LSD bandits, namely, the (NP-hard) problem of computing an optimal arm-pulling strategy under complete knowledge of the model. In particular, we design the first efficient constant approximation algorithm for the problem and show that, under a natural monotonicity assumption on the payoffs, its approximation guarantee (almost) matches the state-of-the-art for the special and well-studied class of recharging bandits (also known as delay-dependent). In this attempt, we develop new tools and insights for this class of problems, including a novel higher-dimensional relaxation and the technique of mirroring the evolution of virtual states. We believe that these novel elements could potentially be used for approaching richer classes of action-induced nonstationary bandits (e.g., special instances of restless bandits). In the case where the model parameters are initially unknown, we develop an online learning adaptation of our algorithm for which we provide sublinear regret guarantees against its full-information counterpart.
翻訳日:2023-06-02 18:21:54 公開日:2023-06-01
# IBIAフレームワークを用いた辺縁の近似推定

Approximate inference of marginals using the IBIA framework ( http://arxiv.org/abs/2306.00335v1 )

ライセンス: Link先を確認
Shivani Bathla, Vinita Vasudevan(参考訳) 確率的グラフィカルモデル(pgm)における辺縁の正確な推論は難解であることが知られており、近似法の使用が必要となる。 既存の変分技法のほとんどはループグラフで反復的なメッセージパスを実行し、多くのベンチマークでは収束が遅い。 本稿では,インクリメンタル・ビルド・インファー近似(ibia)パラダイムに基づく辺縁推論のための新しいアルゴリズムを提案する。 我々のアルゴリズムは,PGMを有界な斜め樹林(SLCTF)の列に変換し,その辺縁を推定するためにヒューリスティックな信念更新アルゴリズムを用いる。 ベイジアンネットワークの特別の場合、IBIAにおける増分ビルドステップが変数の位相次数を使用する場合、その場合を示す。 (a)先行限界は、SLCTFおよびSLCTFの全てのCTFに一致している b) すべての証拠変数がSLCTFに追加されると、後端辺縁は一貫する。 本手法では,信念伝達ステップは非イテレーティブであり,ユーザ定義のクライクサイズ境界を用いて精度・複雑さトレードオフを制御する。 近年のUAIコンペティションによるいくつかのベンチマーク結果から,本手法は既存の変分法やサンプリング法よりも精度が良いか,あるいは同等であることが示された。

Exact inference of marginals in probabilistic graphical models (PGM) is known to be intractable, necessitating the use of approximate methods. Most of the existing variational techniques perform iterative message passing in loopy graphs which is slow to converge for many benchmarks. In this paper, we propose a new algorithm for marginal inference that is based on the incremental build-infer-approximate (IBIA) paradigm. Our algorithm converts the PGM into a sequence of linked clique tree forests (SLCTF) with bounded clique sizes, and then uses a heuristic belief update algorithm to infer the marginals. For the special case of Bayesian networks, we show that if the incremental build step in IBIA uses the topological order of variables then (a) the prior marginals are consistent in all CTFs in the SLCTF and (b) the posterior marginals are consistent once all evidence variables are added to the SLCTF. In our approach, the belief propagation step is non-iterative and the accuracy-complexity trade-off is controlled using user-defined clique size bounds. Results for several benchmark sets from recent UAI competitions show that our method gives either better or comparable accuracy than existing variational and sampling based methods, with smaller runtimes.
翻訳日:2023-06-02 18:21:20 公開日:2023-06-01
# 小型プリントモデルを用いた音声強調のための多次元深部構造状態空間アプローチ

A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models ( http://arxiv.org/abs/2306.00331v1 )

ライセンス: Link先を確認
Pin-Jui Ku, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 音声強調のための多次元構造化状態空間(S4)を提案する。 周波数軸間のスペクトル依存性をよりよく捉えるために、ホワイトニング変換による多次元S4層の変更に焦点を合わせ、優れた性能を実現するための新しい小型プリントモデルを構築した。 我々は、時間(T)および時間周波数(TF)ドメインにおける複数のS4ベースのディープアーキテクチャを探索する。 2次元のs4層は無限受容場を持つ特定の畳み込み層と考えることができるが、従来の畳み込み層よりもパラメータは少ない。 VoiceBank-DEMANDデータセットに基づいて、畳み込み層に基づく従来のU-netモデルと比較すると、提案したTFドメインS4ベースのモデルは78.6%小さいが、データ拡張を伴うPSSQスコア3.15の競合結果が得られる。 モデルサイズを増加させることで、pesqスコア3.18に達することもできる。

We propose a multi-dimensional structured state space (S4) approach to speech enhancement. To better capture the spectral dependencies across the frequency axis, we focus on modifying the multi-dimensional S4 layer with whitening transformation to build new small-footprint models that also achieve good performance. We explore several S4-based deep architectures in time (T) and time-frequency (TF) domains. The 2-D S4 layer can be considered a particular convolutional layer with an infinite receptive field although it utilizes fewer parameters than a conventional convolutional layer. Evaluated on the VoiceBank-DEMAND data set, when compared with the conventional U-net model based on convolutional layers, the proposed TF-domain S4-based model is 78.6% smaller in size, yet it still achieves competitive results with a PESQ score of 3.15 with data augmentation. By increasing the model size, we can even reach a PESQ score of 3.18.
翻訳日:2023-06-02 18:20:57 公開日:2023-06-01
# 強化学習を用いたマルチエージェントマルコフ決定過程の公正化

Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning ( http://arxiv.org/abs/2306.00324v1 )

ライセンス: Link先を確認
Peizhong Ju, Arnob Ghosh, Ness B. Shroff(参考訳) 公平性は、様々なマルチエージェントシステム(例えば、通信ネットワーク、金融市場など)において重要な役割を果たす。 多くのマルチエージェントの動的相互作用はマルコフ決定過程(MDP)としてキャストできる。 既存の研究は既知の環境における公平性の研究に焦点が当てられているが、未知の環境における公平性の研究は未解決のままである。 本稿では,多エージェント有限水平エピソードMDPにおける公平性を実現するための強化学習(RL)手法を提案する。 個々のエージェントの価値関数の合計を最大化する代わりに、エージェント間で公平な報酬を保証する公平性関数を導入する。 古典的なベルマン方程式は、個々の値関数の和が最大化されないときに成り立たないので、従来のアプローチは使用できない。 代わりに、我々は未知の環境の信頼を保ち、その信頼領域に制約されたポリシーを得るためのオンライン凸最適化に基づくアプローチを提案する。 このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。 さらに、得られた後悔境界に基づいて、おそらくほぼ正しい(PAC)保証を提供する。 また,オフラインrlアルゴリズムを提案し,最適公平解に関して最適性ギャップを限定する。 計算の複雑さを軽減するため、公正な目的のためにポリシー勾配型手法を導入する。 またシミュレーション実験により,本手法の有効性を実証した。

Fairness plays a crucial role in various multi-agent systems (e.g., communication networks, financial markets, etc.). Many multi-agent dynamical interactions can be cast as Markov Decision Processes (MDPs). While existing research has focused on studying fairness in known environments, the exploration of fairness in such systems for unknown environments remains open. In this paper, we propose a Reinforcement Learning (RL) approach to achieve fairness in multi-agent finite-horizon episodic MDPs. Instead of maximizing the sum of individual agents' value functions, we introduce a fairness function that ensures equitable rewards across agents. Since the classical Bellman's equation does not hold when the sum of individual value functions is not maximized, we cannot use traditional approaches. Instead, in order to explore, we maintain a confidence bound of the unknown environment and then propose an online convex optimization based approach to obtain a policy constrained to this confidence region. We show that such an approach achieves sub-linear regret in terms of the number of episodes. Additionally, we provide a probably approximately correct (PAC) guarantee based on the obtained regret bound. We also propose an offline RL algorithm and bound the optimality gap with respect to the optimal fair solution. To mitigate computational complexity, we introduce a policy-gradient type method for the fair objective. Simulation experiments also demonstrate the efficacy of our approach.
翻訳日:2023-06-02 18:20:42 公開日:2023-06-01
# 思考クローン:人間の思考を模倣して行動しながら考えることを学ぶ

Thought Cloning: Learning to Think while Acting by Imitating Human Thinking ( http://arxiv.org/abs/2306.00323v1 )

ライセンス: Link先を確認
Shengran Hu and Jeff Clune(参考訳) 言語はしばしば人間の思考の重要な側面と見なされ、新しい状況への一般化、探索、計画、計画、適応の特別な能力を与えてくれる。 しかしながら、強化学習(rl)エージェントは、これらの能力の人間レベルのパフォーマンスとは程遠い。 このような認知的欠陥の1つの理由は、言語における思考の利点が欠けていること、そして人間のように考えるように訓練することでAIエージェントを改善することができることである。 我々は、人間のデモ参加者の行動をクローンするだけでなく、人間がこうした行動を行うときに持つ思考をクローンする、新しいImitation Learning framework、Thought Cloningを導入する。 我々は、行動中に大声で思考する人間のインターネットサイズのデータセット(例えば、書き起こしを含むオンラインビデオ)に、思考クローンが真に光ることを期待しているが、ここでは思考と行動データが合成的に生成される領域で実験を行う。 その結果、Thought Cloningは振舞いクローンよりもはるかに早く学習し、そのパフォーマンス上の優位性は、分散テストタスクの更なるアウトオブアウトを増大させ、新しい状況に対処する能力を強調している。 Thought Cloningはまた、AIの安全性と解釈可能性に重要なメリットを提供し、AIのデバッグと改善を容易にする。 エージェントの思考を観察できるので、(1)物事がなぜうまくいかなかったのかをより容易に診断でき、問題の修正が容易になったり、(2)思考の修正によってエージェントを操ったり、(3)計画している安全でないことをするのを防ぐことができる。 全体として、エージェントの思考と行動の訓練によって、Thought Cloningはより安全で強力なエージェントを生み出します。

Language is often considered a key aspect of human thinking, providing us with exceptional abilities to generalize, explore, plan, replan, and adapt to new situations. However, Reinforcement Learning (RL) agents are far from human-level performance in any of these abilities. We hypothesize one reason for such cognitive deficiencies is that they lack the benefits of thinking in language and that we can improve AI agents by training them to think like humans do. We introduce a novel Imitation Learning framework, Thought Cloning, where the idea is to not just clone the behaviors of human demonstrators, but also the thoughts humans have as they perform these behaviors. While we expect Thought Cloning to truly shine at scale on internet-sized datasets of humans thinking out loud while acting (e.g. online videos with transcripts), here we conduct experiments in a domain where the thinking and action data are synthetically generated. Results reveal that Thought Cloning learns much faster than Behavioral Cloning and its performance advantage grows the further out of distribution test tasks are, highlighting its ability to better handle novel situations. Thought Cloning also provides important benefits for AI Safety and Interpretability, and makes it easier to debug and improve AI. Because we can observe the agent's thoughts, we can (1) more easily diagnose why things are going wrong, making it easier to fix the problem, (2) steer the agent by correcting its thinking, or (3) prevent it from doing unsafe things it plans to do. Overall, by training agents how to think as well as behave, Thought Cloning creates safer, more powerful agents.
翻訳日:2023-06-02 18:20:23 公開日:2023-06-01
# 制御可能なテキスト生成のためのフォーカス付きプレフィックスチューニング

Focused Prefix Tuning for Controllable Text Generation ( http://arxiv.org/abs/2306.00369v1 )

ライセンス: Link先を確認
Congda Ma, Tianyu Zhao, Makoto Shing, Kei Sawada, Manabu Okumura(参考訳) 制御可能なテキスト生成データセットでは、無関係な学習信号をトレーニングに使用するモデルに提供し、そのパフォーマンスを低下させる無注釈属性が存在する。 この問題を緩和し、制御者が所望の属性に集中できるようにするために、FPT( Focus prefix tuning)を提案する。 実験結果から,FPTは単一属性制御タスクにおけるベースラインモデルよりも制御精度とテキスト流速を向上できることが示された。 マルチ属性制御タスクでは、FPTは既存のモデルを再トレーニングすることなく、新しい属性を制御する柔軟性を維持しながら、最先端のアプローチと同等の制御精度を達成する。

In a controllable text generation dataset, there exist unannotated attributes that could provide irrelevant learning signals to models that use it for training and thus degrade their performance. We propose focused prefix tuning(FPT) to mitigate the problem and to enable the control to focus on the desired attribute. Experimental results show that FPT can achieve better control accuracy and text fluency than baseline models in single-attribute control tasks. In multi-attribute control tasks, FPT achieves comparable control accuracy with the state-of-the-art approach while keeping the flexibility to control new attributes without retraining existing models.
翻訳日:2023-06-02 18:12:03 公開日:2023-06-01
# 一貫性型モデルの等価性:一貫性モデル、一貫性拡散モデル、Fokker-Planck正規化

On the Equivalence of Consistency-Type Models: Consistency Models, Consistent Diffusion Models, and Fokker-Planck Regularization ( http://arxiv.org/abs/2306.00367v1 )

ライセンス: Link先を確認
Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji, and Stefano Ermon(参考訳) 拡散モデルにおける「一貫性」の様々な概念の出現は、かなりの注目を集め、サンプル品質の向上、推定精度の向上、サンプリングの高速化に寄与した。 文献では同様の概念が提案されているが、両者の正確な関係は不明である。 本研究では,最近の3つの「一貫性」概念間の理論的関係を,異なる目的の拡散モデルを拡張するために考案した。 私たちの洞察は、一貫性タイプモデルのためのより包括的で包括的なフレームワークの可能性を提供します。

The emergence of various notions of ``consistency'' in diffusion models has garnered considerable attention and helped achieve improved sample quality, likelihood estimation, and accelerated sampling. Although similar concepts have been proposed in the literature, the precise relationships among them remain unclear. In this study, we establish theoretical connections between three recent ``consistency'' notions designed to enhance diffusion models for distinct objectives. Our insights offer the potential for a more comprehensive and encompassing framework for consistency-type models.
翻訳日:2023-06-02 18:11:51 公開日:2023-06-01
# 量子論の自己双対性とヨルダン構造は相同性と純粋推移性から導かれる

Self-duality and Jordan structure of quantum theory follow from homogeneity and pure transitivity ( http://arxiv.org/abs/2306.00362v1 )

ライセンス: Link先を確認
Howard Barnum, Cozmin Ududec, John van de Wetering(参考訳) 量子状態空間の多くの重要な幾何学的性質は、内部(均一性)上の非正規化状態の対称性群の推移性、内積(自己双対性)による効果の二重錐とのこの錐の同定、純粋正規化状態空間上の正規化状態空間の対称性群の推移性である。 コーチャーとヴィンバーグは、等質性と自己双対性がヨルダン-代数状態空間(実数、複素数、四元数量子論、スピン因子、三次元オクトニオン量子状態空間、これらの既約空間の直和)を特徴づけることを示した。 自己双対性は同質性と純粋推移性から導かれる。 これらの性質は自己双対性よりも直接的な物理的および情報処理の重要性を持つ。 例えば、(barnum、gaebeler、wilceの最近の結果)相同性は量子状態を制御する能力と密接に関連していることを示す。 ケーチャー・ヴィンバーグの定理に対する我々の代替は、ほぼ同じ状態空間の集合を特徴づける:同型ヨルダン代数の直和は、既約ジョルダン代数の古典系の合成と見なすことができる。 これらのヨルダン-代数的可能性のうち、複雑な量子論を単体化することが知られている様々な物理的および情報的な追加仮定が存在する。 局所トモグラフィの付加的特性に基づいて, 種々の再建を行った。

Among the many important geometric properties of quantum state space are: transitivity of the group of symmetries of the cone of unnormalized states on its interior (homogeneity), identification of this cone with its dual cone of effects via an inner product (self-duality), and transitivity of the group of symmetries of the normalized state space on the pure normalized states (pure transitivity). Koecher and Vinberg showed that homogeneity and self-duality characterize Jordan-algebraic state spaces: real, complex and quaternionic quantum theory, spin factors, 3-dimensional octonionic quantum state space and direct sums of these irreducible spaces. We show that self-duality follows from homogeneity and pure transitivity. These properties have a more direct physical and information-processing significance than self-duality. We show for instance (extending results of Barnum, Gaebeler, and Wilce) that homogeneity is closely related to the ability to steer quantum states. Our alternative to the Koecher-Vinberg theorem characterizes nearly the same set of state spaces: direct sums of isomorphic Jordan-algebraic ones, which may be viewed as composites of a classical system with an irreducible Jordan-algebraic one. There are various physically and informationally natural additional postulates that are known to single out complex quantum theory from among these Jordan-algebraic possibilities. We give various such reconstructions based on the additional property of local tomography.
翻訳日:2023-06-02 18:11:43 公開日:2023-06-01
# Sharded Bayesian Additive Regression Trees

Sharded Bayesian Additive Regression Trees ( http://arxiv.org/abs/2306.00361v1 )

ライセンス: Link先を確認
Hengrui Luo, Matthew T. Pratola(参考訳) 本稿では,ランダム化されたSharded Bayesian Additive Regression Trees (SBT) モデルを提案する。 本稿では,データの分割を決定するためにランダム化補助変数とシャーディングツリーを導入し,各分割要素をベイズ加法回帰木(bart)を用いてサブモデルに適合させる。 積空間上の部分モデルに対する最適シャーディングを最適に設計できることを観察することにより、交差木構造を導入し、木構造のみを用いてシャーディングとモデリングの両方を完全に指定する。 実験に加えて,後方収縮を最小化し,sbtの最悪の場合の複雑性を証明するための理論的最適重みも導出する。

In this paper we develop the randomized Sharded Bayesian Additive Regression Trees (SBT) model. We introduce a randomization auxiliary variable and a sharding tree to decide partitioning of data, and fit each partition component to a sub-model using Bayesian Additive Regression Tree (BART). By observing that the optimal design of a sharding tree can determine optimal sharding for sub-models on a product space, we introduce an intersection tree structure to completely specify both the sharding and modeling using only tree structures. In addition to experiments, we also derive the theoretical optimal weights for minimizing posterior contractions and prove the worst-case complexity of SBT.
翻訳日:2023-06-02 18:11:14 公開日:2023-06-01
# ConvNetsは画像の強度をどう理解するか?

How Do ConvNets Understand Image Intensity? ( http://arxiv.org/abs/2306.00360v1 )

ライセンス: Link先を確認
Jackson Kaunismaa, and Michael Guerzhoy(参考訳) 畳み込みニューラルネットワーク(convnets)は通常、画像の分類にエッジ/シェイプ情報に依存する。 過去10年間で開発された可視化手法は、ConvNetsがエッジ情報に依存していることを確認する。 本研究では,ConvNetが形状に加え,画像強度に頼らなければならない状況について検討する。 我々は,ConvNetが画像の強度情報に依存していることを示す。

Convolutional Neural Networks (ConvNets) usually rely on edge/shape information to classify images. Visualization methods developed over the last decade confirm that ConvNets rely on edge information. We investigate situations where the ConvNet needs to rely on image intensity in addition to shape. We show that the ConvNet relies on image intensity information using visualization.
翻訳日:2023-06-02 18:11:02 公開日:2023-06-01
# 可視化のための次元削減のための高パラメータの効率的かつロバストなベイズ選択

Efficient and Robust Bayesian Selection of Hyperparameters in Dimension Reduction for Visualization ( http://arxiv.org/abs/2306.00357v1 )

ライセンス: Link先を確認
Yin-Ting Liao, Hengrui Luo, Anna Ma(参考訳) 本稿では,大規模データセットと任意のパフォーマンス指標に着目した,次元縮小(DR)アルゴリズムにおけるハイパーパラメータ選択のための効率的で堅牢な自動チューニングフレームワークを提案する。 ベイズ最適化(bo)をサーロゲートモデルで活用することにより,マルチ目的トレードオフを用いた効率的なハイパーパラメータ選択を可能にし,データ駆動型感度解析を可能にする。 正規化とサブサンプリングを取り入れることで,t-SNE や UMAP などの可視化技術に適用できるような,汎用性と効率性を示す。 DRアルゴリズムにおける高パラメータ選択のための頑健かつ効率的なソリューションを提供するため,複数の品質指標を用いた各種合成および実世界のデータセットについて評価を行った。

We introduce an efficient and robust auto-tuning framework for hyperparameter selection in dimension reduction (DR) algorithms, focusing on large-scale datasets and arbitrary performance metrics. By leveraging Bayesian optimization (BO) with a surrogate model, our approach enables efficient hyperparameter selection with multi-objective trade-offs and allows us to perform data-driven sensitivity analysis. By incorporating normalization and subsampling, the proposed framework demonstrates versatility and efficiency, as shown in applications to visualization techniques such as t-SNE and UMAP. We evaluate our results on various synthetic and real-world datasets using multiple quality metrics, providing a robust and efficient solution for hyperparameter selection in DR algorithms.
翻訳日:2023-06-02 18:10:57 公開日:2023-06-01
# 混合対称性下でのソフト等分散への規則化

Regularizing Towards Soft Equivariance Under Mixed Symmetries ( http://arxiv.org/abs/2306.00356v1 )

ライセンス: Link先を確認
Hyunsu Kim, Hyungi Lee, Hongseok Yang, and Juho Lee(参考訳) データセットは固有の対称性を持つことが多く、同変モデルや不変モデルと呼ばれる特定のディープラーニングモデルはこれらの対称性を利用するために開発された。 しかし、これらの対称性のいくつかまたは全てが近似的であり、実際にしばしば発生する場合、これらのモデルはそれらに課せられるアーキテクチャ上の制約のために最適ではないかもしれない。 我々は、対称性が混合されるような設定において、近似対称性のこの問題に取り組む。すなわち、それらは単一ではなく複数の異なるタイプの対称性であり、これらのタイプ間で近似の程度が変化する。 従来のアプローチのほとんどのように新しいアーキテクチャ制約を提案する代わりに、混合近似対称性を持つデータセットのモデルを構築するための正規化器ベースの手法を提案する。 この手法の鍵となる要素は、与えられた種類の対称性に対する同値正規化器と呼ばれるもので、モデルの対称性に対する同値度を測るものである。 本手法は,各対称型に1つずつの正則化器を用いて訓練し,訓練中に正則化器の強度を自動調整し,明示的な監督なしにいくつかの候補対称性型の近似レベルを発見できる。 合成関数近似と運動予測タスクを用いて, 近似対称性を正しく検出しながら, 従来手法よりも精度が向上することを示す。

Datasets often have their intrinsic symmetries, and particular deep-learning models called equivariant or invariant models have been developed to exploit these symmetries. However, if some or all of these symmetries are only approximate, which frequently happens in practice, these models may be suboptimal due to the architectural restrictions imposed on them. We tackle this issue of approximate symmetries in a setup where symmetries are mixed, i.e., they are symmetries of not single but multiple different types and the degree of approximation varies across these types. Instead of proposing a new architectural restriction as in most of the previous approaches, we present a regularizer-based method for building a model for a dataset with mixed approximate symmetries. The key component of our method is what we call equivariance regularizer for a given type of symmetries, which measures how much a model is equivariant with respect to the symmetries of the type. Our method is trained with these regularizers, one per each symmetry type, and the strength of the regularizers is automatically tuned during training, leading to the discovery of the approximation levels of some candidate symmetry types without explicit supervision. Using synthetic function approximation and motion forecasting tasks, we demonstrate that our method achieves better accuracy than prior approaches while discovering the approximate symmetry levels correctly.
翻訳日:2023-06-02 18:10:44 公開日:2023-06-01
# 拡散モデルにおける負転移の対応

Addressing Negative Transfer in Diffusion Models ( http://arxiv.org/abs/2306.00354v1 )

ライセンス: Link先を確認
Hyojun Go, JinYoung Kim, Yunsung Lee, Seunghyun Lee, Shinhyeok Oh, Hyeongdon Moon, Seungtaek Choi(参考訳) 拡散に基づく生成モデルは様々な領域で顕著な成功を収めている。 異なるノイズレベルを同時に包含するタスクを修飾するモデルをトレーニングし、マルチタスク学習(mtl)の形式を表現する。 しかし、MTLの観点からの拡散モデルの解析と改善はいまだに未検討である。 特に、mtlはよく知られた$\textit{ negative transfer}$という現象につながり、タスク間の競合によって特定のタスクのパフォーマンスが低下することがある。 本稿では,mtlの立場から拡散訓練を分析することを目的とした。$\textbf{(o1)}$ the task affinity between denoising tasks when the gap between noise levels wides, $\textbf{(o2)}$ negative transferは拡散訓練の文脈でも起こりうる。 本研究の目的は, 負転移の緩和による拡散訓練の促進である。 これを実現するために,既存のMLL手法の活用を提案するが,膨大なタスクが存在するため,タスク毎の損失や勾配を計算するのに計算コストがかかる。 この課題に対処するために,タスクを小さなタスククラスタにクラスタ化し,MTLメソッドを適用することを提案する。 具体的には、$\textbf{(O2)}$に基づいて、クラスタ内のタスク間の時間的近接を強制するために間隔クラスタリングを用いる。 本研究では,区間クラスタリングを動的プログラミングで解き,信号対雑音比,時間ステップ,タスク親和性をクラスタリングの目的に利用できることを示す。 本手法は,mtl法の効率的な計算を可能にすることにより,拡散モデルにおける負の伝達問題に対処する。 提案手法のクラスタリングとMTL手法の統合を様々な実験により検証し,拡散モデルのサンプル品質の向上を実証した。

Diffusion-based generative models have achieved remarkable success in various domains. It trains a model on denoising tasks that encompass different noise levels simultaneously, representing a form of multi-task learning (MTL). However, analyzing and improving diffusion models from an MTL perspective remains under-explored. In particular, MTL can sometimes lead to the well-known phenomenon of $\textit{negative transfer}$, which results in the performance degradation of certain tasks due to conflicts between tasks. In this paper, we aim to analyze diffusion training from an MTL standpoint, presenting two key observations: $\textbf{(O1)}$ the task affinity between denoising tasks diminishes as the gap between noise levels widens, and $\textbf{(O2)}$ negative transfer can arise even in the context of diffusion training. Building upon these observations, our objective is to enhance diffusion training by mitigating negative transfer. To achieve this, we propose leveraging existing MTL methods, but the presence of a huge number of denoising tasks makes this computationally expensive to calculate the necessary per-task loss or gradient. To address this challenge, we propose clustering the denoising tasks into small task clusters and applying MTL methods to them. Specifically, based on $\textbf{(O2)}$, we employ interval clustering to enforce temporal proximity among denoising tasks within clusters. We show that interval clustering can be solved with dynamic programming and utilize signal-to-noise ratio, timestep, and task affinity for clustering objectives. Through this, our approach addresses the issue of negative transfer in diffusion models by allowing for efficient computation of MTL methods. We validate the proposed clustering and its integration with MTL methods through various experiments, demonstrating improved sample quality of diffusion models.
翻訳日:2023-06-02 18:10:24 公開日:2023-06-01
# 確率論的視点による意味論的考察

Constructing Semantics-Aware Adversarial Examples with Probabilistic Perspective ( http://arxiv.org/abs/2306.00353v1 )

ライセンス: Link先を確認
Andi Zhang and Damon Wischik(参考訳) 本研究では,箱拘束型ランジュバンモンテカルロ (lmc) によって達成された,敵対的事例に対する新しい確率的視点を提案する。 この観点から,本研究は,意味論を意識した敵対的事例を原理的に生成する革新的な手法を考案する。 この手法は幾何学的距離による制限を超越し、代わりに意味的制約を選択する。 私たちのアプローチは、個人がセマンティクスの個人的理解をモデルに組み込む権限を与えます。 人間の評価を通じて、我々の意味論的に認識される敵の例が本質的な意味を維持していることを検証する。 MNIST と SVHN データセットによる実験結果から,従来の敵攻撃に適した頑健な敵対訓練手法を効果的に回避できることが示唆された。

In this study, we introduce a novel, probabilistic viewpoint on adversarial examples, achieved through box-constrained Langevin Monte Carlo (LMC). Proceeding from this perspective, we develop an innovative approach for generating semantics-aware adversarial examples in a principled manner. This methodology transcends the restriction imposed by geometric distance, instead opting for semantic constraints. Our approach empowers individuals to incorporate their personal comprehension of semantics into the model. Through human evaluation, we validate that our semantics-aware adversarial examples maintain their inherent meaning. Experimental findings on the MNIST and SVHN datasets demonstrate that our semantics-aware adversarial examples can effectively circumvent robust adversarial training methods tailored for traditional adversarial attacks.
翻訳日:2023-06-02 18:09:53 公開日:2023-06-01
# 機械学習のためのエネルギー保存降下の改善--理論と実践

Improving Energy Conserving Descent for Machine Learning: Theory and Practice ( http://arxiv.org/abs/2306.00352v1 )

ライセンス: Link先を確認
G. Bruno De Luca, Alice Gatti, Eva Silverstein(参考訳) 本研究では, エネルギー保存 Descent (ECD) の理論を開発し, 凸および非凸最適化問題に対処可能な勾配最適化アルゴリズム ECDSep を導入する。 この方法は、最適なカオスエネルギー保存力学系の物理進化としての最適化の新たなecdフレームワークに基づいており、対称性のない一般的な高次元問題であっても、低損失で支配される結果の分布を解析的に制御することができる。 この概念の従来の実現と比べ,動的要素とカオス誘導要素の両方を改善する理論制御を利用して,最適化アルゴリズムのハイパーパラメータチューニングを簡素化し,性能を向上させる。 我々は、SGD、Adam、AdamWといった一般的な最適化手法を、幅広い機械学習問題に対して経験的に比較し、各タスクにおける最高の結果と比較して、競争力やパフォーマンスの向上を見出した。 さらなる改善の可能性を示す分析の限界を特定します。

We develop the theory of Energy Conserving Descent (ECD) and introduce ECDSep, a gradient-based optimization algorithm able to tackle convex and non-convex optimization problems. The method is based on the novel ECD framework of optimization as physical evolution of a suitable chaotic energy-conserving dynamical system, enabling analytic control of the distribution of results - dominated at low loss - even for generic high-dimensional problems with no symmetries. Compared to previous realizations of this idea, we exploit the theoretical control to improve both the dynamics and chaos-inducing elements, enhancing performance while simplifying the hyper-parameter tuning of the optimization algorithm targeted to different classes of problems. We empirically compare with popular optimization methods such as SGD, Adam and AdamW on a wide range of machine learning problems, finding competitive or improved performance compared to the best among them on each task. We identify limitations in our analysis pointing to possibilities for additional improvements.
翻訳日:2023-06-02 18:09:39 公開日:2023-06-01
# 深さ超解像のための対称不確かさ認識特徴伝達

Symmetric Uncertainty-Aware Feature Transmission for Depth Super-Resolution ( http://arxiv.org/abs/2306.00386v1 )

ライセンス: Link先を確認
Wuxuan Shi, Mang Ye, Bo Du(参考訳) カラー誘導深度超解像(DSR)は、低解像度(LR)深度マップを同じシーンから高解像度(HR)RGB画像でガイドする奨励パラダイムである。 既存の方法では、補間を利用して深度マップをアップスケールし、ネットワークに供給し、HR RGB画像から抽出した高周波情報を転送して深度マップの再構築を導く。 しかし, 抽出した高周波情報は通常, クロスモダリティギャップの存在下では深度マップに存在しないテクスチャを含んでおり, RGBと深度画像の解像度ギャップによる補間によりさらにノイズが増大する。 これらの課題に対処するために、カラー誘導DSRのための新しいSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。 1) 分解能ギャップを解消するために,SUFTは, 補間プリサンプリングを置き換え, ノイズ増幅やぼやけを抑制しつつ, 奥行き特性とRGB特性を空間的に一貫した反復的アップ・アンド・ダウンサンプリングパイプラインを構築した。 2)クロスモダリティギャップに対して,HR深度マップの復元に有害なRGB情報の一部を除去するシンメトリクス不確実性手法を提案する。 ベンチマークデータセットの広範囲な実験と実世界設定への挑戦から,本手法は最先端手法よりも優れた性能が得られることが示唆された。 私たちのコードとモデルはhttps://github.com/shiwuxuan/suft.comで利用可能です。

Color-guided depth super-resolution (DSR) is an encouraging paradigm that enhances a low-resolution (LR) depth map guided by an extra high-resolution (HR) RGB image from the same scene. Existing methods usually use interpolation to upscale the depth maps before feeding them into the network and transfer the high-frequency information extracted from HR RGB images to guide the reconstruction of depth maps. However, the extracted high-frequency information usually contains textures that are not present in depth maps in the existence of the cross-modality gap, and the noises would be further aggravated by interpolation due to the resolution gap between the RGB and depth images. To tackle these challenges, we propose a novel Symmetric Uncertainty-aware Feature Transmission (SUFT) for color-guided DSR. (1) For the resolution gap, SUFT builds an iterative up-and-down sampling pipeline, which makes depth features and RGB features spatially consistent while suppressing noise amplification and blurring by replacing common interpolated pre-upsampling. (2) For the cross-modality gap, we propose a novel Symmetric Uncertainty scheme to remove parts of RGB information harmful to the recovery of HR depth maps. Extensive experiments on benchmark datasets and challenging real-world settings suggest that our method achieves superior performance compared to state-of-the-art methods. Our code and models are available at https://github.com/ShiWuxuan/SUFT.
翻訳日:2023-06-02 18:04:04 公開日:2023-06-01
# HySpecNet-11k:学習に基づくハイパースペクトル画像圧縮手法のベンチマークのための大規模ハイパースペクトルデータセット

HySpecNet-11k: A Large-Scale Hyperspectral Dataset for Benchmarking Learning-Based Hyperspectral Image Compression Methods ( http://arxiv.org/abs/2306.00385v1 )

ライセンス: Link先を確認
Martin Hermann Paul Fuchs, Beg\"um Demir(参考訳) 近年,学習に基づくハイパースペクトル画像圧縮手法の開発が注目されている。 このような方法では、全てのパラメータを最適化し、高い圧縮性能に達するために、トレーニング中に使用する高スペクトル画像が大量に必要となる。 しかし、既存のハイパースペクトルデータセットは学習に基づく圧縮手法の訓練や評価には不十分であり、この分野での研究を妨げている。 そこで本稿では,11,483個の非オーバーラップ画像パッチからなる大規模ハイパースペクトルベンチマークデータセットであるhyspecnet-11kを提案する。 各パッチは、128ドルの128ドルの128ピクセルの一部であり、224のスペクトルバンドと地上サンプル距離は30mである。 我々はHySpecNet-11kを用いて、学習に基づくハイパースペクトル画像圧縮における技術の現状をベンチマークし、様々な1D、2D、3D畳み込みオートエンコーダアーキテクチャに注目した。 それでもhyspecnet-11kはハイパースペクトル画像解析のフレームワークにおいて教師なしの学習タスクに使用できる。 データセット、コード、トレーニング済みの重み付けはhttps://hyspecnet.rsim.berlin.orgで公開されている。

The development of learning-based hyperspectral image compression methods has recently attracted great attention in remote sensing. Such methods require a high number of hyperspectral images to be used during training to optimize all parameters and reach a high compression performance. However, existing hyperspectral datasets are not sufficient to train and evaluate learning-based compression methods, which hinders the research in this field. To address this problem, in this paper we present HySpecNet-11k that is a large-scale hyperspectral benchmark dataset made up of 11,483 nonoverlapping image patches. Each patch is a portion of 128 $\times$ 128 pixels with 224 spectral bands and a ground sample distance of 30 m. We exploit HySpecNet-11k to benchmark the current state of the art in learning-based hyperspectral image compression by focussing our attention on various 1D, 2D and 3D convolutional autoencoder architectures. Nevertheless, HySpecNet-11k can be used for any unsupervised learning task in the framework of hyperspectral image analysis. The dataset, our code and the pre-trained weights are publicly available at https://hyspecnet.rsim.berlin.
翻訳日:2023-06-02 18:03:39 公開日:2023-06-01
# 因果効果推定のための校正確率スコア

Calibrated Propensity Scores for Causal Effect Estimation ( http://arxiv.org/abs/2306.00382v1 )

ライセンス: Link先を確認
Shachi Deshpande and Volodymyr Kuleshov(参考訳) プロペンシティスコアは、治療効果を推定しながら観察された共変量のバランスをとるために一般的に用いられる。 確率スコアモデルが真の処置代入機構を学べない場合には、確率スコアの重み付けによって得られた推定値に偏りが生じる。 我々は,学習傾向スコアモデルの確率的アウトプットを校正すべきであり,すなわち90%の予測的治療確率は治療群に割り当てられた個人の90%に相当するべきであると論じた。 この特性を保証するため,簡単な再校正手法を提案する。 キャリブレーションされた確率スコアモデルの理論的特性とその非バイアス処理効果推定における役割について検討する。 本研究では,高次元ゲノムワイドアソシエーション研究を含むいくつかのタスクにおいて,適応性スコアを用いた因果効果推定の改善を実証する。

Propensity scores are commonly used to balance observed covariates while estimating treatment effects. Estimates obtained through propensity score weighing can be biased when the propensity score model cannot learn the true treatment assignment mechanism. We argue that the probabilistic output of a learned propensity score model should be calibrated, i.e. a predictive treatment probability of 90% should correspond to 90% of individuals being assigned the treatment group. We propose simple recalibration techniques to ensure this property. We investigate the theoretical properties of a calibrated propensity score model and its role in unbiased treatment effect estimation. We demonstrate improved causal effect estimation with calibrated propensity scores in several tasks including high-dimensional genome-wide association studies, where we also show reduced computational requirements when calibration is applied to simpler propensity score models.
翻訳日:2023-06-02 18:03:20 公開日:2023-06-01
# より良いコンテキストがコード言語モデルを改善する:Function Call Argument Completionのケーススタディ

Better Context Makes Better Code Language Models: A Case Study on Function Call Argument Completion ( http://arxiv.org/abs/2306.00381v1 )

ライセンス: Link先を確認
Hengzhi Pei, Jinman Zhao, Leonard Lausen, Sheng Zha, George Karypis(参考訳) 事前学習されたコード言語モデルは、プログラム合成において大きな進歩をもたらした。 しかし、一般的なアプローチはファイル内のローカルコンテキストのみを考慮するため、コードベースの他の部分とその外部依存関係によって課される情報や制約を見逃す。 既存のコード補完ベンチマークにもそのようなコンテキストがない。 これらの制限を解決するために、完全なプロジェクトとその依存関係を含む許可されたPythonパッケージの新しいデータセットをキュレートし、プログラムアナライザの助けを借りて非ローカル情報を抽出するツールを提供します。 次に、関数呼び出しに対する引数の予測を必要とする関数呼び出し引数補完のタスクに焦点を当てる。 既存のコード補完モデルは、完了タスクに良い結果を出さないことを示す。 この課題をよりよく解決するために、与えられた関数呼び出しに関する情報をプログラムアナライザに問い合わせ、推論とトレーニングの間に異なるコード補完モデルにアナライザ結果を提供する方法を検討する。 実験では,関数の実装と関数の使用方法へのアクセスにより,引数補完性能が大幅に向上することを示す。 本研究は,プログラムアナライザから利用可能な情報の種類や,その情報を取り込む方法がモデル性能に与える影響について,さらなる知見を与える。

Pretrained code language models have enabled great progress towards program synthesis. However, common approaches only consider in-file local context and thus miss information and constraints imposed by other parts of the codebase and its external dependencies. Existing code completion benchmarks also lack such context. To resolve these restrictions we curate a new dataset of permissively licensed Python packages that includes full projects and their dependencies and provide tools to extract non-local information with the help of program analyzers. We then focus on the task of function call argument completion which requires predicting the arguments to function calls. We show that existing code completion models do not yield good results on our completion task. To better solve this task, we query a program analyzer for information relevant to a given function call, and consider ways to provide the analyzer results to different code completion models during inference and training. Our experiments show that providing access to the function implementation and function usages greatly improves the argument completion performance. Our ablation study provides further insights on how different types of information available from the program analyzer and different ways of incorporating the information affect the model performance.
翻訳日:2023-06-02 18:03:04 公開日:2023-06-01
# 信頼できるAIに関する調査・分類学・今後の方向性:戦略決定のメタ決定

The Survey, Taxonomy, and Future Directions of Trustworthy AI: A Meta Decision of Strategic Decisions ( http://arxiv.org/abs/2306.00380v1 )

ライセンス: Link先を確認
Caesar Wu, Yuan-Fang Lib, and Pascal Bouvry(参考訳) 戦略的決定を行うとき、私たちはしばしば処理すべき圧倒的な情報に直面します。 この状況は、いくつかの証拠が互いに矛盾している、あるいは矛盾している場合にさらに複雑である。 課題は、どの情報が役に立つか、どの情報を排除すべきかを決定する方法だ。 この過程はメタ決定と呼ばれる。 同様に、戦略的意思決定に人工知能(AI)システムを使用する場合、多くのAIシステムが大量のデータを処理する不透明な「ブラックボックス」と見なされるため、AI自体への信頼がメタ決定となる。 不透明なシステムを信頼するには、信頼に値するAI(TAI)のレベルを決定する必要がある。 本稿では, 異なる信頼レベルに対して, 明瞭性, 信頼性, 基礎という3つの重要な領域を包含するtaiの新たな分類法や枠組みを導入することにより, この問題に新たなアプローチを提案する。 説明可能性/透明性、公平性/多様性、一般化可能性、プライバシ、データガバナンス、安全性/ロバスト性、説明可能性、再現性、信頼性、持続可能性。 我々は,この分類学を用いて包括的調査を行い,戦略的意思決定の観点から異なるTAIアプローチを探求することを目指している。

When making strategic decisions, we are often confronted with overwhelming information to process. The situation can be further complicated when some pieces of evidence are contradicted each other or paradoxical. The challenge then becomes how to determine which information is useful and which ones should be eliminated. This process is known as meta-decision. Likewise, when it comes to using Artificial Intelligence (AI) systems for strategic decision-making, placing trust in the AI itself becomes a meta-decision, given that many AI systems are viewed as opaque "black boxes" that process large amounts of data. Trusting an opaque system involves deciding on the level of Trustworthy AI (TAI). We propose a new approach to address this issue by introducing a novel taxonomy or framework of TAI, which encompasses three crucial domains: articulate, authentic, and basic for different levels of trust. To underpin these domains, we create ten dimensions to measure trust: explainability/transparency, fairness/diversity, generalizability, privacy, data governance, safety/robustness, accountability, reproducibility, reliability, and sustainability. We aim to use this taxonomy to conduct a comprehensive survey and explore different TAI approaches from a strategic decision-making perspective.
翻訳日:2023-06-02 18:02:44 公開日:2023-06-01
# Eコマース属性の大規模生成型マルチモーダル属性抽出

Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes ( http://arxiv.org/abs/2306.00379v1 )

ライセンス: Link先を確認
Anant Khandelwal, Happy Mittal, Shreyas Sunil Kulkarni, Deepak Gupta(参考訳) eコマースウェブサイト(例えばamazon)は、製品ページにある構造化され、構造化されていない情報(テキストと画像)を多数持っている。 販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。 テキストと画像の両方を含むeコマース製品ページから属性値を自動的に識別することは、特にカタログで属性値が明示的に言及されていない場合、難しい作業である。 本稿では, 属性抽出問題を質問応答タスクとして用いて, 3つの重要な要素からなる‘textbf{MXT}’を用いて解決する, この問題に対するスケーラブルな解を提案する。 (i) \textbf{m}ag(マルチモーダル適応ゲート) (ii) \textbf{x}ception network、及び (iii) \textbf{t}5エンコーダ-デコーダ。 本システムは,商品のテキスト的特徴と視覚的特徴(例えば,画像)を用いて,ある商品の属性値にemph{generates}を付与する生成モデルから構成される。 本システムは,従来の分類モデルとNERモデルでは欠落しているゼロショット属性予測(トレーニングデータでは属性値が見えない場合)と付加価値予測(テキストでは属性値が言及されていない場合)を扱うことができることを示す。 我々は、遠隔監視を用いてモデルをトレーニングし、人間のラベリングへの依存を排除し、現実世界のアプリケーションに実用的なものにした。 このフレームワークを使用することで、1000の(製品タイプ、属性)ペアに対して単一のモデルをトレーニングすることが可能になります。 2つの実世界のデータセットに対する大規模な実験は、我々のフレームワークが既存のアートモデルの状態から10.16\%と6.9\%の絶対リコール@90Pを改善することを示している。 人気のeコマースストアでは、1000の(製品タイプ、属性)ペアのモデルをデプロイしています。

E-commerce websites (e.g. Amazon) have a plethora of structured and unstructured information (text and images) present on the product pages. Sellers often either don't label or mislabel values of the attributes (e.g. color, size etc.) for their products. Automatically identifying these attribute values from an eCommerce product page that contains both text and images is a challenging task, especially when the attribute value is not explicitly mentioned in the catalog. In this paper, we present a scalable solution for this problem where we pose attribute extraction problem as a question-answering task, which we solve using \textbf{MXT}, consisting of three key components: (i) \textbf{M}AG (Multimodal Adaptation Gate), (ii) \textbf{X}ception network, and (iii) \textbf{T}5 encoder-decoder. Our system consists of a generative model that \emph{generates} attribute-values for a given product by using both textual and visual characteristics (e.g. images) of the product. We show that our system is capable of handling zero-shot attribute prediction (when attribute value is not seen in training data) and value-absent prediction (when attribute value is not mentioned in the text) which are missing in traditional classification-based and NER-based models respectively. We have trained our models using distant supervision, removing dependency on human labeling, thus making them practical for real-world applications. With this framework, we are able to train a single model for 1000s of (product-type, attribute) pairs, thus reducing the overhead of training and maintaining separate models. Extensive experiments on two real world datasets show that our framework improves the absolute recall@90P by 10.16\% and 6.9\% from the existing state of the art models. In a popular e-commerce store, we have deployed our models for 1000s of (product-type, attribute) pairs.
翻訳日:2023-06-02 18:02:21 公開日:2023-06-01
# 生成運動マッチングによる事例ベースモーション合成

Example-based Motion Synthesis via Generative Motion Matching ( http://arxiv.org/abs/2306.00378v1 )

ライセンス: Link先を確認
Weiyu Li, Xuelin Chen, Peizhuo Li, Olga Sorkine-Hornung, Baoquan Chen(参考訳) 我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。 通常長時間のオフライントレーニングを必要とする既存のデータ駆動手法とは対照的に、視覚的なアーティファクトは少なく、大型で複雑な骨格では失敗する傾向があるため、GenMMはトレーニングのない性質と、よく知られたモーションマッチング手法の優れた品質を継承する。 GenMMは、非常に複雑で大きな骨格構造であっても、1秒以内に高品質な運動を合成することができる。 生成フレームワークの中心には、生成的動きマッチングモジュールがあり、このモジュールは、双方向の視覚的類似性を生成的コスト関数として利用し、多段階のフレームワークで動作マッチングを用いてランダムな推測を段階的に洗練する。 多様な動作生成に加えて,動作完了,キーフレーム誘導生成,無限ループ,動き再組み立てなど,動作マッチングだけでは不可能となるシナリオを数多く拡張することにより,生成フレームワークの汎用性を示す。 コードとデータはhttps://wyysf-98.github.io/genmm/にある。

We present GenMM, a generative model that "mines" as many diverse motions as possible from a single or few example sequences. In stark contrast to existing data-driven methods, which typically require long offline training time, are prone to visual artifacts, and tend to fail on large and complex skeletons, GenMM inherits the training-free nature and the superior quality of the well-known Motion Matching method. GenMM can synthesize a high-quality motion within a fraction of a second, even with highly complex and large skeletal structures. At the heart of our generative framework lies the generative motion matching module, which utilizes the bidirectional visual similarity as a generative cost function to motion matching, and operates in a multi-stage framework to progressively refine a random guess using exemplar motion matches. In addition to diverse motion generation, we show the versatility of our generative framework by extending it to a number of scenarios that are not possible with motion matching alone, including motion completion, key frame-guided generation, infinite looping, and motion reassembly. Code and data for this paper are at https://wyysf-98.github.io/GenMM/
翻訳日:2023-06-02 18:01:50 公開日:2023-06-01
# サイバーセキュリティにおけるオントロジーの開発と構築

Developing and Building Ontologies in Cyber Security ( http://arxiv.org/abs/2306.00377v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Muhammad Talha Waseem(参考訳) サイバーセキュリティは、現代社会で最も発生している分野の1つです。 私たちはサイバーセキュリティドメインに取り組んでおり、その中で私たちが選んだトピックはサイバーセキュリティオントロジーです。 これにより、最新のオントロジーと以前のオントロジーをすべて収集し、それらを異なる分析要因に基づいて比較し、最良の結果を得ることができます。 このトピックを選択する理由は、異なる時代の異なるオントロジーを組み立てることである。 このSLRに含まれる研究は主に単一オントロジーの研究である。 ある研究者がオントロジーを研究したい場合、彼はすべてのオントロジーを研究し、研究に最適なものを選ぶ必要がある。 ですから,さまざまなオントロジーを組み立てて,それらを比較して,最大限に活用するのです。 2010年から2020年までの合計24枚の論文は、体系的なプロセスを通じて慎重に選択され、分類される。 最後に、このSLRは、サイバーセキュリティオントロジーの領域における将来の方向性を期待する研究者に提供するために提示されている。

Cyber Security is one of the most arising disciplines in our modern society. We work on Cybersecurity domain and in this the topic we chose is Cyber Security Ontologies. In this we gather all latest and previous ontologies and compare them on the basis of different analyzing factors to get best of them. Reason to select this topic is to assemble different ontologies from different era of time. Because, researches that included in this SLR is mostly studied single ontology. If any researcher wants to study ontologies, he has to study every single ontology and select which one is best for his research. So, we assemble different types of ontology and compare them against each other to get best of them. A total 24 papers between years 2010-2020 are carefully selected through systematic process and classified accordingly. Lastly, this SLR have been presented to provide the researchers promising future directions in the domain of cybersecurity ontologies.
翻訳日:2023-06-02 18:01:29 公開日:2023-06-01
# CFL:Token-level Attribute Controled Generationによる因果フェア言語モデル

CFL: Causally Fair Language Models Through Token-level Attribute Controlled Generation ( http://arxiv.org/abs/2306.00374v1 )

ライセンス: Link先を確認
Rahul Madhavan, Rishabh Garg, Kahini Wadhawan and Sameep Mehta(参考訳) 本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。 本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL)アーキテクチャを提案する。 我々のアーキテクチャは構造因果モデル(scm)に基づいており、既存の多くのデトキシフィケーション技術と比較して数学的に透明で計算効率が高い。 また、有害テキスト生成の文脈において、LMの振る舞いをよりよく理解するための新しい指標をいくつか提案する。 さらに, RTP (RTP) ベンチマークを用いて, 有毒な変性を予測し, 評価した。 実験の結果,CFLはモデルパープレキシティに大きな影響を与えずに,このような解毒を行うことがわかった。 また, BOLDデータセットを用いた実験により, CFLは意図しないバイアス問題を緩和することを示した。

We propose a method to control the attributes of Language Models (LMs) for the text generation task using Causal Average Treatment Effect (ATE) scores and counterfactual augmentation. We explore this method, in the context of LM detoxification, and propose the Causally Fair Language (CFL) architecture for detoxifying pre-trained LMs in a plug-and-play manner. Our architecture is based on a Structural Causal Model (SCM) that is mathematically transparent and computationally efficient as compared with many existing detoxification techniques. We also propose several new metrics that aim to better understand the behaviour of LMs in the context of toxic text generation. Further, we achieve state of the art performance for toxic degeneration, which are computed using \RTP (RTP) benchmark. Our experiments show that CFL achieves such a detoxification without much impact on the model perplexity. We also show that CFL mitigates the unintended bias problem through experiments on the BOLD dataset.
翻訳日:2023-06-02 18:01:15 公開日:2023-06-01
# グラフスイッチング力学系

Graph Switching Dynamical Systems ( http://arxiv.org/abs/2306.00370v1 )

ライセンス: Link先を確認
Yongtuo Liu, Sara Magliacane, Miltiadis Kofinas, and Efstratios Gavves(参考訳) 複雑な行動を持つ力学系、例えば病原体と相互作用する免疫系細胞は、振る舞いを異なるレジームまたはモードに分割し、より単純なダイナミクスを持ち、あるモードから別のモードに切り替える動作を学ぶことでモデル化される。 Switching Dynamical Systems (SDS)は、時系列データからこれらのモードとモードスイッチング動作を自動的に検出する強力なツールである。 これらの方法は有効であるが、あるオブジェクトのモードが他のオブジェクトのモードとは独立している独立したオブジェクトにフォーカスする。 本稿では,オブジェクト単位のダイナミクスが他のオブジェクトとそのモードの未知で動的に変化する部分集合にも依存する動的システムの切り替えにおいて,より汎用的なオブジェクト設定に着目する。 そこで本研究では,動的グラフを用いてオブジェクト間のインタラクションを特徴付け,オブジェクト内およびオブジェクト間モード切替動作の両方を学習する,新しいグラフベースアプローチであるgraph switching dynamical systems (grass)を提案する。 我々は,この設定のための2つの新しいデータセット,合成ode駆動粒子データセットと実世界のサルサカップルダンスデータセットを紹介する。 実験により、GRASSは従来の最先端の手法よりも一貫して優れていることが示された。

Dynamical systems with complex behaviours, e.g. immune system cells interacting with a pathogen, are commonly modelled by splitting the behaviour into different regimes, or modes, each with simpler dynamics, and then learning the switching behaviour from one mode to another. Switching Dynamical Systems (SDS) are a powerful tool that automatically discovers these modes and mode-switching behaviour from time series data. While effective, these methods focus on independent objects, where the modes of one object are independent of the modes of the other objects. In this paper, we focus on the more general interacting object setting for switching dynamical systems, where the per-object dynamics also depends on an unknown and dynamically changing subset of other objects and their modes. To this end, we propose a novel graph-based approach for switching dynamical systems, GRAph Switching dynamical Systems (GRASS), in which we use a dynamic graph to characterize interactions between objects and learn both intra-object and inter-object mode-switching behaviour. We introduce two new datasets for this setting, a synthesized ODE-driven particles dataset and a real-world Salsa Couple Dancing dataset. Experiments show that GRASS can consistently outperforms previous state-of-the-art methods.
翻訳日:2023-06-02 18:00:55 公開日:2023-06-01
# 任意の順序に対する高速ロバストテンソルパワー法

Faster Robust Tensor Power Method for Arbitrary Order ( http://arxiv.org/abs/2306.00406v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Junze Yin(参考訳) テンソル分解は、様々な領域で高次元データを扱うために用いられる基本的な方法である。 \emph{Tensor power method} (TPM) はテンソルの分解において広く使われている手法の1つである。 本稿では、任意の順序テンソルを分解する新しいテンソルパワー法を提案する。これは、しばしば下次テンソルに制限される既存のアプローチの制限を克服し、基礎となるデータ構造について強い仮定を必要とする。 スケッチ法を適用して,$\widetilde{o}(n^{p-1})$ をパワー $p$ とディメンション $n$tensor で実行可能とした。 我々は任意の$p$-階テンソルに対して詳細な解析を行い、これは以前の研究では与えられなかった。

Tensor decomposition is a fundamental method used in various areas to deal with high-dimensional data. \emph{Tensor power method} (TPM) is one of the widely-used techniques in the decomposition of tensors. This paper presents a novel tensor power method for decomposing arbitrary order tensors, which overcomes limitations of existing approaches that are often restricted to lower-order (less than $3$) tensors or require strong assumptions about the underlying data structure. We apply sketching method, and we are able to achieve the running time of $\widetilde{O}(n^{p-1})$, on the power $p$ and dimension $n$ tensor. We provide a detailed analysis for any $p$-th order tensor, which is never given in previous works.
翻訳日:2023-06-02 17:53:04 公開日:2023-06-01
# フェアネス対応レコメンダシステムに関する調査

A Survey on Fairness-aware Recommender Systems ( http://arxiv.org/abs/2306.00403v1 )

ライセンス: Link先を確認
Di Jin, Luzhi Wang, He Zhang, Yizhen Zheng, Weiping Ding, Feng Xia, Shirui Pan(参考訳) 情報フィルタリングサービスとして、レコメンダシステムは、パーソナライズされた提案を提供し、意思決定を促進することによって、日々の生活を非常に豊かにしてきた。 しかし、人々がより依存するようになるにつれて、最近の研究では、リコメンダシステムは社会や個人に不公平さ(例えば、仕事の推薦における性差別)のために意図しない影響を与える可能性があることが示されている。 信頼に値するサービスを開発するためには、これらのバイアス問題を緩和できる公平さを意識したレコメンデーションシステムを考案することが不可欠である。 本稿では,推薦システムにおける既存手法とフェアネスの実践を要約する。 まず、異なるレコメンデーションシナリオにおける公平性の概念を示し、現在の進歩を包括的に分類し、レコメンデーションシステムの異なる段階で公平性を促進する典型的な方法を紹介する。 次に、レコメンダシステムの公正性を評価するために適用されるデータセットと評価指標を導入し、フェアネスを意識したレコメンダシステムが実世界の産業アプリケーションに与える影響について考察する。 続いて,公正を主張する一方で,信頼性の原則を体系的に検討することを目的とした,信頼に値するレコメンデーションシステムの他の原則との関係を強調する。 最後に,このレビューを要約し,概念の理解,フレームワーク,正確性と公平性のバランス,信頼性との相関性,公正を意識したレコメンデータシステムの開発を促進するという究極の目標を浮き彫りにした。

As information filtering services, recommender systems have extremely enriched our daily life by providing personalized suggestions and facilitating people in decision-making, which makes them vital and indispensable to human society in the information era. However, as people become more dependent on them, recent studies show that recommender systems potentially own unintentional impacts on society and individuals because of their unfairness (e.g., gender discrimination in job recommendations). To develop trustworthy services, it is crucial to devise fairness-aware recommender systems that can mitigate these bias issues. In this survey, we summarise existing methodologies and practices of fairness in recommender systems. Firstly, we present concepts of fairness in different recommendation scenarios, comprehensively categorize current advances, and introduce typical methods to promote fairness in different stages of recommender systems. Next, after introducing datasets and evaluation metrics applied to assess the fairness of recommender systems, we will delve into the significant influence that fairness-aware recommender systems exert on real-world industrial applications. Subsequently, we highlight the connection between fairness and other principles of trustworthy recommender systems, aiming to consider trustworthiness principles holistically while advocating for fairness. Finally, we summarize this review, spotlighting promising opportunities in comprehending concepts, frameworks, the balance between accuracy and fairness, and the ties with trustworthiness, with the ultimate goal of fostering the development of fairness-aware recommender systems.
翻訳日:2023-06-02 17:52:47 公開日:2023-06-01
# 説明可能な顔認識のための識別的深部特徴可視化

Discriminative Deep Feature Visualization for Explainable Face Recognition ( http://arxiv.org/abs/2306.00402v1 )

ライセンス: Link先を確認
Zewei Xu, Yuhang Lu, and Touradj Ebrahimi(参考訳) 顔認識(fr)タスクにおける深い畳み込みニューラルネットワークの成功にもかかわらず、現在の手法では、その「ブラックボックス」の性質から、その予測について説明できない。 近年、深いFR系の決定を解釈するために研究が進められている。 しかし, 入力顔画像と抽出した深部像との親和性については検討されていない。 本稿では,まず,深部特徴と顔領域の対応性を明らかにする顔再構成に基づく説明モジュールを考案し,説明可能な顔認識の問題に寄与する。 frモデルの決定を更に解釈するために,新しい視覚塩分説明アルゴリズムが提案されている。 入力面間の類似した異質な領域を表現する視覚的なサリエンシーマップを作成することで、洞察に富んだ説明を提供する。 提案手法の有効性を示すために, 生成した視覚説明に対して詳細な解析を行った。

Despite the huge success of deep convolutional neural networks in face recognition (FR) tasks, current methods lack explainability for their predictions because of their "black-box" nature. In recent years, studies have been carried out to give an interpretation of the decision of a deep FR system. However, the affinity between the input facial image and the extracted deep features has not been explored. This paper contributes to the problem of explainable face recognition by first conceiving a face reconstruction-based explanation module, which reveals the correspondence between the deep feature and the facial regions. To further interpret the decision of an FR model, a novel visual saliency explanation algorithm has been proposed. It provides insightful explanation by producing visual saliency maps that represent similar and dissimilar regions between input faces. A detailed analysis has been presented for the generated visual explanation to show the effectiveness of the proposed method.
翻訳日:2023-06-02 17:52:18 公開日:2023-06-01
# bisync: 同期単言語テキストのためのバイリンガルエディタ

BiSync: A Bilingual Editor for Synchronized Monolingual Texts ( http://arxiv.org/abs/2306.00400v1 )

ライセンス: Link先を確認
Josep Crego, Jitao Xu, Fran\c{c}ois Yvon(参考訳) グローバル化した世界では、人々が1つまたは複数の外国語でコミュニケーションを求められる状況が増えている。 文書によるコミュニケーションの場合、外国語の優れたコマンドを持つユーザは、コンピュータ支援翻訳技術(CAT)の助けを受けることができる。 これらの技術により、ユーザーは辞書、用語、バイリンガルコンコーダーなどの外部リソースにアクセスでき、それによって書き込みプロセスが中断され、かなり妨げられる。 さらに、CATシステムはソース文が固定されていると仮定し、ターゲット側の変更を制限している。 そこで本研究では,2つの単言語テキストの同期を維持しつつ,ユーザが2つの言語で自由にテキストを合成できるバイリンガルライティングアシスタントであるbisyncを提案する。 また、テキストの作成を容易にするために、代替のプレフィックス翻訳やパラフレーズを表示するなど、追加の機能も含んでいる。 本稿では,同期に使用するモデルアーキテクチャについて詳述し,計算資源が限られている場合に高い精度が得られることを示す。 インターフェースとモデルはhttps://github.com/jmcrego/BiSyncで公開されており、デモビデオはYouTubeのhttps://youtu.be/_l-ugDHfNgUで見ることができる。

In our globalized world, a growing number of situations arise where people are required to communicate in one or several foreign languages. In the case of written communication, users with a good command of a foreign language may find assistance from computer-aided translation (CAT) technologies. These technologies often allow users to access external resources, such as dictionaries, terminologies or bilingual concordancers, thereby interrupting and considerably hindering the writing process. In addition, CAT systems assume that the source sentence is fixed and also restrict the possible changes on the target side. In order to make the writing process smoother, we present BiSync, a bilingual writing assistant that allows users to freely compose text in two languages, while maintaining the two monolingual texts synchronized. We also include additional functionalities, such as the display of alternative prefix translations and paraphrases, which are intended to facilitate the authoring of texts. We detail the model architecture used for synchronization and evaluate the resulting tool, showing that high accuracy can be attained with limited computational resources. The interface and models are publicly available at https://github.com/jmcrego/BiSync and a demonstration video can be watched on YouTube at https://youtu.be/_l-ugDHfNgU .
翻訳日:2023-06-02 17:52:03 公開日:2023-06-01
# 言語モデルファインチューニングのための優先接地型トークンレベルガイダンス

Preference-grounded Token-level Guidance for Language Model Fine-tuning ( http://arxiv.org/abs/2306.00398v1 )

ライセンス: Link先を確認
Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong, Mingyuan Zhou(参考訳) 言語モデル(lms)と選好の整合は自然言語生成において重要な問題である。 鍵となる課題は、典型的にはシーケンスレベルで、LMトレーニングと生成の両方がトークンレベルで行われることである。 したがって、選好とlmトレーニング損失の間には粒度ミスマッチがあり、学習問題を複雑にする可能性がある。 本稿では,シーケンスレベルの選好をトークンレベルのトレーニング指導に着地し,学習した指導でlmを改善するという,新たなトレーニングプロセスを開発することで,この問題に対処した。 誘導学習のために, 模倣学習におけるペアワイズ・プリファレンス学習を可変長lm生成と複数世代間の選好を両立させるフレームワークを設計した。 lmトレーニングでは,教師データ量に基づいて,学習指導を用いた2つの最小主義学習目標を示す。 実験では、2つの異なるLMタスク、離散プロンプト生成とテキスト要約を競合的に行う。

Aligning language models (LMs) with preferences is an important problem in natural language generation. A key challenge is that preferences are typically provided at the sequence level while LM training and generation both occur at the token level. There is, therefore, a granularity mismatch between the preference and the LM training losses, which may complicate the learning problem. In this paper, we address this issue by developing an alternate training process, where we iterate between grounding the sequence-level preference into token-level training guidance, and improving the LM with the learned guidance. For guidance learning, we design a framework that extends the pairwise-preference learning in imitation learning to both variable-length LM generation and utilizing the preference among multiple generations. For LM training, based on the amount of supervised data, we present two minimalist learning objectives that utilize the learned guidance. In experiments, our method performs competitively on two distinct representative LM tasks -- discrete-prompt generation and text summarization.
翻訳日:2023-06-02 17:51:41 公開日:2023-06-01
# 双方向インタラクションを用いた軽量ビジョントランス

Lightweight Vision Transformer with Bidirectional Interaction ( http://arxiv.org/abs/2306.00396v1 )

ライセンス: Link先を確認
Qihang Fan and Huaibo Huang and Xiaoqiang Zhou and Ran He(参考訳) 視覚バックボーンの最近の進歩は、画像のローカルコンテキストとグローバルコンテキストを同時にモデル化することで、パフォーマンスを大幅に向上させた。 しかし、これらの2つの文脈間の双方向の相互作用は十分に研究されておらず、人間の視覚システムにおいて重要である。 本稿では,視覚変換器の局所的・大域的情報をモデル化するためのFASA機構を提案する。 具体的には、FASAは局所表現を適応的に抽出するために自己変調畳み込みを用いる。 その後、その相互作用をモデル化するために、局所的および大域的表現間の双方向適応プロセスを実行する。 さらに,細粒度グローバル知覚機能のためのダウンサンプリングセルフアテンション機構を強化するために,細粒度ダウンサンプリング戦略を導入する。 FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。 複数の視覚タスクに関する大規模な実験は、FATが素晴らしいパフォーマンスを達成することを示す。 FAT は ImageNet-1K 上で 4.5M パラメータと 0.7G FLOPs のみを使用して77.6% の精度を達成しており、これはモデルサイズと計算コストに類似した最も先進的な ConvNet および Transformer を上回っている。 さらに、我々のモデルは、他のモデルと比較して、現代のGPUで高速である。 コードはhttps://github.com/qhfan/fatで入手できる。

Recent advancements in vision backbones have significantly improved their performance by simultaneously modeling images' local and global contexts. However, the bidirectional interaction between these two contexts has not been well explored and exploited, which is important in the human visual system. This paper proposes a Fully Adaptive Self-Attention (FASA) mechanism for vision transformer to model the local and global information as well as the bidirectional interaction between them in context-aware ways. Specifically, FASA employs self-modulated convolutions to adaptively extract local representation while utilizing self-attention in down-sampled space to extract global representation. Subsequently, it conducts a bidirectional adaptation process between local and global representation to model their interaction. In addition, we introduce a fine-grained downsampling strategy to enhance the down-sampled self-attention mechanism for finer-grained global perception capability. Based on FASA, we develop a family of lightweight vision backbones, Fully Adaptive Transformer (FAT) family. Extensive experiments on multiple vision tasks demonstrate that FAT achieves impressive performance. Notably, FAT accomplishes a 77.6% accuracy on ImageNet-1K using only 4.5M parameters and 0.7G FLOPs, which surpasses the most advanced ConvNets and Transformers with similar model size and computational costs. Moreover, our model exhibits faster speed on modern GPU compared to other models. Code will be available at https://github.com/qhfan/FAT.
翻訳日:2023-06-02 17:51:24 公開日:2023-06-01
# 自動車インターネットを利用した道路交通渋滞システム(iov)

Traffic Road Congestion System using by the internet of vehicles (IoV) ( http://arxiv.org/abs/2306.00395v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Sawera Kanwal(参考訳) 交通問題は、多数の車両、大都市、交通規則を無視したため、現代では増加している。 vehicular ad hoc network (vanet) は以前より交通システムを改善し、大都市における最良の交通制御システムにおいて重要な役割を果たす。 しかし、いくつかの制限があるため、特定の条件下で問題を制御するには不十分である。 現在、IoT(Internet of Things)の新しい技術の日々の発明が、協調的かつ効率的にタスクを実行するために使用されている。 この技術は、インテリジェント・トランスポーテーション・システム(its)となる輸送システムにも導入され、これは「internet of vehicles(iov)」と呼ばれている。 従来のシステムにおける交通問題について詳しく検討し、システム文献レビュー(SLR)によるIOVを改善するための利点、改善、理由について詳しく述べる。 この手法は多くの検索フレーズを通じて必要な論文をターゲットとして実装する。 2014年から2023年の間、121の論文に体系的な文献レビューが使われている。 IoV技術とツールは、道路交通の設計とシミュレーションに使用されるSUMO(Simulation of Urban Mobility)を通じて、IoVを作成し、いくつかの交通ルールを解決するために必要である。 我々は交通制御システムの最良のモデルに貢献しようと試みてきた。 本稿では,最適化・効率的モデルの選択という観点から2つの車両交通渋滞制御モデルを分析し,解法slrに基づく質問を探索することで効率の理由を詳述する。 効率的な特徴から, 車両用雲に基づくiovの提案を行った。 これらの効率的な機能により、ネットワークシステムを強化する大きな理由となる従来のモデルよりも、このモデルが最適かつ最も効果的になります。

Traffic problems have increased in modern life due to a huge number of vehicles, big cities, and ignoring the traffic rules. Vehicular ad hoc network (VANET) has improved the traffic system in previous some and plays a vital role in the best traffic control system in big cities. But due to some limitations, it is not enough to control some problems in specific conditions. Now a day invention of new technologies of the Internet of Things (IoT) is used for collaboratively and efficiently performing tasks. This technology was also introduced in the transportation system which makes it an intelligent transportation system (ITS), this is called the Internet of vehicles (IOV). We will elaborate on traffic problems in the traditional system and elaborate on the benefits, enhancements, and reasons to better IOV by Systematic Literature Review (SLR). This technique will be implemented by targeting needed papers through many search phrases. A systematic literature review is used for 121 articles between 2014 and 2023. The IoV technologies and tools are required to create the IoV and resolve some traffic rules through SUMO (simulation of urban mobility) which is used for the design and simulation the road traffic. We have tried to contribute to the best model of the traffic control system. This paper will analysis two vehicular congestion control models in term of select the optimized and efficient model and elaborate on the reasons for efficiency by searching the solution SLR based questions. Due to some efficient features, we have suggested the IOV based on vehicular clouds. These efficient features make this model the best and most effective than the traditional model which is a great reason to enhance the network system.
翻訳日:2023-06-02 17:50:59 公開日:2023-06-01
# 教師エージェント:リハーサルビデオインクリメンタル学習のための非知識蒸留法

Teacher Agent: A Non-Knowledge Distillation Method for Rehearsal-based Video Incremental Learning ( http://arxiv.org/abs/2306.00393v1 )

ライセンス: Link先を確認
Shengqin Jiang, Yaoyu Fang, Haokui Zhang, Peng Wang, Yuankai Qi, Qingshan Liu(参考訳) ビデオベースのソーシャルメディアの普及に伴い、ビデオの新しいカテゴリが常に生成され、ビデオ理解のための堅牢な漸進的学習技術が緊急に必要になる。 このタスクの最大の課題の1つは、ネットワークが新しいカテゴリを学習しながら学習したデータを忘れがちな破滅的な忘れ方だ。 この問題を解決するために、知識蒸留は、様々なカテゴリ間の類似点に関する重要な情報を伝達して学生モデルを強化するリハーサルベースのビデオインクリメンタルラーニングにおいて広く用いられている技術である。 したがって、生徒を指導する強力な教師モデルを持つことが望ましい。 しかし、ネットワーク自体の性能が制限され、壊滅的な記憶喪失が発生すると、教師ネットワークは一部の記憶例に対して不正確な予測を行い、最終的に学生ネットワークのパフォーマンスを制限できる。 そこで,本研究では,教師モデルの出力に代えて,安定かつ正確なソフトラベルを生成できる教師エージェントを提案する。 本手法は,教師モデルの不正確な予測による知識誤解の問題を回避し,教師モデルの知識蒸留負荷の計算オーバーヘッドを回避する。 提案手法の利点を実証し,近年の最先端手法と比較して,インクリメンタルフェーズにおけるビデオクリップの解像度を半分に抑えながら,大幅な性能向上を実現した。 さらに, 本手法は, エピソード記憶におけるサンプル数を4倍にすると, 関節訓練の成績を上回る。

With the rise in popularity of video-based social media, new categories of videos are constantly being generated, creating an urgent need for robust incremental learning techniques for video understanding. One of the biggest challenges in this task is catastrophic forgetting, where the network tends to forget previously learned data while learning new categories. To overcome this issue, knowledge distillation is a widely used technique for rehearsal-based video incremental learning that involves transferring important information on similarities among different categories to enhance the student model. Therefore, it is preferable to have a strong teacher model to guide the students. However, the limited performance of the network itself and the occurrence of catastrophic forgetting can result in the teacher network making inaccurate predictions for some memory exemplars, ultimately limiting the student network's performance. Based on these observations, we propose a teacher agent capable of generating stable and accurate soft labels to replace the output of the teacher model. This method circumvents the problem of knowledge misleading caused by inaccurate predictions of the teacher model and avoids the computational overhead of loading the teacher model for knowledge distillation. Extensive experiments demonstrate the advantages of our method, yielding significant performance improvements while utilizing only half the resolution of video clips in the incremental phases as input compared to recent state-of-the-art methods. Moreover, our method surpasses the performance of joint training when employing four times the number of samples in episodic memory.
翻訳日:2023-06-02 17:50:35 公開日:2023-06-01
# コーンヘッド:階層的意識の注意

Coneheads: Hierarchy Aware Attention ( http://arxiv.org/abs/2306.00392v1 )

ライセンス: Link先を確認
Albert Tseng, Tao Yu, Toni J.B. Liu, Christopher De Sa(参考訳) 変圧器のような注意ネットワークは多くの領域で最先端の性能を達成した。 これらのネットワークはドット積の注意演算子に大きく依存しており、2点間の類似性を計算する。 しかし、内部積は、データポイント間の階層のような実世界のデータセットの複雑な構造的性質を明示的にモデル化しない。 そこで本研究では,双曲円錐に基づくドット製品注目のためのドロップイン代替であるコーンアテンションを提案する。 コーンアテンションは双曲円錐によって定義される階層において、最も低い共通の祖先の深さによって2つの点を関連付け、2つの点の発散を直感的に測定し、階層を意識した類似度スコアを与える。 我々は,多種多様なモデルやタスクに注意を払って,ドット製品の注意点やその他の基準点よりもタスクレベルのパフォーマンスが向上し,ドット製品の注意点をパラメータの少ないものに合わせることができることを示す。 この結果から,コーンアテンションは注目度を計算する上で,階層的関係を捉える効果的な方法であることが示唆された。

Attention networks such as transformers have achieved state-of-the-art performance in many domains. These networks rely heavily on the dot product attention operator, which computes the similarity between two points by taking their inner product. However, the inner product does not explicitly model the complex structural properties of real world datasets, such as hierarchies between data points. To remedy this, we introduce cone attention, a drop-in replacement for dot product attention based on hyperbolic entailment cones. Cone attention associates two points by the depth of their lowest common ancestor in a hierarchy defined by hyperbolic cones, which intuitively measures the divergence of two points and gives a hierarchy aware similarity score. We test cone attention on a wide variety of models and tasks and show that it improves task-level performance over dot product attention and other baselines, and is able to match dot-product attention with significantly fewer parameters. Our results suggest that cone attention is an effective way to capture hierarchical relationships when calculating attention.
翻訳日:2023-06-02 17:50:11 公開日:2023-06-01
# テンソル時系列予測のためのガウス混合表現の学習

Learning Gaussian Mixture Representations for Tensor Time Series Forecasting ( http://arxiv.org/abs/2306.00390v1 )

ライセンス: Link先を確認
Jiewen Deng, Jinliang Deng, Renhe Jiang, Xuan Song(参考訳) 高次元空間における一次元時系列の一般化であるテンソル時系列データ(TTS)は、実世界のシナリオ、特にマルチソース時空間データ(輸送要求や大気汚染物質など)を含む監視システムにおいて、ユビキタスである。 近年注目され、飛躍的な進歩を遂げたモデリング時系列や多変量時系列と比較して、テンソル時系列はより少ない労力で支払われている。 テンソル時系列の適切な対応は、高次元で複雑な内部構造のため、はるかに難しい作業である。 本稿では,時間,位置,ソース変数に含意する各不均一成分を個別にモデル化することを目的とした,新しいtts予測フレームワークを開発した。 このフレームワークをgmrlと呼び、gaussian mixed representation learningの略である。 2つの実世界のTSデータセットの実験結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。

Tensor time series (TTS) data, a generalization of one-dimensional time series on a high-dimensional space, is ubiquitous in real-world scenarios, especially in monitoring systems involving multi-source spatio-temporal data (e.g., transportation demands and air pollutants). Compared to modeling time series or multivariate time series, which has received much attention and achieved tremendous progress in recent years, tensor time series has been paid less effort. Properly coping with the tensor time series is a much more challenging task, due to its high-dimensional and complex inner structure. In this paper, we develop a novel TTS forecasting framework, which seeks to individually model each heterogeneity component implied in the time, the location, and the source variables. We name this framework as GMRL, short for Gaussian Mixture Representation Learning. Experiment results on two real-world TTS datasets verify the superiority of our approach compared with the state-of-the-art baselines.
翻訳日:2023-06-02 17:49:53 公開日:2023-06-01
# out-of-distribution forgetting: クラス内分布シフトへの継続的学習の脆弱性

Out-of-distribution forgetting: vulnerability of continual learning to intra-class distribution shift ( http://arxiv.org/abs/2306.00427v1 )

ライセンス: Link先を確認
Liangxuan Guo, Yang Chen and Shan Yu(参考訳) 連続学習(CL)は、人工ニューラルネットワークをオープン環境で動作させるための重要な技術である。 CLは、古いタスクのパフォーマンスに深刻な干渉を伴わずに、新しいタスクを学習することを可能にする。 共同学習では、意図的な攻撃や環境摂動によって引き起こされる分散(ood)問題は、ネットワークが一般化する能力を著しく損なうことがよく知られている。 本研究では,OOD問題によって引き起こされた破滅的忘れを連続学習環境において特別な形で報告し,それをOODF(out-of-distriion forgetting)と名付けた。 連続的画像分類課題において,クラス内分布シフトを導入すると,そのカテゴリーに対するcl法の認識精度が著しく低下することがわかった。 興味深いことに、この現象はCLにとって特別な現象であり、同じレベルの分布シフトが、共同学習シナリオにおいて無視できる効果しかなかった。 我々は,個々のタスクにサブネットを使わずにCLメソッドがOODFに対して脆弱であることを検証した。 さらに、oodfは分布をシフトさせる特定の方法に依存しておらず、幅広い状況においてclのリスクであることを示唆している。 共同で研究を行い、OODFを克服できるアプローチを開発することの重要性を強調した。

Continual learning (CL) is an important technique to allow artificial neural networks to work in open environments. CL enables a system to learn new tasks without severe interference to its performance on old tasks, i.e., overcome the problems of catastrophic forgetting. In joint learning, it is well known that the out-of-distribution (OOD) problem caused by intentional attacks or environmental perturbations will severely impair the ability of networks to generalize. In this work, we reported a special form of catastrophic forgetting raised by the OOD problem in continual learning settings, and we named it out-of-distribution forgetting (OODF). In continual image classification tasks, we found that for a given category, introducing an intra-class distribution shift significantly impaired the recognition accuracy of CL methods for that category during subsequent learning. Interestingly, this phenomenon is special for CL as the same level of distribution shift had only negligible effects in the joint learning scenario. We verified that CL methods without dedicating subnetworks for individual tasks are all vulnerable to OODF. Moreover, OODF does not depend on any specific way of shifting the distribution, suggesting it is a risk for CL in a wide range of circumstances. Taken together, our work identified an under-attended risk during CL, highlighting the importance of developing approaches that can overcome OODF.
翻訳日:2023-06-02 17:45:25 公開日:2023-06-01
# マルチモーダルクエリによるエンドツーエンドの知識検索

End-to-end Knowledge Retrieval with Multi-modal Queries ( http://arxiv.org/abs/2306.00424v1 )

ライセンス: Link先を確認
Man Luo, Zhiyuan Fang, Tejas Gokhale, Yezhou Yang, Chitta Baral(参考訳) 本稿では,複数モーダルクエリを用いた知識検索,すなわち画像とテキストの入力に分割された情報を含むクエリについて検討する。 このタスクの進捗をベンチマークするために、ReMuQと呼ばれる新しいデータセットをキュレートします。 ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。 本稿では,オブジェクト検出器やキャプションジェネレータなどの中間モジュールに依存することなく,入力テキストや画像を直接処理して関連する知識をエンドツーエンドで検索する検索モデル「ReViz'」を提案する。 本稿では,マルチモーダルクエリによる知識検索の学習に有効であり,下流タスクの性能向上に寄与する新しい事前学習タスクを提案する。 ゼロショット設定下での2つのデータセット(ReMuQとOK-VQA)の検索性能と,これらのデータセットを微調整した場合のさらなる改善について述べる。

We investigate knowledge retrieval with multi-modal queries, i.e. queries containing information split across image and text inputs, a challenging task that differs from previous work on cross-modal retrieval. We curate a new dataset called ReMuQ for benchmarking progress on this task. ReMuQ requires a system to retrieve knowledge from a large corpus by integrating contents from both text and image queries. We introduce a retriever model ``ReViz'' that can directly process input text and images to retrieve relevant knowledge in an end-to-end fashion without being dependent on intermediate modules such as object detectors or caption generators. We introduce a new pretraining task that is effective for learning knowledge retrieval with multimodal queries and also improves performance on downstream tasks. We demonstrate superior performance in retrieval on two datasets (ReMuQ and OK-VQA) under zero-shot settings as well as further improvements when finetuned on these datasets.
翻訳日:2023-06-02 17:45:03 公開日:2023-06-01
# 医用画像情報学入門

Introduction to Medical Imaging Informatics ( http://arxiv.org/abs/2306.00421v1 )

ライセンス: Link先を確認
Md. Zihad Bin Jahangir, Ruksat Hossain, Riadul Islam, MD Abdullah Al Nasim, Md. Mahim Anjum Haque, Md Jahangir Alam, Sajedul Talukder(参考訳) 医療画像情報学は、医療画像の取得、管理、解釈を改善するために、医療画像と情報学の原則を組み合わせた急速に成長する分野である。 本章では,画像処理,特徴工学,機械学習など,医用画像情報学の基本概念を紹介する。 また、コンピュータビジョンとディープラーニング技術の最近の進歩と、病気の検出、診断、予後予測のための新しい定量的イメージマーカーや予測モデルの開発にどのように利用されているかについても論じる。 本章は, 医用画像情報学の基礎知識を網羅することにより, 医療における情報学の役割とその患者医療への影響を理解する基盤を提供する。

Medical imaging informatics is a rapidly growing field that combines the principles of medical imaging and informatics to improve the acquisition, management, and interpretation of medical images. This chapter introduces the basic concepts of medical imaging informatics, including image processing, feature engineering, and machine learning. It also discusses the recent advancements in computer vision and deep learning technologies and how they are used to develop new quantitative image markers and prediction models for disease detection, diagnosis, and prognosis prediction. By covering the basic knowledge of medical imaging informatics, this chapter provides a foundation for understanding the role of informatics in medicine and its potential impact on patient care.
翻訳日:2023-06-02 17:44:34 公開日:2023-06-01
# AIGCにおけるプライバシとセキュリティへの挑戦と対策 - プライバシコンピューティングやブロックチェーンなどの可能性を探る

Challenges and Remedies to Privacy and Security in AIGC: Exploring the Potential of Privacy Computing, Blockchain, and Beyond ( http://arxiv.org/abs/2306.00419v1 )

ライセンス: Link先を確認
Chuan Chen, Zhenpeng Wu, Yanyi Lai, Wenlin Ou, Tianchi Liao, Zibin Zheng(参考訳) AIGC(Artificial Intelligence Generated Content)は、AI開発における最新の成果のひとつ。 テキスト、画像、オーディオなどの関連アプリケーションによって生成されたコンテンツは熱い議論を引き起こしている。 さまざまな派生したAIGCアプリケーションは、徐々にすべての人生を歩み込み、人々の日常生活に想像できない影響を与えている。 しかし、このような生成ツールの急速な開発は、プライバシやセキュリティの問題、さらにはAIGCの著作権問題にも懸念を引き起こしている。 ブロックチェーンやプライバシコンピューティングといった高度な技術はAIGCツールと組み合わせることができるが、その関連性や展望を体系的かつ詳細な方法で調査する作業はまだ行われていない。 したがって、上記の技術を十分に探求することで、AIGCにおけるデータのプライバシーとセキュリティを保護するために、どのように使用できるかを検討する必要がある。 本稿では,AIGCの概念,分類,基礎技術について,まず体系的に検討する。 そして、複数の観点からAIGCが直面するプライバシーとセキュリティの課題について議論し、現在存在する対策を意図的にリストアップする。 私たちの調査は、研究者や業界がよりセキュアで堅牢なAIGCシステムを構築するのに役立つことを期待しています。

Artificial Intelligence Generated Content (AIGC) is one of the latest achievements in AI development. The content generated by related applications, such as text, images and audio, has sparked a heated discussion. Various derived AIGC applications are also gradually entering all walks of life, bringing unimaginable impact to people's daily lives. However, the rapid development of such generative tools has also raised concerns about privacy and security issues, and even copyright issues in AIGC. We note that advanced technologies such as blockchain and privacy computing can be combined with AIGC tools, but no work has yet been done to investigate their relevance and prospect in a systematic and detailed way. Therefore it is necessary to investigate how they can be used to protect the privacy and security of data in AIGC by fully exploring the aforementioned technologies. In this paper, we first systematically review the concept, classification and underlying technologies of AIGC. Then, we discuss the privacy and security challenges faced by AIGC from multiple perspectives and purposefully list the countermeasures that currently exist. We hope our survey will help researchers and industry to build a more secure and robust AIGC system.
翻訳日:2023-06-02 17:44:15 公開日:2023-06-01
# 不確かさを意識した相似学習は、生成的アスペクト知覚のクアドド予測を改善する

Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2306.00418v1 )

ライセンス: Link先を確認
Mengting Hu and Yinhao Bai and Yike Wu and Zhen Zhang and Liqi Zhang and Hang Gao and Shiwan Zhao and Minlie Huang(参考訳) 近年,アスペクトベース感情分析の分野では,アスペクト感情クワッド予測が注目されている。 既存の研究では、事前訓練された生成言語モデルを介して四重項を抽出し、原文をテンプレート化されたターゲットシーケンスに変換する。 しかしながら、以前の作業は生成すべきもののみに注目するが、生成しないものを無視している。 負のサンプルを考慮すれば、潜在的な利益につながると論じる。 本研究では,トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。 具体的には,事前学習された言語モデルの不確実性を理解し,ノイズやエラーを取得するためにモンテカルロドロップアウトを導入する。 さらに,不確実性を認識した誤りトークンを抑えるために,差分学習を提案する。 最後に,境界化不平等学習の効果のバランスをとるために,最小化エントロピーを導入する。 4つの公開データセットに対する大規模な実験により、様々な生成テンプレート1に対するアプローチの有効性が示された。

Recently, aspect sentiment quad prediction has received widespread attention in the field of aspect-based sentiment analysis. Existing studies extract quadruplets via pre-trained generative language models to paraphrase the original sentence into a templated target sequence. However, previous works only focus on what to generate but ignore what not to generate. We argue that considering the negative samples also leads to potential benefits. In this work, we propose a template-agnostic method to control the token-level generation, which boosts original learning and reduces mistakes simultaneously. Specifically, we introduce Monte Carlo dropout to understand the built-in uncertainty of pre-trained language models, acquiring the noises and errors. We further propose marginalized unlikelihood learning to suppress the uncertainty-aware mistake tokens. Finally, we introduce minimization entropy to balance the effects of marginalized unlikelihood learning. Extensive experiments on four public datasets demonstrate the effectiveness of our approach on various generation templates1.
翻訳日:2023-06-02 17:43:28 公開日:2023-06-01
# 制御可能な運動拡散モデル

Controllable Motion Diffusion Model ( http://arxiv.org/abs/2306.00416v1 )

ライセンス: Link先を確認
Yi Shi and Jingbo Wang and Xuekun Jiang and Bo Dai(参考訳) 仮想文字のリアルで制御可能な動きを生成することは、コンピュータアニメーションにおいて難しい課題であり、その意味はゲーム、シミュレーション、バーチャルリアリティに及んでいる。 近年の研究では、画像生成における拡散モデルの成功からインスピレーションを得て、この問題に対処する可能性を示している。 しかしながら、これらの研究の大部分は、全てのステップを同時に生成するシーケンスレベルの生成をターゲットとするオフラインアプリケーションに限られている。 時間変動制御信号に応答した拡散モデルを用いた実時間動き合成を実現するために,制御可能な動き拡散モデル(comodo)の枠組みを提案する。 我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。 このように、単に標準のddpmアルゴリズムを複雑さなしで使うだけで、異なる種類の制御信号を持つ長い期間にわたって、忠実度の高い動き列を生成できる。 そこで我々は,A-MDMモデル上での強化学習に基づく制御と制御戦略を提案し,目標到達,ジョイスティックベース制御,目標指向制御,軌道追従など,複数のタスクにまたがる動作合成プロセスの制御を可能にする。 提案フレームワークは,ユーザコマンドに適応的に反応する多様な動作をリアルタイムに生成し,ユーザエクスペリエンスを向上する。 さらに、インパインティングベースの編集手法と互換性があり、基本的なモーション生成モデルを微調整することなく、より多様な動きを予測できる。 我々は,様々なタスクの実行におけるフレームワークの有効性を総合的に評価し,その性能を最先端手法と比較する。

Generating realistic and controllable motions for virtual characters is a challenging task in computer animation, and its implications extend to games, simulations, and virtual reality. Recent studies have drawn inspiration from the success of diffusion models in image generation, demonstrating the potential for addressing this task. However, the majority of these studies have been limited to offline applications that target at sequence-level generation that generates all steps simultaneously. To enable real-time motion synthesis with diffusion models in response to time-varying control signals, we propose the framework of the Controllable Motion Diffusion Model (COMODO). Our framework begins with an auto-regressive motion diffusion model (A-MDM), which generates motion sequences step by step. In this way, simply using the standard DDPM algorithm without any additional complexity, our framework is able to generate high-fidelity motion sequences over extended periods with different types of control signals. Then, we propose our reinforcement learning-based controller and controlling strategies on top of the A-MDM model, so that our framework can steer the motion synthesis process across multiple tasks, including target reaching, joystick-based control, goal-oriented control, and trajectory following. The proposed framework enables the real-time generation of diverse motions that react adaptively to user commands on-the-fly, thereby enhancing the overall user experience. Besides, it is compatible with the inpainting-based editing methods and can predict much more diverse motions without additional fine-tuning of the basic motion generation models. We conduct comprehensive experiments to evaluate the effectiveness of our framework in performing various tasks and compare its performance against state-of-the-art methods.
翻訳日:2023-06-02 17:43:07 公開日:2023-06-01
# 低音源言語におけるヘイトスピーチ検出に向けて:Wolof と Swahili の音響単語埋め込みとの比較

Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili ( http://arxiv.org/abs/2306.00410v1 )

ライセンス: Link先を確認
Christiaan Jacobs, Nathana\"el Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper(参考訳) ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。 1つのアプローチは、ターゲットの低リソース言語のための自動音声認識(asr)システムを構築することである。 本研究では、音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込み(AWE)モデルと比較する。 具体的には、よくソースされた言語からのラベル付きデータに基づいて訓練された多言語AWEモデルを用いて、未知のターゲット言語におけるデータ中のキーワードを見つける。 ASRとは対照的に、AWEアプローチはいくつかのキーワード例を必要とする。 トレーニングとテストのデータを同じドメインから取得するwolofとswahiliのコントロール実験では、わずか5分間のデータでトレーニングされたasrモデルがaweアプローチを上回っている。 しかし、実際のヘイトスピーチキーワードを持つスワヒリのラジオ放送では、aweモデルは(テンプレートデータ1分で)より堅牢で、30時間のラベル付きデータでトレーニングされたasrシステムと同じようなパフォーマンスを提供する。

We consider hate speech detection through keyword spotting on radio broadcasts. One approach is to build an automatic speech recognition (ASR) system for the target low-resource language. We compare this to using acoustic word embedding (AWE) models that map speech segments to a space where matching words have similar vectors. We specifically use a multilingual AWE model trained on labelled data from well-resourced languages to spot keywords in data in the unseen target language. In contrast to ASR, the AWE approach only requires a few keyword exemplars. In controlled experiments on Wolof and Swahili where training and test data are from the same domain, an ASR model trained on just five minutes of data outperforms the AWE approach. But in an in-the-wild test on Swahili radio broadcasts with actual hate speech keywords, the AWE model (using one minute of template data) is more robust, giving similar performance to an ASR system trained on 30 hours of labelled data.
翻訳日:2023-06-02 17:42:40 公開日:2023-06-01
# 動的ビジュアルプロンプティングによる視覚言語課題への事前学習言語モデルの適用

Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting ( http://arxiv.org/abs/2306.00409v1 )

ライセンス: Link先を確認
Shubin Huang, Qiong Wu, Yiyi Zhou, Weijie Chen, Rongsheng Zhang, Xiaoshuai Sun, Rongrong Ji(参考訳) 事前学習型言語モデル (PLM) はマルチメディア研究において役割を担っている。 視覚言語(VL)タスクでは、しばしば言語エンコーダとして機能し、VL推論のための追加の融合ネットワークを必要とするため、過剰なメモリオーバーヘッドが発生する。 本稿では,VL推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。 最近普及しているプロンプトチューニングに触発されて、処理された視覚特徴がPLMのセマンティック空間に投影され、シングルモーダル学習とマルチモーダル学習のギャップを埋めるためのプロンプトトークンとして機能することを証明する。 しかし、この解は視覚情報やモデル推論に明らかな冗長性を示し、プロンプトトークンの配置も最終的な性能に大きな影響を及ぼす。 これらの観測に基づいて,動的ビジュアル・プロンプティング (DVP) と呼ばれる PLM のための新しい移動学習手法を提案する。 具体的には、dvpはまずクロスアテンションモジュールをデプロイしてテキスト関連でコンパクトなビジュアルプロンプトトークンを取得し、plmの入力長を大幅に削減します。 最適配置を得るためには,DVPに強化学習に基づく探索アルゴリズムを装備し,非常に短い探索プロセスによって異なるVLタスクに対して,DVPとPLMを自動マージする。 さらに,最近普及しているアダプタ手法であるDVPを用いて,VLタスクに適応する際のPLMのパラメータの大部分をそのまま維持し,シングルモーダルタスクとマルチモーダルタスクの迅速なシフトを実現するために,DVPを実験した。 VQA2.0, GQA, SNLIVE を含む一連の VL 推論ベンチマークにおいて, DVP を BERT と T5 の2つの代表的 PLM に適用する。 実験結果はDVPの効率と性能の優位性を示すだけでなく、事前学習された言語モデルをVLタスクに適用する際の優位性も確認した。

Pre-trained language models (PLMs) have played an increasing role in multimedia research. In terms of vision-language (VL) tasks, they often serve as a language encoder and still require an additional fusion network for VL reasoning, resulting in excessive memory overhead. In this paper, we focus on exploring PLMs as a stand-alone model for VL reasoning tasks. Inspired by the recently popular prompt tuning, we first prove that the processed visual features can be also projected onto the semantic space of PLMs and act as prompt tokens to bridge the gap between single- and multi-modal learning. However, this solution exhibits obvious redundancy in visual information and model inference, and the placement of prompt tokens also greatly affects the final performance. Based on these observations, we further propose a novel transfer learning approach for PLMs, termed Dynamic Visual Prompting (DVP). Concretely, DVP first deploys a cross-attention module to obtain text-related and compact visual prompt tokens, thereby greatly reducing the input length of PLMs. To obtain the optimal placement, we also equip DVP with a reinforcement-learning based search algorithm, which can automatically merge DVP with PLMs for different VL tasks via a very short search process. In addition, we also experiment DVP with the recently popular adapter approach to keep the most parameters of PLMs intact when adapting to VL tasks, helping PLMs achieve a quick shift between single- and multi-modal tasks. We apply DVP to two representative PLMs, namely BERT and T5, and conduct extensive experiments on a set of VL reasoning benchmarks including VQA2.0, GQA and SNLIVE. The experimental results not only show the advantage of DVP on efficiency and performance, but also confirm its superiority in adapting pre-trained language models to VL tasks.
翻訳日:2023-06-02 17:42:18 公開日:2023-06-01
# 並列医療システムにおけるデータ・エンパワーメントによる医療資源の均衡

Pursuing Equilibrium of Medical Resources via Data Empowerment in Parallel Healthcare System ( http://arxiv.org/abs/2306.00408v1 )

ライセンス: Link先を確認
Yi Yu, Shengyue Yao, Kexin Wang, Yan Chen, Fei-Yue Wang, Yilun Lin(参考訳) 医療資源の供給と需要の不均衡は世界的な課題であり、特に発展途上国では深刻である。 政府や学術コミュニティは医療の供給を増やし、資源配分を改善するために様々な努力をしてきた。 しかし、これらの努力はしばしば受動的で柔軟なままである。 これらの問題に加えて、並列医療システムの出現は、データ値のアンロックによってこれらの問題を解決する可能性がある。 並列医療システムには、医療指向オペレーティングシステム(MOOS)、医療指向シナリオエンジニアリング(MOSE)、医療指向大規模モデル(MOLM)があり、データを収集、循環、強化することができる。 本稿では,データエンパワメントによる並列医療システムによって医療資源配分の均衡を実現することを提案する。 1)MOOSにおけるデジタル医師とロボット医師の供給量の増加,(2)MOSEにおける前向きな診断と治療による個人的および潜在的要求の特定,(3)MOLMにおける大規模モデルによる需給整合の改善により,並列医療システムにおける需給関係のバランスがとれる。 本手法の有効性を示すために,施設アクセシビリティの観点から資源割当を最適化するケーススタディを提案する。 その結果,並列医療システムではアクセシビリティが最大300%向上する可能性が示された。

The imbalance between the supply and demand of healthcare resources is a global challenge, which is particularly severe in developing countries. Governments and academic communities have made various efforts to increase healthcare supply and improve resource allocation. However, these efforts often remain passive and inflexible. Alongside these issues, the emergence of the parallel healthcare system has the potential to solve these problems by unlocking the data value. The parallel healthcare system comprises Medicine-Oriented Operating Systems (MOOS), Medicine-Oriented Scenario Engineering (MOSE), and Medicine-Oriented Large Models (MOLMs), which could collect, circulate, and empower data. In this paper, we propose that achieving equilibrium in medical resource allocation is possible through parallel healthcare systems via data empowerment. The supply-demand relationship can be balanced in parallel healthcare systems by (1) increasing the supply provided by digital and robotic doctors in MOOS, (2) identifying individual and potential demands by proactive diagnosis and treatment in MOSE, and (3) improving supply-demand matching using large models in MOLMs. To illustrate the effectiveness of this approach, we present a case study optimizing resource allocation from the perspective of facility accessibility. Results demonstrate that the parallel healthcare system could result in up to 300% improvement in accessibility.
翻訳日:2023-06-02 17:41:43 公開日:2023-06-01
# スケッチリファインメントによるインタラクティブな画像インペインティング

Towards Interactive Image Inpainting via Sketch Refinement ( http://arxiv.org/abs/2306.00407v1 )

ライセンス: Link先を確認
Chang Liu, Shunxin Xu, Jialun Peng, Kaidong Zhang and Dong Liu(参考訳) イメージインペインティングの難しい問題は、腐敗した領域の複雑な構造を復元することである。 インタラクティブなイメージのインパインティングを動機付け、スケッチなどの追加ヒントを活用してインパインティングプロセスを支援する。 sketchはエンドユーザーにはシンプルで直感的だが、ランダム性のあるフリーフォームがある。 このようなランダム性は、塗装されたモデルと混同し、完成した画像に深刻なアーティファクトを引き起こす可能性がある。 この問題に対処するため,sketchrefinerと呼ばれる2段階画像インペインティング手法を提案する。 第1段階では,利用者に提供されたスケッチを粗い方法で校正し,洗練するために,相互相関損失関数を用いることを提案する。 第2段階では,特徴空間の抽象的スケッチから情報的特徴を抽出し,着色過程を変調する。 また,実際のスケッチを自動的にシミュレートし,異なるアプリケーションでテストプロトコルを構築するアルゴリズムを提案する。 公開データセットの実験結果によると、SketchRefinerはスケッチ情報を効果的に利用し、フリーフォームスケッチによるアーティファクトを排除している。 本手法は定性的にも量的にも常に最先端の手法よりも優れており,一方で実世界のアプリケーションにおいても大きな可能性を秘めている。 コードとデータセットが利用可能です。

One tough problem of image inpainting is to restore complex structures in the corrupted regions. It motivates interactive image inpainting which leverages additional hints, e.g., sketches, to assist the inpainting process. Sketch is simple and intuitive to end users, but meanwhile has free forms with much randomness. Such randomness may confuse the inpainting models, and incur severe artifacts in completed images. To address this problem, we propose a two-stage image inpainting method termed SketchRefiner. In the first stage, we propose using a cross-correlation loss function to robustly calibrate and refine the user-provided sketches in a coarse-to-fine fashion. In the second stage, we learn to extract informative features from the abstracted sketches in the feature space and modulate the inpainting process. We also propose an algorithm to simulate real sketches automatically and build a test protocol with different applications. Experimental results on public datasets demonstrate that SketchRefiner effectively utilizes sketch information and eliminates the artifacts due to the free-form sketches. Our method consistently outperforms the state-of-the-art ones both qualitatively and quantitatively, meanwhile revealing great potential in real-world applications. Our code and dataset are available.
翻訳日:2023-06-02 17:41:18 公開日:2023-06-01
# MindBigData 2023 MNIST-8B 80億のデータポイントと脳信号のマルチモーダルデータセット

MindBigData 2023 MNIST-8B The 8 billion datapoints Multimodal Dataset of Brain Signals ( http://arxiv.org/abs/2306.00455v1 )

ライセンス: Link先を確認
David Vivancos(参考訳) mindbigdata 2023 mnist-8bは、これまでに最大(2023年6月1日)で、機械学習用に作成された脳信号オープンデータセットで、カスタム128チャネルデバイスでキャプチャされた単一の被験者からの脳波信号に基づいて、yaan lecun氏らの全mnistデータセットから70,000桁を複製する。 被験者が元の数字のピクセルを画面で1つずつ見て、同時に実際のラベルから発声番号0〜9に耳を傾けている間に、脳の信号がキャプチャされた。 作成したデータ、収集手順、ハードウェア、ソフトウェアの詳細は、以前の論文MindBigData 2022: A Large Dataset of Brain Signalsに記載されている。

MindBigData 2023 MNIST-8B is the largest, to date (June 1st 2023), brain signals open dataset created for Machine Learning, based on EEG signals from a single subject captured using a custom 128 channels device, replicating the full 70,000 digits from Yaan LeCun et all MNIST dataset. The brain signals were captured while the subject was watching the pixels of the original digits one by one on a screen and listening at the same time to the spoken number 0 to 9 from the real label. The data, collection procedures, hardware and software created are described in detail, background extra information and other related datasets can be found at our previous paper MindBigData 2022: A Large Dataset of Brain Signals.
翻訳日:2023-06-02 17:33:35 公開日:2023-06-01
# 音声の自己監督型表現ベンチマーク:それは正しいか?

Speech Self-Supervised Representation Benchmarking: Are We Doing it Right? ( http://arxiv.org/abs/2306.00452v1 )

ライセンス: Link先を確認
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli(参考訳) 自己教師付き学習(SSL)は、最近、少量の注釈付きデータのみを使用して、ラベルなしの音声信号の大規模なデータセットを活用して、音声タスクにおける印象的なパフォーマンスを達成した。 提案手法の多さは、音声信号の様々な側面を探索する一連の下流タスクにおける性能を評価する拡張ベンチマークの必要性と高まりを促した。 しかし、考慮されたタスクの数が増えている一方で、ほとんどの場合、凍結したSSL表現を下流ラベルにマッピングする単一のデコードアーキテクチャに依存している。 本研究では,デコーダアーキテクチャの変更に対するベンチマーク結果の堅牢性について検討する。 興味深いことに、下流デコーダのアーキテクチャの変化は、ほとんどのタスクのリーダーボードに大きな変化をもたらすようだ。 そこで本研究では,限定デコーダを用いたベンチマークにより,SSLモデルのサイズが非生産的に増加する可能性が示唆された。

Self-supervised learning (SSL) has recently allowed leveraging large datasets of unlabeled speech signals to reach impressive performance on speech tasks using only small amounts of annotated data. The high number of proposed approaches fostered the need and rise of extended benchmarks that evaluate their performance on a set of downstream tasks exploring various aspects of the speech signal. However, and while the number of considered tasks has been growing, most rely upon a single decoding architecture that maps the frozen SSL representations to the downstream labels. This work investigates the robustness of such benchmarking results to changes in the decoder architecture. Interestingly, it appears that varying the architecture of the downstream decoder leads to significant variations in the leaderboards of most tasks. Concerningly, our study reveals that benchmarking using limited decoders may cause a counterproductive increase in the sizes of the developed SSL models.
翻訳日:2023-06-02 17:33:18 公開日:2023-06-01
# S$^2$ME:スクリブル制御ポリプセグメンテーションのための空間スペクトル相互指導とアンサンブル学習

S$^2$ME: Spatial-Spectral Mutual Teaching and Ensemble Learning for Scribble-supervised Polyp Segmentation ( http://arxiv.org/abs/2306.00451v1 )

ライセンス: Link先を確認
An Wang, Mengya Xu, Yang Zhang, Mobarakol Islam, Hongliang Ren(参考訳) 大腸癌早期診断の進展において, 完全監督ポリープ分節が長年にわたって有意な勝利を収めてきた。 しかしながら、スクリブルのような弱い監督によるラベル効率のソリューションは、高額な注釈付きポリープデータの高価さと不足のため、医療実践において主に意味を持ち、要求されることはまれである。 さらに、データシフトや破損など、さまざまなデプロイメントの問題により、モデルの一般化と堅牢性に対する要求がさらに進められた。 これらの問題に対処するために、空間スペクトルデュアルブランチ相互指導とエントロピー誘導擬似ラベルアンサンブル学習(S$^2$ME)の枠組みを設計する。 具体的には,空間領域とスペクトル領域から抽出した特徴の本質的な相補性を活用し,協調的最適化により空間間の整合性を促進することにより,医用画像の弱教師付きセグメンテーションを初めて促進する。 さらに,アンサンブル学習の有効性を高める信頼性の高い混合擬似ラベルを作成するために,空間及びスペクトル分岐からのエントロピー誘導に基づく,新しい適応画素ワイド融合技術を導入する。 提案手法は,疑似ラベルに存在する不確実性と雑音の有害な影響を効果的に軽減し,有効性の観点から従来の選択肢を超える。 最終的に、スクリブルと擬似ラベルのハイブリッド管理から学習するための総合最適化目標を定式化する。 4つの公開データセットの大規模実験と評価により, 分布内精度, 分布外一般化, 頑健性について, その有望な臨床的意義を強調した。 私たちのコードはhttps://github.com/lofrienger/s2meで利用可能です。

Fully-supervised polyp segmentation has accomplished significant triumphs over the years in advancing the early diagnosis of colorectal cancer. However, label-efficient solutions from weak supervision like scribbles are rarely explored yet primarily meaningful and demanding in medical practice due to the expensiveness and scarcity of densely-annotated polyp data. Besides, various deployment issues, including data shifts and corruption, put forward further requests for model generalization and robustness. To address these concerns, we design a framework of Spatial-Spectral Dual-branch Mutual Teaching and Entropy-guided Pseudo Label Ensemble Learning (S$^2$ME). Concretely, for the first time in weakly-supervised medical image segmentation, we promote the dual-branch co-teaching framework by leveraging the intrinsic complementarity of features extracted from the spatial and spectral domains and encouraging cross-space consistency through collaborative optimization. Furthermore, to produce reliable mixed pseudo labels, which enhance the effectiveness of ensemble learning, we introduce a novel adaptive pixel-wise fusion technique based on the entropy guidance from the spatial and spectral branches. Our strategy efficiently mitigates the deleterious effects of uncertainty and noise present in pseudo labels and surpasses previous alternatives in terms of efficacy. Ultimately, we formulate a holistic optimization objective to learn from the hybrid supervision of scribbles and pseudo labels. Extensive experiments and evaluation on four public datasets demonstrate the superiority of our method regarding in-distribution accuracy, out-of-distribution generalization, and robustness, highlighting its promising clinical significance. Our code is available at https://github.com/lofrienger/S2ME.
翻訳日:2023-06-02 17:33:01 公開日:2023-06-01
# 人間ラベルのないオープン語彙セマンティックセマンティックセマンティックセグメンテーションの探索

Exploring Open-Vocabulary Semantic Segmentation without Human Labels ( http://arxiv.org/abs/2306.00450v1 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Guocheng Qian, Bernard Ghanem, Zhicheng Yan, Chenchen Zhu, Fanyi Xiao, Mohamed Elhoseiny, Sean Chang Culatana(参考訳) セマンティックセグメンテーションは、画像をピクセルレベルで意味のある領域に分割するコンピュータビジョンにおいて重要なタスクである。 しかしながら、既存のアプローチでは、モデルトレーニングの監督として高価なヒューマンアノテーションに依存し、大規模でラベルなしのデータセットへのスケーラビリティを制限することが多い。 この課題に対処するために、ZeroSegを提案する。これは既存の事前訓練された視覚言語(VL)モデル(例えばCLIP)を利用して、オープン語彙ゼロショットセマンティックセマンティックセマンティクスモデルをトレーニングする新しい方法である。 視覚概念に関する広範な知識を得たが、通常イメージレベルで訓練されるため、これらのVLモデルからセマンティックセグメンテーションのタスクに知識を利用するのは簡単ではない。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。 我々は、pascal voc 2012、pascal context、cocoを含む複数の人気のあるセグメンテーションベンチマークでゼロセグメンテーションをゼロショット方式で評価する(すなわち、ターゲットセグメンテーションデータセットのトレーニングや適応を行わない)。 本手法は,同じ訓練データ下での他のゼロショットセグメンテーション法と比較して,最先端の性能を達成し,かつ,強い教師付き手法と比較して競争力も高い。 最後に,人間研究と質的可視化の両方を通して,ゼロセグメンテーションがオープンボキャブラリーセグメンテーションに与える影響を実証した。

Semantic segmentation is a crucial task in computer vision that involves segmenting images into semantically meaningful regions at the pixel level. However, existing approaches often rely on expensive human annotations as supervision for model training, limiting their scalability to large, unlabeled datasets. To address this challenge, we present ZeroSeg, a novel method that leverages the existing pretrained vision-language (VL) model (e.g. CLIP) to train open-vocabulary zero-shot semantic segmentation models. Although acquired extensive knowledge of visual concepts, it is non-trivial to exploit knowledge from these VL models to the task of semantic segmentation, as they are usually trained at an image level. ZeroSeg overcomes this by distilling the visual concepts learned by VL models into a set of segment tokens, each summarizing a localized region of the target image. We evaluate ZeroSeg on multiple popular segmentation benchmarks, including PASCAL VOC 2012, PASCAL Context, and COCO, in a zero-shot manner (i.e., no training or adaption on target segmentation datasets). Our approach achieves state-of-the-art performance when compared to other zero-shot segmentation methods under the same training data, while also performing competitively compared to strongly supervised methods. Finally, we also demonstrated the effectiveness of ZeroSeg on open-vocabulary segmentation, through both human studies and qualitative visualizations.
翻訳日:2023-06-02 17:32:29 公開日:2023-06-01
# マルチインジケータおよびマルチオルガン医用画像セグメンテーションモデルの評価

Evaluation of Multi-indicator And Multi-organ Medical Image Segmentation Models ( http://arxiv.org/abs/2306.00446v1 )

ライセンス: Link先を確認
Qi Ye, Lihua Guo(参考訳) 近年、エンコーダとデコーダ構造を持つ「U字型」ニューラルネットワークは、医用画像セグメンテーションの分野で人気を集めている。 このモデルの様々なバリエーションが開発されている。 にもかかわらず、これらのモデルの評価はモデル開発に比べてあまり注目されていない。 そこで本研究では,Multi-indicatorとMulti-organ(MIMO)のための医用画像分割モデルの総合評価手法を提案する。 MIMOはモデルが独立したしきい値を生成し、それをマルチ指標の評価と信頼度推定と組み合わせて各臓器のスクリーニングと測定を行う。 その結果、MIMOは各サンプルにおける各臓器のセグメンテーションに関する詳細な情報を提供し、開発者がモデルを分析し改善するのを手助けする。 さらにMIMOは、異なるモデルに対する簡潔なユーザビリティと包括性スコアを生成することができる。 スコアが高いモデルは優れたモデルと見なされ,臨床評価に有用である。 本研究は, 2つの腹部マルチオルガンデータセット上で8種類の医用画像分割モデルをテストし, 正確性, 信頼度推定, 使用可能領域, mimoの4つの視点から評価した。 さらに,ロバスト性試験を行った。 実験の結果,MIMOはマルチ指標とマルチ組織医療画像評価に新たな洞察を与え,モデルのユーザビリティと包括性に関する具体的かつ簡潔な尺度を提供することがわかった。 コード:https://github.com/SCUT-ML-GUO/MIMO

In recent years, "U-shaped" neural networks featuring encoder and decoder structures have gained popularity in the field of medical image segmentation. Various variants of this model have been developed. Nevertheless, the evaluation of these models has received less attention compared to model development. In response, we propose a comprehensive method for evaluating medical image segmentation models for multi-indicator and multi-organ (named MIMO). MIMO allows models to generate independent thresholds which are then combined with multi-indicator evaluation and confidence estimation to screen and measure each organ. As a result, MIMO offers detailed information on the segmentation of each organ in each sample, thereby aiding developers in analyzing and improving the model. Additionally, MIMO can produce concise usability and comprehensiveness scores for different models. Models with higher scores are deemed to be excellent models, which is convenient for clinical evaluation. Our research tests eight different medical image segmentation models on two abdominal multi-organ datasets and evaluates them from four perspectives: correctness, confidence estimation, Usable Region and MIMO. Furthermore, robustness experiments are tested. Experimental results demonstrate that MIMO offers novel insights into multi-indicator and multi-organ medical image evaluation and provides a specific and concise measure for the usability and comprehensiveness of the model. Code: https://github.com/SCUT-ML-GUO/MIMO
翻訳日:2023-06-02 17:31:58 公開日:2023-06-01
# ロシアにおけるSarcasm検出へのビッグデータアプローチ

A big data approach towards sarcasm detection in Russian ( http://arxiv.org/abs/2306.00445v1 )

ライセンス: Link先を確認
A.A. Gurin, T.M. Sadykov, T.A. Zhukov(参考訳) 本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。 これらのアルゴリズムは公開のWebサービスwww.passare.ruで実装されている。 このサービスは、単一の単語のインフレクション、単語マッチング、文法的に正しいロシア語テキストの合成機能を提供する。 選択されたコードとデータセットは、ロシア語のopencorporaの注釈付きコーパスに対して、https://github.com/passare-ru/passarefunctions/ performance of the inflectional functionsでテストされ、ロシア語の異なる部分の形態的変化と複雑さを推定するために使用されている。

We present a set of deterministic algorithms for Russian inflection and automated text synthesis. These algorithms are implemented in a publicly available web-service www.passare.ru. This service provides functions for inflection of single words, word matching and synthesis of grammatically correct Russian text. Selected code and datasets are available at https://github.com/passare-ru/PassareFunctions/ Performance of the inflectional functions has been tested against the annotated corpus of Russian language OpenCorpora, compared with that of other solutions, and used for estimating the morphological variability and complexity of different parts of speech in Russian.
翻訳日:2023-06-02 17:31:34 公開日:2023-06-01
# 水中物体検出のためのエッジ誘導表現学習

Edge-guided Representation Learning for Underwater Object Detection ( http://arxiv.org/abs/2306.00440v1 )

ライセンス: Link先を確認
Linhui Dai, Hong Liu, Pinhao Song, Hao Tang, Runwei Ding, Shengquan Li(参考訳) 水中物体検出(UOD)は海洋経済の発展、環境保護、惑星の持続可能な開発に不可欠である。 このタスクの主な課題は、低コントラスト、小さな物体、水生生物の模倣である。 これらの課題に対処する鍵は、より識別的な情報を得るためにモデルを集中させることである。 水中の物体の縁は非常にユニークであり、その縁に基づいて低コントラストや模倣環境と区別できる。 そこで本研究では,エッジキューの指導の下で識別表現学習とアグリゲーションを実現することを目的とした,エッジガイド表現学習ネットワークerl-netを提案する。 まず,明示的な境界情報をモデル化するためにエッジガイドアテンションモジュールを導入し,より識別的な特徴を生成する。 第2に, 特徴集約モジュールは, 3つのレベルに分類して, 水中物体の位置と認識のためのグローバルおよびローカル情報を効果的に集約することで, マルチスケールの識別的特徴を集約する。 最後に、より広い受容野を持つ機能を実現するために、より小さなオブジェクト情報に集中できるように、広く非対称な受容野ブロックを提案する。 3つの挑戦的な水中データセットに対する総合的な実験により,本手法はUODタスクにおいて優れた性能を発揮することが示された。

Underwater object detection (UOD) is crucial for marine economic development, environmental protection, and the planet's sustainable development. The main challenges of this task arise from low-contrast, small objects, and mimicry of aquatic organisms. The key to addressing these challenges is to focus the model on obtaining more discriminative information. We observe that the edges of underwater objects are highly unique and can be distinguished from low-contrast or mimicry environments based on their edges. Motivated by this observation, we propose an Edge-guided Representation Learning Network, termed ERL-Net, that aims to achieve discriminative representation learning and aggregation under the guidance of edge cues. Firstly, we introduce an edge-guided attention module to model the explicit boundary information, which generates more discriminative features. Secondly, a feature aggregation module is proposed to aggregate the multi-scale discriminative features by regrouping them into three levels, effectively aggregating global and local information for locating and recognizing underwater objects. Finally, we propose a wide and asymmetric receptive field block to enable features to have a wider receptive field, allowing the model to focus on more small object information. Comprehensive experiments on three challenging underwater datasets show that our method achieves superior performance on the UOD task.
翻訳日:2023-06-02 17:31:21 公開日:2023-06-01
# イタリアのフェミサイドニュースに対する責任視点移転

Responsibility Perspective Transfer for Italian Femicide News ( http://arxiv.org/abs/2306.00437v1 )

ライセンス: Link先を確認
Gosse Minnema and Huiyuan Lai and Benedetta Muscato and Malvina Nissim(参考訳) 同じ現実世界の出来事を言語的に表現する方法は、何が起きたかの異なる認識につながる。 以前の研究では、性別に基づく暴力(gbv)の異なる記述が、暴力の原因となる人物に対する読者の認識に影響を与えることが示されている。 本研究は,視点に基づく記述に対する意識の向上と,他の視点へのアクセスを促進するために,加害者の認識レベルを変える手段として,GBV記述を自動的に書き換える新たなタスクを導入する。 本稿では,被犯者の認識責任レベルが低く高い文の準並列データセットを示し,教師なし(mbartベース),ゼロショット,少数ショット(gpt3ベース)による文の書き直し実験を行う。 質問紙調査と自動指標を用いて,本モデルの評価を行った。

Different ways of linguistically expressing the same real-world event can lead to different perceptions of what happened. Previous work has shown that different descriptions of gender-based violence (GBV) influence the reader's perception of who is to blame for the violence, possibly reinforcing stereotypes which see the victim as partly responsible, too. As a contribution to raise awareness on perspective-based writing, and to facilitate access to alternative perspectives, we introduce the novel task of automatically rewriting GBV descriptions as a means to alter the perceived level of responsibility on the perpetrator. We present a quasi-parallel dataset of sentences with low and high perceived responsibility levels for the perpetrator, and experiment with unsupervised (mBART-based), zero-shot and few-shot (GPT3-based) methods for rewriting sentences. We evaluate our models using a questionnaire study and a suite of automatic metrics.
翻訳日:2023-06-02 17:30:58 公開日:2023-06-01
# 答えはいくつあるべきか? マルチアンサー読書理解に関する実証的研究

How Many Answers Should I Give? An Empirical Study of Multi-Answer Reading Comprehension ( http://arxiv.org/abs/2306.00435v1 )

ライセンス: Link先を確認
Chen Zhang, Jiuheng Lin, Xiao Liu, Yuxuan Lai, Yansong Feng, Dongyan Zhao(参考訳) マルチアンサー現象は、質問が文書に複数の答えが散在している場合があり、人間がうまく扱うことができるが、機械読解(mrc)システムでは十分困難である。 マルチアンサーMRCの最近の進歩にもかかわらず、この現象がどのように発生し、どのように対処するかという体系的な分析が欠けている。 本研究では,3つのマルチアンワーデータセットを検査し,マルチアンワー課題の起点を解析し,マルチアンワーmpcインスタンスを分類する分類法を設計する。 さらに,現在のマルチアンワーmrcモデルの異なるパラダイムが,マルチアンワーインスタンスの異なるタイプに対していかにうまく対応しているかについても分析する。 いくつかのパラダイムは質問の主要な情報をうまく捉え、他のパラダイムは質問とコンテキストの関係をより良くモデル化する。 そこで我々は、異なるパラダイムの強みを最大限に活用するための戦略を探求する。 実験により、生成モデルが異なるパラダイムを組み込む有望なプラットフォームであることが示されている。 アノテーションとコードはさらなる研究のためにリリースされています。

The multi-answer phenomenon, where a question may have multiple answers scattered in the document, can be well handled by humans but is challenging enough for machine reading comprehension (MRC) systems. Despite recent progress in multi-answer MRC, there lacks a systematic analysis of how this phenomenon arises and how to better address it. In this work, we design a taxonomy to categorize commonly-seen multi-answer MRC instances, with which we inspect three multi-answer datasets and analyze where the multi-answer challenge comes from. We further analyze how well different paradigms of current multi-answer MRC models deal with different types of multi-answer instances. We find that some paradigms capture well the key information in the questions while others better model the relationship between questions and contexts. We thus explore strategies to make the best of the strengths of different paradigms. Experiments show that generation models can be a promising platform to incorporate different paradigms. Our annotations and code are released for further research.
翻訳日:2023-06-02 17:30:42 公開日:2023-06-01
# 分割、征服、結合:ゼロショット対話状態追跡のための意味独立専門家の混合

Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts for Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2306.00434v1 )

ライセンス: Link先を確認
Qingyue Wang, Liang Ding, Yanan Cao, Yibing Zhan, Zheng Lin, Shi Wang, Dacheng Tao and Li Guo(参考訳) 対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを集めるコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。 既存の研究は主に、一般化を強化するために一般的なデータやモデルレベルの拡張方法を研究するが、サンプルのセマンティクスを効果的に分離することができず、DSTのゼロショット性能を制限している。 本稿では,参照データのセマンティクスを明示的に分離し,その性能とロバスト性を活用する,シンプルで効果的な「分割,征服,結合」ソリューションを提案する。 具体的には、得られたデータを意味的に独立したサブセットに分割し、対応する専門家を訓練する。 T5-Adapter上でのMultiWOZ2.1の大規模な実験により、我々のスキーマは、外部知識のない設定でSOTAを10Mのトレーニング可能なパラメータで達成し、ゼロショット性能を大幅に改善する。

Zero-shot transfer learning for Dialogue State Tracking (DST) helps to handle a variety of task-oriented dialogue domains without the cost of collecting in-domain data. Existing works mainly study common data- or model-level augmentation methods to enhance the generalization but fail to effectively decouple the semantics of samples, limiting the zero-shot performance of DST. In this paper, we present a simple and effective "divide, conquer and combine" solution, which explicitly disentangles the semantics of seen data, and leverages the performance and robustness with the mixture-of-experts mechanism. Specifically, we divide the seen data into semantically independent subsets and train corresponding experts, the newly unseen samples are mapped and inferred with mixture-of-experts with our designed ensemble inference. Extensive experiments on MultiWOZ2.1 upon the T5-Adapter show our schema significantly and consistently improves the zero-shot performance, achieving the SOTA on settings without external knowledge, with only 10M trainable parameters1.
翻訳日:2023-06-02 17:30:26 公開日:2023-06-01
# 遠隔センシングによる視覚質問応答における言語バイアスの克服

Overcoming Language Bias in Remote Sensing Visual Question Answering via Adversarial Training ( http://arxiv.org/abs/2306.00483v1 )

ライセンス: Link先を確認
Zhenghang Yuan, Lichao Mou, Xiao Xiang Zhu(参考訳) Visual Question Answering (VQA) システムはユーザフレンドリーなインタフェースを提供し、人間とコンピュータのインタラクションを可能にする。 しかしながら、VQAモデルは一般的に言語バイアスの課題に直面しており、これは質問と回答の間の表面的相関が学習された結果である。 そこで本研究では,リモートセンシングデータ(RSVQA)におけるVQAの言語バイアスを低減するための新しい枠組みを提案する。 具体的には、元のVQAフレームワークに逆のブランチを追加します。 逆数分岐に基づいて、学習過程を言語バイアスに制約する2つの正規化器を導入する。 さらに,言語バイアスの観点から性能を評価するために,質問情報とランダム画像情報を組み合わせた場合の標準精度と性能低下を組み合わせた新しい指標を提案する。 実験の結果,本手法の有効性が示された。 RSVQAタスクにおける言語バイアスを軽減するために,我々の手法は今後の作業に光を当てることができると考えている。

The Visual Question Answering (VQA) system offers a user-friendly interface and enables human-computer interaction. However, VQA models commonly face the challenge of language bias, resulting from the learned superficial correlation between questions and answers. To address this issue, in this study, we present a novel framework to reduce the language bias of the VQA for remote sensing data (RSVQA). Specifically, we add an adversarial branch to the original VQA framework. Based on the adversarial branch, we introduce two regularizers to constrain the training process against language bias. Furthermore, to evaluate the performance in terms of language bias, we propose a new metric that combines standard accuracy with the performance drop when incorporating question and random image information. Experimental results demonstrate the effectiveness of our method. We believe that our method can shed light on future work for reducing language bias on the RSVQA task.
翻訳日:2023-06-02 17:24:36 公開日:2023-06-01
# 家庭における基礎的数学学習のための子どもの言語理解の検査

Inspecting Spoken Language Understanding from Kids for Basic Math Learning at Home ( http://arxiv.org/abs/2306.00482v1 )

ライセンス: Link先を確認
Eda Okur, Roddy Fuentes Alba, Saurav Sahay, Lama Nachman(参考訳) 最近の会話型ai技術の進歩により、家庭内システムにおけるインタラクティブな数学学習による幼児教育の質を高めることが、徐々に現実になりつつある。 このモチベーションにより,家庭における遊びベースの学習体験を支援するマルチモーダル対話システムを実装し,子どもたちに基本的な数学概念を習得させる。 本研究は,子ども向けのタスク指向対話システムにおける音声言語理解(slu)パイプラインについて検討し,ゲーム化された数学学習活動を通じて,家庭内展開データを用いた自動音声認識(asr)と自然言語理解(nlu)コンポーネントの評価を行った。 NLUのためのマルチタスクアーキテクチャの利点を検証し、数学学習領域におけるインテント認識とエンティティ抽出のための様々な事前訓練された言語表現を実験する。 現実的な家庭環境における子供たちの発話を認識するために,商用のGoogle Cloudや,さまざまなモデルサイズを持つ最新のオープンソースWhisperソリューションなど,いくつかのASRシステムを調査した。 実家における算数学習における子どもの理解の課題を検討するため,雑音の多いASR出力を用いた最高のNLUモデルを検証し,SLUパイプラインの評価を行った。

Enriching the quality of early childhood education with interactive math learning at home systems, empowered by recent advances in conversational AI technologies, is slowly becoming a reality. With this motivation, we implement a multimodal dialogue system to support play-based learning experiences at home, guiding kids to master basic math concepts. This work explores Spoken Language Understanding (SLU) pipeline within a task-oriented dialogue system developed for Kid Space, with cascading Automatic Speech Recognition (ASR) and Natural Language Understanding (NLU) components evaluated on our home deployment data with kids going through gamified math learning activities. We validate the advantages of a multi-task architecture for NLU and experiment with a diverse set of pretrained language representations for Intent Recognition and Entity Extraction tasks in the math learning domain. To recognize kids' speech in realistic home environments, we investigate several ASR systems, including the commercial Google Cloud and the latest open-source Whisper solutions with varying model sizes. We evaluate the SLU pipeline by testing our best-performing NLU models on noisy ASR output to inspect the challenges of understanding children for math learning in authentic homes.
翻訳日:2023-06-02 17:24:23 公開日:2023-06-01
# 自己教師付き音声表現のドメイン適応微調整のための自動データ拡張

Automatic Data Augmentation for Domain Adapted Fine-Tuning of Self-Supervised Speech Representations ( http://arxiv.org/abs/2306.00481v1 )

ライセンス: Link先を確認
Salah Zaiem, Titouan Parcollet, Slim Essid(参考訳) SSL(Self-Supervised Learning)は、少量の注釈付きデータセットであっても、大量のラベル付き音声データを活用して音声認識モデルの性能を向上させる。 これにもかかわらず、プレトレーニングとターゲットデータセットの音響ミスマッチに直面しながら、音声SSL表現が失敗する可能性がある。 そこで本研究では,音響領域におけるこのようなミスマッチを示すケースを対象とした,教師付きドメイン適応手法を提案する。 大きなクリーンなデータセットに適切に調整されたデータ拡張を適用し、ターゲットドメインに近づけ、初期微調整ステージの一部としてそれを使用する。 対象データセットに基づいて、条件依存推定器の最小化により拡張を自動的に選択する。 このアプローチは、oracleの実験で、制御された歪みと、2つのアマチュアが収集した低リソースドメインで検証され、両方のケースでベースラインよりも優れたパフォーマンスに達する。

Self-Supervised Learning (SSL) has allowed leveraging large amounts of unlabeled speech data to improve the performance of speech recognition models even with small annotated datasets. Despite this, speech SSL representations may fail while facing an acoustic mismatch between the pretraining and target datasets. To address this issue, we propose a novel supervised domain adaptation method, designed for cases exhibiting such a mismatch in acoustic domains. It consists in applying properly calibrated data augmentations on a large clean dataset, bringing it closer to the target domain, and using it as part of an initial fine-tuning stage. Augmentations are automatically selected through the minimization of a conditional-dependence estimator, based on the target dataset. The approach is validated during an oracle experiment with controlled distortions and on two amateur-collected low-resource domains, reaching better performances compared to the baselines in both cases.
翻訳日:2023-06-02 17:24:00 公開日:2023-06-01
# Concordiaによる並列神経シンボル統合

Parallel Neurosymbolic Integration with Concordia ( http://arxiv.org/abs/2306.00480v1 )

ライセンス: Link先を確認
Jonathan Feldstein, Modestas Jur\v{c}ius, Efthymia Tsamoura(参考訳) 並列型ニューロシンボリックアーキテクチャは論理理論からの知識を深層モデルに蒸留することでNLPに効果的に適用されているが、従来の技術は制限された論理理論をサポートし、論理と深層ネットワークの独立性の仮定に依存するなど、いくつかの制限に直面している。 先行技術の限界を克服するフレームワークであるConcordiaを提示する。 コンコルディアはディープネットワークと論理理論の両方に非依存であり、幅広い確率論的理論を支持する。 我々のフレームワークは、両方のコンポーネントの教師なしトレーニングと神経コンポーネントの教師なしトレーニングをサポートすることができる。 コンコーディアはNLPやデータ分類以外のタスクに適用され、集団活動の検出、エンティティリンク、レコメンデーションタスクにおける最先端の精度を向上させる。

Parallel neurosymbolic architectures have been applied effectively in NLP by distilling knowledge from a logic theory into a deep model.However, prior art faces several limitations including supporting restricted forms of logic theories and relying on the assumption of independence between the logic and the deep network. We present Concordia, a framework overcoming the limitations of prior art. Concordia is agnostic both to the deep network and the logic theory offering support for a wide range of probabilistic theories. Our framework can support supervised training of both components and unsupervised training of the neural component. Concordia has been successfully applied to tasks beyond NLP and data classification, improving the accuracy of state-of-the-art on collective activity detection, entity linking and recommendation tasks.
翻訳日:2023-06-02 17:23:45 公開日:2023-06-01
# アルゴリズムインスタンスのフットプリント - 容易に解決可能かつ困難な問題インスタンスを分離する

Algorithm Instance Footprint: Separating Easily Solvable and Challenging Problem Instances ( http://arxiv.org/abs/2306.00479v1 )

ライセンス: Link先を確認
Ana Nikolikj, Sa\v{s}o D\v{z}eroski, Mario Andr\'es Mu\~noz, Carola Doerr, Peter Koro\v{s}ec, Tome Eftimov(参考訳) ブラックボックス最適化では、アルゴリズムインスタンスが問題インスタンスのセットでなぜ動作するのかを理解し、他のインスタンスで失敗し、その振る舞いを説明することが不可欠である。 本稿では,解くのが容易な問題インスタンス群と,解くのが難しい問題インスタンス群からなるアルゴリズムインスタンス足跡を定式化する手法を提案する。 このアルゴリズムインスタンスの振る舞いは、問題インスタンスのランドスケープ特性とさらに関連付けられ、どのプロパティが問題インスタンスを簡単または困難にするかを説明する。 提案手法は,問題インスタンスのランドスケープ特性とアルゴリズムの性能を同一ベクトル空間に埋め込むメタ表現を用いる。 これらのメタ表現は、アルゴリズムのパフォーマンス予測のための教師付き機械学習回帰モデルを訓練し、ランドスケープの特徴の重要性をパフォーマンス予測に評価するためにモデル説明可能性技術を適用して得られる。 次に、メタ表現の決定論的クラスタリングにより、空間をまたいだアルゴリズムのパフォーマンスをキャプチャし、どのランドスケープ特性がそれにつながるのかを説明するとともに、貧弱で優れたアルゴリズム性能の領域を検出することが示される。

In black-box optimization, it is essential to understand why an algorithm instance works on a set of problem instances while failing on others and provide explanations of its behavior. We propose a methodology for formulating an algorithm instance footprint that consists of a set of problem instances that are easy to be solved and a set of problem instances that are difficult to be solved, for an algorithm instance. This behavior of the algorithm instance is further linked to the landscape properties of the problem instances to provide explanations of which properties make some problem instances easy or challenging. The proposed methodology uses meta-representations that embed the landscape properties of the problem instances and the performance of the algorithm into the same vector space. These meta-representations are obtained by training a supervised machine learning regression model for algorithm performance prediction and applying model explainability techniques to assess the importance of the landscape features to the performance predictions. Next, deterministic clustering of the meta-representations demonstrates that using them captures algorithm performance across the space and detects regions of poor and good algorithm performance, together with an explanation of which landscape properties are leading to it.
翻訳日:2023-06-02 17:23:31 公開日:2023-06-01
# 事前学習されたモデルを可逆化する:パラメータからメモリ効率の良い微調整へ

Make Your Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning ( http://arxiv.org/abs/2306.00477v1 )

ライセンス: Link先を確認
Baohao Liao, Shaomu Tan, Christof Monz(参考訳) プレトレーニング言語モデル(PLM)のパラメータ効率細調整(PEFT)は、性能を犠牲にすることなく少数のパラメータのみをトレーニングし、PLMのサイズを増大させるデファクト学習パラダイムとなるという、非常に成功したアプローチとして登場した。 しかし、既存のpeftメソッドは、グラデーション計算のための中間アクティベーションの大部分をキャッシュする必要があるため、メモリ効率は高くない。 アクティベーションメモリを減らす効果的な方法の一つは可逆モデルを適用することであるので、中間のアクティベーションはキャッシュする必要がなく、再計算できる。 しかしながら、PEFT で PLM を可逆的に修正することは、現在の PLM と異なるアーキテクチャを持つため、簡単ではない。 本稿では,既存のPEFT法の成功の鍵となる要因を最初に検討し,PEFT法の初期化においてPLMの開始点を保存することが重要であることを認識した。 そこで本研究では, PLM にアダプタを挿入し, PLM の開始点を保存し, 追加の事前学習なしに可逆化するメモリ効率向上ファインタニング (MEFT) を提案する。 GLUEベンチマークのMEFTとBERT,RoBERTa,BART,OPTの5つのバックボーンを用いた質問応答タスクの評価を行った。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。 さらに, MEFT は GLUE のスコアと質問応答タスクのスコアをフル微調整と同等に達成している。

Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant with PEFT is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it's essential to preserve the PLM's starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM's starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning.
翻訳日:2023-06-02 17:23:10 公開日:2023-06-01
# YOLOv5を用いたMRIコーパスカロサムの同時同時局在と非定型パーキンソン病の分類

Interpretable simultaneous localization of MRI corpus callosum and classification of atypical Parkinsonian disorders using YOLOv5 ( http://arxiv.org/abs/2306.00473v1 )

ライセンス: Link先を確認
Vamshi Krishna Kancharla, Debanjali Bhattacharya, Neelam Sinha, Jitender Saini, Pramod Kumar Pal, Sandhya M(参考訳) 構造MRI(Structure MRI、S-MRI)は、過去数十年で脳の解剖学的研究に革命をもたらした最も多彩な画像モダリティの1つである。 コーパスカロサム(CC)は主要な白色物質繊維であり、あらゆる種類の半球間通信を可能にする。 したがって、ccの微妙な変化は様々な神経疾患と関連している可能性がある。 本研究は、不定型パーキンソン病(PD)と健康制御(HC)を区別するYOLOv5ベースのCC検出フレームワークの可能性を提案する。 3ラウンドのホールドアウト検証により,20名の健常者と20名のAPDからなるプロプライエタリなデータセットを用いて,92%の平均分類精度を求め,同じデータセットを用いたSOTA法(CC形態計測,視覚テクスチャ解析)よりも5%向上した。 その後, YOLO予測の可否を説明するために, Eigen CAMをベースとしたヒートマップが生成され, 分類に繋がるCCの最も重要なサブリージョンを同定する。 apdsとhcの分類において,cc中間体は最も識別可能なサブ領域であり,soma法や医学における現在一般的な理解と並んでいる。

Structural MRI(S-MRI) is one of the most versatile imaging modality that revolutionized the anatomical study of brain in past decades. The corpus callosum (CC) is the principal white matter fibre tract, enabling all kinds of inter-hemispheric communication. Thus, subtle changes in CC might be associated with various neurological disorders. The present work proposes the potential of YOLOv5-based CC detection framework to differentiate atypical Parkinsonian disorders (PD) from healthy controls (HC). With 3 rounds of hold-out validation, mean classification accuracy of 92% is obtained using the proposed method on a proprietary dataset consisting of 20 healthy subjects and 20 cases of APDs, with an improvement of 5% over SOTA methods (CC morphometry and visual texture analysis) that used the same dataset. Subsequently, in order to incorporate the explainability of YOLO predictions, Eigen CAM based heatmap is generated for identifying the most important sub-region in CC that leads to the classification. The result of Eigen CAM showed CC mid-body as the most distinguishable sub-region in classifying APDs and HC, which is in-line with SOTA methodologies and the current prevalent understanding in medicine.
翻訳日:2023-06-02 17:22:41 公開日:2023-06-01
# カゴメ格子の高精度シミュレーションのための効率的なvqe法

Efficient VQE Approach for Accurate Simulations on the Kagome Lattice ( http://arxiv.org/abs/2306.00467v1 )

ライセンス: Link先を確認
Jyothikamalesh S, Kaarnika A, Dr.Mohankumar.M, Sanjay Vishwakarma, Srinjoy Ganguly, Yuvaraj P(参考訳) カゴメ格子(英語版)は、相互接続された三角形とフラストレーションを持つ磁気特性からなる誘電格子構造であり、凝縮物質物理学、量子磁気学、量子コンピューティングにかなりの関心を寄せている。 本研究は,カゴメ格子上で有効な変分量子固有解法(VQE)を作成するために,複数のアンサッツモデルを使用することに焦点を当てる。 様々な最適化手法を比較し,VQEアザッツモデルを最適化することにより,基底状態特性を高精度に推定する。 本研究は量子コンピューティングを進歩させ,カゴメ格子の特異な幾何学的構成と特徴を生かして,複雑な格子構造を持つ量子材料の知識を進歩させる。 本研究は,vqe実装の有効性と精度の向上を目的として,antatzモデリング,量子効果,最適化手法がvqeアルゴリズムとどのように相互作用するかを検討する。 本研究から得られた知見と理解は,量子アルゴリズムの改良,量子機械学習,およびKagome Lattice上の量子材料の調査に有用である。

The Kagome lattice, a captivating lattice structure composed of interconnected triangles with frustrated magnetic properties, has garnered considerable interest in condensed matter physics, quantum magnetism, and quantum computing.The Ansatz optimization provided in this study along with extensive research on optimisation technique results us with high accuracy. This study focuses on using multiple ansatz models to create an effective Variational Quantum Eigensolver (VQE) on the Kagome lattice. By comparing various optimisation methods and optimising the VQE ansatz models, the main goal is to estimate ground state attributes with high accuracy. This study advances quantum computing and advances our knowledge of quantum materials with complex lattice structures by taking advantage of the distinctive geometric configuration and features of the Kagome lattice. Aiming to improve the effectiveness and accuracy of VQE implementations, the study examines how Ansatz Modelling, quantum effects, and optimization techniques interact in VQE algorithm. The findings and understandings from this study provide useful direction for upcoming improvements in quantum algorithms,quantum machine learning and the investigation of quantum materials on the Kagome Lattice.
翻訳日:2023-06-02 17:22:15 公開日:2023-06-01
# 双極子モイレ励起子のボソニック非局在化

Bosonic Delocalization of Dipolar Moir\'e Excitons ( http://arxiv.org/abs/2306.00465v1 )

ライセンス: Link先を確認
Samuel Brem and Ermin Malic(参考訳) ねじれた半導体単分子膜の超格子では、調節可能なモワールポテンシャルが出現し、励起子を周期配列にトラップする。 特に、空間的に分離された層間励起子は深いポテンシャルのランドスケープを受け、相互作用するボソニック格子を研究する特別な機会を提供する永久双極子を示す。 最近の実験では、モワールエキストロンの密度依存的な輸送特性が示されており、技術応用において重要な役割を果たす可能性がある。 しかし、Exiton-Exciton相互作用とmoir\eトラップの興味深い相互作用はまだよく理解されていない。 本研究では,外部電位における励起子相互作用の微視的理論を開発し,この問題に対処する。 モワールエクシトン間の相互作用は中間密度での非局在化につながり、この遷移がねじれ角と温度によってどのように調整されるかを示す。 脱局在化は、光学的moir\'e共鳴の修正とともに、徐々に単一の自由励起子ピークに融合する。 スーパーセルホッピングの予測密度調整性は、moir\'e材料のエネルギー輸送を制御するのに利用できる。

In superlattices of twisted semiconductor monolayers, tunable moir\'e potentials emerge, trapping excitons into periodic arrays. In particular, spatially separated interlayer excitons are subject to a deep potential landscape and they exhibit a permanent dipole providing a unique opportunity to study interacting bosonic lattices. Recent experiments have demonstrated density-dependent transport properties of moir\'e excitons, which could play a key role for technological applications. However, the intriguing interplay between exciton-exciton interactions and moir\'e trapping has not been well understood yet. In this work, we develop a microscopic theory of interacting excitons in external potentials allowing us to tackle this highly challenging problem. We find that interactions between moir\'e excitons lead to a delocalization at intermediate densities and we show how this transition can be tuned via twist angle and temperature. The delocalization is accompanied by a modification of optical moir\'e resonances, which gradually merge into a single free exciton peak. The predicted density-tunability of the supercell hopping can be utilized to control the energy transport in moir\'e materials.
翻訳日:2023-06-02 17:21:53 公開日:2023-06-01
# 言語間意味文類似性のための多言語モデルにおける異方性と外乱の探索

Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity ( http://arxiv.org/abs/2306.00458v1 )

ライセンス: Link先を確認
Katharina H\"ammerl, Alina Fastowski, Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性があり、典型的には外接次元を示す。 これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語文脈での作業ははるかに少ない。 なぜこのような異常が起こるのか、どのように表現に影響を与えるのかはまだ研究の活発な領域である。 複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。 我々は,多言語表現を評価するための自然なタスクとして,言語間の意味的類似性に着目した。 具体的には,文表現について検討する。 並列リソース(常に利用可能ではない)で微調整された文変換は、このタスクにおいてよりよく機能し、それらの表現がより等方的であることを示す。 しかし、我々は多言語表現全般を改善することを目指している。 組込み空間を微調整せずに変形させることで, 性能差のどの程度を補うことができるか検討し, 得られた空間を可視化する。 個別のアウトラヤ次元の除去、クラスタベースの等方性拡張、ZCAの白化などです。 再現性のためにコードを公開します。

Previous work has shown that the representations output by contextual language models are more anisotropic than static type embeddings, and typically display outlier dimensions. This seems to be true for both monolingual and multilingual models, although much less work has been done on the multilingual context. Why these outliers occur and how they affect the representations is still an active area of research. We investigate outlier dimensions and their relationship to anisotropy in multiple pre-trained multilingual language models. We focus on cross-lingual semantic similarity tasks, as these are natural tasks for evaluating multilingual representations. Specifically, we examine sentence representations. Sentence transformers which are fine-tuned on parallel resources (that are not always available) perform better on this task, and we show that their representations are more isotropic. However, we aim to improve multilingual representations in general. We investigate how much of the performance difference can be made up by only transforming the embedding space without fine-tuning, and visualise the resulting spaces. We test different operations: Removing individual outlier dimensions, cluster-based isotropy enhancement, and ZCA whitening. We publish our code for reproducibility.
翻訳日:2023-06-02 17:21:35 公開日:2023-06-01
# mewl: 参照的不確実性を伴う複数モーダル単語学習

MEWL: Few-shot multimodal word learning with referential uncertainty ( http://arxiv.org/abs/2306.00503v1 )

ライセンス: Link先を確認
Guangyuan Jiang, Manjie Xu, Shiji Xin, Wei Liang, Yujia Peng, Chi Zhang, Yixin Zhu(参考訳) 明示的なフィードバックがなければ、人間は言葉の意味を素早く学ぶことができる。 子どもたちは、いくつかの受動的露出(高速マッピングと呼ばれるプロセス)の後、新しい単語を取得できる。 この単語学習能力は、マルチモーダル理解と推論の最も基本的な構成要素であると考えられている。 近年のマルチモーダル学習の進歩にもかかわらず、機械における人間のような単語学習には体系的かつ厳密な評価が欠けている。 このギャップを埋めるために,機械学習(machine word learning, mewl)ベンチマークを導入する。 MEWLは、単語学習における人間のコア認知ツールキットをカバーしている。 具体的には、MEWLは、様々な単語学習能力を探索する9つのタスクからなる、数発のベンチマークスイートである。 これらの課題は、語学学習における子どものコア能力に適合するように慎重に設計され、発達文学における理論を反映している。 マルチモーダルエージェントと非モーダルエージェントのパフォーマンスを比較分析して評価することにより,人・機械語学習における急激な違いに気づく。 さらに、人間と機械の違いを議論し、機械における人間のような数発の単語学習を求める。

Without explicit feedback, humans can rapidly learn the meaning of words. Children can acquire a new word after just a few passive exposures, a process known as fast mapping. This word learning capability is believed to be the most fundamental building block of multimodal understanding and reasoning. Despite recent advancements in multimodal learning, a systematic and rigorous evaluation is still missing for human-like word learning in machines. To fill in this gap, we introduce the MachinE Word Learning (MEWL) benchmark to assess how machines learn word meaning in grounded visual scenes. MEWL covers human's core cognitive toolkits in word learning: cross-situational reasoning, bootstrapping, and pragmatic learning. Specifically, MEWL is a few-shot benchmark suite consisting of nine tasks for probing various word learning capabilities. These tasks are carefully designed to be aligned with the children's core abilities in word learning and echo the theories in the developmental literature. By evaluating multimodal and unimodal agents' performance with a comparative analysis of human performance, we notice a sharp divergence in human and machine word learning. We further discuss these differences between humans and machines and call for human-like few-shot word learning in machines.
翻訳日:2023-06-02 17:13:59 公開日:2023-06-01
# イベント引数抽出を再考する: イベント共起に気付くと、EAEモデルはより良く学ぶことができるか?

Revisiting Event Argument Extraction: Can EAE Models Learn Better When Being Aware of Event Co-occurrences? ( http://arxiv.org/abs/2306.00502v1 )

ライセンス: Link先を確認
Yuxin He, Jingyue Hu and Buzhou Tang(参考訳) イベント共起は過去の研究ではイベント抽出(EE)に有効であることが証明されているが、近年ではイベント引数抽出(EAE)には考慮されていない。 本稿では,ee研究とeae研究のギャップを埋めるために,‘イベント共起を意識してeaeモデルがより良く学習できるか’という疑問を浮き彫りにする。 本研究では,テーブル生成の問題としてEAEを再構成し,SOTAプロンプトベースのEAEモデルをTabEAEと呼ばれる非自己回帰生成フレームワークに拡張し,複数のイベントの議論を並列に抽出する。 このフレームワークでは,4つのデータセット(ace05, rams, wikievents, mlee)上で3つの異なるトレーニング参照スキームを実験し,モデルをトレーニングすることですべてのイベントを並列に抽出することで,各イベントの意味的境界を識別し,単一のイベントを抽出する能力が大幅に向上することを発見した。 実験の結果,本手法は4つのデータセットにおいて新たな最先端性能を実現することがわかった。 私たちのコードはhttps://github.com/stardust-hyx/tabeaeで悪用できます。

Event co-occurrences have been proved effective for event extraction (EE) in previous studies, but have not been considered for event argument extraction (EAE) recently. In this paper, we try to fill this gap between EE research and EAE research, by highlighting the question that ``Can EAE models learn better when being aware of event co-occurrences?''. To answer this question, we reformulate EAE as a problem of table generation and extend a SOTA prompt-based EAE model into a non-autoregressive generation framework, called TabEAE, which is able to extract the arguments of multiple events in parallel. Under this framework, we experiment with 3 different training-inference schemes on 4 datasets (ACE05, RAMS, WikiEvents and MLEE) and discover that via training the model to extract all events in parallel, it can better distinguish the semantic boundary of each event and its ability to extract single event gets substantially improved. Experimental results show that our method achieves new state-of-the-art performance on the 4 datasets. Our code is avilable at https://github.com/Stardust-hyx/TabEAE.
翻訳日:2023-06-02 17:13:39 公開日:2023-06-01
# 最短経路拡散による画像生成

Image generation with shortest path diffusion ( http://arxiv.org/abs/2306.00501v1 )

ライセンス: Link先を確認
Ayan Das, Stathi Fotiadis, Anil Batra, Farhang Nabiei, FengTing Liao, Sattar Vakili, Da-shan Shiu, Alberto Bernacchia(参考訳) 画像生成の分野は拡散モデルの導入によって大きく進歩し、与えられた画像の腐敗を徐々に反転させることを学んでいる。 最近、いくつかの研究が拡散モデルにおける画像の劣化の代替方法を導入し、ぼやけに重点を置いている。 しかし、これらの研究は純粋に経験的であり、画像の劣化に最適な手順が何かは定かではない。 本研究では,与えられた最終状態に対して像を腐敗させる際の経路長を最小化する最適手順を仮定する。 本研究では,確率分布の空間で測定した経路長のフィッシャー計量を提案する。 この測定値に従って最も短いパスを計算し、画像のシャープ化とノイズのデブラリングの組み合わせに対応していることを示す。 汚職は以前の研究で任意に選ばれたが、我々の最短経路拡散(SPD)は汚職の時空間構造を一意に決定する。 SPDは、ハイパーパラメータチューニングなしで強いベースラインを改良し、画像のぼかしに基づいて従来の拡散モデルよりも優れていることを示す。 さらに、最短経路からの小さな偏差は性能を悪化させ、SPDが画像の劣化を最適に行うことを示唆している。 我々の研究は、近年の成果に新たな光を当て、画像やその他の種類のデータの拡散モデルを改善するための新しいアプローチを提供する。

The field of image generation has made significant progress thanks to the introduction of Diffusion Models, which learn to progressively reverse a given image corruption. Recently, a few studies introduced alternative ways of corrupting images in Diffusion Models, with an emphasis on blurring. However, these studies are purely empirical and it remains unclear what is the optimal procedure for corrupting an image. In this work, we hypothesize that the optimal procedure minimizes the length of the path taken when corrupting an image towards a given final state. We propose the Fisher metric for the path length, measured in the space of probability distributions. We compute the shortest path according to this metric, and we show that it corresponds to a combination of image sharpening, rather than blurring, and noise deblurring. While the corruption was chosen arbitrarily in previous work, our Shortest Path Diffusion (SPD) determines uniquely the entire spatiotemporal structure of the corruption. We show that SPD improves on strong baselines without any hyperparameter tuning, and outperforms all previous Diffusion Models based on image blurring. Furthermore, any small deviation from the shortest path leads to worse performance, suggesting that SPD provides the optimal procedure to corrupt images. Our work sheds new light on observations made in recent works and provides a new approach to improve diffusion models on images and other types of data.
翻訳日:2023-06-02 17:13:14 公開日:2023-06-01
# DeSAM: 一般的な医療画像セグメンテーションのためのセグメンテーションモデル

DeSAM: Decoupling Segment Anything Model for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2306.00499v1 )

ライセンス: Link先を確認
Yifan Gao, Wei Xia, Dingdu Hu, Xin Gao(参考訳) ディープラーニングベースの自動医療画像セグメンテーションモデルは、しばしばドメインシフトに苦しみ、ソースドメインでトレーニングされたモデルは、他の目に見えないドメインにうまく一般化しない。 強力な一般化機能を持つ視覚基盤モデルとして、SAM(Segment Anything Model)は、医用画像セグメンテーションのクロスドメインロバスト性を改善する可能性を示している。 しかし、SAMとその微調整されたモデルは、与えられた手動のプロンプトと比較して完全に自動モードで大幅に悪化した。 さらに調査した結果,性能劣化はプロンプトの低下とマスクセグメンテーションの結合効果に関係していることがわかった。 完全な自動モードでは、避けられない不適切なプロンプト(マスクの外の点やマスクよりもかなり大きい箱など)の存在はマスク生成を著しく誤解させる可能性がある。 結合効果に対処するために,デカップリングSAM(DeSAM)を提案する。 DeSAMはSAMのマスクデコーダを変更してマスク生成を分離し、事前訓練された重量を利用して埋め込みを促す。 前立腺クロスサイトデータセットの公開実験を行った。 その結果,DeSAMは従来の最先端領域一般化法と比較して平均8.96%(70.06%から79.02%)改善した。 さらに、当社のアプローチは重み付け画像エンコーダのチューニングに依存しないので、エントリーレベルのGPUを持つパーソナルデバイスでDeSAMをトレーニングすることができる。 コードはhttps://github.com/yifangao112/DeSAMで公開されている。

Deep learning based automatic medical image segmentation models often suffer from domain shift, where the models trained on a source domain do not generalize well to other unseen domains. As a vision foundation model with powerful generalization capabilities, Segment Anything Model (SAM) shows potential for improving the cross-domain robustness of medical image segmentation. However, SAM and its fine-tuned models performed significantly worse in fully automatic mode compared to when given manual prompts. Upon further investigation, we discovered that the degradation in performance was related to the coupling effect of poor prompts and mask segmentation. In fully automatic mode, the presence of inevitable poor prompts (such as points outside the mask or boxes significantly larger than the mask) can significantly mislead mask generation. To address the coupling effect, we propose the decoupling SAM (DeSAM). DeSAM modifies SAM's mask decoder to decouple mask generation and prompt embeddings while leveraging pre-trained weights. We conducted experiments on publicly available prostate cross-site datasets. The results show that DeSAM improves dice score by an average of 8.96% (from 70.06% to 79.02%) compared to previous state-of-the-art domain generalization method. Moreover, DeSAM can be trained on personal devices with entry-level GPU since our approach does not rely on tuning the heavyweight image encoder. The code is publicly available at https://github.com/yifangao112/DeSAM.
翻訳日:2023-06-02 17:12:53 公開日:2023-06-01
# バイナリ分類におけるリコースのリスク

The Risks of Recourse in Binary Classification ( http://arxiv.org/abs/2306.00497v1 )

ライセンス: Link先を確認
Hidde Fokkema, Damien Garreau, Tim van Erven(参考訳) algorithmic recourseは、機械学習システムによって好ましくない決定を覆すのに役立つ説明を提供する。 しかし、リコースの提供が有益かどうかにはほとんど注意が払われていない。 本稿では,アルゴリズムリコースの有無に関わらず,分類のリスク(すなわち期待損失)を比較する抽象学習理論の枠組みを提案する。 これにより、人口レベルでのレコメンデーションの提供が有益か有害かという疑問に答えることができる。 意外なことに、高レベルの不確実性のあるリージョンにユーザをプッシュして、より多くのミスを引き起こすため、レコースを提供するという有害なシナリオが多数存在することがわかりました。 さらに, 分類器を展開する当事者が, リコースの提供を期待してストラテジライズするインセンティブを持つかどうかについても検討した。 したがって、アルゴリズムによる会話を提供することはシステムレベルでも有害である。 シミュレーションおよび実世界のデータ実験における理論的知見を確認した。 全体として、アルゴリズムリコースの現在の概念は確実に有益ではなく、そのため再検討が必要であると結論づける。

Algorithmic recourse provides explanations that help users overturn an unfavorable decision by a machine learning system. But so far very little attention has been paid to whether providing recourse is beneficial or not. We introduce an abstract learning-theoretic framework that compares the risks (i.e. expected losses) for classification with and without algorithmic recourse. This allows us to answer the question of when providing recourse is beneficial or harmful at the population level. Surprisingly, we find that there are many plausible scenarios in which providing recourse turns out to be harmful, because it pushes users to regions of higher class uncertainty and therefore leads to more mistakes. We further study whether the party deploying the classifier has an incentive to strategize in anticipation of having to provide recourse, and we find that sometimes they do, to the detriment of their users. Providing algorithmic recourse may therefore also be harmful at the systemic level. We confirm our theoretical findings in experiments on simulated and real-world data. All in all, we conclude that the current concept of algorithmic recourse is not reliably beneficial, and therefore requires rethinking.
翻訳日:2023-06-02 17:12:32 公開日:2023-06-01
# 変分量子アルゴリズムを用いた組合せ最適化問題を解くグラフ分解法

Graph decomposition techniques for solving combinatorial optimization problems with variational quantum algorithms ( http://arxiv.org/abs/2306.00494v1 )

ライセンス: Link先を確認
Moises Ponce, Rebekah Herrman, Phillip C. Lotshaw, Sarah Powers, George Siopsis, Travis Humble, James Ostrowski(参考訳) 量子近似最適化アルゴリズム(QAOA)は多項式時間で複雑な組合せ最適化問題を解くことができる。 しかし、現在のノイズ量子デバイスは、ハードウェアの制約により大きな問題を解決できない。 本研究では,QAOAの入力問題グラフを小さな問題に分解し,削減グラフ上でQAOAを用いてMaxCutを解くアルゴリズムを開発した。 アルゴリズムは古典的あるいは量子的なサブルーチンを必要とするが、この作業では各グラフに2回アルゴリズムを実装している。 1つの実装は古典的な解法であるグロビをサブルーチンに使用し、もう1つはQAOAを使用する。 これらの問題をQAOAで解決する。 平均して、削減された問題は、元のMaxCutインスタンスよりも頂点の1/10程度しか必要としない。 さらに、元のMaxCut問題の平均近似比は0.75であり、分解されたグラフの近似比は、グロビとQAOAの両方で平均0.96である。 この分解により、量子化量子コンピュータH1-1上で1層QAOA回路を動作させ、各回路を500回だけサンプリングすることで、10個の100頂点グラフに対する最適解を測定できる。 このアプローチはスパース、特に$k$正則グラフに最も適しており、$n$頂点上の$k$正則グラフは多項式時間で最大$\frac{nk}{k+1}$頂点を持つグラフに分解することができる。 計算時間における潜在的なトレードオフにより、さらなる削減が得られる。 本稿では,MaxCut問題に対して分解法を適用するが,より一般的な組合せ最適化問題に適用できる。

The quantum approximate optimization algorithm (QAOA) has the potential to approximately solve complex combinatorial optimization problems in polynomial time. However, current noisy quantum devices cannot solve large problems due to hardware constraints. In this work, we develop an algorithm that decomposes the QAOA input problem graph into a smaller problem and solves MaxCut using QAOA on the reduced graph. The algorithm requires a subroutine that can be classical or quantum--in this work, we implement the algorithm twice on each graph. One implementation uses the classical solver Gurobi in the subroutine and the other uses QAOA. We solve these reduced problems with QAOA. On average, the reduced problems require only approximately 1/10 of the number of vertices than the original MaxCut instances. Furthermore, the average approximation ratio of the original MaxCut problems is 0.75, while the approximation ratios of the decomposed graphs are on average of 0.96 for both Gurobi and QAOA. With this decomposition, we are able to measure optimal solutions for ten 100-vertex graphs by running single-layer QAOA circuits on the Quantinuum trapped-ion quantum computer H1-1, sampling each circuit only 500 times. This approach is best suited for sparse, particularly $k$-regular graphs, as $k$-regular graphs on $n$ vertices can be decomposed into a graph with at most $\frac{nk}{k+1}$ vertices in polynomial time. Further reductions can be obtained with a potential trade-off in computational time. While this paper applies the decomposition method to the MaxCut problem, it can be applied to more general classes of combinatorial optimization problems.
翻訳日:2023-06-02 17:12:15 公開日:2023-06-01
# 共進化学習を用いた個人戦略に対する金銭的償還の効果

Effect of Monetary Reward on Users' Individual Strategies Using Co-Evolutionary Learning ( http://arxiv.org/abs/2306.00492v1 )

ライセンス: Link先を確認
Shintaro Ueki, Fujio Toriumi and Toshiharu Sugawara(参考訳) ソーシャルネットワーキングサービスのような消費者生成メディア(cgm)は、ユーザーの自発的な活動に頼り、オンラインで受け取ったコメントやレビューを通じて、他の人とつながりのある感情の心理的報酬を得られる。 より多くのユーザーを惹きつけるために、一部のCGMは活動や質の高い記事やコメントを投稿するための金銭報酬(MR)を導入した。 しかし,ユーザの投稿戦略,特に頻度と品質に対するMRの影響は,CGMネットワークの立場の違い,例えば友人数やフォロワー数などを無視した上で,これまでの研究では十分に分析されていない。 本研究の目的は,MRが個人ユーザに与える影響を,ユーザ視点に関する支配的戦略の違いを考慮し検討することである。 CGMのゲーム理論モデルを用いて、マルチワールド遺伝的アルゴリズムを用いて、CGMネットワークのユーザ視点に応じて、様々な現実的な支配戦略が進化していることを示す。

Consumer generated media (CGM), such as social networking services rely on the voluntary activity of users to prosper, garnering the psychological rewards of feeling connected with other people through comments and reviews received online. To attract more users, some CGM have introduced monetary rewards (MR) for posting activity and quality articles and comments. However, the impact of MR on the article posting strategies of users, especially frequency and quality, has not been fully analyzed by previous studies, because they ignored the difference in the standpoint in the CGM networks, such as how many friends/followers they have, although we think that their strategies vary with their standpoints. The purpose of this study is to investigate the impact of MR on individual users by considering the differences in dominant strategies regarding user standpoints. Using the game-theoretic model for CGM, we experimentally show that a variety of realistic dominant strategies are evolved depending on user standpoints in the CGM network, using multiple-world genetic algorithm.
翻訳日:2023-06-02 17:11:44 公開日:2023-06-01
# 音声インパインティング:映像による文脈に基づく音声合成

Speech inpainting: Context-based speech synthesis guided by video ( http://arxiv.org/abs/2306.00489v1 )

ライセンス: Link先を確認
Juan F. Montesinos and Daniel Michelsanti and Gloria Haro and Zheng-Hua Tan and Jesper Jensen(参考訳) 音声と視覚のモダリティは本質的に音声信号と結びついており、唇の動きや表情は音声と相関している。 これは視覚的モダリティを取り入れた研究を動機付け、音響音声信号を強化したり、行方不明の音声情報を復元したりする。 具体的には,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装の問題点に焦点をあてる。 本稿では,破損した音声の内容に関する情報を提供する視覚手がかりを活用した,音声・視覚トランスフォーマーに基づく深層学習モデルを提案する。 これまでの最先端オーディオヴィジュアルモデルとオーディオのみのベースラインを上回ります。 また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。

Audio and visual modalities are inherently connected in speech signals: lip movements and facial expressions are correlated with speech sounds. This motivates studies that incorporate the visual modality to enhance an acoustic speech signal or even restore missing audio information. Specifically, this paper focuses on the problem of audio-visual speech inpainting, which is the task of synthesizing the speech in a corrupted audio segment in a way that it is consistent with the corresponding visual content and the uncorrupted audio context. We present an audio-visual transformer-based deep learning model that leverages visual cues that provide information about the content of the corrupted audio. It outperforms the previous state-of-the-art audio-visual model and audio-only baselines. We also show how visual features extracted with AV-HuBERT, a large audio-visual transformer for speech recognition, are suitable for synthesizing speech.
翻訳日:2023-06-02 17:11:27 公開日:2023-06-01
# 単一スナップショットからのグラフ拡散履歴の再構成

Reconstructing Graph Diffusion History from a Single Snapshot ( http://arxiv.org/abs/2306.00488v1 )

ライセンス: Link先を確認
Ruizhong Qiu, Dingsu Wang, Lei Ying, H. Vincent Poor, Yifang Zhang, Hanghang Tong(参考訳) グラフ上の拡散は、多くのハイインパクト応用でユビキタスである。 これらの応用において、完全な拡散履歴は、動的パターンの同定、予防行動の反映、介入効果の予測において重要な役割を果たす。 その重要性にもかかわらず、完全な拡散履歴はほとんど存在せず、不適切さ、爆発的な探索空間、訓練データの不足などにより、再構築が極めて困難である。 現在まで、拡散履歴復元のための方法はほとんど存在しない。 これらは極大推定(MLE)の定式化のみに基づいており、真の拡散パラメータを知る必要がある。 本稿では,単一のスナップショットから拡散履歴を再構築する(dash)という,より難しい問題について検討する。 まず、MLEの定式化の基本的な限界を明らかにする理論解析から始める。 証明します (a)拡散パラメータの推定誤差は、拡散パラメータ推定のNP硬度により避けられず、 b)mleの定式化は拡散パラメータの推定誤差に敏感である。 本論文はmle定式化の固有の限界を克服するために, 拡散パラメータの推定誤差に対して確実に安定なヒストリの後方分布のバリ中心を求める, 新たなバリ中心定式法を提案する。 さらに,metropolis-hastings markov chain monte carlo method (m--h mcmc) による後進ヒット時間を推定し,教師なしグラフニューラルネットワークを用いてm--h mcmcの収束を加速する最適提案を学習することにより,最適な提案を伴う拡散ヒット時間(ditto)という効率的な解法を開発した。 提案手法の有効性を示すために広範な実験を行った。

Diffusion on graphs is ubiquitous with numerous high-impact applications. In these applications, complete diffusion histories play an essential role in terms of identifying dynamical patterns, reflecting on precaution actions, and forecasting intervention effects. Despite their importance, complete diffusion histories are rarely available and are highly challenging to reconstruct due to ill-posedness, explosive search space, and scarcity of training data. To date, few methods exist for diffusion history reconstruction. They are exclusively based on the maximum likelihood estimation (MLE) formulation and require to know true diffusion parameters. In this paper, we study an even harder problem, namely reconstructing Diffusion history from A single SnapsHot} (DASH), where we seek to reconstruct the history from only the final snapshot without knowing true diffusion parameters. We start with theoretical analyses that reveal a fundamental limitation of the MLE formulation. We prove: (a) estimation error of diffusion parameters is unavoidable due to NP-hardness of diffusion parameter estimation, and (b) the MLE formulation is sensitive to estimation error of diffusion parameters. To overcome the inherent limitation of the MLE formulation, we propose a novel barycenter formulation: finding the barycenter of the posterior distribution of histories, which is provably stable against the estimation error of diffusion parameters. We further develop an effective solver named DIffusion hiTting Times with Optimal proposal (DITTO) by reducing the problem to estimating posterior expected hitting times via the Metropolis--Hastings Markov chain Monte Carlo method (M--H MCMC) and employing an unsupervised graph neural network to learn an optimal proposal to accelerate the convergence of M--H MCMC. We conduct extensive experiments to demonstrate the efficacy of the proposed method.
翻訳日:2023-06-02 17:11:12 公開日:2023-06-01
# パーソナライズシステムにおけるユーザ学習の因果推定

Causal Estimation of User Learning in Personalized Systems ( http://arxiv.org/abs/2306.00485v1 )

ライセンス: Link先を確認
Evan Munro, David Jones, Jennifer Brennan, Roland Nelet, Vahab Mirrokni, Jean Pouget-Abadie(参考訳) オンラインプラットフォームでは、観察結果に対する治療の効果は時間とともに変化する可能性がある 1)ユーザは介入について学び、 2) 個人化勧告等のシステムパーソナライズは時間とともに変化する。 パーソナライズされたシステムにおけるユーザアクションの非パラメトリック因果モデルを導入する。 ユーザ学習効果を測定するために設計されたCookie-Cookie-Day (CCD) 実験は、パーソナライズされると偏りが生じる。 パーソナライゼーションシステムにおいて,ユーザ学習とパーソナライゼーションによって媒介される因果効果を別々に識別するために必要な変動を生成するために介入する新たな実験設計を導出する。 パラメトリックな仮定を行うことで、中期実験に基づく長期的な因果効果の推定が可能になる。 シミュレーションでは,新しい設計が関心の動的因果効果を回復することに成功した。

In online platforms, the impact of a treatment on an observed outcome may change over time as 1) users learn about the intervention, and 2) the system personalization, such as individualized recommendations, change over time. We introduce a non-parametric causal model of user actions in a personalized system. We show that the Cookie-Cookie-Day (CCD) experiment, designed for the measurement of the user learning effect, is biased when there is personalization. We derive new experimental designs that intervene in the personalization system to generate the variation necessary to separately identify the causal effect mediated through user learning and personalization. Making parametric assumptions allows for the estimation of long-term causal effects based on medium-term experiments. In simulations, we show that our new designs successfully recover the dynamic causal effects of interest.
翻訳日:2023-06-02 17:10:42 公開日:2023-06-01
# 低リソーステキストから音声への転送学習における入力型と発音辞書使用の影響

The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-Speech ( http://arxiv.org/abs/2306.00535v1 )

ライセンス: Link先を確認
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers(参考訳) 低音源言語(LRL)用テキスト音声(TTS)における音声ラベルと音声特徴を言語間変換学習の入力として比較する。 FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。 発音辞書のないLRLに対しては,2つの新しいアプローチを提案する。 a) 大規模な多言語モデルを用いて、訓練と合成の両方において、グラファイム・トゥ・フォン(G2P)を変換し、 b) 万能電話認識器を使用して,仮設辞書を作成すること。 結果から,G2Pアプローチは,G2Pアプローチに適さないLRLの選択肢として,グランドトラス辞書や音声認識アプローチとほぼ同等であることがわかった。 それぞれのアプローチにおいて、音声特徴を音声ラベルを用いた入力出力として用いる。

We compare phone labels and articulatory features as input for cross-lingual transfer learning in text-to-speech (TTS) for low-resource languages (LRLs). Experiments with FastSpeech 2 and the LRL West Frisian show that using articulatory features outperformed using phone labels in both intelligibility and naturalness. For LRLs without pronunciation dictionaries, we propose two novel approaches: a) using a massively multilingual model to convert grapheme-to-phone (G2P) in both training and synthesizing, and b) using a universal phone recognizer to create a makeshift dictionary. Results show that the G2P approach performs largely on par with using a ground-truth dictionary and the phone recognition approach, while performing generally worse, remains a viable option for LRLs less suitable for the G2P approach. Within each approach, using articulatory features as input outperforms using phone labels.
翻訳日:2023-06-02 17:04:48 公開日:2023-06-01
# ハイブリッド遺伝的アルゴリズムを用いた無容量検査タイムタリング問題の解法

Some Experiences with Hybrid Genetic Algorithms in Solving the Uncapacitated Examination Timetabling Problem ( http://arxiv.org/abs/2306.00534v1 )

ライセンス: Link先を確認
Ayse Aslan(参考訳) 本稿では,2つの局所探索ハイブリッド化遺伝的アルゴリズムを用いて,非容量化試験時間問題の解法について実験を行った。 提案する2つのハイブリッドアルゴリズムは,グラフカラー化とプロジェクトスケジューリング問題にそれぞれ提案する遺伝的アルゴリズムに着想を得た分割と優先度に基づく解表現を用いる。 アルゴリズムはパラメータ化飽和度ヒューリスティックハイブリッド化クロスオーバー方式を用いる。 実験では、まずアルゴリズムをDesign of Experimentsアプローチで校正し、よく知られたトロントのベンチマークインスタンスでテストする。 校正の結果, ハイブリダイゼーションは集中的な局所探索法を好むことがわかった。 提案した遺伝的アルゴリズムにおける局所探索の重要性を示す実験は,ハイブリッド化が局所探索にも有効であることを示す。 興味深いことに、2つのアルゴリズムの構造は似ていないが、それらの性能は、文献で提案された他の最先端の遺伝的型アルゴリズムと非常に似ている。

This paper provides experimental experiences on two local search hybridized genetic algorithms in solving the uncapacitated examination timetabling problem. The proposed two hybrid algorithms use partition and priority based solution representations which are inspired from successful genetic algorithms proposed for graph coloring and project scheduling problems, respectively. The algorithms use a parametrized saturation degree heuristic hybridized crossover scheme. In the experiments, the algorithms firstly are calibrated with a Design of Experiments approach and then tested on the well-known Toronto benchmark instances. The calibration shows that the hybridization prefers an intensive local search method. The experiments indicate the vitality of local search in the proposed genetic algorithms, however, experiments also show that the hybridization benefits local search as well. Interestingly, although the structures of the two algorithms are not alike, their performances are quite similar to each other and also to other state-of-the-art genetic-type algorithms proposed in the literature.
翻訳日:2023-06-02 17:04:31 公開日:2023-06-01
# 極端スピンコヒーレンスの正規直交基底

Orthonormal bases of extreme spin coherence ( http://arxiv.org/abs/2306.00532v1 )

ライセンス: Link先を確認
Marcin Rudzi\'nski, Adam Burchardt, Karol \.Zyczkowski(参考訳) スピン反コヒーレント状態は最近最も「量子」状態として多くの注目を集めた。 いくつかのコヒーレントおよび反コヒーレントスピン状態は最適量子ロトセンサーとして知られている。 本研究では, 正則基底に対するスピンコヒーレンスの測定を行い, 個々のベクトルの平均反コヒーレンスによって決定され, 極端コヒーレンスを直交的に測定する最も高次かつ最小のコヒーレンス基底を同定する。 それらの対称性は、球面上の点による純粋状態の直感的な幾何学的表現を提供するマヨラナ星表象を用いて明らかにすることができる。 その結果、(2j$ qubits からなる多成分系の量子状態の 2^{2j}$ 次元空間の 2j+1 次元対称部分空間における最大(最小)絡み合った基底が導かれる。

Spin anticoherent states acquired recently a lot of attention as the most "quantum" states. Some coherent and anticoherent spin states are known as optimal quantum rotosensors. In this work we introduce a measure of spin coherence for orthonormal bases, determined by the average anticoherence of individual vectors, and identify the most and the least coherent bases which lead to orthogonal measurements of extreme coherence. Their symmetries can be revealed using the Majorana stellar representation, which provides an intuitive geometrical representation of a pure state by points on a sphere. Results obtained lead to maximally (minimally) entangled bases in the $2j+1$ dimensional symmetric subspace of the $2^{2j}$ dimensional space of quantum states of multipartite systems composed of $2j$ qubits.
翻訳日:2023-06-02 17:04:17 公開日:2023-06-01
# コントラスト学習MRI再構成

Contrastive Learning MRI Reconstruction ( http://arxiv.org/abs/2306.00530v1 )

ライセンス: Link先を確認
Mevan Ekanayake, Zhifeng Chen, Gary Egan, Mehrtash Harandi, and Zhaolin Chen(参考訳) 目的: 部分的取得スキャンを有するMRIデータセットに対して, 新たなコントラスト学習潜在空間表現を提案する。 我々は,この潜伏空間を高速MR画像再構成に利用できることを示す。 理論と方法:我々の新しいフレームワークであるCOLADA(Contrastive Learning for HighAcceled MR画像再構成のためのコントラスト学習)は、自己教師付きコントラスト学習を用いて、MRIスキャンの異なる加速画像間の相互情報を最大化する。 言い換えれば、同じスキャンの潜在表現を一緒に“プル”し、他のスキャンの潜在表現を“プッシュ”しようとするのです。 生成したMRI潜時空間をMR画像再構成に利用し,複数のベースライン深層学習再構成法と比較して評価を行った。 さらに,提案する潜在空間表現の品質をアライメントと一様性を用いて解析した。 結果: コラダは推定中のk空間におけるアンダーサンプリングパターン,病理異常,ノイズの変化に頑健な他の再構成法を包括的に上回った。 COLADAは、最小限の微調整で見えないデータに対して、高い品質の再構築を証明した。 表現品質の分析から,COLADAが生成するコントラスト特徴が潜在空間に最適分布していることが示唆された。 結論:我々の知る限りでは,mr画像再構成に異なる加速度画像を用いたコントラスト学習を利用する最初の試みである。 提案した潜在空間表現は、既存の部分サンプルデータセットが多数存在するため、実用的利用が可能である。 このことは、画像再構成のためのMRIの潜在空間を強化するために、自己教師付きコントラスト学習をさらに探求する可能性を示している。

Purpose: We propose a novel contrastive learning latent space representation for MRI datasets with partially acquired scans. We show that this latent space can be utilized for accelerated MR image reconstruction. Theory and Methods: Our novel framework, referred to as COLADA (stands for Contrastive Learning for highly accelerated MR image reconstruction), maximizes the mutual information between differently accelerated images of an MRI scan by using self-supervised contrastive learning. In other words, it attempts to "pull" the latent representations of the same scan together and "push" the latent representations of other scans away. The generated MRI latent space is subsequently utilized for MR image reconstruction and the performance was assessed in comparison to several baseline deep learning reconstruction methods. Furthermore, the quality of the proposed latent space representation was analyzed using Alignment and Uniformity. Results: COLADA comprehensively outperformed other reconstruction methods with robustness to variations in undersampling patterns, pathological abnormalities, and noise in k-space during inference. COLADA proved the high quality of reconstruction on unseen data with minimal fine-tuning. The analysis of representation quality suggests that the contrastive features produced by COLADA are optimally distributed in latent space. Conclusion: To the best of our knowledge, this is the first attempt to utilize contrastive learning on differently accelerated images for MR image reconstruction. The proposed latent space representation has practical usage due to a large number of existing partially sampled datasets. This implies the possibility of exploring self-supervised contrastive learning further to enhance the latent space of MRI for image reconstruction.
翻訳日:2023-06-02 17:04:01 公開日:2023-06-01
# 深層学習を用いた神経細胞型分類

Neuronal Cell Type Classification using Deep Learning ( http://arxiv.org/abs/2306.00528v1 )

ライセンス: Link先を確認
Ofek Ophir, Orit Shefi, Ofir Lindenbaum(参考訳) 脳はおそらく最も複雑な器官であり、制御するさまざまな機能、構成する細胞の数、それに対応する多様性を考慮に入れている。 脳の主要な構成要素である神経細胞の研究と同定は、健康と病気の脳機能を理解する上で重要なマイルストーンである。 近年の機械学習は、ニューロンを分類する高度な能力を提供している。 しかし、これらの手法は説明可能性や推論のないブラックボックスのままである。 本研究の目的は,ニューロンを電気生理学的活動に基づいて分類する,堅牢で説明可能なディープラーニングフレームワークを提供することである。 本研究は,マウスとヒトの単細胞記録から得られた生物学的特徴を網羅したアレン細胞型データベースを用いて解析を行った。 まず,マウスの神経細胞の種類を分類し,興奮性および抑制性ニューロンを同定する。 次に、ニューロンはマウスのデータから領域適応を用いて、ヒトの幅広いタイプに分類される。 最後に、ディープニューラルネットワークを用いて、トランスジェニックマウスの系統に基づくサブタイプに分類される。 興奮性ニューロンと抑制性ニューロンのデンドライト型分類とトランスジェニックマウス系統分類における最先端の結果を示す。 このモデルは本質的に解釈可能であり、神経型と電気生理学的性質の相関関係を明らかにする。

The brain is likely the most complex organ, given the variety of functions it controls, the number of cells it comprises, and their corresponding diversity. Studying and identifying neurons, the brain's primary building blocks, is a crucial milestone and essential for understanding brain function in health and disease. Recent developments in machine learning have provided advanced abilities for classifying neurons. However, these methods remain black boxes with no explainability and reasoning. This paper aims to provide a robust and explainable deep-learning framework to classify neurons based on their electrophysiological activity. Our analysis is performed on data provided by the Allen Cell Types database containing a survey of biological features derived from single-cell recordings of mice and humans. First, we classify neuronal cell types of mice data to identify excitatory and inhibitory neurons. Then, neurons are categorized to their broad types in humans using domain adaptation from mice data. Lastly, neurons are classified into sub-types based on transgenic mouse lines using deep neural networks in an explainable fashion. We show state-of-the-art results in a dendrite-type classification of excitatory vs. inhibitory neurons and transgenic mouse lines classification. The model is also inherently interpretable, revealing the correlations between neuronal types and their electrophysiological properties.
翻訳日:2023-06-02 17:03:36 公開日:2023-06-01
# ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering ( http://arxiv.org/abs/2306.00526v1 )

ライセンス: Link先を確認
Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang(参考訳) レイアウト対応マルチモーダル事前学習モデルに基づく事前学習・微調整パラダイムは,文書画像質問応答において大きな進歩を遂げた。 しかし、追加のビジュアル、レイアウト、タスクモジュールのためのドメイン事前トレーニングとタスクの微調整は、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接活用することを妨げる。 文書画像質問応答の領域に言語モデルを整合させるのとは対照的に,ゼロショット機能を利用するために,シェルから外れた命令チューニング言語基礎モデルに文書画像質問応答を整合させる。 具体的には、レイアウト対応文書の内容とタスク対応記述からなるLATIN-Promptと呼ばれるレイアウトおよびタスク対応命令プロンプトを提案する。 前者は、OCRツールからテキストセグメント間のレイアウト情報を適切なスペースと線分で復元する。 後者は、タスクの詳細な記述を通じて、モデルが要求、特にフォーマット要求を満たす回答を生成することを保証します。 3つのベンチマークによる実験結果から,LATIN-Promptは文書画像質問応答に基づく命令調整言語基礎モデルのゼロショット性能を改善し,事前学習学習パラダイムに基づくSOTAに匹敵するレベルを達成できることが示されている。 定量的解析と質的分析により,ラテン・プロンプトの有効性が示された。 補助的なコードを提供し、将来の研究を促進するためのコードをリリースします。

The pre-training-fine-tuning paradigm based on layout-aware multimodal pre-trained models has achieved significant progress on document image question answering. However, domain pre-training and task fine-tuning for additional visual, layout, and task modules prevent them from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Contrary to aligning language models to the domain of document image question answering, we align document image question answering to off-the-shell instruction-tuning language foundation models to utilize their zero-shot capability. Specifically, we propose layout and task aware instruction prompt called LATIN-Prompt, which consists of layout-aware document content and task-aware descriptions. The former recovers the layout information among text segments from OCR tools by appropriate spaces and line breaks. The latter ensures that the model generates answers that meet the requirements, especially format requirements, through a detailed description of task. Experimental results on three benchmarks show that LATIN-Prompt can improve the zero-shot performance of instruction-tuning language foundation models on document image question answering and help them achieve comparable levels to SOTAs based on the pre-training-fine-tuning paradigm. Quantitative analysis and qualitative analysis demonstrate the effectiveness of LATIN-Prompt. We provide the code in supplementary and will release the code to facilitate future research.
翻訳日:2023-06-02 17:03:20 公開日:2023-06-01
# 半構造化ネットワークの性能向上のための新しいPHOルムラ

A New PHO-rmula for Improved Performance of Semi-Structured Networks ( http://arxiv.org/abs/2306.00522v1 )

ライセンス: Link先を確認
David R\"ugamer(参考訳) 構造化回帰モデルとディープニューラルネットワークを組み合わせる最近の進歩は、より解釈性、表現性、統計的に妥当な不確実性定量化により、半構造化ニューラルネットワーク(SSN)の汎用性を示している。 ssn における異なるモデルコンポーネントの寄与を適切に同定する手法が,ネットワークのサブオプティカルな推定や収束の遅さ,デジェネレーションや誤った予測に繋がることを示す。 モデル特性を良好に保ちながらこれらの問題を解決するために,モデル成分の識別性を保証し,より優れた推定と予測品質を提供する非侵襲的ポストホック直交化(PHO)を提案する。 我々の理論的な知見は、数値実験、ベンチマーク比較、およびCOVID-19感染症に対する現実の応用によって裏付けられている。

Recent advances to combine structured regression models and deep neural networks for better interpretability, more expressiveness, and statistically valid uncertainty quantification demonstrate the versatility of semi-structured neural networks (SSNs). We show that techniques to properly identify the contributions of the different model components in SSNs, however, lead to suboptimal network estimation, slower convergence, and degenerated or erroneous predictions. In order to solve these problems while preserving favorable model properties, we propose a non-invasive post-hoc orthogonalization (PHO) that guarantees identifiability of model components and provides better estimation and prediction quality. Our theoretical findings are supported by numerical experiments, a benchmark comparison as well as a real-world application to COVID-19 infections.
翻訳日:2023-06-02 17:02:55 公開日:2023-06-01
# 仮面前訓練と限界可能性について

On Masked Pre-training and the Marginal Likelihood ( http://arxiv.org/abs/2306.00520v1 )

ライセンス: Link先を確認
Pablo Moreno-Mu\~noz, Pol G. Recasens and S{\o}ren Hauberg(参考訳) masked pre-trainingはランダムな入力次元を取り除き、欠落した値を予測できるモデルを学ぶ。 実証的な結果は、この直感的な自己教師付き学習形式は、新しいドメインに非常によく一般化するモデルをもたらすことを示している。 しかし、理論的な理解は欠如している。 本稿では,適切な累積スコアリング関数を持つマスキング事前学習は,ベイズモデルの一般化選択尺度のデファクトであるモデルの限界確率を最大化することに対応していることを示す。 この洞察は、仮面トレーニングの成功に光を当てるだけでなく、ベイズモデルが適切な設計の自己スーパービジョンで訓練できることも示唆している。 経験的に開発した理論を確認し,大規模言語モデルにおけるマスキング事前学習の主な学習原理を探究する。

Masked pre-training removes random input dimensions and learns a model that can predict the missing values. Empirical results indicate that this intuitive form of self-supervised learning yields models that generalize very well to new domains. A theoretical understanding is, however, lacking. This paper shows that masked pre-training with a suitable cumulative scoring function corresponds to maximizing the model's marginal likelihood, which is de facto the Bayesian model selection measure of generalization. Beyond shedding light on the success of masked pre-training, this insight also suggests that Bayesian models can be trained with appropriately designed self-supervision. Empirically, we confirm the developed theory and explore the main learning principles of masked pre-training in large language models.
翻訳日:2023-06-02 17:02:41 公開日:2023-06-01
# DiffRoom:拡散型高品位3次元部屋の再構築と生成

DiffRoom: Diffusion-based High-Quality 3D Room Reconstruction and Generation ( http://arxiv.org/abs/2306.00519v1 )

ライセンス: Link先を確認
Xiaoliang Ju, Zhaoyang Huang, Yijin Li, Guofeng Zhang, Yu Qiao, Hongsheng Li(参考訳) DiffRoomは,室内形状の複雑さと多様性のために,高品質な3次元室内再現・生成の課題に対処するための新しいフレームワークである。 拡散型生成モデルは画像生成やオブジェクトレベルの3D生成において,これまでは顕著な性能を示してきたが,計算集約コストのため,まだ部屋レベルの3D生成には適用されていない。 本稿では,tsdf(truncated signed distance field)の効率的な生成性能を有する分散3次元拡散ネットワークを提案する。 kinectfusionのインクリメンタルアライメントと局所sdfの融合に触発されて,tsdfを反復的に拡散・融合し,室内環境全体の再構築と生成を容易にする拡散ベースのtsdf融合手法を提案する。 さらに, 学習の容易化を目的として, 学習収束プロセスを高速化し, 高品質な再構築を可能にするカリキュラム拡散学習パラダイムを提案する。 ユーザ調査によると、DiffRoomが生成するメッシュの品質は、ScanNetが提供する地上の真理メッシュよりも優れています。

We present DiffRoom, a novel framework for tackling the problem of high-quality 3D indoor room reconstruction and generation, both of which are challenging due to the complexity and diversity of the room geometry. Although diffusion-based generative models have previously demonstrated impressive performance in image generation and object-level 3D generation, they have not yet been applied to room-level 3D generation due to their computationally intensive costs. In DiffRoom, we propose a sparse 3D diffusion network that is efficient and possesses strong generative performance for Truncated Signed Distance Field (TSDF), based on a rough occupancy prior. Inspired by KinectFusion's incremental alignment and fusion of local SDFs, we propose a diffusion-based TSDF fusion approach that iteratively diffuses and fuses TSDFs, facilitating the reconstruction and generation of an entire room environment. Additionally, to ease training, we introduce a curriculum diffusion learning paradigm that speeds up the training convergence process and enables high-quality reconstruction. According to the user study, the mesh quality generated by our DiffRoom can even outperform the ground truth mesh provided by ScanNet.
翻訳日:2023-06-02 17:02:28 公開日:2023-06-01
# 多成分グラウバーコヒーレント状態による偶数および奇数のコヒーレント状態の双方向量子テレポーテーション:理論と実装

Bidirectional quantum teleportation of even and odd coherent states through the multipartite Glauber coherent state: Theory and implementation ( http://arxiv.org/abs/2306.00505v1 )

ライセンス: Link先を確認
Nada Ikken, Abdallah Slaoui, Rachid Ahl Laamara and Lalla Btissam Drissi(参考訳) 量子テレポーテーションは量子技術の基本構成要素となり、量子通信ネットワークの発展において重要な役割を果たしている。 ここでは、偶数および奇数のコヒーレントな状態が2方向の任意の距離で伝送および再構成できる双方向量子テレポーテーション(BQT)プロトコルを提案する。 この目的のために、グリーンベルガー・ホーネ・ザイリンガー状態とグラウンド状態とワーナー状態からなる多部式グラウバーコヒーレント状態を用いて、遠いパートナーであるアリスとボブを繋ぐ量子資源とする。 対称および反対称多部共役状態に存在する対の絡み合いを探索し、様々な種類の量子チャネルを構成するプローブの重なり合いと数の制御により、両方向のテレポーテーション効率を最大化することができる。 さらに、アリスとボブのトリガーフェーズは、量子フィッシャー情報 (QFI) とヒルベルト・シュミット速度 (HSS) と呼ばれる2種類の量子統計速度を用いて、我々のプロトコルにおけるそれらの役割を探求する。 具体的には,QFI と HSS で定量化された統計的推定誤差の下位境界は Alice から Bob への最も忠実度が高く,Bob から Alice への反比例であり,事前共有された量子チャネルの選択は高い BQT 効率を達成する上で重要な役割を果たすことを示す。 最後に、現在の実験ツールで提案されたスキームの実装方法を示し、Aliceは自身の一貫性のある状態をBobに移すことができ、同時にBobは奇妙なコヒーレントな状態をAliceに移すことができる。

Quantum teleportation has become a fundamental building block of quantum technologies, playing a vital role in the development of quantum communication networks. Here, we present a bidirectional quantum teleportation (BQT) protocol that enables even and odd coherent states to be transmitted and reconstructed over arbitrary distances in two directions. To this end, we employ the multipartite Glauber coherent state, comprising the Greenberger-Horne-Zeilinger, ground and Werner states, as a quantum resource linking distant partners Alice and Bob. The pairwise entanglement existing in symmetric and antisymmetric multipartite coherent states is explored, and by controlling the overlap and number of probes constructing various types of quantum channels, the teleportation efficiency of teleported states in both directions may be maximized. Besides, Alice's and Bob's trigger phases are estimated to explore their roles in our protocol using two kinds of quantum statistical speed referred to as quantum Fisher information (QFI) and Hilbert-Schmidt speed (HSS). Specifically, we show that the lower bound of the statistical estimation error, quantified by QFI and HSS, corresponds to the highest fidelity from Alice to Bob and conversely from Bob to Alice, and that the choice of the pre-shared quantum channel has a critical role in achieving high BQT efficiency. Finally, we show how to implement the suggested scheme on current experimental tools, where Alice can transfer her even coherent state to Bob, and at the same time, Bob can transfer his odd coherent state to Alice.
翻訳日:2023-06-02 17:02:07 公開日:2023-06-01
# sharp: 形状規則化された多次元射影

ShaRP: Shape-Regularized Multidimensional Projections ( http://arxiv.org/abs/2306.00554v1 )

ライセンス: Link先を確認
Alister Machado and Alexandru Telea and Michael Behrisch(参考訳) プロジェクション(英: Projections)は、高次元データの視覚的探索に適した手法である。 このような技法は数多く存在し、それぞれ異なる視覚的なシグネチャを持っている。 このようなシグネチャはアルゴリズム設計の暗黙的な結果であり、ローカルデータとグローバルデータパターンの保存、最適化技術、ハイパーパラメータの設定などに焦点を当てている。 我々は新しい投影手法であるsharpを提案する。これは、ユーザーが生成したscatterplotの視覚的なシグネチャを明示的に制御し、よりインタラクティブな視覚化シナリオに役立てることができる。 ShaRPは次元とデータセットサイズによく対応し、あらゆる定量的データセットを汎用的に処理し、品質指標の観点から小さなユーザ制御可能なコストでプロジェクション形状を制御するこの拡張機能を提供する。

Projections, or dimensionality reduction methods, are techniques of choice for the visual exploration of high-dimensional data. Many such techniques exist, each one of them having a distinct visual signature - i.e., a recognizable way to arrange points in the resulting scatterplot. Such signatures are implicit consequences of algorithm design, such as whether the method focuses on local vs global data pattern preservation; optimization techniques; and hyperparameter settings. We present a novel projection technique - ShaRP - that provides users explicit control over the visual signature of the created scatterplot, which can cater better to interactive visualization scenarios. ShaRP scales well with dimensionality and dataset size, generically handles any quantitative dataset, and provides this extended functionality of controlling projection shapes at a small, user-controllable cost in terms of quality metrics.
翻訳日:2023-06-02 16:55:40 公開日:2023-06-01
# 局所幾何駆動距離計測による3次元点クラウドモデリングの可能性の解明

Unleash the Potential of 3D Point Cloud Modeling with A Calibrated Local Geometry-driven Distance Metric ( http://arxiv.org/abs/2306.00552v1 )

ライセンス: Link先を確認
Siyu Ren and Junhui Hou(参考訳) 2つの非構造的な3次元点雲の相似性を定量化することは難しい課題であり、既存の測定基準は、しばしば非効率または非効率な対応する点間の距離を測定することに依存する。 本稿では,基準点の集合によってキャリブレーションおよび誘導される基礎となる3次元表面の差を計算する,Callibrated Local Geometry Distance (CLGD) と呼ばれる新しい距離測定法を提案する。 各基準点を2つの所定の点雲に関連付けることにより、その方向距離を計算し、同一基準点の方向距離の違いは、2つの点雲の典型的な局所領域間の幾何学的差を特徴付ける。 最後に、すべての基準点の方向距離差を平均してclgdを得る。 形状復元,剛性登録,シーンフロー推定,特徴表現など,様々な最適化と教師なし学習に基づくタスクについてclgdを評価した。 大規模な実験により、CLGDは既存のメトリクスと比較して、メモリ上の全てのタスクにおいて大幅に精度が高く、計算的に効率的であることが示されている。 一般的な指標として、CLGDは3Dポイントのクラウドモデリングを前進させる可能性がある。 ソースコードはhttps://github.com/rsy6318/CLGDで公開されている。

Quantifying the dissimilarity between two unstructured 3D point clouds is a challenging task, with existing metrics often relying on measuring the distance between corresponding points that can be either inefficient or ineffective. In this paper, we propose a novel distance metric called Calibrated Local Geometry Distance (CLGD), which computes the difference between the underlying 3D surfaces calibrated and induced by a set of reference points. By associating each reference point with two given point clouds through computing its directional distances to them, the difference in directional distances of an identical reference point characterizes the geometric difference between a typical local region of the two point clouds. Finally, CLGD is obtained by averaging the directional distance differences of all reference points. We evaluate CLGD on various optimization and unsupervised learning-based tasks, including shape reconstruction, rigid registration, scene flow estimation, and feature representation. Extensive experiments show that CLGD achieves significantly higher accuracy under all tasks in a memory and computationally efficient manner, compared with existing metrics. As a generic metric, CLGD has the potential to advance 3D point cloud modeling. The source code is publicly available at https://github.com/rsy6318/CLGD.
翻訳日:2023-06-02 16:55:24 公開日:2023-06-01
# ChatGPTによるeTextbookのプログラミングの強化

Enhancing Programming eTextbooks with ChatGPT Generated Counterfactual-Thinking-Inspired Questions ( http://arxiv.org/abs/2306.00551v1 )

ライセンス: Link先を確認
Arun Balajiee Lekshmi Narayanan, Rully Agus Hendrawan, Venktesh V(参考訳) デジタル教科書は日常学習タスクの不可欠な部分となっている。 本稿では,プログラミング授業におけるデジタル教科書の利用について考察する。 一般的に、学生はプログラミングの教科書を最大限活用することに苦慮しており、これらの教科書に概念の例示として提供されるプログラムは、学生に十分な対話性を提供していないため、プログラミングの例を探求したり理解したりするのに十分なモチベーションが得られていないためと考えられる。 本研究では,'counterfactual'の質問を用いて,知的教科書のナビゲータビリティを向上し,学生にこれらのプログラムを批判的に考えるようにし,プログラム理解の促進を図る。 反事実的思考を学生に教える以前の研究から着想を得て,GPTを用いた質問によるデジタル教科書の強化の可能性を示す。

Digital textbooks have become an integral part of everyday learning tasks. In this work, we consider the use of digital textbooks for programming classes. Generally, students struggle with utilizing textbooks on programming to the maximum, with a possible reason being that the example programs provided as illustration of concepts in these textbooks don't offer sufficient interactivity for students, and thereby not sufficiently motivating to explore or understand these programming examples better. In our work, we explore the idea of enhancing the navigability of intelligent textbooks with the use of ``counterfactual'' questions, to make students think critically about these programs and enhance possible program comprehension. Inspired from previous works on nudging students on counter factual thinking, we present the possibility to enhance digital textbooks with questions generated using GPT.
翻訳日:2023-06-02 16:54:49 公開日:2023-06-01
# ストリーミングバッチ下での鎖-of-Thoughtのプロンプト:ケーススタディ

Chain-Of-Thought Prompting Under Streaming Batch: A Case Study ( http://arxiv.org/abs/2306.00550v1 )

ライセンス: Link先を確認
Yuxin Tang(参考訳) 近年,大規模言語モデル(llm)が注目されている。 CoT(Chain-of-Thought)は、複雑な推論を行う上でLLMを支援する方法として提案されている。 しかし、効果的なプロンプトの開発は困難で労働集約的な作業である。 多くの研究がテストデータからCoTを自動的に構築する方法から生まれています。 その多くは、テスト前にすべてのテストデータが可視であると仮定し、理性を生成するために小さなサブセットだけを選択します。 本稿では,ストリーミング設定におけるバッチデータを用いたチェーン・オブ・シークレット・プロンプトの構築と最適化を行うケーススタディを提案する。

Recently, Large Language Models (LLMs) have demonstrated remarkable capabilities. Chain-of-Thought (CoT) has been proposed as a way of assisting LLMs in performing complex reasoning. However, developing effective prompts can be a challenging and labor-intensive task. Many studies come out of some way to automatically construct CoT from test data. Most of them assume that all test data is visible before testing and only select a small subset to generate rationales, which is an unrealistic assumption. In this paper, we present a case study on how to construct and optimize chain-of-thought prompting using batch data in streaming settings.
翻訳日:2023-06-02 16:54:24 公開日:2023-06-01
# 3次元エピモード定量位相イメージングと仮想H&E染色を用いたラベルフリー組織組織学

Label- and slide-free tissue histology using 3D epi-mode quantitative phase imaging and virtual H&E staining ( http://arxiv.org/abs/2306.00548v1 )

ライセンス: Link先を確認
Tanishq Mathew Abraham, Paloma Casteleiro Costa, Caroline Filan, Zhe Guang, Zhaobin Zhang, Stewart Neill, Jeffrey J. Olson, Richard Levenson, Francisco E. Robles(参考訳) 組織生検、特にヘマトキシリンおよびエオシン(h&e)染色の組織学的染色は、疾患の診断と組織包括的臨床評価の基準となる。 しかし、このプロセスは手間がかかり、時間を要するため、外科的マージン評価などの重要な応用での使用を制限することがしばしばある。 これらの課題に対処するために、我々は、定量的斜め後方照明顕微鏡(qOBM)と呼ばれる新しい3D定量的位相イメージング技術と、教師なしの逆向きネットワークパイプラインを組み合わせることで、未修飾厚組織(ラベルやスライドフリー)のqOBM位相画像を仮想染色H&E様(vH&E)画像にマッピングする。 本手法は,マウス肝,ラット糸球体,およびヒトグリオーマの組織標本を用いて,h&eへの高忠実度変換を実現することを実証する。 また,このフレームワークは,H&Eライクなコントラストなどの付加機能を直接有効化できることを示す。 vH&E画像の品質と忠実度は、実際のH&E画像で訓練され、仮想H&E画像でテストされたニューラルネットワーク分類器と、神経病理学者によるユーザスタディの両方を用いて検証される。 シンプルで低コストでリアルタイムでフィードバックを提供する能力と、この深層学習可能なqOBMアプローチは、がんスクリーニング、検出、治療指導などにおける時間、労力、コストを大幅に節約する可能性を秘めている。

Histological staining of tissue biopsies, especially hematoxylin and eosin (H&E) staining, serves as the benchmark for disease diagnosis and comprehensive clinical assessment of tissue. However, the process is laborious and time-consuming, often limiting its usage in crucial applications such as surgical margin assessment. To address these challenges, we combine an emerging 3D quantitative phase imaging technology, termed quantitative oblique back illumination microscopy (qOBM), with an unsupervised generative adversarial network pipeline to map qOBM phase images of unaltered thick tissues (i.e., label- and slide-free) to virtually stained H&E-like (vH&E) images. We demonstrate that the approach achieves high-fidelity conversions to H&E with subcellular detail using fresh tissue specimens from mouse liver, rat gliosarcoma, and human gliomas. We also show that the framework directly enables additional capabilities such as H&E-like contrast for volumetric imaging. The quality and fidelity of the vH&E images are validated using both a neural network classifier trained on real H&E images and tested on virtual H&E images, and a user study with neuropathologists. Given its simple and low-cost embodiment and ability to provide real-time feedback in vivo, this deep learning-enabled qOBM approach could enable new workflows for histopathology with the potential to significantly save time, labor, and costs in cancer screening, detection, treatment guidance, and more.
翻訳日:2023-06-02 16:54:09 公開日:2023-06-01
# AvatarStudio:3次元動的頭部アバターのテキスト駆動編集

AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars ( http://arxiv.org/abs/2306.00547v1 )

ライセンス: Link先を確認
Mohit Mendiratta. Xingang Pan, Mohamed Elgharib, Kartik Teotia, Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt(参考訳) フルヘッドパフォーマンスのキャプチャと編集により、拡張現実やメディアプロダクションなど、さまざまなアプリケーションで仮想文字を作成することができる。 過去数年間、人間の頭部アバターの光現実主義の急激な上昇を目撃した。 このようなアバターは、RGB、オーディオ、ディープ、IMUなど、さまざまな入力データモダリティによって制御できる。 これらのデータモダリティは効果的な制御手段を提供するが、主に表情、頭部ポーズ、カメラ視点などの頭部の動きの編集に焦点を当てている。 本稿では,動的な頭部アバターの出現を編集するためのテキストベース手法であるアバタースタディオを提案する。 提案手法は,ニューラルラジアンス場(NeRF)を用いて人間の頭部の動的性能を捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。 具体的には,映像性能の異なるカメラ視点とタイムスタンプを表現する複数のキーフレームを単一拡散モデルに組み込む最適化戦略を提案する。 このパーソナライズされた拡散モデルを用いて,vt-sds(view-and-time-aware score distillation sampling)を導入した。 提案手法は,全頭部を標準空間で編集し,これらの編集を事前学習した変形ネットワークを介して残時間ステップに伝達する。 提案手法をユーザ調査により視覚的および数値的に評価し,既存の手法に勝ることを示す。 実験では,本手法の設計選択を検証し,編集が本物でパーソナライズされ,パーソナライズされ,かつ3Dおよび時間一貫性があることを示す。

Capturing and editing full head performances enables the creation of virtual characters with various applications such as extended reality and media production. The past few years witnessed a steep rise in the photorealism of human head avatars. Such avatars can be controlled through different input data modalities, including RGB, audio, depth, IMUs and others. While these data modalities provide effective means of control, they mostly focus on editing the head movements such as the facial expressions, head pose and/or camera viewpoint. In this paper, we propose AvatarStudio, a text-based method for editing the appearance of a dynamic full head avatar. Our approach builds on existing work to capture dynamic performances of human heads using neural radiance field (NeRF) and edits this representation with a text-to-image diffusion model. Specifically, we introduce an optimization strategy for incorporating multiple keyframes representing different camera viewpoints and time stamps of a video performance into a single diffusion model. Using this personalized diffusion model, we edit the dynamic NeRF by introducing view-and-time-aware Score Distillation Sampling (VT-SDS) following a model-based guidance approach. Our method edits the full head in a canonical space, and then propagates these edits to remaining time steps via a pretrained deformation network. We evaluate our method visually and numerically via a user study, and results show that our method outperforms existing approaches. Our experiments validate the design choices of our method and highlight that our edits are genuine, personalized, as well as 3D- and time-consistent.
翻訳日:2023-06-02 16:53:21 公開日:2023-06-01
# マスク画像モデリングによる自己教師付き学習フレームワークに基づく新しいドライバ抽出行動検出

A Novel Driver Distraction Behavior Detection Based on Self-Supervised Learning Framework with Masked Image Modeling ( http://arxiv.org/abs/2306.00543v1 )

ライセンス: Link先を確認
Yingzhi Zhang, Taiguo Li, Chao Li and Xinghong Zhou(参考訳) ドライバーの気晴らしは毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。 現在、商用車両の自動化のレベルは完全に無人ではなく、ドライバーは依然として車両の操作と制御において重要な役割を担っている。 そのため,道路安全には運転者の注意散らし行動検出が不可欠である。 現在、ドライバーの注意散逸検出は主に従来の畳み込みニューラルネットワーク(cnn)と教師付き学習方法に依存している。 しかし、ラベル付きデータセットの高コスト、高レベルのセマンティック情報をキャプチャする能力の制限、一般化性能の低下など、依然として課題がある。 そこで本研究では,ドライバの注意散逸行動検出のためのマスク画像モデルに基づく自己教師付き学習手法を提案する。 まず,マスク付き画像モデリング(MIM)のための自己教師型学習フレームワークを導入し,データセットのラベル付けによる人的・物質的消費の問題を解決する。 次に、Swin Transformerがエンコーダとして使用される。 Swin Transformerブロックを再構成し、ウィンドウマルチヘッド自己アテンション(W-MSA)とシフトウィンドウマルチヘッド自己アテンション(SW-MSA)検出ヘッドの分布を全ステージにわたって調整することで、より軽量化を実現する。 最後に、モデルの認識と一般化能力を強化するために、様々なデータ拡張戦略と最適なランダムマスキング戦略が使用される。 大規模運転注意散逸行動データセットの試験結果から,本論文で提案した自己教師学習法は99.60%の精度で,高度な教師付き学習法の優れた性能を近似する。

Driver distraction causes a significant number of traffic accidents every year, resulting in economic losses and casualties. Currently, the level of automation in commercial vehicles is far from completely unmanned, and drivers still play an important role in operating and controlling the vehicle. Therefore, driver distraction behavior detection is crucial for road safety. At present, driver distraction detection primarily relies on traditional Convolutional Neural Networks (CNN) and supervised learning methods. However, there are still challenges such as the high cost of labeled datasets, limited ability to capture high-level semantic information, and weak generalization performance. In order to solve these problems, this paper proposes a new self-supervised learning method based on masked image modeling for driver distraction behavior detection. Firstly, a self-supervised learning framework for masked image modeling (MIM) is introduced to solve the serious human and material consumption issues caused by dataset labeling. Secondly, the Swin Transformer is employed as an encoder. Performance is enhanced by reconfiguring the Swin Transformer block and adjusting the distribution of the number of window multi-head self-attention (W-MSA) and shifted window multi-head self-attention (SW-MSA) detection heads across all stages, which leads to model more lightening. Finally, various data augmentation strategies are used along with the best random masking strategy to strengthen the model's recognition and generalization ability. Test results on a large-scale driver distraction behavior dataset show that the self-supervised learning method proposed in this paper achieves an accuracy of 99.60%, approximating the excellent performance of advanced supervised learning methods.
翻訳日:2023-06-02 16:52:51 公開日:2023-06-01
# 未知の介入による因果表現の非パラメトリック識別性

Nonparametric Identifiability of Causal Representations from Unknown Interventions ( http://arxiv.org/abs/2306.00542v1 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Michel Besserve, Wendong Liang, Luigi Gresele, Armin Keki\'c, Elias Bareinboim, David M. Blei, Bernhard Sch\"olkopf(参考訳) 本研究では,潜伏因果変数の推論課題である因果表現学習について検討し,その因果関係を変数の高次元関数(混合関数)から推定する。 先行研究は、反事実的前・後的見解または時間的構造という形で、弱い監督に依存し、線形性のような制限的な仮定は混合関数や潜在因果モデルに依存するか、因果グラフや介入対象のような生成過程の部分的な知識を必要とする。 代わりに、因果モデルと混合関数の両方が非パラメトリックである一般的な設定を考える。 学習信号は、基礎となる因果モデルにおける未知の介入から生じる複数のデータセットや環境の形を取る。 我々の目標は、基礎的真理の潜在者とそれらの因果グラフの両方を、介入データから不可解であることを示す一連の曖昧さまで識別することである。 本研究では,2つの因果変数の基本的な設定について検討し,各ノード毎の観測分布と1つの完全介入が,汎用性条件に従うことを証明する。 この条件は、干渉分布と観測分布の微調整を伴うスプリアス解を除外し、非線形因果効果推論に類似した条件を反映する。 任意の数の変数に対して、ノード毎に2つの異なるペアの完全介入が識別可能性を保証することを示す。 さらに,潜在変数間の因果影響の強みは,すべての等価解によって保存され,推論された表現が新たなデータから因果的結論を導き出すのに適していることを示す。 本研究は、未知の介入による一般的な非パラメトリック設定に対する最初の識別可能性結果を提供し、より直接的な監督を伴わずに因果表現学習の可能性と不可能性を解明する。

We study causal representation learning, the task of inferring latent causal variables and their causal relations from high-dimensional functions ("mixtures") of the variables. Prior work relies on weak supervision, in the form of counterfactual pre- and post-intervention views or temporal structure; places restrictive assumptions, such as linearity, on the mixing function or latent causal model; or requires partial knowledge of the generative process, such as the causal graph or the intervention targets. We instead consider the general setting in which both the causal model and the mixing function are nonparametric. The learning signal takes the form of multiple datasets, or environments, arising from unknown interventions in the underlying causal model. Our goal is to identify both the ground truth latents and their causal graph up to a set of ambiguities which we show to be irresolvable from interventional data. We study the fundamental setting of two causal variables and prove that the observational distribution and one perfect intervention per node suffice for identifiability, subject to a genericity condition. This condition rules out spurious solutions that involve fine-tuning of the intervened and observational distributions, mirroring similar conditions for nonlinear cause-effect inference. For an arbitrary number of variables, we show that two distinct paired perfect interventions per node guarantee identifiability. Further, we demonstrate that the strengths of causal influences among the latent variables are preserved by all equivalent solutions, rendering the inferred representation appropriate for drawing causal conclusions from new data. Our study provides the first identifiability results for the general nonparametric setting with unknown interventions, and elucidates what is possible and impossible for causal representation learning without more direct supervision.
翻訳日:2023-06-02 16:52:21 公開日:2023-06-01
# 機能相互作用に基づくグローバル特徴効果の分解

Decomposing Global Feature Effects Based on Feature Interactions ( http://arxiv.org/abs/2306.00541v1 )

ライセンス: Link先を確認
Julia Herbinger, Bernd Bischl, Giuseppe Casalicchio(参考訳) 部分依存プロットのようなグローバルな特徴効果法は、期待される限界特徴効果の理解可能な可視化を提供する。 しかし、このようなグローバルな特徴効果法は、特徴相互作用が存在する場合の単一観測の局所的特徴効果をうまく表さないため、誤解を招く可能性がある。 再帰的パーティショニングに基づく新しい枠組みであるグローバル効果の一般化加法分解(gadget)を正式に導入し,局所的特徴効果の相互作用関連不均一性を最小限に抑えるように特徴空間内の解釈可能な領域を探索する。 この枠組みの数学的基礎を提供し,部分依存,蓄積局所的効果,シェープリー加法説明(shap)依存といった限界的特徴効果を可視化する最も一般的な手法に適用可能であることを示した。 さらに,提案フレームワークに適合する任意の機能効果メソッドに適用可能な重要な機能インタラクションを検出するための,新しい置換型インタラクションテストを提案する。 実験環境では,様々な特徴量効果法に基づき,提案手法の理論的特性を実験的に評価する。 さらに,提案手法を実世界の2つの実例に適用し,その有用性を示す。

Global feature effect methods, such as partial dependence plots, provide an intelligible visualization of the expected marginal feature effect. However, such global feature effect methods can be misleading, as they do not represent local feature effects of single observations well when feature interactions are present. We formally introduce generalized additive decomposition of global effects (GADGET), which is a new framework based on recursive partitioning to find interpretable regions in the feature space such that the interaction-related heterogeneity of local feature effects is minimized. We provide a mathematical foundation of the framework and show that it is applicable to the most popular methods to visualize marginal feature effects, namely partial dependence, accumulated local effects, and Shapley additive explanations (SHAP) dependence. Furthermore, we introduce a new permutation-based interaction test to detect significant feature interactions that is applicable to any feature effect method that fits into our proposed framework. We empirically evaluate the theoretical characteristics of the proposed methods based on various feature effect methods in different experimental settings. Moreover, we apply our introduced methodology to two real-world examples to showcase their usefulness.
翻訳日:2023-06-02 16:51:52 公開日:2023-06-01
# テキストスタイル転送評価の標準化と検証

A Call for Standardization and Validation of Text Style Transfer Evaluation ( http://arxiv.org/abs/2306.00539v1 )

ライセンス: Link先を確認
Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz(参考訳) テキストスタイル転送(TST)の評価は、実際には一貫性がない。 そこで本研究では,人体におけるメタ分析と自動TST評価と実験を行い,その分野における既存の文献を徹底的に検証する。 メタアナリシスは、人間と自動評価における実質的な標準化のギャップを明らかにする。 さらに、検証のギャップも見つかりました。人間の実験で検証されている自動メトリクスはごくわずかです。 この目的のために、標準化と検証のギャップを徹底的に検討し、結果として生じる落とし穴を明らかにする。 また,TST評価における標準化と検証のギャップを埋める方法として,今後の研究で満たすべき要件を提起する。

Text Style Transfer (TST) evaluation is, in practice, inconsistent. Therefore, we conduct a meta-analysis on human and automated TST evaluation and experimentation that thoroughly examines existing literature in the field. The meta-analysis reveals a substantial standardization gap in human and automated evaluation. In addition, we also find a validation gap: only few automated metrics have been validated using human experiments. To this end, we thoroughly scrutinize both the standardization and validation gap and reveal the resulting pitfalls. This work also paves the way to close the standardization and validation gap in TST evaluation by calling out requirements to be met by future research.
翻訳日:2023-06-02 16:51:34 公開日:2023-06-01
# MammalNet: 乳房の認識と行動理解のための大規模ビデオベンチマーク

MammalNet: A Large-scale Video Benchmark for Mammal Recognition and Behavior Understanding ( http://arxiv.org/abs/2306.00576v1 )

ライセンス: Link先を確認
Jun Chen, Ming Hu, Darren J. Coker, Michael L. Berumen, Blair Costelloe, Sara Beery, Anna Rohrbach, Mohamed Elhoseiny(参考訳) 動物行動のモニタリングは、野生生物の健康、個体数、生態系機能に関する重要な洞察を提供することによって、保全努力を促進する。 動物とその行動の自動認識は、現代のビデオデバイスが生成する大規模未ラベルデータセットの活用と、大規模監視の高速化に不可欠である。 しかし、現在自動認識システムの開発は、適切なラベル付きデータセットの欠如によって妨げられている。 既存のビデオデータセット 1) 確立された生物学的分類に従って動物を分類しない。 2) 大規模行動研究を容易にするには小さすぎるため,単一の種に限られることが多い。 3) 時間的局所化アノテーションを特徴とせず, より長いビデオシーケンス内での標的行動の局所化を容易にする。 そこで本研究では,哺乳類の分類誘導アノテーションを用いた大規模動物行動データセットであるMammalNetを提案する。 MammalNetには合計539時間の18Kビデオが含まれており、これは既存の動物行動データセットの約10倍の大きさである。 17のオーダー、69のファミリー、173の哺乳動物カテゴリをカバーし、以前の動物行動研究に焦点をあてた12のハイレベルな動物行動を取り込んでいる。 MammalNetでは,標準動物と行動認識,構成動物と行動認識,行動検出の3つのベンチマークを作成した。 当社のデータセットとコードは、https://mammal-net.github.io.com/で利用可能です。

Monitoring animal behavior can facilitate conservation efforts by providing key insights into wildlife health, population status, and ecosystem function. Automatic recognition of animals and their behaviors is critical for capitalizing on the large unlabeled datasets generated by modern video devices and for accelerating monitoring efforts at scale. However, the development of automated recognition systems is currently hindered by a lack of appropriately labeled datasets. Existing video datasets 1) do not classify animals according to established biological taxonomies; 2) are too small to facilitate large-scale behavioral studies and are often limited to a single species; and 3) do not feature temporally localized annotations and therefore do not facilitate localization of targeted behaviors within longer video sequences. Thus, we propose MammalNet, a new large-scale animal behavior dataset with taxonomy-guided annotations of mammals and their common behaviors. MammalNet contains over 18K videos totaling 539 hours, which is ~10 times larger than the largest existing animal behavior dataset. It covers 17 orders, 69 families, and 173 mammal categories for animal categorization and captures 12 high-level animal behaviors that received focus in previous animal behavior studies. We establish three benchmarks on MammalNet: standard animal and behavior recognition, compositional low-shot animal and behavior recognition, and behavior detection. Our dataset and code have been made available at: https://mammal-net.github.io.
翻訳日:2023-06-02 16:45:45 公開日:2023-06-01
# 霧環境における予測複製のための運動の時間的側面の予測

Predicting Temporal Aspects of Movement for Predictive Replication in Fog Environments ( http://arxiv.org/abs/2306.00575v1 )

ライセンス: Link先を確認
Emil Balitzki and Tobias Pfandzelter and David Bermbach(参考訳) フォグ環境の利点を十分に活用するには,データローカリティの効率的な管理が不可欠である。 ブラインドあるいはリアクティブなデータレプリケーションは、フォグコンピューティングの可能性を生かし、クライアントが接続する場所とタイミングを予測するためのより高度なテクニックを必要とする。 空間的予測はかなり注目されているが、時間的予測は未定である。 本稿では,既存の空間予測モデルに時間的予測を組み込むことの利点を検討することで,このギャップに対処する。 また,予測レプリケーションの文脈において,ディープニューラルネットワークやマルコフモデルといった時空間予測モデルの包括的解析を行う。 本稿では,逐次および周期的ユーザ移動パターンを活用した時間予測のためのholt-winterの指数的平滑化を用いた新しいモデルを提案する。 実際のユーザトラジェクトリによるフォグネットワークシミュレーションでは,データ利用率を1%に抑えながら,過剰データの15%削減を実現している。

To fully exploit the benefits of the fog environment, efficient management of data locality is crucial. Blind or reactive data replication falls short in harnessing the potential of fog computing, necessitating more advanced techniques for predicting where and when clients will connect. While spatial prediction has received considerable attention, temporal prediction remains understudied. Our paper addresses this gap by examining the advantages of incorporating temporal prediction into existing spatial prediction models. We also provide a comprehensive analysis of spatio-temporal prediction models, such as Deep Neural Networks and Markov models, in the context of predictive replication. We propose a novel model using Holt-Winter's Exponential Smoothing for temporal prediction, leveraging sequential and periodical user movement patterns. In a fog network simulation with real user trajectories our model achieves a 15% reduction in excess data with a marginal 1% decrease in data availability.
翻訳日:2023-06-02 16:45:24 公開日:2023-06-01
# キラルセンシングのためのメタサーフェスベースハイブリッド光学空洞

Metasurface-based hybrid optical cavities for chiral sensing ( http://arxiv.org/abs/2306.00568v1 )

ライセンス: Link先を確認
Nico S. Bassler, Andrea Aiello, Kai P. Schmidt, Claudiu Genes, Michael Reitz(参考訳) 量子メタサーフェス(すなわち量子エミッタの2次元サブ波長アレイ)はハイブリッドキャビティの設計のためのミラーとして利用することができる。 外部磁場制御下では、量子準曲面の積層層がヘリシティ保存キャビティとして機能することを示す。 これらの構造は極小共振を示し、従来のキャビティとは対照的に共振器内を流れるフィールドのハンドネスを保ちながら、入射フィールドの強度を桁違いに高めることができる。 共鳴近傍のキャビティ伝達の急速な位相シフトは、キャビティを通過するキラル散乱体の敏感な検出に利用できる。 キラル分子の識別のためのセンサとしての共振器の応用について検討する。

Quantum metasurfaces, i.e., two-dimensional subwavelength arrays of quantum emitters, can be employed as mirrors towards the design of hybrid cavities, where the optical response is given by the interplay of a cavity-confined field and the surface modes supported by the arrays. We show that, under external magnetic field control, stacked layers of quantum metasurfaces can serve as helicity-preserving cavities. These structures exhibit ultranarrow resonances and can enhance the intensity of the incoming field by orders of magnitude, while simultaneously preserving the handedness of the field circulating inside the resonator, as opposed to conventional cavities. The rapid phase shift in the cavity transmission around the resonance can be exploited for the sensitive detection of chiral scatterers passing through the cavity. We discuss possible applications of these resonators as sensors for the discrimination of chiral molecules.
翻訳日:2023-06-02 16:45:09 公開日:2023-06-01
# 絡み合いコンパスとしての gr\"uneisen パラメータ

Gr\"uneisen parameter as an entanglement compass ( http://arxiv.org/abs/2306.00566v1 )

ライセンス: Link先を確認
Lucas Squillante, Luciano S. Ricco, Aniekan Magnus Ukpong, Roberto E. Lagos-Monaco, Antonio C. Seridonio, and Mariano de Souza(参考訳) 比 gr\"uneisen ratio $\gamma$,すなわち熱膨張と特定の熱の比の特異部は、有限$t$ と量子臨界点(qcps)の両方を探索するために広く用いられている。 真の量子相転移(QPT)では、熱ゆらぎが欠如しており、熱力学的な$\Gamma$は使用できない。 チューニングパラメータの関数として絡み合いを計算する$\Gamma$の量子アナログを提案し、QPTは二次非対角ハミルトニアンに対してのみ発生することを示す。 本稿では,逆場をもつ量子1次元イジングモデルとケーンの量子コンピュータを用いたアプローチを紹介する。 動力学の減速や任意の qcp/qpt に近い ``creation of mass''' も議論されている。

The Gr\"uneisen ratio $\Gamma$, i.e., the singular part of the ratio of thermal expansion to the specific heat, has been broadly employed to explore both finite-$T$ and quantum critical points (QCPs). For a genuine quantum phase transition (QPT), thermal fluctuations are absent and thus the thermodynamic $\Gamma$ cannot be employed. We propose a quantum analogue to $\Gamma$ that computes entanglement as a function of a tuning parameter and show that QPTs take place only for quadratic non-diagonal Hamiltonians. We showcase our approach using the quantum 1D Ising model with transverse field and Kane's quantum computer. The slowing down of the dynamics and thus the ``creation of mass'' close to any QCP/QPT is also discussed.
翻訳日:2023-06-02 16:44:53 公開日:2023-06-01
# ナノメカニカル質量分析のための機械学習とカルマンフィルタ

Machine Learning and Kalman Filtering for Nanomechanical Mass Spectrometry ( http://arxiv.org/abs/2306.00563v1 )

ライセンス: Link先を確認
Mete Erdogan, Nuri Berke Baytekin, Serhat Emre Coban, Alper Demir(参考訳) ナノメカニカル共鳴センサは共振周波数ジャンプの検出を通じて質量分析に使用される。 検出速度と精度には根本的なトレードオフがある。 時間分解能とサイズ分解能は共振器特性と雑音によって制限される。 最大類似度推定を付加したカルマンフィルタ法がパレート最適解として最近提案された。 本手法の強化と堅牢な実現法として,信頼性向上しきい値検出手法と,イベント検出のための機械学習を提案する。 本稿では,ニューラルネットワークに基づく学習手法と,時間的位置推定とイベントサイズ推定のための意思決定木について述べる。 kalmanフィルタを捨てる純粋学習に基づくアプローチでは、センサからの生データは、位置とサイズ予測の両方のモデルのトレーニングに使用される。 カルマンフィルタを拡大する別のアプローチでは、事象の確率履歴はイベント発生のためのバイナリ分類器で使用される。 位置とサイズは最大類似度を用いて予測され、カルマンフィルタはサイズ推定を継続的に改善する。 本稿では,学習ベーススキームと信頼強化しきい値手法の詳細な比較を行い,実用的な実現に向けた堅牢な性能を示す。

Nanomechanical resonant sensors are used in mass spectrometry via detection of resonance frequency jumps. There is a fundamental trade-off between detection speed and accuracy. Temporal and size resolution are limited by the resonator characteristics and noise. A Kalman filtering technique, augmented with maximum-likelihood estimation, was recently proposed as a Pareto optimal solution. We present enhancements and robust realizations for this technique, including a confidence boosted thresholding approach as well as machine learning for event detection. We describe learning techniques that are based on neural networks and boosted decision trees for temporal location and event size estimation. In the pure learning based approach that discards the Kalman filter, the raw data from the sensor are used in training a model for both location and size prediction. In the alternative approach that augments a Kalman filter, the event likelihood history is used in a binary classifier for event occurrence. Locations and sizes are predicted using maximum-likelihood, followed by a Kalman filter that continually improves the size estimate. We present detailed comparisons of the learning based schemes and the confidence boosted thresholding approach, and demonstrate robust performance for a practical realization.
翻訳日:2023-06-02 16:44:38 公開日:2023-06-01
# マルチウィンドウを意識したマスクオートエンコーダ

Masked Autoencoders with Multi-Window Attention Are Better Audio Learners ( http://arxiv.org/abs/2306.00561v1 )

ライセンス: Link先を確認
Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen and Zheng-Hua Tan(参考訳) 近年,Masked Autoencoders (MAE) を用いて汎用音声表現の学習を行っている。 しかし、マルチドメインオーディオデータのモデリングの2つの重要な側面には対処していない。 (i)ローカル+グローバルコンテクストの組み合わせによる実世界のオーディオタスクと (ii)実世界の音声信号は、時間周波数特性が異なる複数の音響要素の複雑な構成である。 これらの問題に対処するため,マルチウィンドウ・マスケッド・オートエンコーダ (MW-MAE) にマルチウィンドウ・マルチヘッド・アテンション・モジュールを実装し,各デコーダ・トランスフォーマー・ブロック内の複数のローカル・グローバル・コンテクストにおける情報を,複数の異なるローカル・グローバル・ウィンドウのアテンション・ヘッドを介してキャプチャする。 10のダウンストリームオーディオタスクにおける実験結果から、MW-MAEは、全体的なパフォーマンスにおいて標準MAEよりも一貫して優れており、より汎用的なオーディオ表現を学習し、スケーリング特性が大幅に向上していることが示された。 MW-MAEデコーダは,各ブロックが局所的および大域的情報を独立にキャプチャし,分離された特徴階層を導出するのに対し,MW-MAEデコーダの異なるトランスフォーマーブロックを横断するアテンションヘッドは相関した特徴表現を学習する。 機能抽出と下流実験のためのコードは、事前トレーニングされたウェイトとともにhttps://github.com/10997neurips23/10997_mwmaeで見ることができる。

Several recent works have adapted Masked Autoencoders (MAEs) for learning general-purpose audio representations. However, they do not address two key aspects of modelling multi-domain audio data: (i) real-world audio tasks consist of a combination of local+global contexts, and (ii) real-world audio signals are complex compositions of several acoustic elements with different time-frequency characteristics. To address these concerns, this work proposes a Multi-Window Masked Autoencoder (MW-MAE) fitted with a novel Multi-Window Multi-Head Attention module that can capture information at multiple local and global contexts in every decoder transformer block through attention heads of several distinct local and global windows. Empirical results on ten downstream audio tasks show that MW-MAEs consistently outperform standard MAEs in overall performance and learn better general-purpose audio representations, as well as demonstrate considerably better scaling characteristics. Exploratory analyses of the learned representations reveals that MW-MAE encoders learn attention heads with more distinct entropies compared to those learned by MAEs, while attention heads across the different transformer blocks in MW-MAE decoders learn correlated feature representations, enabling each block to independently capture local and global information, leading to a decoupled feature hierarchy. Code for feature extraction and downstream experiments along with pre-trained weights can be found at https://github.com/10997NeurIPS23/10997_mwmae.
翻訳日:2023-06-02 16:44:22 公開日:2023-06-01
# Hinge-Wasserstein: 回帰における過信を分類によって緩和する

Hinge-Wasserstein: Mitigating Overconfidence in Regression by Classification ( http://arxiv.org/abs/2306.00560v1 )

ライセンス: Link先を確認
Ziliang Xiong, Abdelrahman Eldesokey, Joakim Johnander, Bastian Wandt, Per-Erik Forssen(参考訳) 現代のディープニューラルネットワークは、性能が大幅に向上したにもかかわらず、過信される傾向にある。 曖昧で予測不能な現実のシナリオでは、この過信がアプリケーションの安全性に大きなリスクをもたらす可能性がある。 回帰タスクでは、回帰分類アプローチはこれらの曖昧さを緩和し、代わりに所望の出力に対する離散的確率密度を予測する。 しかしながら、密度推定器は一般的なNLL損失で訓練された場合、依然として過信される傾向にある。 過信頼問題を緩和するために,wasserstein距離に基づく損失関数hind-wassersteinを提案する。 この損失は、前回の作業と比較して、アレテータ性および認識論的不確実性の両方の品質を大幅に向上させる。 両タイプの不確実性が別々に制御される合成データセット上で,新たな損失の能力を示す。 さらに,実世界のシナリオのデモンストレーションとして,本手法を実世界のベンチマークデータセットの水平線上で評価する。 このベンチマークでは、ヒンジ-wasserstein損失により、地平線パラメータの傾斜とオフセットのスパーシフィケーション誤差(ause)の領域をそれぞれ30.47%、65.00%減少させる。

Modern deep neural networks are prone to being overconfident despite their drastically improved performance. In ambiguous or even unpredictable real-world scenarios, this overconfidence can pose a major risk to the safety of applications. For regression tasks, the regression-by-classification approach has the potential to alleviate these ambiguities by instead predicting a discrete probability density over the desired output. However, a density estimator still tends to be overconfident when trained with the common NLL loss. To mitigate the overconfidence problem, we propose a loss function, hinge-Wasserstein, based on the Wasserstein Distance. This loss significantly improves the quality of both aleatoric and epistemic uncertainty, compared to previous work. We demonstrate the capabilities of the new loss on a synthetic dataset, where both types of uncertainty are controlled separately. Moreover, as a demonstration for real-world scenarios, we evaluate our approach on the benchmark dataset Horizon Lines in the Wild. On this benchmark, using the hinge-Wasserstein loss reduces the Area Under Sparsification Error (AUSE) for horizon parameters slope and offset, by 30.47% and 65.00%, respectively.
翻訳日:2023-06-02 16:43:47 公開日:2023-06-01
# 私たちは決してスタイルから外れない:潜伏空間のサブスペース分解による動きの絡み合い

We never go out of Style: Motion Disentanglement by Subspace Decomposition of Latent Space ( http://arxiv.org/abs/2306.00559v1 )

ライセンス: Link先を確認
Rishubh Parihar, Raghav Magazine, Piyush Tiwari, R. Venkatesh Babu(参考訳) 現実世界のオブジェクトは、複数の独立したモーションコンポーネントを含む複雑な動きを実行する。 例えば、話している間、人は表情、頭、身体のポーズを継続的に変えます。 本研究では,事前学習したganモデルを用いて映像中の動きを分解する新しい手法を提案する。 意味的に意味のあるスタイルベースganモデルの潜在空間における不連続な動き部分空間を発見し,単一の説明可能な動き成分を制御する。 提案手法は,数$(\approx10)$の真理ビデオシーケンスのみを用いて,そのような部分空間を得る。 顔および車載データセットにおける運動部分空間の偏角特性を定量的に定量的に評価した。 さらに,複数の下流タスク,例えば顔表情のみをトレーニングせずに伝達する動作編集や選択的動き伝達について結果を示す。

Real-world objects perform complex motions that involve multiple independent motion components. For example, while talking, a person continuously changes their expressions, head, and body pose. In this work, we propose a novel method to decompose motion in videos by using a pretrained image GAN model. We discover disentangled motion subspaces in the latent space of widely used style-based GAN models that are semantically meaningful and control a single explainable motion component. The proposed method uses only a few $(\approx10)$ ground truth video sequences to obtain such subspaces. We extensively evaluate the disentanglement properties of motion subspaces on face and car datasets, quantitatively and qualitatively. Further, we present results for multiple downstream tasks such as motion editing, and selective motion transfer, e.g. transferring only facial expressions without training for it.
翻訳日:2023-06-02 16:43:26 公開日:2023-06-01
# オブジェクト発見のための回転機能

Rotating Features for Object Discovery ( http://arxiv.org/abs/2306.00600v1 )

ライセンス: Link先を確認
Sindy L\"owe, Phillip Lippe, Francesco Locatello, Max Welling(参考訳) 人間の認知における結合問題は、脳が神経接続の固定されたネットワーク内の物体をどのように表現し接続するかに関するものであり、激しい議論の対象となっている。 教師なしの設定でこの問題に対処する機械学習の取り組みの多くは、スロットベースの手法に重点を置いている。 最近、分散オブジェクト中心の表現を連続的に学習する代替手段として、複合オートエンコーダが提案されている。 しかし、これは単純な玩具データのみに適用できる。 本稿では,回転特徴,複素値特徴の高次元への一般化,分散表現からオブジェクトを抽出するための新しい評価手法を提案する。 さらに,事前学習した機能へのアプローチの適用性を示す。 これらの進歩によって、分散オブジェクト中心の表現を単純なおもちゃから現実世界のデータにスケールできるのです。 この作業は、機械学習のバインディング問題に対処するための新しいパラダイムを前進させ、この分野のさらなるイノベーションを刺激する可能性を秘めている。

The binding problem in human cognition, concerning how the brain represents and connects objects within a fixed network of neural connections, remains a subject of intense debate. Most machine learning efforts addressing this issue in an unsupervised setting have focused on slot-based methods, which may be limiting due to their discrete nature and difficulty to express uncertainty. Recently, the Complex AutoEncoder was proposed as an alternative that learns continuous and distributed object-centric representations. However, it is only applicable to simple toy data. In this paper, we present Rotating Features, a generalization of complex-valued features to higher dimensions, and a new evaluation procedure for extracting objects from distributed representations. Additionally, we show the applicability of our approach to pre-trained features. Together, these advancements enable us to scale distributed object-centric representations from simple toy to real-world data. We believe this work advances a new paradigm for addressing the binding problem in machine learning and has the potential to inspire further innovation in the field.
翻訳日:2023-06-02 16:34:35 公開日:2023-06-01
# ソースコードにおけるChatGPTの解析

Analysis of ChatGPT on Source Code ( http://arxiv.org/abs/2306.00597v1 )

ライセンス: Link先を確認
Ahmed Sadik, Antonello Ceravola, Frank Joublin, Jibesh Patra(参考訳) 本稿では,大規模言語モデル(LLM),特にプログラミング,ソースコード解析,コード生成におけるChatGPTの利用について検討する。 LLMとChatGPTは機械学習と人工知能の技術を使って構築されており、開発者とプログラマにいくつかの利点を提供している。 これらのモデルは、時間を節約し、非常に正確な結果を与えることができるが、人間のプログラマを完全に置き換えるほど進歩していない。 本稿では,コード生成やコードドキュメンテーション,バグ検出,リファクタリングなど,さまざまな分野におけるLLMとChatGPTの適用可能性について検討する。 また,LLM と ChatGPT の利用は,プログラミングコミュニティに非並列的なメリットを提供するため,今後増加することが示唆されている。

This paper explores the use of Large Language Models (LLMs) and in particular ChatGPT in programming, source code analysis, and code generation. LLMs and ChatGPT are built using machine learning and artificial intelligence techniques, and they offer several benefits to developers and programmers. While these models can save time and provide highly accurate results, they are not yet advanced enough to replace human programmers entirely. The paper investigates the potential applications of LLMs and ChatGPT in various areas, such as code creation, code documentation, bug detection, refactoring, and more. The paper also suggests that the usage of LLMs and ChatGPT is expected to increase in the future as they offer unparalleled benefits to the programming community.
翻訳日:2023-06-02 16:34:20 公開日:2023-06-01
# 言語から見た弱視映像の再検討

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective ( http://arxiv.org/abs/2306.00595v1 )

ライセンス: Link先を確認
Yingying Fan and Yu Wu and Yutian Lin and Bo Du(参考訳) 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。 それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。 しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。 この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。 具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。 次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。 また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。 実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin.
翻訳日:2023-06-02 16:34:06 公開日:2023-06-01
# ExTRUST:国家間関係のためのプライバシ保護システムによる爆発的在庫削減

ExTRUST: Reducing Exploit Stockpiles with a Privacy-Preserving Depletion System for Inter-State Relationships ( http://arxiv.org/abs/2306.00589v1 )

ライセンス: Link先を確認
Thomas Reinhold, Philipp Kuehn, Daniel G\"unther, Thomas Schneider, Christian Reuter(参考訳) サイバースペースは、異なるアクターの悪意あるサイバー操作によって脅かされる脆弱な構造であり、ITハードウェアとソフトウェアに脆弱性があり、そのような活動の基礎を形成している。 人工知能の分野における進歩は、この開発を加速させ、サイバー兵器、自動サイバー防衛対策、人工知能ベースの脅威および脆弱性検出を可能にした。 特に、長期にわたる戦略上のセキュリティ上の関心を持つ国家アクターは、その軍事または諜報活動を可能にするために、脆弱性やエクスプロイトに関する知識を備蓄することが多い。 これらの開発を制限し、脆弱性を開示することでグローバルITセキュリティを強化する条約や規制は、現在国際レベルで議論されているが、これらの取り組みは、ユニークな知識の開示と戦術上の利点の放棄に関する国家の懸念によって妨げられている。 これにより、複数の州が少なくとも同一のエクスプロイトを備蓄する可能性が高まり、これらの備蓄が国家機密の利益を保ち、相互作用する状態の特別な制約と、そのような環境における要求が存在しないことを考慮し、枯渇プロセスを可能にする技術的措置が取られる。 本稿では,複数の州が,複数の備蓄で発生した脆弱性やエクスプロイトをプライベートに比較して,開示を考慮せずにチェックする,プライバシ保護アプローチを提案する。 システムをExTRUSTと呼び、拡張性があり、いくつかの攻撃シナリオに耐えられることを示す。 政府間設定を超えて、extrustはバグボーンティプログラムのような他のゼロトラストのユースケースにも使用できる。

Cyberspace is a fragile construct threatened by malicious cyber operations of different actors, with vulnerabilities in IT hardware and software forming the basis for such activities, thus also posing a threat to global IT security. Advancements in the field of artificial intelligence accelerate this development, either with artificial intelligence enabled cyber weapons, automated cyber defense measures, or artificial intelligence-based threat and vulnerability detection. Especially state actors, with their long-term strategic security interests, often stockpile such knowledge of vulnerabilities and exploits to enable their military or intelligence service cyberspace operations. While treaties and regulations to limit these developments and to enhance global IT security by disclosing vulnerabilities are currently being discussed on the international level, these efforts are hindered by state concerns about the disclosure of unique knowledge and about giving up tactical advantages. This leads to a situation where multiple states are likely to stockpile at least some identical exploits, with technical measures to enable a depletion process for these stockpiles that preserve state secrecy interests and consider the special constraints of interacting states as well as the requirements within such environments being non-existent. This paper proposes such a privacy-preserving approach that allows multiple state parties to privately compare their stock of vulnerabilities and exploits to check for items that occur in multiple stockpiles without revealing them so that their disclosure can be considered. We call our system ExTRUST and show that it is scalable and can withstand several attack scenarios. Beyond the intergovernmental setting, ExTRUST can also be used for other zero-trust use cases, such as bug-bounty programs.
翻訳日:2023-06-02 16:33:46 公開日:2023-06-01
# グラフの学習」会議体験の評価

Evaluating the "Learning on Graphs" Conference Experience ( http://arxiv.org/abs/2306.00586v1 )

ライセンス: Link先を確認
Bastian Rieck and Corinna Coupette(参考訳) 機械学習カンファレンスがますます大きくなり、レビュープロセスがより精巧になるにつれて、彼らの仕事に対するデータ駆動の洞察がますます必要となる。 本稿では,第1回"learning on graphs"(log)コンファレンスに付随する調査の結果について報告する。 調査は、著者、レビュアー、エリアチェアなど、さまざまな視点から提出およびレビュープロセスを評価することを目的としている。

With machine learning conferences growing ever larger, and reviewing processes becoming increasingly elaborate, more data-driven insights into their workings are required. In this report, we present the results of a survey accompanying the first "Learning on Graphs" (LoG) Conference. The survey was directed to evaluate the submission and review process from different perspectives, including authors, reviewers, and area chairs alike.
翻訳日:2023-06-02 16:33:16 公開日:2023-06-01
# 文脈特異的独立関係下における因果Imitability

Causal Imitability Under Context-Specific Independence Relations ( http://arxiv.org/abs/2306.00585v1 )

ライセンス: Link先を確認
Fateme Jamshidi, Sina Akbari, Negar Kiyavash(参考訳) 模倣学習を行う際の因果メカニズムを無視する欠点が最近認識されている。 模倣の可能性と因果的共起や因果的誤認を回避するためのいくつかのアプローチが文献で提案されている。 しかし、基礎となる因果構造に関する追加情報の導入による潜在的利益は未検討のままである。 このような見落としられた情報の例としては、コンテキスト固有の独立性(csi)、すなわち特定のコンテキストにのみ保持される独立性がある。 csi関係が知られている場合の因果模倣学習の問題を考える。 この設定における模倣の実現可能性に関する決定問題はNPハードであることを証明する。 さらに,csi下での模倣学習に必要なグラフィカルな基準を提供し,構造的仮定の下では,この基準が十分であることを示す。 最後に,CSI関係とデータを考慮した因果模倣学習のための音響アルゴリズムアプローチを提案する。

Drawbacks of ignoring the causal mechanisms when performing imitation learning have recently been acknowledged. Several approaches both to assess the feasibility of imitation and to circumvent causal confounding and causal misspecifications have been proposed in the literature. However, the potential benefits of the incorporation of additional information about the underlying causal structure are left unexplored. An example of such overlooked information is context-specific independence (CSI), i.e., independence that holds only in certain contexts. We consider the problem of causal imitation learning when CSI relations are known. We prove that the decision problem pertaining to the feasibility of imitation in this setting is NP-hard. Further, we provide a necessary graphical criterion for imitation learning under CSI and show that under a structural assumption, this criterion is also sufficient. Finally, we propose a sound algorithmic approach for causal imitation learning which takes both CSI relations and data into account.
翻訳日:2023-06-02 16:33:09 公開日:2023-06-01
# 分散安定化密度推定による異常検出

Anomaly Detection with Variance Stabilized Density Estimation ( http://arxiv.org/abs/2306.00582v1 )

ライセンス: Link先を確認
Amit Rozner, Barak Battash, Henry Li, Lior Wolf, Ofir Lindenbaum(参考訳) 密度推定に基づく異常検出スキームは、通常、低密度領域に存在する例として異常をモデル化する。 改良された密度推定問題を提案し,その異常検出の有効性を示す。 具体的には、正規サンプルの密度関数はあるコンパクト領域において一様であると仮定する。 この仮定は、密度関数が異常よりも正常なサンプルのまわりでより安定であることを意味する。 まず、この仮定を幅広い実世界のデータを用いて実証的に裏付ける。 次に, 標準試料周辺の密度の分散を最小にしつつ, 観測試料の確率を最大化する分散安定化密度推定問題を設計する。 分散安定分布を学習するために,自己回帰モデルのアンサンブルを導入する。 最後に,52のデータセットを用いた広範囲なベンチマークを行い,本手法がデータ固有のハイパーパラメータチューニングの必要性を緩和しつつ,最先端の結果につながることを示す。

Density estimation based anomaly detection schemes typically model anomalies as examples that reside in low-density regions. We propose a modified density estimation problem and demonstrate its effectiveness for anomaly detection. Specifically, we assume the density function of normal samples is uniform in some compact domain. This assumption implies the density function is more stable (with lower variance) around normal samples than anomalies. We first corroborate this assumption empirically using a wide range of real-world data. Then, we design a variance stabilized density estimation problem for maximizing the likelihood of the observed samples while minimizing the variance of the density around normal samples. We introduce an ensemble of autoregressive models to learn the variance stabilized distribution. Finally, we perform an extensive benchmark with 52 datasets demonstrating that our method leads to state-of-the-art results while alleviating the need for data-specific hyperparameter tuning.
翻訳日:2023-06-02 16:32:59 公開日:2023-06-01
# FMapping:リアルタイム高密度RGB SLAMのための因子的ニューラルネットワークマッピング

FMapping: Factorized Efficient Neural Field Mapping for Real-Time Dense RGB SLAM ( http://arxiv.org/abs/2306.00579v1 )

ライセンス: Link先を確認
Tongyan Hua, Haotian Bai, Zidong Cao, Lin Wang(参考訳) 本稿では,リアルタイム高密度rgbスラムにおけるカラー化点雲マップの連続推定を容易にする効率的なニューラルネットワークマッピングフレームワークであるfmappingを提案する。 この挑戦的な目標を達成するためには,RGB SLAMシステムの効率向上とマッピングの不確実性を低減することが必要だ。 この目的のために、まずSLAMシステムを追従部とマッピング部に分解して理論解析を構築し、マッピングの不確実性は神経表現のフレーム内で明示的に定義する。 そこで本研究では,シーン表現に有効な因子化スキームを提案し,シーン再構成の不確実性を低減するためのスライディングウインドウ戦略を提案する。 具体的には,因子化ニューラルフィールドを利用して不確かさを低次元空間に分解し,雑音に対するロバスト性を高め,トレーニング効率を向上させる。 次に,マップ初期化中に観測されたフレームからコヒーレントな幾何学的手がかりを取り入れ,収束性を高めるスライディングウインドウサンプラーを提案する。 我々の分解型ニューラルマッピングアプローチは、低メモリ消費、より効率的な計算、マップ初期化時の高速収束などの利点を享受しています。 2つのベンチマークデータセットを用いた実験により,CUDAカーネルをカスタマイズすることなく,高忠実度色付き点雲のマップを2秒程度リアルタイムで更新できることがわかった。 さらに、iMAP[31]のようなSLAMの従来手法の最も簡潔な暗黙的マッピングよりもx20少ないパラメータ、そしてNICE-SLAM[42]のような最先端のアプローチよりも約x1000少ないパラメータを使用する。 詳細はプロジェクトのホームページをご覧ください。 https://vlis2022.github.io/fmap/。

In this paper, we introduce FMapping, an efficient neural field mapping framework that facilitates the continuous estimation of a colorized point cloud map in real-time dense RGB SLAM. To achieve this challenging goal without depth, a hurdle is how to improve efficiency and reduce the mapping uncertainty of the RGB SLAM system. To this end, we first build up a theoretical analysis by decomposing the SLAM system into tracking and mapping parts, and the mapping uncertainty is explicitly defined within the frame of neural representations. Based on the analysis, we then propose an effective factorization scheme for scene representation and introduce a sliding window strategy to reduce the uncertainty for scene reconstruction. Specifically, we leverage the factorized neural field to decompose uncertainty into a lower-dimensional space, which enhances robustness to noise and improves training efficiency. We then propose the sliding window sampler to reduce uncertainty by incorporating coherent geometric cues from observed frames during map initialization to enhance convergence. Our factorized neural mapping approach enjoys some advantages, such as low memory consumption, more efficient computation, and fast convergence during map initialization. Experiments on two benchmark datasets show that our method can update the map of high-fidelity colorized point clouds around 2 seconds in real time while requiring no customized CUDA kernels. Additionally, it utilizes x20 fewer parameters than the most concise neural implicit mapping of prior methods for SLAM, e.g., iMAP [ 31] and around x1000 fewer parameters than the state-of-the-art approach, e.g., NICE-SLAM [ 42]. For more details, please refer to our project homepage: https://vlis2022.github.io/fmap/.
翻訳日:2023-06-02 16:32:45 公開日:2023-06-01
# グラフニューラルネットワークにおけるブラックボックス属性推論攻撃はプライバシリスクか?

Does Black-box Attribute Inference Attacks on Graph Neural Networks Constitute Privacy Risk? ( http://arxiv.org/abs/2306.00578v1 )

ライセンス: Link先を確認
Iyiola E. Olatunji, Anmar Hizber, Oliver Sihlovec, Megha Khosla(参考訳) グラフニューラルネットワーク(gnns)は、医療、金融、教育など、現実のデータセットやアプリケーションで有望な結果を示している。 しかし、近年の研究では、GNNはメンバーシップ推論攻撃やリンク再構築攻撃のような攻撃に対して非常に脆弱であることが示されている。 驚いたことに、属性推論攻撃はほとんど注目を集めていない。 本稿では,アタッカーが,パブリック属性や非センシティブ属性に基づいてセンシティブなユーザ属性を推測することを目的とした,属性推論攻撃の初回調査を開始する。 我々は,ブラックボックス属性推論攻撃がグラフ構造化データとその対応するGNNモデルに対する重要なプライバシーリスクを構成するかどうかを問う。 我々は、敵の知識や仮定を変えて攻撃を開始するための体系的なアプローチをとる。 この結果から,攻撃者がターゲットモデルにブラックボックスアクセスを行う場合,GNNは一般に,欠落した値推定手法に比べてはるかに多くの情報を明らかにしないことがわかった。 コードは利用可能。

Graph neural networks (GNNs) have shown promising results on real-life datasets and applications, including healthcare, finance, and education. However, recent studies have shown that GNNs are highly vulnerable to attacks such as membership inference attack and link reconstruction attack. Surprisingly, attribute inference attacks has received little attention. In this paper, we initiate the first investigation into attribute inference attack where an attacker aims to infer the sensitive user attributes based on her public or non-sensitive attributes. We ask the question whether black-box attribute inference attack constitutes a significant privacy risk for graph-structured data and their corresponding GNN model. We take a systematic approach to launch the attacks by varying the adversarial knowledge and assumptions. Our findings reveal that when an attacker has black-box access to the target model, GNNs generally do not reveal significantly more information compared to missing value estimation techniques. Code is available.
翻訳日:2023-06-02 16:32:17 公開日:2023-06-01
# TorchRL: PyTorch用のデータ駆動意思決定ライブラリ

TorchRL: A data-driven decision-making library for PyTorch ( http://arxiv.org/abs/2306.00577v1 )

ライセンス: Link先を確認
Albert Bou, Matteo Bettini, Sebastian Dittert, Vikash Kumar, Shagun Sodhani, Xiaomeng Yang, Gianni De Fabritiis, Vincent Moens(参考訳) 統合とモジュール性のバランスを取ることは、機械学習ライブラリが汎用的でユーザフレンドリーである上で、特に大きな開発チームや複雑な現実のデータ、環境に関わる意思決定と制御タスクを扱う上で非常に重要です。 この問題に対処するため,我々は,pytorchの汎用制御ライブラリであるtorchrlを提案する。 汎用的で堅牢なプリミティブ設計により、TorchRLは強化学習(RL)と制御の多くの分野にわたるアルゴリズム開発を容易にする。 我々は新しいPyTorchプリミティブであるTensorDictを、モジュール性を維持しながらライブラリのコンポーネントの統合を促進する柔軟なデータキャリアとして導入する。 そのため、バッファ、データセット、分散データコレクタ、環境、変換、目的を分離または組み合わせて使用することができる。 我々は、ビルディングブロックの詳細な説明、コード例のサポート、ドメインとタスクにわたるライブラリの詳細な概要を提供する。 最後に,計算効率を示すための比較ベンチマークを示す。 TorchRLは長期的なサポートを強化し、GitHubで公開されており、研究コミュニティ内でより再現性とコラボレーションが可能である。 コードはhttps://github.com/pytorch/rlで公開されている。

Striking a balance between integration and modularity is crucial for a machine learning library to be versatile and user-friendly, especially in handling decision and control tasks that involve large development teams and complex, real-world data, and environments. To address this issue, we propose TorchRL, a generalistic control library for PyTorch that provides well-integrated, yet standalone components. With a versatile and robust primitive design, TorchRL facilitates streamlined algorithm development across the many branches of Reinforcement Learning (RL) and control. We introduce a new PyTorch primitive, TensorDict, as a flexible data carrier that empowers the integration of the library's components while preserving their modularity. Hence replay buffers, datasets, distributed data collectors, environments, transforms and objectives can be effortlessly used in isolation or combined. We provide a detailed description of the building blocks, supporting code examples and an extensive overview of the library across domains and tasks. Finally, we show comparative benchmarks to demonstrate its computational efficiency. TorchRL fosters long-term support and is publicly available on GitHub for greater reproducibility and collaboration within the research community. The code is opensourced on https://github.com/pytorch/rl.
翻訳日:2023-06-02 16:32:00 公開日:2023-06-01
# レビュアーGPT? 大規模言語モデルを用いた論文レビューのための探索的研究

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing ( http://arxiv.org/abs/2306.00622v1 )

ライセンス: Link先を確認
Ryan Liu and Nihar B. Shah(参考訳) 大規模言語モデル(LLMs)の急速な上昇を踏まえ、我々は疑問を考察する: (大規模言語モデルは科学論文や提案のレビューにどのように役立つのか? まずいくつかのパイロット研究を行い i) GPT-4は、他のLLM(Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM)より優れ、 (ii) 特定の質問(例えば、エラーを識別する)のプロンプトは、単にレビューを書くように促す。 これらの知見から,LLM(特にGPT-4)を3つのタスクに利用することを検討した。 1. 誤りの特定: 意図的に挿入されたエラーでそれぞれ13の短いコンピュータ科学論文を構築し,これらの論文の正しさを確認する。 我々は, LLM が 7 つの誤りの内, 数学的および概念的誤りの2つにまたがっていることを観察した。 2. チェックリストの検証: 15 個のNeurIPS 2022 論文の各セクションで 16 個のクローズドエンドチェックリスト質問の検証を LLM に依頼する。 119の {checklist question, paper} ペアの llm は86.6% の精度を持つことがわかった。 3.「より良い」論文を選択する:我々は10組の抽象概念を生成し、一方の抽象概念が他方よりも明らかに優れているように意図的に各ペアをデザインする。 しかし、LSMはこれらの比較的単純な区別を正確に識別するのに苦労し、10組中6組の評価において誤りを犯した。 これらの実験に基づき, LLM は特定のレビュータスクのレビューアシスタントとして有望な利用であるが, 論文や提案の完全な評価には適していないと考えられる。

Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.
翻訳日:2023-06-02 16:26:10 公開日:2023-06-01
# OTW:タイムシリーズに最適なトランスポート・ウォーピング

OTW: Optimal Transport Warping for Time Series ( http://arxiv.org/abs/2306.00620v1 )

ライセンス: Link先を確認
Fabian Latorre, Chenghao Liu, Doyen Sahoo, Steven C.H. Hoi(参考訳) 動的時間温暖化(DTW)は時系列間の距離を測定するための実用的な選択肢となっている。 しかし、最適アライメント行列を正確に計算する必要がある場合、避けられない二次時間複雑性に苦しむ。 これは、dtw計算を含む層が深刻なボトルネックを引き起こすディープラーニングアーキテクチャでの使用を妨げる。 これらの問題を緩和するため,我々は,最適なトランスポート (ot) フレームワークに基づく時系列データのための新しいメトリクスであるoptimize transport warping (otw) を導入する。 OTWは線形時間/空間の複雑さを享受し、微分可能で並列化することができる。 OTWは時間や形状の歪みに対して適度な感度を持ち、時系列に最適である。 ディープラーニングアーキテクチャにおけるDTWの代わりにOTWを用いる場合と同様に、1-Nearest Neighbor Classificationと階層クラスタリングにおけるOTWの有効性と有効性を示す。

Dynamic Time Warping (DTW) has become the pragmatic choice for measuring distance between time series. However, it suffers from unavoidable quadratic time complexity when the optimal alignment matrix needs to be computed exactly. This hinders its use in deep learning architectures, where layers involving DTW computations cause severe bottlenecks. To alleviate these issues, we introduce a new metric for time series data based on the Optimal Transport (OT) framework, called Optimal Transport Warping (OTW). OTW enjoys linear time/space complexity, is differentiable and can be parallelized. OTW enjoys a moderate sensitivity to time and shape distortions, making it ideal for time series. We show the efficacy and efficiency of OTW on 1-Nearest Neighbor Classification and Hierarchical Clustering, as well as in the case of using OTW instead of DTW in Deep Learning architectures.
翻訳日:2023-06-02 16:25:40 公開日:2023-06-01
# メタラーニングと代表バーバリザーによる効果的な構造化プロンプト

Effective Structured Prompting by Meta-Learning and Representative Verbalizer ( http://arxiv.org/abs/2306.00618v1 )

ライセンス: Link先を確認
Weisen Jiang, Yu Zhang, James T. Kwok(参考訳) MLM(Prompt tuning for pre-trained masked language model)は、ラベル付き例が少ない自然言語処理タスクにおいて有望な性能を示す。 下流タスクのプロンプトをチューニングし、予測されたトークンとラベル予測をブリッジするために動詞化器を使用する。 トレーニングデータが少ないため、プロンプトチューニングにはプロンプト初期化が不可欠である。 近年,メタプロンプティング (Hou et al., 2022) はメタラーニングを用いて,タスク固有のプロンプトの共有初期化を学習している。 しかし、タスクが複雑である場合、すべてのタスクやサンプルに対して適切なプロンプトを得るには、単一の初期化が不十分である。 さらに、MetaPromptingは、MLM全体をチューニングする必要があるため、MLMが通常大きいため、計算とメモリに大きな負担がかかる。 これらの問題に対処するために、プロンプトプールを使用して、より多くのタスク知識を抽出し、注意を通してインスタンス依存のプロンプトを構築する。 さらに,特徴埋め込みから直接ラベル埋め込みを構成する新しいソフト動詞化器(repverb)を提案する。 本稿では,プロンプトプールとRepVerbを組み合わせたメタプロンプターを提案する。 MetaPrompterは、調整が必要なプールのみであるため、パラメータ効率がよい。 実験結果から,MetaPrompterは最近の最先端言語よりも優れた性能を示し,RepVerbは既存のソフトな動詞処理器よりも優れていた。

Prompt tuning for pre-trained masked language models (MLM) has shown promising performance in natural language processing tasks with few labeled examples. It tunes a prompt for the downstream task, and a verbalizer is used to bridge the predicted token and label prediction. Due to the limited training data, prompt initialization is crucial for prompt tuning. Recently, MetaPrompting (Hou et al., 2022) uses meta-learning to learn a shared initialization for all task-specific prompts. However, a single initialization is insufficient to obtain good prompts for all tasks and samples when the tasks are complex. Moreover, MetaPrompting requires tuning the whole MLM, causing a heavy burden on computation and memory as the MLM is usually large. To address these issues, we use a prompt pool to extract more task knowledge and construct instance-dependent prompts via attention. We further propose a novel soft verbalizer (RepVerb) which constructs label embedding from feature embeddings directly. Combining meta-learning the prompt pool and RepVerb, we propose MetaPrompter for effective structured prompting. MetaPrompter is parameter-efficient as only the pool is required to be tuned. Experimental results demonstrate that MetaPrompter performs better than the recent state-of-the-arts and RepVerb outperforms existing soft verbalizers.
翻訳日:2023-06-02 16:25:25 公開日:2023-06-01
# 物理インフォームドニューラルモーション計画の進歩的学習

Progressive Learning for Physics-informed Neural Motion Planning ( http://arxiv.org/abs/2306.00616v1 )

ライセンス: Link先を確認
Ruiqi Ni and Ahmed H. Qureshi(参考訳) 運動計画(MP)は、与えられた開始状態と目標状態を結ぶ衝突のないロボット運動経路を見つけるための高速な方法を必要とする中核ロボティクス問題の1つである。 ニューラルモーションプランナー(NMP)は、経路解を見つける際に高速な計算速度を示すが、学習には膨大な量の専門的軌跡を必要とするため、かなりの計算負荷がかかる。 対照的に、最近の進歩は、運動計画のためのアイコン方程式を直接解き、学習のための専門家によるデモンストレーションを必要としない物理学的なNMPアプローチにつながっている。 しかし、物理インフォームドNMPアプローチは複雑な環境では性能が悪く、複数のシナリオでのスケーラビリティや高次元のロボット設定に欠けていた。 このような制約を克服するため,我々は,複雑な,散らばった,複数の高次元ロボット動作計画シナリオにおいて,ニューラルネットワークを訓練する新たな漸進的学習戦略を提案する。 その結果,提案手法は計算計画速度,パス品質,成功率において,従来のMP法,データ駆動型NMP法,物理インフォームドNMP法よりも優れていた。 また,我々のアプローチは,複数の複雑で雑然としたシナリオと,狭い通路環境に設定された実際のロボットにスケールできることを示した。 提案手法のビデオとコードの実装はhttps://github.com/ruiqini/P-NTFields.comで公開されている。

Motion planning (MP) is one of the core robotics problems requiring fast methods for finding a collision-free robot motion path connecting the given start and goal states. Neural motion planners (NMPs) demonstrate fast computational speed in finding path solutions but require a huge amount of expert trajectories for learning, thus adding a significant training computational load. In contrast, recent advancements have also led to a physics-informed NMP approach that directly solves the Eikonal equation for motion planning and does not require expert demonstrations for learning. However, experiments show that the physics-informed NMP approach performs poorly in complex environments and lacks scalability in multiple scenarios and high-dimensional real robot settings. To overcome these limitations, this paper presents a novel and tractable Eikonal equation formulation and introduces a new progressive learning strategy to train neural networks without expert data in complex, cluttered, multiple high-dimensional robot motion planning scenarios. The results demonstrate that our method outperforms state-of-the-art traditional MP, data-driven NMP, and physics-informed NMP methods by a significant margin in terms of computational planning speed, path quality, and success rates. We also show that our approach scales to multiple complex, cluttered scenarios and the real robot set up in a narrow passage environment. The proposed method's videos and code implementations are available at https://github.com/ruiqini/P-NTFields.
翻訳日:2023-06-02 16:25:02 公開日:2023-06-01
# VHF通信分野における海事領域の自動音声認識(ASR)の適応と最適化

Adaptation and Optimization of Automatic Speech Recognition (ASR) for the Maritime Domain in the Field of VHF Communication ( http://arxiv.org/abs/2306.00614v1 )

ライセンス: Link先を確認
Emin Cagatay Nakilcioglu, Maximilian Reimann, Ole John(参考訳) 本稿では,受信したvhf無線信号をテキストに自動変換する海上無線通信用多言語自動音声認識器(asr)を提案する。 まず,海上無線通信の課題について述べるとともに,音声処理技術と機械学習アルゴリズムからなるmalFMの深層学習アーキテクチャについて述べる。 その後,海事無線データを分析し,各種海事無線データに対するasrモデルの書き起こし性能評価を行う。

This paper introduces a multilingual automatic speech recognizer (ASR) for maritime radio communi-cation that automatically converts received VHF radio signals into text. The challenges of maritime radio communication are described at first, and the deep learning architecture of marFM consisting of audio processing techniques and machine learning algorithms is presented. Subsequently, maritime radio data of interest is analyzed and then used to evaluate the transcription performance of our ASR model for various maritime radio data.
翻訳日:2023-06-02 16:24:36 公開日:2023-06-01
# AD-PT:大規模ポイントクラウドデータセットによる自律走行事前訓練

AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset ( http://arxiv.org/abs/2306.00612v1 )

ライセンス: Link先を確認
Jiakang Yuan, Bo Zhang, Xiangchao Yan, Tao Chen, Botian Shi, Yikang Li, Yu Qiao(参考訳) 知覚モデルが大規模なポイントクラウドデータセットから学習し、さまざまなタスクやベンチマークで有望な結果を得ることができる統一された表現を得ることは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。 以前の作業は、主に自己教師付き事前トレーニングパイプラインに焦点を当てており、同じベンチマークで事前トレーニングと微調整を行うため、事前トレーニングチェックポイント用のパフォーマンススケーラビリティとクロスデータセットアプリケーションを達成するのは難しい。 本稿では,このような多種多様な事前学習データセットから汎用表現を学習しながら,多種多様なデータ分布を持つ大規模事前学習型ポイントクラウドデータセットの構築に初めてコミットする。 我々は、ポイントクラウド事前学習タスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模未ラベルのポイントクラウドデータを利用して、多くのベースラインモデルやベンチマークに直接適用可能な統一されたバックボーン表現を生成する。 バックボーン事前トレーニングの期間中,シーンレベルの分散の多様性を高め,未知のインスタンスから学習するバックボーンの能力を活用することで,PV-RCNN++,SECOND,CenterPointといったさまざまなベースラインモデルの下で,Waymo,nuScenes,KITTIといった一連の下流知覚ベンチマークにおいて,大幅なパフォーマンス向上を実現した。

It is a long-term vision for Autonomous Driving (AD) community that the perception models can learn from a large-scale point cloud dataset, to obtain unified representations that can achieve promising results on different tasks or benchmarks. Previous works mainly focus on the self-supervised pre-training pipeline, meaning that they perform the pre-training and fine-tuning on the same benchmark, which is difficult to attain the performance scalability and cross-dataset application for the pre-training checkpoint. In this paper, for the first time, we are committed to building a large-scale pre-training point-cloud dataset with diverse data distribution, and meanwhile learning generalizable representations from such a diverse pre-training dataset. We formulate the point-cloud pre-training task as a semi-supervised problem, which leverages the few-shot labeled and massive unlabeled point-cloud data to generate the unified backbone representations that can be directly applied to many baseline models and benchmarks, decoupling the AD-related pre-training process and downstream fine-tuning task. During the period of backbone pre-training, by enhancing the scene- and instance-level distribution diversity and exploiting the backbone's ability to learn from unknown instances, we achieve significant performance gains on a series of downstream perception benchmarks including Waymo, nuScenes, and KITTI, under different baseline models like PV-RCNN++, SECOND, CenterPoint.
翻訳日:2023-06-02 16:24:28 公開日:2023-06-01
# ハイブリッド相互情報推定の有効性について

On the Effectiveness of Hybrid Mutual Information Estimation ( http://arxiv.org/abs/2306.00608v1 )

ライセンス: Link先を確認
Marco Federici, David Ruhe, Patrick Forr\'e(参考訳) 共同分布からサンプルから相互情報を推定することは、科学と工学の両方において難しい問題である。 本研究では,識別的アプローチと生成的アプローチの両方を一般化する変動境界を実現する。 このバウンドを用いることで,それぞれの欠点を緩和するハイブリッド手法を提案する。 さらに,予測量子化法(pq)を提案する。この手法は,計算のオーバーヘッドを最小限に抑えるために,識別的推定器と容易に組み合わせることができる。 我々の提案は、推定値のばらつきの低減により、情報により強く結びつく。 本研究では,高次元ガウス分布を関連付ける課題と,固定エネルギー環境下の自由粒子系を含む確率過程について実験を行った。 実験の結果, ハイブリッド手法は, 相互情報推定を, 対応する判別法と比較して一貫して改善することがわかった。

Estimating the mutual information from samples from a joint distribution is a challenging problem in both science and engineering. In this work, we realize a variational bound that generalizes both discriminative and generative approaches. Using this bound, we propose a hybrid method to mitigate their respective shortcomings. Further, we propose Predictive Quantization (PQ): a simple generative method that can be easily combined with discriminative estimators for minimal computational overhead. Our propositions yield a tighter bound on the information thanks to the reduced variance of the estimator. We test our methods on a challenging task of correlated high-dimensional Gaussian distributions and a stochastic process involving a system of free particles subjected to a fixed energy landscape. Empirical results show that hybrid methods consistently improved mutual information estimates when compared to the corresponding discriminative counterpart.
翻訳日:2023-06-02 16:24:01 公開日:2023-06-01
# FACT:Federated Adversarial Cross Training

FACT: Federated Adversarial Cross Training ( http://arxiv.org/abs/2306.00607v1 )

ライセンス: Link先を確認
Stefan Schrod, Jonas Lippl, Andreas Sch\"afer, Michael Altenbuchinger(参考訳) フェデレーション学習(fl)は、複数の機密データソースを集約する分散モデル開発を促進する。 クライアント間の情報転送は、分散差、すなわち非i.d.データによって妥協される。 特に難しいシナリオは、アノテーション付きデータにアクセスせずにターゲットクライアントにフェデレーションモデルを適用することだ。 本稿では、ソースクライアント間の暗黙的なドメイン差を利用して、対象ドメイン内のドメインシフトを特定するFACT(Federated Adversarial Cross Training)を提案する。 flの各ラウンドにおいて、ファクトクロスは一対のソースクライアントを初期化し、ドメイン特化表現を生成し、ドメイン不変データ表現を学ぶための直接の敵として使用される。 実験により、FACTは3つの人気のあるマルチソースシングルターゲットベンチマークにおいて、最先端のフェデレーション、非フェデレーション、ソースフリーのドメイン適応モデル、および単一ソースシングルターゲット実験において、最先端のUnsupervised Domain Adaptation (UDA)モデルより優れていることを示す。 さらに、通信制限や参加顧客数に関して、FACTの行動について検討する。

Federated Learning (FL) facilitates distributed model development to aggregate multiple confidential data sources. The information transfer among clients can be compromised by distributional differences, i.e., by non-i.i.d. data. A particularly challenging scenario is the federated model adaptation to a target client without access to annotated data. We propose Federated Adversarial Cross Training (FACT), which uses the implicit domain differences between source clients to identify domain shifts in the target domain. In each round of FL, FACT cross initializes a pair of source clients to generate domain specialized representations which are then used as a direct adversary to learn a domain invariant data representation. We empirically show that FACT outperforms state-of-the-art federated, non-federated and source-free domain adaptation models on three popular multi-source-single-target benchmarks, and state-of-the-art Unsupervised Domain Adaptation (UDA) models on single-source-single-target experiments. We further study FACT's behavior with respect to communication restrictions and the number of participating clients.
翻訳日:2023-06-02 16:23:49 公開日:2023-06-01
# リアルタイム予算制約による安全オフライン強化学習

Safe Offline Reinforcement Learning with Real-Time Budget Constraints ( http://arxiv.org/abs/2306.00603v1 )

ライセンス: Link先を確認
Qian Lin, Bo Tang, Zifan Wu, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang(参考訳) safe real-world deployment of reinforcement learning (rl) の推進を目指して,safe rlの研究が近年,大きな進展を遂げている。 しかし、既存の文献の多くは、トレーニング中に安全予算の危険な違反が引き起こされる可能性の高いオンライン環境に焦点を当てている。 さらに、多くの現実世界のアプリケーションでは、学習したポリシーが動的に決定された安全予算(すなわち制約しきい値)にリアルタイムで応答する必要がある。 本稿では,オフライン環境でのリアルタイム予算制約問題を対象として,軌道分布の観点からこの問題にアプローチする新たな解決策として,軌道ベースリアルタイム予算推論(trebi)を提案する。 理論的には,オフライン環境でのエピソディック報酬とコストに対する推定誤差のバウンドを証明し,trebiの性能保証を提供する。 幅広いシミュレーションタスクと実世界の大規模広告アプリケーションにおける経験的な結果から,オフライン環境でのリアルタイム予算制約問題を解決する上で,trebiの能力が示された。

Aiming at promoting the safe real-world deployment of Reinforcement Learning (RL), research on safe RL has made significant progress in recent years. However, most existing works in the literature still focus on the online setting where risky violations of the safety budget are likely to be incurred during training. Besides, in many real-world applications, the learned policy is required to respond to dynamically determined safety budgets (i.e., constraint threshold) in real time. In this paper, we target at the above real-time budget constraint problem under the offline setting, and propose Trajectory-based REal-time Budget Inference (TREBI) as a novel solution that approaches this problem from the perspective of trajectory distribution. Theoretically, we prove an error bound of the estimation on the episodic reward and cost under the offline setting and thus provide a performance guarantee for TREBI. Empirical results on a wide range of simulation tasks and a real-world large-scale advertising application demonstrate the capability of TREBI in solving real-time budget constraint problems under offline settings.
翻訳日:2023-06-02 16:23:28 公開日:2023-06-01
# 縮尺密度推定のための近似ステインクラス

Approximate Stein Classes for Truncated Density Estimation ( http://arxiv.org/abs/2306.00602v1 )

ライセンス: Link先を確認
Daniel J. Williams, Song Liu(参考訳) これらのモデルは、難解な正規化定数を持ち、境界条件を満たすのが困難である。 スコアマッチングは、断続的な密度推定問題を解くために適用できるが、境界でゼロで他の場所では正である連続的な重み付け関数を必要とする。 このような重み関数(とその勾配)の評価には、しばしば切断境界の閉形式表現と複雑な最適化問題の解を求める必要がある。 本稿では, 閉包密度推定のための緩和されたスタイン恒等式を導出する近似シュタインクラスを提案する。 重み付け関数の修正を事前に必要とせず,境界上のサンプルのみを用いて評価可能な,新しい不一致尺度であるtksd(truncated kernelized stein discrepancy)を開発した。 我々は, tksd のラグランジュ双対を最小化することで, 断続密度モデルを推定する。 最後に, 境界の明示的な機能形式がなくても, 従来の手法よりも精度が向上することを示す実験を行った。

Estimating truncated density models is difficult, as these models have intractable normalising constants and hard to satisfy boundary conditions. Score matching can be adapted to solve the truncated density estimation problem, but requires a continuous weighting function which takes zero at the boundary and is positive elsewhere. Evaluation of such a weighting function (and its gradient) often requires a closed-form expression of the truncation boundary and finding a solution to a complicated optimisation problem. In this paper, we propose approximate Stein classes, which in turn leads to a relaxed Stein identity for truncated density estimation. We develop a novel discrepancy measure, truncated kernelised Stein discrepancy (TKSD), which does not require fixing a weighting function in advance, and can be evaluated using only samples on the boundary. We estimate a truncated density model by minimising the Lagrangian dual of TKSD. Finally, experiments show the accuracy of our method to be an improvement over previous works even without the explicit functional form of the boundary.
翻訳日:2023-06-02 16:23:10 公開日:2023-06-01
# 光モダリティを欠いたマルチモーダル都市マッピングのためのマルチモーダル深層学習

Multi-Modal Deep Learning for Multi-Temporal Urban Mapping With a Partly Missing Optical Modality ( http://arxiv.org/abs/2306.00640v1 )

ライセンス: Link先を確認
Sebastian Hafner and Yifang Ban(参考訳) 本稿では,Sentinel-1 Synthetic Aperture Radar (SAR) とSentinel-2 Multi Spectral Instrument (MSI) のマルチモーダル衛星データを用いた新しい都市マッピング手法を提案する。 特に、雲による部分的に欠けた光学的モダリティの問題に焦点が当てられている。 提案モデルは2つのネットワークを用いて各モダリティから特徴を抽出する。 また、再構成ネットワークを用いて、光学モードが欠落した場合のSARデータに基づいて光学特性を近似する。 Sentinel-1 SARとSentinel-2 MSIデータを用いた多時間都市マッピングデータセットの実験により、提案手法は、欠落した光学データの代わりにゼロ値を用いるマルチモーダル手法、および一様SARに基づく手法よりも優れていることを示した。 したがって,本手法は利用可能であればマルチモーダルデータの活用に有効であるが,光学的モーダル性が欠落しても有効性が保たれる。

This paper proposes a novel multi-temporal urban mapping approach using multi-modal satellite data from the Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Instrument (MSI) missions. In particular, it focuses on the problem of a partly missing optical modality due to clouds. The proposed model utilizes two networks to extract features from each modality separately. In addition, a reconstruction network is utilized to approximate the optical features based on the SAR data in case of a missing optical modality. Our experiments on a multi-temporal urban mapping dataset with Sentinel-1 SAR and Sentinel-2 MSI data demonstrate that the proposed method outperforms a multi-modal approach that uses zero values as a replacement for missing optical data, as well as a uni-modal SAR-based approach. Therefore, the proposed method is effective in exploiting multi-modal data, if available, but it also retains its effectiveness in case the optical modality is missing.
翻訳日:2023-06-02 16:14:52 公開日:2023-06-01
# 誰に正しい理由があるのか?

Being Right for Whose Right Reasons? ( http://arxiv.org/abs/2306.00639v1 )

ライセンス: Link先を確認
Terne Sasha Thorn Jakobsen, Laura Cabello, Anders S{\o}gaard(参考訳) 説明可能性法は、モデル予測が人間の合理性、すなわち「正しい理由のために正しい」程度をベンチマークするために用いられる。 しかし、それまでの研究は、理性として数えられるものは時々主観的であると認めなかった。 本稿では,アノテータの人口統計情報を付加した人間の合理化アノテーションのコレクションである,その第1種と考えられるものについて述べる。 感情分析と常識推論にまたがる3つのデータセットと6つの人口集団(年齢と民族のバランス)をカバーしています。 このようなデータによって、予測がどの年齢層に合致するか、モデルの理論的根拠が合致するかを問うことができます。 系統的なグループ間アノテータの不一致を発見し、16のトランスフォーマーベースのモデルが、特定の人口集団によって提供される有理性とどのように一致しているかを示す。 我々は、モデルサイズとモデル蒸留の効果を拡大し、モデルサイズと合理化合意の間の負の相関を見いだすとともに、モデルサイズまたはモデル蒸留が公正性を改善するという証拠も示さない。

Explainability methods are used to benchmark the extent to which model predictions align with human rationales i.e., are 'right for the right reasons'. Previous work has failed to acknowledge, however, that what counts as a rationale is sometimes subjective. This paper presents what we think is a first of its kind, a collection of human rationale annotations augmented with the annotators demographic information. We cover three datasets spanning sentiment analysis and common-sense reasoning, and six demographic groups (balanced across age and ethnicity). Such data enables us to ask both what demographics our predictions align with and whose reasoning patterns our models' rationales align with. We find systematic inter-group annotator disagreement and show how 16 Transformer-based models align better with rationales provided by certain demographic groups: We find that models are biased towards aligning best with older and/or white annotators. We zoom in on the effects of model size and model distillation, finding -- contrary to our expectations -- negative correlations between model size and rationale agreement as well as no evidence that either model size or model distillation improves fairness.
翻訳日:2023-06-02 16:14:32 公開日:2023-06-01
# ビザンチンロバストクラスター型フェデレート学習

Byzantine-Robust Clustered Federated Learning ( http://arxiv.org/abs/2306.00638v1 )

ライセンス: Link先を確認
Zhixu Tao, Kun Yang, Sanjeev R. Kulkarni(参考訳) 本稿では,非ビザンチンマシンを非接続クラスタに分割可能なフェデレーテッドラーニング環境において,ビザンチンマシンからの敵攻撃の問題に焦点をあてる。 この設定では、同一クラスタ内の非ビザンチンマシンは同じ基盤データ分布を持ち、非ビザンチンマシンの異なるクラスタは異なる学習タスクを持つ。 ビザンチンマシンはあらゆるクラスタを敵に攻撃し、攻撃するクラスタのトレーニングプロセスを妨害することができる。 ビザンチンマシンの存在下で、我々の研究の目的は、非ビザンチンマシンのクラスタメンバシップを特定し、各クラスタが学習したモデルを最適化することである。 我々は,GhoshらによるIFCA(Iterative Federated Clustering Algorithm)フレームワークを用いて,クラスタメンバシップを推定し,モデルを最適化する。 この枠組みをビザンチンマシンの敵攻撃に対して堅牢にするために、Yinらによって2018年に開発された座標ワイド平均および座標ワイド中央集約法を用いる。 具体的には,ghosh et al.(2019)の結果を改善するために,新たなビザンチン・ロバスト反復フェデレーションクラスタリングアルゴリズムを提案する。 強凸損失関数に対するこのアルゴリズムの収束率を証明した。 本研究では,既存のアルゴリズムの収束率と比較し,シミュレーションデータを用いたアルゴリズムの性能を示す。

This paper focuses on the problem of adversarial attacks from Byzantine machines in a Federated Learning setting where non-Byzantine machines can be partitioned into disjoint clusters. In this setting, non-Byzantine machines in the same cluster have the same underlying data distribution, and different clusters of non-Byzantine machines have different learning tasks. Byzantine machines can adversarially attack any cluster and disturb the training process on clusters they attack. In the presence of Byzantine machines, the goal of our work is to identify cluster membership of non-Byzantine machines and optimize the models learned by each cluster. We adopt the Iterative Federated Clustering Algorithm (IFCA) framework of Ghosh et al. (2020) to alternatively estimate cluster membership and optimize models. In order to make this framework robust against adversarial attacks from Byzantine machines, we use coordinate-wise trimmed mean and coordinate-wise median aggregation methods used by Yin et al. (2018). Specifically, we propose a new Byzantine-Robust Iterative Federated Clustering Algorithm to improve on the results in Ghosh et al. (2019). We prove a convergence rate for this algorithm for strongly convex loss functions. We compare our convergence rate with the convergence rate of an existing algorithm, and we demonstrate the performance of our algorithm on simulated data.
翻訳日:2023-06-02 16:14:10 公開日:2023-06-01
# Wuerstchen: テキスト-画像モデルの効率的な事前学習

Wuerstchen: Efficient Pretraining of Text-to-Image Models ( http://arxiv.org/abs/2306.00637v1 )

ライセンス: Link先を確認
Pablo Pernias, Dominic Rampas and Marc Aubreville(参考訳) 本稿では,競争性能と前例のないコスト効率と制約付きハードウェアのトレーニングの容易さを組み合わせた,テキストから画像への合成技術であるwwerstchenを紹介する。 機械学習の最近の進歩を基盤として,強力な遅延画像圧縮速度で潜時拡散戦略を利用する手法は,画像の質を保ちながら,通常最先端のモデルと関連する計算負担を大幅に削減する。 Wuerstchenは推論時に顕著なスピード改善を実現し、リアルタイムアプリケーションをより有効にレンダリングする。 我々の方法の主な利点の1つは、わずか9,200GPU時間という控えめなトレーニング要件であり、最終的なパフォーマンスを損なうことなく、通常のコストを大幅に削減する。 state-of-the-artとの比較で、強い競争力を得るためのアプローチを見出した。 本稿では、パフォーマンスと計算アクセシビリティの両方を優先し、高度なAI技術の利用を民主化する新しい研究の道を開く。 Wuerstchenを通じて、テキストと画像の合成という領域における魅力的な進歩を実証し、将来の研究を探求する革新的な道筋を提供する。

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.
翻訳日:2023-06-02 16:13:48 公開日:2023-06-01
# 不公平なユーティリティと最初のステップ

Unfair Utilities and First Steps Towards Improving Them ( http://arxiv.org/abs/2306.00636v1 )

ライセンス: Link先を確認
Frederik Hytting J{\o}rgensen, Sebastian Weichwald, Jonas Peters(参考訳) 多くの公正基準は、予測者のポリシーや選択を制約する。 本研究では,公正性を考えるための異なる枠組みを提案する。政策や予測者の選択を制約するのではなく,政策が最適化しているユーティリティを考える。 情報フェアネスの価値を定義し、この基準を満たさないユーティリティを使わないよう提案する。 この公正な基準を満たすためにユーティリティをどう修正するかを説明し、これが対応する最適ポリシーに与える影響について議論する。

Many fairness criteria constrain the policy or choice of predictors. In this work, we propose a different framework for thinking about fairness: Instead of constraining the policy or choice of predictors, we consider which utility a policy is optimizing for. We define value of information fairness and propose to not use utilities that do not satisfy this criterion. We describe how to modify a utility to satisfy this fairness criterion and discuss the consequences this might have on the corresponding optimal policies.
翻訳日:2023-06-02 16:13:28 公開日:2023-06-01
# Experiential AI: AIの正当性とエージェンシーのための学際的フレームワーク

Experiential AI: A transdisciplinary framework for legibility and agency in AI ( http://arxiv.org/abs/2306.00635v1 )

ライセンス: Link先を確認
Drew Hemment, Dave Murray-Rust, Vaishak Belle, Ruth Aylett, Matjaz Vidmar and Frank Broz(参考訳) 実験AIは、人間と機械の絡み合いを調べるために科学者と芸術家が集まる研究のアジェンダとして提示され、経験の変換を通じて知識が生み出される人間と機械の学習と開発へのアプローチである。 この論文は、説明可能なAIの分野における進歩と限界、芸術がこれらの制限に対処するための貢献、新しい技術と共に創造的な実践をもたらす方法、そして新しい社会技術システムに光を当てる豊かな体験を生み出すための方法、そして、公開人、科学者、実践者がAIについて考える方法を変えることについて議論する。

Experiential AI is presented as a research agenda in which scientists and artists come together to investigate the entanglements between humans and machines, and an approach to human-machine learning and development where knowledge is created through the transformation of experience. The paper discusses advances and limitations in the field of explainable AI; the contribution the arts can offer to address those limitations; and methods to bring creative practice together with emerging technology to create rich experiences that shed light on novel socio-technical systems, changing the way that publics, scientists and practitioners think about AI.
翻訳日:2023-06-02 16:13:20 公開日:2023-06-01
# コンテンツベース画像検索におけるクラスアンカーマージン損失

Class Anchor Margin Loss for Content-Based Image Retrieval ( http://arxiv.org/abs/2306.00630v1 )

ライセンス: Link先を確認
Alexandru Ghita and Radu Tudor Ionescu(参考訳) コンテンツベース画像検索(CBIR)におけるニューラルネットワークの性能は、選択された損失(客観的)関数の影響が大きい。 ニューラルネットワークの客観的関数の大部分は、メトリック学習と統計学習に分けられる。 メトリクス学習アプローチは効率を欠くペアマイニング戦略を必要とするが、統計学習アプローチは間接的特徴最適化のために高度にコンパクトな特徴を生成していない。 そこで本研究では,ペアを生成する必要なしに,L2メトリックに対して直接最適化できる新しいレペラ・トラクタ損失を提案する。 私たちの損失は3つの要素から成り立っている。 1つの主要な目的は、学習可能な各クラスアンカーに学習された特徴を引き付けることである。 第2の損失成分はアンカーを規制し、マージンで分離させ、第3の目標はアンカーがゼロに崩壊しないことを保証する。 さらに,学習したクラスアンカーを検索プロセスの第1段階で活用し,データベース内の各画像とクエリを比較する必要をなくし,より効率的な2段階検索システムを開発する。 提案する4つのデータセット (CIFAR-100, Food-101, SVHN, Tiny ImageNet) を構築し, 畳み込みアーキテクチャとトランスフォーマーアーキテクチャの両方を用いてCBIRタスクにおける少数ショットおよびフルセットトレーニングの文脈において, 提案する目的を評価する。 既存の目的関数と比較して,提案する目的がより優れた,より一貫性のある結果を生み出すことを示している。

The performance of neural networks in content-based image retrieval (CBIR) is highly influenced by the chosen loss (objective) function. The majority of objective functions for neural models can be divided into metric learning and statistical learning. Metric learning approaches require a pair mining strategy that often lacks efficiency, while statistical learning approaches are not generating highly compact features due to their indirect feature optimization. To this end, we propose a novel repeller-attractor loss that falls in the metric learning paradigm, yet directly optimizes for the L2 metric without the need of generating pairs. Our loss is formed of three components. One leading objective ensures that the learned features are attracted to each designated learnable class anchor. The second loss component regulates the anchors and forces them to be separable by a margin, while the third objective ensures that the anchors do not collapse to zero. Furthermore, we develop a more efficient two-stage retrieval system by harnessing the learned class anchors during the first stage of the retrieval process, eliminating the need of comparing the query with every image in the database. We establish a set of four datasets (CIFAR-100, Food-101, SVHN, and Tiny ImageNet) and evaluate the proposed objective in the context of few-shot and full-set training on the CBIR task, by using both convolutional and transformer architectures. Compared to existing objective functions, our empirical evidence shows that the proposed objective is generating superior and more consistent results.
翻訳日:2023-06-02 16:13:07 公開日:2023-06-01
# 制約付き逆強化学習における識別性と一般化可能性

Identifiability and Generalizability in Constrained Inverse Reinforcement Learning ( http://arxiv.org/abs/2306.00629v1 )

ライセンス: Link先を確認
Andreas Schlaginhaufen, Maryam Kamgarpour(参考訳) 強化学習(rl)における2つの大きな課題は、適切な報酬機能の設計と学習方針の安全性の確保である。 これらの課題に対処するために,マルコフ決定過程における逆強化学習(IRL)の理論的枠組みを提案する。 凸解析の観点から、制約された設定とより一般的な正規化のクラスの両方に対して、報酬識別可能性および一般化可能性に関する事前結果を拡張する。 特に、潜在的なシェーピング(cao et al., 2021)までの識別性はエントロピー正規化の結果であり、一般に他の正規化や安全制約の存在下では保持されない。 また,新しい遷移法則や制約への一般化性を保証するためには,真の報酬を一定まで特定する必要があることを示す。 さらに、学習した報酬の最適度に対する有限サンプル保証を導出し、グリッドワールド環境における結果の検証を行う。

Two main challenges in Reinforcement Learning (RL) are designing appropriate reward functions and ensuring the safety of the learned policy. To address these challenges, we present a theoretical framework for Inverse Reinforcement Learning (IRL) in constrained Markov decision processes. From a convex-analytic perspective, we extend prior results on reward identifiability and generalizability to both the constrained setting and a more general class of regularizations. In particular, we show that identifiability up to potential shaping (Cao et al., 2021) is a consequence of entropy regularization and may generally no longer hold for other regularizations or in the presence of safety constraints. We also show that to ensure generalizability to new transition laws and constraints, the true reward must be identified up to a constant. Additionally, we derive a finite sample guarantee for the suboptimality of the learned rewards, and validate our results in a gridworld environment.
翻訳日:2023-06-02 16:12:41 公開日:2023-06-01
# スマートフォンにおけるユーザ回答の品質に影響を及ぼす要因

Factors Impacting the Quality of User Answers on Smartphones ( http://arxiv.org/abs/2306.00627v1 )

ライセンス: Link先を確認
Ivano Bison, Haonan Zhao(参考訳) これまでのところ、移動性や社会的相互作用といった人間の行動の予測可能性に関する研究は、主にセンサデータの利用に焦点を当てている。 しかし,センサデータは,個人の行動の背後にある主観的動機を捉えることが困難である。 個人的コンテキスト(例えば、どこにいて、何をしているのか)を理解することは、予測可能性を大きく向上させる。 主な制限は、人間の入力がしばしば欠落または不正確であることである。 本研究の目的は,ユーザが現在の状況について質問した場合の応答品質に影響を与える要因を特定することである。 ユーザの反応時間と完了時間という,2つの重要な要因が応答の質に影響を与えることが分かりました。 これらの要因は、様々な外因性原因(状況状況、日時など)と内因性要因(先天的態度、気分など)と相関する。 この2つの要因が反応の質に与える影響について検討する。

So far, most research investigating the predictability of human behavior, such as mobility and social interactions, has focused mainly on the exploitation of sensor data. However, sensor data can be difficult to capture the subjective motivations behind the individuals' behavior. Understanding personal context (e.g., where one is and what they are doing) can greatly increase predictability. The main limitation is that human input is often missing or inaccurate. The goal of this paper is to identify factors that influence the quality of responses when users are asked about their current context. We find that two key factors influence the quality of responses: user reaction time and completion time. These factors correlate with various exogenous causes (e.g., situational context, time of day) and endogenous causes (e.g., procrastination attitude, mood). In turn, we study how these two factors impact the quality of responses.
翻訳日:2023-06-02 16:12:25 公開日:2023-06-01
# 潜伏する共同創設者の存在下での時間的から同時的な反復的因果発見

From Temporal to Contemporaneous Iterative Causal Discovery in the Presence of Latent Confounders ( http://arxiv.org/abs/2306.00624v1 )

ライセンス: Link先を確認
Raanan Y. Rohekar, Shami Nisimov, Yaniv Gurwicz, Gal Novik(参考訳) 本稿では,観測時系列データから因果構造を学習するための制約に基づくアルゴリズムを提案する。 我々は時間的および同時的因果関係を持つ離散時間、定常的構造的ベクトル自己回帰過程を仮定する。 時間的・同時的な関係を別々に扱うべきかを問うことができる。 提案アルゴリズムは,同時期関係が最後に学習される短期関係の前に長期時間関係を学習することで,因果グラフを徐々に洗練させる。 この因果関係の順序付けは、必要な統計テストの数を減らすことに繋がる。 この削減を経験的に検証し,実世界のデータに対する合成データの精度と,最先端のアルゴリズムと比較してより正確な因果グラフをもたらすことを実証する。

We present a constraint-based algorithm for learning causal structures from observational time-series data, in the presence of latent confounders. We assume a discrete-time, stationary structural vector autoregressive process, with both temporal and contemporaneous causal relations. One may ask if temporal and contemporaneous relations should be treated differently. The presented algorithm gradually refines a causal graph by learning long-term temporal relations before short-term ones, where contemporaneous relations are learned last. This ordering of causal relations to be learnt leads to a reduction in the required number of statistical tests. We validate this reduction empirically and demonstrate that it leads to higher accuracy for synthetic data and more plausible causal graphs for real-world data compared to state-of-the-art algorithms.
翻訳日:2023-06-02 16:12:11 公開日:2023-06-01
# 臨床用語の自動用語集:オントロジー知識による生物医学的定義の大規模辞書

Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of Biomedical Definitions Generated from Ontological Knowledge ( http://arxiv.org/abs/2306.00665v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy, Thomas Demeester(参考訳) 背景: 包括的生物医学的オントロジーであるSnomedCTには, 400,000以上の生物医学的概念とその関係のいくつかが含まれている。 しかし、その概念名は必ずしも非専門家や自身の電子健康記録(EHR)を見ている患者によって容易に解釈できるわけではない。 理解可能な言語の明確な定義や記述は、しばしば利用できない。 したがって、バイオメディカルな概念のための人間可読な定義を生成することは、より広く一般にアクセスしやすく理解しやすい情報を生み出すのに役立つかもしれない。 目的:本論文では,SnomedCTに含まれるバイオメディカル知識から抽出した高品質な情報を用いて,臨床概念の大規模バイオメディカル辞書であるAGCTについて紹介する。 GPT 3.5の変種である OpenAI Turbo モデルを,to-be-defined 概念の SnomedCT 関係の高品質な言語化を用いて,各 SnomedCT 概念に対して新たな定義を生成する。 生成された定義のかなりのサブセットは、事実性、洞察、流布の3つの軸に沿った5点スケールのバイオメディカルな専門知識を持つNLP研究者によって判断された。 結果:AGCTには,SnomedCT概念のコンピュータ生成定義が422,070個含まれており,疾患,処置,薬物,解剖などの領域を網羅している。 定義の平均長は49語である。 これらの定義は3つの軸の5点中4.5点以上のスコアが割り当てられており、事実的、洞察的、流動的な定義の大部分を示している。 結論: AGCTは,SnomedCT概念の可読性定義を必要とする生物医学的タスクのための,新規かつ貴重な資源である。 また、バイオメディカル知識の自然言語理解を活用した堅牢なバイオメディカル検索モデルや他のアプリケーションの開発基盤としても機能する。

Background: More than 400,000 biomedical concepts and some of their relationships are contained in SnomedCT, a comprehensive biomedical ontology. However, their concept names are not always readily interpretable by non-experts, or patients looking at their own electronic health records (EHR). Clear definitions or descriptions in understandable language are often not available. Therefore, generating human-readable definitions for biomedical concepts might help make the information they encode more accessible and understandable to a wider public. Objective: In this article, we introduce the Automatic Glossary of Clinical Terminology (AGCT), a large-scale biomedical dictionary of clinical concepts generated using high-quality information extracted from the biomedical knowledge contained in SnomedCT. Methods: We generate a novel definition for every SnomedCT concept, after prompting the OpenAI Turbo model, a variant of GPT 3.5, using a high-quality verbalization of the SnomedCT relationships of the to-be-defined concept. A significant subset of the generated definitions was subsequently judged by NLP researchers with biomedical expertise on 5-point scales along the following three axes: factuality, insight, and fluency. Results: AGCT contains 422,070 computer-generated definitions for SnomedCT concepts, covering various domains such as diseases, procedures, drugs, and anatomy. The average length of the definitions is 49 words. The definitions were assigned average scores of over 4.5 out of 5 on all three axes, indicating a majority of factual, insightful, and fluent definitions. Conclusion: AGCT is a novel and valuable resource for biomedical tasks that require human-readable definitions for SnomedCT concepts. It can also serve as a base for developing robust biomedical retrieval models or other applications that leverage natural language understanding of biomedical knowledge.
翻訳日:2023-06-02 16:07:33 公開日:2023-06-01
# 翻訳学習によるポーランド語から英語へのニューラルマシン翻訳の改善:データボリュームと言語類似性の影響

Improving Polish to English Neural Machine Translation with Transfer Learning: Effects of Data Volume and Language Similarity ( http://arxiv.org/abs/2306.00660v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Karol Nowakowski, Zheng Lin Chia, Fumito Masui(参考訳) 本稿では,機械翻訳タスクにおけるデータ量と類似言語の使用がトランスファー学習に与える影響について検討する。 より多くのデータを持つことで、モデルがデータからより多くのパターンや一般化を学ぶことができるため、一般的にパフォーマンスが向上する。 しかし、モデルが言語間の類似性を利用してパフォーマンスを向上させることができるため、特定の言語ペアに限られたデータがある場合、関連する言語は特に効果的である。 そこで我々は,OPUS-100データセットを用いてポーランド語翻訳タスクのmBARTモデルを微調整した。 異なる転送ソース言語やポーランド語用ショットレベルを含む,様々な転送学習構成下でのモデルの性能を評価し,その結果を報告する。 実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。 さらに、ゼロショットおよび少数ショット構成における関連言語の重要性を示す。

This paper investigates the impact of data volume and the use of similar languages on transfer learning in a machine translation task. We find out that having more data generally leads to better performance, as it allows the model to learn more patterns and generalizations from the data. However, related languages can also be particularly effective when there is limited data available for a specific language pair, as the model can leverage the similarities between the languages to improve performance. To demonstrate, we fine-tune mBART model for a Polish-English translation task using the OPUS-100 dataset. We evaluate the performance of the model under various transfer learning configurations, including different transfer source languages and different shot levels for Polish, and report the results. Our experiments show that a combination of related languages and larger amounts of data outperforms the model trained on related languages or larger amounts of data alone. Additionally, we show the importance of related languages in zero-shot and few-shot configurations.
翻訳日:2023-06-02 16:07:03 公開日:2023-06-01
# NeuroGF: 高速測地距離と経路クエリのためのニューラル表現

NeuroGF: A Neural Representation for Fast Geodesic Distance and Path Queries ( http://arxiv.org/abs/2306.00658v1 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yohanes Yudhi Adikusuma, Wenping Wang, Ying He(参考訳) 測地学は幾何処理の多くの応用において必須である。 しかし、3dメッシュモデル上で測地距離や経路を計算する従来のアルゴリズムはしばしば非効率で遅い。 これにより、任意の点から点への測地線を広範囲に問合せする必要のあるシナリオでは実用的でない。 ニューラル暗示表現は3次元形状の幾何学を表現する一般的な方法として現れているが、深い暗示関数を持つ測地学を表現する研究はいまだにない。 このギャップを埋めるために,ニューラル暗黙関数を用いた3次元メッシュモデル上での測地学の表現を初めて試みる。 具体的には,与えられたメッシュの全ペア測地線を表現するために学習されるニューラルジオデシックフィールド(neurogfs)を導入する。 ニューロgfを用いることで,従来のアルゴリズムの限界を克服し,任意の測地距離と経路の問合せを効率的に正確に解くことができる。 一般的な3Dモデルによる評価では、NeuroGFsは単一ソースのオールデスティネーション(SSAD)とポイント・ツー・ポイントのジオデシクスを解くのに優れた性能を示し、常に高い精度を達成する。 さらに、NeuroGFsは3次元幾何学と測地学の両方を統一表現で符号化するユニークな利点を提供する。 コードはhttps://github.com/keeganhk/neurogf/tree/masterで入手できる。

Geodesics are essential in many geometry processing applications. However, traditional algorithms for computing geodesic distances and paths on 3D mesh models are often inefficient and slow. This makes them impractical for scenarios that require extensive querying of arbitrary point-to-point geodesics. Although neural implicit representations have emerged as a popular way of representing 3D shape geometries, there is still no research on representing geodesics with deep implicit functions. To bridge this gap, this paper presents the first attempt to represent geodesics on 3D mesh models using neural implicit functions. Specifically, we introduce neural geodesic fields (NeuroGFs), which are learned to represent the all-pairs geodesics of a given mesh. By using NeuroGFs, we can efficiently and accurately answer queries of arbitrary point-to-point geodesic distances and paths, overcoming the limitations of traditional algorithms. Evaluations on common 3D models show that NeuroGFs exhibit exceptional performance in solving the single-source all-destination (SSAD) and point-to-point geodesics, and achieve high accuracy consistently. Moreover, NeuroGFs offer the unique advantage of encoding both 3D geometry and geodesics in a unified representation. Code is made available at https://github.com/keeganhk/NeuroGF/tree/master.
翻訳日:2023-06-02 16:06:48 公開日:2023-06-01
# 視覚強化学習における正規化の一般化

Normalization Enhances Generalization in Visual Reinforcement Learning ( http://arxiv.org/abs/2306.00656v1 )

ライセンス: Link先を確認
Lu Li, Jiafei Lyu, Guozheng Ma, Zilin Wang, Zhenjie Yang, Xiu Li, Zhiheng Li(参考訳) 近年の視覚強化学習(RL)は,複雑なタスクの処理において顕著な成功を収めている。 しかし、これらの手法は視覚障害に対する限定的な一般化能力を示しており、現実の応用と適応性に大きな課題をもたらす。 正規化技術は教師付き学習や教師なし学習において大きな成功を収めてきたが、視覚的RLの応用はいまだに乏しい。 本稿では,一般化性能に関して,正規化を視覚的RL手法に統合する可能性について検討する。 意外なことに、適切な正規化技術を組み込むことは、特別な設計をせずに一般化能力を高めるのに十分である。 一般化可能な視覚的RLには、CrossNormとSelfNormの2つの正規化手法を組み合わせる。 DMControl Generalization Benchmark と CARLA を用いて実験を行い,本手法の有効性を検証した。 本手法は, サンプル効率に限らず, 一般化能力を大幅に向上することを示す。 特に,drq-v2と統合すると,トレーニング性能の14%から97%まで,carlaにおけるdrq-v2のテスト性能が向上する。

Recent advances in visual reinforcement learning (RL) have led to impressive success in handling complex tasks. However, these methods have demonstrated limited generalization capability to visual disturbances, which poses a significant challenge for their real-world application and adaptability. Though normalization techniques have demonstrated huge success in supervised and unsupervised learning, their applications in visual RL are still scarce. In this paper, we explore the potential benefits of integrating normalization into visual RL methods with respect to generalization performance. We find that, perhaps surprisingly, incorporating suitable normalization techniques is sufficient to enhance the generalization capabilities, without any additional special design. We utilize the combination of two normalization techniques, CrossNorm and SelfNorm, for generalizable visual RL. Extensive experiments are conducted on DMControl Generalization Benchmark and CARLA to validate the effectiveness of our method. We show that our method significantly improves generalization capability while only marginally affecting sample efficiency. In particular, when integrated with DrQ-v2, our method enhances the test performance of DrQ-v2 on CARLA across various scenarios, from 14% of the training performance to 97%.
翻訳日:2023-06-02 16:06:23 公開日:2023-06-01
# 直交群対称性の下での$k$-陽性とシュミット数

$k$-positivity and Schmidt number under orthogonal group symmetries ( http://arxiv.org/abs/2306.00654v1 )

ライセンス: Link先を確認
Sang-Jun Park, Sang-Gyun Youn(参考訳) 本稿では,標準直交群対称性の下で,k$-positivity と schmidt number について検討する。 シュミット数は量子情報理論における量子絡み合いの測度として広く用いられている。 まず、すべての$k$-正の直交共変写像の完全な特徴づけを示す。 これは [Tom85] の前の結果を一般化する。 次に、いくつかの平均化手法を最適化し、直交共変写像と直交不変作用素の間の双対関係を確立する。 この新たな枠組みにより、直交不変量子状態のシュミット数を効果的に計算できる。

In this paper, we study $k$-positivity and Schmidt number under standard orthogonal group symmetries. The Schmidt number is a widely used measure of quantum entanglement in quantum information theory. First of all, we exhibit a complete characterization of all $k$-positive orthogonally covariant maps. This generalizes the earlier results in [Tom85]. Then, we optimize some averaging techniques to establish duality relations between orthogonally covariant maps and orthogonally invariant operators. This new framework enables us to effectively compute the Schmidt numbers of all orthogonally invariant quantum states.
翻訳日:2023-06-02 16:06:04 公開日:2023-06-01
# 合成グラフを用いた生成事前学習による説明グラフ生成

Explanation Graph Generation via Generative Pre-training over Synthetic Graphs ( http://arxiv.org/abs/2306.00652v1 )

ライセンス: Link先を確認
Han Cui, Shangzhan Li, Yu Zhang and Qi Shi(参考訳) 説明グラフの生成は、ユーザ入力に応じて説明グラフを作成することを目的とした重要なタスクであり、内部推論プロセスを明らかにする。 このタスクは、構造化されていないユーザクエリと構造化された説明グラフの間の大きな不一致のために難しい。 現在の研究では、ラベル付きグラフで注釈付けされた小さな下流データセット上で、テキストベースの事前学習言語モデルを微調整するのが一般的である。 しかし、利用可能なデータセットのスケールが限られているため、このアプローチは自然言語テキストと構造化グラフの間のギャップを埋めるのに不十分である可能性がある。 本稿では、上記の制約を緩和するために、説明グラフ生成タスクのための新しい事前学習フレームワークeg3p(生成事前学習による説明グラフ生成)を提案する。 具体的には,まず,テキストとグラフのギャップを橋渡しすることを目的として,モデルを事前学習するテキストからグラフへの生成タスクを提案する。 さらに,大規模な高品質コーパスを合成するための自動コーパス合成手法を提案する。 実験結果はeg3pの有効性を示し,本モデルが全ベースライン系を有意なマージンで上回ることを示した。 さらに分析によって、EG3PはCommonsenseQAやOpenbookQAといった実際の推論タスクについて、より優れた説明グラフを生成することができることが示された。

The generation of explanation graphs is a significant task that aims to produce explanation graphs in response to user input, revealing the internal reasoning process. This task is challenging due to the significant discrepancy between unstructured user queries and structured explanation graphs. Current research commonly fine-tunes a text-based pre-trained language model on a small downstream dataset that is annotated with labeled graphs. However, due to the limited scale of available datasets, this approach may prove to be insufficient in bridging the gap between natural language text and structured graphs. In this paper, to alleviate the above limitations, we propose a novel pre-trained framework EG3P(for Explanation Graph Generation via Generative Pre-training over synthetic graphs) for the explanation graph generation task. Specifically, we first propose a text-to-graph generative task to pre-train the model with the goal of bridging the text-graph gap. Additionally, we propose an automatic corpus synthesis strategy for synthesizing a large scale of high-quality corpus, reducing the reliance on costly manual annotation methods. Experimental results on ExplaGraphs show the effectiveness of EG3P that our model surpasses all baseline systems with remarkable margins. Besides, further analysis demonstrates that EG3P is able to generate better explanation graphs on actual reasoning tasks such as CommonsenseQA and OpenbookQA.
翻訳日:2023-06-02 16:05:56 公開日:2023-06-01
# 規範型ReLUネットワークの学習

Learning Prescriptive ReLU Networks ( http://arxiv.org/abs/2306.00651v1 )

ライセンス: Link先を確認
Wei Sun and Asterios Tsiourvas(参考訳) 本研究では, 観測データを用いて, 個別処理オプション群から最適方針を学習する問題について検討する。 本稿では,プリクリプティブreluネットワーク (p-relu) と呼ばれる,強い規範的性能と解釈可能性のバランスをとるための線形ニューラルネットワークモデルを提案する。 このモデルを解析的に示す i)入力空間を解離したポリヘドラに分割し、同じ分割に属するすべてのインスタンスが同じ処理を受け取り、 (ii) は解釈可能性のために超平面分割を持つ同値な規範木に変換できる。 制約がアーキテクチャに小さな変更を加えることで容易に組み込むことができるので、P-ReLUネットワークの柔軟性を実証する。 実験により、競合するベンチマークに対してP-ReLUの優れた規範的精度を検証する。 最後に,実世界のデータセットを用いて訓練されたp-relusから抽出した,制約付きシナリオと制約付きシナリオの両方に対して解釈可能な規範木を例示する。

We study the problem of learning optimal policy from a set of discrete treatment options using observational data. We propose a piecewise linear neural network model that can balance strong prescriptive performance and interpretability, which we refer to as the prescriptive ReLU network, or P-ReLU. We show analytically that this model (i) partitions the input space into disjoint polyhedra, where all instances that belong to the same partition receive the same treatment, and (ii) can be converted into an equivalent prescriptive tree with hyperplane splits for interpretability. We demonstrate the flexibility of the P-ReLU network as constraints can be easily incorporated with minor modifications to the architecture. Through experiments, we validate the superior prescriptive accuracy of P-ReLU against competing benchmarks. Lastly, we present examples of interpretable prescriptive trees extracted from trained P-ReLUs using a real-world dataset, for both the unconstrained and constrained scenarios.
翻訳日:2023-06-02 16:05:35 公開日:2023-06-01
# 重み付け・多様性重み付け・事前補正による普遍的テスト時間適応

Universal Test-time Adaptation through Weight Ensembling, Diversity Weighting, and Prior Correction ( http://arxiv.org/abs/2306.00650v1 )

ライセンス: Link先を確認
Robert A. Marsden, Mario D\"obler, Bin Yang(参考訳) 分散シフトはテスト時間中に起こり、モデルの性能を大幅に低下させる可能性があるため、オンラインテスト時間適応(TTA)は、現在のテストデータを活用して、デプロイ後もモデルを更新し続ける。 オンラインTTAに提案する手法は, あらゆる環境条件に対して有効である必要がある。 変数要素の「ドメイン非定常性」と「時間的相関」を導入することにより、まずすべての実用的な設定を展開させ、エンティティを普遍的なTTAとして定義する。 ユニバーサルttaの問題に取り組むために,我々は,自己学習に基づく手法が対処しなければならないいくつかの課題を特定し,強調する。 1)複数の領域シフトを伴わないシーケンス長の異なるエントロピー最小化を行う場合のモデルバイアスと自明解の発生 2)将来の領域シフトへの適応を悪化させる一般化の喪失と破滅的な忘れ方の発生 3)ラベルの先行変更による性能劣化。 モデルがバイアスを受けるのを防ぐために、データセットとモデルに依存しない確実性と多様性の重み付けを利用する。 ジェネライゼーションの維持と壊滅的な忘れることを防ぐため、ソースと適応モデルの継続的な重み付けを提案する。 テスト時間中にラベルのずれを補償するために,適応加法的事前補正スキームを提案する。 我々は、幅広い設定、データセット、モデルに基づいてROIDというアプローチを評価し、普遍的なTTA分野における新しい標準を設定します。

Since distribution shifts are likely to occur during test-time and can drastically decrease the model's performance, online test-time adaptation (TTA) continues to update the model after deployment, leveraging the current test data. Clearly, a method proposed for online TTA has to perform well for all kinds of environmental conditions. By introducing the variable factors 'domain non-stationarity' and 'temporal correlation', we first unfold all practically relevant settings and define the entity as universal TTA. To tackle the problem of universal TTA, we identify and highlight several challenges a self-training based method has to deal with, including: 1) model bias and the occurrence of trivial solutions when performing entropy minimization on varying sequence lengths with and without multiple domain shifts, 2) loss of generalization which exacerbates the adaptation to future domain shifts and the occurrence of catastrophic forgetting, and 3) performance degradation due to shifts in label prior. To prevent the model from becoming biased, we leverage a dataset and model-agnostic certainty and diversity weighting. In order to maintain generalization and prevent catastrophic forgetting, we propose to continually weight-average the source and adapted model. To compensate for disparities in the label prior during test-time, we propose an adaptive additive prior correction scheme. We evaluate our approach, named ROID, on a wide range of settings, datasets, and models, setting new standards in the field of universal TTA.
翻訳日:2023-06-02 16:05:11 公開日:2023-06-01
# 文脈ゆがみの選択肢:マスケード言語モデルは暗黙のパーサーである

Contextual Distortion Reveals Constituency: Masked Language Models are Implicit Parsers ( http://arxiv.org/abs/2306.00645v1 )

ライセンス: Link先を確認
Jiaxi Li and Wei Lu(参考訳) プレトレーニング言語モデル(PLM)の最近の進歩は、これらのモデルがある程度の構文認識を持っていることを示している。 この知識を活用すべく,マスク言語モデル (lms) からパース木を分離したパーサーを訓練することなく抽出する新しいグラフベース手法を提案する。 本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを計算する。 構成試験の言語概念に動機づけられた一連の摂動をデザインし,ゆがみスコアを集約することで各スパンのスコア付けを行う。 パースツリーを生成するには、最小スコアのツリーを見つけるためにチャート解析を使用します。 本手法は,マスキングされたlmsを用いて,従来の英語の最先端の手法を一貫して上回り,多言語環境でも優れた性能を示し,8言語中6言語で芸術の状態を上回っている。 特に,パラメータ更新やハイパーパラメータ探索は行わないが,その性能は微調整を必要とする教師なし解析手法を超越することもある。 解析では,構文摂動から生じる文脈表現の歪みが,言語間の構成の効果的な指標として有用であることを強調する。

Recent advancements in pre-trained language models (PLMs) have demonstrated that these models possess some degree of syntactic awareness. To leverage this knowledge, we propose a novel chart-based method for extracting parse trees from masked language models (LMs) without the need to train separate parsers. Our method computes a score for each span based on the distortion of contextual representations resulting from linguistic perturbations. We design a set of perturbations motivated by the linguistic concept of constituency tests, and use these to score each span by aggregating the distortion scores. To produce a parse tree, we use chart parsing to find the tree with the minimum score. Our method consistently outperforms previous state-of-the-art methods on English with masked LMs, and also demonstrates superior performance in a multilingual setting, outperforming the state of the art in 6 out of 8 languages. Notably, although our method does not involve parameter updates or extensive hyperparameter search, its performance can even surpass some unsupervised parsing methods that require fine-tuning. Our analysis highlights that the distortion of contextual representation resulting from syntactic perturbation can serve as an effective indicator of constituency across languages.
翻訳日:2023-06-02 16:04:18 公開日:2023-06-01
# trisig: triclustersの統計的意義を評価する

TriSig: Assessing the statistical significance of triclusters ( http://arxiv.org/abs/2306.00643v1 )

ライセンス: Link先を確認
Leonardo Alexandre, Rafael S. Costa, Rui Henriques(参考訳) テンソルデータ解析により、研究者はマトリックスデータだけでは得られない新しいパターンや関係を明らかにすることができる。 パターンから推測される情報は、病気の進行、生物生産過程、気象変動、グループダイナミクスに関する貴重な洞察を提供する。 しかし、突発的で冗長なパターンはこのプロセスを妨げる。 本研究の目的は、テンソルデータにおけるパターンの確率を評価するための統計的枠組みを提案し、行列データにおけるパターンの統計的意義を評価するための確立された原則を拡張することである。 偽陽性発見に対する二項テストに関する包括的議論は、変数依存性、時間依存性、不一致、およびbenjamini-hochberg 手続きによる \textit{p}-value corrections という観点から行われる。 生化学およびバイオテクノロジー領域における異なる実世界のケーススタディに対する最先端のtriclusteringアルゴリズムの適用から得られた結果は、いくつかのtriclustering検索の脆弱性を明らかにしながら、提案された統計フレームの有効性を検証している。 提案手法は,既存の3クラスタリングアルゴリズムに組み込むことで,偽陽性/盗作の発見を緩和し,さらに探索空間を縮小し,計算複雑性を低減できる。 可用性: コードはMITライセンス下でhttps://github.com/JupitersMight/TriSigで無償公開されている。

Tensor data analysis allows researchers to uncover novel patterns and relationships that cannot be obtained from matrix data alone. The information inferred from the patterns provides valuable insights into disease progression, bioproduction processes, weather fluctuations, and group dynamics. However, spurious and redundant patterns hamper this process. This work aims at proposing a statistical frame to assess the probability of patterns in tensor data to deviate from null expectations, extending well-established principles for assessing the statistical significance of patterns in matrix data. A comprehensive discussion on binomial testing for false positive discoveries is entailed at the light of: variable dependencies, temporal dependencies and misalignments, and \textit{p}-value corrections under the Benjamini-Hochberg procedure. Results gathered from the application of state-of-the-art triclustering algorithms over distinct real-world case studies in biochemical and biotechnological domains confer validity to the proposed statistical frame while revealing vulnerabilities of some triclustering searches. The proposed assessment can be incorporated into existing triclustering algorithms to mitigate false positive/spurious discoveries and further prune the search space, reducing their computational complexity. Availability: The code is freely available at https://github.com/JupitersMight/TriSig under the MIT license.
翻訳日:2023-06-02 16:03:40 公開日:2023-06-01
# 話者表現と自己教師付き文脈埋め込みを用いた発声検出

Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings ( http://arxiv.org/abs/2306.00689v1 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) stuttering detection(sd)タスクにおける高度なディープラーニングアーキテクチャの採用は、利用可能なデータセットのサイズが限られているため、難しい。 そこで本研究では,大規模音声データセットで学習した事前学習深層学習モデルから抽出した音声埋め込みの適用について紹介する。 特に,voxceleb と librispeech データセットで学習した音声表現を,強調されたチャネル注意,伝播,集約時間遅延ニューラルネットワーク (ecapa-tdnn) と wav2vec2.0 モデルを用いて検討した。 埋め込みを抽出した後、SDタスクのためにK-nearest neighbor(KNN)、Gaussian naive Bayes(英語版)、ニューラルネットワークなどの従来の分類器をベンチマークする。 sep-28kデータセットでのみトレーニングされた標準sdシステムと比較すると、ベースライン上でのuar(unweighted average recall)の相対的な改善率は12.08%、28.71%、37.9%である。 最後に、Wav2Vec2.0の2つの埋め込みと複数のレイヤを結合することで、UARをさらに2.60%と6.32%改善できることを示した。

The adoption of advanced deep learning architectures in stuttering detection (SD) tasks is challenging due to the limited size of the available datasets. To this end, this work introduces the application of speech embeddings extracted from pre-trained deep learning models trained on large audio datasets for different tasks. In particular, we explore audio representations obtained using emphasized channel attention, propagation, and aggregation time delay neural network (ECAPA-TDNN) and Wav2Vec2.0 models trained on VoxCeleb and LibriSpeech datasets respectively. After extracting the embeddings, we benchmark with several traditional classifiers, such as the K-nearest neighbour (KNN), Gaussian naive Bayes, and neural network, for the SD tasks. In comparison to the standard SD systems trained only on the limited SEP-28k dataset, we obtain a relative improvement of 12.08%, 28.71%, 37.9% in terms of unweighted average recall (UAR) over the baselines. Finally, we have shown that combining two embeddings and concatenating multiple layers of Wav2Vec2.0 can further improve the UAR by up to 2.60% and 6.32% respectively.
翻訳日:2023-06-02 15:55:56 公開日:2023-06-01
# 教師なし機械学習における対人ロバスト性:システムレビュー

Adversarial Robustness in Unsupervised Machine Learning: A Systematic Review ( http://arxiv.org/abs/2306.00687v1 )

ライセンス: Link先を確認
Mathias Lundteigen Mohus and Jinyue Li(参考訳) 機械学習モデルの採用が増加するにつれて、敵対的攻撃に対する堅牢なモデルの確保がますます重要になっている。 教師なしの機械学習がより注目を集める中、攻撃に対して堅牢であることを保証することは不可欠である。 本稿では,教師なし学習の堅牢性に関する体系的文献レビューを行い,86論文を収集した。 以上の結果から,ほとんどの研究は効果的な防御を行うプライバシ攻撃に重点を置いているが,有効な防御手段や一般的な防御手段が欠如している。 この結果に基づき、教師なし学習に対する攻撃の性質に関するモデルを定式化し、使用モデルを提供することで将来の研究に寄与する。

As the adoption of machine learning models increases, ensuring robust models against adversarial attacks is increasingly important. With unsupervised machine learning gaining more attention, ensuring it is robust against attacks is vital. This paper conducts a systematic literature review on the robustness of unsupervised learning, collecting 86 papers. Our results show that most research focuses on privacy attacks, which have effective defenses; however, many attacks lack effective and general defensive measures. Based on the results, we formulate a model on the properties of an attack on unsupervised learning, contributing to future research by providing a model to use.
翻訳日:2023-06-02 15:55:35 公開日:2023-06-01
# アダプティブフローサンプリングを用いたエネルギーベースモデルのバランストレーニング

Balanced Training of Energy-Based Models with Adaptive Flow Sampling ( http://arxiv.org/abs/2306.00684v1 )

ライセンス: Link先を確認
Louis Grenioux, \'Eric Moulines, Marylou Gabri\'e(参考訳) エネルギーベースモデル(EBMs)は、非正規化ログ密度を直接パラメータ化する汎用密度推定モデルである。 非常に柔軟であるが、ebmsはモデルの特定の正規化定数を欠いているため、モデルの可能性は計算的に難解である。 いくつかの近似サンプルと変分推論手法が提案され、トレーニングの確率勾配を推定している。 これらの手法はサンプル生成に有望な結果を示しているが、データセット内の異なるクラスの相対的重要性を決定するなど、推定密度の統計的精度にはほとんど注意が払われていない。 そこで本研究では, サンプリングを容易にするために最近提案されているNF(正規化フロー)という, 異なる種類の生成モデルを用いたESMの新しい最大格トレーニングアルゴリズムを提案する。 本手法はトレーニング中にNFをEMMに適合させることで,NFを用いたサンプリング方式によりESMの正確な勾配が常に得られ,最終的には新しいデータを生成するための高速サンプリング装置となる。

Energy-based models (EBMs) are versatile density estimation models that directly parameterize an unnormalized log density. Although very flexible, EBMs lack a specified normalization constant of the model, making the likelihood of the model computationally intractable. Several approximate samplers and variational inference techniques have been proposed to estimate the likelihood gradients for training. These techniques have shown promising results in generating samples, but little attention has been paid to the statistical accuracy of the estimated density, such as determining the relative importance of different classes in a dataset. In this work, we propose a new maximum likelihood training algorithm for EBMs that uses a different type of generative model, normalizing flows (NF), which have recently been proposed to facilitate sampling. Our method fits an NF to an EBM during training so that an NF-assisted sampling scheme provides an accurate gradient for the EBMs at all times, ultimately leading to a fast sampler for generating new data.
翻訳日:2023-06-02 15:55:24 公開日:2023-06-01
# エンコーダデコーダマルチモーダル話者変化検出

Encoder-decoder multimodal speaker change detection ( http://arxiv.org/abs/2306.00680v1 )

ライセンス: Link先を確認
Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Young-ki Kwon, Minjae Lee, Bong-Jin Lee(参考訳) 入力において話者が変化する点を検出する話者変化検出(SCD)タスクは、いくつかのアプリケーションに必須である。 いくつかの研究は音声入力のみを使用してscdタスクを解決し、限られた性能を示した。 近年,音声に加えてテキストモダリティを利用したマルチモーダルSCD(MMSCD)モデルの性能向上が報告されている。 本研究では,モダリティ融合のための新しいメカニズムとエンコーダ-デコーダアーキテクチャの採用という2つの提案に基づいて,提案モデルを構築した。 非常に短い音声セグメントから話者埋め込みを抽出する従来のMMSCDとは違って,1.5sから抽出した話者埋め込みを用いる。 トランスデコーダ層は、エンコーダのみのMSCDモデルの性能をさらに向上させる。 提案モデルでは,SCDの性能を報告した研究から最先端の成果が得られ,SCDと人間の書き起こしによる自動音声認識を組み合わせた最近の研究と同等である。

The task of speaker change detection (SCD), which detects points where speakers change in an input, is essential for several applications. Several studies solved the SCD task using audio inputs only and have shown limited performance. Recently, multimodal SCD (MMSCD) models, which utilise text modality in addition to audio, have shown improved performance. In this study, the proposed model are built upon two main proposals, a novel mechanism for modality fusion and the adoption of a encoder-decoder architecture. Different to previous MMSCD works that extract speaker embeddings from extremely short audio segments, aligned to a single word, we use a speaker embedding extracted from 1.5s. A transformer decoder layer further improves the performance of an encoder-only MMSCD model. The proposed model achieves state-of-the-art results among studies that report SCD performance and is also on par with recent work that combines SCD with automatic speech recognition via human transcription.
翻訳日:2023-06-02 15:55:08 公開日:2023-06-01
# 低ランク背景部分空間学習とグラフラプラシアン正規化に基づくハイパースペクトルターゲット検出

Hyperspectral Target Detection Based on Low-Rank Background Subspace Learning and Graph Laplacian Regularization ( http://arxiv.org/abs/2306.00676v1 )

ライセンス: Link先を確認
Dunbin Shen, Xiaorui Ma, Wenfeng Kong, Jiacheng Tian, Hongyu Wang(参考訳) ハイパースペクトル目標検出は、スペクトル特性に基づく薄暗い物体や小さな物体の発見に有効である。 しかし、既存の表現に基づく手法は、未知の背景辞書の問題や空間情報の活用不足によって妨げられている。 本稿では,ローランク表現(LRR)とグラフラプラシア正規化(GLR)に基づく効率的な最適化手法を提案する。 まず,完全かつ純粋な背景辞書を得るため,全画素の低次元構造を共同でマイニングし,lrrに基づく背景空間学習手法を提案する。 第二に、局所空間関係を完全に活用し、基礎となる幾何学構造を捉えるために、局所領域ベースGLRを用いて係数を推定する。 最後に、二項仮説検定から表現誤差の比率を計算して所望の検出マップを生成する。 2つのベンチマークデータセットで実施された実験は、このアプローチの有効性と優位性を検証する。 再生にはhttps://github.com/shendb2022/LRBSL-GLR.comで利用できる。

Hyperspectral target detection is good at finding dim and small objects based on spectral characteristics. However, existing representation-based methods are hindered by the problem of the unknown background dictionary and insufficient utilization of spatial information. To address these issues, this paper proposes an efficient optimizing approach based on low-rank representation (LRR) and graph Laplacian regularization (GLR). Firstly, to obtain a complete and pure background dictionary, we propose a LRR-based background subspace learning method by jointly mining the low-dimensional structure of all pixels. Secondly, to fully exploit local spatial relationships and capture the underlying geometric structure, a local region-based GLR is employed to estimate the coefficients. Finally, the desired detection map is generated by computing the ratio of representation errors from binary hypothesis testing. The experiments conducted on two benchmark datasets validate the effectiveness and superiority of the approach. For reproduction, the accompanying code is available at https://github.com/shendb2022/LRBSL-GLR.
翻訳日:2023-06-02 15:54:50 公開日:2023-06-01
# rhfedmtl: リソース対応階層型フェデレーションマルチタスク学習

RHFedMTL: Resource-Aware Hierarchical Federated Multi-Task Learning ( http://arxiv.org/abs/2306.00675v1 )

ライセンス: Link先を確認
Xingfu Yi, Rongpeng Li, Chenghui Peng, Fei Wang, Jianjun Wu, and Zhifeng Zhao(参考訳) セルラーネットワーク上のインターネットを含む大規模なアプリケーションに対する人工知能(AI)の急速な発展は、プライバシや異質性、リソース効率といった技術的課題の懸念を提起する。 フェデレーション学習は、セキュリティを備えた大規模な分散ノード上でAIを可能にする効果的な方法である。 しかし、従来の研究は、ネットワーク全体にわたるユニークなタスクのための単一のグローバルモデルを学ぶことに集中しており、一般に、許容可能な計算と通信コストを犠牲にして、ストラグラーを用いたマルチタスク学習(MTL)シナリオを扱う能力は低い。 一方、複数の基地局(BS)と端末をまたいだマルチタスク学習を維持しながら、プライバシを確保することは困難である。 本稿では、BS内のさまざまなタスクを解決し、マルチタスクの結果をクラウドに集約することにより、プライバシを損なうことなく、タスクの不均一性を満たすための、リソースを意識した階層型MTL(RHFedMTL)ソリューションを提供する。 具体的には,MTLをBS内の局所最適化サブプロブレムに効果的に変換するために,原始双対法が活用されている。 さらに,資源の集約頻度を単純に変更して資源コストを削減する既存の手法と比較し,資源消費と学習精度の複雑な関係を考察し,資源予算を満たすためのローカル端末とbssのための資源認識学習戦略を開発した。 広範なシミュレーション結果から,rhfedmtlの有効性と,学習精度の向上と収束率の向上が示された。

The rapid development of artificial intelligence (AI) over massive applications including Internet-of-things on cellular network raises the concern of technical challenges such as privacy, heterogeneity and resource efficiency. Federated learning is an effective way to enable AI over massive distributed nodes with security. However, conventional works mostly focus on learning a single global model for a unique task across the network, and are generally less competent to handle multi-task learning (MTL) scenarios with stragglers at the expense of acceptable computation and communication cost. Meanwhile, it is challenging to ensure the privacy while maintain a coupled multi-task learning across multiple base stations (BSs) and terminals. In this paper, inspired by the natural cloud-BS-terminal hierarchy of cellular works, we provide a viable resource-aware hierarchical federated MTL (RHFedMTL) solution to meet the heterogeneity of tasks, by solving different tasks within the BSs and aggregating the multi-task result in the cloud without compromising the privacy. Specifically, a primal-dual method has been leveraged to effectively transform the coupled MTL into some local optimization sub-problems within BSs. Furthermore, compared with existing methods to reduce resource cost by simply changing the aggregation frequency, we dive into the intricate relationship between resource consumption and learning accuracy, and develop a resource-aware learning strategy for local terminals and BSs to meet the resource budget. Extensive simulation results demonstrate the effectiveness and superiority of RHFedMTL in terms of improving the learning accuracy and boosting the convergence rate.
翻訳日:2023-06-02 15:54:32 公開日:2023-06-01
# CRS-FL:通信効率・プライバシー保護フェデレーション学習のための条件付きランダムサンプリング

CRS-FL: Conditional Random Sampling for Communication-Efficient and Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2306.00674v1 )

ライセンス: Link先を確認
Jianhua Wang. Xiaolin Chang, Jelena Mi\v{s}i\'c, Vojislav B. Mi\v{s}i\'c, Lin Li, and Yingying Yao(参考訳) プライバシー指向分散mlパラダイムであるfederated learning(fl)は、参加者データプライバシを保護する能力によって、モノのインターネットに大きな関心を集めている。 通信効率やプライバシー保護など,標準FLに存在する課題に対処するために研究が進められている。 しかし、プライバシーを保証しながら通信効率とモデルの正確性をトレードオフするという目標を達成できない。 本稿では、条件付きランダムサンプリング(CRS)手法を提案し、上記の課題に対処するために標準FL設定(CRS-FL)に実装する。 CRSは、ポアソンサンプリングに基づく確率係数を探索し、ゼロ勾配を偏りなく得る確率を高くし、モデル精度の劣化なしに通信オーバーヘッドを効果的に低減する。 さらに,CRSの条件を理論的に保証する局所微分プライバシー(LDP)の緩和について検討する。 CRS-FL は,(1) 通信効率において,7% 以上のサンプリング比 (# サンプリングサイズ/# モデルサイズ) でモデル精度を低下させることなく,既存の伝送バイト当たりのメートル法よりも優れた精度を実現し,(2) プライバシ保存では,効率を保ちながら LDP ベースラインと比較して精度を低下させることなく,よりサンプリング比条件下でモデル精度を上回っている。

Federated Learning (FL), a privacy-oriented distributed ML paradigm, is being gaining great interest in Internet of Things because of its capability to protect participants data privacy. Studies have been conducted to address challenges existing in standard FL, including communication efficiency and privacy-preserving. But they cannot achieve the goal of making a tradeoff between communication efficiency and model accuracy while guaranteeing privacy. This paper proposes a Conditional Random Sampling (CRS) method and implements it into the standard FL settings (CRS-FL) to tackle the above-mentioned challenges. CRS explores a stochastic coefficient based on Poisson sampling to achieve a higher probability of obtaining zero-gradient unbiasedly, and then decreases the communication overhead effectively without model accuracy degradation. Moreover, we dig out the relaxation Local Differential Privacy (LDP) guarantee conditions of CRS theoretically. Extensive experiment results indicate that (1) in communication efficiency, CRS-FL performs better than the existing methods in metric accuracy per transmission byte without model accuracy reduction in more than 7% sampling ratio (# sampling size / # model size); (2) in privacy-preserving, CRS-FL achieves no accuracy reduction compared with LDP baselines while holding the efficiency, even exceeding them in model accuracy under more sampling ratio conditions.
翻訳日:2023-06-02 15:54:02 公開日:2023-06-01
# 雑音を考慮した低次多項式閾値関数の属性効率PAC学習

Attribute-Efficient PAC Learning of Low-Degree Polynomial Threshold Functions with Nasty Noise ( http://arxiv.org/abs/2306.00673v1 )

ライセンス: Link先を確認
Shiwei Zeng and Jie Shen(参考訳) 低次多項式しきい値関数(PTF)の概念クラスは、機械学習において基本的な役割を果たす。 本稿では,$K$-sparse degree-$d$ PTFs on $\mathbb{R}^n$のPAC学習について検討する。 私たちの主な貢献は、時間$({nd}/{\epsilon})^{o(d)}$で実行され、ガウス境界分布の下で、pacはエラーレート$\epsilon$のクラスを学習し、$o(\frac{k^{4d}}{\epsilon^{2d}} \cdot \log^{5d} n)$サンプルは$\eta \leq o(\epsilon^d)$がbshouty et al. (2002)の厄介なノイズによって損なわれる場合であっても、おそらく最も強力な腐敗モデルである。 この研究に先立って、属性効率のよいロバストアルゴリズムは、疎均質な半空間の特別な場合のみ確立される。 私たちの主な材料は 1) ハーマイト多項式に基づくChowベクトルのスパーシティパターンに属性のスパーシティを変換する構造的結果、及び 2) 制限されたフロベニウスノルムのみを用いて,良好な近似を証明したり, 破損したサンプルを検出するフィルタとして, 疎度誘起次数-$2d$多項式の検証を行う新しい属性効率の強いChowベクトル推定アルゴリズム。

The concept class of low-degree polynomial threshold functions (PTFs) plays a fundamental role in machine learning. In this paper, we study PAC learning of $K$-sparse degree-$d$ PTFs on $\mathbb{R}^n$, where any such concept depends only on $K$ out of $n$ attributes of the input. Our main contribution is a new algorithm that runs in time $({nd}/{\epsilon})^{O(d)}$ and under the Gaussian marginal distribution, PAC learns the class up to error rate $\epsilon$ with $O(\frac{K^{4d}}{\epsilon^{2d}} \cdot \log^{5d} n)$ samples even when an $\eta \leq O(\epsilon^d)$ fraction of them are corrupted by the nasty noise of Bshouty et al. (2002), possibly the strongest corruption model. Prior to this work, attribute-efficient robust algorithms are established only for the special case of sparse homogeneous halfspaces. Our key ingredients are: 1) a structural result that translates the attribute sparsity to a sparsity pattern of the Chow vector under the basis of Hermite polynomials, and 2) a novel attribute-efficient robust Chow vector estimation algorithm which uses exclusively a restricted Frobenius norm to either certify a good approximation or to validate a sparsity-induced degree-$2d$ polynomial as a filter to detect corrupted samples.
翻訳日:2023-06-02 15:53:33 公開日:2023-06-01
# 論説に基づく長大な法的意見の抽象的要約に向けて

Towards Argument-Aware Abstractive Summarization of Long Legal Opinions with Summary Reranking ( http://arxiv.org/abs/2306.00672v1 )

ライセンス: Link先を確認
Mohamed Elaraby, Yang Zhong, Diane Litman(参考訳) 本稿では,文書の議論構造を考慮した長い法的意見を要約する簡単なアプローチを提案する。 法的な意見はしばしば複雑かつ微妙な議論を含み、法的な意見の要点を正確に捉えた簡潔な要約を作成するのが困難である。 提案手法では,複数の候補要約を生成するために引数の役割情報を使用し,文書の引数構造に合わせてこれらの候補を再ランク付けする。 長い法的意見のデータセットに対する我々のアプローチの有効性を実証し、いくつかの強力なベースラインよりも優れていることを示す。

We propose a simple approach for the abstractive summarization of long legal opinions that considers the argument structure of the document. Legal opinions often contain complex and nuanced argumentation, making it challenging to generate a concise summary that accurately captures the main points of the legal opinion. Our approach involves using argument role information to generate multiple candidate summaries, then reranking these candidates based on alignment with the document's argument structure. We demonstrate the effectiveness of our approach on a dataset of long legal opinions and show that it outperforms several strong baselines.
翻訳日:2023-06-02 15:52:51 公開日:2023-06-01
# 解説文における修正の質の予測

Predicting the Quality of Revisions in Argumentative Writing ( http://arxiv.org/abs/2306.00667v1 )

ライセンス: Link先を確認
Zhexiong Liu, Diane Litman, Elaine Wang, Lindsay Matsumura, Richard Correnti(参考訳) フィードバックに反応して修正する能力は、学生の執筆成功に不可欠である。 特定の議論記述の場合、引数修正(AR)が成功したかどうかを特定することは、ARの品質が引数の全体的な内容に依存しているため、複雑な問題である。 例えば、同じ証拠文を追加することで、異なる引数コンテキスト(acs)における既存の主張を強化したり弱めたりすることができる。 この問題に対処するため,我々はChatGPT生成ACのAR品質予測を容易にするChain-of-Thoughtプロンプトを開発した。 2つのコーパス(注釈付き初等エッセイと既存の大学エッセイベンチマーク)の実験は、ベースラインよりも提案されたACの優位性を実証した。

The ability to revise in response to feedback is critical to students' writing success. In the case of argument writing in specific, identifying whether an argument revision (AR) is successful or not is a complex problem because AR quality is dependent on the overall content of an argument. For example, adding the same evidence sentence could strengthen or weaken existing claims in different argument contexts (ACs). To address this issue we developed Chain-of-Thought prompts to facilitate ChatGPT-generated ACs for AR quality predictions. The experiments on two corpora, our annotated elementary essays and existing college essays benchmark, demonstrate the superiority of the proposed ACs over baselines.
翻訳日:2023-06-02 15:52:42 公開日:2023-06-01
# 事前学習拡散生成モデルからの任意スケール超解像能力の分離

Dissecting Arbitrary-scale Super-resolution Capability from Pre-trained Diffusion Generative Models ( http://arxiv.org/abs/2306.00714v1 )

ライセンス: Link先を確認
Ruibin Li, Qihua Zhou, Song Guo, Jie Zhang, Jingcai Guo, Xinyang Jiang, Yifei Shen, Zhenhua Han(参考訳) 拡散に基づく生成モデル(DGM)は、高品質な視覚コンテンツを合成し、画像超解像(SR)タスクを改善する機会を開いた。 これらの課題に対する最近の解決策は、しばしばアーキテクチャ固有のDGMをゼロから訓練するか、または事前訓練されたDGMに反復的な微調整と蒸留を必要とする。 より真面目な話として、dgmは個別の事前定義されたアップサンプリングスケールで確立されているため、統合モデルが任意のアップサンプリングスケールに適応する任意のスケールスーパーレゾリューション(assr)の新たな要求に合致することはできない。 これらの制限は、蒸留や微調整を必要とせず、既存の訓練済みDGMのASSR能力を特定できるのか? 本稿では,Diff-SR(Diff-SR)という,事前学習型DGMのみをベースとした最初のASSRの試みを,追加のトレーニングを伴わずに提案する。 これは、DGMの後方拡散プロセスを呼び出す前に、まず特定の量のノイズを低解像度画像に注入する単純な手法が、現在の先行解より優れているというエキサイティングな発見によって動機付けられている。 重要な洞察は、少量のノイズが低レベルの忠実度を低下させるのに対して、過大な量は高レベルのシグネチャを劣化させる。 微粒な理論解析を通じて,これらの2つの要因間の最適なトレードオフを実現する指標である知覚回復場(Perceptual Recoverable Field, PRF)を提案する。 拡張実験はDiff-SRの有効性、柔軟性、適応性を検証し、多様なASSR環境下での最先端のソリューションに優れた性能を示す。

Diffusion-based Generative Models (DGMs) have achieved unparalleled performance in synthesizing high-quality visual content, opening up the opportunity to improve image super-resolution (SR) tasks. Recent solutions for these tasks often train architecture-specific DGMs from scratch, or require iterative fine-tuning and distillation on pre-trained DGMs, both of which take considerable time and hardware investments. More seriously, since the DGMs are established with a discrete pre-defined upsampling scale, they cannot well match the emerging requirements of arbitrary-scale super-resolution (ASSR), where a unified model adapts to arbitrary upsampling scales, instead of preparing a series of distinct models for each case. These limitations beg an intriguing question: can we identify the ASSR capability of existing pre-trained DGMs without the need for distillation or fine-tuning? In this paper, we take a step towards resolving this matter by proposing Diff-SR, a first ASSR attempt based solely on pre-trained DGMs, without additional training efforts. It is motivated by an exciting finding that a simple methodology, which first injects a specific amount of noise into the low-resolution images before invoking a DGM's backward diffusion process, outperforms current leading solutions. The key insight is determining a suitable amount of noise to inject, i.e., small amounts lead to poor low-level fidelity, while over-large amounts degrade the high-level signature. Through a finely-grained theoretical analysis, we propose the Perceptual Recoverable Field (PRF), a metric that achieves the optimal trade-off between these two factors. Extensive experiments verify the effectiveness, flexibility, and adaptability of Diff-SR, demonstrating superior performance to state-of-the-art solutions under diverse ASSR environments.
翻訳日:2023-06-02 15:47:47 公開日:2023-06-01
# マルチモーダルスマートフォンセンシングによる食生活の社会的文脈理解 : 地域多様性の役割

Understanding the Social Context of Eating with Multimodal Smartphone Sensing: The Role of Country Diversity ( http://arxiv.org/abs/2306.00709v1 )

ライセンス: Link先を確認
Nathan Kammoun and Lakmal Meegahapola and Daniel Gatica-Perez(参考訳) 食事の社会的文脈を理解することは、タイムリーな介入を提供することによって健康な食事行動を促進するために重要である。 マルチモーダルスマートフォンセンシングデータは、特にモバイル食品日記やモバイル健康アプリケーションにおいて、食事行動に関する貴重な洞察を提供する可能性がある。 しかし, スマートフォンのセンサデータを用いた食生活の社会的文脈に関する研究は, 栄養学や行動科学の広範な研究にもかかわらず限られている。 また, 国差が食事の社会的文脈に与える影響については, マルチモーダル電話センサデータと自己報告による検討が未定である。 この研究のギャップに対処するために,8カ国(中国,デンマーク,インド,イタリア,メキシコ,モンゴル,パラグアイ,英国)のスマートフォンセンシングデータセットを用いた研究を行う。 本研究は,678人の大学生が実施した食事イベントに関する約24kの自己報告を対象とし,さまざまな社会状況の食事イベントにおいて,スマートフォンセンサから出現する国の多様性を調査した。 分析の結果,食事イベントにおけるスマートフォンの使用状況は各国で類似しているが,各国でユニークな行動がみられた。 さらに,人口レベル(非パーソナライズド)とハイブリッド(部分的パーソナライズド)の実験的な設定を用いた機械学習モデルの開発により,ユーザおよび国固有の要因が社会的コンテキスト推論に与える影響についても検討した。 その結果,XGBoostモデルを用いてAUCのスコアを最大0.75まで向上させることができた。 これらの知見は将来の移動食日記や移動体健康検知システムの研究に影響を及ぼし、バイアスを最小限に抑え、集団間の一般化を改善するために、機械学習モデルの構築と展開における国差を考慮することの重要性を強調した。

Understanding the social context of eating is crucial for promoting healthy eating behaviors by providing timely interventions. Multimodal smartphone sensing data has the potential to provide valuable insights into eating behavior, particularly in mobile food diaries and mobile health applications. However, research on the social context of eating with smartphone sensor data is limited, despite extensive study in nutrition and behavioral science. Moreover, the impact of country differences on the social context of eating, as measured by multimodal phone sensor data and self-reports, remains under-explored. To address this research gap, we present a study using a smartphone sensing dataset from eight countries (China, Denmark, India, Italy, Mexico, Mongolia, Paraguay, and the UK). Our study focuses on a set of approximately 24K self-reports on eating events provided by 678 college students to investigate the country diversity that emerges from smartphone sensors during eating events for different social contexts (alone or with others). Our analysis revealed that while some smartphone usage features during eating events were similar across countries, others exhibited unique behaviors in each country. We further studied how user and country-specific factors impact social context inference by developing machine learning models with population-level (non-personalized) and hybrid (partially personalized) experimental setups. We showed that models based on the hybrid approach achieve AUC scores up to 0.75 with XGBoost models. These findings have implications for future research on mobile food diaries and mobile health sensing systems, emphasizing the importance of considering country differences in building and deploying machine learning models to minimize biases and improve generalization across different populations.
翻訳日:2023-06-02 15:47:12 公開日:2023-06-01
# 意味的テキスト類似性のためのトランスフォーマーアーキテクチャの性能向上

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity ( http://arxiv.org/abs/2306.00708v1 )

ライセンス: Link先を確認
Ivan Rep, Vladimir \v{C}eperi\'c(参考訳) 意味的テクスト類似性(Semantic textual similarity)とは、2つのテキストの意味の類似性を推定するタスクである。 本稿では,セマンティックテキスト類似度ベンチマークのセマンティックテキスト類似度に対して,モデルを部分的に調整し,それをエンドツーエンドに調整する。 本稿では,BERT,RoBERTa,DeBERTaV3のクロスエンコーダをバイナリ分類タスクや回帰タスクとして提案する。 トランスフォーマーモデルの出力を結合し,手作りの機能をブースティングアルゴリズムの入力として使用する。 検証セットの改善と併用したテストセット結果の悪化により,異なるデータセット分割を試行して,この発生についてさらに検討する。 また,予測範囲のエッジに着目した誤差解析も提供する。

Semantic textual similarity is the task of estimating the similarity between the meaning of two texts. In this paper, we fine-tune transformer architectures for semantic textual similarity on the Semantic Textual Similarity Benchmark by tuning the model partially and then end-to-end. We experiment with BERT, RoBERTa, and DeBERTaV3 cross-encoders by approaching the problem as a binary classification task or a regression task. We combine the outputs of the transformer models and use handmade features as inputs for boosting algorithms. Due to worse test set results coupled with improvements on the validation set, we experiment with different dataset splits to further investigate this occurrence. We also provide an error analysis, focused on the edges of the prediction range.
翻訳日:2023-06-02 15:46:38 公開日:2023-06-01
# 正規化グラフニューラルネットワーク

Renormalized Graph Neural Networks ( http://arxiv.org/abs/2306.00707v1 )

ライセンス: Link先を確認
Francesco Caso, Giovanni Trappolini, Andrea Bacciu, Pietro Li\`o and Fabrizio Silvestri(参考訳) グラフニューラルネットワーク(gnn)は、複雑なデータ、特にグラフとして表現される場合の研究に不可欠である。 彼らの価値は、社会的ネットワークから生物学的ネットワークまで、様々な領域の複雑さを反映する能力によって支えられている。 GNNは非線形な振舞い、出現するパターン、複雑な接続に対応できるが、これらは複雑なシステムの典型的な特徴でもある。 再正規化群(RG)理論は複雑なシステムを研究するための言語として登場した。 複雑なシステムを研究するのに好適なレンズとして認識され、複雑なダイナミクスを解き放つフレームワークを提供する。 RG理論をGNNと統合することの明確な利点にもかかわらず、既存の方法がこの将来有望な領域に進出することはなかった。 本稿では,グラフ関連タスクにおけるGNNの性能向上のために,RG理論を適用した新しいグラフ書き換え手法を提案する。 標準ベンチマークとベースラインに関する広範な実験で提案を支持します。 その結果,提案手法の有効性を実証し,現在のGNNの限界を緩和する可能性を示した。 最後に,本論文は新たな研究方向性の始まりを示す。 この経路は、複雑なシステムの拡大ガラスであるRGの理論的基礎と、GNNの構造的能力を組み合わせたものである。 そこで我々は,多様なシステムに固有の複雑さをモデル化・展開する上で,GNNの可能性を高めることを目的とする。

Graph Neural Networks (GNNs) have become essential for studying complex data, particularly when represented as graphs. Their value is underpinned by their ability to reflect the intricacies of numerous areas, ranging from social to biological networks. GNNs can grapple with non-linear behaviors, emerging patterns, and complex connections; these are also typical characteristics of complex systems. The renormalization group (RG) theory has emerged as the language for studying complex systems. It is recognized as the preferred lens through which to study complex systems, offering a framework that can untangle their intricate dynamics. Despite the clear benefits of integrating RG theory with GNNs, no existing methods have ventured into this promising territory. This paper proposes a new approach that applies RG theory to devise a novel graph rewiring to improve GNNs' performance on graph-related tasks. We support our proposal with extensive experiments on standard benchmarks and baselines. The results demonstrate the effectiveness of our method and its potential to remedy the current limitations of GNNs. Finally, this paper marks the beginning of a new research direction. This path combines the theoretical foundations of RG, the magnifying glass of complex systems, with the structural capabilities of GNNs. By doing so, we aim to enhance the potential of GNNs in modeling and unraveling the complexities inherent in diverse systems.
翻訳日:2023-06-02 15:46:25 公開日:2023-06-01
# DAM-Net:差分注意量に基づく視覚変換器を用いたSAR画像からのグローバル洪水検出

DAM-Net: Global Flood Detection from SAR Imagery Using Differential Attention Metric-Based Vision Transformers ( http://arxiv.org/abs/2306.00704v1 )

ライセンス: Link先を確認
Tamer Saleh, Xingxing Weng, Shimaa Holail, Chen Hao and Gui-Song Xia(参考訳) 高分解能合成開口レーダ(sar)画像を用いた浸水地域の検出は,危機・災害管理や環境資源計画の応用において重要な課題である。 しかし、SAR画像の複雑な性質は、しばしば洪水範囲の過大評価につながる課題を示す。 この問題に対処するため,本研究では差分注意メトリックベースネットワーク (dam-net) を提案する。 DAM-Netは、多面体変化の高レベルな意味情報を含むマルチテンポラル画像とトークンのマルチスケールな変化特徴を得るためのウェイトシェアリングシームスバックボーンと、セマンティックトークンと変更特徴を統合してスペックルノイズを低減したフラッドマップを生成するテンポラルディファレンシャルフュージョン(TDF)モジュールである。 特に、背骨は複数の段階に分けられる。 各段階では,twfe(temporal-wise feature extraction),ctca(cross-temporal change attention),tace(temporal-aware change enhancement)という3つのモジュールをデザインし,変更特徴を効果的に抽出する。 最終段階のTACEでは,注目機構を介して水面変化の高レベルな意味情報を記録するためのクラストークンを導入する。 データ駆動ディープラーニングアルゴリズムが直面するもうひとつの課題は、洪水検出データセットの可用性の制限だ。 s1gfloodsオープンソースデータセットは、2015年から2022年にかけての46の世界的な洪水イベントをカバーする、グローバルな高解像度センチネル-1 sarイメージペアデータセットである。 提案したDAM-Netを用いたS1GFloodsデータセットの実験では、全体の精度が97.8%、96.5%、93.2%に達したF1スコア、IoUといった最先端の手法と比較された。 データセットとコードはhttps://github.com/Tamer-Saleh/S1GFlood-Detection.comで公開されます。

The detection of flooded areas using high-resolution synthetic aperture radar (SAR) imagery is a critical task with applications in crisis and disaster management, as well as environmental resource planning. However, the complex nature of SAR images presents a challenge that often leads to an overestimation of the flood extent. To address this issue, we propose a novel differential attention metric-based network (DAM-Net) in this study. The DAM-Net comprises two key components: a weight-sharing Siamese backbone to obtain multi-scale change features of multi-temporal images and tokens containing high-level semantic information of water-body changes, and a temporal differential fusion (TDF) module that integrates semantic tokens and change features to generate flood maps with reduced speckle noise. Specifically, the backbone is split into multiple stages. In each stage, we design three modules, namely, temporal-wise feature extraction (TWFE), cross-temporal change attention (CTCA), and temporal-aware change enhancement (TACE), to effectively extract the change features. In TACE of the last stage, we introduce a class token to record high-level semantic information of water-body changes via the attention mechanism. Another challenge faced by data-driven deep learning algorithms is the limited availability of flood detection datasets. To overcome this, we have created the S1GFloods open-source dataset, a global-scale high-resolution Sentinel-1 SAR image pairs dataset covering 46 global flood events between 2015 and 2022. The experiments on the S1GFloods dataset using the proposed DAM-Net showed top results compared to state-of-the-art methods in terms of overall accuracy, F1-score, and IoU, which reached 97.8%, 96.5%, and 93.2%, respectively. Our dataset and code will be available online at https://github.com/Tamer-Saleh/S1GFlood-Detection.
翻訳日:2023-06-02 15:46:05 公開日:2023-06-01
# 効果的な学習率の広がり--初期訓練におけるバッチ正規化の周辺

Spreads in Effective Learning Rates: The Perils of Batch Normalization During Early Training ( http://arxiv.org/abs/2306.00700v1 )

ライセンス: Link先を確認
Christian H.X. Ali Mehmeti-G\"opel, Michael Wand(参考訳) 勾配グレードのエクスカレーションは、ディープネットワークのトレーニングにおいて永続的な課題となる。 本稿では,広範化ReLUネットワークの初期訓練フェーズについて検討し,実効学習率(LR)を検証して,誘導されたスケール不変性を考慮した。 バッチ正規化(BN)が初期化時に指数関数的に爆発的な勾配をもたらすという事実から始まり、初期訓練力学を記述するODEベースのモデルを開発する。 我々のモデルは、勾配流において、有効なLRは最終的に等しくなり、ウォームアップトレーニングにおける経験的な結果と一致すると予測する。 大きなlrsを使用することは、強固な非線形odeに明示的な解法を適用するのと類似しており、最初のステップの後に下層でのオーバーシュートと消滅の勾配を引き起こす。 全体的なバランスを達成するには、LR、深さ、そして(任意に)運動量の注意深く調整する必要がある。 本モデルでは,実効LRにおけるスプレッドの形成を実験的に予測する。 さらに,実効lrsの広がりが精度に関するトレーニング問題を引き起こし,これらのダイナミクスの制御の重要性が示唆された。 因果関係をさらに支援するために,レイヤ間の一様有効LRを規定する簡易なスケジューリング方式を実装し,精度の検証を行う。

Excursions in gradient magnitude pose a persistent challenge when training deep networks. In this paper, we study the early training phases of deep normalized ReLU networks, accounting for the induced scale invariance by examining effective learning rates (LRs). Starting with the well-known fact that batch normalization (BN) leads to exponentially exploding gradients at initialization, we develop an ODE-based model to describe early training dynamics. Our model predicts that in the gradient flow, effective LRs will eventually equalize, aligning with empirical findings on warm-up training. Using large LRs is analogous to applying an explicit solver to a stiff non-linear ODE, causing overshooting and vanishing gradients in lower layers after the first step. Achieving overall balance demands careful tuning of LRs, depth, and (optionally) momentum. Our model predicts the formation of spreads in effective LRs, consistent with empirical measurements. Moreover, we observe that large spreads in effective LRs result in training issues concerning accuracy, indicating the importance of controlling these dynamics. To further support a causal relationship, we implement a simple scheduling scheme prescribing uniform effective LRs across layers and confirm accuracy benefits.
翻訳日:2023-06-02 15:45:22 公開日:2023-06-01
# 変圧器を用いた術後腎・肺合併症の予測

Prediction of Post-Operative Renal and Pulmonary Complication Using Transformers ( http://arxiv.org/abs/2306.00698v1 )

ライセンス: Link先を確認
Reza Shirkavand, Fei Zhang, Heng Huang(参考訳) 術後合併症は、医療産業において重大な課題となり、医療費の上昇と長期入院、そしてまれに患者の死亡率の上昇をもたらす。 患者の成果を改善し、医療コストを削減するため、医療提供者は様々な周術期リスクスコアを頼りに臨床判断を指導し、ケアを優先する。 近年、機械学習技術は術後合併症や死亡率の予測に有望であり、深層学習モデルは医療アプリケーションで顕著な成功を収めている。 しかし,術中麻酔管理データへのディープラーニングモデルの適用に関する研究は限られている。 本稿では,術後急性腎不全,術後肺合併症,術後院内死亡を予測するためのトランスフォーマーモデルの性能評価を行った。 本手法は, 臨床データを用いて, グラデーションブースティングツリーや逐次注意モデルなど, 最先端の表データ予測モデルと比較した。 その結果,トランスフォーマーモデルが術後合併症を予測し,従来の機械学習モデルよりも優れた性能が得られることがわかった。 この研究は、ディープラーニング技術、特にトランスフォーマーベースのモデルが、術後医療に対する医療産業のアプローチに革命をもたらす可能性を強調している。

Postoperative complications pose a significant challenge in the healthcare industry, resulting in elevated healthcare expenses and prolonged hospital stays, and in rare instances, patient mortality. To improve patient outcomes and reduce healthcare costs, healthcare providers rely on various perioperative risk scores to guide clinical decisions and prioritize care. In recent years, machine learning techniques have shown promise in predicting postoperative complications and fatality, with deep learning models achieving remarkable success in healthcare applications. However, research on the application of deep learning models to intra-operative anesthesia management data is limited. In this paper, we evaluate the performance of transformer-based models in predicting postoperative acute renal failure, postoperative pulmonary complications, and postoperative in-hospital mortality. We compare our method's performance with state-of-the-art tabular data prediction models, including gradient boosting trees and sequential attention models, on a clinical dataset. Our results demonstrate that transformer-based models can achieve superior performance in predicting postoperative complications and outperform traditional machine learning models. This work highlights the potential of deep learning techniques, specifically transformer-based models, in revolutionizing the healthcare industry's approach to postoperative care.
翻訳日:2023-06-02 15:45:01 公開日:2023-06-01
# 発声音声モデルによる雑音音声の符号化 : 音声から構文への検討

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics ( http://arxiv.org/abs/2306.00697v1 )

ライセンス: Link先を確認
Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari(参考訳) 本稿では,音声解析と合成に代えて,音素ではなくデータから得られた学習記号を用いた生成言語モデリング(GSLM)の音声モデリングの可能性を検討する。 GSLMはテキストのない音声言語処理を容易にするため、その有効性を探究することが、音声言語処理における新しいパラダイムの開拓に不可欠である。 本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。 音声合成実験により, 音声学から構文学まで, GSLMは自然だが内容変化のある音声を頻繁に合成する。

We examine the speech modeling potential of generative spoken language modeling (GSLM), which involves using learned symbols derived from data rather than phonemes for speech analysis and synthesis. Since GSLM facilitates textless spoken language processing, exploring its effectiveness is critical for paving the way for novel paradigms in spoken-language processing. This paper presents the findings of GSLM's encoding and decoding effectiveness at the spoken-language and speech levels. Through speech resynthesis experiments, we revealed that resynthesis errors occur at the levels ranging from phonology to syntactics and GSLM frequently resynthesizes natural but content-altered speech.
翻訳日:2023-06-02 15:44:41 公開日:2023-06-01
# 神経放射場の内部構造解析

Analyzing the Internals of Neural Radiance Fields ( http://arxiv.org/abs/2306.00696v1 )

ライセンス: Link先を確認
Lukas Radl, Andreas Kurz, Markus Steinberger(参考訳) 現代のニューラルラジアンス場(NeRF)は,提案するネットワークサンプリング器を用いて位置から体積密度へのマッピングを学習する。 2つのNeRFによる粗大なサンプリングアプローチとは対照的に、空間座標を体積密度にマッピングするタスクはビュー依存効果を伴わず、学習しやすくするため、ネットワーク容量を低くするスピードアップには大きな可能性がある。 ネットワーク容量の大部分が放射率を推定するために利用されるため、NeRFはパラメータやその深い特徴に貴重な密度情報を格納することができる。 この目的のために、我々は、粗大なサンプリングに使われる大規模で訓練されたReLU-MLPを分析し、分析する。 トレーニングされたNeRF, Mip-NeRF, 提案したネットワークサンプルは, 高密度のサンプルを, 活性化特徴空間に沿う局所最小値にマッピングする。 パラメータを最適化せずに中間活性化を重み推定に変換することで、これらの大きなMLPをどのように加速するかを示す。 提案手法では,レンダリング品質をわずかに損なうことなく,トレーニングプロトコルやアーキテクチャを変更することなく,トレーニング済みのNeRFの計算要求を最大50%削減することができる。 さまざまなアーキテクチャやデータセットに対する我々のアプローチを評価し、提案がさまざまな設定で成り立つことを示す。

Modern Neural Radiance Fields (NeRFs) learn a mapping from position to volumetric density via proposal network samplers. In contrast to the coarse-to-fine sampling approach with two NeRFs, this offers significant potential for speedups using lower network capacity as the task of mapping spatial coordinates to volumetric density involves no view-dependent effects and is thus much easier to learn. Given that most of the network capacity is utilized to estimate radiance, NeRFs could store valuable density information in their parameters or their deep features. To this end, we take one step back and analyze large, trained ReLU-MLPs used in coarse-to-fine sampling. We find that trained NeRFs, Mip-NeRFs and proposal network samplers map samples with high density to local minima along a ray in activation feature space. We show how these large MLPs can be accelerated by transforming the intermediate activations to a weight estimate, without any modifications to the parameters post-optimization. With our approach, we can reduce the computational requirements of trained NeRFs by up to 50% with only a slight hit in rendering quality and no changes to the training protocol or architecture. We evaluate our approach on a variety of architectures and datasets, showing that our proposition holds in various settings.
翻訳日:2023-06-02 15:44:29 公開日:2023-06-01
# 大きな事前学習されたモデルは知覚タスクの視覚モデルに役立つか?

Can Large Pre-trained Models Help Vision Models on Perception Tasks? ( http://arxiv.org/abs/2306.00693v1 )

ライセンス: Link先を確認
Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang(参考訳) 事前訓練済みの大規模モデル(GPT-4など)の最近の増加は、ディープラーニングコミュニティ全体に波及している。 このような強力な大規模言語モデル(LLM)は、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端のパフォーマンスを迅速に達成する。 トレーニング済みのllmは通常、コンテキスト推論、記事分析、画像コンテンツ理解など、さまざまなタスクを実行できるユニバーサルaiモデルとしての役割を担う。 しかし、そのような大規模モデルを実装するためのメモリと計算コストが極めて高いことを考慮すると、従来のモデル(cnnやvitなど)は多くの視覚知覚タスクにおいて依然として不可欠である。 本稿では,大規模な事前学習モデルを活用することで,知覚タスク(画像分類など)における通常の視覚モデルの表現能力を高めることを提案する。 本稿では,cnn や vit のようなモデルが拡張表現を学習し,優れた性能を実現するために,事前学習モデルから抽出した知識を活用する新しい学習パラダイムを提案する。 まず,マルチモーダル LLM に対して,すべてのトレーニング画像に対して記述テキストを生成することによって,高品質な記述セットをキュレートする。 さらに,これらの詳細な記述を予め学習したエンコーダに入力し,画像の内容をエンコードする豊かな意味情報を含むテキスト埋め込みを抽出する。 トレーニング中、テキスト埋め込みは余分な監視信号となり、視覚モデルによって学習された画像表現と整合する。 アライメントプロセスは、事前訓練されたLLMの助けを借りて、ビジョンモデルの改善と精度の向上を支援する。 提案手法が異種アーキテクチャを用いた様々なビジョンモデルの性能を一貫して向上させることを確認した。

The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across the entire deep learning community. Such powerful large language models (LLMs) demonstrate advanced generative ability and multimodal understanding capability, which quickly achieve new state-of-the-art performances on a variety of benchmarks. The pre-trained LLM usually plays the role as a universal AI model that can conduct various tasks, including context reasoning, article analysis and image content comprehension. However, considering the prohibitively high memory and computational cost for implementing such a large model, the conventional models (such as CNN and ViT), are still essential for many visual perception tasks. In this paper, we propose to enhance the representation ability of ordinary vision models for perception tasks (e.g. image classification) by taking advantage of large pre-trained models. We present a new learning paradigm in which the knowledge extracted from large pre-trained models are utilized to help models like CNN and ViT learn enhanced representations and achieve better performance. Firstly, we curate a high quality description set by prompting a multimodal LLM to generate descriptive text for all training images. Furthermore, we feed these detailed descriptions into a pre-trained encoder to extract text embeddings with rich semantic information that encodes the content of images. During training, text embeddings will serve as extra supervising signals and be aligned with image representations learned by vision models. The alignment process helps vision models learn better and achieve higher accuracy with the assistance of pre-trained LLMs. We conduct extensive experiments to verify that the proposed algorithm consistently improves the performance for various vision models with heterogeneous architectures.
翻訳日:2023-06-02 15:44:07 公開日:2023-06-01
# 微分木操作は構成一般化を促進する

Differentiable Tree Operations Promote Compositional Generalization ( http://arxiv.org/abs/2306.00751v1 )

ライセンス: Link先を確認
Paul Soulos, Edward Hu, Kate McCurdy, Yunmo Chen, Roland Fernandez, Paul Smolensky, Jianfeng Gao(参考訳) 構造から構造への変換タスクの文脈では、離散的なシンボル操作の学習シーケンスは、その非微分性のために大きな課題を生じさせる。 これらのシンボリックシーケンスの学習を容易にするために,高レベルシンボリックツリー演算をテンソル上の部分シンボリック行列演算にコンパイルする微分可能木インタプリタを導入する。 本稿では,外部メモリとインタプリタを統合した新しい微分可能ツリーマシン(DTM)アーキテクチャと,木操作を逐次選択し,目的の変換をエンドツーエンドに実行するエージェントを提案する。 合成意味解析と言語生成タスクのアウト・オブ・ディストリビューション構成の一般化に関して、DTMは100%を達成する一方、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%未満を達成する。 DTMはその完全な性能に加えて、非常に解釈可能なままである。

In the context of structure-to-structure transformation tasks, learning sequences of discrete symbolic operations poses significant challenges due to their non-differentiability. To facilitate the learning of these symbolic sequences, we introduce a differentiable tree interpreter that compiles high-level symbolic tree operations into subsymbolic matrix operations on tensors. We present a novel Differentiable Tree Machine (DTM) architecture that integrates our interpreter with an external memory and an agent that learns to sequentially select tree operations to execute the target transformation in an end-to-end manner. With respect to out-of-distribution compositional generalization on synthetic semantic parsing and language generation tasks, DTM achieves 100% while existing baselines such as Transformer, Tree Transformer, LSTM, and Tree2Tree LSTM achieve less than 30%. DTM remains highly interpretable in addition to its perfect performance.
翻訳日:2023-06-02 15:37:14 公開日:2023-06-01
# 割り当て最適化を用いたエンドツーエンド文書分類と鍵情報抽出

End-to-End Document Classification and Key Information Extraction using Assignment Optimization ( http://arxiv.org/abs/2306.00750v1 )

ライセンス: Link先を確認
Ciaran Cooney, Joana Cavadas, Liam Madigan, Bradley Savage, Rachel Heyburn and Mairead O'Cuinn(参考訳) 本稿では,文書処理を形式的に自動化するための文書分類と鍵情報抽出(KIE)を提案する。 正確な文書分類を通じて、テンプレートからの既知の情報を利用して、フォームからKIEを強化する。 視覚的に類似した文書の分類には,コサイン類似度尺度を用いたテキストおよびレイアウト符号化を用いる。 次に,文書から鍵情報を抽出するために代入最適化を用いた混合整数プログラミングの新たな応用例を示す。 提案手法は,ノイズの多いスキャンフォームの社内データセット上で検証される。 最高の文書分類手法は0.97 f1のスコアを得た。 KIE タスクの平均 f1 スコアは 0.94 であり、最適化手法の適用には大きな可能性を示唆している。 その結果,本手法はII型エラーを軽減し,最適な性能を実現するために,文書前処理技術に依存していることがわかった。

We propose end-to-end document classification and key information extraction (KIE) for automating document processing in forms. Through accurate document classification we harness known information from templates to enhance KIE from forms. We use text and layout encoding with a cosine similarity measure to classify visually-similar documents. We then demonstrate a novel application of mixed integer programming by using assignment optimization to extract key information from documents. Our approach is validated on an in-house dataset of noisy scanned forms. The best performing document classification approach achieved 0.97 f1 score. A mean f1 score of 0.94 for the KIE task suggests there is significant potential in applying optimization techniques. Abation results show that the method relies on document preprocessing techniques to mitigate Type II errors and achieve optimal performance.
翻訳日:2023-06-02 15:36:55 公開日:2023-06-01
# ChatGPTを用いたカラム型アノテーション

Column Type Annotation using ChatGPT ( http://arxiv.org/abs/2306.00745v1 )

ライセンス: Link先を確認
Keti Korini, Christian Bizer(参考訳) カラム型アノテーションは、リレーショナルテーブルの列に各列に含まれる値の意味型をアノテートするタスクである。 カラム型アノテーションは、データレイクのコンテキストにおけるデータ検索と統合のための重要な前処理ステップである。 State-of-the-art column型アノテーションメソッドは、知識グラフのプロパティにマッチするテーブル列や、列型アノテーションタスクのBERTのような微調整済み言語モデルに依存する。 本研究では、異なるアプローチを採用し、カラム型アノテーションにChatGPTを用いて検討する。 ゼロショットと少数ショットの設定で異なるプロンプト設計を評価し,タスク定義とモデルへの詳細な指示を提供する実験を行った。 さらに、テーブルに記述されたエンティティのクラスを決定する2ステップのテーブルアノテーションパイプラインを実装し、そのクラスに応じて、全体の語彙の関連するサブセットのみを使用して、ChatGPTにアノテートする。 chatgptは命令と2ステップのパイプラインを使って、ゼロショットとワンショットのセットアップで85%以上のf1スコアに達する。 同様のF1スコアに達するには、RoBERTaモデルを300の例で微調整する必要がある。 この比較は、ChatGPTが、最小限のタスク固有の実演を条件に、カラムタイプのアノテーションタスクに対して競合的な結果を提供できることを示している。

Column type annotation is the task of annotating the columns of a relational table with the semantic type of the values contained in each column. Column type annotation is a crucial pre-processing step for data search and integration in the context of data lakes. State-of-the-art column type annotation methods either rely on matching table columns to properties of a knowledge graph or fine-tune pre-trained language models such as BERT for the column type annotation task. In this work, we take a different approach and explore using ChatGPT for column type annotation. We evaluate different prompt designs in zero- and few-shot settings and experiment with providing task definitions and detailed instructions to the model. We further implement a two-step table annotation pipeline which first determines the class of the entities described in the table and depending on this class asks ChatGPT to annotate columns using only the relevant subset of the overall vocabulary. Using instructions as well as the two-step pipeline, ChatGPT reaches F1 scores of over 85% in zero- and one-shot setups. To reach a similar F1 score a RoBERTa model needs to be fine-tuned with 300 examples. This comparison shows that ChatGPT is able deliver competitive results for the column type annotation task given no or only a minimal amount of task-specific demonstrations.
翻訳日:2023-06-02 15:36:43 公開日:2023-06-01
# スペクトル埋め込みでより深く進む

Going Deeper with Spectral Embeddings ( http://arxiv.org/abs/2306.00742v1 )

ライセンス: Link先を確認
Vivien Cabannes(参考訳) 何百万もの生データを理解し、効率的に表現するために、実践者は表現学習に頼る。 近年、これらのアプローチと基礎となる作用素のスペクトル分解の間に深い関係が示されている。 歴史的に、明示的なスペクトル埋め込みはデータの上に構築されたグラフから構築された。 対照的に、スペクトル埋め込みを構築するための新しい方法として、機能解析原理と、理論的保証のあるアルゴリズムを導出するカーネル法と、原理的変動損失を最適化するために訓練されたディープネットワークの2つを提案する。 さらに、学習した表現を活用して新しいサンプルを1ステップで生成する新しいサンプリングアルゴリズムを提案する。

To make sense of millions of raw data and represent them efficiently, practitioners rely on representation learning. Recently, deep connections have been shown between these approaches and the spectral decompositions of some underlying operators. Historically, explicit spectral embeddings were built from graphs constructed on top of the data. In contrast, we propose two new methods to build spectral embeddings: one based on functional analysis principles and kernel methods, which leads to algorithms with theoretical guarantees, and the other based on deep networks trained to optimize principled variational losses, which yield practically efficient algorithms. Furthermore, we provide a new sampling algorithm that leverages learned representations to generate new samples in a single step.
翻訳日:2023-06-02 15:36:23 公開日:2023-06-01
# 深層学習における一様信頼現象とその校正への応用

A Uniform Confidence Phenomenon in Deep Learning and its Implications for Calibration ( http://arxiv.org/abs/2306.00740v1 )

ライセンス: Link先を確認
Muthu Chidambaram and Rong Ge(参考訳) ディープニューラルネットワークの印象的な一般化能力にもかかわらず、予測の不確実性が低く見積もられていることが繰り返し示されている。 この問題の修正はモデルキャリブレーションと呼ばれ、改良されたトレーニングスキームや訓練後のキャリブレーション手順という形で多くの注目を集めた。 本研究では,最新のモデルのキャリブレーションにおいて大きなハードルを提示する。深層ニューラルネットワークは,そのトレーニングポイントに関する信頼性がほぼ確実である。 実験では、この現象が(画像分類の文脈で)多くのモデルとデータセットのペアで一貫して発生することを実証する。 さらに,この現象がクラス間の重なりを持つ大規模データ分布を持つ場合には,温度スケーリングの標準訓練後のキャリブレーション手法を適用した場合でも,ランダム(キャリブレーション)よりも漸近的に優れたモデルを得ることはできないことを証明した。 一方で,mixupデータ拡張手法に基づき,トレーニングプロセスを変更して修正損失を使用することで,この欠陥を回避することが可能であることを実証する。

Despite the impressive generalization capabilities of deep neural networks, they have been repeatedly shown to poorly estimate their predictive uncertainty - in other words, they are frequently overconfident when they are wrong. Fixing this issue is known as model calibration, and has consequently received much attention in the form of modified training schemes and post-training calibration procedures. In this work, we present a significant hurdle to the calibration of modern models: deep neural networks have large neighborhoods of almost certain confidence around their training points. We demonstrate in our experiments that this phenomenon consistently arises (in the context of image classification) across many model and dataset pairs. Furthermore, we prove that when this phenomenon holds, for a large class of data distributions with overlaps between classes, it is not possible to obtain a model that is asymptotically better than random (with respect to calibration) even after applying the standard post-training calibration technique of temperature scaling. On the other hand, we also prove that it is possible to circumvent this defect by changing the training process to use a modified loss based on the Mixup data augmentation technique.
翻訳日:2023-06-02 15:36:11 公開日:2023-06-01
# ReFACT: テキストエンコーダの編集によるテキストから画像への更新

ReFACT: Updating Text-to-Image Models by Editing the Text Encoder ( http://arxiv.org/abs/2306.00738v1 )

ライセンス: Link先を確認
Dana Arad, Hadas Orgad, Yonatan Belinkov(参考訳) テキストから画像へのモデルは膨大なデータに基づいてトレーニングされ、パラメータ内に事実知識を暗黙的にエンコードする。 いくつかの事実は有用であるが、他の事実は間違っているか時代遅れになる可能性がある(例えば、現在のアメリカ合衆国大統領)。 本稿では,テキスト・ツー・イメージ生成モデルにおける事実知識の編集手法であるReFACTを紹介する。 ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。 我々は、新たにキュレートされたデータセットであるRoADとともに、既存のベンチマークでReFACTを実証的に評価する。 ReFACTは、関連する概念を保存しながら、関連する概念を一般化するという点で優れたパフォーマンスを達成する。 さらに、ReFACTは画像生成の品質を維持しており、テキスト・ツー・イメージ・モデルにおける事実情報の更新と修正に有用なツールである。

Text-to-image models are trained on extensive amounts of data, leading them to implicitly encode factual knowledge within their parameters. While some facts are useful, others may be incorrect or become outdated (e.g., the current President of the United States). We introduce ReFACT, a novel approach for editing factual knowledge in text-to-image generative models. ReFACT updates the weights of a specific layer in the text encoder, only modifying a tiny portion of the model's parameters, and leaving the rest of the model unaffected. We empirically evaluate ReFACT on an existing benchmark, alongside RoAD, a newly curated dataset. ReFACT achieves superior performance in terms of generalization to related concepts while preserving unrelated concepts. Furthermore, ReFACT maintains image generation quality, making it a valuable tool for updating and correcting factual information in text-to-image models.
翻訳日:2023-06-02 15:35:51 公開日:2023-06-01
# 感度サンプリング$\ell_p$のシャープ境界

Sharper Bounds for $\ell_p$ Sensitivity Sampling ( http://arxiv.org/abs/2306.00732v1 )

ライセンス: Link先を確認
David P. Woodruff, Taisuke Yasuda(参考訳) 大規模な機械学習において、ランダムサンプリングは、サンプルの小さな代表部分集合によってデータセットを近似する一般的な方法である。 特に、感度サンプリングは、非常に一般的な設定でvc次元 $d$ と総感度 $\mathfrak s$ の積に例の数を減少させながら、近似の質を証明可能な保証を提供する、非常に研究された技術である。 しかし、この一般的な境界である$\mathfrak s d$ を超える保証は、以前の仕事における感度サンプリングの徹底的な研究にもかかわらず、$\ell_2$ 部分空間埋め込みに対しておそらく1つの設定で知られている。 この研究では、$\ell_p$ 部分空間埋め込みに対する$p\neq 2$ に対する感度サンプリングの最初のバウンドを示す。これは一般的な$\mathfrak S d$ よりも改善され、約$\mathfrak S^{2/p} のバウンドを$1\leq p<2$ および$\mathfrak S^{2-2/p} に対して$2<p<\infty$ で達成する。 $1\leq p<2$ の場合、この境界は、$\mathfrak S^{2/p} のサンプルが必要とされる行列が存在するという意味で、厳密であることを示す。 さらに,本手法はサンプリングアルゴリズムの研究においてさらに新たな結果をもたらし,ルートレバレッジスコアサンプリングアルゴリズムが約$d$1\leq p<2$,レバレッジスコアと感度サンプリングの組み合わせで約$d^{2/p}\mathfrak S^{2-4/p}$2<p<\infty$とした。 感度サンプリングの結果、$\ell_p$の感度の小さい構造行列の最もよく知られたサンプル複雑性が得られる。

In large scale machine learning, random sampling is a popular way to approximate datasets by a small representative subset of examples. In particular, sensitivity sampling is an intensely studied technique which provides provable guarantees on the quality of approximation, while reducing the number of examples to the product of the VC dimension $d$ and the total sensitivity $\mathfrak S$ in remarkably general settings. However, guarantees going beyond this general bound of $\mathfrak S d$ are known in perhaps only one setting, for $\ell_2$ subspace embeddings, despite intense study of sensitivity sampling in prior work. In this work, we show the first bounds for sensitivity sampling for $\ell_p$ subspace embeddings for $p\neq 2$ that improve over the general $\mathfrak S d$ bound, achieving a bound of roughly $\mathfrak S^{2/p}$ for $1\leq p<2$ and $\mathfrak S^{2-2/p}$ for $2<p<\infty$. For $1\leq p<2$, we show that this bound is tight, in the sense that there exist matrices for which $\mathfrak S^{2/p}$ samples is necessary. Furthermore, our techniques yield further new results in the study of sampling algorithms, showing that the root leverage score sampling algorithm achieves a bound of roughly $d$ for $1\leq p<2$, and that a combination of leverage score and sensitivity sampling achieves an improved bound of roughly $d^{2/p}\mathfrak S^{2-4/p}$ for $2<p<\infty$. Our sensitivity sampling results yield the best known sample complexity for a wide class of structured matrices that have small $\ell_p$ sensitivity.
翻訳日:2023-06-02 15:35:36 公開日:2023-06-01
# 準備・測定シナリオにおける自己検証とウィグナーの定理の堅牢版

Self-testing in prepare-and-measure scenarios and a robust version of Wigner's theorem ( http://arxiv.org/abs/2306.00730v1 )

ライセンス: Link先を確認
Miguel Navascues, K\'aroly F. P\'al, Tam\'as V\'ertesi and Mateus Ara\'ujo(参考訳) 我々は、ある相手が既知の次元の量子状態のD$を信頼できない装置で準備した通信シナリオを別の相手に送信し、その相手を非特性測定装置で探索する。 我々は、任意の参照純量子状態のアンサンブルに対して、そのような準備と測定のシナリオと、観測された測定確率の線形汎関数 $w$ が存在することを証明し、その準備が基準状態、ユニタリまたは反ユニタリ変換と一致する場合にのみ$w$ が最大化可能であることを証明する。 言い換えれば、準備と測定のシナリオは純粋な量子状態の任意のアンサンブルを「自己テスト」することができる。 任意の極端な$D$次元量子測定、またはその集合も同様に自己検定することができる。 我々の結果は、物理対称性を特徴づける粒子物理学の既知の結果であるウィグナーの定理の堅牢な一般化に依存している。

We consider communication scenarios where one party sends quantum states of known dimensionality $D$, prepared with an untrusted apparatus, to another, distant party, who probes them with uncharacterized measurement devices. We prove that, for any ensemble of reference pure quantum states, there exists one such prepare-and-measure scenario and a linear functional $W$ on its observed measurement probabilities, such that $W$ can only be maximized if the preparations coincide with the reference states, modulo a unitary or an anti-unitary transformation. In other words, prepare-and-measure scenarios allow one to "self-test" arbitrary ensembles of pure quantum states. Arbitrary extreme $D$-dimensional quantum measurements, or sets thereof, can be similarly self-tested. Our results rely on a robust generalization of Wigner's theorem, a known result in particle physics that characterizes physical symmetries.
翻訳日:2023-06-02 15:34:55 公開日:2023-06-01
# スマートフォンセンシングとコミュニティモデルパーソナライゼーションによる気分判断

Inferring Mood-While-Eating with Smartphone Sensing and Community-Based Model Personalization ( http://arxiv.org/abs/2306.00723v1 )

ライセンス: Link先を確認
Wageesha Bangamuarachchi and Anju Chamantha and Lakmal Meegahapola and Haeeun Kim and Salvador Ruiz-Correa and Indika Perera and Daniel Gatica-Perez(参考訳) 気分と食事の相互作用は、栄養学と行動科学の分野における広範な研究の対象であり、両者の強い関係を示している。 さらに,携帯電話のセンサデータを用いて,食行動と気分の両方を,移動食日記やモバイル健康アプリケーションという文脈で独立に特徴付けてきた。 ただし、現在の文献には以下の制限がある。 一 日常の生活状況から食事等の特定の状況に至るまでの受動的センサデータを用いて訓練された気分推定モデルの一般化に関する調査の欠如 二 気分と食事の交点を研究するためのセンサデータを用いる先行研究 三 気分推論においてよく経験するような、限定的なラベル設定におけるモデルパーソナライズ技術の不十分な検証 本研究では,メキシコの大学生(n_mex = 84, 1843)と8か国(n_mul = 678, 329k mood reports incl. 24k mood-while-eating reports)の2つのデータセットを用いて,受動的スマートフォンセンシングと自己報告データの両方を含む日常食行動と気分について検討した。 以上の結果から,一般的な気分推定モデルでは,食事時など特定の文脈でのパフォーマンスが低下することが示唆された。 さらに, 集団レベル(非個人化)とハイブリッド(部分パーソナライズ)のモデリング技術は, 一般的に使用されている3段階の感情推論タスク(正, 中立, 負)には不十分であることがわかった。 さらに,ユーザレベルのモデリングは,負のクラスからの十分なラベルやデータがないため,ほとんどの参加者にとって困難であった。 これらの制約に対処するために,類似ユーザから対象ユーザへのデータを用いたモデルを構築することにより,新たなコミュニティベースのパーソナライズ手法を採用した。

The interplay between mood and eating has been the subject of extensive research within the fields of nutrition and behavioral science, indicating a strong connection between the two. Further, phone sensor data have been used to characterize both eating behavior and mood, independently, in the context of mobile food diaries and mobile health applications. However, limitations within the current body of literature include: i) the lack of investigation around the generalization of mood inference models trained with passive sensor data from a range of everyday life situations, to specific contexts such as eating, ii) no prior studies that use sensor data to study the intersection of mood and eating, and iii) the inadequate examination of model personalization techniques within limited label settings, as we commonly experience in mood inference. In this study, we sought to examine everyday eating behavior and mood using two datasets of college students in Mexico (N_mex = 84, 1843 mood-while-eating reports) and eight countries (N_mul = 678, 329K mood reports incl. 24K mood-while-eating reports), containing both passive smartphone sensing and self-report data. Our results indicate that generic mood inference models decline in performance in certain contexts, such as when eating. Additionally, we found that population-level (non-personalized) and hybrid (partially personalized) modeling techniques were inadequate for the commonly used three-class mood inference task (positive, neutral, negative). Furthermore, we found that user-level modeling was challenging for the majority of participants due to a lack of sufficient labels and data from the negative class. To address these limitations, we employed a novel community-based approach for personalization by building models with data from a set of similar users to a target user.
翻訳日:2023-06-02 15:34:37 公開日:2023-06-01
# UnDiff:無条件拡散モデルによる教師なし音声復元

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model ( http://arxiv.org/abs/2306.00721v1 )

ライセンス: Link先を確認
Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry Vetrov(参考訳) 本稿では,様々な音声逆タスクを解くことができる拡散確率モデルUnDiffを紹介する。 かつては無条件に音声波形生成を訓練していたため、劣化インバージョン、ニューラルボコーディング、ソース分離といった様々なタスクに適応することができる。 本稿では,まず,異なるニューラルアーキテクチャとプレコンディショニング領域を比較し,非条件波形生成の課題に対処する。 その後、近年の拡散モデルの訓練後条件付けにより、訓練済みの非条件拡散が音声処理の異なるタスクにどのように適応できるかを実証する。 最後に,帯域幅拡張,デクリッピング,vocoding,音声ソース分離などのタスクにおける提案手法の性能を示し,ベースラインと比較する。 コードはまもなくリリースされる。

This paper introduces UnDiff, a diffusion probabilistic model capable of solving various speech inverse tasks. Being once trained for speech waveform generation in an unconditional manner, it can be adapted to different tasks including degradation inversion, neural vocoding, and source separation. In this paper, we, first, tackle the challenging problem of unconditional waveform generation by comparing different neural architectures and preconditioning domains. After that, we demonstrate how the trained unconditional diffusion could be adapted to different tasks of speech processing by the means of recent developments in post-training conditioning of diffusion models. Finally, we demonstrate the performance of the proposed technique on the tasks of bandwidth extension, declipping, vocoding, and speech source separation and compare it to the baselines. The codes will be released soon.
翻訳日:2023-06-02 15:34:03 公開日:2023-06-01
# オブジェクトポップアップ:人間のインタラクションだけで3Dオブジェクトとそのポーズを推測できますか?

Object pop-up: Can we infer 3D objects and their poses from human interactions alone? ( http://arxiv.org/abs/2306.00777v1 )

ライセンス: Link先を確認
Ilya A. Petrov, Riccardo Marin, Julian Chibane, Gerard Pons-Moll(参考訳) 物体と人間のポーズの間の密接な絡み合いは、行動科学、認知心理学、コンピュータビジョンのコミュニティにとって、特に大きな関心事である。 近年では、アイテムから学び、人間のポーズとダイナミクスを現実的な方法で合成し、幾何学的および機能的期待の両方を満たす、オブジェクト中心のアプローチが開発されている。 しかし、逆の視点は明らかに研究されていない。3Dオブジェクトとそのポーズを人間の相互作用だけで推測できるのか? 私たちの調査では、一般的な3dヒューマンポイントクラウドは、ユーザーが機能(例えば双眼鏡を通して見る)を模倣しているだけでは、目立たないオブジェクトをポップアップするのに十分であることが示されています。 本手法は,xr/vrに適用可能な合成データとシーケンスを用いて,定性的かつ定量的に検証する。 コードはhttps://github.com/ptrvilya/object-popupで入手できる。

The intimate entanglement between objects affordances and human poses is of large interest, among others, for behavioural sciences, cognitive psychology, and Computer Vision communities. In recent years, the latter has developed several object-centric approaches: starting from items, learning pipelines synthesizing human poses and dynamics in a realistic way, satisfying both geometrical and functional expectations. However, the inverse perspective is significantly less explored: Can we infer 3D objects and their poses from human interactions alone? Our investigation follows this direction, showing that a generic 3D human point cloud is enough to pop up an unobserved object, even when the user is just imitating a functionality (e.g., looking through a binocular) without involving a tangible counterpart. We validate our method qualitatively and quantitatively, with synthetic data and sequences acquired for the task, showing applicability for XR/VR. The code is available at https://github.com/ptrvilya/object-popup.
翻訳日:2023-06-02 15:27:58 公開日:2023-06-01
# タスク指向対話システムのための文脈学習ユーザシミュレータ

In-Context Learning User Simulators for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2306.00774v1 )

ライセンス: Link先を確認
Silvia Terragni, Modestas Filipavicius, Nghia Khau, Bruna Guedes, Andr\'e Manso, Roland Mathis(参考訳) 本稿では,タスク指向対話システムにおけるユーザシミュレーションにおける大規模言語モデルの新たな応用について述べる。 提案手法は,これらのモデルのパワーを生かして,ユーザ目標と限られた対話例に基づく多様な発話を生成する。 従来のシミュレータとは異なり、この方法は労働集約的なルール定義や広範な注釈付きデータを必要としないため、より効率的でアクセスしやすい。 さらに、ユーザシミュレータとダイアログシステム間のインタラクションのエラー解析により、一般的な誤りが判明し、改善を必要とする領域に関する貴重な洞察を提供する。 実装はhttps://github.com/telepathylabsai/prompt-based-user-simulatorで利用可能です。

This paper presents a novel application of large language models in user simulation for task-oriented dialog systems, specifically focusing on an in-context learning approach. By harnessing the power of these models, the proposed approach generates diverse utterances based on user goals and limited dialog examples. Unlike traditional simulators, this method eliminates the need for labor-intensive rule definition or extensive annotated data, making it more efficient and accessible. Additionally, an error analysis of the interaction between the user simulator and dialog system uncovers common mistakes, providing valuable insights into areas that require improvement. Our implementation is available at https://github.com/telepathylabsai/prompt-based-user-simulator.
翻訳日:2023-06-02 15:27:41 公開日:2023-06-01
# 絡み合った光子を用いた高次量子コヒーレンスの空間構造制御

Manipulating spatial structure of high-order quantum coherence with entangled photons ( http://arxiv.org/abs/2306.00772v1 )

ライセンス: Link先を確認
Shuang-Yin Huang, Jing Gao, Zhi-Cheng Ren, Zi-Mo Cheng, Wen-Zheng Zhu, Shu-Tian Xue, Yan-Chao Lou, Zhi-Feng Liu, Chao Chen, Fei Zhu, Li-Ping Yang, Xi-Lin Wang, and Hui-Tian Wang(参考訳) 高次量子コヒーレンスは、量子粒子の統計的相関を明らかにする。 時間領域における光の量子コヒーレンス操作により、単一光子源が生成され、これが最も重要な量子資源の1つとなっている。 空間領域における高次量子コヒーレンスは、量子イメージング、ホログラフィ、顕微鏡といった様々な応用において重要な役割を果たす。 しかし、高次空間量子コヒーレンスのアクティブ制御は依然として困難な課題である。 本稿では,空間構造光子の絡み合いをマッピングすることにより,高次空間量子コヒーレンスの最初のアクティブ操作を理論的に予測し,実験的に実証する。 我々の結果は、現在のアプリケーションに新たな強みを注入するだけでなく、高次量子コヒーレンスのより広範な応用への新たな可能性をもたらす。

High-order quantum coherence reveals the statistical correlation of quantum particles. Manipulation of quantum coherence of light in temporal domain enables to produce single-photon source, which has become one of the most important quantum resources. High-order quantum coherence in spatial domain plays a crucial role in a variety of applications, such as quantum imaging, holography and microscopy. However, the active control of high-order spatial quantum coherence remains a challenging task. Here we predict theoretically and demonstrate experimentally the first active manipulation of high-order spatial quantum coherence by mapping the entanglement of spatially structured photons. Our results not only enable to inject new strength into current applications, but also provide new possibilities towards more wide applications of high-order quantum coherence.
翻訳日:2023-06-02 15:27:30 公開日:2023-06-01
# データ効率の良いマルチドメインスタンス検出のためのトピックガイドサンプリング

Topic-Guided Sampling For Data-Efficient Multi-Domain Stance Detection ( http://arxiv.org/abs/2306.00765v1 )

ライセンス: Link先を確認
Erik Arakelyan, Arnav Arora, Isabelle Augenstein(参考訳) スタンス検出は、著者が関心の対象に対して表現する姿勢を特定することに関わる。 このタスクは、ソーシャルメディアの意見の特定から、法的クレームに対するスタンスの検出まで、さまざまなドメインにまたがる。 しかし、タスクのフレーミングは、データ収集プロトコル、ラベル辞書、利用可能なアノテーションの数という観点で、これらのドメイン内で異なる。 さらに、これらのスタンスアノテーションは、トピック毎およびトピック間ベースで著しく不均衡である。 これにより、標準化とドメイン適応を必要とするマルチドメインのスタンス検出が困難なタスクとなる。 この課題を克服するために、トピック誘導の多様性サンプリング技術と、スタンス分類器の微調整に使用される対照的な目的からなる、$\textbf{T}$opic $\textbf{E}$fficient $\textbf{St}$anc$\textbf{E}$$ $\textbf{D}$etection (TESTED)を提案する。 既存のベンチマークである16ドルのデータセットをドメイン内,すなわちドメイン外およびドメイン外にあるすべてのトピック,すなわち見当たらないトピック,実験を用いて評価する。 その結果,本手法は平均3.5ドルF1ポイントのドメイン増加と,トレーニングデータの$\leq10\%のトレーニングデータを用いて,ドメイン外評価における平均10.2ドルF1の増加により,より一般化可能であることがわかった。 本手法は,トピック間およびトピック毎のクラス不均衡を緩和することを示す。 最後に, 比較学習の目的が, ラベルの異なるサンプルのより顕著なセグメンテーションを可能にすることを示す。

Stance Detection is concerned with identifying the attitudes expressed by an author towards a target of interest. This task spans a variety of domains ranging from social media opinion identification to detecting the stance for a legal claim. However, the framing of the task varies within these domains, in terms of the data collection protocol, the label dictionary and the number of available annotations. Furthermore, these stance annotations are significantly imbalanced on a per-topic and inter-topic basis. These make multi-domain stance detection a challenging task, requiring standardization and domain adaptation. To overcome this challenge, we propose $\textbf{T}$opic $\textbf{E}$fficient $\textbf{St}$anc$\textbf{E}$ $\textbf{D}$etection (TESTED), consisting of a topic-guided diversity sampling technique and a contrastive objective that is used for fine-tuning a stance classifier. We evaluate the method on an existing benchmark of $16$ datasets with in-domain, i.e. all topics seen and out-of-domain, i.e. unseen topics, experiments. The results show that our method outperforms the state-of-the-art with an average of $3.5$ F1 points increase in-domain, and is more generalizable with an averaged increase of $10.2$ F1 on out-of-domain evaluation while using $\leq10\%$ of the training data. We show that our sampling technique mitigates both inter- and per-topic class imbalances. Finally, our analysis demonstrates that the contrastive learning objective allows the model a more pronounced segmentation of samples with varying labels.
翻訳日:2023-06-02 15:27:17 公開日:2023-06-01
# 合成画像合成のための不連続プロンプトの学習

Learning Disentangled Prompts for Compositional Image Synthesis ( http://arxiv.org/abs/2306.00763v1 )

ライセンス: Link先を確認
Kihyuk Sohn, Albert Shaw, Yuan Hao, Han Zhang, Luisa Polania, Huiwen Chang, Lu Jiang, Irfan Essa(参考訳) そこで本研究では,事前学習した画像生成モデルに対して,新規画像合成のための新しいスタイルや概念を1つの画像から教える問題であるドメイン適応画像合成について検討し,合成画像合成の理解を深める。 本稿では,事前学習したクラス条件生成モデルと視覚的プロンプトチューニングを利用するフレームワークを提案する。 具体的には,いくつかの画像から意味(例えばクラス)とドメイン(例えばスタイル)の対立したプロンプトを学習する,新しいソースクラス蒸留ビジュアルプロンプトを提案する。 学習されたドメインプロンプトは、ターゲットドメインのスタイルで任意のクラスのイメージを合成するために使用される。 本研究では,各対象領域について,一から数までの画像数で研究を行い,その構成的一般化を示す定性的な結果を示す。 さらに,本手法はゼロショット領域適応分類精度の向上に役立つことを示す。

We study domain-adaptive image synthesis, the problem of teaching pretrained image generative models a new style or concept from as few as one image to synthesize novel images, to better understand the compositional image synthesis. We present a framework that leverages a pretrained class-conditional generation model and visual prompt tuning. Specifically, we propose a novel source class distilled visual prompt that learns disentangled prompts of semantic (e.g., class) and domain (e.g., style) from a few images. Learned domain prompt is then used to synthesize images of any classes in the style of target domain. We conduct studies on various target domains with the number of images ranging from one to a few to many, and show qualitative results which show the compositional generalization of our method. Moreover, we show that our method can help improve zero-shot domain adaptation classification accuracy.
翻訳日:2023-06-02 15:26:41 公開日:2023-06-01
# 拡散帰納法からの点過程の推測とサンプリング

Inference and Sampling of Point Processes from Diffusion Excursions ( http://arxiv.org/abs/2306.00762v1 )

ライセンス: Link先を確認
Ali Hasan, Yu Chen, Yuting Ng, Mohamed Abdelghani, Anderson Schneider, Vahid Tarokh(参考訳) 点過程は、しばしば連続したプロセスに関して自然な解釈を持つ。 本研究では,潜伏拡散過程の状態から到着時刻の観測を記述した点過程構成を提案する。 この枠組みでは,連続経路空間における拡散の戻り時間と点過程の新たな到来時間との関係について述べる。 これは、到着分布を生成するメカニズムを記述するために使われる連続的なサンプルパスにつながる。 これらのモデルは、市場における行動が隠れた継続的な価格によって決定される金融設定や、潜伏刺激がスパイクトレインを発生させる神経科学など、多くの分野に現れる。 本稿では, it\^o の帰納理論の展開に基づき, 潜在拡散過程に由来する点過程から推定・サンプリングする手法を提案する。 本手法をシミュレーションデータと実データの両方を用いて数値例で示す。 提案手法とフレームワークは、拡散のレンズを通して点過程を解釈する基礎を提供する。

Point processes often have a natural interpretation with respect to a continuous process. We propose a point process construction that describes arrival time observations in terms of the state of a latent diffusion process. In this framework, we relate the return times of a diffusion in a continuous path space to new arrivals of the point process. This leads to a continuous sample path that is used to describe the underlying mechanism generating the arrival distribution. These models arise in many disciplines, such as financial settings where actions in a market are determined by a hidden continuous price or in neuroscience where a latent stimulus generates spike trains. Based on the developments in It\^o's excursion theory, we propose methods for inferring and sampling from the point process derived from the latent diffusion process. We illustrate the approach with numerical examples using both simulated and real data. The proposed methods and framework provide a basis for interpreting point processes through the lens of diffusions.
翻訳日:2023-06-02 15:26:25 公開日:2023-06-01
# 予測アルゴリズムの効率的な故障パターン同定

Efficient Failure Pattern Identification of Predictive Algorithms ( http://arxiv.org/abs/2306.00760v1 )

ライセンス: Link先を確認
Bao Nguyen, Viet Anh Nguyen(参考訳) 機械学習)分類器とラベルなしデータの集合が与えられた場合、このデータセットで提示される誤分類パターンを効率的に識別するにはどうすればよいのか? この問題に対処するために,人間のアノテーションと逐次レコメンデーションアルゴリズムからなるヒューマンマシン協調フレームワークを提案する。 推薦アルゴリズムは確率的サンプリングとして概念化され、各ラウンドでアノテータに真のラベルのサンプルのサブセットを問い合わせ、サンプルが誤分類されているかどうかのフィードバック情報を取得する。 サンプリングメカニズムは、新しい分類パターンの発見(探索)と潜在的な分類パターンの確認(探索)のバランスをとる必要がある。 我々は,各ラウンドにおける後方の重み付け更新により,探索・探索トレードオフのバランスを保ち,確率的サンプリング器の発電機を形成する決定点プロセスを構築した。 その結果,様々な信号-雑音比で複数のデータセット上でのフレームワークの競合性能を実証した。

Given a (machine learning) classifier and a collection of unlabeled data, how can we efficiently identify misclassification patterns presented in this dataset? To address this problem, we propose a human-machine collaborative framework that consists of a team of human annotators and a sequential recommendation algorithm. The recommendation algorithm is conceptualized as a stochastic sampler that, in each round, queries the annotators a subset of samples for their true labels and obtains the feedback information on whether the samples are misclassified. The sampling mechanism needs to balance between discovering new patterns of misclassification (exploration) and confirming the potential patterns of classification (exploitation). We construct a determinantal point process, whose intensity balances the exploration-exploitation trade-off through the weighted update of the posterior at each round to form the generator of the stochastic sampler. The numerical results empirically demonstrate the competitive performance of our framework on multiple datasets at various signal-to-noise ratios.
翻訳日:2023-06-02 15:26:11 公開日:2023-06-01
# LiT-4-RSVQA:軽量トランスフォーマーを用いたリモートセンシングにおける視覚質問応答

LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in Remote Sensing ( http://arxiv.org/abs/2306.00758v1 )

ライセンス: Link先を確認
Leonard Hackel (1,3), Kai Norman Clasen (1), Mahdyar Ravanbakhsh (2), Beg/"um Demir (1,3) ((1) Technische Universit\"at Berlin, (2) Zalando SE Berlin, (3) Berlin Institute for the Foundations of Learning and Data)(参考訳) リモートセンシング(rs)におけるvqa(visual question answering)メソッドは、rs画像に対して自然言語質問に答えることを目的としている。 既存の手法の多くは大量の計算資源を必要としており、RSの運用シナリオでの応用を制限する。 そこで本稿では, RS における効率よく正確な VQA を実現するために, RS (LiT-4-RSVQA) アーキテクチャにおいて, 効率的な軽量トランスフォーマーベースの VQA を提案する。 私たちのアーキテクチャは 一 軽量テキストエンコーダモジュール 二 軽量画像エンコーダモジュール 三 融合モジュール、及び iv) 分類モジュール。 提案したLiT-4-RSVQAアーキテクチャは,VQAの精度を向上するとともに,ハードウェアの計算要求を大幅に低減する。 私たちのコードはhttps://git.tu-berlin.de/rsim/lit4rsvqaで公開しています。

Visual question answering (VQA) methods in remote sensing (RS) aim to answer natural language questions with respect to an RS image. Most of the existing methods require a large amount of computational resources, which limits their application in operational scenarios in RS. To address this issue, in this paper we present an effective lightweight transformer-based VQA in RS (LiT-4-RSVQA) architecture for efficient and accurate VQA in RS. Our architecture consists of: i) a lightweight text encoder module; ii) a lightweight image encoder module; iii) a fusion module; and iv) a classification module. The experimental results obtained on a VQA benchmark dataset demonstrate that our proposed LiT-4-RSVQA architecture provides accurate VQA results while significantly reducing the computational requirements on the executing hardware. Our code is publicly available at https://git.tu-berlin.de/rsim/lit4rsvqa.
翻訳日:2023-06-02 15:25:54 公開日:2023-06-01
# コントラスト学習による統合ストリーミングと非ストリーミングモデルの強化

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning ( http://arxiv.org/abs/2306.00755v1 )

ライセンス: Link先を確認
Yuting Yang, Yuke Li, Binbin Du(参考訳) 統合ストリーミングと非ストリーミング音声認識モデルは、その包括的能力によって大きな成功を収めた。 本稿では,ストリーミングモードと非ストリーミングモード間の固有表現ギャップを対比目的に橋渡しすることにより,統一モデルの精度を向上させることを提案する。 具体的には、ストリーミングモードと非ストリーミングモードの同一フレームにおけるトップレイヤ隠れ表現は正のペアと見なされ、非ストリーミングモードに近いストリーミングモードの表現を促進する。 複数の負のサンプルは、非ストリーミングモード下で同じサンプルの残りのフレームからランダムに選択される。 実験により,提案手法はストリーミングモードと非ストリーミングモードの両方において,統一モデルに対する一貫した改善を実現することを示した。 本手法は,ストリーミングモードでは4.66%,非ストリーミングモードでは4.31%,AISHELL-1ベンチマークでは4.31%のCERを実現する。

The unified streaming and non-streaming speech recognition model has achieved great success due to its comprehensive capabilities. In this paper, we propose to improve the accuracy of the unified model by bridging the inherent representation gap between the streaming and non-streaming modes with a contrastive objective. Specifically, the top-layer hidden representation at the same frame of the streaming and non-streaming modes are regarded as a positive pair, encouraging the representation of the streaming mode close to its non-streaming counterpart. The multiple negative samples are randomly selected from the rest frames of the same sample under the non-streaming mode. Experimental results demonstrate that the proposed method achieves consistent improvements toward the unified model in both streaming and non-streaming modes. Our method achieves CER of 4.66% in the streaming mode and CER of 4.31% in the non-streaming mode, which sets a new state-of-the-art on the AISHELL-1 benchmark.
翻訳日:2023-06-02 15:25:38 公開日:2023-06-01
# 医用画像分割のためのロバストなT-ロス

Robust T-Loss for Medical Image Segmentation ( http://arxiv.org/abs/2306.00753v1 )

ライセンス: Link先を確認
Alvaro Gonzalez-Jimenez, Simone Lionetti, Philippe Gottfrois, Fabian Gr\"oger, Marc Pouly, Alexander Navarini(参考訳) 本稿では,医用画像分割のための新しいロバスト損失関数T-Lossを提案する。 提案する損失は,student-t分布の負のログ類似性に基づいており,その感度を1つのパラメータで制御することにより,データの異常値を効果的に処理できる。 このパラメータはバックプロパゲーションプロセス中に更新され、追加の計算やノイズラベルのレベルと拡散に関する事前情報の必要性がなくなる。 以上の結果から,T-Lossは皮膚病変と肺分画の2つの公的医療データセットにおいて,従来の損失関数よりも優れていた。 また,T-Lossが人間の誤りに類似した異なる種類のラベルノイズを扱えることを示す。 以上の結果から,T-Lossが医用画像セグメンテーションの代替となる可能性が示唆された。 プロジェクトのWebサイトはhttps://robust-tloss.github.ioにある。

This paper presents a new robust loss function, the T-Loss, for medical image segmentation. The proposed loss is based on the negative log-likelihood of the Student-t distribution and can effectively handle outliers in the data by controlling its sensitivity with a single parameter. This parameter is updated during the backpropagation process, eliminating the need for additional computation or prior information about the level and spread of noisy labels. Our experiments show that the T-Loss outperforms traditional loss functions in terms of dice scores on two public medical datasets for skin lesion and lung segmentation. We also demonstrate the ability of T-Loss to handle different types of simulated label noise, resembling human error. Our results provide strong evidence that the T-Loss is a promising alternative for medical image segmentation where high levels of noise or outliers in the dataset are a typical phenomenon in practice. The project website can be found at https://robust-tloss.github.io
翻訳日:2023-06-02 15:25:22 公開日:2023-06-01
# 連合学習を用いた分散型マルチモーダルリモートセンシングアーカイブの学習

Learning Across Decentralized Multi-Modal Remote Sensing Archives with Federated Learning ( http://arxiv.org/abs/2306.00792v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} B\"uy\"ukta\c{s}, Gencer Sumbul, Beg\"um Demir(参考訳) 近年,クライアント上のデータにアクセスせずに分散データベース(クライアントなど)から学習することを目的としたフェデレートラーニング(FL)手法の開発が注目されている。 これらの手法の多くは、クライアントが同じデータモダリティと関連していると仮定する。 しかし、異なるクライアントにおけるリモートセンシング(RS)画像は異なるデータモダリティに関連付けられ、共同使用時の分類性能を向上させることができる。 本稿では,分散化されたマルチモーダル RS 画像アーカイブから RS 画像分類問題への学習を目的とした,新しいマルチモーダル FL フレームワークを提案する。 提案するフレームワークは3つのモジュールで構成されている。 1) マルチモーダル核融合(MF) 2)特徴の白化(fw)、及び 3)相互情報の最大化(MIM)。 MFモジュールは、クライアントが異なるデータモダリティに関連付けられている場合、クライアントのデータにアクセスすることなく、学習するための反復モデルを実行する。 FWモジュールは、異なるクライアント間で学んだ表現を整列する。 MIMモジュールは、異なるモードからの画像の類似性を最大化する。 実験の結果,flで広く用いられている反復モデル平均化法と比較して,提案手法の有効性が示された。 提案されたフレームワークのコードはhttps://git.tu-berlin.de/rsim/MM-FLで公開されている。

The development of federated learning (FL) methods, which aim to learn from distributed databases (i.e., clients) without accessing data on clients, has recently attracted great attention. Most of these methods assume that the clients are associated with the same data modality. However, remote sensing (RS) images in different clients can be associated with different data modalities that can improve the classification performance when jointly used. To address this problem, in this paper we introduce a novel multi-modal FL framework that aims to learn from decentralized multi-modal RS image archives for RS image classification problems. The proposed framework is made up of three modules: 1) multi-modal fusion (MF); 2) feature whitening (FW); and 3) mutual information maximization (MIM). The MF module performs iterative model averaging to learn without accessing data on clients in the case that clients are associated with different data modalities. The FW module aligns the representations learned among the different clients. The MIM module maximizes the similarity of images from different modalities. Experimental results show the effectiveness of the proposed framework compared to iterative model averaging, which is a widely used algorithm in FL. The code of the proposed framework is publicly available at https://git.tu-berlin.de/rsim/MM-FL.
翻訳日:2023-06-02 15:18:10 公開日:2023-06-01
# ショートアンワー数学問題におけるスコアラー選好のモデル化と分析

Modeling and Analyzing Scorer Preferences in Short-Answer Math Questions ( http://arxiv.org/abs/2306.00791v1 )

ライセンス: Link先を確認
Mengxue Zhang and Neil Heffernan and Andrew Lan(参考訳) オープンエンドの質問に対する学生の回答の自動スコア付けは、短い回答を含む多くの回答にスケールする可能性がある。 自動スコアリングの最近のアプローチは、教師あり学習、すなわち、人為的なスコアラベルによる少数の応答に対する訓練分類器や微調整言語モデルに依存している。 しかし、得点は主観的なプロセスであるため、これらの人間のスコアは騒がしく、得点者によって大きく変動することがある。 本稿では,自動採点作業における各得点者の個人選好と傾向を考慮したモデルの集合について検討する。 これらのモデルを、複数の異なる人間のスコアラーによって各応答が(しばしば異なる)短解数応答データセットに適用する。 定量的実験を行い、スコアラーモデルが自動スコアリング精度の向上につながることを示す。 また,得点者の個人の嗜好や傾向を分析するための定量的実験やケーススタディも行った。 その結果、スコアラはいくつかの明らかなクラスタにグループ化でき、各クラスタには異なる特徴があり、詳細に分析できることがわかった。

Automated scoring of student responses to open-ended questions, including short-answer questions, has great potential to scale to a large number of responses. Recent approaches for automated scoring rely on supervised learning, i.e., training classifiers or fine-tuning language models on a small number of responses with human-provided score labels. However, since scoring is a subjective process, these human scores are noisy and can be highly variable, depending on the scorer. In this paper, we investigate a collection of models that account for the individual preferences and tendencies of each human scorer in the automated scoring task. We apply these models to a short-answer math response dataset where each response is scored (often differently) by multiple different human scorers. We conduct quantitative experiments to show that our scorer models lead to improved automated scoring accuracy. We also conduct quantitative experiments and case studies to analyze the individual preferences and tendencies of scorers. We found that scorers can be grouped into several obvious clusters, with each cluster having distinct features, and analyzed them in detail.
翻訳日:2023-06-02 15:17:50 公開日:2023-06-01
# アドホックチームワークにおける部分観測可能性を考慮した知識に基づく推論と学習

Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork ( http://arxiv.org/abs/2306.00790v1 )

ライセンス: Link先を確認
Hasra Dodampegama, Mohan Sridharan(参考訳) アドホックチームワーク(Ad hoc teamwork)とは、エージェントが事前調整なしにチームメイトとコラボレーションできるようにする問題である。 データ駆動の手法は、アドホックなチームワークにおける芸術の状態を表現します。 彼らは、先行観察の大きなラベル付きデータセットを使用して、他のエージェントタイプの振る舞いをモデル化し、アドホックエージェントの振る舞いを決定する。 これらの手法は計算コストが高く、透明性が欠如しており、例えばチーム構成など、これまで見られなかった変更への適応が困難になる。 最近の研究では、非単調な論理推論に基づくアドホックエージェントの振る舞いを決定するアーキテクチャを導入し、事前のコモンセンスドメイン知識と、限られた例から学んだ他のエージェントの振る舞いの予測モデルを導入した。 本稿では、アーキテクチャの能力を大きく拡張してサポートします。 (a)他のエージェントの行動を予測するモデルのオンライン選択、適応、学習 (b)部分的可観測性と限定的なコミュニケーションの存在下でのチームメイトとのコラボレーション。 アドホックチームワークのための2つのシミュレーションされたマルチエージェントベンチマークドメインであるFort AttackとHalf Field Offenseで、アーキテクチャの能力を実証し、実験的に評価する。 私たちのアーキテクチャのパフォーマンスは、単純なシナリオと複雑なシナリオ、特に限られたトレーニングデータ、部分的な可観測性、チーム構成の変更の両方において、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。

Ad hoc teamwork refers to the problem of enabling an agent to collaborate with teammates without prior coordination. Data-driven methods represent the state of the art in ad hoc teamwork. They use a large labeled dataset of prior observations to model the behavior of other agent types and to determine the ad hoc agent's behavior. These methods are computationally expensive, lack transparency, and make it difficult to adapt to previously unseen changes, e.g., in team composition. Our recent work introduced an architecture that determined an ad hoc agent's behavior based on non-monotonic logical reasoning with prior commonsense domain knowledge and predictive models of other agents' behavior that were learned from limited examples. In this paper, we substantially expand the architecture's capabilities to support: (a) online selection, adaptation, and learning of the models that predict the other agents' behavior; and (b) collaboration with teammates in the presence of partial observability and limited communication. We illustrate and experimentally evaluate the capabilities of our architecture in two simulated multiagent benchmark domains for ad hoc teamwork: Fort Attack and Half Field Offense. We show that the performance of our architecture is comparable or better than state of the art data-driven baselines in both simple and complex scenarios, particularly in the presence of limited training data, partial observability, and changes in team composition.
翻訳日:2023-06-02 15:17:31 公開日:2023-06-01
# 音声自動翻訳のための言語間変換学習の改善

Improved Cross-Lingual Transfer Learning For Automatic Speech Translation ( http://arxiv.org/abs/2306.00789v1 )

ライセンス: Link先を確認
Sameer Khurana, Nauman Dawalatabad, Antoine Laurent, Luis Vicente, Pablo Gimeno, Victoria Mingote, James Glass(参考訳) 多言語音声テキスト翻訳の研究は話題となっている。 複数の翻訳タスクをサポートする単一のモデルを持つことが望ましい。 本研究の目的は,意味知識蒸留による多言語間音声翻訳における言語間伝達学習を改善することである。 マルチモーダル(音声テキスト)意味知識蒸留法を用いて訓練した多言語音声変換器SAMU-XLS-Rを用いてエンコーダ列列列列列列列列変換モデルの初期化を行うことにより、自己教師学習により訓練された多言語音声変換器XLS-Rよりもはるかに優れた言語間タスク知識伝達を実現することを示す。 提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。 CoVoST-2ベンチマークの21の翻訳タスクでは、ベースラインよりも平均12.8のBLEU点が向上した。 ゼロショット翻訳のシナリオでは、未知の中・低リソース言語で平均18.8と1.9のBLEU点が得られる。 我々はEuroparl音声翻訳ベンチマークで同様の観察を行う。

Research in multilingual speech-to-text translation is topical. Having a single model that supports multiple translation tasks is desirable. The goal of this work it to improve cross-lingual transfer learning in multilingual speech-to-text translation via semantic knowledge distillation. We show that by initializing the encoder of the encoder-decoder sequence-to-sequence translation model with SAMU-XLS-R, a multilingual speech transformer encoder trained using multi-modal (speech-text) semantic knowledge distillation, we achieve significantly better cross-lingual task knowledge transfer than the baseline XLS-R, a multilingual speech transformer encoder trained via self-supervised learning. We demonstrate the effectiveness of our approach on two popular datasets, namely, CoVoST-2 and Europarl. On the 21 translation tasks of the CoVoST-2 benchmark, we achieve an average improvement of 12.8 BLEU points over the baselines. In the zero-shot translation scenario, we achieve an average gain of 18.8 and 11.9 average BLEU points on unseen medium and low-resource languages. We make similar observations on Europarl speech translation benchmark.
翻訳日:2023-06-02 15:17:06 公開日:2023-06-01
# RKHS近似を用いた拡張型自己監督表現学習の理解

Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation ( http://arxiv.org/abs/2306.00788v1 )

ライセンス: Link先を確認
Runtian Zhai, Bingbin Liu, Andrej Risteski, Zico Kolter, Pradeep Ravikumar(参考訳) 良質なデータ拡張は、コントラスト学習やマスキング言語モデリングのような自己教師あり表現学習を経験的に成功させる重要な要因の1つだが、良質な表現の学習におけるその役割に関する理論的理解はまだ限られている。 最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との接続を構築している。 このような特徴の上の線形プローブを学習することは、自然にRKHS回帰に結び付けられる。 本研究では,この知見を用いて,強化型事前学習の統計的分析を行う。 拡張によって与えられる対象関数の重要な幾何学的特徴である等尺性から始める。 最初の主定理は、任意のエンコーダに対して、エンコーダの上に線形プローブを取り付けて得られた推定誤差と、エンコーダが学習するRKHSの適合度に係わる近似誤差の両方に対して、密接な境界付近を提供する。 2つ目の主定理は、エンコーダが基礎となる核のモンテカルロ近似のトップd固有空間を有限事前学習サンプルで抽出する場合を特に扱うものである。 我々の分析は、モデルと拡張の効果を完全に切り離している。 分析において重要な要素は拡張複雑性である。これは、異なる拡張を定量的に比較し、合成および実データに対する下流のパフォーマンスへの影響を分析するために用いられる。

Good data augmentation is one of the key factors that lead to the empirical success of self-supervised representation learning such as contrastive learning and masked language modeling, yet theoretical understanding of its role in learning good representations remains limited. Recent work has built the connection between self-supervised learning and approximating the top eigenspace of a graph Laplacian operator. Learning a linear probe on top of such features can naturally be connected to RKHS regression. In this work, we use this insight to perform a statistical analysis of augmentation-based pretraining. We start from the isometry property, a key geometric characterization of the target function given by the augmentation. Our first main theorem provides, for an arbitrary encoder, near tight bounds for both the estimation error incurred by fitting the linear probe on top of the encoder, and the approximation error entailed by the fitness of the RKHS the encoder learns. Our second main theorem specifically addresses the case where the encoder extracts the top-d eigenspace of a Monte-Carlo approximation of the underlying kernel with the finite pretraining samples. Our analysis completely disentangles the effects of the model and the augmentation. A key ingredient in our analysis is the augmentation complexity, which we use to quantitatively compare different augmentations and analyze their impact on downstream performance on synthetic and real datasets.
翻訳日:2023-06-02 15:16:44 公開日:2023-06-01
# データ補間--高次勾配正規化ganの判別器はそうである

Data Interpolants -- That's What Discriminators in Higher-order Gradient-regularized GANs Are ( http://arxiv.org/abs/2306.00785v1 )

ライセンス: Link先を確認
Siddarth Asokan and Chandra Sekhar Seelamantula(参考訳) 我々は,高次勾配正規化の対象となるgansにおける判別器の最適化の問題を考える。 解析的に、最小二乗法 (LSGAN) とワッサーシュタイン法 (WGAN) により、判別器最適化問題は$n$次元の補間の一つであることを示す。 変分法を用いて導出される最適判別器は、反復ラプラシアンあるいは多調和作用素を含む偏微分方程式の解であることが判明した。 この解は、多調和ラジアル基底関数(RBF)補間による閉形式で実装可能である。 ポリハーモニック接続の観点から、対応するGANをポリLSGANおよびポリWGANと呼ぶ。 多変量ガウスの実験的検証により, 任意の選択した識別器アーキテクチャを用いてGANを訓練した場合と比較して, 最適RBF判別器をクローズド形式で実装し, ペナルティ命令が$m \approx\lceil \frac{n}{2} \rceil $で優れた性能を示す。 本稿では,ポリWGAN判別器を用いて,エンコーダデコーダに基づくGANフレーバーを用いたデータ空間分布をモデル化する。

We consider the problem of optimizing the discriminator in generative adversarial networks (GANs) subject to higher-order gradient regularization. We show analytically, via the least-squares (LSGAN) and Wasserstein (WGAN) GAN variants, that the discriminator optimization problem is one of interpolation in $n$-dimensions. The optimal discriminator, derived using variational Calculus, turns out to be the solution to a partial differential equation involving the iterated Laplacian or the polyharmonic operator. The solution is implementable in closed-form via polyharmonic radial basis function (RBF) interpolation. In view of the polyharmonic connection, we refer to the corresponding GANs as Poly-LSGAN and Poly-WGAN. Through experimental validation on multivariate Gaussians, we show that implementing the optimal RBF discriminator in closed-form, with penalty orders $m \approx\lceil \frac{n}{2} \rceil $, results in superior performance, compared to training GAN with arbitrarily chosen discriminator architectures. We employ the Poly-WGAN discriminator to model the latent space distribution of the data with encoder-decoder-based GAN flavors such as Wasserstein autoencoders.
翻訳日:2023-06-02 15:16:18 公開日:2023-06-01
# ステップバイステップ計画による解釈可能な数学単語問題解生成

Interpretable Math Word Problem Solution Generation Via Step-by-step Planning ( http://arxiv.org/abs/2306.00784v1 )

ライセンス: Link先を確認
Mengxue Zhang and Zichao Wang and Zhichao Yang and Weiqi Feng and Andrew Lan(参考訳) ステップバイステップの説明を伴う数学用語問題(mwp)に対する解決策は、特に教育において、学生の問題解決戦略の理解を深めるために有用である。 既存のアプローチのほとんどは、最終的な正解を得ることだけに焦点を当てている。 最近のいくつかのアプローチでは、最終回答の正しさを改善するために中間解ステップを利用するが、明確な解戦略で一貫性のあるステップを生成することはできない。 既存の作業とは対照的に、中間解ステップの正しさと整合性の改善に注力する。 本稿では,MWPとそれ以前のソリューションステップに基づいて,次のソリューションステップの生成を戦略的に計画する,中間ソリューション生成のためのステップバイステップ計画手法を提案する。 提案手法はまず,まず履歴段階の計算に必要な演算を予測して次のステップを計画し,次に予測された演算で言語モデルに促すことでトークン・バイ・トークンを生成する。 GSM8Kデータセットの実験は、我々の手法が自動測定と人的評価の両方で解の精度と解釈性を向上させることを示した。

Solutions to math word problems (MWPs) with step-by-step explanations are valuable, especially in education, to help students better comprehend problem-solving strategies. Most existing approaches only focus on obtaining the final correct answer. A few recent approaches leverage intermediate solution steps to improve final answer correctness but often cannot generate coherent steps with a clear solution strategy. Contrary to existing work, we focus on improving the correctness and coherence of the intermediate solutions steps. We propose a step-by-step planning approach for intermediate solution generation, which strategically plans the generation of the next solution step based on the MWP and the previous solution steps. Our approach first plans the next step by predicting the necessary math operation needed to proceed, given history steps, then generates the next step, token-by-token, by prompting a language model with the predicted math operation. Experiments on the GSM8K dataset demonstrate that our approach improves the accuracy and interpretability of the solution on both automatic metrics and human evaluation.
翻訳日:2023-06-02 15:15:55 公開日:2023-06-01
# fdnerf: セマンティクス駆動の顔再構成、迅速な編集、拡散モデルによるリライト

FDNeRF: Semantics-Driven Face Reconstruction, Prompt Editing and Relighting with Diffusion Models ( http://arxiv.org/abs/2306.00783v1 )

ライセンス: Link先を確認
Hao Zhang, Yanbo Xu, Tianyuan Dai, Yu-Wing, Tai Chi-Keung Tang(参考訳) 単一の画像から高品質な3D顔を作る能力は、ビデオ会議、AR/VR、映画産業における高度なビデオ編集の幅広い応用において、ますます重要になっている。 本稿では,単一画像から高品質な顔NeRFを再構成し,セマンティック編集とリライト機能を備えた顔拡散NeRF(FDNeRF)を提案する。 FDNeRFは高解像度の3D GANインバージョンと専門的に訓練された2D潜伏拡散モデルを使用し、ユーザーは明示的な3Dデータを必要としないゼロショット学習でFace NeRFを操作および構築することができる。 FD-NeRFは、慎重にデザインされた照明とアイデンティティ保護の損失と、マルチモーダルな事前トレーニングによって、単一のビューイメージ、テキストプロンプト、明示的なターゲット照明を使用して顔NeRFを作成・編集できる編集プロセスの制御をユーザーに提供します。 FDNeRFの高度な機能は、編集可能な属性のために2Dセグメンテーションマップに依存する既存の2D編集アプローチよりも印象的な結果をもたらすように設計されている。 実験の結果,fdnerfは最先端の3d顔再構成法や編集法と比較して,極めて現実的な結果と前例のない柔軟性を実現していることがわかった。 私たちのコードはhttps://github.com/billyxyb/fdnerfで利用可能です。

The ability to create high-quality 3D faces from a single image has become increasingly important with wide applications in video conferencing, AR/VR, and advanced video editing in movie industries. In this paper, we propose Face Diffusion NeRF (FDNeRF), a new generative method to reconstruct high-quality Face NeRFs from single images, complete with semantic editing and relighting capabilities. FDNeRF utilizes high-resolution 3D GAN inversion and expertly trained 2D latent-diffusion model, allowing users to manipulate and construct Face NeRFs in zero-shot learning without the need for explicit 3D data. With carefully designed illumination and identity preserving loss, as well as multi-modal pre-training, FD-NeRF offers users unparalleled control over the editing process enabling them to create and edit face NeRFs using just single-view images, text prompts, and explicit target lighting. The advanced features of FDNeRF have been designed to produce more impressive results than existing 2D editing approaches that rely on 2D segmentation maps for editable attributes. Experiments show that our FDNeRF achieves exceptionally realistic results and unprecedented flexibility in editing compared with state-of-the-art 3D face reconstruction and editing methods. Our code will be available at https://github.com/BillyXYB/FDNeRF.
翻訳日:2023-06-02 15:15:35 公開日:2023-06-01
# 開分散光学系における自発パラメトリックダウン変換の非摂動理論

Non-perturbative theory of spontaneous parametric down-conversion in open and dispersive optical systems ( http://arxiv.org/abs/2306.00781v1 )

ライセンス: Link先を確認
Aleksa Krsti\'c, Frank Setzpfandt and Sina Saravi(参考訳) 任意の損失と分散量を持つ非線形光学構造における高ゲインレジームの自発的パラメトリックダウンコンバージョンを記述できる,グリーン関数量子化法に基づく非摂動的定式化法を開発した。 この形式主義は、圧縮光発生、非線形性に基づく量子センシング、非線形相互作用を介するハイブリッド量子システムなどの量子技術応用における任意の複素および/またはオープンナノ構造非線形光学系の記述と設計の方法を開く。 例えば、高利得状態において、未検出光子と統合量子分光のシナリオを数値的に検討し、システムの性能における新たな利得依存効果を明らかにする。

We develop a non-perturbative formulation based on the Green-function quantization method, that can describe spontaneous parametric down-conversion in the high-gain regime in nonlinear optical structures with arbitrary amount of loss and dispersion. This formalism opens the way for description and design of arbitrary complex and/or open nanostructured nonlinear optical systems in quantum technology applications, such as squeezed-light generation, nonlinearity-based quantum sensing, and hybrid quantum systems mediated by nonlinear interactions. As an example case, we numerically investigate the scenario of integrated quantum spectroscopy with undetected photons, in the high-gain regime, and uncover novel gain-dependent effects in the performance of the system.
翻訳日:2023-06-02 15:15:08 公開日:2023-06-01
# 同時計算と予測のための終端時系列モデル

An End-to-End Time Series Model for Simultaneous Imputation and Forecast ( http://arxiv.org/abs/2306.00778v1 )

ライセンス: Link先を確認
Trang H. Tran, Lam M. Nguyen, Kyongmin Yeo, Nam Nguyen, Dzung Phan, Roman Vaculin, Jayant Kalagnanam(参考訳) 歴史的データを用いた時系列予測は、特に欠落した値によってデータが破損した場合、興味深く、困難なトピックとなっている。 多くの産業問題では、データが十分に観測されていない場合に追加の知識を提供するため、補助観測と対象変数の間の推論関数を学習することが重要である。 我々は,このような推論関係を学習し,複数段階の予測を行うために,エンドツーエンドの時系列モデルを開発する。 我々のフレームワークは2つのニューラルネットワークを共同でトレーニングし、1つは特徴量相関を学習し、もう1つは時間的行動のモデリングを学習する。 我々のモデルは、欠落したエントリを同時に入力し、複数ステップの予測を行うことができる。 実験は、インプテーションと予測タスクの両方において、既存のメソッドよりも優れたフレームワークの全体的なパフォーマンスを示しています。

Time series forecasting using historical data has been an interesting and challenging topic, especially when the data is corrupted by missing values. In many industrial problem, it is important to learn the inference function between the auxiliary observations and target variables as it provides additional knowledge when the data is not fully observed. We develop an end-to-end time series model that aims to learn the such inference relation and make a multiple-step ahead forecast. Our framework trains jointly two neural networks, one to learn the feature-wise correlations and the other for the modeling of temporal behaviors. Our model is capable of simultaneously imputing the missing entries and making a multiple-step ahead prediction. The experiments show good overall performance of our framework over existing methods in both imputation and forecasting tasks.
翻訳日:2023-06-02 15:14:51 公開日:2023-06-01
# 内部冷却チャネルリブプロファイル最適化のための不確実性定量化を用いたディープオペレータ学習に基づくサロゲートモデル

Deep Operator Learning-based Surrogate Models with Uncertainty Quantification for Optimizing Internal Cooling Channel Rib Profiles ( http://arxiv.org/abs/2306.00810v1 )

ライセンス: Link先を確認
Izzet Sahin, Christian Moya, Amirhossein Mollaali, Guang Lina, Guillermo Paniagua(参考訳) 本稿では,リブ乱流内部冷却チャネルの熱性能を効果的に向上させるため,不確実な定量化能力を有するサロゲートモデルを設計する。 このサロゲートを構築するために、比較的小さなデータセットを用いて無限次元空間間のマッピングを近似するために設計されたニューラルネットワークの新しいクラスであるディープオペレータネットワーク(DeepONet)フレームワークを使用する。 提案するdeeponetは制御点を入力として任意の連続リブ形状を取り、プロファイルされたリブ周りの圧力分布と熱伝達に関する連続的な詳細な情報を出力する。 提案したDeepONetフレームワークのトレーニングとテストに必要なデータセットは,2Dリブ処理した内部冷却チャネルをシミュレートすることによって得られた。 そこで我々は,事前定義された経路やサンプリング手法に従わず,単純なランダム分布に従って制御点を調整することで,入力リブ形状を連続的に修正した。 管径66.7mmの油圧径Dhと長さ・水圧径比L/Dhの10である。 リブ中心高さと水圧径(e/dh)の比は,リブプロファイル更新時に変化しなかったが,0.048。 リブをチャネル内に配置し,p/e (p/e) を10。 さらに,有効不確実性定量化機能を備えたサロゲートを提案する。 これはDeepONetフレームワークをBayesian DeepONet(B-DeepONet)に変換することで実現される。 確率勾配レプリカ交換MCMCの新しい枠組みを用いたDeepONetパラメータの後方分布からのB-DeepONetサンプル

This paper designs surrogate models with uncertainty quantification capabilities to improve the thermal performance of rib-turbulated internal cooling channels effectively. To construct the surrogate, we use the deep operator network (DeepONet) framework, a novel class of neural networks designed to approximate mappings between infinite-dimensional spaces using relatively small datasets. The proposed DeepONet takes an arbitrary continuous rib geometry with control points as input and outputs continuous detailed information about the distribution of pressure and heat transfer around the profiled ribs. The datasets needed to train and test the proposed DeepONet framework were obtained by simulating a 2D rib-roughened internal cooling channel. To accomplish this, we continuously modified the input rib geometry by adjusting the control points according to a simple random distribution with constraints, rather than following a predefined path or sampling method. The studied channel has a hydraulic diameter, Dh, of 66.7 mm, and a length-to-hydraulic diameter ratio, L/Dh, of 10. The ratio of rib center height to hydraulic diameter (e/Dh), which was not changed during the rib profile update, was maintained at a constant value of 0.048. The ribs were placed in the channel with a pitch-to-height ratio (P/e) of 10. In addition, we provide the proposed surrogates with effective uncertainty quantification capabilities. This is achieved by converting the DeepONet framework into a Bayesian DeepONet (B-DeepONet). B-DeepONet samples from the posterior distribution of DeepONet parameters using the novel framework of stochastic gradient replica-exchange MCMC.
翻訳日:2023-06-02 15:08:47 公開日:2023-06-01
# 最初の推測バイアス:未訓練のネットワークがクラスをいかに好んでいるか

Initial Guessing Bias: How Untrained Networks Favor Some Classes ( http://arxiv.org/abs/2306.00809v1 )

ライセンス: Link先を確認
Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi(参考訳) ニューラルネットワークの初期状態は、その後のトレーニングダイナミクスの調整において中心的な役割を果たす。 分類問題の文脈では、ニューラルネットワークの構造が、トレーニングの開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 IGB(Initial Guessing Bias)と呼ばれるこの現象の存在は、アクティベーション関数、最大プール層、ネットワーク深さといったアーキテクチャ上の選択に依存する。 IGBの分析は、アーキテクチャの選択と初期化のガイドとなる実践的な結果をもたらす。 また,ノード置換対称性の分解,自己評価の違反,平均場近似の妥当性,深さによる非自明な相違など,理論的な結果も強調する。

The initial state of neural networks plays a central role in conditioning the subsequent training dynamics. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a neural network can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We show that the presence of this phenomenon, which we call "Initial Guessing Bias" (IGB), depends on architectural choices such as activation functions, max-pooling layers, and network depth. Our analysis of IGB has practical consequences, in that it guides architecture selection and initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging, the validity of some mean-field approximations, and the non-trivial differences arising with depth.
翻訳日:2023-06-02 15:08:21 公開日:2023-06-01
# Auto-Spikformer: Spikformerアーキテクチャ検索

Auto-Spikformer: Spikformer Architecture Search ( http://arxiv.org/abs/2306.00807v1 )

ライセンス: Link先を確認
Kaiwei Che, Zhaokun Zhou, Zhengyu Ma, Wei Fang, Yanqi Chen, Shuaijie Shen, Li Yuan, Yonghong Tian(参考訳) スパイクニューラルネットワーク(snn)への自己追跡機構の統合は、その生物学的特性から、高度な深層学習の領域においてかなりの関心を集めている。 SpikformerのようなSNNアーキテクチャの最近の進歩は、Spike Self-Attention(SSA)とSpike Patch Splitting(SPS)モジュールを活用することで、有望な結果を示している。 しかし、sikformerは過剰なエネルギー消費を示し、冗長なチャネルやブロックに起因する可能性がある。 この問題を軽減するために,最適化されたSpikformerアーキテクチャの探索を自動化するワンショットトランスフォーマーアーキテクチャサーチ(TAS)手法であるAuto-Spikformerを提案する。 本研究では,snパラメータを最適化する進化的snニューロン(esnn)法を提案し,視覚トランスフォーマー(vit)パラメータを最適化する先行手法である重み絡みスーパーネットトレーニングを適用する。 さらに,エネルギー消費と精度の両方を共に考慮し,この2つの目的を両立するパレート最適組合せを見つけることを目的とした,精度とエネルギーバランスのよいフィットネス関数 $\mathcal{f}_{aeb}$ を提案する。 実験の結果,CNNモデルやVTモデルなど,手動または自動設計の最先端手法よりも効率よく,エネルギー消費を大幅に削減するAuto-Spikformerの有効性が示された。

The integration of self-attention mechanisms into Spiking Neural Networks (SNNs) has garnered considerable interest in the realm of advanced deep learning, primarily due to their biological properties. Recent advancements in SNN architecture, such as Spikformer, have demonstrated promising outcomes by leveraging Spiking Self-Attention (SSA) and Spiking Patch Splitting (SPS) modules. However, we observe that Spikformer may exhibit excessive energy consumption, potentially attributable to redundant channels and blocks. To mitigate this issue, we propose Auto-Spikformer, a one-shot Transformer Architecture Search (TAS) method, which automates the quest for an optimized Spikformer architecture. To facilitate the search process, we propose methods Evolutionary SNN neurons (ESNN), which optimizes the SNN parameters, and apply the previous method of weight entanglement supernet training, which optimizes the Vision Transformer (ViT) parameters. Moreover, we propose an accuracy and energy balanced fitness function $\mathcal{F}_{AEB}$ that jointly considers both energy consumption and accuracy, and aims to find a Pareto optimal combination that balances these two objectives. Our experimental results demonstrate the effectiveness of Auto-Spikformer, which outperforms the state-of-the-art method including CNN or ViT models that are manually or automatically designed while significantly reducing energy consumption.
翻訳日:2023-06-02 15:08:07 公開日:2023-06-01
# トランスデューサに基づくストリーミング音声認識のための適応的文脈バイアス

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition ( http://arxiv.org/abs/2306.00804v1 )

ライセンス: Link先を確認
Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie(参考訳) 文脈情報の追加により、パーソナライズされた単語の音声認識のための有望なソリューションとしてディープバイアス手法が登場している。 しかし、現実の音声アシスタントでは、予測スコアの高いパーソナライズされた単語に常に偏りがあるため、一般的な単語を認識する能力は著しく低下する。 そこで本研究では,コンテキスト認識変換器(CATT)に基づく適応的文脈バイアス手法を提案する。 このような予測はバイアスリストのオン/オフを動的に切り替えるために使用され、モデルがパーソナライズされたシナリオと一般的なシナリオの両方に対応できるようにします。 Librispeechと内部音声アシスタントデータセットの実験により、我々のアプローチは、それぞれベースラインと比較してWERとCERの最大6.7%と20.7%の相対的な減少を達成でき、一般的なケースでは96.7%と84.9%の相対的なWERとCERの増加を軽減できることが示された。 さらに,rtf増加を伴うストリーミング推論パイプラインを維持しつつ,パーソナライズされたシナリオにおけるパフォーマンスへの影響を最小限に抑えている。

By incorporating additional contextual information, deep biasing methods have emerged as a promising solution for speech recognition of personalized words. However, for real-world voice assistants, always biasing on such personalized words with high prediction scores can significantly degrade the performance of recognizing common words. To address this issue, we propose an adaptive contextual biasing method based on Context-Aware Transformer Transducer (CATT) that utilizes the biased encoder and predictor embeddings to perform streaming prediction of contextual phrase occurrences. Such prediction is then used to dynamically switch the bias list on and off, enabling the model to adapt to both personalized and common scenarios. Experiments on Librispeech and internal voice assistant datasets show that our approach can achieve up to 6.7% and 20.7% relative reduction in WER and CER compared to the baseline respectively, mitigating up to 96.7% and 84.9% of the relative WER and CER increase for common cases. Furthermore, our approach has a minimal performance impact in personalized scenarios while maintaining a streaming inference pipeline with negligible RTF increase.
翻訳日:2023-06-02 15:07:39 公開日:2023-06-01
# トランスフォーマーの誕生:メモリビューポイント

Birth of a Transformer: A Memory Viewpoint ( http://arxiv.org/abs/2306.00802v1 )

ライセンス: Link先を確認
Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou(参考訳) トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。 しかし、より広くデプロイされるため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要性が高まっている。 これらのモデルはトレーニングデータから大量の知識を蓄積し、彼らのコンテキストやプロンプトで提供される新しい情報に迅速に適応するように見える。 本研究では,グローバルあるいはコンテキスト固有なビッグラム分布からトークンが生成される合成設定を考慮し,これらの2種類の知識のバランスについて検討する。 簡易な2層変圧器の訓練過程を慎重に解析することにより,大域的ビッグラムの高速学習と,テキスト内ビッグラムの「インダクションヘッド」機構の開発が遅いことを示す。 重み行列の役割を連想記憶として強調し、学習中に勾配が学習を可能にするかの理論的な洞察を与え、データ分散特性の役割を研究する。

Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an "induction head" mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.
翻訳日:2023-06-02 15:07:17 公開日:2023-06-01
# figgen: テキストから科学的な図形生成

FigGen: Text to Scientific Figure Generation ( http://arxiv.org/abs/2306.00800v1 )

ライセンス: Link先を確認
Juan A. Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau Rodriguez(参考訳) 生成的モデリングのランドスケープは近年、特に自然画像や芸術の創造において、大きな成長を遂げている。 最近の技術は、印象的なリアリズムと品質を提供しながら、複雑な視覚的構成を作成する素晴らしい可能性を示している。 しかし、最先端の手法は自然画像の狭い領域に焦点を当てているが、他の分布は未探索のままである。 本稿では,テキスト記述から論文の科学的図形を作成するテキストから図形への生成の問題を紹介する。 本稿では,テキストから図形への拡散に基づくアプローチであるfiggenについて述べる。 コードとモデルはhttps://github.com/joanrod/graphic-diffusionで入手できる。

The generative modeling landscape has experienced tremendous growth in recent years, particularly in generating natural images and art. Recent techniques have shown impressive potential in creating complex visual compositions while delivering impressive realism and quality. However, state-of-the-art methods have been focusing on the narrow domain of natural images, while other distributions remain unexplored. In this paper, we introduce the problem of text-to-figure generation, that is creating scientific figures of papers from text descriptions. We present FigGen, a diffusion-based approach for text-to-figure as well as the main challenges of the proposed task. Code and models are available at https://github.com/joanrod/figure-diffusion
翻訳日:2023-06-02 15:07:01 公開日:2023-06-01
# 量子情報理論における触媒

Catalysis in Quantum Information Theory ( http://arxiv.org/abs/2306.00798v1 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Henrik Wilming, Nelly H. Y. Ng(参考訳) 触媒は新しい反応経路を開き、触媒を消費することなく化学反応を高速化する。 同様の現象が量子情報科学で発見されており、物理変換は過程を通して変化しない自由度(量子)を利用することによって可能となる。 本稿では,量子情報科学における触媒の概念を包括的に概観し,その応用を様々な物理的文脈で議論する。

Catalysts open up new reaction pathways which can speed up chemical reactions while not consuming the catalyst. A similar phenomenon has been discovered in quantum information science, where physical transformations become possible by utilizing a (quantum) degree of freedom that remains unchanged throughout the process. In this review, we present a comprehensive overview of the concept of catalysis in quantum information science and discuss its applications in various physical contexts.
翻訳日:2023-06-02 15:06:51 公開日:2023-06-01
# 深層学習による鋼の組織品質制御

Microstructure quality control of steels using deep learning ( http://arxiv.org/abs/2306.00797v1 )

ライセンス: Link先を確認
Ali Riza Durmaz, Sai Teja Potu, Daniel Romich, Johannes M\"oller, Ralf N\"utzel(参考訳) 品質管理において, 構造整合性を確保するため, 臨界体積欠陥の存在を排除し, ターゲットの微細構造の形成を検証するため, 微構造を厳密に検討した。 焼成・階層構造鋼の場合, ベイナイトおよびマルテンサイト組織の形態は, サービス条件下での材料の信頼性を保証する上で重要な課題である。 そのため、金属分析士による材料断面の小さな試料検査を行い、そのようなミクロ構造の針形態を検証した。 被験者の徹底的な訓練にもかかわらず,この視覚的評価は主観性に苦しめられていることが明らかとなった。 そこで本研究では,その組織型に基づいて鋼材を識別し,その針長をiso 643結晶粒径評価基準に分類する深層学習画像分類手法を提案する。 この分類手法は、階層構造鋼の信頼性、客観的、および自動分類を促進する。 具体的には,マーテンサイト/ベイナイトサブタイプと針長を区別するために96%,約91%の精度が得られる。 これは、複数の植物、合金、エッチング剤応用、および多くの金属分析者(レーダ)による光光学顕微鏡から10年以上にわたって取得された、大きなばらつきとラベル付けノイズを含む画像データセット上で達成される。 解釈可能性分析は、これらのモデルの意思決定に関する洞察を与え、一般化能力を推定することを可能にする。

In quality control, microstructures are investigated rigorously to ensure structural integrity, exclude the presence of critical volume defects, and validate the formation of the target microstructure. For quenched, hierarchically-structured steels, the morphology of the bainitic and martensitic microstructures are of major concern to guarantee the reliability of the material under service conditions. Therefore, industries conduct small sample-size inspections of materials cross-sections through metallographers to validate the needle morphology of such microstructures. We demonstrate round-robin test results revealing that this visual grading is afflicted by pronounced subjectivity despite the thorough training of personnel. Instead, we propose a deep learning image classification approach that distinguishes steels based on their microstructure type and classifies their needle length alluding to the ISO 643 grain size assessment standard. This classification approach facilitates the reliable, objective, and automated classification of hierarchically structured steels. Specifically, an accuracy of 96% and roughly 91% is attained for the distinction of martensite/bainite subtypes and needle length, respectively. This is achieved on an image dataset that contains significant variance and labeling noise as it is acquired over more than ten years from multiple plants, alloys, etchant applications, and light optical microscopes by many metallographers (raters). Interpretability analysis gives insights into the decision-making of these models and allows for estimating their generalization capability.
翻訳日:2023-06-02 15:06:44 公開日:2023-06-01
# フェルモニック・アノン:資源論的観点からの絡み合いと量子計算

Fermonic anyons: entanglement and quantum computation from a resource-theoretic perspective ( http://arxiv.org/abs/2306.00795v1 )

ライセンス: Link先を確認
Allan Tosta, Ant\^onio C. Louren\c{c}o, Daniel Brod, Fernando Iemini, Tiago Debarba(参考訳) 多くの場合、量子計算モデルは資源理論のレンズを通して理解され、量子資源の特定の形態を消費することで計算の利点が得られ、逆に、リソースのない計算は古典的にシミュレート可能である。 例えば、近傍のマッチゲートの回路は、古典的にシミュレートできる自由フェルミオン力学にマッピングすることができる。 これらの回路を非マッチゲート演算または非ガウスフェルミオン状態で補うと、量子普遍となる。 同様に、フェルミオンアノンのようなより一般的な準粒子統計の設定において量子計算資源を特定できるだろうか。 本研究では,フェルミオン性エノンの分離性を定義し,研究するための資源理論フレームワークを開発する。 我々は分数次jordan-wigner変換を通じて分離可能性の概念を構築し、フェルミオン・アノン状態のシュミット分解に繋がる。 このフェルミオンアニオン分離性の概念と、それを保存するユニタリ演算は、マッチゲート回路のフリーリソースにマッピング可能であることを示す。 また、マッチゲート回路の標準として、2つの量子ビット間の絡み合いが、フェルミオンエノン間の絡み合いの概念とどのように一致するかを特定する。 これは通常の量子エンタングルメントの定義とは一致しないが、matchgate回路の限られた能力に対する新たな洞察を提供する。

Often quantum computational models can be understood via the lens of resource theories, where a computational advantage is achieved by consuming specific forms of quantum resources and, conversely, resource-free computations are classically simulable. For example, circuits of nearest-neighbor matchgates can be mapped to free-fermion dynamics, which can be simulated classically. Supplementing these circuits with nonmatchgate operations or non-gaussian fermionic states, respectively, makes them quantum universal. Can we similarly identify quantum computational resources in the setting of more general quasi-particle statistics, such as that of fermionic anyons? In this work, we develop a resource-theoretic framework to define and investigate the separability of fermionic anyons. We build the notion of separability through a fractional Jordan-Wigner transformation, leading to a Schmidt decomposition for fermionic-anyon states. We show that this notion of fermionic-anyon separability, and the unitary operations that preserve it, can be mapped to the free resources of matchgate circuits. We also identify how entanglement between two qubits encoded in a dual-rail manner, as standard for matchgate circuits, corresponds to the notion of entanglement between fermionic anyons. Though this does not coincide with the usual definition of qubit entanglement, it provides new insight into the limited capabilities of matchgate circuits.
翻訳日:2023-06-02 15:06:22 公開日:2023-06-01
# SlothSpeech: 音声認識モデルに対するサービス拒否攻撃

SlothSpeech: Denial-of-service Attack Against Speech Recognition Models ( http://arxiv.org/abs/2306.00794v1 )

ライセンス: Link先を確認
Mirazul Haque, Rutvij Shah, Simin Chen, Berrak \c{S}i\c{s}man, Cong Liu, Wei Yang(参考訳) 近年,音声認識(ASR)など,さまざまな音声関連タスクを実行するために,ディープラーニング(DL)モデルが普及している。 ASRは様々なリアルタイムシナリオで使用されているため、入力に対する小さな摂動に対してASRモデルが効率的であることは重要である。 したがって、ASRモデルの効率性を評価することが時間の必要性である。 我々は,Speech2TextモデルやWhisperモデルのような一般的なASRモデルが,異なる入力に基づいて動的計算を行うことを示す。 本研究では,ASRモデルに対するサービス拒否攻撃であるSlothSpeechを提案する。 SlothSpeechは出力されたテキストトークンの確率分布を用いて、ASRモデルの効率が低下するようにオーディオに摂動を生成する。 slothspeechが生成する入力は、良性入力によって引き起こされるレイテンシの最大40倍のレイテンシを増加させることができる。

Deep Learning (DL) models have been popular nowadays to execute different speech-related tasks, including automatic speech recognition (ASR). As ASR is being used in different real-time scenarios, it is important that the ASR model remains efficient against minor perturbations to the input. Hence, evaluating efficiency robustness of the ASR model is the need of the hour. We show that popular ASR models like Speech2Text model and Whisper model have dynamic computation based on different inputs, causing dynamic efficiency. In this work, we propose SlothSpeech, a denial-of-service attack against ASR models, which exploits the dynamic behaviour of the model. SlothSpeech uses the probability distribution of the output text tokens to generate perturbations to the audio such that efficiency of the ASR model is decreased. We find that SlothSpeech generated inputs can increase the latency up to 40X times the latency induced by benign input.
翻訳日:2023-06-02 15:05:58 公開日:2023-06-01
# ボトムアップは階層的コミュニティ検出においてトップダウンをいつ上回るのか?

When Does Bottom-up Beat Top-down in Hierarchical Community Detection? ( http://arxiv.org/abs/2306.00833v1 )

ライセンス: Link先を確認
Maximilien Dreveton, Daichi Kuroda, Matthias Grossglauser, Patrick Thiran(参考訳) ネットワークの階層的クラスタリングは、階層の下位レベルがきめ細かいコミュニティ構造を明らかにするような、コミュニティのツリーを見つけることで成り立っている。 この問題に取り組むアルゴリズムには2つの主要なクラスがある。 divisive ($\textit{top-down}$)アルゴリズムは、ノードを2つのコミュニティに再帰的に分割する。 対照的に、agglomerative($\textit{bottom-up}$)アルゴリズムはまず最小のコミュニティ構造を特定し、その後$\textit{linkage}$メソッドを使って繰り返しコミュニティをマージする。 本稿では,階層的確率ブロックモデルの階層的木とコミュニティ構造をボトムアップアルゴリズムにより復元するための理論的保証を確立する。 また、このボトムアップアルゴリズムは、階層の中間レベルにおいて正確な回復のための情報理論しきい値を得る。 特に、これらの回復条件はトップダウンアルゴリズムで存在するものに比べて制限が小さい。 これはボトムアップアルゴリズムが中間レベルで正確な回復を達成するために実現可能な領域を拡張していることを示している。 合成データセットと実データセットの数値実験により、トップダウンアルゴリズムよりもボトムアップアルゴリズムの方が優れていることが確認された。 また、トップダウンアルゴリズムは反転を伴うデンドログラムを生成できることも観察する。 これらの知見は階層的クラスタリング技術とそのネットワーク解析への応用の理解に寄与する。

Hierarchical clustering of networks consists in finding a tree of communities, such that lower levels of the hierarchy reveal finer-grained community structures. There are two main classes of algorithms tackling this problem. Divisive ($\textit{top-down}$) algorithms recursively partition the nodes into two communities, until a stopping rule indicates that no further split is needed. In contrast, agglomerative ($\textit{bottom-up}$) algorithms first identify the smallest community structure and then repeatedly merge the communities using a $\textit{linkage}$ method. In this article, we establish theoretical guarantees for the recovery of the hierarchical tree and community structure of a Hierarchical Stochastic Block Model by a bottom-up algorithm. We also establish that this bottom-up algorithm attains the information-theoretic threshold for exact recovery at intermediate levels of the hierarchy. Notably, these recovery conditions are less restrictive compared to those existing for top-down algorithms. This shows that bottom-up algorithms extend the feasible region for achieving exact recovery at intermediate levels. Numerical experiments on both synthetic and real data sets confirm the superiority of bottom-up algorithms over top-down algorithms. We also observe that top-down algorithms can produce dendrograms with inversions. These findings contribute to a better understanding of hierarchical clustering techniques and their applications in network analysis.
翻訳日:2023-06-02 14:58:47 公開日:2023-06-01
# In or Out? 画像ネットの分布外検出評価の修正

In or Out? Fixing ImageNet Out-of-Distribution Detection Evaluation ( http://arxiv.org/abs/2306.00826v1 )

ライセンス: Link先を確認
Julian Bitterwolf, Maximilian M\"uller, Matthias Hein(参考訳) out-of-distribution (ood) 検出は、分散タスクとは無関係な入力を識別する問題である。 インディストリビューション(ID)がImageNet-1Kである場合のOOD検出性能は、少数のOODデータセットで一般的にテストされている。 オープンセット認識(OSR)文学のデータセットを含む、現在使用されているテストOODデータセットの大部分が、深刻な問題を抱えていることがわかった。 これらの誤ったサンプルはOOD検出器の評価を著しく歪めている。 そこで本研究では,新しいOODデータセットをNINCOで導入し,各サンプルがIDフリーであることが確認された。OODクラスは粒度の細かい範囲で,OOD検出器の強度と故障モード,特に多数の合成「OODユニットテスト」と組み合わせた場合の詳細な解析を可能にする。 我々は、NINCOと単体テストにおける大規模なアーキテクチャセットとOOD検出方法の詳細な評価を行い、モデルの弱点と事前学習がOOD検出性能に与える影響について新たな知見を明らかにした。 コードとデータはhttps://github.com/j-cb/ninco.com/で提供します。

Out-of-distribution (OOD) detection is the problem of identifying inputs which are unrelated to the in-distribution task. The OOD detection performance when the in-distribution (ID) is ImageNet-1K is commonly being tested on a small range of test OOD datasets. We find that most of the currently used test OOD datasets, including datasets from the open set recognition (OSR) literature, have severe issues: In some cases more than 50$\%$ of the dataset contains objects belonging to one of the ID classes. These erroneous samples heavily distort the evaluation of OOD detectors. As a solution, we introduce with NINCO a novel test OOD dataset, each sample checked to be ID free, which with its fine-grained range of OOD classes allows for a detailed analysis of an OOD detector's strengths and failure modes, particularly when paired with a number of synthetic "OOD unit-tests". We provide detailed evaluations across a large set of architectures and OOD detection methods on NINCO and the unit-tests, revealing new insights about model weaknesses and the effects of pretraining on OOD detection performance. We provide code and data at https://github.com/j-cb/NINCO.
翻訳日:2023-06-02 14:58:24 公開日:2023-06-01
# 複合粒子双対性:位相量子物質の新しいクラス

The Composite Particle Duality: A New Class of Topological Quantum Matter ( http://arxiv.org/abs/2306.00825v1 )

ライセンス: Link先を確認
Gerard Valent\'i-Rojas, Joel Priestley and Patrik \"Ohberg(参考訳) 複合粒子双対性は2+1Dを超える時空次元におけるフラックスアタッチメントと統計的変換の概念を拡張している。 それは、フレームワークと物理的メカニズムの両方として理解できる正確な対応を構成する。 双対性の直接的な含意は、任意の次元の相互作用する量子系が、あるゲージ場に結合された場合、その統計特性の修正を経験できるということである。 言い換えれば、量子場の可換関係は動的物理過程によって効果的に修正することができる。 例えば、$d$空間次元のもともとのボソニック量子流体は、統計ゲージ場に結合すると合成フェルミオン(または正準)励起を特徴付けることができる。 上記の合成ゲージ場の明示的な形式を$\text{d}\le 3+1$ で計算する。 これにより、格子と連続性および次元をまたいだ位相位相の新しい領域への扉を開く。

The composite particle duality extends the notions of both flux attachment and statistical transmutation in spacetime dimensions beyond 2+1D. It constitutes an exact correspondence that can be understood both as a framework and as a physical mechanism. The immediate implication of the duality is that an interacting quantum system in arbitrary dimensions can experience a modification of its statistical properties if coupled to a certain gauge field. In other words, commutation relations of quantum fields can be effectively modified by a dynamical physical process. For instance, an originally bosonic quantum fluid in $d$ spatial dimensions can feature composite fermionic (or anyonic) excitations when coupled to a statistical gauge field. We compute the explicit form of the aforementioned synthetic gauge fields in $\text{D}\le 3+1$. This opens the door to a new realm of topological phases both in lattice and continuum and across dimensions.
翻訳日:2023-06-02 14:58:04 公開日:2023-06-01
# 曖昧な入力を用いたゼロおよびマイショット意味解析

Zero and Few-shot Semantic Parsing with Ambiguous Inputs ( http://arxiv.org/abs/2306.00824v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Kyle Rawlins and Benjamin Van Durme(参考訳) 自然言語におけるあいまいさの多様さにもかかわらず、しばしば意味解析のタスクにおいて無視または故意に排除され、これは一般に、与えられた曲面形式が1つの正しい論理形式しか持たないと仮定する。 言語あいまいさを解析するためのフレームワーク,データセット,課題であるAmPを導入することで,この問題に対処しようとしている。 テンプレートを定義し、5つのよく文書化された言語曖昧さのためのデータを生成する。 我々は,AmPを用いて,複数ショットのセマンティックパーシングシステムがあいまいさをどのように処理し,新しい3つの指標を導入するかを検討する。 大規模事前学習モデルでは,意図的な指示なしに可能な意味の分布を把握できないことが判明した。 しかし、あいまいさが入力で証明されると、モデルは分布をうまく捉えることができる。 これらの結果は、意味解析にあいまいさを明示的に含める動機となり、意味解析システムを評価する際に可能な出力の分布を考慮することを促進する。

Despite the ubiquity of ambiguity in natural language, it is often ignored or deliberately removed in semantic parsing tasks, which generally assume that a given surface form has only one correct logical form. We attempt to address this shortcoming by introducing AmP, a framework, dataset, and challenge for parsing with linguistic ambiguity. We define templates and generate data for five well-documented linguistic ambiguities. Using AmP, we investigate how several few-shot semantic parsing systems handle ambiguity, introducing three new metrics. We find that large pre-trained models perform poorly at capturing the distribution of possible meanings without deliberate instruction. However, models are able to capture distribution well when ambiguity is attested in their inputs. These results motivate a call for ambiguity to be explicitly included in semantic parsing, and promotes considering the distribution of possible outputs when evaluating semantic parsing systems.
翻訳日:2023-06-02 14:57:53 公開日:2023-06-01
# 地球観測画像の意味セグメンテーションのためのジオタイル

Geo-Tiles for Semantic Segmentation of Earth Observation Imagery ( http://arxiv.org/abs/2306.00823v1 )

ライセンス: Link先を確認
Sebastian Bullinger and Florian Fevers and Christoph Bodensteiner and Michael Arens(参考訳) 地球観測画像のセマンティックセグメンテーションの計算において高い要求に対処するため、現在の最先端パイプラインは対応するデータをより小さな画像に分割する。 既存の手法やベンチマークデータセットは、しばしばピクセルベースのタイリングスキームやWebマッピングアプリケーションで使用されるジオタイリングスキームに依存している。 各画素の利用可能なコンテキスト情報に影響し、トレーニング中のタイル数を定義し、分割モデルで要求されるサイズにタイル内容のダウン・アップ・サンプリングを行いながら情報劣化の度合いに影響を与えるため、サブイメージの選択(サイズ、位置、方向を含む)が重要である。 本稿では,ラスタデータの地理情報に基づいてジオタイルを生成するタイリング方式を用いて,地球観測画像のための新たなセグメンテーションパイプラインを提案する。 このアプローチは、ピクセルベースの、あるいは一般的なWebマッピングアプローチと比較して、いくつかの有益な特性を示す。 例えば,提案手法では,タイル粒度,タイルストライド,画像境界アライメントに関する柔軟なカスタマイズ特性を示し,トレーニング中にタイル固有のデータ拡張を行い,推論中に重なり合うタイルのデータを用いて,限られたコンテキスト情報による画素予測を置換する。 さらに、生成したタイルは、一定の空間タイル幅w.r.t.不均質センサを示し、記録距離や緯度が異なる。 実験では,提案するティリングシステムが現在の意味セマンティクスセグメンテーションモデルの結果をどのように改善するかを示す。 将来の研究を促進するため、ソースコードを公開しています。

To cope with the high requirements during the computation of semantic segmentations of earth observation imagery, current state-of-the-art pipelines divide the corresponding data into smaller images. Existing methods and benchmark datasets oftentimes rely on pixel-based tiling schemes or on geo-tiling schemes employed by web mapping applications. The selection of the subimages (comprising size, location and orientation) is crucial since it affects the available context information of each pixel, defines the number of tiles during training, and influences the degree of information degradation while down- and up-sampling the tile contents to the size required by the segmentation model. In this paper we propose a new segmentation pipeline for earth observation imagery relying on a tiling scheme that creates geo-tiles based on the geo-information of the raster data. This approach exhibits several beneficial properties compared to pixel-based or common web mapping approaches. For instance, the proposed tiling scheme shows flexible customization properties regarding tile granularity, tile stride and image boundary alignment, which allows us to perform a tile specific data augmentation during training and a substitution of pixel predictions with limited context information using data of overlapping tiles during inference. Furthermore, the generated tiles show a consistent spatial tile extent w.r.t. heterogeneous sensors, varying recording distances and different latitudes. In our experiments we demonstrate how the proposed tiling system allows to improve the results of current state-of-the-art semantic segmentation models. To foster future research we make the source code publicly available.
翻訳日:2023-06-02 14:57:35 公開日:2023-06-01
# 小学校のコンピュータ科学のカリキュラム改革はいかにして等価か? 生徒の学習, 学業の認知, ジェンダーギャップに与える影響

How are Primary School Computer Science Curricular Reforms Contributing to Equity? Impact on Student Learning, Perception of the Discipline, and Gender Gaps ( http://arxiv.org/abs/2306.00820v1 )

ライセンス: Link先を確認
Laila El-Hamamsy, Barbara Bruno, Catherine Audrin, Morgane Chevalier, Sunny Avry, Jessica Dehler Zufferey, Francesco Mondada(参考訳) コンピュータサイエンス(CS)への初期の露出は、この分野における参加の拡大と株式の促進に不可欠である。 しかし,小学校カリキュラムへのcs導入は,学習,知覚,学生集団間のギャップにどのように影響を与えるのか? 本研究は,1384年,2433年,1644年生3-6年生(7~11歳),83,142,95人の教師を対象とした3つの研究から,学生の学習と知覚データに基づく階層的回帰モデルと構造方程式を応用し,公平な立場からcs-curricular reform and teacher professional development (pd)プログラムを検討した。 学習に関して、CS指導への露出は、達成率の低い生徒と高学年の成績のギャップを埋めるだけでなく、既存の男女差を埋めるのに寄与していると考えられる。 授業内容に直接的な影響を与えていないにもかかわらず、教師の人口統計やモチベーションが学生学習に影響を与えておらず、CS-PDに対する教師の認識が学習に肯定的な影響を与えている。 認知に関して、学生はCSとその教育ツール(ロボティクス、タブレット)を肯定的に知覚し、さらに、CSに近い役割モデルがCSを行うものとして知覚される。 それでも男女差はあり、CS教育へのアクセスにもかかわらず、男の子は女の子よりも肯定的にCSを知覚する。 しかし、cs-educationへのアクセスは、男の子と女の子に異なる影響を与える。大きな男女差(すなわちロボティクスに関連するもの)が閉鎖され、より小さなギャップ(すなわち、csとタブレットに関するもの)が増加している。 結論として,CSのカリキュラム改革が学習,知覚,株式にどのように影響し,その重要性を支えているかを明らかにする。 i) cs の早期導入 二 教師にCSを教える準備をし、教師の人口と動機が学生の成果に与える影響を排除し、 三 学生のすべてのグループに合図する発達上の適切な活動を有すること。

Early exposure to Computer Science (CS) for all is critical to broaden participation and promote equity in the field. But how does introducting CS into primary school curricula impact learning, perception, and gaps between groups of students? We investigate a CS-curricular reform and teacher Professional Development (PD) program from an equity standpoint by applying hierarchical regression and structural equation modelling on student learning and perception data from three studies with respectively 1384, 2433 & 1644 grade 3-6 students (ages 7-11) and their 83, 142 & 95 teachers. Regarding learning, exposure to CS instruction appears to contribute to closing the performance gap between low-achieving and high-achieving students, as well as pre-existing gender gaps. Despite a lack of direct influence of what was taught on student learning, there is no impact of teachers' demographics or motivation on student learning, with teachers' perception of the CS-PD positively influencing learning. Regarding perception, students perceive CS and its teaching tools (robotics, tablets) positively, and even more so when they perceive a role model close to them as doing CS. Nonetheless gender differences exist all around with boys perceiving CS more positively than girls despite access to CS education. However, access to CS-education affects boys and girls differently: larger gender gaps are closing (namely those related to robotics), while smaller gaps are increasing (namely those related to CS and tablets). To conclude, our findings highlight how a CS curricular reform impacts learning, perception, and equity and supports the importance of i) early introductions to CS for all, ii) preparing teachers to teach CS all the while removing the influence of teacher demographics and motivation on student outcomes, and iii) having developmentally appropriate activities that signal to all groups of students.
翻訳日:2023-06-02 14:57:08 公開日:2023-06-01
# 学習可能な間隔を持つ拡張畳み込み--双線型補間を超えて

Dilated Convolution with Learnable Spacings: beyond bilinear interpolation ( http://arxiv.org/abs/2306.00817v1 )

ライセンス: Link先を確認
Ismail Khalfaoui-Hassani, Thomas Pellegrini, Timoth\'ee Masquelier(参考訳) Dilated Convolution with Learnable Spacings (DCLS) は、最近提案された拡張畳み込みの変種であり、カーネル内のゼロでない要素間の間隔、またはそれらの位置が学習可能である。 非整数位置は補間によって処理される。 このトリックのおかげで、位置はよく定義された勾配を持つ。 オリジナルのDCLSは双線形補間を使用しており、そのため最も近い4つのピクセルのみが考慮された。 しかし、より長い範囲の補間、特にガウス補間は、2つの最先端の畳み込みアーキテクチャ(convnextとconv\-former)におけるimagenet1k分類のパフォーマンスをパラメータ数を増加させることなく改善できることを示している。 メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorchで利用可能である。

Dilated Convolution with Learnable Spacings (DCLS) is a recently proposed variation of the dilated convolution in which the spacings between the non-zero elements in the kernel, or equivalently their positions, are learnable. Non-integer positions are handled via interpolation. Thanks to this trick, positions have well-defined gradients. The original DCLS used bilinear interpolation, and thus only considered the four nearest pixels. Yet here we show that longer range interpolations, and in particular a Gaussian interpolation, allow improving performance on ImageNet1k classification on two state-of-the-art convolutional architectures (ConvNeXt and Conv\-Former), without increasing the number of parameters. The method code is based on PyTorch and is available at https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch
翻訳日:2023-06-02 14:56:31 公開日:2023-06-01
# Visible, Semantic, Sample-Specific, Compatible Triggers を用いたロバストバックドアアタック

Robust Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers ( http://arxiv.org/abs/2306.00816v1 )

ライセンス: Link先を確認
Ruotong Wang, Hongrui Chen, Zihao Zhu, Li Liu, Yong Zhang, Yanbo Fan, Baoyuan Wu(参考訳) ディープニューラルネットワーク(DNN)は、通常のサンプルのパフォーマンスに影響を与えることなく、特定のトリガーパターンに露出した場合に特定の振る舞いを示すように操作することができる。 この種の攻撃はバックドア攻撃として知られている。 最近の研究は、視覚的にステルス性を確保するためにバックドア攻撃の目に見えないトリガーを設計することに焦点を当てている。 これらのトリガーはバックドア防御下でも強力な攻撃性能を示しており、モデルにおけるバックドア効果を排除または抑制することを目的としている。 しかし, 実験結果から, 注意して設計した目に見えないトリガーは, ガウスのぼやけや現実のシナリオにおける環境変化など, 推論中の視覚的歪みにしばしば影響を受けやすいことがわかった。 この現象は、実用化における攻撃の有効性を著しく損なう。 残念ながら、この問題には十分な注意が払われておらず、徹底的に調査されていない。 この制限に対処するために, 安定拡散モデルとして知られる最近の強力な画像手法を利用した, 可視, セマンティック, サンプル・スペクティフィック, コンパチブルトリガ (VSSC-トリガー) と呼ばれる新しい手法を提案する。 このアプローチでは、テキストトリガーをプロンプトとして利用し、良性画像と組み合わせる。 得られた組み合わせは、訓練済みの安定拡散モデルによって処理され、対応する意味オブジェクトを生成する。 このオブジェクトは元のイメージとシームレスに統合され、毒画像と呼ばれる新しい現実的なイメージとなる。 大規模な実験結果と解析により,視覚的歪みが存在する場合でも,提案手法の有効性とロバスト性を検証した。 本研究で提案される新たな引き金は、上記の課題に対処する提案とともに、この方向性のさらなる進展に重大な影響を与えるものと信じている。

Deep neural networks (DNNs) can be manipulated to exhibit specific behaviors when exposed to specific trigger patterns, without affecting their performance on normal samples. This type of attack is known as a backdoor attack. Recent research has focused on designing invisible triggers for backdoor attacks to ensure visual stealthiness. These triggers have demonstrated strong attack performance even under backdoor defense, which aims to eliminate or suppress the backdoor effect in the model. However, through experimental observations, we have noticed that these carefully designed invisible triggers are often susceptible to visual distortion during inference, such as Gaussian blurring or environmental variations in real-world scenarios. This phenomenon significantly undermines the effectiveness of attacks in practical applications. Unfortunately, this issue has not received sufficient attention and has not been thoroughly investigated. To address this limitation, we propose a novel approach called the Visible, Semantic, Sample-Specific, and Compatible trigger (VSSC-trigger), which leverages a recent powerful image method known as the stable diffusion model. In this approach, a text trigger is utilized as a prompt and combined with a benign image. The resulting combination is then processed by a pre-trained stable diffusion model, generating a corresponding semantic object. This object is seamlessly integrated with the original image, resulting in a new realistic image, referred to as the poisoned image. Extensive experimental results and analysis validate the effectiveness and robustness of our proposed attack method, even in the presence of visual distortion. We believe that the new trigger proposed in this work, along with the proposed idea to address the aforementioned issues, will have significant prospective implications for further advancements in this direction.
翻訳日:2023-06-02 14:56:13 公開日:2023-06-01
# Vocos: 高品質音声合成のための時間領域とフーリエベースニューラルボコーダのギャップを埋める

Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis ( http://arxiv.org/abs/2306.00814v1 )

ライセンス: Link先を確認
Hubert Siuzdak(参考訳) ニューラルヴォコーディングの最近の進歩は、主に時間領域で動作するジェネレーティブ・アドバイサル・ネットワーク(GAN)によって駆動される。 このアプローチは有効であるが、時間周波数表現による帰納バイアスを無視し、再帰的かつ計算集約的なアップサンプリング操作をもたらす。 フーリエに基づく時間周波数表現は、より正確に人間の聴覚知覚と一致し、その計算に確立された高速アルゴリズムの恩恵を受ける魅力的な代替手段である。 それにもかかわらず、複雑な値を持つ分光器の直接再構成は歴史的に問題視されてきた。 本研究は、スペクトル係数のモデル化の重要な課題に対処する新しいモデルであるvocosを提示することで、このギャップを解消することを目指している。 Vocosは計算効率を向上し、一般的な時間領域ニューラルボコーディングアプローチに比べて、桁違いのスピード向上を実現している。 客観的評価によって示されるように、Vocosは最先端のオーディオ品質に適合するだけでなく、周波数認識ジェネレータのおかげで、時間領域のGANに頻繁に関連する周期性の問題を効果的に軽減する。 ソースコードとモデルウェイトはhttps://github.com/charactr-platform/vocosでオープンソース化された。

Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (GANs) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-frequency representations, resulting in reduntant and computionally-intensive upsampling operations. Fourier-based time-frequency representation is an appealing alternative, aligning more accurately with human auditory perception, and benefitting from well-established fast algorithms for its computation. Nevertheless, direct reconstruction of complex-valued spectrograms has been historically problematic, primarily due to phase recovery issues. This study seeks to close this gap by presenting Vocos, a new model that addresses the key challenges of modeling spectral coefficients. Vocos demonstrates improved computational efficiency, achieving an order of magnitude increase in speed compared to prevailing time-domain neural vocoding approaches. As shown by objective evaluation, Vocos not only matches state-of-the-art audio quality, but thanks to frequency-aware generator, also effectively mitigates the periodicity issues frequently associated with time-domain GANs. The source code and model weights have been open-sourced at https://github.com/charactr-platform/vocos.
翻訳日:2023-06-02 14:55:41 公開日:2023-06-01
# unidiff: 生成的および識別的学習による視覚言語モデルの進歩

UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning ( http://arxiv.org/abs/2306.00813v1 )

ライセンス: Link先を確認
Xiao Dong, Runhui Huang, Xiaoyong Wei, Zequn Jie, Jianxing Yu, Jian Yin, Xiaodan Liang(参考訳) 視覚言語プレトレーニングの最近の進歩により、マシンはマルチモーダルオブジェクトの識別(例えば、画像-テキストのセマンティクスアライメント)と画像合成(例えば、テキスト-画像生成)において、よりよいパフォーマンスを実現している。 一方、CLIPやStable Diffusionなどの識別・生成機能を備えた微調整事前学習モデルでは、特定のドメインに適応することで、さまざまなタスクに有効であることが示されている。 しかし、識別能力と生成能力の両方を学習し、それらの相乗効果を利用して、微調整中に強力でパーソナライズされたマルチモーダルモデルを作成する可能性についての研究はほとんどない。 本稿では,画像テキストコントラスト学習(itc),テキスト条件付き画像合成学習(is),相互意味的一貫性モデリング(rsc)を統合した統一マルチモーダルモデルであるunidiffを提案する。 UniDiffは、CLIPと拡散モデルの視覚的特徴にRCCを活用することで、調整済みのセマンティクスを効果的に学習し、小さなデータセットの微調整中にセマンティクス崩壊の問題を緩和する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。 Fashion-man, Fashion-woman, E-commercial Productの3つのデータセットによる実験結果から, 視覚言語検索とテキスト・ツー・イメージ生成の大幅な向上がみられた。 提案するunidiffモデルは、パーソナライズドモデリングのためのロバストなパイプラインを確立し、この分野における将来の比較のためのベンチマークとして機能する。

Recent advances in vision-language pre-training have enabled machines to perform better in multimodal object discrimination (e.g., image-text semantic alignment) and image synthesis (e.g., text-to-image generation). On the other hand, fine-tuning pre-trained models with discriminative or generative capabilities such as CLIP and Stable Diffusion on domain-specific datasets has shown to be effective in various tasks by adapting to specific domains. However, few studies have explored the possibility of learning both discriminative and generative capabilities and leveraging their synergistic effects to create a powerful and personalized multimodal model during fine-tuning. This paper presents UniDiff, a unified multi-modal model that integrates image-text contrastive learning (ITC), text-conditioned image synthesis learning (IS), and reciprocal semantic consistency modeling (RSC). UniDiff effectively learns aligned semantics and mitigates the issue of semantic collapse during fine-tuning on small datasets by leveraging RSC on visual features from CLIP and diffusion models, without altering the pre-trained model's basic architecture. UniDiff demonstrates versatility in both multi-modal understanding and generative tasks. Experimental results on three datasets (Fashion-man, Fashion-woman, and E-commercial Product) showcase substantial enhancements in vision-language retrieval and text-to-image generation, illustrating the advantages of combining discriminative and generative fine-tuning. The proposed UniDiff model establishes a robust pipeline for personalized modeling and serves as a benchmark for future comparisons in the field.
翻訳日:2023-06-02 14:55:19 公開日:2023-06-01
# 損失最適分類木:一般化された枠組みとロジスティックケース

Loss-Optimal Classification Trees: A Generalized Framework and the Logistic Case ( http://arxiv.org/abs/2306.00857v1 )

ライセンス: Link先を確認
Tommaso Aldinucci, Matteo Lapucci(参考訳) 分類木(CT)は、解釈可能な機械学習において最も一般的なモデルの1つである。 このようなモデルは通常、欲張りの戦略で構築されるが、近年、MIP(Mixer-Integer Programming)ソルバの顕著な進歩により、学習問題の正確な定式化が開発されている。 本稿では、これらのトレーニングモデルの中で最も関連性の高いものは、損失関数と正規化器の仕様によってインスタンスが形成される一般的なフレームワークにカプセル化可能であることを論じる。 次に,この枠組みの新たな実現について紹介する。具体的には,mip 設定において線形区間近似によって処理されるロジスティック損失を,$\ell_1$-regularization 項に結合する。 得られた最適ロジスティックツリーモデルは、最先端のMIPベースのアプローチと比較して、解釈可能性の向上と競合一般化能力を備えたツリーを数値的に誘導できることを証明している。

The Classification Tree (CT) is one of the most common models in interpretable machine learning. Although such models are usually built with greedy strategies, in recent years, thanks to remarkable advances in Mixer-Integer Programming (MIP) solvers, several exact formulations of the learning problem have been developed. In this paper, we argue that some of the most relevant ones among these training models can be encapsulated within a general framework, whose instances are shaped by the specification of loss functions and regularizers. Next, we introduce a novel realization of this framework: specifically, we consider the logistic loss, handled in the MIP setting by a linear piece-wise approximation, and couple it with $\ell_1$-regularization terms. The resulting Optimal Logistic Tree model numerically proves to be able to induce trees with enhanced interpretability features and competitive generalization capabilities, compared to the state-of-the-art MIP-based approaches.
翻訳日:2023-06-02 14:50:10 公開日:2023-06-01
# ビデオからの性的嫌がらせの早期発見のための深層学習アプローチ

A deep-learning approach to early identification of suggested sexual harassment from videos ( http://arxiv.org/abs/2306.00856v1 )

ライセンス: Link先を確認
Shreya Shetye, Anwita Maiti, Tannistha Maiti and Tarry Singh(参考訳) セクシュアルハラスメント、性的虐待、性的暴力はこの日と年齢で一般的な問題である。 女性の安全は強調され、対処する必要がある重要な問題である。 この問題を踏まえ,映画から生成された画像に基づいて,これらの懸念と影響要因について検討した。 我々は,これらの状況を描いた画像における視覚的属性に基づいて,3つの用語(ハラスメント,虐待,暴力)を分類した。 被害者や加害者の顔の表情や不必要な触感などの要因は、セクハラや虐待、暴力などを含む場面と直接関連していることが明らかとなった。 また、Google Cloud Vision APIやCrarifai APIのような最先端の明示的なコンテンツ検出ツールが、これらのイメージを識別して分類できないか、調査し、概説した。 これらの定義と特徴に基づき,様々なインド映画シーンから最初のits-kindデータセットを開発した。 これらのシーンは性的嫌がらせ、性的虐待、性的暴力に分類され、PASCAL VOC 1.1フォーマットでエクスポートされる。 当社のデータセットは、特定された関連する機能にアノテートされており、これらの問題を特定するためにディープラーニングコンピュータビジョンモデルの開発とトレーニングに使用できます。 データセットは、研究と開発のために公開されている。

Sexual harassment, sexual abuse, and sexual violence are prevalent problems in this day and age. Women's safety is an important issue that needs to be highlighted and addressed. Given this issue, we have studied each of these concerns and the factors that affect it based on images generated from movies. We have classified the three terms (harassment, abuse, and violence) based on the visual attributes present in images depicting these situations. We identified that factors such as facial expression of the victim and perpetrator and unwanted touching had a direct link to identifying the scenes containing sexual harassment, abuse and violence. We also studied and outlined how state-of-the-art explicit content detectors such as Google Cloud Vision API and Clarifai API fail to identify and categorise these images. Based on these definitions and characteristics, we have developed a first-of-its-kind dataset from various Indian movie scenes. These scenes are classified as sexual harassment, sexual abuse, or sexual violence and exported in the PASCAL VOC 1.1 format. Our dataset is annotated on the identified relevant features and can be used to develop and train a deep-learning computer vision model to identify these issues. The dataset is publicly available for research and development.
翻訳日:2023-06-02 14:49:40 公開日:2023-06-01
# 拡散MRIにおける超解像のための時空間変換

Spatio-Angular Convolutions for Super-resolution in Diffusion MRI ( http://arxiv.org/abs/2306.00854v1 )

ライセンス: Link先を確認
Matthew Lyon, Paul Armitage, Mauricio A \'Alvarez(参考訳) 拡散MRI(dMRI)は画像のモダリティとして広く用いられているが、高解像度データセットを取得するには長い走査時間が必要である。 この領域内に存在する特異な幾何学を利用して、パラメトリック連続畳み込み(PCConv)フレームワーク上に広がるdMRI角超解像への新しいアプローチを示す。 我々は、フーリエ特徴マッピング、グローバル座標、ドメイン固有コンテキストを含むオペレーションにいくつかの追加を導入する。 このフレームワークを用いて,完全パラメトリック連続畳み込みネットワーク(pccnn)を構築し,既存のモデルと比較する。 我々はPCCNNの競合性能を極めて少ないパラメータを用いて実証した。 また,本製剤は,フィステル分析や神経突起配向分散・密度イメージングなど,臨床的に関連する下流解析によく適用できることを示した。

Diffusion MRI (dMRI) is a widely used imaging modality, but requires long scanning times to acquire high resolution datasets. By leveraging the unique geometry present within this domain, we present a novel approach to dMRI angular super-resolution that extends upon the parametric continuous convolution (PCConv) framework. We introduce several additions to the operation including a Fourier feature mapping, global coordinates, and domain specific context. Using this framework, we build a fully parametric continuous convolution network (PCCNN) and compare against existing models. We demonstrate the PCCNN performs competitively while using significantly less parameters. Moreover, we show that this formulation generalises well to clinically relevant downstream analyses such as fixel-based analysis, and neurite orientation dispersion and density imaging.
翻訳日:2023-06-02 14:48:52 公開日:2023-06-01
# 変圧器を用いた効率的なロボット動作計画のためのサンプリング辞書の学習

Learning Sampling Dictionaries for Efficient and Generalizable Robot Motion Planning with Transformers ( http://arxiv.org/abs/2306.00851v1 )

ライセンス: Link先を確認
Jacob J Johnson, Ahmed H Qureshi and Michael Yip(参考訳) 運動計画は、自律走行、手術ロボット、産業用マニピュレータなどのロボット応用に不可欠なものである。 既存の計画手法は高次元空間へのスケーラビリティを欠いているが、近年の学習ベースのプランナーはサンプリングベースのモーションプランナー (smp) を加速する可能性を示している。 そこで本研究では,従来の学習手法の重要な一般化とスケーリングの欠点を克服する,ベクトル量子化計画変換器(VQ-MPT)を提案する。 VQ-MPTは2つのステージから構成される。 ステージ1は有限個のサンプリング分布を用いて計画空間を表現することを学習するベクトル量子変数オートエンコーダモデルであり、ステージ2は学習したサンプリング分布集合から選択してSMPのサンプリング領域を構築する自動回帰モデルである。 大規模計画空間を離散集合に分割し、サンプリング領域を選択的に選択することにより、プランナーは外部SMPとペアリングし、VQ-MPTの助けなしにほぼ最適経路を生成する。 2次元平面から、コストマップやポイントクラウドなど、多様な環境表現を持つ14次元バイマニピュレーションロボットまで、様々な複雑なシステムに適用できるという点で一般化できる。 訓練されたVQ-MPTモデルは、トレーニング中に見えない環境に一般化し、従来の方法よりも高い成功率を達成する。

Motion planning is integral to robotics applications such as autonomous driving, surgical robots, and industrial manipulators. Existing planning methods lack scalability to higher-dimensional spaces, while recent learning based planners have shown promise in accelerating sampling-based motion planners (SMP) but lack generalizability to out-of-distribution environments. To address this, we present a novel approach, Vector Quantized-Motion Planning Transformers (VQ-MPT) that overcomes the key generalization and scaling drawbacks of previous learning-based methods. VQ-MPT consists of two stages. Stage 1 is a Vector Quantized-Variational AutoEncoder model that learns to represent the planning space using a finite number of sampling distributions, and stage 2 is an Auto-Regressive model that constructs a sampling region for SMPs by selecting from the learned sampling distribution sets. By splitting large planning spaces into discrete sets and selectively choosing the sampling regions, our planner pairs well with out-of-the-box SMPs, generating near-optimal paths faster than without VQ-MPT's aid. It is generalizable in that it can be applied to systems of varying complexities, from 2D planar to 14D bi-manual robots with diverse environment representations, including costmaps and point clouds. Trained VQ-MPT models generalize to environments unseen during training and achieve higher success rates than previous methods.
翻訳日:2023-06-02 14:48:25 公開日:2023-06-01
# BitE : 混合負荷環境における学習クエリ最適化の高速化

BitE : Accelerating Learned Query Optimization in a Mixed-Workload Environment ( http://arxiv.org/abs/2306.00845v1 )

ライセンス: Link先を確認
Yuri Kim, Yewon Choi, Yujung Gil, Sanghee Lee, Heesik Shin and Jaehyok Chong(参考訳) 近年、クエリ最適化に深層強化学習を適用する努力が増えているが、クエリオプティマイザが複雑なエンティティであり、ワークロードとデータセットを手作業で調整する必要があるため、改善の余地は残されている。 最近の研究では、クエリ最適化の結果は、主に特定のワークロードのユニークな特徴を拾い上げることに焦点を当てた、単一のワークロードのバルクで得られています。 これは、複数のワークロードとデータセットの異なる特性が混在して学習されるシナリオで問題となる。 そこで本研究では,データベース統計とメタデータを用いた新しいアンサンブル学習モデルであるbitsを提案する。 ヒントセットを拡張することで、最適なAbstract SQL Plan(ASPと呼ばれるJSONオブジェクトとして表現される)の検索スペースを拡張し、クエリのすべてのユニークな計画でエクスペリエンスを設定することでバイアスを受ける可能性のあるデフォルトプランからモデルを分離し、従来の損失関数から逸脱し、過小評価と報酬の過大評価に対処する代替方法を選択する。 我々のモデルは、既存の従来の方法に比べて19.6%改良されたクエリと15.8%のレグレッシブクエリを実現し、同等のレベルのリソースを使用する。

Although the many efforts to apply deep reinforcement learning to query optimization in recent years, there remains room for improvement as query optimizers are complex entities that require hand-designed tuning of workloads and datasets. Recent research present learned query optimizations results mostly in bulks of single workloads which focus on picking up the unique traits of the specific workload. This proves to be problematic in scenarios where the different characteristics of multiple workloads and datasets are to be mixed and learned together. Henceforth, in this paper, we propose BitE, a novel ensemble learning model using database statistics and metadata to tune a learned query optimizer for enhancing performance. On the way, we introduce multiple revisions to solve several challenges: we extend the search space for the optimal Abstract SQL Plan(represented as a JSON object called ASP) by expanding hintsets, we steer the model away from the default plans that may be biased by configuring the experience with all unique plans of queries, and we deviate from the traditional loss functions and choose an alternative method to cope with underestimation and overestimation of reward. Our model achieves 19.6% more improved queries and 15.8% less regressed queries compared to the existing traditional methods whilst using a comparable level of resources.
翻訳日:2023-06-02 14:47:59 公開日:2023-06-01
# 集団崩壊を伴う原子性ガス中の無選択測定誘起相転移

Post-selection-free Measurement-Induced Phase Transition in Driven Atomic Gases with Collective Decay ( http://arxiv.org/abs/2306.00841v1 )

ライセンス: Link先を確認
Gianluca Passarelli, Xhek Turkeshi, Angelo Russomanno, Procolo Lucignano, Marco Schir\`o, Rosario Fazio(参考訳) レーザー磁場により駆動される原子の観測アンサンブルの性質と集合崩壊の存在について検討した。 外部駆動の強度を変化させることで、原子雲は2つの位相を分離して測定誘起相転移を行い、エントロピーはシステムサイズに比例して拡大する。 臨界点は超放射能自然放出への移行と一致する。 我々の装置は現在の光物質相互作用デバイスで実装可能であり、特に、監視されたダイナミクスは、不完全なモニタリングであっても、選択後の測定問題から解放される。

We study the properties of a monitored ensemble of atoms driven by a laser field and in the presence of collective decay. By varying the strength of the external drive, the atomic cloud undergoes a measurement-induced phase transition separating two phases with entanglement entropy scaling sub-extensively with the system size. The critical point coincides with the transition to a superradiant spontaneous emission. Our setup is implementable in current light-matter interaction devices, and most notably, the monitored dynamics is free from the post-selection measurement problem, even in the case of imperfect monitoring.
翻訳日:2023-06-02 14:47:22 公開日:2023-06-01
# MuZeroはどのようなモデルを学びますか?

What model does MuZero learn? ( http://arxiv.org/abs/2306.00840v1 )

ライセンス: Link先を確認
Jinke He and Thomas M. Moerland and Frans A. Oliehoek(参考訳) モデルベースの強化学習は、サンプル効率を改善するという約束から、近年かなりの関心を集めている。 さらに、深層学習モデルを使用する場合、複雑なセンサデータからコンパクトモデルを学ぶことができる。 しかし、これらの学習モデルの有効性、特に計画する能力、すなわち現在の方針を改善する能力は、まだ不明である。 本研究では,よく知られた深層モデルに基づく強化学習アルゴリズムであるmuzeroを調査し,その学習目標である価値等価モデルの実現と,学習モデルが政策改善にどの程度有用かを検討する。 その他の様々な知見の中で,MuZeroが学習したモデルでは,目に見えない政策を効果的に評価することは不可能であり,モデルを用いて計画することで,現在の政策をさらに改善できる範囲を制限することができる。

Model-based reinforcement learning has drawn considerable interest in recent years, given its promise to improve sample efficiency. Moreover, when using deep-learned models, it is potentially possible to learn compact models from complex sensor data. However, the effectiveness of these learned models, particularly their capacity to plan, i.e., to improve the current policy, remains unclear. In this work, we study MuZero, a well-known deep model-based reinforcement learning algorithm, and explore how far it achieves its learning objective of a value-equivalent model and how useful the learned models are for policy improvement. Amongst various other insights, we conclude that the model learned by MuZero cannot effectively generalize to evaluate unseen policies, which limits the extent to which we can additionally improve the current policy by planning with the model.
翻訳日:2023-06-02 14:47:12 公開日:2023-06-01
# 変形可能な畳み込みとlstmを用いたフレキシブルイベントフレーム融合ネットワーク

Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network for Motion Deblurring ( http://arxiv.org/abs/2306.00834v1 )

ライセンス: Link先を確認
Dan Yang, Mehmet Yamac(参考訳) イベントカメラは、非同期データシーケンスを生成するという点で、従来のRGBカメラとは異なる。 RGBカメラは固定レートですべてのフレームをキャプチャするが、イベントカメラはシーンの変化のみをキャプチャし、スパースと非同期のデータ出力をもたらす。 イベントデータがrgbカメラのモーションデブラリングに利用できる有用な情報を持っているにもかかわらず、イベントと画像の統合は依然として課題である。 最近のCNNベースのデブロアリングソリューションは、イベントデータの蓄積に基づいて、複数の2次元イベントフレームを生成する。 しかし、これらの技術の多くは、イベントフレームの数が固定され事前定義されたため、特に高速移動物体が存在する場合や露光時間が長い場合など、時間分解能が劇的に低下する。 また、最近のカメラ(携帯電話のカメラなど)が画像の露光時間を動的に設定していることも注目に値する。 これらの課題に対処するために,LSTM(Long Short-Term Memory)ベースのイベント特徴抽出モジュールが開発された。 これらのモジュールを用いて、最先端のデブロアリングネットワーク、デフォルマブル・コンボリューション、LSTMベースのフレキシブルイベントフレームフュージョンネットワーク(DLEFNet)を構築した。 特に、照明条件や現場における動きの速い物体の存在といった要因によって露光時間が異なるシナリオでは特に有用である。 提案手法は, 人工的および実世界のデータセットにおけるタスクを分離するために, 既存の最先端ネットワークを上回ることができることを示す評価結果を得た。

Event cameras differ from conventional RGB cameras in that they produce asynchronous data sequences. While RGB cameras capture every frame at a fixed rate, event cameras only capture changes in the scene, resulting in sparse and asynchronous data output. Despite the fact that event data carries useful information that can be utilized in motion deblurring of RGB cameras, integrating event and image information remains a challenge. Recent state-of-the-art CNN-based deblurring solutions produce multiple 2-D event frames based on the accumulation of event data over a time period. In most of these techniques, however, the number of event frames is fixed and predefined, which reduces temporal resolution drastically, particularly for scenarios when fast-moving objects are present or when longer exposure times are required. It is also important to note that recent modern cameras (e.g., cameras in mobile phones) dynamically set the exposure time of the image, which presents an additional problem for networks developed for a fixed number of event frames. A Long Short-Term Memory (LSTM)-based event feature extraction module has been developed for addressing these challenges, which enables us to use a dynamically varying number of event frames. Using these modules, we constructed a state-of-the-art deblurring network, Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network (DLEFNet). It is particularly useful for scenarios in which exposure times vary depending on factors such as lighting conditions or the presence of fast-moving objects in the scene. It has been demonstrated through evaluation results that the proposed method can outperform the existing state-of-the-art networks for deblurring task in synthetic and real-world data sets.
翻訳日:2023-06-02 14:46:23 公開日:2023-06-01
# 等角予測における深層学習モデルの不確かさの定量化

Quantifying Deep Learning Model Uncertainty in Conformal Prediction ( http://arxiv.org/abs/2306.00876v1 )

ライセンス: Link先を確認
Hamed Karimi, Reza Samavi(参考訳) ディープニューラルネットワークにおける予測の不確かさの正確な推定は、機械学習や統計モデリング、特に医療aiの文脈において、信頼できる意思決定のための重要な要件である。 共形予測(cp)は、個々の予測に対して十分に調整された信頼レベルを提供することで、モデルの不確実性を表現するための有望な枠組みとして現れた。 しかし、共形予測におけるモデル不確実性の定量化は依然として活発な研究領域であり、完全には解決されていない。 本稿では,最先端CP手法とその理論的基礎について考察する。 本研究では,生成された予測集合から得られたモデル不確かさを共形予測で定量化する確率論的アプローチを提案し,計算不確実性に対する認定境界を提供する。 これにより、CPによって測定されたモデルの不確実性は、ベイジアン(例えば、MC-DropoutやDeepEnsemble)やエビデンシャルアプローチといった他の不確実性定量化手法と比較することができる。

Precise estimation of predictive uncertainty in deep neural networks is a critical requirement for reliable decision-making in machine learning and statistical modeling, particularly in the context of medical AI. Conformal Prediction (CP) has emerged as a promising framework for representing the model uncertainty by providing well-calibrated confidence levels for individual predictions. However, the quantification of model uncertainty in conformal prediction remains an active research area, yet to be fully addressed. In this paper, we explore state-of-the-art CP methodologies and their theoretical foundations. We propose a probabilistic approach in quantifying the model uncertainty derived from the produced prediction sets in conformal prediction and provide certified boundaries for the computed uncertainty. By doing so, we allow model uncertainty measured by CP to be compared by other uncertainty quantification methods such as Bayesian (e.g., MC-Dropout and DeepEnsemble) and Evidential approaches.
翻訳日:2023-06-02 14:38:39 公開日:2023-06-01
# 汎用単一光子型量子コンピューティングプラットフォーム

A general-purpose single-photon-based quantum computing platform ( http://arxiv.org/abs/2306.00874v1 )

ライセンス: Link先を確認
Nicolas Maring, Andreas Fyrillas, Mathias Pont, Edouard Ivanov, Petr Stepanov, Nico Margaria, William Hease, Anton Pishchagin, Thi Huong Au, S\'ebastien Boissier, Eric Bertasi, Aur\'elien Baert, Mario Valdivia, Marie Billard, Ozan Acar, Alexandre Brieussel, Rawad Mezher, Stephen C. Wein, Alexia Salavrakos, Patrick Sinnott, Dario A. Fioretto, Pierre-Emmanuel Emeriau, Nadia Belabas, Shane Mansfield, Pascale Senellart, Jean Senellart and Niccolo Somaschi(参考訳) 量子コンピューティングは、量子現象を利用して、最も強力な古典的スーパーコンピュータでも実現不可能な計算を効率的に行うことを目的としている。 将来有望な技術的アプローチの中で、フォトニック量子コンピューティングは、低デコヒーレンス、極度の低温要求を持つ情報処理、古典的および量子ネットワークとのネイティブな統合の利点を提供する。 これまで、光による量子コンピューティングの実証は特別なハードウェアで特定のタスクを実装しており、特にガウス・ボソン・サンプリングは量子計算の優位性に到達することを許していた。 本稿では,単一光子を用いた汎用量子コンピューティングの最初のプロトタイプについて報告する。 機械学習トランスパイル処理によりハードウェアエラーを補償する再構成可能なチップ上に、普遍線形光ネットワークを供給する高効率量子ドット単光子源を備える。 私たちのソフトウェアスタックは、デバイスのリモートコントロールにより、ロジックゲートまたは直接フォトニック操作を介して計算を実行できます。 ゲートベースの計算では、99.6\pm0.1 \%$、9.8\pm0.6 \%$、8.6\pm1.2 \%$の1ビット、2ビット、3ビットゲートをそれぞれベンチマークする。 また,水素分子のエネルギー準位を高精度に計算するために,変分量子固有解法を実装した。 光子ネイティブ計算のために、3ドルの光子ベースの量子ニューラルネットワークを用いて分類器アルゴリズムを実装し、ユニバーサル再構成可能な集積回路上で最初の6ドルの光子ボソンサンプリングデモンストレーションを報告する。 最後に、計測ベースの量子コンピューティングに向けた重要なマイルストーンである3光子エンタングルメント生成について報告する。

Quantum computing aims at exploiting quantum phenomena to efficiently perform computations that are unfeasible even for the most powerful classical supercomputers. Among the promising technological approaches, photonic quantum computing offers the advantages of low decoherence, information processing with modest cryogenic requirements, and native integration with classical and quantum networks. To date, quantum computing demonstrations with light have implemented specific tasks with specialized hardware, notably Gaussian Boson Sampling which permitted quantum computational advantage to be reached. Here we report a first user-ready general-purpose quantum computing prototype based on single photons. The device comprises a high-efficiency quantum-dot single-photon source feeding a universal linear optical network on a reconfigurable chip for which hardware errors are compensated by a machine-learned transpilation process. Our full software stack allows remote control of the device to perform computations via logic gates or direct photonic operations. For gate-based computation we benchmark one-, two- and three-qubit gates with state-of-the art fidelities of $99.6\pm0.1 \%$, $93.8\pm0.6 \%$ and $86\pm1.2 \%$ respectively. We also implement a variational quantum eigensolver, which we use to calculate the energy levels of the hydrogen molecule with high accuracy. For photon native computation, we implement a classifier algorithm using a $3$-photon-based quantum neural network and report a first $6$-photon Boson Sampling demonstration on a universal reconfigurable integrated circuit. Finally, we report on a first heralded 3-photon entanglement generation, a key milestone toward measurement-based quantum computing.
翻訳日:2023-06-02 14:38:22 公開日:2023-06-01
# 新規性は予測可能であるか?

Is novelty predictable? ( http://arxiv.org/abs/2306.00872v1 )

ライセンス: Link先を確認
Clara Fannjiang and Jennifer Listgarten(参考訳) 機械学習に基づく設計は、特に小さな分子、材料、タンパク質の設計において、薬の開発と製造、プラスチックの分解、炭素の隔離といった社会的な意味合いを持つ、科学の牽引力を得てきた。 マシンラーニングで新しい特性値を達成するためにオブジェクトを設計する場合、現在の知識のフロンティアをいかに越えるか、トレーニングデータからモデルに蒸留するか、障害のリスクを合理的に制御する方法、という根本的な課題に直面する。 学習したモデルを外挿で過大に信頼しているなら、ゴミをデザインする可能性が高い。 対照的に、外挿がなければ、新しいものを見つけることはできない。 ここでは、この2つの極端の間でどのように有用なバランスをとるかを考えます。 特に、新しい特性値を持つタンパク質を設計することに重点を置いていますが、多くの議論は機械学習ベースの設計をより広く取り上げています。

Machine learning-based design has gained traction in the sciences, most notably in the design of small molecules, materials, and proteins, with societal implications spanning drug development and manufacturing, plastic degradation, and carbon sequestration. When designing objects to achieve novel property values with machine learning, one faces a fundamental challenge: how to push past the frontier of current knowledge, distilled from the training data into the model, in a manner that rationally controls the risk of failure. If one trusts learned models too much in extrapolation, one is likely to design rubbish. In contrast, if one does not extrapolate, one cannot find novelty. Herein, we ponder how one might strike a useful balance between these two extremes. We focus in particular on designing proteins with novel property values, although much of our discussion addresses machine learning-based design more broadly.
翻訳日:2023-06-02 14:37:54 公開日:2023-06-01
# ブロックチェーンベースの分散共同統治:持続可能なクラウドファンディングのためのイノベーションとソリューション

Blockchain-based Decentralized Co-governance: Innovations and Solutions for Sustainable Crowdfunding ( http://arxiv.org/abs/2306.00869v1 )

ライセンス: Link先を確認
Bingyou Chen, Yu Luo, Jieni Li, Yujian Li, Ying Liu, Fan Yang and Yanan Qiao(参考訳) この論文は、MSMEやイノベーティブなプロジェクトによって直面する従来型のクラウドファンディング手法の課題に対処する新しいソリューションである、分散コガナンスクラウドファンディング(DCC)エコシステムの詳細な調査を提供する。 対処しようとしている問題には、高い取引コスト、透明性の欠如、詐欺、非効率なリソース割り当てなどがある。 クラウドファンディング経済活動に関する既存の文献とブロックチェーンの組織ガバナンスへの影響を総合的にレビューし,デジタルトークンと分散型共同統治に基づく変革的社会経済モデルを提案する。 このエコシステムには、労働、資本、統治という三部構成のコミュニティ構造があり、それぞれが生態系の運営に一意に貢献している。 我々の研究は、異なる段階を通じてdccエコシステムの進化を展開し、分散デジタル世界における社会経済のダイナミクスの新たな理解を提供する。 また、エコシステムの複雑なガバナンスメカニズム、完全性、公平性、そして価値と富のバランスのとれた分配を保証します。

This thesis provides an in-depth exploration of the Decentralized Co-governance Crowdfunding (DCC) Ecosystem, a novel solution addressing prevailing challenges in conventional crowdfunding methods faced by MSMEs and innovative projects. Among the problems it seeks to mitigate are high transaction costs, lack of transparency, fraud, and inefficient resource allocation. Leveraging a comprehensive review of the existing literature on crowdfunding economic activities and blockchain's impact on organizational governance, we propose a transformative socio-economic model based on digital tokens and decentralized co-governance. This ecosystem is marked by a tripartite community structure - the Labor, Capital, and Governance communities - each contributing uniquely to the ecosystem's operation. Our research unfolds the evolution of the DCC ecosystem through distinct phases, offering a novel understanding of socioeconomic dynamics in a decentralized digital world. It also delves into the intricate governance mechanism of the ecosystem, ensuring integrity, fairness, and a balanced distribution of value and wealth.
翻訳日:2023-06-02 14:37:41 公開日:2023-06-01
# ホモダインプローブによる原子キャビティ光子配置状態の条件付きスピンスクイーズに関する確率的平均場理論

Stochastic Mean-field Theory for Conditional Spin Squeezing by Homodyne Probing of Atom-Cavity Photon Dressed States ( http://arxiv.org/abs/2306.00868v1 )

ライセンス: Link先を確認
ZhiQing Zhang, Yuan Zhang, HaiZhong Guo, Lingrui Wang, Gang Chen, Chongxin Shan, Klaus M{\o}lmer(参考訳) 量子系の射影計測は、観測可能な測定値の固有状態を作成する。 したがって、集合的可観測性の測定は相互相互作用のない量子系の絡み合った状態の調整に応用することができる。 大規模量子系では、密度行列による条件量子状態の数値処理は極めて複雑になるが、有効近似法で扱うことができる。 本稿では,マルチレベルシステムやハイブリッド原子・機械システムのアンサンブルなど,より複雑なシステムを記述するために容易に一般化できる原子アンサンブルの連続的光学プローブの効果をシミュレートするための累積平均場理論の確率的変種と,適応計測やフィードバックを含むプロトコルを提案する。 この理論を、数万個のルビジウム87原子を光学空洞に配置した系に適用し、原子-光子結合状態共鳴(cf)近傍の透過光信号のホモダイン検出のみによって生じるスピンスクイーズの研究を行った。 同様のヘテロダイン検出法を本システムに応用した [Nat. Photonics, 8(9), 731-736 (2014)]。

A projective measurement on a quantum system prepares an eigenstate of the observable measured. Measurements of collective observables can thus be employed to herald the preparation of entangled states of quantum systems with no mutual interactions. For large quantum systems numerical handling of the conditional quantum state by the density matrix becomes prohibitively complicated, but they may be treated by effective approximate methods. In this article, we present a stochastic variant of cumulant mean-field theory to simulate the effect of continuous optical probing of an atomic ensemble, which can be readily generalized to describe more complex systems, such as ensembles of multi-level systems and hybrid atomic and mechanical systems, and protocols that include adaptive measurements and feedback. We apply the theory to a system with tens of thousands of rubidium-87 atom in an optical cavity, and we study the spin squeezing occurring solely due to homodyne detection of a transmitted light signal near an atom-photon dressed state resonance, cf., a similar application of heterodyne detection to this system [Nat. Photonics, 8(9), 731-736 (2014)].
翻訳日:2023-06-02 14:37:23 公開日:2023-06-01
# IQL-TD-MPC:階層モデル予測制御のための暗黙Qラーニング

IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control ( http://arxiv.org/abs/2306.00867v1 )

ライセンス: Link先を確認
Rohan Chitnis, Yingchen Xu, Bobak Hashemi, Lucas Lehnert, Urun Dogan, Zheqing Zhu, Olivier Delalleau(参考訳) モデルベース強化学習(rl)はそのサンプル効率のために大きな期待が持たれているが、特にエージェントが固定データセットから学習するオフライン設定では、長いホリゾンスパースリワードタスクに苦しめられている。 モデルベースRLエージェントは、長期計画能力の欠如によりこれらの環境に苦慮し、環境の時間的抽象モデルにおける計画がこの問題を軽減することができると仮定する。 本稿では,2つの重要な貢献を行う。 1)モデル予測制御(td-mpc)のための最先端時間差学習を暗黙的q-learning(iql)で拡張するオフラインモデルベースrlアルゴリズムiql-td-mpcを提案する。 2) IQL-TD-MPCをマネージャとして,市販のオフラインRLアルゴリズムをWorkerとして階層的に使用することを提案する。 具体的には、時間的に抽象化されたiql-td-mpcマネージャを事前トレーニングして、プランニングを通じて、おおよそサブゴールに相当する"intent embeddeds"を予測します。 IQL-TD-MPCマネージャによって生成されるインテント埋め込みによる状態表現の増大は、最も困難なD4RLベンチマークタスクにおいて、オフザシェルフのオフラインRLエージェントのパフォーマンスを著しく向上させる。 例えば、オフラインのRLアルゴリズムであるAWAC、TD3-BC、DT、CQLはいずれも、中規模および大規模なAntmazeタスクでゼロまたはほぼゼロの正規化評価スコアを取得します。

Model-based reinforcement learning (RL) has shown great promise due to its sample efficiency, but still struggles with long-horizon sparse-reward tasks, especially in offline settings where the agent learns from a fixed dataset. We hypothesize that model-based RL agents struggle in these environments due to a lack of long-term planning capabilities, and that planning in a temporally abstract model of the environment can alleviate this issue. In this paper, we make two key contributions: 1) we introduce an offline model-based RL algorithm, IQL-TD-MPC, that extends the state-of-the-art Temporal Difference Learning for Model Predictive Control (TD-MPC) with Implicit Q-Learning (IQL); 2) we propose to use IQL-TD-MPC as a Manager in a hierarchical setting with any off-the-shelf offline RL algorithm as a Worker. More specifically, we pre-train a temporally abstract IQL-TD-MPC Manager to predict "intent embeddings", which roughly correspond to subgoals, via planning. We empirically show that augmenting state representations with intent embeddings generated by an IQL-TD-MPC manager significantly improves off-the-shelf offline RL agents' performance on some of the most challenging D4RL benchmark tasks. For instance, the offline RL algorithms AWAC, TD3-BC, DT, and CQL all get zero or near-zero normalized evaluation scores on the medium and large antmaze tasks, while our modification gives an average score over 40.
翻訳日:2023-06-02 14:37:02 公開日:2023-06-01
# 臨床診断のためのマルチモーダル入力の統一処理を用いたトランスフォーマーに基づく表現学習モデル

A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics ( http://arxiv.org/abs/2306.00864v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Yizhou Yu, Chengdi Wang, Shu Zhang, Yuanxu Gao, Jia Pan, Jun Shao, Guangming Lu, Kang Zhang, Weimin Li(参考訳) 診断過程において、臨床医は、主訴、医療画像、検査結果などのマルチモーダル情報を利用する。 診断を支援するディープラーニングモデルは、まだこの要件を満たしていない。 本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルを報告する。 モダリティ特有の特徴を学習する代わりに、モデルは埋め込み層を使用して画像や非構造化テキストを視覚トークンやテキストトークンに変換し、イントラモーダルとインターモーダルの注意を向けた双方向ブロックを使用して、ラジオグラフの全体像、非構造化主訴と臨床履歴、臨床検査結果や患者人口統計情報などの構造化臨床情報を学ぶ。 統一モデルは、画像のみモデルと非統一マルチモーダル診断モデルを上回り、肺疾患の同定(それぞれ12%、9%)と、covid-19患者(それぞれ29%、7%)の副作用の予測において上回った。 統合マルチモーダルトランスフォーマーベースのモデルを活用することで、患者のトリアージを効率化し、臨床決定プロセスを促進することができる。

During the diagnostic process, clinicians leverage multimodal information, such as chief complaints, medical images, and laboratory-test results. Deep-learning models for aiding diagnosis have yet to meet this requirement. Here we report a Transformer-based representation-learning model as a clinical diagnostic aid that processes multimodal input in a unified manner. Rather than learning modality-specific features, the model uses embedding layers to convert images and unstructured and structured text into visual tokens and text tokens, and bidirectional blocks with intramodal and intermodal attention to learn a holistic representation of radiographs, the unstructured chief complaint and clinical history, structured clinical information such as laboratory-test results and patient demographic information. The unified model outperformed an image-only model and non-unified multimodal diagnosis models in the identification of pulmonary diseases (by 12% and 9%, respectively) and in the prediction of adverse clinical outcomes in patients with COVID-19 (by 29% and 7%, respectively). Leveraging unified multimodal Transformer-based models may help streamline triage of patients and facilitate the clinical decision process.
翻訳日:2023-06-02 14:36:31 公開日:2023-06-01
# DeepFake-Adapter:DeepFake検出のためのデュアルレベルアダプタ

DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection ( http://arxiv.org/abs/2306.00863v1 )

ライセンス: Link先を確認
Rui Shao, Tianxing Wu, Liqiang Nie, Ziwei Liu(参考訳) 既存のディープフェイク検出法は、低レベルの偽造パターンの過度な適合に起因して、目に見えないサンプルや劣化したサンプルをうまく一般化できない。 ここでは、高レベルの意味論は一般化可能な偽造検出に必須のレシピであると主張する。 近年、大型事前訓練型視覚トランスフォーマ(vits)が有望な一般化能力を示している。 本稿では,DeepFake-Adapterというディープフェイク検出のための第1のパラメータ効率チューニング手法を提案する。 DeepFake-Adapterは、トレーニング済みの大きなモデルと限られたディープフェイクデータによって、軽量だが専用のデュアルレベルのアダプタモジュールをViTに導入し、モデルバックボーンを凍結し続ける。 具体的には、ディープフェイクデータのグローバルおよびローカルの偽造の両方に気付くように適応プロセスを導く。 1) グローバル対応の Bottleneck Adapters を ViT の MLP 層に並列に挿入するだけでなく, また、vitの機能を備えた、ローカル対応の空間アダプタを積極的にクロスタッチする。 既存のディープフェイク検出手法が低レベルの偽造パターンのみに焦点を当てているのとは異なり、このモデルの偽造検出プロセスは、事前訓練されたvitから一般化された高レベルセマンティクスによって正規化され、ディープフェイクデータのグローバルおよびローカルな低レベル偽造によって適応される。 いくつかの標準ディープフェイク検出ベンチマークによる大規模な実験により,本手法の有効性が検証された。 特に、DeepFake-Adapterは、クロスデータセットとクロス操作設定において、説得力のある優位性を示している。 ソースコードはhttps://github.com/rshaojimmy/DeepFake-Adapterで公開されている。

Existing deepfake detection methods fail to generalize well to unseen or degraded samples, which can be attributed to the over-fitting of low-level forgery patterns. Here we argue that high-level semantics are also indispensable recipes for generalizable forgery detection. Recently, large pre-trained Vision Transformers (ViTs) have shown promising generalization capability. In this paper, we propose the first parameter-efficient tuning approach for deepfake detection, namely DeepFake-Adapter, to effectively and efficiently adapt the generalizable high-level semantics from large pre-trained ViTs to aid deepfake detection. Given large pre-trained models but limited deepfake data, DeepFake-Adapter introduces lightweight yet dedicated dual-level adapter modules to a ViT while keeping the model backbone frozen. Specifically, to guide the adaptation process to be aware of both global and local forgery cues of deepfake data, 1) we not only insert Globally-aware Bottleneck Adapters in parallel to MLP layers of ViT, 2) but also actively cross-attend Locally-aware Spatial Adapters with features from ViT. Unlike existing deepfake detection methods merely focusing on low-level forgery patterns, the forgery detection process of our model can be regularized by generalizable high-level semantics from a pre-trained ViT and adapted by global and local low-level forgeries of deepfake data. Extensive experiments on several standard deepfake detection benchmarks validate the effectiveness of our approach. Notably, DeepFake-Adapter demonstrates a convincing advantage under cross-dataset and cross-manipulation settings. The source code is released at https://github.com/rshaojimmy/DeepFake-Adapter
翻訳日:2023-06-02 14:36:10 公開日:2023-06-01
# 一般関数近似による非定常強化学習

Non-stationary Reinforcement Learning under General Function Approximation ( http://arxiv.org/abs/2306.00861v1 )

ライセンス: Link先を確認
Songtao Feng, Ming Yin, Ruiquan Huang, Yu-Xiang Wang, Jing Yang, Yingbin Liang(参考訳) 一般関数近似は、広範囲の強化学習(RL)シナリオにおいて、大きな状態と行動空間を扱う強力なツールである。 しかし、一般関数近似を用いた非定常MDPの理論的理解はまだ限られている。 本稿では,このような試みを初めて行う。 まず,非定常MDPに対する動的ベルマン・エルダー次元(DBE)と呼ばれる新しい複雑性指標を提案し,静的MDPおよび非定常MDPにおける既存の抽出可能なRL問題の大部分を仮定する。 提案手法は,非定常MDPに対するスライディングウインドウ機構と新しい信頼度セット設計を特徴とする,SW-OPEAと呼ばれる新しい信頼度セットベースモデルフリーアルゴリズムを提案する。 次に,提案アルゴリズムの動的後悔の上限を定式化し,変動予算がそれほど大きくない場合,sw-opea が有効であることを示す。 さらに,非定常線形および表型MDPの例を通して,提案アルゴリズムが既存の UCB 型アルゴリズムよりも小さな変動予算シナリオで優れていることを示す。 我々の知る限り、これは一般関数近似を用いた非定常MDPにおける最初の動的後悔解析である。

General function approximation is a powerful tool to handle large state and action spaces in a broad range of reinforcement learning (RL) scenarios. However, theoretical understanding of non-stationary MDPs with general function approximation is still limited. In this paper, we make the first such an attempt. We first propose a new complexity metric called dynamic Bellman Eluder (DBE) dimension for non-stationary MDPs, which subsumes majority of existing tractable RL problems in static MDPs as well as non-stationary MDPs. Based on the proposed complexity metric, we propose a novel confidence-set based model-free algorithm called SW-OPEA, which features a sliding window mechanism and a new confidence set design for non-stationary MDPs. We then establish an upper bound on the dynamic regret for the proposed algorithm, and show that SW-OPEA is provably efficient as long as the variation budget is not significantly large. We further demonstrate via examples of non-stationary linear and tabular MDPs that our algorithm performs better in small variation budget scenario than the existing UCB-type algorithms. To the best of our knowledge, this is the first dynamic regret analysis in non-stationary MDPs with general function approximation.
翻訳日:2023-06-02 14:35:42 公開日:2023-06-01
# 対話政策最適化のためのニューラルユーザシミュレータの逆学習

Adversarial learning of neural user simulators for dialogue policy optimisation ( http://arxiv.org/abs/2306.00858v1 )

ライセンス: Link先を確認
Simon Keizer, Caroline Dockes, Norbert Braunschweiler, Svetlana Stoyanchev, Rama Doddipatla(参考訳) 強化学習に基づく対話ポリシーは通常、ユーザシミュレータとのインタラクションで訓練される。 効果的でロバストなポリシーを得るためには,現実的かつ多様なユーザ行動を生成する必要がある。 現在のデータ駆動シミュレータは、対話コーパスにおけるユーザの振る舞いを正確にモデル化するように訓練される。 本稿では,現実的なユーザ行動のシミュレーションを目的とした,逆学習を用いた代替手法を提案する。 レストラン検索ダイアログのコーパス上で,複数のシミュレータを訓練し,評価し,その上で対話システムポリシーを訓練する。 政策横断評価実験では, 最大極大シミュレータで訓練したシミュレータよりも8.3%高い成功率のポリシーを生成することを示した。 クラウドソースによる対話システムにおけるユーザ評価の結果から,ユーザシミュレータの学習効果が確認された。

Reinforcement learning based dialogue policies are typically trained in interaction with a user simulator. To obtain an effective and robust policy, this simulator should generate user behaviour that is both realistic and varied. Current data-driven simulators are trained to accurately model the user behaviour in a dialogue corpus. We propose an alternative method using adversarial learning, with the aim to simulate realistic user behaviour with more variation. We train and evaluate several simulators on a corpus of restaurant search dialogues, and then use them to train dialogue system policies. In policy cross-evaluation experiments we demonstrate that an adversarially trained simulator produces policies with 8.3% higher success rate than those trained with a maximum likelihood simulator. Subjective results from a crowd-sourced dialogue system user evaluation confirm the effectiveness of adversarially training user simulators.
翻訳日:2023-06-02 14:35:23 公開日:2023-06-01
# T2IAT:テキスト・画像生成における妥当性とステレオタイプビアーゼの測定

T2IAT: Measuring Valence and Stereotypical Biases in Text-to-Image Generation ( http://arxiv.org/abs/2306.00905v1 )

ライセンス: Link先を確認
Jialu Wang, Xinyue Gabby Liu, Zonglin Di, Yang Liu, Xin Eric Wang(参考訳) 警告: 本論文は、有害、有害、または攻撃的ないくつかの内容を含む。 近年,テキストから画像への生成モデルは,予測速度の突破とともに,前例のない画質の画像を生成できることに成功している。 その急速な進歩にもかかわらず、トレーニング例で現れる人間のバイアス、特にジェンダーや肌のトーンのような一般的なステレオタイプバイアスは、これらの生成モデルで発見されている。 本研究では,テキスト・ツー・画像世代における課題において,より複雑な人間のバイアスを測定することを目的とする。 社会心理学の有名な暗黙的関連テスト(iat)に触発されて,概念と原子価,イメージの暗黙的ステレオタイプを定量化する新しいテキスト・ツー・イメージ関連テスト(t2iat)フレームワークを提案する。 先述した生成モデルに対するバイアス試験を再現し,花や昆虫に対する道徳的中立性試験,および多様な社会的属性に関する人口統計学的ステレオタイプ試験を行った。 これらの実験の結果、画像生成における複雑なステレオタイプ行動の存在が示されている。

Warning: This paper contains several contents that may be toxic, harmful, or offensive. In the last few years, text-to-image generative models have gained remarkable success in generating images with unprecedented quality accompanied by a breakthrough of inference speed. Despite their rapid progress, human biases that manifest in the training examples, particularly with regard to common stereotypical biases, like gender and skin tone, still have been found in these generative models. In this work, we seek to measure more complex human biases exist in the task of text-to-image generations. Inspired by the well-known Implicit Association Test (IAT) from social psychology, we propose a novel Text-to-Image Association Test (T2IAT) framework that quantifies the implicit stereotypes between concepts and valence, and those in the images. We replicate the previously documented bias tests on generative models, including morally neutral tests on flowers and insects as well as demographic stereotypical tests on diverse social attributes. The results of these experiments demonstrate the presence of complex stereotypical behaviors in image generations.
翻訳日:2023-06-02 14:29:54 公開日:2023-06-01
# 高次相互作用のための相互作用測度、分割格子および核テスト

Interaction Measures, Partition Lattices and Kernel Tests for High-Order Interactions ( http://arxiv.org/abs/2306.00904v1 )

ライセンス: Link先を確認
Zhaolu Liu, Robert L. Peach, Pedro A.M. Mediano, and Mauricio Barahona(参考訳) 対関係にのみ依存するモデルは、社会経済、生態学、生物医学システムなど、様々な領域で見られる複雑な多変量データの完全な統計構造を捉えることができないことが多い。 2つ以上の変数からなるグループ間の非自明な依存関係は、そのようなシステムの分析とモデリングにおいて重要な役割を果たすが、データからそのような高次相互作用を抽出することは依然として困難である。 ここでは、d$-order (d \geq 2$) 相互作用測度の階層を導入し、ジョイント確率分布の可能な因子化をますます包含し、非パラメトリックなカーネルベースのテストを定義し、d$-order相互作用の統計的意義を体系的に確立する。 また、相互作用測度とその複合置換試験の導出を解明する格子理論との数学的関係を確立し、単純錯体とカーネル行列遠心率の関連を明らかにするとともに、計算効率を高める手段を提供する。 本研究は,合成データおよび神経画像データへの応用により,数値的に結果を示す。

Models that rely solely on pairwise relationships often fail to capture the complete statistical structure of the complex multivariate data found in diverse domains, such as socio-economic, ecological, or biomedical systems. Non-trivial dependencies between groups of more than two variables can play a significant role in the analysis and modelling of such systems, yet extracting such high-order interactions from data remains challenging. Here, we introduce a hierarchy of $d$-order ($d \geq 2$) interaction measures, increasingly inclusive of possible factorisations of the joint probability distribution, and define non-parametric, kernel-based tests to establish systematically the statistical significance of $d$-order interactions. We also establish mathematical links with lattice theory, which elucidate the derivation of the interaction measures and their composite permutation tests; clarify the connection of simplicial complexes with kernel matrix centring; and provide a means to enhance computational efficiency. We illustrate our results numerically with validations on synthetic data, and through an application to neuroimaging data.
翻訳日:2023-06-02 14:29:35 公開日:2023-06-01
# spottarget:グラフニューラルネットワークにおけるリンク予測における目標エッジの効果再考

SpotTarget: Rethinking the Effect of Target Edges for Link Prediction in Graph Neural Networks ( http://arxiv.org/abs/2306.00899v1 )

ライセンス: Link先を確認
Jing Zhu, Yuhang Zhou, Vassilis N. Ioannidis, Shengyi Qian, Wei Ai, Xiang Song, Danai Koutra(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測など,さまざまなタスクにおいて有望な結果を示している。 様々なハイインパクトアプリケーションで顕著な成功を収めたにもかかわらず、リンク予測のためにメッセージパッシングに共通する落とし穴が3つ見つかった。 特に、一般的なGNNフレームワーク(DGLやPyTorch-Geometricなど)では、ターゲットエッジ(予測されるエッジ)は、トレーニング中にグラフ内のメッセージパッシングエッジとして一貫して存在する。 その結果、オーバーフィッティングと分散シフトが発生し、どちらも目標エッジのテストの一般化に悪影響を及ぼす。 さらに、テスト時間中にテスト対象エッジを除外できないと、近隣の集約によって暗黙的なテストリークが発生する。 本稿では,これら3つの落とし穴を解析し,訓練および試験段階において,目標エッジを含まないことがノードの性能に及ぼす影響について検討する。 我々の理論および実証分析は、低次ノードがこれらの落とし穴の影響を受けやすいことを証明している。 これらの落とし穴は、GNNが本番システムに実装されると有害な結果をもたらす可能性がある。 これらの落とし穴を体系的に解決するために,効果的かつ効率的なGNNトレーニングフレームワークであるSpotTargetを提案する。 トレーニング中、SpotTargetは低次ノードに関する私たちの洞察を活用し、少なくとも1つの低次ノードに接続された列車目標エッジを除外します。 テスト期間中、本番環境でのGNN使用の実際のシナリオをエミュレートし、すべてのテスト対象エッジを除外する。 実世界の多様なデータセットで行った実験では、spottargetがgnnを著しく強化し、スパースグラフの精度を最大15倍向上させることを示した。 さらにspottargetは、高密度グラフにおける低次ノードのパフォーマンスを一貫して劇的に向上させる。

Graph Neural Networks (GNNs) have demonstrated promising outcomes across various tasks, including node classification and link prediction. Despite their remarkable success in various high-impact applications, we have identified three common pitfalls in message passing for link prediction. Particularly, in prevalent GNN frameworks (e.g., DGL and PyTorch-Geometric), the target edges (i.e., the edges being predicted) consistently exist as message passing edges in the graph during training. Consequently, this results in overfitting and distribution shift, both of which adversely impact the generalizability to test the target edges. Additionally, during test time, the failure to exclude the test target edges leads to implicit test leakage caused by neighborhood aggregation. In this paper, we analyze these three pitfalls and investigate the impact of including or excluding target edges on the performance of nodes with varying degrees during training and test phases. Our theoretical and empirical analysis demonstrates that low-degree nodes are more susceptible to these pitfalls. These pitfalls can have detrimental consequences when GNNs are implemented in production systems. To systematically address these pitfalls, we propose SpotTarget, an effective and efficient GNN training framework. During training, SpotTarget leverages our insight regarding low-degree nodes and excludes train target edges connected to at least one low-degree node. During test time, it emulates real-world scenarios of GNN usage in production and excludes all test target edges. Our experiments conducted on diverse real-world datasets, demonstrate that SpotTarget significantly enhances GNNs, achieving up to a 15x increase in accuracy in sparse graphs. Furthermore, SpotTarget consistently and dramatically improves the performance for low-degree nodes in dense graphs.
翻訳日:2023-06-02 14:29:15 公開日:2023-06-01
# 2段階オブジェクトポス推定パラダイムの確率的緩和

A Probabilistic Relaxation of the Two-Stage Object Pose Estimation Paradigm ( http://arxiv.org/abs/2306.00892v1 )

ライセンス: Link先を確認
Onur Beker(参考訳) 既存のオブジェクトポーズ推定法では、視覚対応検出(知覚フロントエンドの一部として特徴記述子をマッチングするなど)と幾何学的アライメント(例えば、ポイントクラウド登録のための堅牢な推定目標を最適化するなど)という、2つの連続的な段階に分けなければならない。 代わりに2つの主な利点を持つマッチングフリーな確率的定式化を提案する。 一 視覚対応と幾何アライメントの両面の統一及び同時最適化を可能にすること。 二 有望なポーズの分布の異なる妥当なモードを表わすことができる。 これにより、幾何学的認識のシナリオをより優雅に扱えるようになり、例えばテクスチャレス、対称的、あるいは隠蔽されたオブジェクトや、正しいポーズが不確かであるか、あるいは複数の等しく有効な解が存在する場面など、ポイント間の一対一の一致が概念的に不明確になる。

Existing object pose estimation methods commonly require a one-to-one point matching step that forces them to be separated into two consecutive stages: visual correspondence detection (e.g., by matching feature descriptors as part of a perception front-end) followed by geometric alignment (e.g., by optimizing a robust estimation objective for pointcloud registration or perspective-n-point). Instead, we propose a matching-free probabilistic formulation with two main benefits: i) it enables unified and concurrent optimization of both visual correspondence and geometric alignment, and ii) it can represent different plausible modes of the entire distribution of likely poses. This in turn allows for a more graceful treatment of geometric perception scenarios where establishing one-to-one matches between points is conceptually ill-defined, such as textureless, symmetrical and/or occluded objects and scenes where the correct pose is uncertain or there are multiple equally valid solutions.
翻訳日:2023-06-02 14:28:47 公開日:2023-06-01
# 懸念する理由:「パウズレター」に署名した専門家の動機を調べる

Why They're Worried: Examining Experts' Motivations for Signing the 'Pause Letter' ( http://arxiv.org/abs/2306.00891v1 )

ライセンス: Link先を確認
Isabella Struckman, Sofie Kupiec(参考訳) 本稿では、専門家のサンプルが保持するAIの現状について考察する。 これらの専門家は、先進的なAI開発を停止するよう要求する最近のFuture of Lifeからの公開書簡の署名者だった。 インタビュー参加者の視点を正確に表現するために、最善の努力が払われました。 しかし、その地位を完璧に描写できる紙は無かった。 私たちはどのような意見を述べたかに自信を感じていますが、強くは持たないのです。 このようなダイナミックな時代には、AIとその将来に対する期待の中で、誰も解決すべきではないと感じています。

This paper presents perspectives on the state of AI, as held by a sample of experts. These experts were early signatories of the recent open letter from Future of Life, which calls for a pause on advanced AI development. Utmost effort was put into accurately representing the perspectives of our interviewees, and they have all read and approved of their representation. However, no paper could offer a perfect portrayal of their position. We feel confident in what opinions we do put forward, but we do not hold them tightly. In such dynamic times, we feel that no one should be resolved in their expectations for AI and its future.
翻訳日:2023-06-02 14:28:27 公開日:2023-06-01
# LLaVA-Med: バイオメディシンのための大規模言語・視覚アシスタントを1日でトレーニング

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day ( http://arxiv.org/abs/2306.00890v1 )

ライセンス: Link先を確認
Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao(参考訳) 会話型生成aiは、バイオメディカル実践者のエンパワーメントに顕著な期待を示しているが、最近の調査はユニモーダルテキストに焦点を当てている。 マルチモーダルな会話型AIは、公開Webから数十億のイメージテキストペアを活用することで、急速に進歩している。 本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。 鍵となる考え方は、PubMed Centralから抽出された大規模で広い範囲のバイオメディカルフィギュアキャプチャーデータセットを活用し、GPT-4を使用して、キャプションからオープンエンド命令追跡データを自己インストラクションし、新しいカリキュラム学習手法を用いて大規模な一般ドメインビジョン言語モデルを微調整することである。 具体的には、まず、図取りペアをそのまま使用して、生物医学的語彙の整列を学習し、その後、gpt-4が生成した命令追従データを用いて、開放された会話意味論を習得し、在職者が徐々に生物医学的知識を取得する方法を広義に模倣する。 これにより、バイオメディジンのためのLarge Language and Vision Assistant(LLaVA-Med)を15時間以内(A100は8つ)でトレーニングすることができます。 LLaVA-Medは、優れたマルチモーダル会話能力を示し、バイオメディカルイメージに関する問い合わせを支援するために、オープンエンドの指示に従うことができる。 標準的な3つのバイオメディカルビジュアル質問応答データセットでは、LLaVA-Medは、特定のメトリクスで以前の監督された最先端よりも優れています。 バイオメディカルなマルチモーダル研究を容易にするため,本研究は命令追跡データとLLaVA-Medモデルをリリースする。

Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.
翻訳日:2023-06-02 14:28:17 公開日:2023-06-01
# OpenPI-C: Open-Vocabulary State Trackingのためのベンチマークと強力なベースライン

OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary State Tracking ( http://arxiv.org/abs/2306.00887v1 )

ライセンス: Link先を確認
Xueqing Wu, Sha Li, Heng Ji(参考訳) open-vocabulary state trackingは、状態空間とエンティティ空間を制限することなく、プロセス全体のエンティティの状態変化を追跡することを目的とした、より実用的な状態追跡バージョンである。 OpenPIは現在、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。 しかし,データセットの品質と評価基準の問題点は明らかである。 本データセットでは,手順レベル,ステップレベル,状態変化レベルの3種類の問題を分類し,複数ラウンドの人的判断を用いてクリーンなデータセットOpenPI-Cを構築する。 評価基準のために, 評価基準の繰り返しに対する好みを修正するために, クラスタベースメトリクスを提案する。 モデル面では、状態追跡のための2つの重要なプロパティ:時間依存とエンティティ認識を回復することで、seq2seq生成ベースラインを強化します。 行動後の世界の状態は、本質的に前の状態に依存する。 この依存関係を動的メモリバンクを通じてモデル化し、デコード中にモデルがメモリスロットに出席できるようにします。 一方、世界の状態は自然に関係する国家の連合である。 オープン語彙設定ではエンティティが未知であるため,第1段階から予測されるエンティティに条件付き状態変化予測を洗練させる2段階モデルを提案する。 実験結果から,提案モデルの有効性が示唆された。 コードとデータはhttps://github.com/shirley-wu/openpi-cでリリース

Open-vocabulary state tracking is a more practical version of state tracking that aims to track state changes of entities throughout a process without restricting the state space and entity space. OpenPI is to date the only dataset annotated for open-vocabulary state tracking. However, we identify issues with the dataset quality and evaluation metric. For the dataset, we categorize 3 types of problems on the procedure level, step level and state change level respectively, and build a clean dataset OpenPI-C using multiple rounds of human judgment. For the evaluation metric, we propose a cluster-based metric to fix the original metric's preference for repetition. Model-wise, we enhance the seq2seq generation baseline by reinstating two key properties for state tracking: temporal dependency and entity awareness. The state of the world after an action is inherently dependent on the previous state. We model this dependency through a dynamic memory bank and allow the model to attend to the memory slots during decoding. On the other hand, the state of the world is naturally a union of the states of involved entities. Since the entities are unknown in the open-vocabulary setting, we propose a two-stage model that refines the state change prediction conditioned on entities predicted from the first stage. Empirical results show the effectiveness of our proposed model especially on the cluster-based metric. The code and data are released at https://github.com/shirley-wu/openpi-c
翻訳日:2023-06-02 14:27:43 公開日:2023-06-01
# BDDベースのバケット排除の境界

Bounds on BDD-Based Bucket Elimination ( http://arxiv.org/abs/2306.00886v1 )

ライセンス: Link先を確認
Stefan Mengel(参考訳) bddベースのバケット除去について検討し,変数除去を用いた満足度テストのアプローチについて検討した。 最近導入されたバケット除去の変種である可変除去とBDD表現の異なる順序を許容する場合、標準的なハトホール原理を効率的に解けることが証明されている。 さらに、この上界は、ハトホールの原理から得られる式、すなわち、いくつかの変数を修正することで、同じ変数の順序を持つ同じアプローチが指数関数的なランタイムを持つように、やや不安定であることを示した。 また,変分除去とBDDを併用したバケット除去のより一般的な実装は,上界からの2つの順序のどちらかを用いることで,ハトホール原理の指数的実行が可能であることを示し,両者の組み合わせが,設定における効率の鍵であることを示唆している。

We study BDD-based bucket elimination, an approach to satisfiability testing using variable elimination which has seen several practical implementations in the past. We prove that it allows solving the standard pigeonhole principle formulas efficiently, when allowing different orders for variable elimination and BDD-representations, a variant of bucket elimination that was recently introduced. Furthermore, we show that this upper bound is somewhat brittle as for formulas which we get from the pigeonhole principle by restriction, i.e., fixing some of the variables, the same approach with the same variable orders has exponential runtime. We also show that the more common implementation of bucket elimination using the same order for variable elimination and the BDDs has exponential runtime for the pigeonhole principle when using either of the two orders from our upper bound, which suggests that the combination of both is the key to efficiency in the setting.
翻訳日:2023-06-02 14:27:21 公開日:2023-06-01
# 磁束を有する合成次元におけるリドバーグ原子の強相互作用

Strongly interacting Rydberg atoms in synthetic dimensions with a magnetic flux ( http://arxiv.org/abs/2306.00883v1 )

ライセンス: Link先を確認
Tao Chen, Chenxi Huang, Ivan Velkovsky, Kaden R. A. Hazzard, Jacob P. Covey, and Bryce Gadway(参考訳) 内部状態の集合において力学が生じる合成次元は、近年、低温原子やフォトニクスのトポロジカルな影響を探索する上で大きな成功を収めている。 しかし、これまで研究されてきた現象は、非相互作用的あるいは弱い相互作用的な状態に限られている。 ここでは、光学トウィーザー配列で合成されたリドバーグ原子の強相互作用系に合成次元プレイブックを拡張する。 我々はマイクロ波場を正確に制御し、Rydbergレベルを結合した4サイト格子に可変な$U(1)$フラックスを導入する。 我々は理論とよく一致して、非常にコヒーレントなダイナミクスを見出す。 単一原子はゲージ場によって制御可能な振動ダイナミクスを示す。 相互作用する原子の小さな配列は、それぞれ中間相互作用と強い相互作用の体制におけるエルゴディックと捕縛されたダイナミクスの出現を示唆している。 これらのデモンストレーションは、Rydberg合成格子における強く相互作用する力学と多体相の将来の探索の道を開く。

Synthetic dimensions, wherein dynamics occurs in a set of internal states, have found great success in recent years in exploring topological effects in cold atoms and photonics. However, the phenomena thus far explored have largely been restricted to the non-interacting or weakly interacting regimes. Here, we extend the synthetic dimensions playbook to strongly interacting systems of Rydberg atoms prepared in optical tweezer arrays. We use precise control over driving microwave fields to introduce a tunable $U(1)$ flux in a four-site lattice of coupled Rydberg levels. We find highly coherent dynamics, in good agreement with theory. Single atoms show oscillatory dynamics controllable by the gauge field. Small arrays of interacting atoms exhibit behavior suggestive of the emergence of ergodic and arrested dynamics in the regimes of intermediate and strong interactions, respectively. These demonstrations pave the way for future explorations of strongly interacting dynamics and many-body phases in Rydberg synthetic lattices.
翻訳日:2023-06-02 14:27:04 公開日:2023-06-01
# ドメイン型クラスに対するドメイン一般化

Domain Generalization for Domain-Linked Classes ( http://arxiv.org/abs/2306.00879v1 )

ライセンス: Link先を確認
Kimathi Kaai, Saad Hossain, Sirisha Rambhatla(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメイン(列車の時刻に利用可能な)から、未確認のターゲットドメイン(s)へのドメイン不変知識の転送に焦点を当てている。 これは、学習アルゴリズムがドメインとクラスの間の急激な相関を破るために、クラスを複数のドメインで表現する必要がある。 しかし、現実の世界では、クラスは、しばしばドメインリンクされ、すなわち特定のドメインでのみ表現される。 本研究では、複数のソースドメイン(ドメイン共有クラス)で表されるクラスからドメイン不変知識を転送することで、これらのドメイン関連クラスに対する一般化可能な表現を学習することを目的とする。 そこで本稿では,この課題をコミュニティに紹介し,ドメインリンクDG,FONDのためのFair and cONtrastive feature-space regularizationアルゴリズムを提案する。 一般的なDGタスクにまたがるベースラインを用いた厳密で再現可能な実験は、我々の手法とその変種がドメインリンククラスに対して最先端のDG結果を達成する能力を示す。 また,実世界のデータ不足に取り組むためのドメイン関連クラス一般化可能性を高めるデータ条件に関する実践的洞察を提供する。

Domain generalization (DG) focuses on transferring domain-invariant knowledge from multiple source domains (available at train time) to an, a priori, unseen target domain(s). This requires a class to be expressed in multiple domains for the learning algorithm to break the spurious correlations between domain and class. However, in the real-world, classes may often be domain-linked, i.e. expressed only in a specific domain, which leads to extremely poor generalization performance for these classes. In this work, we aim to learn generalizable representations for these domain-linked classes by transferring domain-invariant knowledge from classes expressed in multiple source domains (domain-shared classes). To this end, we introduce this task to the community and propose a Fair and cONtrastive feature-space regularization algorithm for Domain-linked DG, FOND. Rigorous and reproducible experiments with baselines across popular DG tasks demonstrate our method and its variants' ability to accomplish state-of-the-art DG results for domain-linked classes. We also provide practical insights on data conditions that increase domain-linked class generalizability to tackle real-world data scarcity.
翻訳日:2023-06-02 14:26:47 公開日:2023-06-01
# 第2の視点:脳に最適化された符号化モデルを用いて画像分布と人間の脳活動の整合性

Second Sight: Using brain-optimized encoding models to align image distributions with human brain activity ( http://arxiv.org/abs/2306.00927v1 )

ライセンス: Link先を確認
Reese Kneeland, Jordyn Ojeda, Ghislain St-Yves, Thomas Naselaris(参考訳) 近年の2つの開発は、人間の脳活動からの画像再構成の進展を加速させている: 何千もの自然シーンに反応して脳活動のサンプルを提供する大規模なデータセットと、低レベルと高レベルの両方のガイダンスを受け入れる強力な確率的画像生成者のオープンソース化である。 この領域でのほとんどの作業は、脳活動パターンからターゲット画像の文字通りのピクセル単位での再構成を近似するという最終的な目標を持って、ターゲット画像のポイント推定の獲得に重点を置いている。 この強調は、誘発された脳の活動パターンに等しく適合する画像群が常に存在するという事実と、多くの画像生成者が本質的に確率的であり、それ自体が生成したサンプルの中から単一の最高の再構築を選択する方法を提供していないという事実である。 本稿では,ボクセルエンコーディングモデルの予測と,対象画像によって誘発される脳活動パターンとの整合性を明確化するために,画像分布を反復的に洗練する新しい再構成手法(Second Sight)を提案する。 提案手法は, セマンティクスコンテンツと低レベルの画像詳細の両方を反復で精査することにより, 高品質な再構成の分布に収束することを示す。 これらの収束画像分布からサンプリングされた画像は、最先端の再構成アルゴリズムと競合する。 興味深いことに、時間からコンバージェンスは視覚野全体で系統的に異なり、より高レベルの脳領域に比べて、より狭い画像分布に通常より長い時間をかけて収束する。 そこでSecond Sightは、視覚脳領域における表現の多様性を探索するための簡潔で新しい方法を提供する。

Two recent developments have accelerated progress in image reconstruction from human brain activity: large datasets that offer samples of brain activity in response to many thousands of natural scenes, and the open-sourcing of powerful stochastic image-generators that accept both low- and high-level guidance. Most work in this space has focused on obtaining point estimates of the target image, with the ultimate goal of approximating literal pixel-wise reconstructions of target images from the brain activity patterns they evoke. This emphasis belies the fact that there is always a family of images that are equally compatible with any evoked brain activity pattern, and the fact that many image-generators are inherently stochastic and do not by themselves offer a method for selecting the single best reconstruction from among the samples they generate. We introduce a novel reconstruction procedure (Second Sight) that iteratively refines an image distribution to explicitly maximize the alignment between the predictions of a voxel-wise encoding model and the brain activity patterns evoked by any target image. We show that our process converges on a distribution of high-quality reconstructions by refining both semantic content and low-level image details across iterations. Images sampled from these converged image distributions are competitive with state-of-the-art reconstruction algorithms. Interestingly, the time-to-convergence varies systematically across visual cortex, with earlier visual areas generally taking longer and converging on narrower image distributions, relative to higher-level brain areas. Second Sight thus offers a succinct and novel method for exploring the diversity of representations across visual brain areas.
翻訳日:2023-06-02 14:19:49 公開日:2023-06-01
# セレブベースで拡散モデルに誰でも挿入する

Inserting Anybody in Diffusion Models via Celeb Basis ( http://arxiv.org/abs/2306.00926v1 )

ライセンス: Link先を確認
Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng(参考訳) ユーザー自身のような革新的な概念を生み出すために、事前訓練された大きなテキストから画像へのモデルである$\textit{e.g.}$、安定した拡散をカスタマイズするために必要な要求が存在する。 しかし、前回のカスタマイズ法から新たに追加された概念は、トレーニング中に複数の画像が与えられた場合よりも結合能力が弱い場合が多い。 そこで我々は,一意の個人を,単に$\textbf{one face photos}$と$\textbf{1024 learnable parameters}$を$\textbf{3 minutes}$とすることで,事前学習した拡散モデルにシームレスに統合することのできる,新たなパーソナライズ手法を提案する。 だから、どんなポーズや位置でも、この人の素晴らしい画像を作り、誰とでも対話し、テキストのプロンプトから想像できることは何でもできる。 そこで我々はまず,事前学習した大文字エンコーダの埋め込み空間から,明確に定義されたセレブベースを解析・構築する。 そして、対象とする顔写真が1つあるとすると、この基底の重みを最適化し、他の全てのパラメータをロックすることで、独自の埋め込みを生成する。 提案するセレブベースにより、カスタマイズされたモデルにおける新しいアイデンティティは、以前のパーソナライズ方法よりも優れたコンセプト組み合わせ能力を示しています。 さらに、我々のモデルは、同時にいくつかの新しいアイデンティティを学習し、以前のカスタマイズモデルが失敗した場合に相互に対話することもできます。 コードはリリースされます。

Exquisite demand exists for customizing the pretrained large text-to-image model, $\textit{e.g.}$, Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just $\textbf{one facial photograph}$ and only $\textbf{1024 learnable parameters}$ under $\textbf{3 minutes}$. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
翻訳日:2023-06-02 14:19:18 公開日:2023-06-01
# Minding Language Models' (Lack of) Theory of Mind: a Plug-and-Play Multi-Character Belief Tracker

Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker ( http://arxiv.org/abs/2306.00924v1 )

ライセンス: Link先を確認
Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi and Yulia Tsvetkov(参考訳) the theory of mind (tom)$\unicode{x2014}$ the ability to reason about the mental state of other people$\unicode{x2014}$は、私たちの社会知能の重要な要素です。 しかし、より印象的なパフォーマンスにもかかわらず、大規模なニューラル言語モデルには、相変わらず心の能力に関する基本的な理論が欠けている。 モデルを単純にスケールアップしても、その現象の本質的に象徴的で暗黙的な性質のために、心の理論を突っ込んではならないと仮定し、代わりに別の方法を探る: 明示的な監督なしに、既成のニューラルネットワークモデルの心の理論を強化するデコード時アルゴリズムを設計できるだろうか? 我々は,複数の文字の信念状態について,明示的な記号表現を通して理解タスクを読み取るための,プラグアンドプレイ方式であるSybolicToMを提案する。 より具体的には、我々のアプローチは、各エンティティの信念、他のエンティティの信念の推定、より高次の推論レベルを、全てグラフィカルな表現を通して追跡し、より正確に解釈可能な推論を可能にする。 有名なToMiベンチマーク(Le et al., 2019)の実証的な結果によると、SybolicToMは、教師付きベースラインに比べて堅牢な配布性能を示しながら、ゼロショット設定で、市販のニューラルネットワークの心の理論を劇的に強化する。 我々の研究はまた、既存のmindベンチマークにおける散在的なパターンを明らかにし、分散性評価の重要性と、特定のデータセットに過剰に適合しない方法を強調した。

Theory of Mind (ToM)$\unicode{x2014}$the ability to reason about the mental states of other people$\unicode{x2014}$is a key element of our social intelligence. Yet, despite their ever more impressive performance, large-scale neural language models still lack basic theory of mind capabilities out-of-the-box. We posit that simply scaling up models will not imbue them with theory of mind due to the inherently symbolic and implicit nature of the phenomenon, and instead investigate an alternative: can we design a decoding-time algorithm that enhances theory of mind of off-the-shelf neural language models without explicit supervision? We present SymbolicToM, a plug-and-play approach to reason about the belief states of multiple characters in reading comprehension tasks via explicit symbolic representation. More concretely, our approach tracks each entity's beliefs, their estimation of other entities' beliefs, and higher-order levels of reasoning, all through graphical representations, allowing for more precise and interpretable reasoning than previous approaches. Empirical results on the well-known ToMi benchmark (Le et al., 2019) demonstrate that SymbolicToM dramatically enhances off-the-shelf neural networks' theory of mind in a zero-shot setting while showing robust out-of-distribution performance compared to supervised baselines. Our work also reveals spurious patterns in existing theory of mind benchmarks, emphasizing the importance of out-of-distribution evaluation and methods that do not overfit a particular dataset.
翻訳日:2023-06-02 14:18:51 公開日:2023-06-01
# Sonicverse: 耳を聴く身体障害者のための多感覚シミュレーションプラットフォーム

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear ( http://arxiv.org/abs/2306.00923v1 )

ライセンス: Link先を確認
Ruohan Gao, Hao Li, Gokul Dharan, Zhuzhu Wang, Chengshu Li, Fei Xia, Silvio Savarese, Li Fei-Fei, Jiajun Wu(参考訳) 近年,シミュレーションにおけるエンボディエージェントの開発が重要な研究課題となっている。 新しいタスク、アルゴリズム、ベンチマークが様々なシミュレータで開発されている。 しかし、ほとんどの人は静かな環境で聴覚障害者を仮定し、人間は複数の感覚で世界を知覚する。 我々は,家庭内エージェントの視聴覚訓練のための音声・視聴覚シミュレーションを組み込んだ多センサシミュレーションプラットフォームであるsonicverseを紹介する。 sonicverseは3d環境でリアルタイムに現実的な連続オーディオレンダリングをモデル化する。 人間が音声でエージェントと対話できる新しい音声視覚VRインターフェースとともに、Sonicverseは音声視覚認識を必要とする一連のAIタスクを実現する。 また,特にセマンティック音声視覚ナビゲーションにおいて,最先端の性能を実現するマルチタスク学習モデルを提案する。 さらに,他のシミュレータでは実現されていないsim-to-real転送によるソニックバースの現実性を示す。 Sonicverse は https://github.com/StanfordVL/Sonicverse で入手できる。

Developing embodied agents in simulation has been a key research topic in recent years. Exciting new tasks, algorithms, and benchmarks have been developed in various simulators. However, most of them assume deaf agents in silent environments, while we humans perceive the world with multiple senses. We introduce Sonicverse, a multisensory simulation platform with integrated audio-visual simulation for training household agents that can both see and hear. Sonicverse models realistic continuous audio rendering in 3D environments in real-time. Together with a new audio-visual VR interface that allows humans to interact with agents with audio, Sonicverse enables a series of embodied AI tasks that need audio-visual perception. For semantic audio-visual navigation in particular, we also propose a new multi-task learning model that achieves state-of-the-art performance. In addition, we demonstrate Sonicverse's realism via sim-to-real transfer, which has not been achieved by other simulators: an agent trained in Sonicverse can successfully perform audio-visual navigation in real-world environments. Sonicverse is available at: https://github.com/StanfordVL/Sonicverse.
翻訳日:2023-06-02 14:18:21 公開日:2023-06-01
# プライベート機能選択によるプライベートリニア回帰の改善

Better Private Linear Regression Through Better Private Feature Selection ( http://arxiv.org/abs/2306.00920v1 )

ライセンス: Link先を確認
Travis Dick, Jennifer Gillenwater, Matthew Joseph(参考訳) 微分プライベート線形回帰に関する既存の研究は通常、エンドユーザーが正確にデータセット境界やアルゴリズムのハイパーパラメータを設定できると仮定する。 エンドユーザは、データを直接調べる(そしてプライバシーを侵害する)ことなく、これらの要件を満たすのに苦労することが多い。 最近の研究は、これらの負担をユーザからアルゴリズムにシフトさせるソリューションを開発しようとしているが、機能次元が大きくなるにつれてユーティリティの提供に苦慮している。 本研究は,kendallランク相関に基づく微分プライベート特徴選択法を導入することで,これらのアルゴリズムを高次元問題に拡張する。 機能は通常分散され、25のデータセットにまたがる実験を行うような設定の実用性を保証する。 プライバシや計算,あるいはエンドユーザによる意思決定に少しのコストで,‘plug-and-play’のプライベート線形回帰アルゴリズムの適用性を大幅に拡大する。

Existing work on differentially private linear regression typically assumes that end users can precisely set data bounds or algorithmic hyperparameters. End users often struggle to meet these requirements without directly examining the data (and violating privacy). Recent work has attempted to develop solutions that shift these burdens from users to algorithms, but they struggle to provide utility as the feature dimension grows. This work extends these algorithms to higher-dimensional problems by introducing a differentially private feature selection method based on Kendall rank correlation. We prove a utility guarantee for the setting where features are normally distributed and conduct experiments across 25 datasets. We find that adding this private feature selection step before regression significantly broadens the applicability of ``plug-and-play'' private linear regression algorithms at little additional cost to privacy, computation, or decision-making by the end user.
翻訳日:2023-06-02 14:18:05 公開日:2023-06-01
# スマートフォンのセンシングから社会的文脈を理解する:各国の一般化と日常生活のモメンデーション

Understanding Social Context from Smartphone Sensing: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v1 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の社会的コンテキストを理解して追跡することは、彼らの行動や精神的幸福をよりよく理解するのに役立ちます。 そのため、負荷の多いアンケートの代わりに、受動的スマートフォンセンサーを用いて機械学習モデルを用いて社会的文脈を推測する研究もある。 しかし、これまで実施されてきた研究は1つか2か国で独自に位置する文脈(すなわち、食事や飲酒など)に焦点が当てられており、一般化の観点からの推論の理解が制限されている。 (i)日常生活の機会、及び (ii)異なる国。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)で580人以上の参加者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論(単体・単体・単体・単体)がセンサデータにどう影響するかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 私たちはそれを見つけました (i)アクティビティ、ロケーション、アプリ利用、Bluetooth、WiFiといったモダリティのセンサー機能は、社会的文脈に有益である。 (ii)部分的パーソナライズされた多国間モデル(全国のデータで訓練・試験)と国別モデル(国内で訓練・試験)は、80%~90%の範囲で同様の精度を達成した。 三) モデルは地理的類似性にかかわらず、目に見えない国によく一般化しない。

Understanding and longitudinally tracking the social context of people help in understanding their behavior and mental well-being better. Hence, instead of burdensome questionnaires, some studies used passive smartphone sensors to infer social context with machine learning models. However, the few studies that have been done up to date have focused on unique, situated contexts (i.e., when eating or drinking) in one or two countries, hence limiting the understanding of the inference in terms of generalization to (i) everyday life occasions and (ii) different countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from over 580 participants in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference (i.e., alone or not) is feasible with sensor data, and then, to know how behavioral and country-level diversity affects the inference. We found that (i) sensor features from modalities such as activity, location, app usage, Bluetooth, and WiFi could be informative of social context; (ii) partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) achieved similar accuracies in the range of 80%-90%; and (iii) models do not generalize well to unseen countries regardless of geographic similarity.
翻訳日:2023-06-02 14:17:46 公開日:2023-06-01
# 語彙なし画像分類

Vocabulary-free Image Classification ( http://arxiv.org/abs/2306.00917v1 )

ライセンス: Link先を確認
Alessandro Conti, Enrico Fini, Massimiliano Mancini, Paolo Rota, Yiming Wang, Elisa Ricci(参考訳) 大規模視覚言語モデルの最近の進歩は、画像分類パラダイムに革命をもたらした。 印象的なゼロショット機能を示すにもかかわらず、テキストプロンプトを構成するテスト時に、事前に定義されたカテゴリ、つまり語彙が仮定される。 しかし、意味的文脈が未知で進化している場合、そのような仮定は現実的ではない。 そこで我々は,未制約言語による意味空間に存在するクラスを,既知の語彙の前提条件を伴わずに入力画像に割り当てることを目的として,語彙自由画像分類 (vic) と呼ばれる新しいタスクを定式化する。 VICは、意味空間が非常に大きく、数百万の概念が含まれており、分類が難しいため、難しい課題である。 本稿では,この意味空間を外部ビジョン言語データベースを用いて表現することが,画像の分類に意味的に関連のあるコンテンツを得る上で最も効果的な方法であることを実証的に検証する。 次に、事前学習された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法であるCaSED(Caegory Search from Foreign Databases)を提案する。 CaSEDはまず、画像と意味的類似性に基づいてデータベースから検索したキャプションから候補カテゴリの集合を抽出し、同じ視覚言語モデルに基づいて最適な候補カテゴリを画像に割り当てる。 ベンチマークデータセットの実験では、CaSEDは他の複雑なビジョン言語フレームワークよりも優れており、パラメータははるかに少なく、将来的な研究の道を開くことができる。

Recent advances in large vision-language models have revolutionized the image classification paradigm. Despite showing impressive zero-shot capabilities, a pre-defined set of categories, a.k.a. the vocabulary, is assumed at test time for composing the textual prompts. However, such assumption can be impractical when the semantic context is unknown and evolving. We thus formalize a novel task, termed as Vocabulary-free Image Classification (VIC), where we aim to assign to an input image a class that resides in an unconstrained language-induced semantic space, without the prerequisite of a known vocabulary. VIC is a challenging task as the semantic space is extremely large, containing millions of concepts, with hard-to-discriminate fine-grained categories. In this work, we first empirically verify that representing this semantic space by means of an external vision-language database is the most effective way to obtain semantically relevant content for classifying the image. We then propose Category Search from External Databases (CaSED), a method that exploits a pre-trained vision-language model and an external vision-language database to address VIC in a training-free manner. CaSED first extracts a set of candidate categories from captions retrieved from the database based on their semantic similarity to the image, and then assigns to the image the best matching candidate category according to the same vision-language model. Experiments on benchmark datasets validate that CaSED outperforms other complex vision-language frameworks, while being efficient with much fewer parameters, paving the way for future research in this direction.
翻訳日:2023-06-02 14:17:15 公開日:2023-06-01
# 神経科学のレンズによる人工意識の実現可能性

The feasibility of artificial consciousness through the lens of neuroscience ( http://arxiv.org/abs/2306.00915v1 )

ライセンス: Link先を確認
Jaan Aru, Matthew Larkum, James M. Shine(参考訳) 大規模言語モデルとの相互作用は、これらのモデルが意識的である可能性を示唆している。 神経科学の観点からすると、この立場は防御が難しい。 例えば、大きな言語モデルのアーキテクチャは、哺乳類の意識的意識と関連づけられた視床皮質系の重要な特徴を欠いている。 第二に、大きな言語モデルへの入力には、私たちの周りの世界との感覚的接触の特徴を具現化した組み込み情報コンテンツが欠けている。 最後に、以前の2つの議論は将来のAIシステムでは克服できるが、第3の議論は近い将来に橋渡しが困難になる可能性がある。 すなわち、意識は「ゲーム中に皮膚」を持つことに依存し、システムの存在はその行動に依存し、現在の人工知能には当てはまらない、と我々は論じる。

Interactions with large language models have led to the suggestion that these models may be conscious. From the perspective of neuroscience, this position is difficult to defend. For one, the architecture of large language models is missing key features of the thalamocortical system that have been linked to conscious awareness in mammals. Secondly, the inputs to large language models lack the embodied, embedded information content characteristic of our sensory contact with the world around us. Finally, while the previous two arguments can be overcome in future AI systems, the third one might be harder to bridge in the near future. Namely, we argue that consciousness might depend on having 'skin in the game', in that the existence of the system depends on its actions, which is not true for present-day artificial intelligence.
翻訳日:2023-06-02 14:16:50 公開日:2023-06-01
# 顔生成のための属性と意味マスクによる条件付き拡散モデル

Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation ( http://arxiv.org/abs/2306.00914v1 )

ライセンス: Link先を確認
Nico Giambi and Giuseppe Lisanti(参考訳) 深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、出力を多様化する能力に欠けていた。 拡散モデルはこの問題を部分的に解決し、同じ条件で様々なサンプルを生成することができる。 本稿では,属性とセマンティックマスクの両方を利用して,高画質かつ制御可能な顔画像を生成することで,拡散モデルのマルチコンディショニング手法を提案する。 また,画素空間ではなく潜在空間に知覚中心の損失重み付けを適用することの影響について検討した。 提案手法は,複数の特徴セットに条件付けを導入し,生成した顔画像のよりきめ細かい制御を保証することによって,従来のアプローチを拡張した。 celeba-hqデータセットのアプローチを評価し,複数の属性とセマンティクス領域のきめ細かい制御を可能にしながら,現実的な多種多様なサンプルを生成することができることを示した。 さらに,異なる条件付け戦略が生成画像の品質と多様性に与える影響を評価するためのアブレーション研究を行った。

Deep generative models have shown impressive results in generating realistic images of faces. GANs managed to generate high-quality, high-fidelity images when conditioned on semantic masks, but they still lack the ability to diversify their output. Diffusion models partially solve this problem and are able to generate diverse samples given the same condition. In this paper, we propose a multi-conditioning approach for diffusion models via cross-attention exploiting both attributes and semantic masks to generate high-quality and controllable face images. We also studied the impact of applying perceptual-focused loss weighting into the latent space instead of the pixel space. Our method extends the previous approaches by introducing conditioning on more than one set of features, guaranteeing a more fine-grained control over the generated face images. We evaluate our approach on the CelebA-HQ dataset, and we show that it can generate realistic and diverse samples while allowing for fine-grained control over multiple attributes and semantic regions. Additionally, we perform an ablation study to evaluate the impact of different conditioning strategies on the quality and diversity of the generated images.
翻訳日:2023-06-02 14:16:40 公開日:2023-06-01
# MOSAIC:画像再構成のための選択的注意によるマスク最適化

MOSAIC: Masked Optimisation with Selective Attention for Image Reconstruction ( http://arxiv.org/abs/2306.00906v1 )

ライセンス: Link先を確認
Pamuditha Somarathne, Tharindu Wickremasinghe, Amashi Niwarthana, A. Thieshanthan, Chamira U.S. Edussooriya, and Dushan N. Wadduwage(参考訳) 圧縮センシング(CS)は、疎度規則化逆問題の解法により、サブニキスト測定から画像を再構成する。 従来のCSソルバは手作りのスペーサーを用いた反復オプティマイザを使用し、初期のデータ駆動手法は低次元の計測空間から元の画像空間への逆写像を直接学習する。 後者は前者を上回るが、事前定義された測定領域に制限される。 より最近のディープアンロール法は、画像近似を反復的に洗練するために、従来の近位勾配法とデータ駆動アプローチを組み合わせる。 精度を高めるために,サンプリングマトリクスと計測ベクトルの選択を適応的に学習することが提案されている。 この傾向とは対照的に,本研究では,ランダムに圧縮された測定値の集合から画像領域への一般的な逆写像が,所定の測定値に対して存在することを仮定し,学習することができる。 このようなモデルは単発で非制限的であり、サンプリングプロセスをパラメータ化しない。 そこで本研究では,無作為な測定値のランダムな選択を前提とした画像再構成のための,新しい圧縮センシングフレームワークMOSAICを提案する。 MOSAICは、測定範囲にわたる情報の均一な分布によって動機付けられ、エンコードされた測定シーケンスに注意機構を効率よく適用する埋め込み技術を導入し、アンロールされたディープネットワークを使用する必要をなくした。 提案したアーキテクチャを,標準データセット上での復元精度の指標の最先端化を図り,既存のCS再構成手法の代替案として検証する。

Compressive sensing (CS) reconstructs images from sub-Nyquist measurements by solving a sparsity-regularized inverse problem. Traditional CS solvers use iterative optimizers with hand crafted sparsifiers, while early data-driven methods directly learn an inverse mapping from the low-dimensional measurement space to the original image space. The latter outperforms the former, but is restrictive to a pre-defined measurement domain. More recent, deep unrolling methods combine traditional proximal gradient methods and data-driven approaches to iteratively refine an image approximation. To achieve higher accuracy, it has also been suggested to learn both the sampling matrix, and the choice of measurement vectors adaptively. Contrary to the current trend, in this work we hypothesize that a general inverse mapping from a random set of compressed measurements to the image domain exists for a given measurement basis, and can be learned. Such a model is single-shot, non-restrictive and does not parametrize the sampling process. To this end, we propose MOSAIC, a novel compressive sensing framework to reconstruct images given any random selection of measurements, sampled using a fixed basis. Motivated by the uneven distribution of information across measurements, MOSAIC incorporates an embedding technique to efficiently apply attention mechanisms on an encoded sequence of measurements, while dispensing the need to use unrolled deep networks. A range of experiments validate our proposed architecture as a promising alternative for existing CS reconstruction methods, by achieving the state-of-the-art for metrics of reconstruction accuracy on standard datasets.
翻訳日:2023-06-02 14:16:21 公開日:2023-06-01
# CS4ML:Christoffel関数に基づく任意のデータによるアクティブラーニングのための汎用フレームワーク

CS4ML: A general framework for active learning with arbitrary data based on Christoffel functions ( http://arxiv.org/abs/2306.00945v1 )

ライセンス: Link先を確認
Ben Adcock, Juan M. Cardenas, Nick Dexter(参考訳) 回帰問題における能動的学習のための一般的なフレームワークを紹介する。 我々のフレームワークは、単に対象関数のポイントワイズサンプルではなく、一般的なタイプのデータを可能にすることで、標準設定を拡張します。 この一般化は、変換領域で取得されたデータ(例えばフーリエデータ)、ベクトル値のデータ(例えば勾配増加データ)、連続曲線に沿って取得されたデータ、マルチモーダルデータ(例えば、異なる種類の測定の組み合わせ)など、多くの実践的なケースをカバーする。 本フレームワークは,有限個のサンプリング測度と任意の非線形近似空間(モデルクラス)に基づいてランダムサンプリングを検討する。 本稿では,一般化したクリストッフェル関数の概念を紹介し,サンプリング測度の最適化法を示す。 これは様々な重要なケースにおいて、最適に近いサンプルの複雑さをもたらすことが証明される。 本稿では,データ生成には通常費用がかかるため,能動的学習が望ましい科学計算の応用に焦点を当てる。 本研究では,多項式を用いた勾配強調学習,生成モデルを用いた磁気共鳴イメージング(MRI),物理情報ニューラルネットワーク(PINN)を用いたPDEのアダプティブサンプリングの有効性を示す。

We introduce a general framework for active learning in regression problems. Our framework extends the standard setup by allowing for general types of data, rather than merely pointwise samples of the target function. This generalization covers many cases of practical interest, such as data acquired in transform domains (e.g., Fourier data), vector-valued data (e.g., gradient-augmented data), data acquired along continuous curves, and, multimodal data (i.e., combinations of different types of measurements). Our framework considers random sampling according to a finite number of sampling measures and arbitrary nonlinear approximation spaces (model classes). We introduce the concept of generalized Christoffel functions and show how these can be used to optimize the sampling measures. We prove that this leads to near-optimal sample complexity in various important cases. This paper focuses on applications in scientific computing, where active learning is often desirable, since it is usually expensive to generate data. We demonstrate the efficacy of our framework for gradient-augmented learning with polynomials, Magnetic Resonance Imaging (MRI) using generative models and adaptive sampling for solving PDEs using Physics-Informed Neural Networks (PINNs).
翻訳日:2023-06-02 14:10:27 公開日:2023-06-01
# Make-Your-Video: テキストと構造誘導を用いたカスタマイズビデオ生成

Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance ( http://arxiv.org/abs/2306.00943v1 )

ライセンス: Link先を確認
Jinbo Xing, Menghan Xia, Yuxin Liu, Yuechen Zhang, Yong Zhang, Yingqing He, Hanyuan Liu, Haoxin Chen, Xiaodong Cun, Xintao Wang, Ying Shan, Tien-Tsin Wong(参考訳) 私たちの想像力でイベントやシナリオから鮮やかなビデオを作るのは本当に面白い体験です。 テキスト対ビデオ合成の最近の進歩は、プロンプトだけでこれを実現する可能性を明らかにした。 テキストはシーン全体のコンテキストを伝えるのに便利だが、正確に制御するには不十分である。 本稿では,テキストを文脈記述として,動き構造(例えばフレーム単位での奥行き)を具体的指導として,カスタマイズした映像生成について検討する。 本手法は,静止画像合成のために事前学習された潜在拡散モデルを用いた共同条件ビデオ生成と,時間的モジュールの導入による映像生成に寄与する。 この2段階学習方式は、必要な計算リソースを減らすだけでなく、画像データセットで利用可能なリッチな概念をビデオ生成に移すことで、パフォーマンスを向上させる。 さらに,より長い映像合成を可能にするために,簡便かつ効果的な因果的注意マスク戦略を用いて品質劣化を効果的に軽減する。 実験の結果,既存のベースライン,特にユーザの指導に対する時間的コヒーレンスと忠実性において,提案手法が優れていることがわかった。 さらに,本モデルは,実用化の可能性を示すいくつかの興味深いアプリケーションを実現する。

Creating a vivid video from the event or scenario in our imagination is a truly fascinating experience. Recent advancements in text-to-video synthesis have unveiled the potential to achieve this with prompts only. While text is convenient in conveying the overall scene context, it may be insufficient to control precisely. In this paper, we explore customized video generation by utilizing text as context description and motion structure (e.g. frame-wise depth) as concrete guidance. Our method, dubbed Make-Your-Video, involves joint-conditional video generation using a Latent Diffusion Model that is pre-trained for still image synthesis and then promoted for video generation with the introduction of temporal modules. This two-stage learning scheme not only reduces the computing resources required, but also improves the performance by transferring the rich concepts available in image datasets solely into video generation. Moreover, we use a simple yet effective causal attention mask strategy to enable longer video synthesis, which mitigates the potential quality degradation effectively. Experimental results show the superiority of our method over existing baselines, particularly in terms of temporal coherence and fidelity to users' guidance. In addition, our model enables several intriguing applications that demonstrate potential for practical usage.
翻訳日:2023-06-02 14:10:05 公開日:2023-06-01
# Train Offline, Test Online: 本物のロボット学習ベンチマーク

Train Offline, Test Online: A Real Robot Learning Benchmark ( http://arxiv.org/abs/2306.00942v1 )

ライセンス: Link先を確認
Gaoyue Zhou, Victoria Dean, Mohan Kumar Srirama, Aravind Rajeswaran, Jyothish Pari, Kyle Hatch, Aryan Jain, Tianhe Yu, Pieter Abbeel, Lerrel Pinto, Chelsea Finn, Abhinav Gupta(参考訳) 3つの課題は、ロボットの学習研究の進歩を制限する。ロボットは高価(実験室は参加できない)、全員が異なるロボットを使っている(フィッシングは実験室全体で一般化しない)。 これらの課題は、Train Offline、Test Online (TOTO)という新しいベンチマークを通じて解決します。 TOTOは、共通タスクのメソッドを評価するための共有ロボティックハードウェアへのアクセスと、オフライントレーニングのためのこれらのタスクのオープンソースデータセットを提供する。 その操作タスクスイートは、目に見えないオブジェクト、位置、照明の一般化に挑戦する必要がある。 本稿では,5つの機関が遠隔でコントリビュートした5つの事前学習された視覚表現と4つのオフラインポリシー学習ベースラインを比較した最初の結果を示す。 しかし、totoの真の約束は、将来にある。私たちは、どんなユーザからでも追加の提出を行うベンチマークをリリースし、ハードウェアを入手したりデータを集める必要なしに、いくつかのメソッドと簡単に直接比較できるようにします。

Three challenges limit the progress of robot learning research: robots are expensive (few labs can participate), everyone uses different robots (findings do not generalize across labs), and we lack internet-scale robotics data. We take on these challenges via a new benchmark: Train Offline, Test Online (TOTO). TOTO provides remote users with access to shared robotic hardware for evaluating methods on common tasks and an open-source dataset of these tasks for offline training. Its manipulation task suite requires challenging generalization to unseen objects, positions, and lighting. We present initial results on TOTO comparing five pretrained visual representations and four offline policy learning baselines, remotely contributed by five institutions. The real promise of TOTO, however, lies in the future: we release the benchmark for additional submissions from any user, enabling easy, direct comparison to several methods without the need to obtain hardware or collect data.
翻訳日:2023-06-02 14:09:45 公開日:2023-06-01
# chemSKI with tokens: World Building and economy in the SKI universe

chemSKI with tokens: world building and economy in the SKI universe ( http://arxiv.org/abs/2306.00938v1 )

ライセンス: Link先を確認
Marius Buliga(参考訳) chemski with tokensは、全ての書き直しが局所的に行われる合流グラフ書き換えシステムである。 chemSKIのグラフの書き直しはトークンを使用することで保守的である。 そこで我々は, 化学スタイルの保守的書き直し, 分散化された分散化されたグラフィカルリダクションにおける新しいエッジ名問題への解決策, 組合せ計算のコストを新たに見積もる, いくつかの目標を達成した。 この形式化は、人工化学としても、局所的な還元のみを行う仮想分散機械のモデルとしても使うことができる。 プログラムリポジトリとシミュレーションに関する同じ記事がgithubのhttps://mbuliga.github.io/chemski/chemski-with-tokens.htmlで入手できる。

chemSKI with tokens is a confluent graph rewrite system where all rewrites are local, which moreover can be used to do SKI calculus reductions. The graph rewrites of chemSKI are made conservative by the use of tokens. We thus achieve several goals: conservative rewrites in a chemical style, a solution to the problem of new edge names in a distributed, decentralized graphical reduction and a new estimation of the cost of a combinatory calculus computation. This formalism can be used either as an artificial chemistry or as a model of a virtual decentralized machine which performs only local reductions. A programs repository and the same article with simulations are available at github at https://mbuliga.github.io/chemski/chemski-with-tokens.html
翻訳日:2023-06-02 14:09:29 公開日:2023-06-01
# STEVE-1:Minecraftにおけるテキスト・ツー・ビヘイビア生成モデル

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft ( http://arxiv.org/abs/2306.00937v1 )

ライセンス: Link先を確認
Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith(参考訳) テキスト命令に応答するAIモデルの構築は、特にシーケンシャルな意思決定タスクでは難しい。 本研究では,DALL-E 2 で使用される unCLIP アプローチが命令追従型意思決定エージェントの創出にも有効であることを示す,Minecraft 用の命令追従型 Video Pretraining (VPT) モデルである STEVE-1 を導入する。 STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。 これにより、コストのかかる人的テキストアノテーションの必要性を回避し、自己管理された行動クローニングと後向きのレザベリングを通じてVPTを微調整することができます。 VPTやMineCLIPのような事前訓練されたモデルを活用し、テキスト条件の画像生成のベストプラクティスを採用することで、STEVE-1はトレーニングに60ドルしかかからず、マインクラフトで幅広い短距離のオープンエンドテキストとビジュアルインストラクションをフォローできる。 STEVE-1はMinecraftに続き、低レベルなコントロール(マウスとキーボード)と生のピクセル入力を備えたオープンエンド命令のための新しいバーを設定。 我々は,事前学習,分類子なし指導,データスケーリングなど,下流のパフォーマンスの重要な要因を明らかにする実験的なエビデンスを提供する。 モデルウェイト、トレーニングスクリプト、評価ツールを含むすべてのリソースが、さらなる研究のために利用可能です。

Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1, demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective for creating instruction-following sequential decision-making agents. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP's latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, bypassing the need for costly human text annotations. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 costs just $60 to train and can follow a wide range of short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.
翻訳日:2023-06-02 14:09:16 公開日:2023-06-01
# AMR4NLI:意味グラフからの解釈可能かつ堅牢なNLI測度

AMR4NLI: Interpretable and robust NLI measures from semantic graphs ( http://arxiv.org/abs/2306.00936v1 )

ライセンス: Link先を確認
Juri Opitz and Shira Wein and Julius Steen and Anette Frank and Nathan Schneider(参考訳) 自然言語推論(NLI)のタスクは、与えられた前提(NLで表される)が与えられたNL仮説を含むかどうかを問うものである。 NLIベンチマークには人間による評価が含まれているが、これらの評価を駆動する関係は形式化されていない。 文対関係は、解釈可能で頑健な方法でより明確化できるのか? 文脈的埋め込みや意味グラフ(抽象的意味表現)の集合を含む前提と仮説のセマンティック構造を比較し,その仮説が前提のセマンティックサブ構造であるかどうかを解釈可能な指標を用いて測定する。 3つの英語ベンチマークの評価では,コンテキスト化された埋め込みと意味グラフの両方に価値を見出すことができた。

The task of natural language inference (NLI) asks whether a given premise (expressed in NL) entails a given NL hypothesis. NLI benchmarks contain human ratings of entailment, but the meaning relationships driving these ratings are not formalized. Can the underlying sentence pair relationships be made more explicit in an interpretable yet robust fashion? We compare semantic structures to represent premise and hypothesis, including sets of contextualized embeddings and semantic graphs (Abstract Meaning Representations), and measure whether the hypothesis is a semantic substructure of the premise, utilizing interpretable metrics. Our evaluation on three English benchmarks finds value in both contextualized embeddings and semantic graphs; moreover, they provide complementary signals, and can be leveraged together in a hybrid model.
翻訳日:2023-06-02 14:08:46 公開日:2023-06-01
# Provenance Graph構造特徴を用いたGNNによるIDS検出の解釈

Interpreting GNN-based IDS Detections Using Provenance Graph Structural Features ( http://arxiv.org/abs/2306.00934v1 )

ライセンス: Link先を確認
Kunal Mukherjee, Joshua Wiedemeier, Tianhao Wang, Muhyun Kim, Feng Chen, Murat Kantarcioglu and Kangkook Jee(参考訳) 複雑なニューラルネットワーク(NN)ベースのモデルにおけるブラックボックスの性質は、論理的説明の欠如と予測に対する実用的なフォローアップのために、セキュリティドメインへの普及を妨げている。 システム証明分析で使用されるグラフニューラルネットワーク(GNN)のセキュリティモデルの透明性と説明責任を高めるために,抽象的なGNN決定境界を解釈可能な特徴空間に投影するフレームワークであるPROVEXPLAINERを提案する。 まず,決定木(DT)などの簡易かつ説明可能なモデルを用いて,GNNベースのセキュリティモデルの意思決定プロセスを再現する。 本研究では,サロゲートモデルの精度と忠実性を最大化するために,古典グラフ理論に基づく新しいグラフ構造特徴を提案し,セキュリティ領域知識を用いた広範なデータ研究により拡張する。 グラフの構造的特徴は,システムプロヴァンス領域における問題空間的動作と密接に関連しており,記述的,人間言語で検出結果を説明することができる。 PROVEXPLAINERは、一般的なグラフ構造を持つプログラム分類タスクにおいて、単純なDTモデルで95%の忠実性を達成し、直接解釈に適したタスク固有の機能パッケージを備えたマルウェア検出タスクでは99%の忠実性を達成した。 マルウェア分類の説明は、3つのマルウェアファミリーにわたる5つの現実世界のマルウェアサンプルのケーススタディで実証された。

The black-box nature of complex Neural Network (NN)-based models has hindered their widespread adoption in security domains due to the lack of logical explanations and actionable follow-ups for their predictions. To enhance the transparency and accountability of Graph Neural Network (GNN) security models used in system provenance analysis, we propose PROVEXPLAINER, a framework for projecting abstract GNN decision boundaries onto interpretable feature spaces. We first replicate the decision-making process of GNNbased security models using simpler and explainable models such as Decision Trees (DTs). To maximize the accuracy and fidelity of the surrogate models, we propose novel graph structural features founded on classical graph theory and enhanced by extensive data study with security domain knowledge. Our graph structural features are closely tied to problem-space actions in the system provenance domain, which allows the detection results to be explained in descriptive, human language. PROVEXPLAINER allowed simple DT models to achieve 95% fidelity to the GNN on program classification tasks with general graph structural features, and 99% fidelity on malware detection tasks with a task-specific feature package tailored for direct interpretation. The explanations for malware classification are demonstrated with case studies of five real-world malware samples across three malware families.
翻訳日:2023-06-02 14:08:31 公開日:2023-06-01
# 構造データ湖と非構造データ湖のクロスモーダルデータ発見

Cross Modal Data Discovery over Structured and Unstructured Data Lakes ( http://arxiv.org/abs/2306.00932v1 )

ライセンス: Link先を確認
Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad Shahmeer Ahmad(参考訳) 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。 これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。 逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。 Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. 本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。 CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。

Organizations are collecting increasingly large amounts of data for data driven decision making. These data are often dumped into a centralized repository, e.g., a data lake, consisting of thousands of structured and unstructured datasets. Perversely, such mixture of datasets makes the problem of discovering elements (e.g., tables or documents) that are relevant to a user's query or an analytical task very challenging. Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. In this paper, we propose a new data discovery system, named CMDL, for addressing these two limitations. CMDL supports the data discovery process over both structured and unstructured data while retaining the structural properties of tables.
翻訳日:2023-06-02 14:08:08 公開日:2023-06-01
# 「文脈から引用しない」:文脈支援画像キャプションのための統一視覚言語事前学習

"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning ( http://arxiv.org/abs/2306.00931v1 )

ライセンス: Link先を確認
Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Niyati Chhaya, Sumit Shekhar(参考訳) マーケティング材料などの企業コンテンツにおける画像キャプションやタグは、ブランドの存在とコンテンツのリコールを保証するために重要である。 このタスクに対するスケールとテリウムを考えると、同じことを保証するための手動作成とアップデートは簡単ではない。 そこで我々は,One For All(OFA)モデルに基づく新しい統合視覚言語(VL)モデルを提案する。 我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。 我々は,ニュース記事がコンテキストである場所のニュース画像キャプション,コンテキストからのキーワード抽出という,3つのタスクのデータセットでモデルを事前訓練することで,コンテキストを活用する。 第2の事前訓練タスクは、新しいVLタスクであり、1.1Mと2.2Kのデータインスタンスを持つタスクのための2つのデータセットを構築し、リリースする。 提案システムは,ベンチマーク画像キャプションデータセット上で8.34CIDErのスコアを向上し,最先端の結果を達成している。 我々の知る限りでは、VLタスクのモデルの事前トレーニングに文脈情報を取り入れる最初の取り組みである。

Well-formed context aware image captions and tags in enterprise content such as marketing material are critical to ensure their brand presence and content recall. Manual creation and updates to ensure the same is non trivial given the scale and the tedium towards this task. We propose a new unified Vision-Language (VL) model based on the One For All (OFA) model, with a focus on context-assisted image captioning where the caption is generated based on both the image and its context. Our approach aims to overcome the context-independent (image and text are treated independently) nature of the existing approaches. We exploit context by pretraining our model with datasets of three tasks: news image captioning where the news article is the context, contextual visual entailment, and keyword extraction from the context. The second pretraining task is a new VL task, and we construct and release two datasets for the task with 1.1M and 2.2K data instances. Our system achieves state-of-the-art results with an improvement of up to 8.34 CIDEr score on the benchmark news image captioning datasets. To the best of our knowledge, ours is the first effort at incorporating contextual information in pretraining the models for the VL tasks.
翻訳日:2023-06-02 14:07:53 公開日:2023-06-01
# ACLM: 低リソース複合NERのための選択分解型生成データ拡張手法

ACLM: A Selective-Denoising based Generative Data Augmentation Approach for Low-Resource Complex NER ( http://arxiv.org/abs/2306.00928v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Utkarsh Tyagi and Manan Suri and Sonal Kumar and S Ramaneswaran and Dinesh Manocha(参考訳) 複雑な名前付きエンティティ認識(英: Complex Named Entity Recognition, NER)は、低文脈テキストにおける言語的に複雑な名前付きエンティティを検出するタスクである。 本稿では,低リソース複合NERにおけるデータ不足問題に対処するため,条件生成に基づく新しいデータ拡張手法であるACLM Attention-map aware keyword selection for Conditional Language Model fine-tuningを提案する。 ACLMは、複雑な名前のエンティティを間違ったコンテキストに配置することで、既存のNERデータ拡張技術に悩まされ、しばしば一貫性のない拡張を生成する、コンテキストエンタリティミスマッチ問題を緩和する。 aclmはbart上に構築されており、新しいテキストの再構成やノイズ除去タスクに最適化されている。 私たちは、名前付きエンティティと特定のキーワードを保持するために選択的マスク(注意マップによる支援)を使用し、文脈的に関連する追加知識や名前付きエンティティのヒントを提供する。 他のデータ拡張戦略と比較して、ACLMは文中の複雑な実体の真の単語感覚を保ったより多様で一貫性のある拡張を生成することができる。 各種低リソース環境における単言語・クロスランガル・多言語複合NERにおけるACLMの有効性について検討した。 ACLMは、すべての神経ベースラインを1%-36%の差で上回ります。 さらに,データ不足に苦しむ他の領域(バイオメディカルなど)に対するaclmの適用例を示す。 実際、aclmは、これらのドメインに対して、以前のメソッドよりも効果的で事実的な拡張を生成する。 コード: https://github.com/sreyan88/aclm

Complex Named Entity Recognition (NER) is the task of detecting linguistically complex named entities in low-context text. In this paper, we present ACLM Attention-map aware keyword selection for Conditional Language Model fine-tuning), a novel data augmentation approach based on conditional generation to address the data scarcity problem in low-resource complex NER. ACLM alleviates the context-entity mismatch issue, a problem existing NER data augmentation techniques suffer from and often generates incoherent augmentations by placing complex named entities in the wrong context. ACLM builds on BART and is optimized on a novel text reconstruction or denoising task - we use selective masking (aided by attention maps) to retain the named entities and certain keywords in the input sentence that provide contextually relevant additional knowledge or hints about the named entities. Compared with other data augmentation strategies, ACLM can generate more diverse and coherent augmentations preserving the true word sense of complex entities in the sentence. We demonstrate the effectiveness of ACLM both qualitatively and quantitatively on monolingual, cross-lingual, and multilingual complex NER across various low-resource settings. ACLM outperforms all our neural baselines by a significant margin (1%-36%). In addition, we demonstrate the application of ACLM to other domains that suffer from data scarcity (e.g., biomedical). In practice, ACLM generates more effective and factual augmentations for these domains than prior methods. Code: https://github.com/Sreyan88/ACLM
翻訳日:2023-06-02 14:07:33 公開日:2023-06-01
# BUOL:1枚の画像からパノプティカル3Dシーンを再現するボトムアップフレームワーク

BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D Scene Reconstruction From A Single Image ( http://arxiv.org/abs/2306.00965v1 )

ライセンス: Link先を確認
Tao Chu, Pan Zhang, Qiong Liu, Jiaqi Wang(参考訳) 一つの画像から3dシーンを理解・モデル化することは現実的な問題である。 近年,1枚の画像から3次元の立体再構成と3次元の立体分割を行うパノプティカル3Dシーン再構築タスクが提案されている。 かなり進歩したが、最近の研究は、2Dインスタンスを推定深度に応じて3Dボクセルに詰め込むトップダウンアプローチにのみ焦点を当てている。 1) インスタンスチャネルの曖昧さ: 各シーンのインスタンスの可変IDは, ボクセルチャネルを2次元情報で埋める際の曖昧さを引き起こし, 以下の3次元改善を混乱させる。 2) ボクセル・リコンストラクションの曖昧さ: 単一視深度を推定した2D-to-3Dリフトは3次元領域の表面にのみ2D情報を伝播させ, 前方視面後方の領域の再構築において曖昧性をもたらす。 本稿では,1枚の画像からパノプティカル3Dシーンを再現する2つの問題に対処する,Occupancy-aware Lifting を用いたボトムアップフレームワーク BUOL を提案する。 ボトムアップフレームワークは、任意のインスタンスid代入ではなく、決定論的意味的代入に基づく3dボクセルに2d情報を持ち上げる。 予測された2Dインスタンスセンターによると、3Dボクセルは洗練され、3Dインスタンスにグループ化される。 voxel-restruction ambiguityでは、推定されたマルチプレーン占有率と深さを併用して、物や物の領域全体を埋める。 提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。 コードとモデルはhttps://github.com/chtsy/buolで入手できる。

Understanding and modeling the 3D scene from a single image is a practical problem. A recent advance proposes a panoptic 3D scene reconstruction task that performs both 3D reconstruction and 3D panoptic segmentation from a single image. Although having made substantial progress, recent works only focus on top-down approaches that fill 2D instances into 3D voxels according to estimated depth, which hinders their performance by two ambiguities. (1) instance-channel ambiguity: The variable ids of instances in each scene lead to ambiguity during filling voxel channels with 2D information, confusing the following 3D refinement. (2) voxel-reconstruction ambiguity: 2D-to-3D lifting with estimated single view depth only propagates 2D information onto the surface of 3D regions, leading to ambiguity during the reconstruction of regions behind the frontal view surface. In this paper, we propose BUOL, a Bottom-Up framework with Occupancy-aware Lifting to address the two issues for panoptic 3D scene reconstruction from a single image. For instance-channel ambiguity, a bottom-up framework lifts 2D information to 3D voxels based on deterministic semantic assignments rather than arbitrary instance id assignments. The 3D voxels are then refined and grouped into 3D instances according to the predicted 2D instance centers. For voxel-reconstruction ambiguity, the estimated multi-plane occupancy is leveraged together with depth to fill the whole regions of things and stuff. Our method shows a tremendous performance advantage over state-of-the-art methods on synthetic dataset 3D-Front and real-world dataset Matterport3D. Code and models are available in https://github.com/chtsy/buol.
翻訳日:2023-06-02 14:01:20 公開日:2023-06-01
# Cocktail: テキストコンテンツ画像生成のための多重モード制御

Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation ( http://arxiv.org/abs/2306.00964v1 )

ライセンス: Link先を確認
Minghui Hu, Jianbin Zheng, Daqing Liu, Chuanxia Zheng, Chaoyue Wang, Dacheng Tao, Tat-Jen Cham(参考訳) テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。 しかし、言語表現はしばしば想定された客観的なイメージの曖昧な記述を示し、テキスト誘導拡散モデルの有効性を高めるために追加の制御信号の導入を必要とする。 本研究では,様々なモードを1つの埋め込みに混合するパイプラインであるCocktailと,一般化されたControlNet(gControlNet),制御可能な正規化(ControlNorm),および空間誘導サンプリング手法を提案する。 具体的には、異なるモードからの制御信号のアライメントと注入を事前学習した拡散モデルに限定したハイパーネットワークgControlNetを提案する。 gcontrolnetは柔軟なモダリティ信号を受け付けることができ、モダリティ信号の任意の組み合わせの同時受信または複数のモダリティ信号の補足的な融合を含む。 提案したコントロールノームによると、制御信号を融合し、バックボーンモデルに注入する。 さらに, 提案手法では, 制御信号を指定領域に適切に組み込んで, 生成画像中の望ましくない物体の出現を回避している。 本手法は,様々なモダリティを制御し,高品質な合成と複数の外部信号に対する忠実性を示す。

Text-conditional diffusion models are able to generate high-fidelity images with diverse contents. However, linguistic representations frequently exhibit ambiguous descriptions of the envisioned objective imagery, requiring the incorporation of additional control signals to bolster the efficacy of text-guided diffusion models. In this work, we propose Cocktail, a pipeline to mix various modalities into one embedding, amalgamated with a generalized ControlNet (gControlNet), a controllable normalisation (ControlNorm), and a spatial guidance sampling method, to actualize multi-modal and spatially-refined control for text-conditional diffusion models. Specifically, we introduce a hyper-network gControlNet, dedicated to the alignment and infusion of the control signals from disparate modalities into the pre-trained diffusion model. gControlNet is capable of accepting flexible modality signals, encompassing the simultaneous reception of any combination of modality signals, or the supplementary fusion of multiple modality signals. The control signals are then fused and injected into the backbone model according to our proposed ControlNorm. Furthermore, our advanced spatial guidance sampling methodology proficiently incorporates the control signal into the designated region, thereby circumventing the manifestation of undesired objects within the generated image. We demonstrate the results of our method in controlling various modalities, proving high-quality synthesis and fidelity to multiple external signals.
翻訳日:2023-06-02 14:00:27 公開日:2023-06-01
# 超低温場結合型テトラトミック分子

Ultracold field-linked tetratomic molecules ( http://arxiv.org/abs/2306.00962v1 )

ライセンス: Link先を確認
Xing-Yan Chen, Shrestha Biswas, Sebastian Eppelt, Andreas Schindewolf, Fulin Deng, Tao Shi, Su Yi, Timon A. Hilker, Immanuel Bloch, Xin-Yu Luo(参考訳) 極低温多原子分子は、その豊富な内部構造のおかげで、低温化学、精密測定、量子情報処理に新たな機会をもたらす。 しかし、二原子分子と比較して複雑さが増すと、従来の冷却技術を使うのは非常に難しくなる。 そこで本研究では,マイクロ波結合型極性分子の縮退したフェルミ気体中での電結合により超低温多原子分子を創る新しい方法を示す。 基底状態NaK分子から始めて、約1.1\times 10^3$tetratomic (NaK)$_2$分子を生成し、相空間密度は134(3)\,\text{nK}$の温度で0.040(3)$であり、それまで実現されたテトラトミック分子よりも3000ドル以上低温である。 我々は、光双極子トラップの存在に顕著な変化はなく、自由空間における最大四量体寿命が8(2)\,\text{ms}$であり、これらの四量体は衝突的に安定であることを示す。 測定された結合エネルギーと寿命はパラメータフリーな計算とよく一致し、テトラマーの寿命をさらに増大させる経路を概説する。 さらに,マイクロ波変調による拡散四量体を直接撮像し,運動量空間における波動関数の異方性を調べる。 その結果,極小分子から超低温多原子分子を組み立てるための普遍的なツールが示され,これは多原子分子のボース-アインシュタイン凝縮(BEC)と双極性バルデエン-クーパー-シュリーファー(BCS)超流動からテトラマーのBECへの新たなクロスオーバーへの重要なステップである。 さらに、長寿命のFL状態は、深い四量体状態への決定論的光移動の出発点となる。

Ultracold polyatomic molecules offer intriguing new opportunities in cold chemistry, precision measurements, and quantum information processing, thanks to their rich internal structure. However, their increased complexity compared to diatomic molecules presents a formidable challenge to employ conventional cooling techniques. Here, we demonstrate a new approach to create ultracold polyatomic molecules by electroassociation in a degenerate Fermi gas of microwave-dressed polar molecules through a field-linked resonance. Starting from ground state NaK molecules, we create around $1.1\times 10^3$ tetratomic (NaK)$_2$ molecules, with a phase space density of $0.040(3)$ at a temperature of $134(3)\,\text{nK}$, more than $3000$ times colder than previously realized tetratomic molecules. We observe a maximum tetramer lifetime of $8(2)\,\text{ms}$ in free space without a notable change in the presence of an optical dipole trap, indicating these tetramers are collisionally stable. The measured binding energy and lifetime agree well with parameter-free calculations, which outlines pathways to further increase the lifetime of the tetramers. Moreover, we directly image the dissociated tetramers through microwave-field modulation to probe the anisotropy of their wave function in momentum space. Our result demonstrates a universal tool for assembling ultracold polyatomic molecules from smaller polar molecules, which is a crucial step towards Bose--Einstein condensation (BEC) of polyatomic molecules and towards a new crossover from a dipolar Bardeen-Cooper-Schrieffer (BCS) superfluid to a BEC of tetramers. Additionally, the long-lived FL state provides an ideal starting point for deterministic optical transfer to deeply bound tetramer states.
翻訳日:2023-06-02 13:59:47 公開日:2023-06-01
# マトロイドサブモジュラー最大化のための動的アルゴリズム

Dynamic Algorithms for Matroid Submodular Maximization ( http://arxiv.org/abs/2306.00959v1 )

ライセンス: Link先を確認
Kiarash Banihashem, Leyla Biabani, Samira Goudarzi, MohammadTaghi Hajiaghayi, Peyman Jabbarzade, Morteza Monemizadeh(参考訳) マトロイドおよび濃度制約の下での部分モジュラー最大化は、機械学習、オークション理論、組合せ最適化において幅広い応用を持つ古典的な問題である。 本稿では,(1)oracle が単調部分モジュラ関数 $f: 2^{v} \rightarrow \mathbb{r}^+$,(2) に対して,基礎となる基底集合 $v$ の要素の挿入と削除の順序 $\mathcal{s}$ を与える動的設定において,これらの問題を考察する。 マトロイド制約下でのサブモジュラー最大化問題に対する最初のパラメータ化アルゴリズム(matroid $\mathcal{m}$) dynamic $(4+\epsilon)$-approximation algorithm for the submodular maximization problem)を開発し、予想される最悪のケース$o(k\log(k)\log^3{(k/\epsilon)})$クエリ複雑性を0 < \epsilon \le 1$とする。 Chen and Peng at STOC'22 studied the complexity of this problem in the insertion-only dynamic model (a restricted version of the fully dynamic model where deletion is not allowed), and they raised the following important open question: *"for fully dynamic streams [sequences of insertions and deletions of elements], there is no known constant-factor approximation algorithm with poly(k) amortized queries for matroid constraints."* Our dynamic algorithm answers this question as well as an open problem of Lattanzi et al. (NeurIPS'20) affirmatively. 副生成物として、濃度制約の下の部分モジュラ最大化のために、(濃度制約の$k$)動的アルゴリズムをパラメータ化して、2+\epsilon)$-approximate solution of the sequence $\mathcal{S}$ at any time $t$ using the expected amortized worst-case complexity $O(k\epsilon^{-1}\log^2(k))$とする。 これは、基底集合の大きさに依存しないクエリ複雑性を持つ問題に対する最初の動的アルゴリズムである。

Submodular maximization under matroid and cardinality constraints are classical problems with a wide range of applications in machine learning, auction theory, and combinatorial optimization. In this paper, we consider these problems in the dynamic setting where (1) we have oracle access to a monotone submodular function $f: 2^{V} \rightarrow \mathbb{R}^+$ and (2) we are given a sequence $\mathcal{S}$ of insertions and deletions of elements of an underlying ground set $V$. We develop the first parameterized (by the rank $k$ of a matroid $\mathcal{M}$) dynamic $(4+\epsilon)$-approximation algorithm for the submodular maximization problem under the matroid constraint using an expected worst-case $O(k\log(k)\log^3{(k/\epsilon)})$ query complexity where $0 < \epsilon \le 1$. Chen and Peng at STOC'22 studied the complexity of this problem in the insertion-only dynamic model (a restricted version of the fully dynamic model where deletion is not allowed), and they raised the following important open question: *"for fully dynamic streams [sequences of insertions and deletions of elements], there is no known constant-factor approximation algorithm with poly(k) amortized queries for matroid constraints."* Our dynamic algorithm answers this question as well as an open problem of Lattanzi et al. (NeurIPS'20) affirmatively. As a byproduct, for the submodular maximization under the cardinality constraint $k$, we propose a parameterized (by the cardinality constraint $k$) dynamic algorithm that maintains a $(2+\epsilon)$-approximate solution of the sequence $\mathcal{S}$ at any time $t$ using the expected amortized worst-case complexity $O(k\epsilon^{-1}\log^2(k))$. This is the first dynamic algorithm for the problem that has a query complexity independent of the size of ground set $V$.
翻訳日:2023-06-02 13:59:01 公開日:2023-06-01
# LIV:ロボット制御のための言語画像表現とリワード

LIV: Language-Image Representations and Rewards for Robotic Control ( http://arxiv.org/abs/2306.00958v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, William Liang, Vaidehi Som, Vikash Kumar, Amy Zhang, Osbert Bastani, Dinesh Jayaraman(参考訳) テキストアノテーション付きアクションフリービデオから視覚言語表現と報酬学習の統一目的であるLanguage-Image Value Learning(LIV)を提案する。 二重強化学習と相互情報コントラスト学習の新たな関係を利用して、livは言語や画像目標に指定されたタスクの普遍値関数を暗黙的にエンコードするマルチモーダル表現を訓練する。 我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。 言語や画像の目標のみを前提として、事前訓練されたLIVモデルは、見えない環境でそのタスクを試みているロボットや人間のビデオの中で、各フレームに密度の高い報酬を割り当てる。 さらに、対象のドメイン固有データがある場合、同じ目的を使ってlivやその他の事前訓練済み表現を微調整し、そのドメインにおけるロボット制御および報酬仕様に改良することができる。 シミュレーションおよび実世界のロボット環境における実験において、LIVモデルは、模擬学習における最高の入力状態表現とポリシー合成のための報酬仕様法を一貫して上回っている。 本研究は,統合型コンパクトLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。

We present Language-Image Value learning (LIV), a unified objective for vision-language representation and reward learning from action-free videos with text annotations. Exploiting a novel connection between dual reinforcement learning and mutual information contrastive learning, the LIV objective trains a multi-modal representation that implicitly encodes a universal value function for tasks specified as language or image goals. We use LIV to pre-train the first control-centric vision-language representation from large human video datasets such as EpicKitchen. Given only a language or image goal, the pre-trained LIV model can assign dense rewards to each frame in videos of unseen robots or humans attempting that task in unseen environments. Further, when some target domain-specific data is available, the same objective can be used to fine-tune and improve LIV and even other pre-trained representations for robotic control and reward specification in that domain. In our experiments on several simulated and real-world robot environments, LIV models consistently outperform the best prior input state representations for imitation learning, as well as reward specification methods for policy synthesis. Our results validate the advantages of joint vision-language representation and reward learning within the unified, compact LIV framework.
翻訳日:2023-06-02 13:58:20 公開日:2023-06-01
# ObjectFolderベンチマーク: ニューラルネットワークと実オブジェクトによる多感覚学習

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects ( http://arxiv.org/abs/2306.00956v1 )

ライセンス: Link先を確認
Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu(参考訳) objectfolder benchmarkは、オブジェクト認識、再構築、視覚、音、タッチ操作を中心とした、多感覚オブジェクト中心学習のための10のタスクからなるベンチマークスイートである。 また,実世界の100種類の物体のマルチセンサー計測や,実世界の物体の3dメッシュ,ビデオ,衝撃音,触覚を収集するパイプラインの構築など,objectfolder実データも紹介する。 我々はObjectFolderの1000個のマルチセンサニューラルオブジェクトとObjectFolder Realの実際のマルチセンサデータの両方に対して、系統的なベンチマークを行う。 本研究は,多感覚知覚の重要性を示し,物体中心学習タスクにおける視覚,聴覚,触覚の役割を明らかにする。 データセットとベンチマークスイートを公開することによって、コンピュータビジョンやロボティクスなどにおける多感覚のオブジェクト中心学習の新たな研究を可能にしたいと思っています。 プロジェクトページ: https://objectfolder.stanford.edu

We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu
翻訳日:2023-06-02 13:58:01 公開日:2023-06-01
# 未知話者認識におけるロバストインポスタ識別のための話者固有の閾値

Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition ( http://arxiv.org/abs/2306.00952v1 )

ライセンス: Link先を確認
Ashutosh Chaubey, Sparsh Sinha, Susmita Ghose(参考訳) 話者識別システムは様々な環境に展開され、訓練やテストを行う実験室の状況とは異なることが多い。 本稿では,まず,等価誤差率メトリックを用いて計算された固定しきい値を用いた一般化の問題を示す。 次に,不特定話者識別におけるロバストなインポスタ識別のための,新しい一般化された話者固有しきい値法を提案する。 そこで本研究では,入力音声サンプルを用いて話者識別を行うための話者固有適応しきい値を提案する。 さらに,提案手法をvoxceleb1,vctk,ffsvc 2022データセットに適用し,ベースライン固定閾値を最大25%向上させた。 最後に,提案アルゴリズムは一般化可能であり,ResNet50,ECAPA-TDNN,RawNet3話者エンコーダの性能を示す。

Speaker identification systems are deployed in diverse environments, often different from the lab conditions on which they are trained and tested. In this paper, first, we show the problem of generalization using fixed thresholds computed using the equal error rate metric. Secondly, we introduce a novel and generalizable speaker-specific thresholding technique for robust imposter identification in unseen speaker identification. We propose a speaker-specific adaptive threshold, which can be computed using the enrollment audio samples, for identifying imposters in unseen speaker identification. Furthermore, we show the efficacy of the proposed technique on VoxCeleb1, VCTK and the FFSVC 2022 datasets, beating the baseline fixed thresholding by up to 25%. Finally, we exhibit that the proposed algorithm is also generalizable, demonstrating its performance on ResNet50, ECAPA-TDNN and RawNet3 speaker encoders.
翻訳日:2023-06-02 13:57:45 公開日:2023-06-01
# 差分拡散:各ピクセルに強度を与える

Differential Diffusion: Giving Each Pixel Its Strength ( http://arxiv.org/abs/2306.00950v1 )

ライセンス: Link先を確認
Eran Levin, Ohad Fried(参考訳) テキストベースの画像編集は近年大きく進歩している。 拡散モデルの普及に伴い,テキストによる画像編集が普及している。 残念なことに、現在のモデルはピクセル単位または画像フラグメント単位の変更量をカスタマイズする能力が欠けており、画像全体を同じ量に変更したり、バイナリマスクを使用して特定の領域を編集したりしている。 本稿では,画像の断片毎に変化量をカスタマイズし,現代拡散モデルの柔軟性と冗長性を高めるための新しい枠組みを提案する。 私たちのフレームワークはモデルトレーニングや微調整を必要とせず、推論時にすべてを実行するので、既存のモデルに容易に適用できます。 定性的かつ定量的に,本手法により制御性が向上し,既存のモデルでは達成不可能な結果が得られることを示す。 私たちのコードは、https://github.com/exx8/differential-diffusionで利用可能です。

Text-based image editing has advanced significantly in recent years. With the rise of diffusion models, image editing via textual instructions has become ubiquitous. Unfortunately, current models lack the ability to customize the quantity of the change per pixel or per image fragment, resorting to changing the entire image in an equal amount, or editing a specific region using a binary mask. In this paper, we suggest a new framework which enables the user to customize the quantity of change for each image fragment, thereby enhancing the flexibility and verbosity of modern diffusion models. Our framework does not require model training or fine-tuning, but instead performs everything at inference time, making it easily applicable to an existing model. We show both qualitatively and quantitatively that our method allows better controllability and can produce results which are unattainable by existing models. Our code is available at: https://github.com/exx8/differential-diffusion
翻訳日:2023-06-02 13:57:30 公開日:2023-06-01
# EEL: 遅延を効率よくエンコードする

EEL: Efficiently Encoding Lattices for Reranking ( http://arxiv.org/abs/2306.00947v1 )

ライセンス: Link先を確認
Prasann Singhal, Jiacheng Xu, Xi Ye, Greg Durrett(参考訳) 条件付きテキスト生成タスクに対する標準デコードアプローチは、通常、高いモデル確率を持つ出力仮説を探索するが、品質の人間の判断では最良の仮説にはならない。 ダウンストリーム"のメトリクスを最適化するようにリランキングすることで、品質の最適化が向上するが、多くの関心のあるメトリクスは、事前学習された言語モデルで計算される。 本研究では, トランスフォーマーを用いて, 生成した出力の格子を効率よく符号化し, EELと呼ぶ手法を提案する。 一つのトランスフォーマーが格子全体を通過すると、各トークンの文脈化された表現を、まるで単独の仮説の一部に過ぎないかのように、大まかに計算できる。 我々は,このアプローチを新たなトークン分解型リカクタ(tfrs)と組み合わせることで,格子から高リカクタ分解仮説の効率的な抽出を可能にする。 実験では,各仮説を個別に符号化する指数的に遅い手法に比べて,最小の劣化誤差が生じる。 3 つのテキスト生成タスクに TFR を適用して EEL を適用すると、本研究の結果は、単純な再ランク付けよりも大幅に高速化され、ダウンストリームのメトリクスのパフォーマンスが同等のアプローチよりも向上することを示している。

Standard decoding approaches for conditional text generation tasks typically search for an output hypothesis with high model probability, but this may not yield the best hypothesis according to human judgments of quality. Reranking to optimize for "downstream" metrics can better optimize for quality, but many metrics of interest are computed with pre-trained language models, which are slow to apply to large numbers of hypotheses. We explore an approach for reranking hypotheses by using Transformers to efficiently encode lattices of generated outputs, a method we call EEL. With a single Transformer pass over the entire lattice, we can approximately compute a contextualized representation of each token as if it were only part of a single hypothesis in isolation. We combine this approach with a new class of token-factored rerankers (TFRs) that allow for efficient extraction of high reranker-scoring hypotheses from the lattice. Empirically, our approach incurs minimal degradation error compared to the exponentially slower approach of encoding each hypothesis individually. When applying EEL with TFRs across three text generation tasks, our results show both substantial speedup compared to naive reranking and often better performance on downstream metrics than comparable approaches.
翻訳日:2023-06-02 13:57:16 公開日:2023-06-01
# Flip-Flop言語モデリングによる注意グラフの抽出

Exposing Attention Glitches with Flip-Flop Language Modeling ( http://arxiv.org/abs/2306.00946v1 )

ライセンス: Link先を確認
Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang(参考訳) なぜ大規模な言語モデルは事実的不正確さを出力し、誤った推論を示すのか? これらのモデルの脆さ、特に推論の長い連鎖を実行する場合、現在、知識、実践的思考、抽象的思考を一貫性を持って合成する高度な能力を支払うために避けられない価格であるように思える。 この根本的な未解決問題を理解するため、本研究は、トランスフォーマーアーキテクチャの帰納的バイアスが断続的にロバストな推論を捉えることができない、注意欠陥の現象を識別し、分析する。 この問題を分離するために,ニューラルネットワークモデルの外挿挙動を探索するために設計された合成ベンチマークのパラメトリックなファミリであるフリップフロップ言語モデリング(FFLM)を導入する。 この単純な生成タスクは、長い範囲の依存に対してバイナリシンボルをコピーするモデルを必要とします。 トランスフォーマーfflmは散発的な推論エラーの長い尾に苦しむことが分かり、その一部は様々な正規化技術を用いて排除できる。 予備的な機構解析により,残差エラーの診断と解決が困難になる可能性が示唆された。 我々は,自然のLLMにおける閉領域幻覚に注意点が関与していると仮定する。

Why do large language models sometimes output factual inaccuracies and exhibit erroneous reasoning? The brittleness of these models, particularly when executing long chains of reasoning, currently seems to be an inevitable price to pay for their advanced capabilities of coherently synthesizing knowledge, pragmatics, and abstract thought. Towards making sense of this fundamentally unsolved problem, this work identifies and analyzes the phenomenon of attention glitches, in which the Transformer architecture's inductive biases intermittently fail to capture robust reasoning. To isolate the issue, we introduce flip-flop language modeling (FFLM), a parametric family of synthetic benchmarks designed to probe the extrapolative behavior of neural language models. This simple generative task requires a model to copy binary symbols over long-range dependencies, ignoring the tokens in between. We find that Transformer FFLMs suffer from a long tail of sporadic reasoning errors, some of which we can eliminate using various regularization techniques. Our preliminary mechanistic analyses show why the remaining errors may be very difficult to diagnose and resolve. We hypothesize that attention glitches account for (some of) the closed-domain hallucinations in natural LLMs.
翻訳日:2023-06-02 13:56:53 公開日:2023-06-01
# awq: llm圧縮と加速度のためのアクティベーションアウェアウェイト量子化

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration ( http://arxiv.org/abs/2306.00978v1 )

ライセンス: Link先を確認
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Song Han(参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて優れた性能を示すが、天文学的なモデルサイズは、サービス(メモリサイズ)のハードウェア障壁を高め、トークン生成(メモリ帯域幅)を遅くする。 本稿では,llm低ビットウェイトオンリー量子化のためのハードウェアフレンドリなアプローチであるアクティベーションアウェアウェイト量子化(awq)を提案する。 我々の手法は、重量が等しく重要でないという観測に基づいており、正の重量の1%しか保護していないため、量子化誤差を大幅に低減できる。 次に,重みではなく活性化を観察して塩分重みを保護できる最適なチャネル単位のスケーリングを探索する。 AWQはバックプロパゲーションや再構成に依存しないので、キャリブレーションセットに過度に適合することなく、LLMの様々な領域やモダリティへの一般化能力を十分に維持することができる。 AWQは、様々な言語モデリング、常識QA、ドメイン固有のベンチマークにおける既存の作業よりも優れています。 より優れた一般化により、命令調整されたLMに対して優れた量子化性能を実現し、初めてマルチモーダルなLMを実現する。 また,awqを高速化し,gptqよりも1.45倍の高速化を実現し,cublas fp16よりも1.85倍高速である。 提案手法は,3/4ビットにLDMを圧縮して効率よく展開するターンキーソリューションを提供する。

Large language models (LLMs) have shown excellent performance on various tasks, but the astronomical model size raises the hardware barrier for serving (memory size) and slows down token generation (memory bandwidth). In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error. We then propose to search for the optimal per-channel scaling that protects the salient weights by observing the activation, not weights. AWQ does not rely on any backpropagation or reconstruction, so it can well preserve LLMs' generalization ability on different domains and modalities, without overfitting to the calibration set; it also does not rely on any data layout reordering, maintaining the hardware efficiency. AWQ outperforms existing work on various language modeling, common sense QA, and domain-specific benchmarks. Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. We also implement efficient tensor core kernels with reorder-free online dequantization to accelerate AWQ, achieving a 1.45x speedup over GPTQ and is 1.85x faster than the cuBLAS FP16 implementation. Our method provides a turn-key solution to compress LLMs to 3/4 bits for efficient deployment.
翻訳日:2023-06-02 13:51:37 公開日:2023-06-01
# AGILE3D: 対話型多目的3Dセグメンテーション

AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation ( http://arxiv.org/abs/2306.00977v1 )

ライセンス: Link先を確認
Yuanwen Yue, Sabarinath Mahadevan, Jonas Schult, Francis Engelmann, Bastian Leibe, Konrad Schindler, Theodora Kontogianni(参考訳) インタラクティブなセグメンテーションでは、モデルとユーザが協力して、関心のあるオブジェクトを3Dポイントクラウドに記述する。 反復的なプロセスでは、モデルが各データポイントをオブジェクト(または背景)に割り当て、ユーザが結果のセグメンテーションのエラーを修正してモデルにフィードバックする。 マシンラーニングの観点からは、必要なユーザ入力を最小限に抑えるように、モデルとフィードバックメカニズムを設計することが目標です。 現在のベストプラクティスでは、オブジェクトを一度に1つずつセグメンテーションし、背景に誤って割り当てられた領域と、オブジェクトに間違った割り当てられた領域(前景)を示す負のクリックを示すポジティブなクリックをユーザに求める。 与えられたオブジェクトに対する正のクリックは、定義上は、近くのオブジェクトに対する負のクリックとして機能し、さらに隣接するオブジェクト間の直接競合は、それらの共通境界の識別を高速化することができる。 我々は,(1)複数の3Dオブジェクトの同時セグメンテーションをサポートし,(2)ユーザクリックが少ない精度の高いセグメンテーションマスクを出力し,(3)より高速な推論を提供する,効率的で注意に基づくモデルAGILE3Dを紹介する。 ポイントクラウドを潜在的な機能表現にエンコードし、ユーザクリックをクエリとして表示し、クリックと3dポイントクラウド機能の間だけでなく、さまざまなクリック場所間のコンテキスト関係を表すクロスアテンションを採用します。 新しいクリックが追加されるたびに、更新されたセグメンテーションマスクを生成する軽量デコーダを実行するだけです。 4つの異なるポイントクラウドデータセットを用いた実験では、AGILE3Dが新しい最先端の技術をセットし、さらに実際のユーザスタディによって実際のセットアップにおける実用性を検証する。

During interactive segmentation, a model and a user work together to delineate objects of interest in a 3D point cloud. In an iterative process, the model assigns each data point to an object (or the background), while the user corrects errors in the resulting segmentation and feeds them back into the model. From a machine learning perspective the goal is to design the model and the feedback mechanism in a way that minimizes the required user input. The current best practice segments objects one at a time, and asks the user to provide positive clicks to indicate regions wrongly assigned to the background and negative clicks to indicate regions wrongly assigned to the object (foreground). Sequentially visiting objects is wasteful, since it disregards synergies between objects: a positive click for a given object can, by definition, serve as a negative click for nearby objects, moreover a direct competition between adjacent objects can speed up the identification of their common boundary. We introduce AGILE3D, an efficient, attention-based model that (1) supports simultaneous segmentation of multiple 3D objects, (2) yields more accurate segmentation masks with fewer user clicks, and (3) offers faster inference. We encode the point cloud into a latent feature representation, and view user clicks as queries and employ cross-attention to represent contextual relations between different click locations as well as between clicks and the 3D point cloud features. Every time new clicks are added, we only need to run a lightweight decoder that produces updated segmentation masks. In experiments with four different point cloud datasets, AGILE3D sets a new state of the art, moreover, we also verify its practicality in real-world setups with a real user study.
翻訳日:2023-06-02 13:51:08 公開日:2023-06-01
# TopEx: モデル比較のためのトピックベースの説明

TopEx: Topic-based Explanations for Model Comparison ( http://arxiv.org/abs/2306.00976v1 )

ライセンス: Link先を確認
Shreya Havaldar, Adam Stein, Eric Wong, Lyle Ungar(参考訳) 言語モデルの比較は、現在の説明手法では困難である。 現在の説明は、大きな語彙やモデル間で比較できないため、人間にとって圧倒的に多い。 そこで本論文では,モデルに依存しないトピックを用いて,言語モデルを比較するためのレベルプレイフィールドを提供する。 様々なNLPタスクにおいて、TopEx が DistilRoBERTa と GPT-2 の類似点と相違点を識別できることを実証する。

Meaningfully comparing language models is challenging with current explanation methods. Current explanations are overwhelming for humans due to large vocabularies or incomparable across models. We present TopEx, an explanation method that enables a level playing field for comparing language models via model-agnostic topics. We demonstrate how TopEx can identify similarities and differences between DistilRoBERTa and GPT-2 on a variety of NLP tasks.
翻訳日:2023-06-02 13:50:36 公開日:2023-06-01
# 視覚可観測性制限下でのアクティブ強化学習

Active Reinforcement Learning under Limited Visual Observability ( http://arxiv.org/abs/2306.00975v1 )

ライセンス: Link先を確認
Jinghuan Shang and Michael S. Ryoo(参考訳) 本研究では,具体的エージェントが同時にタスクのアクションポリシーを学習し,その視覚的観察を部分的に観察可能な環境で制御する能動強化学習(Active-RL)について検討する。 前者は運動政策、後者は感覚政策と表現する。 例えば、人間が目の動き(感覚ポリシー)とともに手操作(運動ポリシー)によって現実世界のタスクを解く。 アクティブRLは、相互の影響から2つの政策の調整に挑戦する。 そこで本研究では,運動・感覚政策を別々にモデル化するフレームワークであるsugarl, sensorimotor understanding active reinforcement learningを提案する。 この学習可能な報酬はsensorimotor rewardモジュールによって割り当てられ、感覚ポリシーにインセンティブを与えて、人間のsensorimotorステージにインスパイアされた、自身の運動動作を推論するのに最適な観察を選択する。 一連の実験を通して, 観測可能性条件の多岐にわたる手法の有効性と, 既存のRLアルゴリズムへの適応性を示す。 本手法により得られた感覚ポリシーは,効果的な視覚戦略を示す。

In this work, we investigate Active Reinforcement Learning (Active-RL), where an embodied agent simultaneously learns action policy for the task while also controlling its visual observations in partially observable environments. We denote the former as motor policy and the latter as sensory policy. For example, humans solve real world tasks by hand manipulation (motor policy) together with eye movements (sensory policy). Active-RL poses challenges on coordinating two policies given their mutual influence. We propose SUGARL, Sensorimotor Understanding Guided Active Reinforcement Learning, a framework that models motor and sensory policies separately, but jointly learns them using with an intrinsic sensorimotor reward. This learnable reward is assigned by sensorimotor reward module, incentivizes the sensory policy to select observations that are optimal to infer its own motor action, inspired by the sensorimotor stage of humans. Through a series of experiments, we show the effectiveness of our method across a range of observability conditions and its adaptability to existed RL algorithms. The sensory policies learned through our method are observed to exhibit effective active vision strategies.
翻訳日:2023-06-02 13:50:30 公開日:2023-06-01
# テキスト誘導拡散モデルの興味ある特性

Intriguing Properties of Text-guided Diffusion Models ( http://arxiv.org/abs/2306.00974v1 )

ライセンス: Link先を確認
Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille(参考訳) テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。 よくある失敗は (i)自然に見えるテキストは、間違った内容の画像を生成させるか、または (ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。 本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。 これを実現するために,画像分類器を代理損失関数として利用するTDMに対する敵対攻撃であるSAGEを提案し,画像生成における予期せぬ動作や故障事例を自動的に発見するために,TDMの離散的なプロンプト空間と高次元潜在空間を探索する。 我々は,sageが分類器ではなく拡散モデルの障害事例を見出すために,いくつかの技術的貢献を行い,人間の研究で検証する。 本研究は,これまでに体系的に研究されていないtdmの4つの興味をそそる性質を明らかにした。(1)入力テキストのセマンティクスを捉えない画像を生成する,様々な自然テキストプロンプトを見つける。 これらの障害を根本原因に基づいた10の異なるタイプに分類する。 2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間(外れ値ではない)のサンプルを見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。 3)テキストプロンプトと無関係な自然画像に繋がる潜在サンプルを見つけ、潜在空間とプロンプト空間の間の潜在的な不一致を示唆する。 (4) 入力プロンプトに1つの逆数トークンを埋め込むことで、CLIPスコアに最小限の影響を与えながら、さまざまな特定のターゲットオブジェクトを生成することができる。 これは言語表現の脆弱さを示し、潜在的な安全性の懸念を提起する。

Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, an adversarial attack on TDMs that uses image classifiers as surrogate loss functions, to search over the discrete prompt space and the high-dimensional latent space of TDMs to automatically discover unexpected behaviors and failure cases in the image generation. We make several technical contributions to ensure that SAGE finds failure cases of the diffusion model, rather than the classifier, and verify this in a human study. Our study reveals four intriguing properties of TDMs that have not been systematically studied before: (1) We find a variety of natural text prompts producing images that fail to capture the semantics of input texts. We categorize these failures into ten distinct types based on the underlying causes. (2) We find samples in the latent space (which are not outliers) that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that lead to natural-looking images which are unrelated to the text prompt, implying a potential misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to an input prompt we can generate a variety of specified target objects, while only minimally affecting the CLIP score. This demonstrates the fragility of language representations and raises potential safety concerns.
翻訳日:2023-06-02 13:50:12 公開日:2023-06-01
# Intelligent Grimm - 潜伏拡散モデルによるオープンエンドビジュアルストーリーテリング

Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models ( http://arxiv.org/abs/2306.00973v1 )

ライセンス: Link先を確認
Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Weidi Xie(参考訳) 生成モデルは最近、テキスト記述に基づく画像生成など、様々なシナリオで例外的な機能を示した。 本研究では,与えられたストーリーラインに基づいて一連のコヒーレントな画像列を生成するタスクに焦点を合わせ,オープンエンドなビジュアルストーリーテリングと表現する。 私たちは以下の3つの貢献をします i) ビジュアルストーリーテリングのタスクを実現するために,事前訓練された安定拡散モデルに2つのモジュールを導入するとともに,テキストプロンプトと先行フレームの両方を条件付けして現在のフレームを生成することができる自動回帰画像生成器を構築する。 (ii)提案するモデルを訓練するために,ビデオや電子書籍などの様々なオンラインソースから抽出し,既存のアニメーション特有のデータセットよりもはるかに大きな語彙を持つ多種多様なデータセットであるstorysalonを構築するためのデータ処理パイプラインを構築することにより,ペア画像とテキストのサンプルを収集する。 3) 3段階のカリキュラム学習戦略を採用し, 視覚的文脈条件付け, 人間のフィードバックアライメントを可能にした。 定量的実験と人的評価により,画像品質,スタイル整合性,コンテンツ整合性,視覚言語整合性の観点から,提案モデルの有効性が検証された。 コード、モデル、データセットを研究コミュニティに公開します。

Generative models have recently exhibited exceptional capabilities in various scenarios, for example, image generation based on text description. In this work, we focus on the task of generating a series of coherent image sequence based on a given storyline, denoted as open-ended visual storytelling. We make the following three contributions: (i) to fulfill the task of visual storytelling, we introduce two modules into a pre-trained stable diffusion model, and construct an auto-regressive image generator, termed as StoryGen, that enables to generate the current frame by conditioning on both a text prompt and a preceding frame; (ii) to train our proposed model, we collect paired image and text samples by sourcing from various online sources, such as videos, E-books, and establish a data processing pipeline for constructing a diverse dataset, named StorySalon, with a far larger vocabulary than existing animation-specific datasets; (iii) we adopt a three-stage curriculum training strategy, that enables style transfer, visual context conditioning, and human feedback alignment, respectively. Quantitative experiments and human evaluation have validated the superiority of our proposed model, in terms of image quality, style consistency, content consistency, and visual-language alignment. We will make the code, model, and dataset publicly available to the research community.
翻訳日:2023-06-02 13:49:42 公開日:2023-06-01
# オフライン強化学習アルゴリズムの改良とベンチマーク

Improving and Benchmarking Offline Reinforcement Learning Algorithms ( http://arxiv.org/abs/2306.00972v1 )

ライセンス: Link先を確認
Bingyi Kang, Xiao Ma, Yirui Wang, Yang Yue, Shuicheng Yan(参考訳) 近年,様々なアルゴリズムやデータセットが出現し,オフライン強化学習(rl)が著しい進歩を遂げている。 しかし、これらの手法は通常アルゴリズムの進歩に焦点を当てており、多くの低レベルの実装選択が最終的な性能に大きく影響するか、あるいは後押しすることを無視している。 その結果、これらの選択が十分に議論されておらず、文献に整合していないため、オフラインRLの進展を考慮しがたい。 さらに、データセット(例えばD4RL)に焦点を当てた論文では、別のデータセット(例えばRL Unplugged)で提案されたアルゴリズムを無視することが多く、アルゴリズム間で孤立が生じ、全体的な進捗が遅くなる可能性がある。 そのため、この研究は低レベルの選択とデータセットによるギャップを埋めることを目的としている。 この目的のために,3つの代表的なアルゴリズム(cql,crr,iql)を用いた20の実装選択を実証的に検討し,実装選択のためのガイドブックを提案する。 ガイドブックの後、我々はCRR+とCQL+の2つの変種を見つけ、D4RL上で新しい最先端を実現する。 さらに,データセットにまたがる8つの人気のあるオフラインrlアルゴリズムを統一トレーニング・評価フレームワークでベンチマークする。 学習パラダイムの成功はデータ分布に大きく依存しており、以前の結論は使用されるデータセットに偏っている。 私たちのコードはhttps://github.com/sail-sg/offbenchで利用可能です。

Recently, Offline Reinforcement Learning (RL) has achieved remarkable progress with the emergence of various algorithms and datasets. However, these methods usually focus on algorithmic advancements, ignoring that many low-level implementation choices considerably influence or even drive the final performance. As a result, it becomes hard to attribute the progress in Offline RL as these choices are not sufficiently discussed and aligned in the literature. In addition, papers focusing on a dataset (e.g., D4RL) often ignore algorithms proposed on another dataset (e.g., RL Unplugged), causing isolation among the algorithms, which might slow down the overall progress. Therefore, this work aims to bridge the gaps caused by low-level choices and datasets. To this end, we empirically investigate 20 implementation choices using three representative algorithms (i.e., CQL, CRR, and IQL) and present a guidebook for choosing implementations. Following the guidebook, we find two variants CRR+ and CQL+ , achieving new state-of-the-art on D4RL. Moreover, we benchmark eight popular offline RL algorithms across datasets under unified training and evaluation framework. The findings are inspiring: the success of a learning paradigm severely depends on the data distribution, and some previous conclusions are biased by the dataset used. Our code is available at https://github.com/sail-sg/offbench.
翻訳日:2023-06-02 13:49:18 公開日:2023-06-01
# vico: テキストから画像へのパーソナライズのためのディテール保存視覚条件

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2306.00971v1 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong(参考訳) 近年,拡散モデルを用いたパーソナライズドテキスト・画像生成が提案され,注目を集めている。 新たな概念(例えばユニークなおもちゃ)を含む一握りの画像が与えられたとき、私たちは生成モデルをチューニングして、新しい概念の詳細な視覚的詳細を捉え、テキスト条件に従ってフォトリアリスティックな画像を生成することを目的としています。 高速かつ軽量なパーソナライズ生成のためのプラグインであるViCoを提案する。 具体的には,パッチワイズビジュアルセマンティクス上での拡散過程を条件としたイメージアテンションモジュールを提案する。 注目モジュールからはほとんどコストがかからないアテンションベースのオブジェクトマスクを導入する。 さらに,テキスト画像アテンションマップの固有特性に基づく単純な正規化をデザインし,オーバーフィット劣化を緩和する。 多くの既存モデルとは異なり、本手法は元の拡散モデルのパラメータを微調整しない。 これにより、より柔軟で転送可能なモデルデプロイメントが可能になる。 光パラメータのトレーニング(拡散u-netの約6%)だけで、質的にも量的にも全ての最先端モデルに匹敵する、あるいはさらに優れた性能が得られる。

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.
翻訳日:2023-06-02 13:48:55 公開日:2023-06-01
# GRES: 一般的な参照式セグメンテーション

GRES: Generalized Referring Expression Segmentation ( http://arxiv.org/abs/2306.00968v1 )

ライセンス: Link先を確認
Chang Liu, Henghui Ding, Xudong Jiang(参考訳) reference expression segmentation (res) は、与えられた言語表現で記述されたオブジェクトのセグメンテーションマスクを生成することを目的としている。 既存の古典的なRESデータセットとメソッドは、単一のターゲット表現のみをサポートする。 マルチターゲットおよびノーターゲット表現は考慮されていない。 これは実際にはresの使用を制限する。 本稿では,表現が任意の数の対象オブジェクトを参照できるように,古典的なresを拡張した一般化参照式セグメンテーション(gres)と呼ばれる新しいベンチマークを提案する。 そこで我々は, マルチターゲット, ノーターゲット, シングルターゲット表現を含む, gRefCOCO と呼ばれる最初の大規模GRESデータセットを構築した。 GRESとgRefCOCOはRESとよく互換性があるように設計されており、GRESタスク上で既存のRESメソッドのパフォーマンスギャップを研究するための広範な実験を容易にする。 実験の結果,GRESの大きな課題の1つは複雑な関係モデリングであることがわかった。 そこで,本研究では,サブインスタンスの手がかりを持つ領域に適応的にイメージを分割し,地域言語依存と地域言語依存を明示的にモデル化する,地域ベースのgresベースラインrelaを提案する。 提案手法は,新しいGRESタスクと古典RESタスクの両方において,最先端のパフォーマンスを実現する。 提案されているgRefCOCOデータセットとメソッドはhttps://henghuiding.github.io/GRESで公開されている。

Referring Expression Segmentation (RES) aims to generate a segmentation mask for the object described by a given language expression. Existing classic RES datasets and methods commonly support single-target expressions only, i.e., one expression refers to one target object. Multi-target and no-target expressions are not considered. This limits the usage of RES in practice. In this paper, we introduce a new benchmark called Generalized Referring Expression Segmentation (GRES), which extends the classic RES to allow expressions to refer to an arbitrary number of target objects. Towards this, we construct the first large-scale GRES dataset called gRefCOCO that contains multi-target, no-target, and single-target expressions. GRES and gRefCOCO are designed to be well-compatible with RES, facilitating extensive experiments to study the performance gap of the existing RES methods on the GRES task. In the experimental study, we find that one of the big challenges of GRES is complex relationship modeling. Based on this, we propose a region-based GRES baseline ReLA that adaptively divides the image into regions with sub-instance clues, and explicitly models the region-region and region-language dependencies. The proposed approach ReLA achieves new state-of-the-art performance on the both newly proposed GRES and classic RES tasks. The proposed gRefCOCO dataset and method are available at https://henghuiding.github.io/GRES.
翻訳日:2023-06-02 13:48:36 公開日:2023-06-01
# 拡散モデルの隠れ言語

The Hidden Language of Diffusion Models ( http://arxiv.org/abs/2306.00966v1 )

ライセンス: Link先を確認
Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf(参考訳) テキストから画像への拡散モデルは、テキストの概念(例えば「医者」や「愛」)から高品質で多様な画像を生成できる非並列的な能力を示している。 しかし、テキストをリッチな視覚表現にマッピングする内部プロセスは謎のままである。 本研究では、入力テキストプロンプトを小さな解釈可能な要素の集合に分解することで、テキストから画像モデルへの概念表現の理解に挑戦する。 これは、与えられた概念のために生成されたイメージを再構築する目的で、モデルの語彙からトークンを疎みに重み付けした擬似トークンを学ぶことで達成される。 最先端の安定拡散モデルに適用されるこの分解は、概念の表現における非自明で驚くべき構造を明らかにする。 例えば、「大統領」や「作曲家」といった概念は特定の例(例えば「オバマ」、「バイデン」など)とそれらの補間によって支配されている。 その他の概念、例えば「幸せ」は、具体的(家族)、笑い(笑い)、抽象的(友情(友情)、感情(感情)といった関連用語を組み合わせる。 安定拡散法の内部動作をピアリングすることに加えて,トークンへの単一像分解,バイアス検出と緩和,セマンティックイメージ操作などの応用も可能とした。 コードはhttps://hila-chefer.github.io/conceptor/。

Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle the challenge of understanding concept representations in text-to-image models by decomposing an input text prompt into a small set of interpretable elements. This is achieved by learning a pseudo-token that is a sparse weighted combination of tokens from the model's vocabulary, with the objective of reconstructing the images generated for the given concept. Applied over the state-of-the-art Stable Diffusion model, this decomposition reveals non-trivial and surprising structures in the representations of concepts. For example, we find that some concepts such as "a president" or "a composer" are dominated by specific instances (e.g., "Obama", "Biden") and their interpolations. Other concepts, such as "happiness" combine associated terms that can be concrete ("family", "laughter") or abstract ("friendship", "emotion"). In addition to peering into the inner workings of Stable Diffusion, our method also enables applications such as single-image decomposition to tokens, bias detection and mitigation, and semantic image manipulation. Our code will be available at: https://hila-chefer.github.io/Conceptor/
翻訳日:2023-06-02 13:48:13 公開日:2023-06-01
# 弦理論における有限エンタングルメントエントロピー

Finite Entanglement Entropy in String Theory ( http://arxiv.org/abs/2306.00990v1 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra(参考訳) 奇数整数 $n > 1$ で知られている$\mathbb{r}^2/\mathbb{z}_n$ 上の弦オルビフォールドの種数-1分割関数を解析的に継続することにより、10次元のtype-ii弦理論における1ループ量子絡み合いエントロピーをオルビフォールド法を用いて解析する。 オービフォールド分割関数に対するタキオン寄与は、物理的領域 $0 < N \leq 1$ において有限である式に適切にまとめ、解析的に連続し、エンタングルメントエントロピーに対する有限で計算可能な解が得られることを示す。 本稿では,情報パラドックス,量子重力,ホログラフィにおける絡み合いエントロピーの有限性の意味について論じる。

We analyze the one-loop quantum entanglement entropy in ten-dimensional Type-II string theory using the orbifold method by analytically continuing in $N$ the genus-one partition function for string orbifolds on $\mathbb{R}^2/\mathbb{Z}_N$ conical spaces known for all odd integers $N > 1$. We show that the tachyonic contributions to the orbifold partition function can be appropriately summed and analytically continued to an expression that is finite in the physical region $0 < N \leq 1$ resulting in a finite and calculable answer for the entanglement entropy. We discuss the implications of the finiteness of the entanglement entropy for the information paradox, quantum gravity, and holography.
翻訳日:2023-06-02 13:40:30 公開日:2023-06-01
# hiera: ベルとホイッスルのない階層型視覚トランスフォーマー

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles ( http://arxiv.org/abs/2306.00989v1 )

ライセンス: Link先を確認
Chaitanya Ryali, Yuan-Ting Hu, Daniel Bolya, Chen Wei, Haoqi Fan, Po-Yao Huang, Vaibhav Aggarwal, Arkabandhu Chowdhury, Omid Poursaeed, Judy Hoffman, Jitendra Malik, Yanghao Li, Christoph Feichtenhofer(参考訳) 現代の階層型視覚変換器は、教師付き分類性能の追求にいくつかの視覚特化成分を加えている。 これらのコンポーネントは効果的な精度と魅力的なFLOPカウントをもたらすが、複雑さが加わったことで、これらのトランスフォーマーはバニラVITよりも遅くなる。 本稿では,この追加バルクは不要であると主張する。 強力なビジュアルプリテキストタスク(mae)を事前トレーニングすることで、最先端のマルチステージビジョントランスフォーマーからすべてのベル・アンド・ホイッスルを、精度を損なうことなく取り除くことができる。 このプロセスでは,従来のモデルよりも高精度で,推論とトレーニングの両方において極めて高速な,極めて単純な階層型視覚変換器であるHieraを開発した。 我々はhieraを画像と映像認識の様々なタスクで評価する。 私たちのコードとモデルはhttps://github.com/facebookresearch/hieraで利用可能です。

Modern hierarchical vision transformers have added several vision-specific components in the pursuit of supervised classification performance. While these components lead to effective accuracies and attractive FLOP counts, the added complexity actually makes these transformers slower than their vanilla ViT counterparts. In this paper, we argue that this additional bulk is unnecessary. By pretraining with a strong visual pretext task (MAE), we can strip out all the bells-and-whistles from a state-of-the-art multi-stage vision transformer without losing accuracy. In the process, we create Hiera, an extremely simple hierarchical vision transformer that is more accurate than previous models while being significantly faster both at inference and during training. We evaluate Hiera on a variety of tasks for image and video recognition. Our code and models are available at https://github.com/facebookresearch/hiera.
翻訳日:2023-06-02 13:40:16 公開日:2023-06-01
# 腹部多臓器・腫瘍分節の連続的学習

Continual Learning for Abdominal Multi-Organ and Tumor Segmentation ( http://arxiv.org/abs/2306.00988v1 )

ライセンス: Link先を確認
Yixiao Zhang, Xinyi Li, Huimiao Chen, Alan Yuille, Yaoyao Liu, Zongwei Zhou(参考訳) モデルを新しいデータやクラスに動的に拡張する能力は、複数の臓器と腫瘍のセグメンテーションに不可欠である。 しかし、プライバシ規制のため、医療領域では、以前のデータやアノテーションにアクセスすることが問題となる。 これは、破滅的な忘れの問題から新しいクラスから学ぶ際に、古いクラスの高いセグメンテーション精度を維持する上で重要な障壁となる。 本稿では,まず,高品質な擬似ラベルを用いるだけで,臓器のセグメンテーションの設定において,この問題をかなり軽減できることを示す。 さらに,連続臓器と腫瘍の分節化に特化して設計された革新的なアーキテクチャを提案し,計算オーバーヘッドを最小限に抑えた。 提案する設計では,従来の出力層を軽量なクラス固有のヘッドに置き換えることで,新たなクラスに対応する柔軟性を実現する。 これらのヘッドは、新しく導入され、以前に学習されたクラスに対する独立した予測を可能にし、継続学習の過程で新しいクラスが古いクラスに与える影響を効果的に最小化する。 さらに,臓器特異的な頭部にCLIP(Contrastive Language- Image Pretraining)を組み込むことを提案する。 これらの埋め込みは各クラスの意味情報をカプセル化し、広範な画像テキストのコトレーニングによって通知される。 本手法は,臓器および腫瘍の分節タスク下での腹腔内および腹腔内CTデータセットを用いて評価した。 実験結果から,提案手法は学習軌道に沿って新たに導入および学習したクラス上でのベースラインニューラルネットワークのセグメンテーション性能を向上させることが示唆された。

The ability to dynamically extend a model to new data and classes is critical for multiple organ and tumor segmentation. However, due to privacy regulations, accessing previous data and annotations can be problematic in the medical domain. This poses a significant barrier to preserving the high segmentation accuracy of the old classes when learning from new classes because of the catastrophic forgetting problem. In this paper, we first empirically demonstrate that simply using high-quality pseudo labels can fairly mitigate this problem in the setting of organ segmentation. Furthermore, we put forward an innovative architecture designed specifically for continuous organ and tumor segmentation, which incurs minimal computational overhead. Our proposed design involves replacing the conventional output layer with a suite of lightweight, class-specific heads, thereby offering the flexibility to accommodate newly emerging classes. These heads enable independent predictions for newly introduced and previously learned classes, effectively minimizing the impact of new classes on old ones during the course of continual learning. We further propose incorporating Contrastive Language-Image Pretraining (CLIP) embeddings into the organ-specific heads. These embeddings encapsulate the semantic information of each class, informed by extensive image-text co-training. The proposed method is evaluated on both in-house and public abdominal CT datasets under organ and tumor segmentation tasks. Empirical results suggest that the proposed design improves the segmentation performance of a baseline neural network on newly-introduced and previously-learned classes along the learning trajectory.
翻訳日:2023-06-02 13:40:00 公開日:2023-06-01
# StyleGANは正規、深さ、アルベドなどを知っている

StyleGAN knows Normal, Depth, Albedo, and More ( http://arxiv.org/abs/2306.00987v1 )

ライセンス: Link先を確認
Anand Bhattad, Daniel McKee, Derek Hoiem, D.A. Forsyth(参考訳) 本来のイメージは、深度、正常、アルベド、シェーディングといったシーン特性のイメージライクなマップである。 本稿では,StyleGANが固有画像を生成するために容易に誘導できることを実証する。 手順は単純です。 もしStyleGANがラテント${w}$から$G({w})$を生成するなら、各種類の内在画像に対して、固定オフセット${d}_c$が存在するので、$G({w}+{d}_c)$は$G({w})$に対する内在画像の型である。 ここで ${d}_c$ は ${w}$} とは独立である。 私たちが使用したStyleGANは、他の人によって事前訓練されていたため、このプロパティはトレーニング体制の偶然ではありません。 このような方法でStyleGANが生成する画像変換があることが示されるので、StyleGANは汎用的な画像回帰エンジンではない。 イメージジェネレータが ``know'' で固有のイメージを表現することは概念的にエキサイティングです。 また、生成モデルを用いて本質的な画像を生成するという実用的な利点もある。 StyleGANから得られた固有画像は、SOTA画像回帰法を用いて得られたものと、定性的かつ定量的に比較できるが、StyleGANの固有画像はSOTA法とは異なり、リライト効果に頑健である。

Intrinsic images, in the original sense, are image-like maps of scene properties like depth, normal, albedo or shading. This paper demonstrates that StyleGAN can easily be induced to produce intrinsic images. The procedure is straightforward. We show that, if StyleGAN produces $G({w})$ from latents ${w}$, then for each type of intrinsic image, there is a fixed offset ${d}_c$ so that $G({w}+{d}_c)$ is that type of intrinsic image for $G({w})$. Here ${d}_c$ is {\em independent of ${w}$}. The StyleGAN we used was pretrained by others, so this property is not some accident of our training regime. We show that there are image transformations StyleGAN will {\em not} produce in this fashion, so StyleGAN is not a generic image regression engine. It is conceptually exciting that an image generator should ``know'' and represent intrinsic images. There may also be practical advantages to using a generative model to produce intrinsic images. The intrinsic images obtained from StyleGAN compare well both qualitatively and quantitatively with those obtained by using SOTA image regression techniques; but StyleGAN's intrinsic images are robust to relighting effects, unlike SOTA methods.
翻訳日:2023-06-02 13:39:37 公開日:2023-06-01
# 拡散自己誘導による制御可能な画像生成

Diffusion Self-Guidance for Controllable Image Generation ( http://arxiv.org/abs/2306.00986v1 )

ライセンス: Link先を確認
Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski(参考訳) 大規模生成モデルは詳細なテキスト記述から高品質な画像を生成することができる。 しかし、画像の多くの側面はテキストで伝えるのが困難か不可能である。 本研究では,拡散モデルの内部表現を誘導することで生成画像の制御性を高める自己誘導法を提案する。 これらの表現から物体の形状、位置、外観などの特性を抽出し、サンプリングを制御できることを実証する。 自己誘導は分類器ガイダンスと同様に動作するが、事前訓練されたモデル自身に存在する信号を使用し、追加のモデルや訓練を必要としない。 オブジェクトの位置やサイズを変更したり、ある画像内のオブジェクトの外観を他の画像のレイアウトと融合したり、多数の画像からオブジェクトを1つにまとめたりといった、挑戦的な画像操作を行うために、単純なプロパティセットをどのように構成するかを示す。 また,実画像の編集に自己指導が利用できることを示す。 結果とインタラクティブなデモについては、https://dave.ml/selfguidance/のプロジェクトページを参照してください。

Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
翻訳日:2023-06-02 13:39:09 公開日:2023-06-01
# 生成AIを用いた医療画像モデルとデータセットの調査

Using generative AI to investigate medical imagery models and datasets ( http://arxiv.org/abs/2306.00985v1 )

ライセンス: Link先を確認
Oran Lang, Doron Yaya-Stupp, Ilana Traynis, Heather Cole-Lewis, Chloe R. Bennett, Courtney Lyles, Charles Lau, Christopher Semturs, Dale R. Webster, Greg S. Corrado, Avinatan Hassidim, Yossi Matias, Yun Liu, Naama Hammel, Boris Babenko(参考訳) aiモデルは、多くの医療イメージングタスクで期待されている。 しかし、これらのモデルが学んだ信号を説明する能力は、非常に欠如している。 AIベースのモデルの信頼性を高めるために説明が必要であり、専門家に知られていないデータの信号を明らかにすることによって、新たな科学的発見を可能にする。 本稿では,画像中の視覚信号とタスクとの相関関係を仮定して,チームベースの専門知識を活用した視覚自動説明手法を提案する。 以下の4つのステップを提案する。 (i)所定のタスクを実行するために分類器を訓練する (ii)StyleGANベースの画像生成装置(StylEx)を訓練する (iii)分類器がセンシティブな最上位の視覚的属性を自動的に検出して可視化する (iv)基礎となるメカニズムの仮説を定式化し、将来の研究を刺激する。 具体的には,この発見属性を学際的な専門家パネルに提示し,仮説が健康の社会的・構造的決定要因を説明できるようにした。 網膜眼底写真,外眼写真,胸部x線写真という,3つの医用画像モダリティにおける8つの予測タスクの結果を示す。 臨床的に知られている特徴を捉えた属性の例や、生理的メカニズムを超えた要因から生じる共同創設者の例を示し、多くの生理学的に有望な特徴を明らかにする。 私たちのアプローチには、研究者がより理解し、評価を改善し、AIベースのモデルから新たな知識を抽出できる可能性があります。 重要なことは、我々のフレームワークが生み出す属性は、生理学や病理生理学以外の現象を捉え、医療提供の現実的な性質と社会文化的要因を反映している点である。 最後に、研究者が独自のstylexモデルをトレーニングし、予測タスクを分析するコードをリリースする予定です。

AI models have shown promise in many medical imaging tasks. However, our ability to explain what signals these models have learned is severely lacking. Explanations are needed in order to increase the trust in AI-based models, and could enable novel scientific discovery by uncovering signals in the data that are not yet known to experts. In this paper, we present a method for automatic visual explanations leveraging team-based expertise by generating hypotheses of what visual signals in the images are correlated with the task. We propose the following 4 steps: (i) Train a classifier to perform a given task (ii) Train a classifier guided StyleGAN-based image generator (StylEx) (iii) Automatically detect and visualize the top visual attributes that the classifier is sensitive towards (iv) Formulate hypotheses for the underlying mechanisms, to stimulate future research. Specifically, we present the discovered attributes to an interdisciplinary panel of experts so that hypotheses can account for social and structural determinants of health. We demonstrate results on eight prediction tasks across three medical imaging modalities: retinal fundus photographs, external eye photographs, and chest radiographs. We showcase examples of attributes that capture clinically known features, confounders that arise from factors beyond physiological mechanisms, and reveal a number of physiologically plausible novel attributes. Our approach has the potential to enable researchers to better understand, improve their assessment, and extract new knowledge from AI-based models. Importantly, we highlight that attributes generated by our framework can capture phenomena beyond physiology or pathophysiology, reflecting the real world nature of healthcare delivery and socio-cultural factors. Finally, we intend to release code to enable researchers to train their own StylEx models and analyze their predictive tasks.
翻訳日:2023-06-02 13:38:55 公開日:2023-06-01
# StableRep: テキストから画像への合成画像は、強力な視覚表現学習者を生み出す

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners ( http://arxiv.org/abs/2306.00984v1 )

ライセンス: Link先を確認
Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan(参考訳) テキストから画像への合成画像を用いた視覚表現の学習の可能性について検討した。 このようなモデルが高品質な画像を生成する際の優れた性能という観点から、これは自然な問題です。 特に,オープンソースのテキスト対画像モデルであるstable diffusionについて考察する。 本研究では,(1) 生成モデルが適切な分類なし指導尺度で設定されている場合, 合成画像の自己指導的手法は実画像と一致したり, 打ち負かすことができること,(2) 同一のテキストプロンプトから生成した複数の画像を正として扱うことにより, マルチ陽性のコントラスト学習法を開発した。 合成画像のみを用いて、StableRepが学んだ表現は、大規模なデータセット上で、同じテキストプロンプトと対応する実画像のセットを使用して、SimCLRとCLIPが学んだ表現のパフォーマンスを上回る。 さらに言語管理を追加すると,20m合成画像でトレーニングしたstablerepは,50m実画像でトレーニングされたクリップよりも精度が向上する。

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.
翻訳日:2023-06-02 13:38:28 公開日:2023-06-01
# StyleDrop: どんなスタイルでもテキストから画像を生成する

StyleDrop: Text-to-Image Generation in Any Style ( http://arxiv.org/abs/2306.00983v1 )

ライセンス: Link先を確認
Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan(参考訳) テキストプロンプトを適切に利用して印象的な画像を合成する。 しかし、自然言語に固有の曖昧さや分布外効果により、特定のデザインパターンやテクスチャ、素材を利用するイメージスタイルの合成が困難になる。 本稿では,テキスト対画像モデルを用いて,特定のスタイルに忠実に従う画像の合成を可能にするstyledropを提案する。 提案手法は,カラースキーム,シェーディング,デザインパターン,局所的およびグローバル的効果など,ユーザが提供するスタイルのニュアンスや詳細を極めて多用途に取得する。 トレーニング可能なパラメータ(全体のモデルパラメータの1.5%未満)を微調整することで、新しいスタイルを効率よく学習し、人間か自動化されたフィードバックで反復的なトレーニングによって品質を改善する。 さらに、styledropは、ユーザーが所望のスタイルを特定する単一のイメージしか提供していない場合でも、印象的な結果を提供できる。 大規模な研究によると、スタイルチューニングのタスクにおいて、Museに実装されたStyleDropは、DreamBoothやImagenやStable Diffusionのテキストインバージョンなど、他の手法よりも確実に優れている。 さらなる結果は、プロジェクトのWebサイト(https://styledrop.github.io)で公開されています。

Pre-trained large text-to-image models synthesize impressive images with an appropriate use of text prompts. However, ambiguities inherent in natural language and out-of-distribution effects make it hard to synthesize image styles, that leverage a specific design pattern, texture or material. In this paper, we introduce StyleDrop, a method that enables the synthesis of images that faithfully follow a specific style using a text-to-image model. The proposed method is extremely versatile and captures nuances and details of a user-provided style, such as color schemes, shading, design patterns, and local and global effects. It efficiently learns a new style by fine-tuning very few trainable parameters (less than $1\%$ of total model parameters) and improving the quality via iterative training with either human or automated feedback. Better yet, StyleDrop is able to deliver impressive results even when the user supplies only a single image that specifies the desired style. An extensive study shows that, for the task of style tuning text-to-image models, StyleDrop implemented on Muse convincingly outperforms other methods, including DreamBooth and textual inversion on Imagen or Stable Diffusion. More results are available at our project website: https://styledrop.github.io
翻訳日:2023-06-02 13:38:05 公開日:2023-06-01
# SnapFusion:2秒以内にモバイルデバイス上でのテキストと画像の拡散モデル

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds ( http://arxiv.org/abs/2306.00980v1 )

ライセンス: Link先を確認
Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren(参考訳) テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語記述から素晴らしい画像を作ることができる。 しかし、これらのモデルは大規模であり、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションがあり、計算コストが高く、実行が遅い。 その結果、大規模に拡散モデルを実行するには、ハイエンドGPUとクラウドベースの推論が必要である。 これはコストが高く、特にユーザデータがサードパーティに送信された場合、プライバシーに影響を及ぼす。 これらの課題を克服するために,我々は,モバイル端末上でテキストから画像への拡散モデルを実行する際,初めて2ドル未満でアンロックを行う方法を提案する。 我々は,効率的なネットワークアーキテクチャを導入し,ステップ蒸留を改善した。 具体的には, 元のモデルの冗長性を同定し, データ蒸留による画像デコーダの計算量を削減することで, 効率的な unet を提案する。 さらに, 学習戦略を探究し, 分類器なし指導からの正規化を導入することで, ステップ蒸留の促進を図る。 ms-cocoでの広範な実験で、我々のモデルは8ドルのステップで、安定した拡散v$1.5$と50ドルのステップよりも良いfidとクリップスコアが得られることが分かりました。 私たちの仕事は、強力なテキストから画像への拡散モデルによって、コンテンツの創造を民主化します。

Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than $2$ seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with $8$ denoising steps achieves better FID and CLIP scores than Stable Diffusion v$1.5$ with $50$ steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.
翻訳日:2023-06-02 13:37:41 公開日:2023-06-01
# 4次元点雲による任意3次元物体の転位モデルの構築

Building Rearticulable Models for Arbitrary 3D Objects from 4D Point Clouds ( http://arxiv.org/abs/2306.00979v1 )

ライセンス: Link先を確認
Shaowei Liu, Saurabh Gupta, Shenlong Wang(参考訳) 1自由度ジョイントを介して任意に連結された任意の数の部品を含む任意の日常的人工物体のリアティキュラブルモデルを構築した。 このような日常的な物体の点雲ビデオが与えられた場合,各部位にどの部位が接続されているか,各部位を接続するジョイントの特性を識別する。 我々は、新しいエネルギー最小化フレームワークを用いて、部分分割、変換、運動学を共同で最適化する。 我々の推定アニマタブルモデルにより、疎点対応誘導による新規ポーズへの再ターゲティングが可能となる。 提案手法は,ロボットの対話型データセットと,サピエンスデータセット(sapiens dataset)でテストし,実世界のスキャンを行った。 実験の結果,提案手法は,先行研究である2つの指標よりも優れていた。

We build rearticulable models for arbitrary everyday man-made objects containing an arbitrary number of parts that are connected together in arbitrary ways via 1 degree-of-freedom joints. Given point cloud videos of such everyday objects, our method identifies the distinct object parts, what parts are connected to what other parts, and the properties of the joints connecting each part pair. We do this by jointly optimizing the part segmentation, transformation, and kinematics using a novel energy minimization framework. Our inferred animatable models, enables retargeting to novel poses with sparse point correspondences guidance. We test our method on a new articulating robot dataset, and the Sapiens dataset with common daily objects, as well as real-world scans. Experiments show that our method outperforms two leading prior works on various metrics.
翻訳日:2023-06-02 13:37:20 公開日:2023-06-01
# 分散検出のための特徴空間におけるハイブリッドエネルギーモデル

Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2305.16966v3 )

ライセンス: Link先を確認
Marc Lafon, Elias Ramzi, Cl\'ement Rambour, Nicolas Thome(参考訳) Out-of-distribution(OOD)検出は、ディープニューラルネットワークのデプロイにおいて重要な要件である。 本稿では,事前学習したバックボーンの特徴空間におけるハイブリッドエネルギーベースモデル(EBM)を用いて,分布内サンプルの密度を推定するポストホックOOD検出手法であるHEATモデルを提案する。 HEATは、例えばガウス混合モデル(GMM)のようなパラメトリックモデルのようなID密度の事前密度推定器を補完し、正確で頑健な密度推定を提供する。 第2の貢献は、EBMフレームワークを活用し、統一された密度推定を提供し、いくつかのエネルギー用語を構成することである。 大規模な実験は2つの貢献の重要性を示している。 HEATはCIFAR-10/CIFAR-100ベンチマークと大規模イメージネットベンチマークに、最先端のOOD検出結果を新たに設定する。 コードは、https://github.com/MarcLafon/heatood.comで入手できる。

Out-of-distribution (OOD) detection is a critical requirement for the deployment of deep neural networks. This paper introduces the HEAT model, a new post-hoc OOD detection method estimating the density of in-distribution (ID) samples using hybrid energy-based models (EBM) in the feature space of a pre-trained backbone. HEAT complements prior density estimators of the ID density, e.g. parametric models like the Gaussian Mixture Model (GMM), to provide an accurate yet robust density estimation. A second contribution is to leverage the EBM framework to provide a unified density estimation and to compose several energy terms. Extensive experiments demonstrate the significance of the two contributions. HEAT sets new state-of-the-art OOD detection results on the CIFAR-10 / CIFAR-100 benchmark as well as on the large-scale Imagenet benchmark. The code is available at: https://github.com/MarcLafon/heatood.
翻訳日:2023-06-02 11:21:04 公開日:2023-06-01
# HICO-DET-SGとV-COCO-SG:人間-物体相互作用検出モデルの系統的一般化性能評価のための新しいデータ分割

HICO-DET-SG and V-COCO-SG: New Data Splits for Evaluating the Systematic Generalization Performance of Human-Object Interaction Detection Models ( http://arxiv.org/abs/2305.09948v3 )

ライセンス: Link先を確認
Kentaro Takemoto, Moyuru Yamada, Tomotake Sasaki, Hisanao Akima(参考訳) ヒューマン・オブジェクト・インタラクション(human-object interaction、hoi)は、画像内の人間とオブジェクトをローカライズし、人間とオブジェクトのペアで相互作用を予測するタスクである。 実世界のシナリオでは、列車データは可能なすべての組み合わせの限られた部分をカバーすることが期待されるため、hoi検出モデルは体系的な一般化、すなわち、オブジェクトとインタラクションの新しい組み合わせへの一般化が必要である。 しかし、我々の知る限り、HOI検出モデルの系統的一般化性能を評価するためのオープンベンチマークや以前の研究は存在しない。 そこで我々は,HICO-DETデータセットとV-COCOデータセットに基づいて,HICO-DET-SGとV-COCO-SGという2種類のHOI検出データ分割を新たに作成した。 新しいデータ分割を評価すると、代表HOI検出モデルは元の分割を評価する場合よりもはるかに低性能であった。 これは、系統的な一般化がHOI検出の難しい目標であることを示している。 また, 評価結果を解析することにより, 体系的一般化性能を向上させるための洞察を得るとともに, 4つの今後の研究方向を明らかにする。 新たなデータ分割と解析が,HOI検出における系統的一般化のさらなる研究を促進することを願っている。

Human-Object Interaction (HOI) detection is a task to localize humans and objects in an image and predict the interactions in human-object pairs. In real-world scenarios, HOI detection models are required systematic generalization, i.e., generalization to novel combinations of objects and interactions, because the train data are expected to cover a limited portion of all possible combinations. However, to our knowledge, no open benchmarks or previous work exist for evaluating the systematic generalization performance of HOI detection models. To address this issue, we created two new sets of HOI detection data splits named HICO-DET-SG and V-COCO-SG based on the HICO-DET and V-COCO datasets, respectively. When evaluated on the new data splits, the representative HOI detection models performed much more poorly than when evaluated on the original splits. This reveals that systematic generalization is a challenging goal in HOI detection. By analyzing the evaluation results, we also gain insights for improving the systematic generalization performance and identify four possible future research directions. We hope that our new data splits and presented analysis will encourage further research on systematic generalization in HOI detection.
翻訳日:2023-06-02 11:20:35 公開日:2023-06-01
# 問合せ要約のための共同モデリングによる問合せ発話注意

Query-Utterance Attention with Joint modeling for Query-Focused Meeting Summarization ( http://arxiv.org/abs/2303.04487v3 )

ライセンス: Link先を確認
Xingxian Liu, Bin Duan, Bo Xiao, Yajing Xu(参考訳) クエリ中心のミーティング要約(QFMS)は、所定のクエリに応答して、ミーティングのトランスクリプトから要約を生成することを目的としている。 以前の作業は通常、クエリと会議のトランスクリプトを結合し、トークンレベルでのみクエリ関連性を暗黙的にモデル化する。 しかし、長時間の会議記録によるキークエリ関連情報の希釈により、元のトランスフォーマーモデルではクエリに関連する重要な部分を強調できない。 本稿では,クエリ・Utterance Attentionに基づく共同モデリングトークンと発話を用いた問合せ対応フレームワークを提案する。 クエリーに対する発話レベルの関連性を高密度検索モジュールで計算する。 次に、トークンレベルのクエリ関連性と発話レベルのクエリ関連性を組み合わせ、アテンション機構を明示した生成プロセスに組み込む。 異なる粒度のクエリ関連性が,クエリに関連する要約を生成することに寄与することを示す。 QMSumデータセットの実験結果から,提案モデルが新たな最先端性能を実現することを示す。

Query-focused meeting summarization (QFMS) aims to generate summaries from meeting transcripts in response to a given query. Previous works typically concatenate the query with meeting transcripts and implicitly model the query relevance only at the token level with attention mechanism. However, due to the dilution of key query-relevant information caused by long meeting transcripts, the original transformer-based model is insufficient to highlight the key parts related to the query. In this paper, we propose a query-aware framework with joint modeling token and utterance based on Query-Utterance Attention. It calculates the utterance-level relevance to the query with a dense retrieval module. Then both token-level query relevance and utterance-level query relevance are combined and incorporated into the generation process with attention mechanism explicitly. We show that the query relevance of different granularities contributes to generating a summary more related to the query. Experimental results on the QMSum dataset show that the proposed model achieves new state-of-the-art performance.
翻訳日:2023-06-02 11:20:11 公開日:2023-06-01
# K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム

K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs ( http://arxiv.org/abs/2302.11996v4 )

ライセンス: Link先を確認
Andrea Coletta, Svitlana Vyetrenko, Tucker Balch(参考訳) 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。 複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。 例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。 その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。 本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。 我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。 我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。 最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。 シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。 我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.
翻訳日:2023-06-02 11:19:55 公開日:2023-06-01
# 少数ショットの分類をもう一度見てみよう

A Closer Look at Few-shot Classification Again ( http://arxiv.org/abs/2301.12246v4 )

ライセンス: Link先を確認
Xu Luo, Hao Wu, Ji Zhang, Lianli Gao, Jing Xu, Jingkuan Song(参考訳) 少数ショット分類は、比較的大きなデータセットでモデルが学習されるトレーニングフェーズと、学習されたモデルをラベル付きサンプルが限定された未認識のタスクに適応する適応フェーズからなる。 本稿では,学習アルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明し,各フェーズごとに個別にアルゴリズム解析と設計を行うことを可能にする。 相別メタ分析では,視覚表現学習や転帰学習といった他分野との関わりや数発の分類の重要側面をよりよく理解する上で,いくつかの興味深い洞察が得られている。 この論文で明らかになった洞察と研究の課題が、今後の研究を関連する方向に促すことを願っている。 コードと事前学習されたモデル(pytorch)はhttps://github.com/frankluox/closerlookagainfewshot.comから入手できる。

Few-shot classification consists of a training phase where a model is learned on a relatively large dataset and an adaptation phase where the learned model is adapted to previously-unseen tasks with limited labeled samples. In this paper, we empirically prove that the training algorithm and the adaptation algorithm can be completely disentangled, which allows algorithm analysis and design to be done individually for each phase. Our meta-analysis for each phase reveals several interesting insights that may help better understand key aspects of few-shot classification and connections with other fields such as visual representation learning and transfer learning. We hope the insights and research challenges revealed in this paper can inspire future work in related directions. Code and pre-trained models (in PyTorch) are available at https://github.com/Frankluox/CloserLookAgainFewShot.
翻訳日:2023-06-02 11:19:32 公開日:2023-06-01
# コインサンプリング:学習率のない勾配に基づくベイズ推論

Coin Sampling: Gradient-Based Bayesian Inference without Learning Rates ( http://arxiv.org/abs/2301.11294v3 )

ライセンス: Link先を確認
Louis Sharrock, Christopher Nemeth(参考訳) 近年、svgd (stein variational gradient descent) のような粒子ベース変分推論 (parvi) 法はベイズ推定のスケーラブルな手法として人気が高まっている。 残念ながら、そのような手法の特性は学習率などのハイパーパラメータに必ず依存しており、適切なレートで目標尺度への収束を確保するためには、実践者が慎重に調整する必要がある。 本稿では,コインベッティングに基づくスケーラブルベイズ推論のための新しい粒子ベースの手法について紹介する。 本稿では,いくつかの高次元モデルやデータセットなど,学習率を調整せずに他のParVIアルゴリズムに匹敵する性能を示す数値例について述べる。

In recent years, particle-based variational inference (ParVI) methods such as Stein variational gradient descent (SVGD) have grown in popularity as scalable methods for Bayesian inference. Unfortunately, the properties of such methods invariably depend on hyperparameters such as the learning rate, which must be carefully tuned by the practitioner in order to ensure convergence to the target measure at a suitable rate. In this paper, we introduce a suite of new particle-based methods for scalable Bayesian inference based on coin betting, which are entirely learning-rate free. We illustrate the performance of our approach on a range of numerical examples, including several high-dimensional models and datasets, demonstrating comparable performance to other ParVI algorithms with no need to tune a learning rate.
翻訳日:2023-06-02 11:19:18 公開日:2023-06-01
# 確率スケジューリングにおけるプリエンプションと学習について

On Preemption and Learning in Stochastic Scheduling ( http://arxiv.org/abs/2205.15695v3 )

ライセンス: Link先を確認
Nadav Merlis, Hugo Richard, Flore Sentenac, Corentin Odic, Mathieu Molina, Vianney Perchet(参考訳) 本研究では,ジョブの時間分布を決定するジョブタイプに属するジョブの単一マシンスケジューリングについて検討する。 まず、型特性が分かっているシナリオを分析して、タイプが不明な2つの学習シナリオに移行します。非プリエンプティブ問題、別のジョブに移行する前に各開始ジョブを完了しなければならない場合、そして、別のジョブに移行するためにジョブの実行を一時停止できるプリエンプティブ問題です。 いずれの場合も、既知型の性能と比較して、サブ線形超過コストを実現するアルゴリズムを設計し、非プリエンプティブケースの下位境界を証明する。 特に, 理論上およびシミュレーションにより, 異なるジョブタイプの持続時間が互いに遠くなると, プリエンプティブアルゴリズムが非プリエンプティブアルゴリズムを大きく上回ることを示す。

We study single-machine scheduling of jobs, each belonging to a job type that determines its duration distribution. We start by analyzing the scenario where the type characteristics are known and then move to two learning scenarios where the types are unknown: non-preemptive problems, where each started job must be completed before moving to another job; and preemptive problems, where job execution can be paused in the favor of moving to a different job. In both cases, we design algorithms that achieve sublinear excess cost, compared to the performance with known types, and prove lower bounds for the non-preemptive case. Notably, we demonstrate, both theoretically and through simulations, how preemptive algorithms can greatly outperform non-preemptive ones when the durations of different job types are far from one another, a phenomenon that does not occur when the type durations are known.
翻訳日:2023-06-02 11:18:32 公開日:2023-06-01
# 基準は格付け以上のことを教えてくれる - criteria preference-aware light graph convolution for effective multi-criteria recommendation

Criteria Tell You More than Ratings: Criteria Preference-Aware Light Graph Convolution for Effective Multi-Criteria Recommendation ( http://arxiv.org/abs/2305.18885v2 )

ライセンス: Link先を確認
Jin-Duk Park, Siqing Li, Xin Cao, Won-Yong Shin(参考訳) 広範囲のeコマースエリアにおけるMCレーティング情報を活用するマルチクレーター(MC)レコメンデーションシステムは,近年広く普及している。 グラフニューラルネットワーク(GNN)は、グラフ表現の学習において、GNNの表現能力が高いため、様々なレコメンデータシステムの開発に広く応用されているが、GNNでMCレコメンデータシステムを設計する方法はまだ明らかにされていない。 これを踏まえ、我々はGNN支援MCレコメンデータシステムを設計するための最初の試みを行う。 具体的には、既存のgnnベースの推奨手法をそのまま採用するのではなく、複雑な高次コネクティビティにおけるユーザの基準選好と協調信号を正確に捉えることができる、新しい基準選好認識型光グラフ畳み込みcpa-lgc法を考案する。 この目的のために,我々はまず,ユーザ主導のmc評価を拡張した2部グラフに変換するmc拡張グラフを構築し,mcレーティングにおける協調的信号から学習する。 次に, CPA-LGCは, ユーザ固有の基準基準埋め込みや項目固有の基準埋め込みなど, 新たに特徴付けられた埋め込みをグラフ畳み込みモデルに組み込む。 4つの実世界のデータセットを用いた包括的評価を通して (a)GNNを用いたベンチマークMCレコメンデーション法やベンチマークレコメンデーション法よりも優れていること。 b) CPA-LGCにおけるコアコンポーネントの有効性、及び (c)計算効率。

The multi-criteria (MC) recommender system, which leverages MC rating information in a wide range of e-commerce areas, is ubiquitous nowadays. Surprisingly, although graph neural networks (GNNs) have been widely applied to develop various recommender systems due to GNN's high expressive capability in learning graph representations, it has been still unexplored how to design MC recommender systems with GNNs. In light of this, we make the first attempt towards designing a GNN-aided MC recommender system. Specifically, rather than straightforwardly adopting existing GNN-based recommendation methods, we devise a novel criteria preference-aware light graph convolution CPA-LGC method, which is capable of precisely capturing the criteria preference of users as well as the collaborative signal in complex high-order connectivities. To this end, we first construct an MC expansion graph that transforms user--item MC ratings into an expanded bipartite graph to potentially learn from the collaborative signal in MC ratings. Next, to strengthen the capability of criteria preference awareness, CPA-LGC incorporates newly characterized embeddings, including user-specific criteria-preference embeddings and item-specific criterion embeddings, into our graph convolution model. Through comprehensive evaluations using four real-world datasets, we demonstrate (a) the superiority over benchmark MC recommendation methods and benchmark recommendation methods using GNNs with tremendous gains, (b) the effectiveness of core components in CPA-LGC, and (c) the computational efficiency.
翻訳日:2023-06-02 11:12:43 公開日:2023-06-01
# タスク同変グラフ・マイノショット学習

Task-Equivariant Graph Few-shot Learning ( http://arxiv.org/abs/2305.18758v3 )

ライセンス: Link先を確認
Sungwon Kim, Junseok Lee, Namkyeong Lee, Wonjoong Kim, Seungyoon Choi, Chanyoung Park(参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクで成功したが、その性能はクラス毎に十分な数のラベル付きノードが利用できることに大きく依存している。 実世界の状況では、すべてのクラスに多くのラベル付きノードがあるわけではないし、モデルが新しいクラスを分類する必要があるインスタンスがある場合もあり、手動のラベリングが難しい。 この問題を解決するためには,nnnが限定的な数のラベル付きノード(少数ショットノード分類)でノードを分類できることが重要である。 従来のエピソードなメタラーニング法は,数発のノード分類に成功しているが,本研究の結果から,多種多様なメタタスクで最適性能が達成できることが示唆された。 メタラーニングに基づく少ショットラーニング(FSL)の課題に対処するため,新しいアプローチであるタスク・平等グラフ少ショットラーニング(TEG)フレームワークを提案する。 当社のtegフレームワークでは,限られた数のトレーニングメタタスクを使用して,転送可能なタスク適応戦略を学習することが可能です。 等変ニューラルネットワークを組み込むことにより、TEGはその強力な一般化能力を利用して、高度に適応可能なタスク固有戦略を学ぶことができる。 結果として、TEGは訓練メタタスクを限定して最先端のパフォーマンスを達成する。 各種ベンチマークデータセットを用いた実験では,最小限のメタトレーニングデータを用いた場合であっても,TAGの精度と一般化能力の面で優位性を示し,メタラーニングに基づく少数ショットノード分類の課題に対処する上で,提案手法の有効性を強調した。 私たちのコードは以下のリンクで利用可能です。

Although Graph Neural Networks (GNNs) have been successful in node classification tasks, their performance heavily relies on the availability of a sufficient number of labeled nodes per class. In real-world situations, not all classes have many labeled nodes and there may be instances where the model needs to classify new classes, making manual labeling difficult. To solve this problem, it is important for GNNs to be able to classify nodes with a limited number of labeled nodes, known as few-shot node classification. Previous episodic meta-learning based methods have demonstrated success in few-shot node classification, but our findings suggest that optimal performance can only be achieved with a substantial amount of diverse training meta-tasks. To address this challenge of meta-learning based few-shot learning (FSL), we propose a new approach, the Task-Equivariant Graph few-shot learning (TEG) framework. Our TEG framework enables the model to learn transferable task-adaptation strategies using a limited number of training meta-tasks, allowing it to acquire meta-knowledge for a wide range of meta-tasks. By incorporating equivariant neural networks, TEG can utilize their strong generalization abilities to learn highly adaptable task-specific strategies. As a result, TEG achieves state-of-the-art performance with limited training meta-tasks. Our experiments on various benchmark datasets demonstrate TEG's superiority in terms of accuracy and generalization ability, even when using minimal meta-training data, highlighting the effectiveness of our proposed approach in addressing the challenges of meta-learning based few-shot node classification. Our code is available at the following link: https://github.com/sung-won-kim/TEG
翻訳日:2023-06-02 11:12:13 公開日:2023-06-01
# 時空間交通予測のためのグラフ型多モードニューラルネットワーク

Graph-based Multi-ODE Neural Networks for Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2305.18687v2 )

ライセンス: Link先を確認
Zibo Liu, Parshin Shojaee, Chandan K Reddy(参考訳) 近年,交通分野における時空間予測モデルの開発が急増している。 しかし、長距離交通予測は、交通ネットワークで観測される複雑な時空間相関のため、依然として困難な課題である。 現在の研究は主にグラフ構造を持つ道路網に依存し、グラフニューラルネットワーク(GNN)を用いて表現を学ぶが、このアプローチは深いアーキテクチャにおける過度に滑らかな問題に悩まされている。 この問題に対処するため、近年の手法ではGNNと残差接続やニューラル常微分方程式(ODE)の組み合わせが導入されている。 しかし、現在のグラフODEモデルは、機能抽出において2つの重要な制限に直面している。(1)グローバルな時間的パターンに傾き、予期せぬイベントに重要な局所的なパターンを見渡す。 本稿では,複数の結合ODE-GNNモジュールを用いて設計し,複雑な局所的および大域的動的時空間的依存関係の異なるビューをキャプチャすることで,より優れた表現を学習する,グラフベース多言語ニューラルネットワーク(GRAM-ODE)を提案する。 また,ode-gnnモジュールの中間層に共有重みや分岐制約などの技術を追加して,予測タスクに対するコミュニケーションをさらに改善します。 実世界の6つのデータセットで実施した広範囲な実験により、GRAM-ODEの性能は最先端のベースラインに比べて優れており、全体的なパフォーマンスに対する様々なコンポーネントの寄与も示している。 コードはhttps://github.com/zbliu98/GRAM-ODEで入手できる。

There is a recent surge in the development of spatio-temporal forecasting models in the transportation domain. Long-range traffic forecasting, however, remains a challenging task due to the intricate and extensive spatio-temporal correlations observed in traffic networks. Current works primarily rely on road networks with graph structures and learn representations using graph neural networks (GNNs), but this approach suffers from over-smoothing problem in deep architectures. To tackle this problem, recent methods introduced the combination of GNNs with residual connections or neural ordinary differential equations (ODE). However, current graph ODE models face two key limitations in feature extraction: (1) they lean towards global temporal patterns, overlooking local patterns that are important for unexpected events; and (2) they lack dynamic semantic edges in their architectural design. In this paper, we propose a novel architecture called Graph-based Multi-ODE Neural Networks (GRAM-ODE) which is designed with multiple connective ODE-GNN modules to learn better representations by capturing different views of complex local and global dynamic spatio-temporal dependencies. We also add some techniques like shared weights and divergence constraints into the intermediate layers of distinct ODE-GNN modules to further improve their communication towards the forecasting task. Our extensive set of experiments conducted on six real-world datasets demonstrate the superior performance of GRAM-ODE compared with state-of-the-art baselines as well as the contribution of different components to the overall performance. The code is available at https://github.com/zbliu98/GRAM-ODE
翻訳日:2023-06-02 11:11:42 公開日:2023-06-01
# 複数質問応答のための大規模言語モデルによるコンフォーマル予測

Conformal Prediction with Large Language Models for Multi-Choice Question Answering ( http://arxiv.org/abs/2305.18404v2 )

ライセンス: Link先を確認
Bhawesh Kumar, Charlie Lu, Gauri Gupta, Anil Palepu, David Bellamy, Ramesh Raskar, Andrew Beam(参考訳) 大規模言語モデルが広く開発され続けるにつれて、ロバストな不確実性定量化技術が、高スループットシナリオにおける安全なデプロイメントに不可欠になる。 本研究では,複数質問応答の特定のタスクに対して,共形予測を用いて言語モデルに不確かさの定量化を行う方法について検討する。 共形予測からの不確実性推定は予測精度と密接に相関していることがわかった。 この観測は、選択分類や低品質予測のフィルタリングといった下流の応用に有用である。 また,共形予測が主観的疑問に求める交換可能性の仮定についても検討し,多くの実用的応用においてより現実的なシナリオとなる可能性について考察した。 我々の研究は、エラー率の確実な保証が必要な安全クリティカルな状況において、より信頼性が高く信頼性の高い大規模言語モデルの活用に寄与する。

As large language models continue to be widely developed, robust uncertainty quantification techniques will become crucial for their safe deployment in high-stakes scenarios. In this work, we explore how conformal prediction can be used to provide uncertainty quantification in language models for the specific task of multiple-choice question-answering. We find that the uncertainty estimates from conformal prediction are tightly correlated with prediction accuracy. This observation can be useful for downstream applications such as selective classification and filtering out low-quality predictions. We also investigate the exchangeability assumption required by conformal prediction to out-of-subject questions, which may be a more realistic scenario for many practical applications. Our work contributes towards more trustworthy and reliable usage of large language models in safety-critical situations, where robust guarantees of error rate are required.
翻訳日:2023-06-02 11:10:42 公開日:2023-06-01
# 信頼あるフェデレーション学習における保護メカニズムの調整のためのメタラーニングフレームワーク

A Meta-learning Framework for Tuning Parameters of Protection Mechanisms in Trustworthy Federated Learning ( http://arxiv.org/abs/2305.18400v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Yan Kang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) 信頼できるフェデレートラーニング(TFL)は通常、プライバシを保証するために保護メカニズムを活用する。 しかし、保護機構は必然的にデータプライバシを保護しながら、ユーティリティ損失や効率の低下をもたらす。 したがって、保護機構とそのパラメータは、 \textit{privacy leakage} と \textit{utility loss} と \textit{efficiency reduction} の最適なトレードオフを打つために慎重に選択する必要がある。 この目的のために、フェデレートされた学習実践者は、3つの要因を測定し、それらの間のトレードオフを最適化し、目の前のアプリケーションに最も適した保護メカニズムを選択するツールが必要である。 本稿では,(1) プライバシー漏洩, ユーティリティ損失, 効率低下のトレードオフを最適化する保護機構の発見問題として, TFL を定式化する枠組みを提案し, (2) 3つの要因の有界測定を正式に定義する。 次に,この最適化問題を近似するメタラーニングアルゴリズムを提案し,ランダム化,準同型暗号,秘密共有,圧縮といった代表的な保護機構の最適保護パラメータを求める。 さらに,これらの最適保護パラメータを実用的な水平連関学習設定で定量化するための推定アルゴリズムの設計を行い,推定誤差の理論的解析を行う。

Trustworthy Federated Learning (TFL) typically leverages protection mechanisms to guarantee privacy. However, protection mechanisms inevitably introduce utility loss or efficiency reduction while protecting data privacy. Therefore, protection mechanisms and their parameters should be carefully chosen to strike an optimal tradeoff between \textit{privacy leakage}, \textit{utility loss}, and \textit{efficiency reduction}. To this end, federated learning practitioners need tools to measure the three factors and optimize the tradeoff between them to choose the protection mechanism that is most appropriate to the application at hand. Motivated by this requirement, we propose a framework that (1) formulates TFL as a problem of finding a protection mechanism to optimize the tradeoff between privacy leakage, utility loss, and efficiency reduction and (2) formally defines bounded measurements of the three factors. We then propose a meta-learning algorithm to approximate this optimization problem and find optimal protection parameters for representative protection mechanisms, including Randomization, Homomorphic Encryption, Secret Sharing, and Compression. We further design estimation algorithms to quantify these found optimal protection parameters in a practical horizontal federated learning setting and provide a theoretical analysis of the estimation error.
翻訳日:2023-06-02 11:09:57 公開日:2023-06-01
# トランスフォーマーを用いたハイパーリレーショナルおよび数値知識グラフの表現学習

Representation Learning on Hyper-Relational and Numeric Knowledge Graphs with Transformers ( http://arxiv.org/abs/2305.18256v2 )

ライセンス: Link先を確認
Chanyoung Chung, Jaejun Lee, Joyce Jiyoung Whang(参考訳) ハイパーリレーショナルナレッジグラフ(hyper-relational knowledge graph)では、三重項が一連の修飾子と関連づけられ、修飾子は関係と実体で構成され、三重項の補助情報を提供する。 既存のハイパーリレーショナルナレッジグラフ埋め込みメソッドはエンティティが離散オブジェクトであると仮定しているが、いくつかの情報は数値を使って表現されるべきである(j.r.r., born in, 1892)。 また、三重項(オックスフォード大学で教育を受けたJ.R.R.)は(開始時間、1911年)等式に関連付けられる。 本稿では,三重項あるいは等化子に数値リテラルを含むハイパーリレーショナル知識グラフの表現を学習するHyNTという統合フレームワークを提案する。 文脈変換器と予測変換器を定義し、三重項とその修飾子間の相関関係だけでなく、数値情報にも基いて表現を学習する。 三重項と等化器のコンパクト表現を学習して変換器に供給することにより,変換器の計算コストを削減できる。 hyntを使うことで、ハイパーリレーショナルナレッジグラフにおけるエンティティやリレーションの欠如に加えて、不足している数値を予測できる。 実験の結果,HyNTは実世界のデータセットにおいて最先端の手法よりも優れていた。

A hyper-relational knowledge graph has been recently studied where a triplet is associated with a set of qualifiers; a qualifier is composed of a relation and an entity, providing auxiliary information for a triplet. While existing hyper-relational knowledge graph embedding methods assume that the entities are discrete objects, some information should be represented using numeric values, e.g., (J.R.R., was born in, 1892). Also, a triplet (J.R.R., educated at, Oxford Univ.) can be associated with a qualifier such as (start time, 1911). In this paper, we propose a unified framework named HyNT that learns representations of a hyper-relational knowledge graph containing numeric literals in either triplets or qualifiers. We define a context transformer and a prediction transformer to learn the representations based not only on the correlations between a triplet and its qualifiers but also on the numeric information. By learning compact representations of triplets and qualifiers and feeding them into the transformers, we reduce the computation cost of using transformers. Using HyNT, we can predict missing numeric values in addition to missing entities or relations in a hyper-relational knowledge graph. Experimental results show that HyNT significantly outperforms state-of-the-art methods on real-world datasets.
翻訳日:2023-06-02 11:09:30 公開日:2023-06-01
# InDL:ビジュアルイリュージョンに基づくインダイアグラム論理解釈のための新しいデータセットとベンチマーク

InDL: A New Datasets and Benchmark for In-Diagram Logic Interpreting based on Visual Illusion ( http://arxiv.org/abs/2305.17716v3 )

ライセンス: Link先を確認
Haobo Yang, Wenyu Wang, Ze Cao, Zhekai Duan, Xuchen Liu(参考訳) 本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。 視覚錯視の興味深い領域を活用して、これらのモデルを厳格にテストし、ベンチマークするために設計されたユニークなデータセットInDLを構築します。 ディープラーニングはコンピュータビジョンや自然言語処理といった領域で顕著な進歩をみせた。 しかしながら、モデルは、決定過程を曖昧にする固有の「ブラックボックス」特性のために、論理的推論を必要とするタスクに悩まされることが多い。 私たちの研究は、知覚と論理の複雑な相互作用である視覚錯覚の扱いに焦点を当てることで、これらのモデルをよりよく理解するための新しいレンズを提示します。 6つの古典的な幾何学的錯覚を用いて,人間と機械の視覚知覚の比較枠組みを構築した。 この方法論は、モデルをランク付けし、潜在的な弱点を解明し、モデル改善のための実行可能な洞察を提供する。 実験により,本手法の有効性を検証し,その論理解釈能力に基づくモデルランキングの有効性を示す。 再現可能な研究へのコミットメントの一環として、ソースコードとデータセットはここで公開されている。 \href{https://github.com/rabbit-magic-wh/indl}{https://github.com/rabbit-magic-wh/indl} ソースコードは、ここで公開されている。

This paper introduces a novel approach to evaluating deep learning models' capacity for in-diagram logic interpretation. Leveraging the intriguing realm of visual illusions, we establish a unique dataset, InDL, designed to rigorously test and benchmark these models. Deep learning has witnessed remarkable progress in domains such as computer vision and natural language processing. However, models often stumble in tasks requiring logical reasoning due to their inherent 'black box' characteristics, which obscure the decision-making process. Our work presents a new lens to understand these models better by focusing on their handling of visual illusions -- a complex interplay of perception and logic. We utilize six classic geometric optical illusions to create a comparative framework between human and machine visual perception. This methodology offers a quantifiable measure to rank models, elucidating potential weaknesses and providing actionable insights for model improvements. Our experimental results affirm the efficacy of our benchmarking strategy, demonstrating its ability to effectively rank models based on their logic interpretation ability. As part of our commitment to reproducible research, the source code and datasets will be made publicly available here: \href{https://github.com/rabbit-magic-wh/InDL}{https://github.com/rabbit-magic-wh/InDL}.
翻訳日:2023-06-02 11:09:07 公開日:2023-06-01
# GaitGS: 歩行認識のための粒度とスパン次元の時間的特徴学習

GaitGS: Temporal Feature Learning in Granularity and Span Dimension for Gait Recognition ( http://arxiv.org/abs/2305.19700v2 )

ライセンス: Link先を確認
Haijun Xiong, Yunze Deng, Xiaohu Huang, Xinggang Wang, Wenyu Liu, Bin Feng(参考訳) 歩行認識は、歩行パターンに基づいて個人を特定し検証する生物認識技術である。 しかし,現在の手法の多くは時間的情報の利用に限られている。 歩行認識の可能性を完全に活用するためには,様々な粒度の時間的特徴を考慮することが重要である。 そこで本稿では,粒度次元とスパン次元を同時に集約する新しいフレームワークであるgaitgsを提案する。 特に,マルチグラニュラリティ特徴抽出器(mgfe)は,フレームレベルと単位レベルでのマイクロモーション情報とマクロモーション情報をそれぞれ捉えることに焦点を当てて提案されている。 さらに,マルチスパン特徴学習(msfl)モジュールを用いて,グローバルおよびローカル時間表現を生成する。 3つの一般的な歩行データセットにおいて,提案手法の最先端性能を実験的に検証した。 本手法は, CASIA-B, GREW, OU-MVLPでそれぞれ92.9% (+0.5%), 52.0% (+1.4%), 97.5% (+0.8%) のランク1の精度を達成している。 ソースコードはまもなくリリースされる予定だ。

Gait recognition is an emerging biological recognition technology that identifies and verifies individuals based on their walking patterns. However, many current methods are limited in their use of temporal information. In order to fully harness the potential of gait recognition, it is crucial to consider temporal features at various granularities and spans. Hence, in this paper, we propose a novel framework named GaitGS, which aggregates temporal features in the granularity dimension and span dimension simultaneously. Specifically, Multi-Granularity Feature Extractor (MGFE) is proposed to focus on capturing the micro-motion and macro-motion information at the frame level and unit level respectively. Moreover, we present Multi-Span Feature Learning (MSFL) module to generate global and local temporal representations. On three popular gait datasets, extensive experiments demonstrate the state-of-the-art performance of our method. Our method achieves the Rank-1 accuracies of 92.9% (+0.5%), 52.0% (+1.4%), and 97.5% (+0.8%) on CASIA-B, GREW, and OU-MVLP respectively. The source code will be released soon.
翻訳日:2023-06-02 11:01:20 公開日:2023-06-01
# 生成拡散モデルにおける自然対称性の破れ

Spontaneous symmetry breaking in generative diffusion models ( http://arxiv.org/abs/2305.19693v2 )

ライセンス: Link先を確認
Gabriel Raya, Luca Ambrogioni(参考訳) 生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。 本稿では、これらのモデルの力学が、生成力学を2つの異なる位相に分割する自発的対称性の破れを示すことを示す。 1)中央の不動点まわりの線形定常状態ダイナミクス 2) データ多様体を指向したアトラクタダイナミクス。 これら2つの「相」は中心固定点の安定性の変化によって分離され、結果として生じる不安定性の窓が生成したサンプルの多様性の原因となる。 理論的および経験的証拠の両方を用いて、初期変動が中心固定点に逆戻りするため、初期力学の正確なシミュレーションが最終生成に大きく寄与しないことを示す。 この知見を活用するために,モデル性能を大幅に向上し,高速サンプリング器で最大3倍のFID向上を実現し,サンプルの多様性(例えば,生成したCelebA画像の人種構成)を向上するガウス的遅延初期化手法を提案する。 我々の研究は、より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解する新しい方法を提供する。

Generative diffusion models have recently emerged as a leading approach for generating high-dimensional data. In this paper, we show that the dynamics of these models exhibit a spontaneous symmetry breaking that divides the generative dynamics into two distinct phases: 1) A linear steady-state dynamics around a central fixed-point and 2) an attractor dynamics directed towards the data manifold. These two "phases" are separated by the change in stability of the central fixed-point, with the resulting window of instability being responsible for the diversity of the generated samples. Using both theoretical and empirical evidence, we show that an accurate simulation of the early dynamics does not significantly contribute to the final generation, since early fluctuations are reverted to the central fixed point. To leverage this insight, we propose a Gaussian late initialization scheme, which significantly improves model performance, achieving up to 3x FID improvements on fast samplers, while also increasing sample diversity (e.g., racial composition of generated CelebA images). Our work offers a new way to understand the generative dynamics of diffusion models that has the potential to bring about higher performance and less biased fast-samplers.
翻訳日:2023-06-02 11:00:58 公開日:2023-06-01
# 点GCC:幾何色コントラストによる普遍的自己監督型3次元事前学習

Point-GCC: Universal Self-supervised 3D Scene Pre-training via Geometry-Color Contrast ( http://arxiv.org/abs/2305.19623v2 )

ライセンス: Link先を確認
Guofan Fan, Zekun Qi, Wenkai Shi, Kaisheng Ma(参考訳) 点雲によって提供される幾何学と色情報はどちらも3Dシーン理解に不可欠である。 2つの情報は点雲の異なる側面を特徴づけるが、既存の手法には識別と関連性に関する詳細な設計が欠けている。 そこで我々は,ポイントクラウド情報の関係をよりよく活用できる3次元自己監督パラダイムを探求する。 具体的には,ジオメトリ・カラー・コントラスト(Point-GCC)を用いた3次元シーン事前学習フレームワークを提案する。 実際のアプリケーションタスクに対処するために、我々は設計する 一 事前学習と下流作業のギャップを埋めるために、新しい深層集成モジュールに基づく点レベルのコントラスト及び再構成及びオブジェクトレベルのコントラストを有する階層的監督 (ii)様々な下流モデルに対応するアーキテクチャ非依存のバックボーン。 ダウンストリームタスクに関連するオブジェクトレベルの表現から,Point-GCCはモデルの性能を直接評価し,本手法の有効性を示す。 幅広いタスクにおける転送学習の結果は、すべてのデータセットにまたがって一貫した改善を示す。 例えば、SUN RGB-DとS3DISデータセット上の新しい最先端のオブジェクト検出結果。 コードはhttps://github.com/Asterisci/Point-GCCでリリースされる。

Geometry and color information provided by the point clouds are both crucial for 3D scene understanding. Two pieces of information characterize the different aspects of point clouds, but existing methods lack an elaborate design for the discrimination and relevance. Hence we explore a 3D self-supervised paradigm that can better utilize the relations of point cloud information. Specifically, we propose a universal 3D scene pre-training framework via Geometry-Color Contrast (Point-GCC), which aligns geometry and color information using a Siamese network. To take care of actual application tasks, we design (i) hierarchical supervision with point-level contrast and reconstruct and object-level contrast based on the novel deep clustering module to close the gap between pre-training and downstream tasks; (ii) architecture-agnostic backbone to adapt for various downstream models. Benefiting from the object-level representation associated with downstream tasks, Point-GCC can directly evaluate model performance and the result demonstrates the effectiveness of our methods. Transfer learning results on a wide range of tasks also show consistent improvements across all datasets. e.g., new state-of-the-art object detection results on SUN RGB-D and S3DIS datasets. Codes will be released at https://github.com/Asterisci/Point-GCC.
翻訳日:2023-06-02 11:00:38 公開日:2023-06-01
# 微粒化セマンティックリワードを用いたテキスト・画像拡散モデルの構築

Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards ( http://arxiv.org/abs/2305.19599v2 )

ライセンス: Link先を確認
Guian Fang, Zutao Jiang, Jianhua Han, Guansong Lu, Hang Xu, Xiaodan Liang(参考訳) テキスト間拡散モデルの最近の進歩は、与えられたテキストプロンプトから高品質でリアルな画像を生成することに成功している。 しかし,テキスト概念と生成画像との正確なモーダリティアライメントは,モーダリティの不一致を正しく診断する詳細な意味指導が欠如しているため,従来の手法では実現できなかった。 本稿では,テキストから画像への拡散モデルにおけるテキストと画像のアライメントを改善するために,キャプションの報酬と意味セグメントの報酬という2つの新しい細粒度な意味的報酬を導入することを提案する。 グローバルセマンティックビューから、キャプション報酬は、BLIP−2モデルを介して合成画像のすべての重要な内容を描いた対応する詳細なキャプションを生成し、生成されたキャプションと与えられたプロンプトとの類似度を測定して報酬スコアを算出する。 ローカルセマンティックビューでは、SAM報酬は生成された画像をカテゴリラベル付きローカル部分に分割し、大きな言語モデル、すなわちVicuna-7Bを介して、プロンプトシーンに現れる各カテゴリの可能性を測定してセグメント化された部分を評価する。 さらに,複数の報酬関数の統合によるモデルトレーニングの指導を可能にするために,報酬ランク学習戦略をアセンブル化する。 MS-COCOベンチマークにおけるテキスト・ツー・イメージモデルの適用結果から,提案したセマンティック報酬は,入力プロンプトと視覚的品質と意味的類似性の両方において,他のベースライン報酬関数よりも優れていた。 さらに,アセンブル報酬ランク学習戦略を採用することで,提案する意味的報酬と現在の画像報酬の一体化により,モデル性能がさらに向上することを示す。

Recent advances in text-to-image diffusion models have achieved remarkable success in generating high-quality, realistic images from given text prompts. However, previous methods fail to perform accurate modality alignment between text concepts and generated images due to the lack of fine-level semantic guidance that successfully diagnoses the modality discrepancy. In this paper, we propose FineRewards to improve the alignment between text and images in text-to-image diffusion models by introducing two new fine-grained semantic rewards: the caption reward and the Semantic Segment Anything (SAM) reward. From the global semantic view, the caption reward generates a corresponding detailed caption that depicts all important contents in the synthetic image via a BLIP-2 model and then calculates the reward score by measuring the similarity between the generated caption and the given prompt. From the local semantic view, the SAM reward segments the generated images into local parts with category labels, and scores the segmented parts by measuring the likelihood of each category appearing in the prompted scene via a large language model, i.e., Vicuna-7B. Additionally, we adopt an assemble reward-ranked learning strategy to enable the integration of multiple reward functions to jointly guide the model training. Adapting results of text-to-image models on the MS-COCO benchmark show that the proposed semantic reward outperforms other baseline reward functions with a considerable margin on both visual quality and semantic similarity with the input prompt. Moreover, by adopting the assemble reward-ranked learning strategy, we further demonstrate that model performance is further improved when adapting under the unifying of the proposed semantic reward with the current image rewards.
翻訳日:2023-06-02 11:00:19 公開日:2023-06-01
# Dense and Aligned Captions (DAC)はVLモデルにおける合成推論を促進する

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models ( http://arxiv.org/abs/2305.19595v2 )

ライセンス: Link先を確認
Sivan Doveh, Assaf Arbelle, Sivan Harary, Roei Herzig, Donghyun Kim, Paola Cascante-bonilla, Amit Alfassy, Rameswar Panda, Raja Giryes, Rogerio Feris, Shimon Ullman, Leonid Karlinsky(参考訳) 視覚と言語(VL)モデルは、画像とテキストの表現空間を整列させる効果的な方法を提供し、クロスモーダル検索、視覚的質問応答、キャプションなど多くの応用をもたらす。 しかし、人気のあるvlモデルで学習された整列した画像テキスト空間は、いわゆる「オブジェクトバイアス」に苦しんでおり、それらの表現は「名詞の袋」として振る舞う。 これらの「仮定的推論」の問題を修正する試みが最近の文献でいくつか提案されているが、まだ解決には至っていない。 本稿では,VLモデルの合成推論性能を制限する2つの要因を明らかにする。 これらの2つの要因は、VLモデルの微調整と事前学習に使用されるペアVLデータセットの特性である。 (i)本文の字幕品質又は言い換えれば「画像表示」であって、 (ii)画像に現れる細部を全て言及する意味での字幕の「密度」 本稿では,標準VLデータセット(CC3M)を利用して,これらの因子を自動的に扱うための微調整手法を提案する。 CLIPに適用すると、ベースモデルで最大$\sim27\%、最強のベースラインで最大$\sim20\%、平均6.7\%という、構成的推論のパフォーマンスが大幅に向上することを示す。

Vision and Language (VL) models offer an effective method for aligning representation spaces of images and text, leading to numerous applications such as cross-modal retrieval, visual question answering, captioning, and more. However, the aligned image-text spaces learned by all the popular VL models are still suffering from the so-called `object bias' - their representations behave as `bags of nouns', mostly ignoring or downsizing the attributes, relations, and states of objects described/appearing in texts/images. Although some great attempts at fixing these `compositional reasoning' issues were proposed in the recent literature, the problem is still far from being solved. In this paper, we uncover two factors limiting the VL models' compositional reasoning performance. These two factors are properties of the paired VL dataset used for finetuning and pre-training the VL model: (i) the caption quality, or in other words `image-alignment', of the texts; and (ii) the `density' of the captions in the sense of mentioning all the details appearing on the image. We propose a fine-tuning approach for automatically treating these factors leveraging a standard VL dataset (CC3M). Applied to CLIP, we demonstrate its significant compositional reasoning performance increase of up to $\sim27\%$ over the base model, up to $\sim20\%$ over the strongest baseline, and by $6.7\%$ on average.
翻訳日:2023-06-02 10:59:46 公開日:2023-06-01
# クロスドメインプラネタリー・ギアボックス障害診断のための健康データマップを用いたドメイン知識による合成故障サンプル生成

Domain knowledge-informed Synthetic fault sample generation with Health Data Map for cross-domain Planetary Gearbox Fault Diagnosis ( http://arxiv.org/abs/2305.19569v2 )

ライセンス: Link先を確認
Jong Moon Ha and Olga Fink(参考訳) 振動信号と深層学習(dl)を用いた惑星ギアボックスの故障診断に関する広範な研究が行われている。 しかし, dlベースの手法は, ギヤボックスの動作条件が異なるため, ドメインシフト問題に影響を受けやすい。 このようなドメインシフトを克服するために、ドメイン適応とデータ合成法が提案されているが、ターゲットドメインで健全なデータしか利用できない現実の状況では直接適用されないことが多い。 本稿では,対象領域にのみ健全なデータが存在する極端領域シフトシナリオの課題を解決するために,health data map (hdmap) を用いた2つの新しいドメイン知識に基づくデータ合成手法を提案する。 提案された2つのアプローチはスケールされた CutPaste と FaultPaste と呼ばれる。 hdmapはプラネタリー・ギアボックスの振動信号をイメージライクなマトリックスとして物理的に表現するために使用され、断層関連の特徴を可視化することができる。 CutPasteとFactPasteは、それぞれソースドメインから抽出されたドメイン知識と障害シグネチャを使用して、ターゲットドメインの健全なデータに基づいて障害サンプルを生成する。 提案手法は,実際の障害を生成することに加えて,様々な重大度レベルを有する障害の合成制御のための障害シグネチャのスケーリングを導入する。 提案手法を評価するために、惑星のギアボックス試験台上でケーススタディを行った。 その結果,提案手法は,過度な領域シフトの場合であっても,障害を正確に診断でき,対象領域ではこれまで観測されていなかった障害の重大度を推定できることがわかった。

Extensive research has been conducted on fault diagnosis of planetary gearboxes using vibration signals and deep learning (DL) approaches. However, DL-based methods are susceptible to the domain shift problem caused by varying operating conditions of the gearbox. Although domain adaptation and data synthesis methods have been proposed to overcome such domain shifts, they are often not directly applicable in real-world situations where only healthy data is available in the target domain. To tackle the challenge of extreme domain shift scenarios where only healthy data is available in the target domain, this paper proposes two novel domain knowledge-informed data synthesis methods utilizing the health data map (HDMap). The two proposed approaches are referred to as scaled CutPaste and FaultPaste. The HDMap is used to physically represent the vibration signal of the planetary gearbox as an image-like matrix, allowing for visualization of fault-related features. CutPaste and FaultPaste are then applied to generate faulty samples based on the healthy data in the target domain, using domain knowledge and fault signatures extracted from the source domain, respectively. In addition to generating realistic faults, the proposed methods introduce scaling of fault signatures for controlled synthesis of faults with various severity levels. A case study is conducted on a planetary gearbox testbed to evaluate the proposed approaches. The results show that the proposed methods are capable of accurately diagnosing faults, even in cases of extreme domain shift, and can estimate the severity of faults that have not been previously observed in the target domain.
翻訳日:2023-06-02 10:59:18 公開日:2023-06-01
# オンライン適応型オフラインメタ強化学習

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation ( http://arxiv.org/abs/2305.19529v2 )

ライセンス: Link先を確認
Jianhao Wang, Jin Zhang, Haozhe Jiang, Junyu Zhang, Liwei Wang, Chongjie Zhang(参考訳) 最近のオフラインメタ強化学習(meta-RL)手法は、通常、タスク依存の行動ポリシー(例えば、各タスクにRLエージェントを訓練するなど)を用いてマルチタスクデータセットを収集する。 しかし、これらのメソッドは常に、テストタスクのオフラインコンテキストなど、迅速な適応のために余分な情報を必要とする。 この問題に対処するために、我々はまずオフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を公式に特徴づける。 本理論では,分散適応エピソードは信頼できない政策評価につながる可能性があり,配信内適応エピソードによるオンライン適応は適応性能の保証を保証できると考えられる。 これらの理論的知見に基づいて,不確実性定量化を伴うオンライン適応(IDAQ)と呼ばれる新しい適応フレームワークを提案し,不確実性定量化を用いて分散コンテキストを生成し,新しいタスクに対処するための効果的なタスク信念推論を行う。 IDAQの返却に基づく不確実性定量化が有効である。 実験の結果, IDAQは, オフライン適応を伴わないベースラインと比較して, Meta-World ML1ベンチマークで最先端のパフォーマンスを達成した。

Recent offline meta-reinforcement learning (meta-RL) methods typically utilize task-dependent behavior policies (e.g., training RL agents on each individual task) to collect a multi-task dataset. However, these methods always require extra information for fast adaptation, such as offline context for testing tasks. To address this problem, we first formally characterize a unique challenge in offline meta-RL: transition-reward distribution shift between offline datasets and online adaptation. Our theory finds that out-of-distribution adaptation episodes may lead to unreliable policy evaluation and that online adaptation with in-distribution episodes can ensure adaptation performance guarantee. Based on these theoretical insights, we propose a novel adaptation framework, called In-Distribution online Adaptation with uncertainty Quantification (IDAQ), which generates in-distribution context using a given uncertainty quantification and performs effective task belief inference to address new tasks. We find a return-based uncertainty quantification for IDAQ that performs effectively. Experiments show that IDAQ achieves state-of-the-art performance on the Meta-World ML1 benchmark compared to baselines with/without offline adaptation.
翻訳日:2023-06-02 10:58:52 公開日:2023-06-01
# Johnson-Lindenstrauss行列によるラベル埋め込み

Label Embedding by Johnson-Lindenstrauss Matrices ( http://arxiv.org/abs/2305.19470v2 )

ライセンス: Link先を確認
Jianxin Zhang and Clayton Scott(参考訳) Johnson-Lindenstrauss matrices (JLMs) に基づく超多クラス分類のためのシンプルでスケーラブルなフレームワークを提案する。 JLMの列を使ってラベルを埋め込むと、$C$クラスの分類問題は$\cO(\log C)$出力次元の回帰問題に変換される。 計算効率と予測精度のトレードオフを明らかにする過大なリスクバウンダリを導出し,マッサートノイズ条件下では次元減少のペナルティがなくなることを示す。 私たちのアプローチは容易に並列化でき、実験結果は大規模アプリケーションにおけるその効果と拡張性を示しています。

We present a simple and scalable framework for extreme multiclass classification based on Johnson-Lindenstrauss matrices (JLMs). Using the columns of a JLM to embed the labels, a $C$-class classification problem is transformed into a regression problem with $\cO(\log C)$ output dimension. We derive an excess risk bound, revealing a tradeoff between computational efficiency and prediction accuracy, and further show that under the Massart noise condition, the penalty for dimension reduction vanishes. Our approach is easily parallelizable, and experimental results demonstrate its effectiveness and scalability in large-scale applications.
翻訳日:2023-06-02 10:58:33 公開日:2023-06-01
# PaintSeg: ペイントによるトレーニング不要のセグメンテーション

PaintSeg: Training-free Segmentation via Painting ( http://arxiv.org/abs/2305.19406v2 )

ライセンス: Link先を確認
Xiang Li, Chung-Ching Lin, Yinpeng Chen, Zicheng Liu, Jinglu Wang, Bhiksha Raj(参考訳) トレーニングなしでオブジェクトをセグメント化するための新しい教師なし手法であるPaintSegを紹介した。 本稿では,原画像と被写体領域が塗装された塗装画像とのコントラストを,市販の合成モデルを用いて生成する,対向型マスク付きコントラスト絵画(AMCP)プロセスを提案する。 塗装工程では、前者が前景をマスクし、背景を充填し、後者が前景の欠片を回収しながら背景をマスクし、塗りつぶしと外装を交互に行う。 i-step や o-step とも呼ばれる塗りつぶしや塗り外しは、監視や訓練なしに徐々に対象のセグメンテーションマスクを地上の真理に向かって前進させることを可能にする。 paintsegは、粗いマスク、ボックス、スクリブル、ポイントなど、さまざまなプロンプトで動作するように構成できる。 実験の結果,paintsegは粗いマスクプロンプト,ボックスプロンプト,ポイントプロンプトのセグメンテーションタスクにおいて既存のアプローチよりも優れており,教師なしセグメンテーションに適したトレーニングフリーなソリューションを提供する。

The paper introduces PaintSeg, a new unsupervised method for segmenting objects without any training. We propose an adversarial masked contrastive painting (AMCP) process, which creates a contrast between the original image and a painted image in which a masked area is painted using off-the-shelf generative models. During the painting process, inpainting and outpainting are alternated, with the former masking the foreground and filling in the background, and the latter masking the background while recovering the missing part of the foreground object. Inpainting and outpainting, also referred to as I-step and O-step, allow our method to gradually advance the target segmentation mask toward the ground truth without supervision or training. PaintSeg can be configured to work with a variety of prompts, e.g. coarse masks, boxes, scribbles, and points. Our experimental results demonstrate that PaintSeg outperforms existing approaches in coarse mask-prompt, box-prompt, and point-prompt segmentation tasks, providing a training-free solution suitable for unsupervised segmentation.
翻訳日:2023-06-02 10:58:22 公開日:2023-06-01
# k^2$-trees による階層グラフ生成

Hierarchical Graph Generation with $K^2$-trees ( http://arxiv.org/abs/2305.19125v2 )

ライセンス: Link先を確認
Yunhui Jang, Dongwoo Kim, Sungsoo Ahn(参考訳) ターゲットの分布からグラフを生成することは、薬物発見やソーシャルネットワーク分析など、多くのドメインで大きな課題である。 本研究では,もともとロスレスグラフ圧縮のために設計された$k^2$-tree表現を用いた新しいグラフ生成手法を提案する。 我々の動機は、グラフの固有の階層構造を同時に捉えながら、コンパクト生成を可能にするために$k^2$-treesの能力にある。 また,(1)プランニング,フラット化,およびトークン化処理を組み込んだ逐次$k^2$-tree表現と,(2)特別な木位置符号化スキームを組み込んでシーケンスを生成するよう設計されたトランスフォーマティブアーキテクチャを導入することで,さらなる貢献を行う。 最後に,本アルゴリズムを4つの一般および2つの分子グラフデータセット上で広範囲に評価し,グラフ生成の優位性を確認する。

Generating graphs from a target distribution is a significant challenge across many domains, including drug discovery and social network analysis. In this work, we introduce a novel graph generation method leveraging $K^2$-tree representation which was originally designed for lossless graph compression. Our motivation stems from the ability of the $K^2$-trees to enable compact generation while concurrently capturing the inherent hierarchical structure of a graph. In addition, we make further contributions by (1) presenting a sequential $K^2$-tree representation that incorporates pruning, flattening, and tokenization processes and (2) introducing a Transformer-based architecture designed to generate the sequence by incorporating a specialized tree positional encoding scheme. Finally, we extensively evaluate our algorithm on four general and two molecular graph datasets to confirm its superiority for graph generation.
翻訳日:2023-06-02 10:57:59 公開日:2023-06-01
# ビジョンランゲージ事前学習のためのデータ削減

Too Large; Data Reduction for Vision-Language Pre-Training ( http://arxiv.org/abs/2305.20087v2 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan Weixian Lei and Mike Zheng Shou(参考訳) 本稿では,vlpデータセットにおける重大画像テキスト不一致と高い冗長性の問題について検討する。 そこで本研究では,既存の大規模vlpデータを小型で高品質な集合に圧縮することを目的とした,効率的な視覚言語学習アルゴリズムtl;drを提案する。 我々のアプローチは2つの大きなステップからなる。 まず、代表サンプルを選択するコードブックベースのエンコーダ・デコーダキャプションを開発した。 第2に、選択されたサンプルの原字幕を補完する新たなキャプションを生成し、独特性を維持しつつ、テキスト画像の誤調整問題を緩和する。 その結果、TL;DRにより、大規模なデータセットを少数の高品質なデータセットに縮小することが可能となり、代替の事前学習データセットとして機能する。 このアルゴリズムは、時間を要する事前学習プロセスを著しく高速化する。 具体的には、TL;DRは主流のVLPデータセットを高い比率で圧縮することができる。例えば、よくクリーニングされたCC3Mデータセットを2.82Mから0.67M(\sim$24\%)に、ノイズの多いYFCC15Mを15Mから2.5M(\sim$16.7\%)に削減できる。 7つのダウンストリームタスクにまたがる3つの一般的なVLPモデルによる大規模な実験により、TL;DRによって提供される圧縮データセットでトレーニングされたVLPモデルは、フルスケールデータセットでのトレーニングと比較すると、同様の、あるいはそれ以上の結果が得られることが示された。 コードは \url{https://github.com/showlab/data-centric.vlp} で入手できる。

This paper examines the problems of severe image-text misalignment and high redundancy in the widely-used large-scale Vision-Language Pre-Training (VLP) datasets. To address these issues, we propose an efficient and straightforward Vision-Language learning algorithm called TL;DR, which aims to compress the existing large VLP data into a small, high-quality set. Our approach consists of two major steps. First, a codebook-based encoder-decoder captioner is developed to select representative samples. Second, a new caption is generated to complement the original captions for selected samples, mitigating the text-image misalignment problem while maintaining uniqueness. As the result, TL;DR enables us to reduce the large dataset into a small set of high-quality data, which can serve as an alternative pre-training dataset. This algorithm significantly speeds up the time-consuming pretraining process. Specifically, TL;DR can compress the mainstream VLP datasets at a high ratio, e.g., reduce well-cleaned CC3M dataset from 2.82M to 0.67M ($\sim$24\%) and noisy YFCC15M from 15M to 2.5M ($\sim$16.7\%). Extensive experiments with three popular VLP models over seven downstream tasks show that VLP model trained on the compressed dataset provided by TL;DR can perform similar or even better results compared with training on the full-scale dataset. The code will be made available at \url{https://github.com/showlab/data-centric.vlp}.
翻訳日:2023-06-02 10:51:57 公開日:2023-06-01
# 人間-AI協調のための意思決定指向対話

Decision-Oriented Dialogue for Human-AI Collaboration ( http://arxiv.org/abs/2305.20076v2 )

ライセンス: Link先を確認
Jessy Lin, Nicholas Tomlin, Jacob Andreas, Jason Eisner(参考訳) 決定指向対話と呼ばれるタスクのクラスについて説明する。AIアシスタントは自然言語を使って1つ以上の人間と協調して複雑な意思決定を行う必要がある。 日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。 これらの設定において、AIアシスタントとユーザーは、最高の決定に達するために組み合わせなければならない異なる能力を持っている:アシスタントは大量の情報にアクセスして処理でき、ユーザーはシステム以外の好みや制約を持っている。 それぞれのタスクに対して、エージェントが到達した最終決定の品質に基づいて報酬を受け取る対話環境を構築します。 これらの環境を用いて,人間と人間の対話をアシスタントとして収集する。 これらの設定で、現在のAIアシスタントがどのようにコミュニケーションしているかを比較するために、私たちは、大きな言語モデルを使ってベースラインを提示します。 最後に、効率的なコミュニケーションから推論と最適化まで、意思決定指向の対話においてモデルが直面する多くの課題を強調し、将来のモデリング作業のためのテストベッドとして環境をリリースする。

We describe a class of tasks called decision-oriented dialogues, in which AI assistants must collaborate with one or more humans via natural language to help them make complex decisions. We formalize three domains in which users face everyday decisions: (1) choosing an assignment of reviewers to conference papers, (2) planning a multi-step itinerary in a city, and (3) negotiating travel plans for a group of friends. In each of these settings, AI assistants and users have disparate abilities that they must combine to arrive at the best decision: assistants can access and process large amounts of information, while users have preferences and constraints external to the system. For each task, we build a dialogue environment where agents receive a reward based on the quality of the final decision they reach. Using these environments, we collect human-human dialogues with humans playing the role of assistant. To compare how current AI assistants communicate in these settings, we present baselines using large language models in self-play. Finally, we highlight a number of challenges models face in decision-oriented dialogues, ranging from efficient communication to reasoning and optimization, and release our environments as a testbed for future modeling work.
翻訳日:2023-06-02 10:51:29 公開日:2023-06-01
# F? D:顔生成評価における深部特徴空間の役割の理解について

F?D: On understanding the role of deep feature spaces on face generation evaluation ( http://arxiv.org/abs/2305.20048v2 )

ライセンス: Link先を確認
Krish Kabra, Guha Balakrishnan(参考訳) Fr\'echet Inception Distance (FID)のような知覚メトリクスは、合成生成画像と地上の真実画像(実画像)の類似性を評価するために広く用いられている。 これらのメトリクスの背後にある重要なアイデアは、知覚的かつセマンティックにリッチな画像特徴をキャプチャする、深い機能領域におけるエラーの計算である。 その人気にもかかわらず、異なる深い特徴とその設計選択が知覚的メートル法に与える影響はよく研究されていない。 本研究では,いくつかの一般的な深層特徴空間を用いて,顔画像分布とfr\'echet距離(fd)との間の意味属性と歪みの差異を関連付けた因果分析を行う。 分析の重要な要素は,ディープフェイスジェネレータを用いた合成偽顔の作成である。 実験の結果,FDは特徴空間のトレーニングデータセットと目的関数に大きく影響されていることがわかった。 例えば、ImageNetでトレーニングされたモデルから抽出された機能を使用してFDは、目や口などの領域に重きを置く。 さらに、顔の性別分類器の特徴を用いたFDは、アイデンティティ(認識)特徴空間における距離よりも髪の長さを強調する。 最後に,特徴空間にまたがる複数の人気顔生成モデルを評価し,識別(認識)機能を除き,StyleGAN2が他の顔生成装置よりも常に上位にあることを確認する。 これは、生成モデルを評価し、関心領域のニュアンスに合わせて調整された特徴空間を使用する際に、複数の特徴空間を考える必要性を示唆する。

Perceptual metrics, like the Fr\'echet Inception Distance (FID), are widely used to assess the similarity between synthetically generated and ground truth (real) images. The key idea behind these metrics is to compute errors in a deep feature space that captures perceptually and semantically rich image features. Despite their popularity, the effect that different deep features and their design choices have on a perceptual metric has not been well studied. In this work, we perform a causal analysis linking differences in semantic attributes and distortions between face image distributions to Fr\'echet distances (FD) using several popular deep feature spaces. A key component of our analysis is the creation of synthetic counterfactual faces using deep face generators. Our experiments show that the FD is heavily influenced by its feature space's training dataset and objective function. For example, FD using features extracted from ImageNet-trained models heavily emphasize hats over regions like the eyes and mouth. Moreover, FD using features from a face gender classifier emphasize hair length more than distances in an identity (recognition) feature space. Finally, we evaluate several popular face generation models across feature spaces and find that StyleGAN2 consistently ranks higher than other face generators, except with respect to identity (recognition) features. This suggests the need for considering multiple feature spaces when evaluating generative models and using feature spaces that are tuned to nuances of the domain of interest.
翻訳日:2023-06-02 10:51:09 公開日:2023-06-01
# 対数比較を用いた主観的アノテーションのクラウドソーシングによるバイアスと誤差の低減

Crowdsourcing subjective annotations using pairwise comparisons reduces bias and error compared to the majority-vote method ( http://arxiv.org/abs/2305.20042v2 )

ライセンス: Link先を確認
Hasti Narimanzadeh, Arash Badie-Modiri, Iuliia Smirnova, Ted Hsuan Yun Chen(参考訳) クラウドソーシングラベリングにおける主観性による測定のばらつきとバイアスをいかに改善するかは、未解決の問題である。 主観的構成のクラウドソースアノテーションにランダムエラーと計測バイアスがどのように入り込むかを理解するための理論的枠組みを提案する。 次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。 提案手法の有効性を評価するため,クラウドソース型ラベリングのエージェントベースモデルを構築し,タスクに異なるタイプの主観性を導入する。 タスク主観性を持つほとんどの条件下では、比較手法はより高いf_1$スコアを生み出す。 さらに、比較アプローチは、多数決が実施する傾向の偏りを膨らませる影響を受けにくい。 応用を容易にするために,同一分類精度の必要なランダム比較数がラベル付き項目数と対数的に$o(n \log n)$となることをシミュレーションおよび実世界データを用いて示す。 また、オープンソースのPythonパッケージとしてEloシステムを実装しました。

How to better reduce measurement variability and bias introduced by subjectivity in crowdsourced labelling remains an open question. We introduce a theoretical framework for understanding how random error and measurement bias enter into crowdsourced annotations of subjective constructs. We then propose a pipeline that combines pairwise comparison labelling with Elo scoring, and demonstrate that it outperforms the ubiquitous majority-voting method in reducing both types of measurement error. To assess the performance of the labelling approaches, we constructed an agent-based model of crowdsourced labelling that lets us introduce different types of subjectivity into the tasks. We find that under most conditions with task subjectivity, the comparison approach produced higher $f_1$ scores. Further, the comparison approach is less susceptible to inflating bias, which majority voting tends to do. To facilitate applications, we show with simulated and real-world data that the number of required random comparisons for the same classification accuracy scales log-linearly $O(N \log N)$ with the number of labelled items. We also implemented the Elo system as an open-source Python package.
翻訳日:2023-06-02 10:50:41 公開日:2023-06-01
# 木輪透かし:目に見えず頑丈な拡散画像の指紋

Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust ( http://arxiv.org/abs/2305.20030v2 )

ライセンス: Link先を確認
Yuxin Wen, John Kirchenbauer, Jonas Geiping, Tom Goldstein(参考訳) 生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。 本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。 サンプリング後の画像へのポストホックな修正を行う既存の方法とは異なり、Tree-Ring Watermarkingはサンプリングプロセス全体に微妙に影響を与え、人間の目に見えないモデル指紋を生み出す。 ウォーターマークは、サンプリングに使用される初期ノイズベクトルにパターンを埋め込む。 これらのパターンはよりフーリエ空間に構成され、畳み込み、作物、拡張、反転、回転に不変である。 画像生成後、拡散過程を反転してノイズベクトルを検索して透かし信号を検出し、埋め込み信号をチェックする。 この手法は,fidの損失を無視できるプラグインとして,テキスト条件付き安定拡散を含む任意の拡散モデルに容易に適用できることを実証する。 私たちのウォーターマークはイメージ空間にセマンティックに隠されており、現在デプロイされているウォーターマークよりもずっと堅牢です。 コードはhttps://github.com/yuxinwenrick/tree-ring-watermarkで入手できる。

Watermarking the outputs of generative models is a crucial technique for tracing copyright and preventing potential harm from AI-generated content. In this paper, we introduce a novel technique called Tree-Ring Watermarking that robustly fingerprints diffusion model outputs. Unlike existing methods that perform post-hoc modifications to images after sampling, Tree-Ring Watermarking subtly influences the entire sampling process, resulting in a model fingerprint that is invisible to humans. The watermark embeds a pattern into the initial noise vector used for sampling. These patterns are structured in Fourier space so that they are invariant to convolutions, crops, dilations, flips, and rotations. After image generation, the watermark signal is detected by inverting the diffusion process to retrieve the noise vector, which is then checked for the embedded signal. We demonstrate that this technique can be easily applied to arbitrary diffusion models, including text-conditioned Stable Diffusion, as a plug-in with negligible loss in FID. Our watermark is semantically hidden in the image space and is far more robust than watermarking alternatives that are currently deployed. Code is available at https://github.com/YuxinWenRick/tree-ring-watermark.
翻訳日:2023-06-02 10:50:20 公開日:2023-06-01
# ビームツリー再帰細胞

Beam Tree Recursive Cells ( http://arxiv.org/abs/2305.19999v2 )

ライセンス: Link先を確認
Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) 本稿では,Recursive Neural Networks (RvNN) を拡張し,遅延構造誘導のためのビームサーチを行うバックプロパゲーションフレンドリーなフレームワークである Beam Tree Recursive Cell (BT-Cell) を提案する。 この枠組みをさらに拡張し,ビーム探索におけるハードトップk演算子の緩和を提案すれば,勾配信号の伝搬性が向上する。 提案手法は, 合成データと現実データの両方において, 異なる分布分割で評価する。 実験の結果、BTCellはリストOpsや論理推論といった難易度の高い構造依存型合成タスクにおいて、他のRvNNモデルと同等の性能を保ちながら、ほぼ完璧な性能を実現していることがわかった。 さらに, listops における未知の引数数に対する一般化において,神経モデルの既知の障害事例を同定する。 コードは、https://github.com/JRC 1995/BeamTreeRecursiveCellsで入手できる。

We propose Beam Tree Recursive Cell (BT-Cell) - a backpropagation-friendly framework to extend Recursive Neural Networks (RvNNs) with beam search for latent structure induction. We further extend this framework by proposing a relaxation of the hard top-k operators in beam search for better propagation of gradient signals. We evaluate our proposed models in different out-of-distribution splits in both synthetic and realistic data. Our experiments show that BTCell achieves near-perfect performance on several challenging structure-sensitive synthetic tasks like ListOps and logical inference while maintaining comparable performance in realistic data against other RvNN-based models. Additionally, we identify a previously unknown failure case for neural models in generalization to unseen number of arguments in ListOps. The code is available at: https://github.com/JRC1995/BeamTreeRecursiveCells.
翻訳日:2023-06-02 10:50:00 公開日:2023-06-01
# InGram: 関係グラフによる帰納的知識グラフの埋め込み

InGram: Inductive Knowledge Graph Embedding via Relation Graphs ( http://arxiv.org/abs/2305.19987v2 )

ライセンス: Link先を確認
Jaejun Lee, Chanyoung Chung, Joyce Jiyoung Whang(参考訳) 帰納的知識グラフの完成は、トレーニング中に観察されない新しいエンティティ間の三重項の欠落を予測するタスクとみなされている。 ほとんどの帰納的知識グラフ補完法は、全ての実体が新しいものであると仮定するが、推論時に新しい関係が現れることを許さない。 この制限により、既存のメソッドは、新しいエンティティが新しい関係を伴う実世界の知識グラフを適切に扱うことができない。 本稿では,推論時に新たなエンティティだけでなく,新たな関係の埋め込みを生成できる帰納的知識グラフ埋め込み手法ingramを提案する。 知識グラフが与えられた場合、関係グラフは関係と親和性重みからなる重み付きグラフとして定義する。 関係グラフと元の知識グラフに基づいて、InGramは隣り合う埋め込みを集約する方法を学び、注意機構を用いて関係と実体の埋め込みを生成する。 実験の結果,InGramは様々な帰納的学習シナリオにおいて,14種類の最先端手法より優れていた。

Inductive knowledge graph completion has been considered as the task of predicting missing triplets between new entities that are not observed during training. While most inductive knowledge graph completion methods assume that all entities can be new, they do not allow new relations to appear at inference time. This restriction prohibits the existing methods from appropriately handling real-world knowledge graphs where new entities accompany new relations. In this paper, we propose an INductive knowledge GRAph eMbedding method, InGram, that can generate embeddings of new relations as well as new entities at inference time. Given a knowledge graph, we define a relation graph as a weighted graph consisting of relations and the affinity weights between them. Based on the relation graph and the original knowledge graph, InGram learns how to aggregate neighboring embeddings to generate relation and entity embeddings using an attention mechanism. Experimental results show that InGram outperforms 14 different state-of-the-art methods on varied inductive learning scenarios.
翻訳日:2023-06-02 10:49:45 公開日:2023-06-01
# シーケンスラベリングのためのグローバルコンテキスト機構

A Global Context Mechanism for Sequence Labeling ( http://arxiv.org/abs/2305.19928v2 )

ライセンス: Link先を確認
Conglei Xu, Kun Shen, Hongguang Sun(参考訳) 逐次ラベリングタスクは、与えられた文内の各単語に対する文表現の計算を必要とする。 先進的な事前訓練言語モデルの出現に伴い、ある一般的なアプローチは、出力レベルでシーケンス構造情報を強化するためにBiLSTM層を統合することである。 それにもかかわらず、シーケンスラベリングタスクのための文表現を生成するBiLSTMのポテンシャルは、主に過去と将来の文表現の融合によって完全な文表現を形成することが実証されている(P.-H. Li et al., 2020)。 本研究では,BiLSTMの第1細胞と第2細胞に存在する全文表現をエカセルの文表現に戦略的に統合することで,F1のスコアと精度を著しく向上させることを発見した。 BiLSTM内に埋め込まれたBERTを図示として、名前付きエンティティ認識(NER)、音声認識(POS)タグ付け、エンド・ツー・エンドのアスペクトベース感情分析(E2E-ABSA)を含む、シーケンスラベリングタスクの9つのデータセットで徹底的な実験を行った。 F1スコアの大幅な改善と,全調査データセットの精度向上に留意した。

Sequential labeling tasks necessitate the computation of sentence representations for each word within a given sentence. With the advent of advanced pretrained language models; one common approach involves incorporating a BiLSTM layer to bolster the sequence structure information at the output level. Nevertheless, it has been empirically demonstrated (P.-H. Li et al., 2020) that the potential of BiLSTM for generating sentence representations for sequence labeling tasks is constrained, primarily due to the amalgamation of fragments form past and future sentence representations to form a complete sentence representation. In this study, we discovered that strategically integrating the whole sentence representation, which existing in the first cell and last cell of BiLSTM, into sentence representation of ecah cell, could markedly enhance the F1 score and accuracy. Using BERT embedded within BiLSTM as illustration, we conducted exhaustive experiments on nine datasets for sequence labeling tasks, encompassing named entity recognition (NER), part of speech (POS) tagging and End-to-End Aspect-Based sentiment analysis (E2E-ABSA). We noted significant improvements in F1 scores and accuracy across all examined datasets .
翻訳日:2023-06-02 10:49:26 公開日:2023-06-01
# 画像言語学習のための共同適応表現

Joint Adaptive Representations for Image-Language Learning ( http://arxiv.org/abs/2305.19924v2 )

ライセンス: Link先を確認
AJ Piergiovanni and Anelia Angelova(参考訳) 画像言語学習は視覚的理解において前例のない進歩を遂げた。 現代の視覚言語モデルは大規模なモデルスケールと大量のデータを必要とするため、これらの開発はコストが高い。 ここでは、画像言語学習のより簡単なレシピを提案し、効果的モデルを生成し、より大きくて高価なものより優れ、しばしば桁違いに大きなデータセットで訓練される。 我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。 これにより、一般的な画像言語モデルで使用されるベースライン融合技術に比べて、テキストと画像のトークン数を33\%削減するなど、テキストと画像のトークン数を組み合わせることで、フロップを大幅に削減する、より効果的な画像言語学習が可能になる。 これにより、FLOPやメモリを大きく増やすことなくモデルをスケールすることができる。 さらに,データ効率を向上させる適応型事前学習データサンプリングを提案する。 提案手法は,より大規模なモデルと比較して競争性能が向上し,データとFLOPが大幅に減少する。 わずか40万のトレーニングサンプルと39gflopsの軽量モデルでは、最先端モデルの数倍の2~20倍のフロップと、1bのトレーニングサンプルを持つ大きなデータセットを使用しています。

Image-language learning has made unprecedented progress in visual understanding. These developments have come at high costs, as contemporary vision-language models require large model scales and amounts of data. We here propose a much easier recipe for image-language learning, which produces effective models, outperforming bigger and more expensive ones, often trained on orders of magnitude larger datasets. Our key finding is the joint learning of a compact vision and language representation, which adaptively and iteratively fuses the multi-modal features. This results in a more effective image-language learning, greatly lowering the FLOPs by combining and reducing the number of tokens for both text and images, e.g. a 33\% reduction in FLOPs is achieved, compared to baseline fusion techniques used by popular image-language models, while improving performance. This also allows the model to scale without a large increase in FLOPs or memory. In addition, we propose adaptive pre-training data sampling which improves the data efficiency. The proposed approach achieves competitive performance compared to much larger models, and does so with significantly less data and FLOPs. With only 40M training examples and with 39 GFLOPs our lightweight model outperforms many times larger state-of-the-art models of 2-20x more FLOPs and using bigger datasets some of which with close to 1B training examples.
翻訳日:2023-06-02 10:49:04 公開日:2023-06-01
# 直接学習に基づくディープスパイクニューラルネットワーク

Direct Learning-Based Deep Spiking Neural Networks: A Review ( http://arxiv.org/abs/2305.19725v2 )

ライセンス: Link先を確認
Yufei Guo, Xuhui Huang, Zhe Ma(参考訳) スパイクニューラルネットワーク(SNN)は、二分スパイク情報伝達機構、豊かな空間的時間的ダイナミクス、イベント駆動特性を備えた有望な脳インスピレーション型計算モデルである。 しかし、その複雑な不連続スパイク機構は、深いSNNの最適化に困難をもたらす。 シュロゲート勾配法は、最適化の難しさを大幅に軽減し、深層SNNを直接訓練する大きな可能性を秘めているため、近年、様々な直接学習に基づく深層SNN作品が提案され、達成されている。 本稿では,これらの直接学習に基づく深層SNN研究を,主に精度向上手法,効率改善方法,時間的ダイナミクス利用方法に分類した包括的調査を行う。 さらに,これらの分類をより細かい粒度に分割し,整理し,導入する。 最後に、今後の研究で直面するであろう課題とトレンドが予想される。

The spiking neural network (SNN), as a promising brain-inspired computational model with binary spike information transmission mechanism, rich spatially-temporal dynamics, and event-driven characteristics, has received extensive attention. However, its intricately discontinuous spike mechanism brings difficulty to the optimization of the deep SNN. Since the surrogate gradient method can greatly mitigate the optimization difficulty and shows great potential in directly training deep SNNs, a variety of direct learning-based deep SNN works have been proposed and achieved satisfying progress in recent years. In this paper, we present a comprehensive survey of these direct learning-based deep SNN works, mainly categorized into accuracy improvement methods, efficiency improvement methods, and temporal dynamics utilization methods. In addition, we also divide these categorizations into finer granularities further to better organize and introduce them. Finally, the challenges and trends that may be faced in future research are prospected.
翻訳日:2023-06-02 10:48:39 公開日:2023-06-01