このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230807となっている論文です。

PDF登録状況(公開日: 20230807)

TitleAuthorsAbstract論文公表日・翻訳日
# 1+1>2:プログラミングノウハウとノウハウの融合,セマンティックエンリッチメント,コヒーレント応用

1+1>2: Programming Know-What and Know-How Knowledge Fusion, Semantic Enrichment and Coherent Application ( http://arxiv.org/abs/2207.05560v3 )

ライセンス: Link先を確認
Qing Huang, Zhiqiang Yuan, Zhenchang Xing, Zhengkang Zuo, Changjing Wang, Xin Xia(参考訳) ソフトウェアプログラミングは、API参照(ノウハウ)知識とプログラミングタスク(ノウハウ)知識の両方を必要とする。 多くのプログラミングノウハウとノウハウの知識は、例えばAPIリファレンスドキュメンテーションやプログラミングチュートリアルで文書化されている。 知識アクセシビリティと使用性を改善するために、近年の研究では、APIノウハウ知識グラフ(API-KG)とタスクノウハウ知識グラフ(Task-KG)をソフトウェアドキュメントから構築するために自然言語処理(NLP)メソッドを使用している。 有望ではあるが、現在のAPI-KGとTask-KGは互いに独立しており、2つのタイプの知識の間に固有のつながりがない。 Stack Overflowの質問に関する実証的研究では、ノウハウやノウハウの知識だけで答えられるのはAPI使用問題の36%に過ぎません。 この観察に触発されて、APIエンティティリンクによってAPI-KGとTask-KGを融合する最初の試みを行う。 この融合は、APIセマンティックリレーションの9つのカテゴリと、スタンドアロンAPI-KGまたはTask-KGに存在しない2つのタイプのタスクセマンティックリレーションを生成する。 これらの新しいAPIとタスクの意味関係の定義によると、我々のアプローチは、API-KGとTask-KGをリンクする表面レベルのAPIよりも深く掘り下げ、現在のAPI-KGとTask-KGの宣言や構文関係を強化するAPI-KGの助けを借りて、タスク記述と2種類のタスクの意味関係から9つのAPIの意味関係のカテゴリを推測する。 KGは、テキストやコードクエリによるコヒーレントなAPI/Task中心の知識検索をサポートします。

Software programming requires both API reference (know-what) knowledge and programming task (know-how) knowledge. Lots of programming know-what and know-how knowledge is documented in text, for example, API reference documentation and programming tutorials. To improve knowledge accessibility and usage, several recent studies use Natural Language Processing (NLP) methods to construct API know-what knowledge graph (API-KG) and programming task know-how knowledge graph (Task-KG) from software documentation. Although being promising, current API-KG and Task-KG are independent of each other, and thus are void of inherent connections between the two types of knowledge. Our empirical study on Stack Overflow questions confirms that only 36% of the API usage problems can be answered by the know-how or the know-what knowledge alone, while the rest questions require a fusion of both. Inspired by this observation, we make the first attempt to fuse API-KG and Task-KG by API entity linking. This fusion creates nine categories of API semantic relations and two types of task semantic relations which are not present in the stand-alone API-KG or Task-KG. According to the definitions of these new API and task semantic relations, our approach dives deeper than the surface-level API linking of API-KG and Task-KG, and infers nine categories of API semantic relations from task descriptions and two types of task semantic relations with the assistance of API-KG, which enrich the declaration or syntactic relations in the current API-KG and Task-KG. Our fused and semantically-enriched API-Task KG supports coherent API/Task-centric knowledge search by text or code queries.
翻訳日:2023-10-24 15:16:44 公開日:2023-08-07
# このスニペットはChatGPTで書かれているか? CodeBERTに基づく分類器を用いた実証的研究

Is this Snippet Written by ChatGPT? An Empirical Study with a CodeBERT-Based Classifier ( http://arxiv.org/abs/2307.09381v2 )

ライセンス: Link先を確認
Phuong T. Nguyen, Juri Di Rocco, Claudio Di Sipio, Riccardo Rubei, Davide Di Ruscio, Massimiliano Di Penta(参考訳) 2022年11月のローンチ以来、ChatGPTは、特に開発問題を解決するツールとしてChatGPTを使用しているプログラマの間で人気を集めている。 しかし、プログラミング問題に対する実用的な解決策を提供する一方で、ChatGPTは人間の代わりにではなく、主にサポートツール(例えば、ソフトウェア教育)として使われるべきである。 したがって、ChatGPTによる自動生成ソースコードの検出が必要であり、AI生成コンテンツを特定するツールをソースコードと効率的に連携させる必要がある。 本稿では,AI生成コードスニペットの自動識別の実現可能性と,その機能に影響を与える要因について検討する。 そこで我々は,CodeBERT上に構築されたGPTSnifferという新しいアプローチを提案し,AIで書かれたソースコードを検出する。 その結果、GPTSnifferは、コードが人間書きかAI生成かを正確に分類でき、GPTZeroとOpenAI Text Classifierの2つのベースラインを上回ります。 また、類似したトレーニングデータやペアスニペットによる分類コンテキストが、分類のパフォーマンス向上にどのように役立つかを示す。

Since its launch in November 2022, ChatGPT has gained popularity among users, especially programmers who use it as a tool to solve development problems. However, while offering a practical solution to programming problems, ChatGPT should be mainly used as a supporting tool (e.g., in software education) rather than as a replacement for the human being. Thus, detecting automatically generated source code by ChatGPT is necessary, and tools for identifying AI-generated content may need to be adapted to work effectively with source code. This paper presents an empirical study to investigate the feasibility of automated identification of AI-generated code snippets, and the factors that influence this ability. To this end, we propose a novel approach called GPTSniffer, which builds on top of CodeBERT to detect source code written by AI. The results show that GPTSniffer can accurately classify whether code is human-written or AI-generated, and outperforms two baselines, GPTZero and OpenAI Text Classifier. Also, the study shows how similar training data or a classification context with paired snippets helps to boost classification performances.
翻訳日:2023-10-23 17:02:08 公開日:2023-08-07
# インフラストラクチャ・アズ・コードのセキュリティプラクティスを探る - 実証的研究

Exploring Security Practices in Infrastructure as Code: An Empirical Study ( http://arxiv.org/abs/2308.03952v1 )

ライセンス: Link先を確認
Alexandre Verdet, Mohammad Hamdaqa, Leuson Da Silva, Foutse Khomh(参考訳) インフラストラクチャ・アズ・コード(iac)ツールの普及により、クラウドコンピューティングが普及し、コミュニティはスクリプトを使ってクラウドインフラストラクチャの管理と構成を便利に行えるようになった。 しかし、スクリプティングプロセス自体が、実践者が誤った設定、脆弱性、プライバシリスクを導入するのを自動で妨げていない。 結果として、セキュリティの確保は、明示的なポリシー、ガイドライン、ベストプラクティスの理解と採用に依存している。 本研究は,IaCスクリプトによるセキュリティベストプラクティスの導入状況を分析し,実践者がこの問題にどう対処するかを理解するための実証的研究である。 まず、AWSやAzure、Google Cloudといった一般的なクラウドプロバイダに対して、業界で広く普及しているTerraformのセキュリティプラクティスを選択して分類します。 次に、各クラウドプロバイダによるこれらのプラクティスの採用を評価し、githubにホストされている812のオープンソースプロジェクトのサンプルを分析します。 そのため、各プロジェクト構成ファイルをスキャンし、静的解析(checkov)を通じてポリシーの実装を探します。 さらに,これらのベストプラクティスの採用と相関する可能性のあるgithubの指標についても検討する。 カテゴリアクセスポリシーは、すべてのプロバイダで最も広く採用されているものとして登場し、残りの暗号化は最も無視されたポリシーである。 ベストプラクティスの採用と相関したGitHubの措置について、私たちは、リポジトリの数とクラウドインフラストラクチャにおけるプラクティスの採用との間に、肯定的な、強い相関関係を観察します。 当社の調査結果に基づいて,クラウド実践者に対して,インフラストラクチャの脆弱性を制限し,業界内で広く受け入れられていないポリシに関連するさらなる側面を議論するためのガイドラインを提供します。

Cloud computing has become popular thanks to the widespread use of Infrastructure as Code (IaC) tools, allowing the community to conveniently manage and configure cloud infrastructure using scripts. However, the scripting process itself does not automatically prevent practitioners from introducing misconfigurations, vulnerabilities, or privacy risks. As a result, ensuring security relies on practitioners understanding and the adoption of explicit policies, guidelines, or best practices. In order to understand how practitioners deal with this problem, in this work, we perform an empirical study analyzing the adoption of IaC scripted security best practices. First, we select and categorize widely recognized Terraform security practices promulgated in the industry for popular cloud providers such as AWS, Azure, and Google Cloud. Next, we assess the adoption of these practices by each cloud provider, analyzing a sample of 812 open-source projects hosted on GitHub. For that, we scan each project configuration files, looking for policy implementation through static analysis (checkov). Additionally, we investigate GitHub measures that might be correlated with adopting these best practices. The category Access policy emerges as the most widely adopted in all providers, while Encryption in rest are the most neglected policies. Regarding GitHub measures correlated with best practice adoption, we observe a positive, strong correlation between a repository number of stars and adopting practices in its cloud infrastructure. Based on our findings, we provide guidelines for cloud practitioners to limit infrastructure vulnerability and discuss further aspects associated with policies that have yet to be extensively embraced within the industry.
翻訳日:2023-10-23 15:12:34 公開日:2023-08-07
# ソフトウェア開発ライフサイクルのシミュレーション:ウォーターフォールモデル

Simulating the Software Development Lifecycle: The Waterfall Model ( http://arxiv.org/abs/2308.03940v1 )

ライセンス: Link先を確認
Antonios Saravanos (1), Mathew X. Curinga (2) ((1) New York University, (2) MIXI: Manhattan Institute for STEM and the Imagination, Adelphi University)(参考訳) 1)背景:本研究は,ウォーターフォールモデルを適用したシミュレーションベースアプローチを用いて,プロジェクトや個々のフェーズ完了時間の見積を行う。 さらに、最適以下のリソースレベルから生じる潜在的な効率の問題をピンポイントで特定する。 さらに、ボトルネックを効果的に排除し、リソースのアイドルタイムを短縮するリソースレベルを特定する方法も示している。 (2)メソッド: Pythonで書かれた離散イベントシミュレーションフレームワークであるSimPyを使って,ソフトウェア開発ライフサイクルを実装します。 私たちのモデルは、3段階にわたるさまざまなサイズの100のプロジェクトで実行されます。 最初のpre-optimizationは、リソースの初期セットに基づく洞察を提供する。 最適化段階はボトルネックを排除し、アイドル時間を最小化するために最適なリソース数を特定するのに役立つ。 第3段階、最適化後、リソース最適化モデルを評価する。 3)結果: シミュレーション生成データの解析により, 最適化前の段階, 特に実装段階における資源ボトルネックの存在が明らかになった。 これらは最適化後に散逸する。 (4)結論:本研究は,ソフトウェア開発プロジェクトの実験と計画のための安全かつ効果的な方法としてシミュレーションを用いることの利点を強調した。 このようなシミュレーションによって、マンジングソフトウェア開発プロジェクトでは、フェーズやプロジェクト完了までの正確なエビデンスベースの予測や、最適なリソースレベルと相互作用の特定が可能になる。 特に、完了時間の遅れとボトルネックを緩和するための追加リソースの調達の間のトレードオフを理解すること。

(1) Background: This study employs a simulation-based approach, adapting the waterfall model, to provides estimates for projects and individual phase completion times. Additionally, it pin-points potential efficiency issues stemming from a suboptimal resource level. It further demonstrates how one can go on to identify a resource level that effectively eliminates bottlenecks and curtails the idle time of resources. (2) Methods: We implement our software development lifecycle using SimPy, a discrete-event simulation framework written in Python. Our model is executed on 100 projects of varying sizes over three stages. The first, pre-optimization, provides insight based on the initial set of resources. This is followed by the optimization stage, which serves to identify the optimal number of resources to eliminate bottlenecks and minimize idle time. The third stage, post-optimization, evaluates the resource optimized model. (3) Results: The analysis of the simulation-generated data reveals the presence of resource bottlenecks during the pre-optimization stage, particularly in the implementation phase. These dissipate after optimization. (4) Conclusions: The findings emphasize the advantage of using simulation as a safe and effective way to experiment and plan for software development projects. Such simulations also allow those man-aging software development projects to make accurate, evidence-based projections as to phase and project completion times and identify optimal resource levels and their interplay. In particular, understanding the tradeoffs between experiencing delayed completion times and procuring additional resources to alleviate any bottlenecks.
翻訳日:2023-10-23 15:12:11 公開日:2023-08-07
# 産業制御システムにおけるネットワークセキュリティに関する調査

Network Security in the Industrial Control System: A Survey ( http://arxiv.org/abs/2308.03478v1 )

ライセンス: Link先を確認
Yang Li and Shihao Wu and Quan Pan(参考訳) インテリジェントな製造技術の発展、特に産業制御システム(ICS)の高接続性により、ICSのネットワークセキュリティはより重要になる。 近年,ICSネットワークのセキュリティに関する研究が盛んに行われている。 しかし、実際にはプロトコルには多くの種類があり、プロトコルの脆弱性が高いことを意味する。 そこで本稿では,ICSで一般的に使用されるプロトコルの完全なレビューを行う。 次に,データ暗号化,アクセス制御ポリシ,侵入検知システム,ソフトウェア定義ネットワークなどを含む,深層防御(did)の観点から,ネットワークセキュリティに関する包括的なレビューを行う。 これらの研究を通じて、この分野におけるエキサイティングな新しい開発について、新たな視点を提供しようとしています。

Along with the development of intelligent manufacturing, especially with the high connectivity of the industrial control system (ICS), the network security of ICS becomes more important. And in recent years, there has been much research on the security of the ICS network. However, in practical usage, there are many types of protocols, which means a high vulnerability in protocols. Therefore, in this paper, we give a complete review of the protocols that are usually used in ICS. Then, we give a comprehensive review on network security in terms of Defence in Depth (DiD), including data encryption, access control policy, intrusion detection system, software-defined network, etc. Through these works, we try to provide a new perspective on the exciting new developments in this field.
翻訳日:2023-10-23 15:10:54 公開日:2023-08-07
# mavenエコシステムにおけるオープンソース脆弱性の永続性の緩和

Mitigating Persistence of Open-Source Vulnerabilities in Maven Ecosystem ( http://arxiv.org/abs/2308.03419v1 )

ライセンス: Link先を確認
Lyuye Zhang, Chengwei Liu, Sen Chen, Zhengzi Xu, Lingling Fan, Lida Zhao, Yiran Zhang, Yang Liu(参考訳) Mavenエコシステムを脅かすために、サードパーティライブラリ(TPL)からの脆弱性が公開された。 脆弱性が公表されてすぐにパッチがリリースされたが、コミュニティのライブラリやアプリケーションは依然として脆弱なバージョンを使っているため、Mavenエコシステムに脆弱性が永続化されている(例えば、悪名高いLog4Shellは2021年からMavenエコシステムに大きく影響している)。 アカデミックと産業の研究者の両方が脆弱性に対処するためのユーザ指向標準とソリューションを提案しているが、このようなソリューションはエコシステム全体の永続的な脆弱性には対処できない。 エコシステム全体のソリューションを探すために、Mavenエコシステムにおける永続的な脆弱性の頻度を調べるための実証的研究を行った。 そして,最新の依存関係グラフに基づいて,脆弱性の下流依存性を監視するアルゴリズムを実装して,アラートの影響を受けるライブラリを特定した。 さらに,上流ライブラリでブロックされたパッチが脆弱性の持続性の原因であることを定量的に明らかにした。 既存の対策の欠点を概観した後、我々は、下流依存者に対して、互換性のある安全なバージョン範囲を自動的に復元するレンジ復元(Ranger)ソリューションを提案しました。 自動修復はコミュニティからの手作業を必要としず、コード中心の互換性保証により、パッチ付きバージョンへのスムーズなアップグレードが保証される。 さらに、Rangerとエコシステム監視は、ライブラリをブロックする開発者にタイムリーに警告し、フレキシブルなバージョン範囲を素早くアンブロックするパッチバージョンまで提案する。 評価により、レンジャーは75.64%のレンジを回復し、脆弱な下流プロジェクトの90.32%を自動で仲介した。

Vulnerabilities from third-party libraries (TPLs) have been unveiled to threaten the Maven ecosystem. Despite patches being released promptly after vulnerabilities are disclosed, the libraries and applications in the community still use the vulnerable versions, which makes the vulnerabilities persistent in the Maven ecosystem (e.g., the notorious Log4Shell still greatly influences the Maven ecosystem nowadays from 2021). Both academic and industrial researchers have proposed user-oriented standards and solutions to address vulnerabilities, while such solutions fail to tackle the ecosystem-wide persistent vulnerabilities because it requires a collective effort from the community to timely adopt patches without introducing breaking issues. To seek an ecosystem-wide solution, we first carried out an empirical study to examine the prevalence of persistent vulnerabilities in the Maven ecosystem. Then, we identified affected libraries for alerts by implementing an algorithm monitoring downstream dependents of vulnerabilities based on an up-to-date dependency graph. Based on them, we further quantitatively revealed that patches blocked by upstream libraries caused the persistence of vulnerabilities. After reviewing the drawbacks of existing countermeasures, to address them, we proposed a solution for range restoration (Ranger) to automatically restore the compatible and secure version ranges of dependencies for downstream dependents. The automatic restoration requires no manual effort from the community, and the code-centric compatibility assurance ensures smooth upgrades to patched versions. Moreover, Ranger along with the ecosystem monitoring can timely alert developers of blocking libraries and suggest flexible version ranges to rapidly unblock patch versions. By evaluation, Ranger could restore 75.64% of ranges which automatically remediated 90.32% of vulnerable downstream projects.
翻訳日:2023-10-23 15:10:42 公開日:2023-08-07
# 変換機械学習の拡張:分類問題

Extension of Transformational Machine Learning: Classification Problems ( http://arxiv.org/abs/2309.16693v1 )

ライセンス: Link先を確認
Adnan Mahmud, Oghenejokpeme Orhobor, Ross D. King(参考訳) 本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。 メタ学習アルゴリズムであるtmlは、様々なドメインにまたがる共通属性の活用に優れ、従来のモデルを上回る複合モデルを開発する。 複雑で時間のかかる創薬プロセスは, 予測精度の向上, 解釈性の向上, tmlによる汎用性の向上により, 大いに有益である。 我々は,個々の分類器が異なる優位性を示す機械学習分類器の有効性について検討し,ランダムフォレストのようなアンサンブル分類器を考慮に入れた。 この結果から,TMLは,正しい仮説をより正確に近似し,局所最適性を克服し,個別の分類器機能を組み合わせることで表現可能な関数の空間を拡大する能力により,ベース機械学習(ML)よりも優れていることがわかった。 しかし、この優位性は再サンプリング法と比較され、Near Missはノイズデータ、重複クラス、非線形クラス境界による性能の低下を示す。 逆に、Random Over Sampling (ROS) は、ノイズや外れ値に対する耐性、クラスオーバーラップ管理の改善、非線形クラス境界に対する適合性から、より堅牢なパフォーマンスを提供する。

This study explores the application and performance of Transformational Machine Learning (TML) in drug discovery. TML, a meta learning algorithm, excels in exploiting common attributes across various domains, thus developing composite models that outperform conventional models. The drug discovery process, which is complex and time-consuming, can benefit greatly from the enhanced prediction accuracy, improved interpretability and greater generalizability provided by TML. We explore the efficacy of different machine learning classifiers, where no individual classifier exhibits distinct superiority, leading to the consideration of ensemble classifiers such as the Random Forest. Our findings show that TML outperforms base Machine Learning (ML) as the number of training datasets increases, due to its capacity to better approximate the correct hypothesis, overcome local optima, and expand the space of representable functions by combining separate classifiers capabilities. However, this superiority is relative to the resampling methods applied, with Near Miss demonstrating poorer performance due to noisy data, overlapping classes, and nonlinear class boundaries. Conversely, Random Over Sampling (ROS) provides a more robust performance given its resistance to noise and outliers, improved class overlap management, and suitability for nonlinear class boundaries.
翻訳日:2023-10-23 06:00:29 公開日:2023-08-07
# CIRO:感染リスクオントロジー

CIRO: COVID-19 infection risk ontology ( http://arxiv.org/abs/2308.09719v1 )

ライセンス: Link先を確認
Shusaku Egami, Yasunori Yamamoto, Ikki Ohmukai, Takashi Okumura(参考訳) 公衆衛生当局は、感染した患者との密接な接触を特定するために、感染性の高いエージェントの接触追跡を行う。 しかし、新型コロナウイルス感染症(COVID-19)によるパンデミックでは、患者数の多い国では採用されなかった。 一方、日本政府はこの作業を行い、公衆衛生当局による厳しい手作業の犠牲を伴い、感染の抑制に寄与した。 新型コロナウイルス感染リスクオントロジー(ciro:covid-19 infection risk ontology)と呼ばれるオントロジーを通じて、各人の感染リスクの評価を自動化しようと試みた。 本オントロジーは、個人による感染リスクの自動評価に向けて、日本政府によって策定された新型コロナウイルスの感染リスクを、Resource Description Framework(RDF)およびSPARQL(SPARQL ProtocolおよびRDFクエリ言語)クエリを用いて表現する。 評価のために,構築したナレッジグラフが,政府が定式化したリスクを推測できることを実証した。 さらに,計算効率を解析するための推論実験を行った。 実験は知識処理の有用性を示し、デプロイに残された問題を特定した。

Public health authorities perform contact tracing for highly contagious agents to identify close contacts with the infected cases. However, during the pandemic caused by coronavirus disease 2019 (COVID-19), this operation was not employed in countries with high patient volumes. Meanwhile, the Japanese government conducted this operation, thereby contributing to the control of infections, at the cost of arduous manual labor by public health officials. To ease the burden of the officials, this study attempted to automate the assessment of each person's infection risk through an ontology, called COVID-19 Infection Risk Ontology (CIRO). This ontology expresses infection risks of COVID-19 formulated by the Japanese government, toward automated assessment of infection risks of individuals, using Resource Description Framework (RDF) and SPARQL (SPARQL Protocol and RDF Query Language) queries. For evaluation, we demonstrated that the knowledge graph built could infer the risks, formulated by the government. Moreover, we conducted reasoning experiments to analyze the computational efficiency. The experiments demonstrated usefulness of the knowledge processing, and identified issues left for deployment.
翻訳日:2023-08-27 05:16:31 公開日:2023-08-07
# Spellburst: 自然言語による探索的創造的コーディングのためのノードベースのインターフェース

Spellburst: A Node-based Interface for Exploratory Creative Coding with Natural Language Prompts ( http://arxiv.org/abs/2308.03921v1 )

ライセンス: Link先を確認
Tyler Angert, Miroslav Ivan Suzara, Jenny Han, Christopher Lawrence Pondoc, Hariharan Subramonyam(参考訳) 創造的なコーディングタスクは自然界でしばしば探索的です。 デジタルアートワークを制作する場合、アーティストは通常「ステンドグラスフィルター」のような高レベルの意味構造から始め、形状、色、線、不透明といった様々なコードパラメータをプログラムで実装し、視覚的に魅力的な結果を生み出す。 アーティストとのインタビューに基づいて、セマンティックコンストラクトをプログラム構文に変換することは困難であり、現在のプログラミングツールは、迅速な創造的な探索には役に立たない。 これらの課題に対処するために,大規模言語モデル(LLM)を利用したクリエイティブコーディング環境であるSpellburstを紹介した。 spellburstは(1)アーティストが生成的なアートを作成し、分岐とマージ操作を通じてバリエーションを探索できるノードベースのインターフェース、(2)表現力のあるプロンプトベースのインタラクションによるセマンティックプログラミング、(3)動的プロンプト駆動インターフェースと直接コード編集により、意味と構文の探索をシームレスに切り替えることができる。 アーティストによる我々の評価は、Spellburstが創造的なコーディングプラクティスを強化する可能性を示し、セマンティック空間と構文空間を橋渡しする計算創造ツールの設計を通知する。

Creative coding tasks are often exploratory in nature. When producing digital artwork, artists usually begin with a high-level semantic construct such as a "stained glass filter" and programmatically implement it by varying code parameters such as shape, color, lines, and opacity to produce visually appealing results. Based on interviews with artists, it can be effortful to translate semantic constructs to program syntax, and current programming tools don't lend well to rapid creative exploration. To address these challenges, we introduce Spellburst, a large language model (LLM) powered creative-coding environment. Spellburst provides (1) a node-based interface that allows artists to create generative art and explore variations through branching and merging operations, (2) expressive prompt-based interactions to engage in semantic programming, and (3) dynamic prompt-driven interfaces and direct code editing to seamlessly switch between semantic and syntactic exploration. Our evaluation with artists demonstrates Spellburst's potential to enhance creative coding practices and inform the design of computational creativity tools that bridge semantic and syntactic spaces.
翻訳日:2023-08-20 16:46:09 公開日:2023-08-07
# sEMGに基づくサイレント音声インタフェースのための知識蒸留アンサンブルモデル

Knowledge Distilled Ensemble Model for sEMG-based Silent Speech Interface ( http://arxiv.org/abs/2308.06533v1 )

ライセンス: Link先を確認
Wenqiang Lai, Qihan Yang, Ye Mao, Endong Sun, Jiangnan Ye(参考訳) 声の障害は世界中の何百万人もの人々に影響を与えます。 表面筋電図に基づくサイレント音声インタフェース (SEMGベースのSSI) は, 数十年間, 潜在的な解決策として検討されてきた。 しかし、以前の作品は小さな語彙によって制限され、生データから手作業で特徴を抽出した。 これらの制約に対処するために、sEMGベースのSSI(KDE-SSI)のための軽量なディープラーニング知識蒸留アンサンブルモデルを提案する。 本モデルは、26個のnato音素アルファベットデータセットを3900個のデータサンプルで分類し、綴りによる英語単語の曖昧な生成を可能にする。 広範な実験によりkde-ssiの有効性が検証され、85.9\%の精度が得られた。 我々の発見は、ポータブルで実用的な機器のためのエンドツーエンドシステムにも光を当てた。

Voice disorders affect millions of people worldwide. Surface electromyography-based Silent Speech Interfaces (sEMG-based SSIs) have been explored as a potential solution for decades. However, previous works were limited by small vocabularies and manually extracted features from raw data. To address these limitations, we propose a lightweight deep learning knowledge-distilled ensemble model for sEMG-based SSI (KDE-SSI). Our model can classify a 26 NATO phonetic alphabets dataset with 3900 data samples, enabling the unambiguous generation of any English word through spelling. Extensive experiments validate the effectiveness of KDE-SSI, achieving a test accuracy of 85.9\%. Our findings also shed light on an end-to-end system for portable, practical equipment.
翻訳日:2023-08-20 16:41:29 公開日:2023-08-07
# フォトプレチスモグラフィと活動信号から得られた特徴量の削減を用いた機械学習睡眠・覚醒分類モデル

A machine-learning sleep-wake classification model using a reduced number of features derived from photoplethysmography and activity signals ( http://arxiv.org/abs/2308.05759v1 )

ライセンス: Link先を確認
Douglas A.Almeida, Felipe M. Dias, Marcelo A. F. Toledo, Diego A. C. Cardenas, Filipe A. C. Oliveira, Estela Ribeiro, Jose E. Krieger, Marco A. Gutierrez(参考訳) 睡眠は私たちの健康と幸福にとって重要な側面です。 精神と身体の健康を調節し、身体の回復力と免疫系に気分、記憶、認知機能に影響を与える重要な役割を担っている。 睡眠段階の分類は睡眠の質を評価するための必須ステップであり、睡眠の質と、この必須の休息期間に身体がどれくらい機能しているかを評価する指標を提供する。 photoplethysmography (ppg) は睡眠ステージ推定に有効な信号であり、単独でも他の信号と組み合わせて睡眠ステージを決定することができる。 この情報は、潜在的な睡眠問題を特定し、睡眠の質と全体の健康を改善するための戦略を開発する上で有用である。 本稿では,エクストリーム・グラデーション・ブースティング(xgboost)アルゴリズムに基づく機械学習の睡眠・覚醒分類モデルと,ppg信号と活動量から抽出した特徴について述べる。 本手法の性能は現在の最先端手法と比較し,感度91.15 $\pm$ 1.16%,特異性53.66 $\pm$ 1.12%,F1スコア83.88 $\pm$ 0.56%,Kappa48.0 $\pm$ 0.86%であった。 本手法は,計算能力に制限のあるウェアラブルデバイスの実装に適した機能として,他の手法に比べて大幅に改善されている。

Sleep is a crucial aspect of our overall health and well-being. It plays a vital role in regulating our mental and physical health, impacting our mood, memory, and cognitive function to our physical resilience and immune system. The classification of sleep stages is a mandatory step to assess sleep quality, providing the metrics to estimate the quality of sleep and how well our body is functioning during this essential period of rest. Photoplethysmography (PPG) has been demonstrated to be an effective signal for sleep stage inference, meaning it can be used on its own or in a combination with others signals to determine sleep stage. This information is valuable in identifying potential sleep issues and developing strategies to improve sleep quality and overall health. In this work, we present a machine learning sleep-wake classification model based on the eXtreme Gradient Boosting (XGBoost) algorithm and features extracted from PPG signal and activity counts. The performance of our method was comparable to current state-of-the-art methods with a Sensitivity of 91.15 $\pm$ 1.16%, Specificity of 53.66 $\pm$ 1.12%, F1-score of 83.88 $\pm$ 0.56%, and Kappa of 48.0 $\pm$ 0.86%. Our method offers a significant improvement over other approaches as it uses a reduced number of features, making it suitable for implementation in wearable devices that have limited computational power.
翻訳日:2023-08-20 16:39:03 公開日:2023-08-07
# aiテキストから行動へ: 操縦性の研究

AI Text-to-Behavior: A Study In Steerability ( http://arxiv.org/abs/2308.07326v1 )

ライセンス: Link先を確認
David Noever and Sam Hyams(参考訳) この研究は、大規模言語モデル(LLM)、特にOpenAIのChatGPTイテレーションのステアビリティについて調査している。 OCEAN (Openness, Conscientiousness, Extroversion, Agreeableness, Neuroticism) と呼ばれる行動心理学の枠組みを用いて, モデルが調整されたプロンプトに対する応答性を定量的に測定した。 内向的な性格を模倣するテキストを生成するように頼まれると、オセアンはその行動特性に同調する言語を採点した。 本分析では,「開放性」が言語的あいまいさを示す一方で,「良心性」と「神経症性」はOCEANの枠組みにおいて明らかに誘発され,「外向性」と「認識性」は,他の特徴と顕著に相違していることを示す。 以上の結果から,GPTの汎用性と,ニュアンス命令の識別と適応能力が評価された。 さらに、歴史人物シミュレーションでは、LLMの内在化能力を強調し、その哲学とダイアログのスタイルを正確に再現した。 しかし、LLM能力の急速な進歩と、いくつかの訓練技術の不透明な性質により、メートル法の提案は急速に劣化する。 本研究は, LLMにおけるステアビリティを定量的に記述することの重要性を強調し, その進歩を人間の意図と整合させる上で, その将来性と領域を両立させる。

The research explores the steerability of Large Language Models (LLMs), particularly OpenAI's ChatGPT iterations. By employing a behavioral psychology framework called OCEAN (Openness, Conscientiousness, Extroversion, Agreeableness, Neuroticism), we quantitatively gauged the model's responsiveness to tailored prompts. When asked to generate text mimicking an extroverted personality, OCEAN scored the language alignment to that behavioral trait. In our analysis, while "openness" presented linguistic ambiguity, "conscientiousness" and "neuroticism" were distinctly evoked in the OCEAN framework, with "extroversion" and "agreeableness" showcasing a notable overlap yet distinct separation from other traits. Our findings underscore GPT's versatility and ability to discern and adapt to nuanced instructions. Furthermore, historical figure simulations highlighted the LLM's capacity to internalize and project instructible personas, precisely replicating their philosophies and dialogic styles. However, the rapid advancements in LLM capabilities and the opaque nature of some training techniques make metric proposals degrade rapidly. Our research emphasizes a quantitative role to describe steerability in LLMs, presenting both its promise and areas for further refinement in aligning its progress to human intentions.
翻訳日:2023-08-20 16:28:42 公開日:2023-08-07
# MSLE: 材料科学実験装置のオントロジー。 材料キャラクタリゼーションのための大規模デバイス

MSLE: An ontology for Materials Science Laboratory Equipment. Large-Scale Devices for Materials Characterization ( http://arxiv.org/abs/2308.07325v1 )

ライセンス: Link先を確認
Mehrdad Jalali, Matthias Mail, Rossella Aversa, and Christian K\"ubel(参考訳) 本稿では,MSLEと呼ばれる材料科学実験装置のための新しいオントロジーを紹介する。 現実の世界における材料科学実験室(以下、実験室)の基本的な問題は、科学者が複数の仕様で様々な種類の機器を扱うことである。 例えば、化学実験室や物理実験室では異なるパラメータを持つ多くの電子顕微鏡が存在する。 この記述を統一するための重要な開発は、基本的な意味知識として機器ドメインオントロジーを構築し、利用者に適切な機器を扱うよう誘導することである。 本稿では,機器用一貫したオントロジーであるMSLEオントロジーを提案する。 MSLEでは、Semantic Sensor Network (SSN)とMaterial Vocabulary (MatVoc)の2つの主要なオントロジーがMSLEコアに統合され、一貫性のあるオントロジーが構築されている。 各種の頭字語や用語が機器に使われてきたため,機器用語の階層構造を表現するために,SKOS(Simple Knowledge Organization System)を用いたアプローチを提案する。 機器用語は様々な言語や略語で収集され、SKOSモデルを用いてMSLEにコード化された。 オントロジー開発はドメイン専門家と緊密に連携し,本研究グループで利用可能な材料特性評価のための大規模デバイスに焦点を当てた。 コンピテンシー質問はMSLEオントロジーによって解決される予定である。 制約はShapes Query Language (SHACL) でモデル化される。

This paper introduces a new ontology for Materials Science Laboratory Equipment, termed MSLE. A fundamental issue with materials science laboratory (hereafter lab) equipment in the real world is that scientists work with various types of equipment with multiple specifications. For example, there are many electron microscopes with different parameters in chemical and physical labs. A critical development to unify the description is to build an equipment domain ontology as basic semantic knowledge and to guide the user to work with the equipment appropriately. Here, we propose to develop a consistent ontology for equipment, the MSLE ontology. In the MSLE, two main existing ontologies, the Semantic Sensor Network (SSN) and the Material Vocabulary (MatVoc), have been integrated into the MSLE core to build a coherent ontology. Since various acronyms and terms have been used for equipment, this paper proposes an approach to use a Simple Knowledge Organization System (SKOS) to represent the hierarchical structure of equipment terms. Equipment terms were collected in various languages and abbreviations and coded into the MSLE using the SKOS model. The ontology development was conducted in close collaboration with domain experts and focused on the large-scale devices for materials characterization available in our research group. Competency questions are expected to be addressed through the MSLE ontology. Constraints are modeled in the Shapes Query Language (SHACL); a prototype is shown and validated to show the value of the modeling constraints.
翻訳日:2023-08-20 16:28:17 公開日:2023-08-07
# 3次元医用画像における分布外検出の再設計

Redesigning Out-of-Distribution Detection on 3D Medical Images ( http://arxiv.org/abs/2308.07324v1 )

ライセンス: Link先を確認
Anton Vasiliuk and Daria Frolova and Mikhail Belyaev and Boris Shirokikh(参考訳) 信頼できる医用画像セグメンテーションのためのアウト・オブ・ディストリビューション(OOD)サンプルの検出は重要な課題である。 ここでの重大な問題は、異常なデータの厳密な定義が欠如していることだ。 本稿では,ボリューム医用画像とそれに関連する下流タスク(セグメンテーションなど)の具体例に基づいて,OOD検出問題を再考する。 下流モデルの性能を画像間の擬メトリックとして利用し,異常サンプルを定義する。 このアプローチにより、明示的なID/OODの区別なしに、パフォーマンスへの影響に基づいて異なるサンプルを測定できる。 我々はこの重み付けを、EPD(Pre expected Performance Drop)と呼ばれる新しい指標に組み入れます。 EPDは新たな問題設計への私たちのコアコントリビューションであり、臨床効果に基づいた方法のランク付けを可能にします。 11 CTおよびMRI OOD検出におけるEPDによる評価の有効性を実証した。

Detecting out-of-distribution (OOD) samples for trusted medical image segmentation remains a significant challenge. The critical issue here is the lack of a strict definition of abnormal data, which often results in artificial problem settings without measurable clinical impact. In this paper, we redesign the OOD detection problem according to the specifics of volumetric medical imaging and related downstream tasks (e.g., segmentation). We propose using the downstream model's performance as a pseudometric between images to define abnormal samples. This approach enables us to weigh different samples based on their performance impact without an explicit ID/OOD distinction. We incorporate this weighting in a new metric called Expected Performance Drop (EPD). EPD is our core contribution to the new problem design, allowing us to rank methods based on their clinical impact. We demonstrate the effectiveness of EPD-based evaluation in 11 CT and MRI OOD detection challenges.
翻訳日:2023-08-20 16:27:52 公開日:2023-08-07
# メタラーニングに基づく階層回帰手法による顧客寿命価値予測

A Meta-learning based Stacked Regression Approach for Customer Lifetime Value Prediction ( http://arxiv.org/abs/2308.08502v1 )

ライセンス: Link先を確認
Karan Gadgil, Sukhpal Singh Gill, Ahmed M. Abdelmoniem(参考訳) 世界中の企業が収益を上げるために、潜在的に価値の高い顧客をターゲットにすることを熱望しており、これは顧客をもっと理解することによってのみ達成できる。 顧客ライフタイムバリュー(英:Customer Lifetime Value、CLV)は、顧客とビジネスが意図した期間にわたって行う取引/購入の総金銭価値であり、将来の顧客インタラクションを見積もる手段として使用される。 clvは銀行、保険、オンラインエンタテイメント、ゲーム、eコマースなど、さまざまなビジネス領域で応用されている。 既存の分散ベースおよび基本(周波数、周波数、通貨)ベースのモデルは、幅広い入力特徴を扱うという観点で制限に直面している。 さらに、より高度なディープラーニングアプローチは過剰であり、特定のアプリケーション領域に望ましくない複雑さ要素を追加する可能性がある。 そこで我々は,効果的かつ包括的かつシンプルかつ解釈可能なシステムを提案する。 そのことを念頭に置いて,個別に良好に機能する袋詰めモデルとブースティングモデルからの予測を組み合わせた,メタラーニングに基づくスタック型回帰モデルを開発した。 様々なモデルを評価し,提案手法の有効性を示すために,公開可能なオンライン小売データセット上で実証実験を行った。

Companies across the globe are keen on targeting potential high-value customers in an attempt to expand revenue and this could be achieved only by understanding the customers more. Customer Lifetime Value (CLV) is the total monetary value of transactions/purchases made by a customer with the business over an intended period of time and is used as means to estimate future customer interactions. CLV finds application in a number of distinct business domains such as Banking, Insurance, Online-entertainment, Gaming, and E-Commerce. The existing distribution-based and basic (recency, frequency & monetary) based models face a limitation in terms of handling a wide variety of input features. Moreover, the more advanced Deep learning approaches could be superfluous and add an undesirable element of complexity in certain application areas. We, therefore, propose a system which is able to qualify both as effective, and comprehensive yet simple and interpretable. With that in mind, we develop a meta-learning-based stacked regression model which combines the predictions from bagging and boosting models that each is found to perform well individually. Empirical tests have been carried out on an openly available Online Retail dataset to evaluate various models and show the efficacy of the proposed approach.
翻訳日:2023-08-20 16:21:55 公開日:2023-08-07
# ニューラルネットワークによる効率的な動的アバターモデリングのための神経インシシシト場の拡張

Explicifying Neural Implicit Fields for Efficient Dynamic Human Avatar Modeling via a Neural Explicit Surface ( http://arxiv.org/abs/2308.05112v1 )

ライセンス: Link先を確認
Ruiqi Zhang and Jie Chen and Qiang Wang(参考訳) 本稿では,ニューラル・エクスプリシト・サーフェス(NES)を用いて暗黙のニューラルネットワークを明示することで,動的人間を効率的にモデル化する手法を提案する。 暗黙のニューラルネットワークは、スパース観測からダイナミックな3Dコンテンツをモデル化し、複雑な測地や外観を効果的に表現する際に、従来の明示的な表現よりも有利である。 しかし、3d空間で定義される暗黙のニューラルフィールドは、ボリュームレンダリング中に濃密なサンプリングを必要とするため、レンダリングが高価である。 さらに、メモリ効率はスパース3d空間のモデリング時にさらに最適化できる。 これらの問題を克服するために、暗黙的なニューラルネットワークを明示的に表現し、メモリと計算効率を高めるためにNeural Explicit Surface(NES)の利用を提案する。 これを実現するために、この論文は暗黙のニューラルネットワークとNESの明示的なレンダリングインターフェースとを完全に区別可能な変換を作成し、暗黙のアプローチと明示的なアプローチの両方の長所を活用する。 この変換により、暗黙の方法でハイブリッド表現を効果的に訓練することができ、明示的なレンダリングインターフェースをラスタライズベースのニューラルレンダラーと統合することで、明示的な表面との初期の光線相互作用に一度だけテクスチャカラークエリを発生させることができ、推論効率が向上する。 NESは、ポーズ依存のニューラルな暗黙の表面変形場と、2D空間の両方のダイナミックなニューラルテクスチャを持つ動的ヒューマンジオメトリを記述しており、これは従来の3D手法よりもメモリ効率が良いため、冗長性と計算負荷を低減している。 総合的な実験により、NESは以前の3Dアプローチと同様の性能を示し、レンダリング速度を大幅に改善し、メモリコストを削減した。

This paper proposes a technique for efficiently modeling dynamic humans by explicifying the implicit neural fields via a Neural Explicit Surface (NES). Implicit neural fields have advantages over traditional explicit representations in modeling dynamic 3D content from sparse observations and effectively representing complex geometries and appearances. Implicit neural fields defined in 3D space, however, are expensive to render due to the need for dense sampling during volumetric rendering. Moreover, their memory efficiency can be further optimized when modeling sparse 3D space. To overcome these issues, the paper proposes utilizing Neural Explicit Surface (NES) to explicitly represent implicit neural fields, facilitating memory and computational efficiency. To achieve this, the paper creates a fully differentiable conversion between the implicit neural fields and the explicit rendering interface of NES, leveraging the strengths of both implicit and explicit approaches. This conversion enables effective training of the hybrid representation using implicit methods and efficient rendering by integrating the explicit rendering interface with a newly proposed rasterization-based neural renderer that only incurs a texture color query once for the initial ray interaction with the explicit surface, resulting in improved inference efficiency. NES describes dynamic human geometries with pose-dependent neural implicit surface deformation fields and their dynamic neural textures both in 2D space, which is a more memory-efficient alternative to traditional 3D methods, reducing redundancy and computational load. The comprehensive experiments show that NES performs similarly to previous 3D approaches, with greatly improved rendering speed and reduced memory cost.
翻訳日:2023-08-11 14:58:35 公開日:2023-08-07
# パング気象予報モデルと気象観測データとの整合性

The Compatibility between the Pangu Weather Forecasting Model and Meteorological Operational Data ( http://arxiv.org/abs/2308.04460v1 )

ライセンス: Link先を確認
Wencong Cheng, Yan Yan, Jiangjiang Xia, Qi Liu, Chang Qu, Zhigang Wang(参考訳) 近年,天気予報のための機械学習に基づく複数のデータ駆動モデルが出現している。 これらのモデルは従来の数値気象予報(nwp)システムと比較して精度が高い。 特に、非商用用途向けのオープンソースであるPangu-Weatherモデルは、European Centre for Medium-Range Weather Forecasts (ECMWF)によって予測性能が検証され、最近「Nature」誌に発表された。 本稿では,pangu-weatherモデルとnwpオペレーショナル解析との適合性についてケーススタディを通して評価する。 その結果,Pangu-Weatherモデルはモデル初期条件として様々なNWPシステムからの異なる動作解析と互換性があり,比較的安定な予測能力を示すことがわかった。 さらに,グローバル初期条件およびローカル初期条件の質向上は,パング・ウェザーモデルの予測性能向上に大きく寄与することを確認した。

Recently, multiple data-driven models based on machine learning for weather forecasting have emerged. These models are highly competitive in terms of accuracy compared to traditional numerical weather prediction (NWP) systems. In particular, the Pangu-Weather model, which is open source for non-commercial use, has been validated for its forecasting performance by the European Centre for Medium-Range Weather Forecasts (ECMWF) and has recently been published in the journal "Nature". In this paper, we evaluate the compatibility of the Pangu-Weather model with several commonly used NWP operational analyses through case studies. The results indicate that the Pangu-Weather model is compatible with different operational analyses from various NWP systems as the model initial conditions, and it exhibits a relatively stable forecasting capability. Furthermore, we have verified that improving the quality of global or local initial conditions significantly contributes to enhancing the forecasting performance of the Pangu-Weather model.
翻訳日:2023-08-10 16:38:34 公開日:2023-08-07
# MCTS誘導型遺伝的アルゴリズムによるニューラルネットワーク重みの最適化

MCTS guided Genetic Algorithm for optimization of neural network weights ( http://arxiv.org/abs/2308.04459v1 )

ライセンス: Link先を確認
Akshay Hebbar(参考訳) 本研究では,遺伝的アルゴリズムに探索戦略を適用し,遺伝子木構造全体を探索する可能性を検討する。 木探索にはいくつかの方法があるが、幅優先、深さ優先、反復といった単純なアルゴリズムは計算量が多いため、実行時間が長いことが多い。 確率的探索を行う際には、しばしば敵対的手法が望ましいメカニズムであり、より迅速に最適な結果が得られる。 本稿では,遺伝的アルゴリズムを用いたニューラルネットワークの最適化について検討する。 遺伝的アルゴリズム(GA)は、可能な状態のツリーを形成し、フィットネス機能を介して報酬のメカニズムを提供する。 モンテカルロ木探索 (mcts) は有意な木探索戦略であることが証明されており, 遺伝的アルゴリズムによって生成された最良の結果を最適に探索するためにこれらの手法を組み合わせる。

In this research, we investigate the possibility of applying a search strategy to genetic algorithms to explore the entire genetic tree structure. Several methods aid in performing tree searches; however, simpler algorithms such as breadth-first, depth-first, and iterative techniques are computation-heavy and often result in a long execution time. Adversarial techniques are often the preferred mechanism when performing a probabilistic search, yielding optimal results more quickly. The problem we are trying to tackle in this paper is the optimization of neural networks using genetic algorithms. Genetic algorithms (GA) form a tree of possible states and provide a mechanism for rewards via the fitness function. Monte Carlo Tree Search (MCTS) has proven to be an effective tree search strategy given states and rewards; therefore, we will combine these approaches to optimally search for the best result generated with genetic algorithms.
翻訳日:2023-08-10 16:38:19 公開日:2023-08-07
# ハイブリッド符号における符号化理論の統一とOAQECの視点

A unification of the coding theory and OAQEC perspective on hybrid codes ( http://arxiv.org/abs/1806.03702v2 )

ライセンス: Link先を確認
Shayan Majidy(参考訳) 量子チャネル上の古典的情報と量子的情報の両方を同時に送信する利点がある。 量子情報と古典情報の同時送信が成功するためには、ハイブリッド符号として知られるハイブリッド量子古典的誤り訂正符号の開発が必要である。 ハイブリッド符号の特徴付けは、符号化理論と演算代数量子誤差補正(OAQEC)の観点から行われている。 まず、これらの2つの視点が等価であること、および符号化理論の特徴がOAQECモデルの特定の場合であることを実証する。 第二に、ハイブリッド誤り訂正符号に対する量子ハミング境界の一般化を含む。 私たちは、非自明なハイブリッドコードを開発するために必要な条件を見つけます。 最後に、非自明な縮退4ビットハイブリッドコードの例を構築する。

There is an advantage in simultaneously transmitting both classical and quantum information over a quantum channel compared to sending independent transmissions. The successful implementation of simultaneous transmissions of quantum and classical information will require the development of hybrid quantum-classical error-correcting codes, known as hybrid codes. The characterization of hybrid codes has been performed from a coding theory perspective and an operator algebra quantum error correction (OAQEC) perspective. First, we demonstrate that these two perspectives are equivalent and that the coding theory characterization is a specific case of the OAQEC model. Second, we include a generalization of the quantum Hamming bound for hybrid error-correcting codes. We discover a necessary condition for developing non-trivial hybrid codes -- they must be degenerate. Finally, we construct an example of a non-trivial degenerate 4-qubit hybrid code.
翻訳日:2023-08-09 18:08:41 公開日:2023-08-07
# グラフニューラルネットワークの転送性特性

Transferability Properties of Graph Neural Networks ( http://arxiv.org/abs/2112.04629v4 )

ライセンス: Link先を確認
Luana Ruiz, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(gnn)は、グラフ畳み込みとポイントワイズ非線形からなる層で構成される。 それらの不変性と安定性のため、GNNは中規模グラフでサポートされているデータから表現を学習することに成功している。 しかし,大規模グラフでは学習が困難である。 本稿では,中程度のグラフ上でGNNを訓練し,それらを大規模グラフに転送する問題について検討する。 グラフフィルタとGNNのリミットオブジェクト(グラフフィルタとグラフニューラルネットワーク(WNN))を定義するために、グラモンと呼ばれるグラフ制限を使用し、グラフフィルタとGNNの生成モデルとして解釈する。 次に、重み付きおよび確率グラフ上で、グラフフィルタとGNNによってグラフフィルタとWNNを近似できることを示す。 これらの近似の誤差は上界化できるので、三角形の不等式からグラフフィルターやGNNをグラフ上で転送する誤差をさらに制限することができる。 私たちの結果は (i)転送誤差はグラフサイズによって減少し、 (ii) グラフフィルタは、gnnにおいて非線形性の散乱挙動によって緩和される転送可能性・識別可能性トレードオフを持つ。 これらの結果は,映画のレコメンデーション問題や分散制御タスクにおいて実証的に実証される。

Graph neural networks (GNNs) are composed of layers consisting of graph convolutions and pointwise nonlinearities. Due to their invariance and stability properties, GNNs are provably successful at learning representations from data supported on moderate-scale graphs. However, they are difficult to learn on large-scale graphs. In this paper, we study the problem of training GNNs on graphs of moderate size and transferring them to large-scale graphs. We use graph limits called graphons to define limit objects for graph filters and GNNs -- graphon filters and graphon neural networks (WNNs) -- which we interpret as generative models for graph filters and GNNs. We then show that graphon filters and WNNs can be approximated by graph filters and GNNs sampled from them on weighted and stochastic graphs. Because the error of these approximations can be upper bounded, by a triangle inequality argument we can further bound the error of transferring a graph filter or a GNN across graphs. Our results show that (i) the transference error decreases with the graph size, and (ii) that graph filters have a transferability-discriminability tradeoff that in GNNs is alleviated by the scattering behavior of the nonlinearity. These findings are demonstrated empirically in a movie recommendation problem and in a decentralized control task.
翻訳日:2023-08-09 18:03:27 公開日:2023-08-07
# Lazy OCO: 切り替え予算によるオンライン凸最適化

Lazy OCO: Online Convex Optimization on a Switching Budget ( http://arxiv.org/abs/2102.03803v6 )

ライセンス: Link先を確認
Uri Sherman, Tomer Koren(参考訳) 我々はオンライン凸最適化の変種を調査し、プレイヤーは$t$ラウンドを通して最大$s$倍の期待値で決定を切り替えることができる。 同様の問題は、離散的な決定セットの設定の事前作業や、より最近の連続的な設定では、適応的な敵のみに対処されている。 本研究では,このギャップを埋めて計算効率の高いアルゴリズムを,より広く普及し,一般凸損失に対してo(t/s)$,強凸損失に対してo(t/s^2)$という後悔の限度を確立することを目的とする。 さらに,確率的 i.i.d.~losses に対して,一般的な凸設定と強い凸設定の両方において,乗算的$\log t$ factor のオーバーヘッドのみで $\log t$ スイッチを実行する単純なアルゴリズムを提案する。 最後に、我々はアルゴリズムを、考慮すべきいくつかのケースにおいて上界に一致する下界で補完する。

We study a variant of online convex optimization where the player is permitted to switch decisions at most $S$ times in expectation throughout $T$ rounds. Similar problems have been addressed in prior work for the discrete decision set setting, and more recently in the continuous setting but only with an adaptive adversary. In this work, we aim to fill the gap and present computationally efficient algorithms in the more prevalent oblivious setting, establishing a regret bound of $O(T/S)$ for general convex losses and $\widetilde O(T/S^2)$ for strongly convex losses. In addition, for stochastic i.i.d.~losses, we present a simple algorithm that performs $\log T$ switches with only a multiplicative $\log T$ factor overhead in its regret in both the general and strongly convex settings. Finally, we complement our algorithms with lower bounds that match our upper bounds in some of the cases we consider.
翻訳日:2023-08-09 18:01:58 公開日:2023-08-07
# 半教師付きディープマルチビューステレオ

Semi-supervised Deep Multi-view Stereo ( http://arxiv.org/abs/2207.11699v3 )

ライセンス: Link先を確認
Hongbin Xu, Zhipeng Zhou, Weitao Chen, Baigui Sun, Hao Li, Wenxiong Kang(参考訳) 学習に基づくマルチビューステレオ (mvs) では,教師なしと教師なしの設定で有意な進歩が見られた。 そこで本稿では,その精度と完全性を両立し,高価なラベル付きデータの需要を低減しつつ,mvsデータのごく一部に濃密な地底真理を付加する半教師付き設定において,学習に基づくmvsの問題を検討する。 しかし、シナリオの膨大なバリエーションとビューの柔軟な設定により、ラベル付きデータとラベル付きデータが同一のラベル空間とデータ分布を共有している古典的な半教師付き学習における基本的な前提を破る可能性がある。 これらの問題に対処するため、我々はSDA-MVSと呼ばれる半教師付き分散拡張MVSフレームワークを提案する。 MVSデータで基本的な仮定が機能する単純な場合、一貫性の正則化はモデルの予測を元のサンプルとランダムに増補されたサンプルとで整合するように促す。 さらに,mvsデータに基本仮定が矛盾する場合には,分布ギャップに起因する負の効果を緩和する新しいスタイルの一貫性損失を提案する。 ラベル付けされていないサンプルの視覚的スタイルをラベル付きサンプルに転送してギャップを小さくし、生成されたサンプルのモデル予測をさらにラベル付きサンプルで監督する。 複数のMVSデータセットの半教師付き設定実験の結果,提案手法の優れた性能を示す。 バックボーンネットワークにおける同じ設定により,提案したSDA-MVSは,完全に教師付き,教師なしのベースラインよりも優れている。

Significant progress has been witnessed in learning-based Multi-view Stereo (MVS) under supervised and unsupervised settings. To combine their respective merits in accuracy and completeness, meantime reducing the demand for expensive labeled data, this paper explores the problem of learning-based MVS in a semi-supervised setting that only a tiny part of the MVS data is attached with dense depth ground truth. However, due to huge variation of scenarios and flexible settings in views, it may break the basic assumption in classic semi-supervised learning, that unlabeled data and labeled data share the same label space and data distribution, named as semi-supervised distribution-gap ambiguity in the MVS problem. To handle these issues, we propose a novel semi-supervised distribution-augmented MVS framework, namely SDA-MVS. For the simple case that the basic assumption works in MVS data, consistency regularization encourages the model predictions to be consistent between original sample and randomly augmented sample. For further troublesome case that the basic assumption is conflicted in MVS data, we propose a novel style consistency loss to alleviate the negative effect caused by the distribution gap. The visual style of unlabeled sample is transferred to labeled sample to shrink the gap, and the model prediction of generated sample is further supervised with the label in original labeled sample. The experimental results in semi-supervised settings of multiple MVS datasets show the superior performance of the proposed method. With the same settings in backbone network, our proposed SDA-MVS outperforms its fully-supervised and unsupervised baselines.
翻訳日:2023-08-09 17:53:49 公開日:2023-08-07
# 消去による学習:条件エントロピーに基づく移動可能分布外検出

Learning by Erasing: Conditional Entropy based Transferable Out-Of-Distribution Detection ( http://arxiv.org/abs/2204.11041v2 )

ライセンス: Link先を確認
Meng Xing, Zhiyong Feng, Yong Su and Changjae Oh(参考訳) out-of-distribution (ood)検出は、トレーニングとテストシナリオ間の分散シフトを処理するために不可欠である。 新しいin-distribution(id)データセットでは、既存のメソッドがデータセット固有の特徴表現やデータ分散をキャプチャするために再トレーニングする必要がある。 本稿では,新しいIDデータセットで再トレーニングする必要がないDGMに基づく転送可能なOOD検出手法を提案する。 我々は,各IDデータセットに排他的条件エントロピー分布を付与する画像消去戦略を設計し,異なるIDデータセット上でのDGMの後方確率分布の相違を判定する。 畳み込みニューラルネットワークの強力な表現能力のため、複雑なデータセットに基づいてトレーニングされたモデルでは、上記のIDデータセット間の不一致を再トレーニングすることなく捉え、転送可能なOOD検出を実現することができる。 提案手法を5つのデータセットに対して検証し,新しいIDデータセットにデプロイするために再トレーニングが必要な最先端グループベースのOOD検出手法に匹敵する性能を実現する。 私たちのコードはhttps://github.com/oohcioo/cetoodで利用可能です。

Out-of-distribution (OOD) detection is essential to handle the distribution shifts between training and test scenarios. For a new in-distribution (ID) dataset, existing methods require retraining to capture the dataset-specific feature representation or data distribution. In this paper, we propose a deep generative models (DGM) based transferable OOD detection method, which is unnecessary to retrain on a new ID dataset. We design an image erasing strategy to equip exclusive conditional entropy distribution for each ID dataset, which determines the discrepancy of DGM's posteriori ucertainty distribution on different ID datasets. Owing to the powerful representation capacity of convolutional neural networks, the proposed model trained on complex dataset can capture the above discrepancy between ID datasets without retraining and thus achieve transferable OOD detection. We validate the proposed method on five datasets and verity that ours achieves comparable performance to the state-of-the-art group based OOD detection methods that need to be retrained to deploy on new ID datasets. Our code is available at https://github.com/oOHCIOo/CETOOD.
翻訳日:2023-08-09 17:51:22 公開日:2023-08-07
# 合成開口レーダ画像のための微分可能レンダリング

Differentiable Rendering for Synthetic Aperture Radar Imagery ( http://arxiv.org/abs/2204.01248v2 )

ライセンス: Link先を確認
Michael Wilmanski, Jonathan Tamir(参考訳) これにより、バックプロパゲーションのような一階法を用いて最適化パイプラインの幾何学的事前と制約を明示的にモデル化することができる。 このようなドメイン知識を組み込むことで、より堅牢に、限られたデータでトレーニングされるディープニューラルネットワークと、不適切な逆問題を解く能力に繋がる可能性がある。 既存の微分可能レンダリングの取り組みは、電子光学センサー、特に従来のRGBイメージの画像に焦点を当ててきた。 本研究では,3次元コンピュータグラフィックスとニューラルレンダリングを組み合わせた合成開口レーダ(SAR)画像の識別可能なレンダリング手法を提案する。 高忠実度シミュレーションSARデータを用いた限られたSAR画像からの3次元オブジェクト再構成の逆画像問題に対するアプローチを示す。

There is rising interest in differentiable rendering, which allows explicitly modeling geometric priors and constraints in optimization pipelines using first-order methods such as backpropagation. Incorporating such domain knowledge can lead to deep neural networks that are trained more robustly and with limited data, as well as the capability to solve ill-posed inverse problems. Existing efforts in differentiable rendering have focused on imagery from electro-optical sensors, particularly conventional RGB-imagery. In this work, we propose an approach for differentiable rendering of Synthetic Aperture Radar (SAR) imagery, which combines methods from 3D computer graphics with neural rendering. We demonstrate the approach on the inverse graphics problem of 3D Object Reconstruction from limited SAR imagery using high-fidelity simulated SAR data.
翻訳日:2023-08-09 17:51:01 公開日:2023-08-07
# 毎秒10容積画像における相関光子イメージング

Correlated-photon imaging at 10 volumetric images per second ( http://arxiv.org/abs/2212.02672v2 )

ライセンス: Link先を確認
Gianlorenzo Massaro, Paul Mos, Sergii Vasiukov, Francesco Di Lena, Francesco Scattarella, Francesco V. Pepe, Arin Ulku, Davide Giannella, Edoardo Charbon, Claudio Bruschini, Milena D'Angelo(参考訳) 光の相関性は従来のイメージング技術の限界を克服する優れたツールとなる。 関連事例を相関plenoptic imaging(cpi)という量子インスパイアされたボリュームイメージングプロトコルで表現し、エンタングル源またはカオス源からの時空間相関光子を用いて、従来の光場イメージングの主な制限、すなわち空間分解能の低下と3次元イメージングにおける遠近法の変化に対処する。 しかし、光子相関による高分解能イメージングの応用の可能性は、実際には多数のフレームを収集する必要があるため、制限されている。 これは、相関光イメージングの時間パフォーマンスと従来の撮像方法との間に、多くの関連するタスクでは受け入れられないギャップを生み出します。 本稿では、カオス光に固有の光子数相関を利用してこの問題に対処し、単一光子アバランシェダイオード(SPAD)の大きな配列からなる最先端の超高速センサと組み合わせる。 このソースとセンサの組み合わせは、1秒間に10のボリューム画像を取得することができる新しいシングルレンズCPIスキームに組み込まれている。 本研究は, 相関光子イメージングを競合エッジに配置し, 実用化の可能性を示すものである。

The correlation properties of light provide an outstanding tool to overcome the limitations of traditional imaging techniques. A relevant case is represented by correlation plenoptic imaging (CPI), a quantum-inspired volumetric imaging protocol employing spatio-temporally correlated photons from either entangled or chaotic sources to address the main limitations of conventional light-field imaging, namely, the poor spatial resolution and the reduced change of perspective for 3D imaging. However, the application potential of high-resolution imaging modalities relying on photon correlations is limited, in practice, by the need to collect a large number of frames. This creates a gap, unacceptable for many relevant tasks, between the time performance of correlated-light imaging and that of traditional imaging methods. In this article, we address this issue by exploiting the photon number correlations intrinsic in chaotic light, combined with a cutting-edge ultrafast sensor made of a large array of single-photon avalanche diodes (SPADs). This combination of source and sensor is embedded within a novel single-lens CPI scheme enabling to acquire 10 volumetric images per second. Our results place correlated-photon imaging at a competitive edge and prove its potential in practical applications.
翻訳日:2023-08-09 17:45:08 公開日:2023-08-07
# インシシットテンソル分解による非パラメトリック混合モデルのモーメント推定

Moment Estimation for Nonparametric Mixture Models Through Implicit Tensor Decomposition ( http://arxiv.org/abs/2210.14386v3 )

ライセンス: Link先を確認
Yifan Zhang, Joe Kileel(参考訳) 本稿では,分散をパラメータ化することなく,条件付き非依存混合モデル推定のための交互最小二乗型数値最適化手法を提案する。 モーメントの手法に従うと、不完全テンソル分解問題に取り組み、混合重みと成分的手段を学習する。 次に,成分分布の累積分布関数,高次モーメント,その他の統計を線形解法によって計算する。 高次元の計算では、高階テンソルに関連する急なコストは、効率的なテンソルフリー演算の開発によって回避される。 数値実験はアルゴリズムの競合性能と多くのモデルや応用への適用性を実証する。 さらに,混合の低次モーメントから同定可能性を確立し,alsアルゴリズムの局所線形収束を保証する理論解析を行う。

We present an alternating least squares type numerical optimization scheme to estimate conditionally-independent mixture models in $\mathbb{R}^n$, without parameterizing the distributions. Following the method of moments, we tackle an incomplete tensor decomposition problem to learn the mixing weights and componentwise means. Then we compute the cumulative distribution functions, higher moments and other statistics of the component distributions through linear solves. Crucially for computations in high dimensions, the steep costs associated with high-order tensors are evaded, via the development of efficient tensor-free operations. Numerical experiments demonstrate the competitive performance of the algorithm, and its applicability to many models and applications. Furthermore we provide theoretical analyses, establishing identifiability from low-order moments of the mixture and guaranteeing local linear convergence of the ALS algorithm.
翻訳日:2023-08-09 17:44:16 公開日:2023-08-07
# トロッター近似を用いた量子コンピュータ上の電子構造問題に対する種々のハミルトン分割の評価

Assessment of various Hamiltonian partitionings for the electronic structure problem on a quantum computer using the Trotter approximation ( http://arxiv.org/abs/2210.10189v2 )

ライセンス: Link先を確認
Luis A. Mart\'inez-Mart\'inez, Tzu-Ching Yen and Artur F. Izmaylov(参考訳) 電子ハミルトニアンのユニタリ進化による電子構造問題の解決は、デジタル量子コンピュータの有望な応用の1つである。 ユニタリ進化を実装するための実践的な戦略の1つは、高速フォワード可能な(すなわち効率的に対角化可能な)ハミルトンの断片の短い時間進化の列を使用するトロッター化である。 ファストフォワード可能な断片に対するハミルトン分解の可能な選択肢が複数あるとすると、ハミルトン進化の精度は断片の選択に依存する。 ロータライズのためのフェルミオン代数とキュービット代数を用いた複数のハミルトニアン分割手法の効率評価を行う。 電子ハミルトニアンとそのフラグメントの対称性の使用は、トロッター誤差を著しく減少させる。 この削減により、フェルミオンベースのパーティショニングトロッター誤差は、クォービットベースのテクニックよりも小さくなる。 しかし、シミュレーションコストの観点からは、フェルミオン法は各トロッターステップでより多くのTゲートを持つ量子回路を導入する傾向にあり、従って量子ビットに比べて計算コストが高い。

Solving the electronic structure problem via unitary evolution of the electronic Hamiltonian is one of the promising applications of digital quantum computers. One of the practical strategies to implement the unitary evolution is via Trotterization, where a sequence of short-time evolutions of fast-forwardable (i.e. efficiently diagonalizable) Hamiltonian fragments is used. Given multiple choices of possible Hamiltonian decompositions to fast-forwardable fragments, the accuracy of the Hamiltonian evolution depends on the choice of the fragments. We assess efficiency of multiple Hamiltonian partitioning techniques using fermionic and qubit algebras for the Trotterization. Use of symmetries of the electronic Hamiltonian and its fragments significantly reduces the Trotter error. This reduction makes fermionic-based partitioning Trotter errors lower compared to those in qubit-based techniques. However, from the simulation-cost standpoint, fermionic methods tend to introduce quantum circuits with a greater number of T-gates at each Trotter step and thus are more computationally expensive compared to their qubit counterparts.
翻訳日:2023-08-09 17:43:45 公開日:2023-08-07
# 量子計算と情報

Notes on Quantum Computation and Information ( http://arxiv.org/abs/2301.09679v3 )

ライセンス: Link先を確認
Raghav G. Jha(参考訳) 量子ゲート,回路,アルゴリズム,定理,誤り訂正など,量子コンピューティングと情報の基礎を議論し,qiskitプログラムのコレクションと興味のある読者のためのエクササイズを提供する。

We discuss fundamentals of quantum computing and information - quantum gates, circuits, algorithms, theorems, error correction, and provide collection of QISKIT programs and exercises for the interested reader.
翻訳日:2023-08-09 17:32:54 公開日:2023-08-07
# 状態変化を伴う時間表表データセットの予測のためのオンライン学習手法

Online learning techniques for prediction of temporal tabular datasets with regime changes ( http://arxiv.org/abs/2301.00790v3 )

ライセンス: Link先を確認
Thomas Wong and Mauricio Barahona(参考訳) 非定常時間データセットへのディープラーニングの適用は、レジーム変更下で過小評価される過剰なモデルにつながる可能性がある。 本研究では,システム変更時にロバストなテンポラリパネルデータセット上での予測をランク付けするモジュール型機械学習パイプラインを提案する。 パイプラインのモジュラリティにより、機能エンジニアリングによるグラディエントブースティング決定木(GBDT)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。 株式ポートフォリオ予測のための金融データフレームワークの評価を行い,GBDTモデルでは,複雑性と計算コストを低減し,高い性能,堅牢性,一般性を示す。 次に,モデルのリトレーニングが不要なオンライン学習手法が,予測後の結果向上にどのように役立つかを実演する。 まず,動的特徴投影は,レジーム変化の縮小によりロバスト性が向上することを示す。 第2に,最近の優れたモデル選択に基づく動的モデルのセンシングが,サンプル外予測のシャープさと冷静さの向上につながることを実証する。 また,異なるデータ分割とランダム種子間のパイプラインのロバスト性を再現性良く評価した。

The application of deep learning to non-stationary temporal datasets can lead to overfitted models that underperform under regime changes. In this work, we propose a modular machine learning pipeline for ranking predictions on temporal panel datasets which is robust under regime changes. The modularity of the pipeline allows the use of different models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks, with and without feature engineering. We evaluate our framework on financial data for stock portfolio prediction, and find that GBDT models with dropout display high performance, robustness and generalisability with reduced complexity and computational cost. We then demonstrate how online learning techniques, which require no retraining of models, can be used post-prediction to enhance the results. First, we show that dynamic feature projection improves robustness by reducing drawdown in regime changes. Second, we demonstrate that dynamical model ensembling based on selection of models with good recent performance leads to improved Sharpe and Calmar ratios of out-of-sample predictions. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility.
翻訳日:2023-08-09 17:32:05 公開日:2023-08-07
# 等価交通ネットワークの設計

Designing Equitable Transit Networks ( http://arxiv.org/abs/2212.12007v2 )

ライセンス: Link先を確認
Sophie Pavia, J. Carlos Martinez Mori, Aryaman Sharma, Philip Pugliese, Abhishek Dubey, Samitha Samaranayake, Ayan Mukhopadhyay(参考訳) 公共交通は雇用、医療、教育、レクリエーション施設へのアクセスを可能にする重要なインフラである。 交通機関へのアクセシビリティは一般的に重要であるが、人口の一部は交通機関に依存する。 しかし、既存の公共交通機関は平等に設計されておらず、しばしば株式は体系的な変化を妨げている追加の目的としてのみ考慮される。 本稿では,平等と福祉の異なる概念を明示的に考慮した交通ネットワーク設計の定式化について述べる。 本稿は,米国大都市圏におけるネットワーク設計とエクイティのさまざまな概念の相互作用と,実世界データに基づく現在のトレードオフと結果について考察する。

Public transit is an essential infrastructure enabling access to employment, healthcare, education, and recreational facilities. While accessibility to transit is important in general, some sections of the population depend critically on transit. However, existing public transit is often not designed equitably, and often, equity is only considered as an additional objective post hoc, which hampers systemic changes. We present a formulation for transit network design that considers different notions of equity and welfare explicitly. We study the interaction between network design and various concepts of equity and present trade-offs and results based on real-world data from a large metropolitan area in the United States of America.
翻訳日:2023-08-09 17:31:46 公開日:2023-08-07
# 広汎化メラノーマ検出のためのコンテクストデータ拡張の活用

Leveraging Contextual Data Augmentation for Generalizable Melanoma Detection ( http://arxiv.org/abs/2212.05116v2 )

ライセンス: Link先を確認
Nick DiSanto, Gavin Harding, Ethan Martinez, Benjamin Sanders(参考訳) 皮膚がん検出は長年にわたって重要な深層学習アプリケーションであるが、その評価はテスト画像の評価の文脈を無視することが多い。 従来のメラノーマ分類器は、テスト環境がトレーニングされた構造化画像と同等であると仮定している。 本稿ではこの概念に挑戦し、プロの皮膚科における重要な属性であるモールサイズが、メラノーマの自動検出において誤解を招く可能性があると論じる。 悪性黒色腫は良性黒色腫よりも大きい傾向にあるが、画像のコンテキストスケーリングが不可能な場合には、サイズのみに依存することは信頼性が低く、有害である。 本実装では,パラメータの過度な適合を防止し,メラノーマ検出アプリケーションの実環境利用をシミュレートするために,様々なデータ拡張手順を実行するカスタムモデルを提案する。 mole分類器の最も重要な特徴を強調するために、異なる形式のデータ拡張を使用する複数のカスタムモデルが実装されている。 これらの実装は、そのようなアプリケーションをデプロイする際にユーザーの予測不能を考慮することの重要性を強調している。 データを手動で修正する場合に必要となる注意は、データ損失とバイアスのある結論をもたらす可能性があるため、認識される。 また,皮膚科と深層学習コミュニティにおけるデータ拡張の重要性も考察した。

While skin cancer detection has been a valuable deep learning application for years, its evaluation has often neglected the context in which testing images are assessed. Traditional melanoma classifiers assume that their testing environments are comparable to the structured images they are trained on. This paper challenges this notion and argues that mole size, a critical attribute in professional dermatology, can be misleading in automated melanoma detection. While malignant melanomas tend to be larger than benign melanomas, relying solely on size can be unreliable and even harmful when contextual scaling of images is not possible. To address this issue, this implementation proposes a custom model that performs various data augmentation procedures to prevent overfitting to incorrect parameters and simulate real-world usage of melanoma detection applications. Multiple custom models employing different forms of data augmentation are implemented to highlight the most significant features of mole classifiers. These implementations emphasize the importance of considering user unpredictability when deploying such applications. The caution required when manually modifying data is acknowledged, as it can result in data loss and biased conclusions. Additionally, the significance of data augmentation in both the dermatology and deep learning communities is considered.
翻訳日:2023-08-09 17:30:52 公開日:2023-08-07
# 因果カミソリ

Causal Razors ( http://arxiv.org/abs/2302.10331v3 )

ライセンス: Link先を確認
Wai-yin Lam(参考訳) 因果発見を行う場合、真の因果メカニズムが基礎となる確率分布とどのように対応しているかを仮定する必要がある。 これらの仮定は、この作品において因果的なカミソリとしてラベル付けされる。 文献に登場する多数のカミソリについて検討し,それらを包括的に比較した。 特に,多項因果モデルにおける不人気因果関係,すなわちパラメータ最小性,および他のよく研究された因果関係を精査する。 我々の論理的結果は、スコアベースのカジュアル検索アルゴリズムの適切なスコアリング基準を選択する際のジレンマとなる。

When performing causal discovery, assumptions have to be made on how the true causal mechanism corresponds to the underlying joint probability distribution. These assumptions are labeled as causal razors in this work. We review numerous causal razors that appeared in the literature, and offer a comprehensive logical comparison of them. In particular, we scrutinize an unpopular causal razor, namely parameter minimality, in multinomial causal models and its logical relations with other well-studied causal razors. Our logical result poses a dilemma in selecting a reasonable scoring criterion for score-based casual search algorithms.
翻訳日:2023-08-09 17:23:53 公開日:2023-08-07
# ポテンシャルのない境界状態:特異点の局在

Bound states without potentials: localization at singularities ( http://arxiv.org/abs/2302.03065v3 )

ライセンス: Link先を確認
Eric He, R. Ganesh(参考訳) 境界状態形成は量子力学の古典的な特徴であり、粒子は魅力的なポテンシャルの近傍に局在する。 これは典型的には、粒子がそのポテンシャルエネルギーを下げるものとして理解される。 本稿では,運動エネルギーの考慮により境界状態が純粋に生じるパラダイムについて議論する。 この現象は、互いに交わる複数の滑らかな曲面からなるある非多様体空間で起こる。 交叉領域は次元が定義されていない特異点と見なすことができる。 粒子が$M$空間(M=2, 3, 4, \ldots$)、次元$D$(D=1, 2$, 3,$)に移動するような環境で、このアイデアを実証する。 空間は共通点で交わり、特異点として機能する。 この環境で量子挙動を研究するために、空間を離散化し、密結合アプローチを採用する。 一般論として、特異点の周囲に局在した基底状態が、$m$ の曲面の中で ‘shuttling' の運動エネルギーに縛られることを発見する。 我々は一方の特異点と他方の局所的魅力ポテンシャルの間に定量的な類似性を描く。 各特異点に対して、同じ束縛状態の波動関数と結合エネルギーを生成する等価ポテンシャルを割り当てる。 特異性の度合い(M$, 交差する曲面の数)は、等価ポテンシャルの強さを決定する。 d=1$ と $d=2$ で、任意の特異点が束縛状態を生成することを示す。 これは、任意の魅力的なポテンシャルが 1D と 2D の有界状態を生成するというよく知られた事実に類似している。 対照的に、$d=3$ の場合、束縛状態は特異度がしきい値を超える場合にのみ現れる。 これは、三次元では境界状態形成に閾値ポテンシャル強度が必要であるという事実に類似している。 量子物理学の様々な領域における実験と理論的研究の意味について論じる。

Bound state formation is a classic feature of quantum mechanics, where a particle localizes in the vicinity of an attractive potential. This is typically understood as the particle lowering its potential energy. In this article, we discuss a paradigm where bound states arise purely due to kinetic energy considerations. This phenomenon occurs in certain non-manifold spaces that consist of multiple smooth surfaces that intersect one another. The intersection region can be viewed as a singularity where dimensionality is not defined. We demonstrate this idea in a setting where a particle moves on $M$ spaces ($M=2, 3, 4, \ldots$), each of dimensionality $D$ ($D=1, 2$ and $3$). The spaces intersect at a common point, which serves as a singularity. To study quantum behaviour in this setting, we discretize space and adopt a tight-binding approach. We generically find a ground state that is localized around the singular point, bound by the kinetic energy of `shuttling' among the $M$ surfaces. We draw a quantitative analogy between singularities on the one hand and local attractive potentials on the other. To each singularity, we assign an equivalent potential that produces the same bound state wavefunction and binding energy. The degree of a singularity ($M$, the number of intersecting surfaces) determines the strength of the equivalent potential. With $D=1$ and $D=2$, we show that any singularity creates a bound state. This is analogous to the well known fact that any attractive potential creates a bound state in 1D and 2D. In contrast, with $D=3$, bound states only appear when the degree of the singularity exceeds a threshold value. This is analogous to the fact that in three dimensions, a threshold potential strength is required for bound state formation. We discuss implications for experiments and theoretical studies in various domains of quantum physics.
翻訳日:2023-08-09 17:23:13 公開日:2023-08-07
# YOLOの総合的なレビュー: YOLOv1とBeyond

A Comprehensive Review of YOLO: From YOLOv1 and Beyond ( http://arxiv.org/abs/2304.00501v4 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では、YOLOの進化を総合的に分析し、元のYOLOからYOLOv8, YOLO-NAS, YOLOをトランスフォーマーで比較した。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO up to YOLOv8, YOLO-NAS, and YOLO with Transformers. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-08-09 17:13:40 公開日:2023-08-07
# 2ビットの対称混合状態の有理局所ユニタリ不変量

Rational Local Unitary Invariants of Symmetrically Mixed States of Two Qubits ( http://arxiv.org/abs/2304.13555v2 )

ライセンス: Link先を確認
Luca Candelori, Vladimir Y. Chernyak, John R. Klein, and Nick Rekuski(参考訳) 局所極大混合状態と2つの量子ビットの対称混合状態に対する有理局所ユニタリ不変量の場を計算する。 どちらの場合も、有理不変量の体は純粋に超越的であることを証明している。 また、明示的な幾何学的商を構築し、それらが常に有理であることを証明する。 すべての結果は実数体上で働き、標数 0 の任意の体上の古典的および幾何学的不変量理論の手法を用いて得られる。

We compute the field of rational local unitary invariants for locally maximally mixed states and symmetrically mixed states of two qubits. In both cases, we prove that the field of rational invariants is purely transcendental. We also construct explicit geometric quotients and prove that they are always rational. All the results are obtained by working over the field of real numbers, employing methods from classical and geometric invariant theory over arbitrary fields of characteristic zero.
翻訳日:2023-08-09 17:03:53 公開日:2023-08-07
# 不確定データからの因果表現学習と解答に向けて

Towards Causal Representation Learning and Deconfounding from Indefinite Data ( http://arxiv.org/abs/2305.02640v3 )

ライセンス: Link先を確認
Hang Chen and Xinyu Yang and Qing Yang(参考訳) 因果スケルトン数と因果変数の次元という2つの新しい視点から因果データを再定義し、3つのデータパラダイムを提案する。 それらのうち、不定値データ(対話やビデオソースなど)は、マルチスケルトン構造と多値変数によって特徴づけられる。 マルチスケルトンはサンプル使用率の低下を誘発し、マルチ値は分布仮定の不可能性を誘発し、どちらも未定のデータからの因果表現の学習は、まだほとんど探索されていないという事実に繋がる。 この2つの問題を解決するために因果強度変動モデルを設計する。 具体的には、独立雑音の代わりに因果強度を潜伏変数として利用し、証拠を下限に構築する。 この設計エトスにより、異なる骨格の因果強度は分布と見なされ、単値因果グラフ行列として表現できる。 因果グラフ g を二つの関係部分グラフ o と c に分解する。 o は観測変数間の純粋関係を含み、c は潜在変数と観測変数の関係を表す。 上記の設計を動的変分推論モデルとして実装し,不定値データからの因果表現を潜在結合下で学習する。 最後に,本手法の有効性を実証するために,合成および実世界のデータに関する包括的実験を行った。

We redefine causal data from two novel perspectives: the number of causal skeletons and the dimension of causal variables, thereby proposing three data paradigms. Among them, the indefinite data (like dialogues or video sources) is characterized by multi-skeleton structures and multi-value variables. Multi skeletons induce low sample utilization, and multi values induce incapability of the distribution assumption, both leading to the fact that learning causal representation from indefinite data is, as of yet, largely unexplored. We design the causal strength variational model to settle down these two problems. Specifically, we leverage the causal strength instead of independent noise as the latent variable to construct evidence lower bound. By this design ethos, The causal strengths of different skeletons are regarded as a distribution and can be expressed as a single-valued causal graph matrix. Moreover, considering the latent confounders, we disentangle the causal graph G into two relation subgraphs O and C. O contains pure relations between observed variables, while C represents the relations from latent variables to observed variables. We implement the above designs as a dynamic variational inference model, tailored to learn causal representation from indefinite data under latent confounding. Finally, we conduct comprehensive experiments on synthetic and real-world data to demonstrate the effectiveness of our method.
翻訳日:2023-08-09 16:52:12 公開日:2023-08-07
# スケッチによる部分微分方程式に対するモンテカルロ法とテンソルネットワーク法の組み合わせ

Combining Monte Carlo and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v3 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 提案手法は,最近提案するテンソルトレインスケッチ手法を用いて,新しい解をテンソルネットワークとして更新し,再評価するために粒子シミュレーションを併用した包括的解法を提供する。 本手法は, 粒子がテンソルネットワークを起点と仮定して粒子数制御を行うための代替手法としても解釈できる。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を実証する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach offers a comprehensive solution methodology, wherein we employ a combination of particle simulations to update the solution and re-estimations of the new solution as a tensor-network using a recently proposed tensor train sketching technique. Our method can also be interpreted as an alternative approach for performing particle number control by assuming the particles originate from an underlying tensor network. We demonstrate the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo.
翻訳日:2023-08-09 16:43:21 公開日:2023-08-07
# 内因性運動の測定とモデル化

Measuring and Modeling Physical Intrinsic Motivation ( http://arxiv.org/abs/2305.13452v3 )

ライセンス: Link先を確認
Julio Martinez, Felix Binder, Haoliang Wang, Nick Haber, Judith Fan, Daniel L. K. Yamins(参考訳) 人間は、興味深い物理的ダイナミクスを持つ状況を探すために、対話的なエージェントです。 ここでは、身体固有のモチベーションの機能形式を定式化する。 私たちはまず、人間が様々な物理シナリオをいかに興味深いかを評価する。 次に,本研究は,本質的な動機付けの様々な仮説を実装することで,人間の興味ある応答をモデル化する。 人間の反応の最も優れた予測者は、物理的予測損失から派生したモデルである逆報酬である。 また、単純なシーン特徴モデルでは、すべてのシナリオにおける人間の反応の予測を一般化しないことがわかった。 最後に、対角線モデルとシーン内の衝突数とを線形に組み合わせることで、人間の反応の予測能力が最大に向上し、高い情報獲得と身体活動をもたらすシナリオに人間を駆り立てることが示唆される。

Humans are interactive agents driven to seek out situations with interesting physical dynamics. Here we formalize the functional form of physical intrinsic motivation. We first collect ratings of how interesting humans find a variety of physics scenarios. We then model human interestingness responses by implementing various hypotheses of intrinsic motivation including models that rely on simple scene features to models that depend on forward physics prediction. We find that the single best predictor of human responses is adversarial reward, a model derived from physical prediction loss. We also find that simple scene feature models do not generalize their prediction of human responses across all scenarios. Finally, linearly combining the adversarial model with the number of collisions in a scene leads to the greatest improvement in predictivity of human responses, suggesting humans are driven towards scenarios that result in high information gain and physical activity.
翻訳日:2023-08-09 16:43:07 公開日:2023-08-07
# 双極子ボース・アインシュタイン凝縮体の異方性インフレーション

Anisotropic Inflation in Dipolar Bose-Einstein Condensates ( http://arxiv.org/abs/2307.02141v2 )

ライセンス: Link先を確認
Arun Rana, Abhijit Pendse, Sebastian W\"uster, and Sukanta Panda(参考訳) 宇宙のインフレーションの初期には、回転不変性が破られ、後に低エネルギー物理学の特徴として出現した。 これは、例えば宇宙マイクロ波背景のパワースペクトルにおいて、異方性時空の残留シグネチャの探索が進行中である。 二極性ボース・アインシュタイン凝縮(becs)は、インフレーション中のゆらぎスペクトルの異方性発展のための実験室量子シミュレーションプラットフォームを提供し、二極性凝縮音波の速度が方向に依存するという事実を生かした。 本研究では,二極子音と接触音の時間変化強度を,異なる座標方向のスケール係数と結びつけ,異方性類似の時間-時間距離制御音を構成する。 これらに基づいて、初期異方性宇宙の等方性を表すインフレーション中のフォノンパワースペクトルのダイナミクスを計算する。 拡張速度は最終的な残留異方性の度合いを制御・研究するための実験的なハンドルを提供する。 双極子凝縮体を用いた重力アナログは、これまで宇宙という単一の実験に限られていた宇宙論の分野の調整可能な実験を提供することができる。

Early during the era of cosmic inflation, rotational invariance may have been broken, only later emerging as a feature of low-energy physics. This motivates ongoing searches for residual signatures of anisotropic space-time, for example in the power spectrum of the cosmic microwave background. We propose that dipolar Bose-Einstein condensates (BECs) furnish a laboratory quantum simulation platform for the anisotropy evolution of fluctuation spectra during inflation, exploiting the fact that the speed of dipolar condensate sound waves depends on direction. We construct the anisotropic analogue space-time metric governing sound, by linking the time-varying strength of dipolar and contact interactions in the BEC to the scale factors in different coordinate directions. Based on these, we calculate the dynamics of phonon power spectra during an inflation that renders the initially anisotropic universe isotropic. We find that the expansion speed provides an experimental handle to control and study the degree of final residual anisotropy. Gravity analogues using dipolar condensates can thus provide tuneable experiments for a field of cosmology that was until now confined to a single experiment, our universe.
翻訳日:2023-08-09 16:35:42 公開日:2023-08-07
# 量子情報におけるハール測定ツールの紹介 : 初心者のチュートリアル

Introduction to Haar Measure Tools in Quantum Information: A Beginner's Tutorial ( http://arxiv.org/abs/2307.08956v2 )

ライセンス: Link先を確認
Antonio Anna Mele(参考訳) ハール測度は量子情報において重要な役割を果たすが、その研究はしばしば表現論の深い理解を必要とし、初心者にとって挑戦となる。 このチュートリアルは、線形代数の基本的な知識のみを利用して量子情報におけるハール測度ツールの基本的な紹介を提供することを目的としており、このトピックをよりアクセスしやすくすることを目的としている。 チュートリアルは、ハール測度上の積分を計算する必須要素であるモーメント作用素を特徴づけることに特に重点を置いてハール測度を導入することから始まります。 対称部分空間の性質もカバーし、計算の可視化と単純化を支援するテンソルネットワーク図式記法のような便利なツールも導入している。 次に、チュートリアルではユニタリデザインの概念を探求し、等価な定義を提供し、その後ユニタリデザインの近似概念を探求し、これら異なる概念間の関係を明らかにした。 ハール測度の計算の実際的な例は、量子チャネルの回転のようなよく知られた公式の導出を含む。 最後に、量子機械学習と古典的シャドウトモグラフィーにおけるハール測度計算の適用例を紹介する。

The Haar measure plays a vital role in quantum information, but its study often requires a deep understanding of representation theory, posing a challenge for beginners. This tutorial aims to provide a basic introduction to Haar measure tools in quantum information, utilizing only basic knowledge of linear algebra and thus aiming to make this topic more accessible. The tutorial begins by introducing the Haar measure with a specific emphasis on characterizing the moment operator, an essential element for computing integrals over the Haar measure. It also covers properties of the symmetric subspace and introduces helpful tools like Tensor network diagrammatic notation, which aid in visualizing and simplifying calculations. Next, the tutorial explores the concept of unitary designs, providing equivalent definitions, and subsequently explores approximate notions of unitary designs, shedding light on the relationships between these different notions. Practical examples of Haar measure calculations are illustrated, including the derivation of well-known formulas such as the twirling of a quantum channel. Lastly, the tutorial showcases the applications of Haar measure calculations in Quantum Machine Learning and Classical Shadow tomography.
翻訳日:2023-08-09 16:25:24 公開日:2023-08-07
# レース予測は信頼できるか?

Can We Trust Race Prediction? ( http://arxiv.org/abs/2307.08496v2 )

ライセンス: Link先を確認
Cangyuan Li(参考訳) センシティブな人種と民族データがないと、研究者、規制当局、そして企業もプロキシーに目を向ける。 本稿では,50州すべてからの投票者登録データの新しいデータセットに基づいて,双方向長短期記憶(BiLSTM)モデルをトレーニングし,最大36.8%のサンプル(OOS)F1スコアを文献上で最高の機械学習モデルよりも高いスコアで達成するアンサンブルを作成する。 さらに,ベイジアン改良名称ジオコーディング (BISG) とベイジアン改良姓ジオコーディング (BIFSG) のカバレッジと精度を向上させるため,アメリカにおける姓と姓の分布の包括的データベースを構築した。 最後に、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供します。

In the absence of sensitive race and ethnicity data, researchers, regulators, and firms alike turn to proxies. In this paper, I train a Bidirectional Long Short-Term Memory (BiLSTM) model on a novel dataset of voter registration data from all 50 US states and create an ensemble that achieves up to 36.8% higher out of sample (OOS) F1 scores than the best performing machine learning models in the literature. Additionally, I construct the most comprehensive database of first and surname distributions in the US in order to improve the coverage and accuracy of Bayesian Improved Surname Geocoding (BISG) and Bayesian Improved Firstname Surname Geocoding (BIFSG). Finally, I provide the first high-quality benchmark dataset in order to fairly compare existing models and aid future model developers.
翻訳日:2023-08-09 16:25:06 公開日:2023-08-07
# スピンアライメント問題の解決に向けて

Towards a resolution of the spin alignment problem ( http://arxiv.org/abs/2307.06894v2 )

ライセンス: Link先を確認
Mohammad A. Alhejji and Emanuel Knill(参考訳) 制約を受ける各状態を選択することで、混合状態のエントロピーを最小化する。 それぞれの状態のスペクトルが固定されている場合、混合物のエントロピーを減少させるためには、何らかの意味で状態の区別を小さくすべきである。 本稿では,この状況にインスパイアされた最適化問題のクラスを考察し,識別可能性という関連する概念に光を当てる。 本研究の動機は,最近導入されたスピンアライメント予想である。 根本問題の最初のバージョンでは、混合状態の各状態は、補集合の各量子ビット上の固定状態$Q$でテンソルされた$n$ qubitsの部分集合上で自由に選択される状態に制約される。 この予想によれば、混合のエントロピーは、各項の自由に選択された状態を選択して、固定された極大固有ベクトル q$ 上のプロジェクターのテンソル積とすることにより最小化される。 私たちはこの問題をいくつかの方法で一般化する。 まず、エントロピーを最小化する代わりに、ファンノルムやシャッテンノルムのような任意の単位不変凸函数の最大化を考える。 予想された必要アライメントを定式化し一般化するために、アライメントを、メジャー化によって引き起こされる自己随伴作用素のタプル上の前順序として定義する。 整数次数のシャッテンノルムに対する一般化予想を証明し、自由選択された状態が古典的になるように制約された場合と、混合に寄与する2つの状態と q$ がプロジェクタに比例する場合を証明する。 最後のケースは、最大アライメントの明示的な条件を与えるより一般的な状況に適合する。 スピンアライメント問題には自然な「双対」の定式化があり、そのバージョンには我々が導入するさらなる一般化がある。

Consider minimizing the entropy of a mixture of states by choosing each state subject to constraints. If the spectrum of each state is fixed, we expect that in order to reduce the entropy of the mixture, we should make the states less distinguishable in some sense. Here, we study a class of optimization problems that are inspired by this situation and shed light on the relevant notions of distinguishability. The motivation for our study is the recently introduced spin alignment conjecture. In the original version of the underlying problem, each state in the mixture is constrained to be a freely chosen state on a subset of $n$ qubits tensored with a fixed state $Q$ on each of the qubits in the complement. According to the conjecture, the entropy of the mixture is minimized by choosing the freely chosen state in each term to be a tensor product of projectors onto a fixed maximal eigenvector of $Q$, which maximally "aligns" the terms in the mixture. We generalize this problem in several ways. First, instead of minimizing entropy, we consider maximizing arbitrary unitarily invariant convex functions such as Fan norms and Schatten norms. To formalize and generalize the conjectured required alignment, we define alignment as a preorder on tuples of self-adjoint operators that is induced by majorization. We prove the generalized conjecture for Schatten norms of integer order, for the case where the freely chosen states are constrained to be classical, and for the case where only two states contribute to the mixture and $Q$ is proportional to a projector. The last case fits into a more general situation where we give explicit conditions for maximal alignment. The spin alignment problem has a natural "dual" formulation, versions of which have further generalizations that we introduce.
翻訳日:2023-08-09 16:24:19 公開日:2023-08-07
# 分布外一般化のための位相マッチング

Phase Matching for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v4 )

ライセンス: Link先を確認
Chengming Hu, Yeqian Du, Rui Wang, Hao Chen(参考訳) 視覚信号の明確な分解法として機能するフーリエ変換は、畳み込みニューラルネットワーク(CNN)の分布外一般化挙動を説明するために用いられる。 従来の研究では、振幅スペクトルは分布シフトによる乱れの影響を受けやすいことが示されている。 一方、位相スペクトルは、堅牢な視覚表現学習に不可欠である高度に構造化された空間情報を保存する。 しかし、相スペクトルの空間的関係は以前の研究では未解明のままである。 本稿では,領域一般化(dg)と周波数成分の関係を明らかにし,位相スペクトルの空間的関係を明らかにすることを目的とする。 具体的には,まず位相スペクトルを半因果因子,振幅スペクトルを非因果因子として解釈するフーリエ型構造因果モデルを提案する。 次に,DG問題に対処するための位相マッチング(PhaMa)を提案する。 本手法は振幅スペクトルの摂動を導入し,位相成分に一致する空間関係を確立する。 提案手法は,複数のベンチマーク実験により,領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。

The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous studies have indicated that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for robust visual representation learning. However, the spatial relationships of phase spectrum remain unexplored in previous researches. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components, and explore the spatial relationships of the phase spectrum. Specifically, we first introduce a Fourier-based structural causal model which interprets the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Then, we propose Phase Matching (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
翻訳日:2023-08-09 16:13:55 公開日:2023-08-07
# SoK:ゴースト・トリレンマ

SoK: The Ghost Trilemma ( http://arxiv.org/abs/2308.02202v2 )

ライセンス: Link先を確認
S.Mukherjee, S.Ravi, P.Schmitt, B.Raghavan(参考訳) トロル、ボット、シビルはオンラインの会話を歪め、ネットワーク化されたプラットフォームのセキュリティを侵害する。 ユーザアイデンティティは、これらのコンテキストで使用される攻撃と操作のベクターの中心である。 しかし、そうやってみても、セキュリティコミュニティはこのような問題の潮流を食い止めることができなかったように思える。 我々は、完全分散環境では同時に検証できないアイデンティティー、位置、ユニーク性という3つの重要な特性が存在するというゴーストのトリレンマを仮定する。 コミュニケーションであれ社会的調整であれ、多くの完全に分散されたシステムは、何らかの形でこのトリレンマに悩まされている。 本稿では, 知識体系化(SoK)論文において, 設計空間, ユースケース, 先行アプローチの問題, 今後の可能性について検討する。 我々は、このトリレンマの証明をスケッチし、集中型信頼アンカーに対する信頼のトレードオフ、分散運用、および様々な攻撃に耐えながらユーザーのプライバシーを保護できる能力を実現するために、実用的な、段階的なデプロイ可能なスキームの選択肢を概説する。

Trolls, bots, and sybils distort online discourse and compromise the security of networked platforms. User identity is central to the vectors of attack and manipulation employed in these contexts. However it has long seemed that, try as it might, the security community has been unable to stem the rising tide of such problems. We posit the Ghost Trilemma, that there are three key properties of identity -- sentience, location, and uniqueness -- that cannot be simultaneously verified in a fully-decentralized setting. Many fully-decentralized systems -- whether for communication or social coordination -- grapple with this trilemma in some way, perhaps unknowingly. In this Systematization of Knowledge (SoK) paper, we examine the design space, use cases, problems with prior approaches, and possible paths forward. We sketch a proof of this trilemma and outline options for practical, incrementally deployable schemes to achieve an acceptable tradeoff of trust in centralized trust anchors, decentralized operation, and an ability to withstand a range of attacks, while protecting user privacy.
翻訳日:2023-08-09 16:05:50 公開日:2023-08-07
# 自動音声認識のためのフェデレーション表現学習

Federated Representation Learning for Automatic Speech Recognition ( http://arxiv.org/abs/2308.02013v2 )

ライセンス: Link先を確認
Guruprasad V Ramesh, Gopinath Chennupati, Milind Rao, Anit Kumar Sahu, Ariya Rastrow, Jasha Droppo(参考訳) Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。 AlexaやSiriのようなエッジデバイスは、堅牢なオーディオ表現を学習するためにタップできるラベルなしのオーディオデータの予測ソースである。 本研究では,データプライバシー制約に配慮した音声認識のための表現を学習するために,自己教師付き学習(SSL)とFLを併用する。 我々は、ラベルなし音声データセットLibri-Lightの話者情報と章情報を用いて、非IID話者サイロデータ分布をシミュレートし、FedSGDのContrastive Predictive Codingフレームワークを用いてLSTMエンコーダを事前訓練する。 FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。 我々はさらに,新しい言語であるフランス語にフェデレート事前学習モデルを適用し,事前学習を行わない場合の20%(wer)改善を示す。

Federated Learning (FL) is a privacy-preserving paradigm, allowing edge devices to learn collaboratively without sharing data. Edge devices like Alexa and Siri are prospective sources of unlabeled audio data that can be tapped to learn robust audio representations. In this work, we bring Self-supervised Learning (SSL) and FL together to learn representations for Automatic Speech Recognition respecting data privacy constraints. We use the speaker and chapter information in the unlabeled speech dataset, Libri-Light, to simulate non-IID speaker-siloed data distributions and pre-train an LSTM encoder with the Contrastive Predictive Coding framework with FedSGD. We show that the pre-trained ASR encoder in FL performs as well as a centrally pre-trained model and produces an improvement of 12-15% (WER) compared to no pre-training. We further adapt the federated pre-trained models to a new language, French, and show a 20% (WER) improvement over no pre-training.
翻訳日:2023-08-09 16:05:28 公開日:2023-08-07
# 有限分類モデルのためのエクササイズカーネル等価性

An Exact Kernel Equivalence for Finite Classification Models ( http://arxiv.org/abs/2308.00824v2 )

ライセンス: Link先を確認
Brian Bell, Michael Geyer, David Glickenstein, Amanda Fernandez, Juston Moore(参考訳) ニューラルネットワークとカーネル手法の同値性について検討し、勾配勾配をカーネルマシンとして訓練した有限サイズパラメトリック分類モデルの最初の正確な表現を導出する。 我々は、よく知られたニューラルタンジェントカーネル(NTK)と正確な表現を比較し、NTKや他の非コンパクトパスカーネルの定式化に対する近似誤差について議論する。 計算機の精度まで,実ネットワーク上でカーネルを計算できることを実験的に実証する。 私たちはこの正確なカーネルを使って、ニューラルネットワークによる予測、特にそれらの一般化方法に関する有益な洞察を提供することができることを示しています。

We explore the equivalence between neural networks and kernel methods by deriving the first exact representation of any finite-size parametric classification model trained with gradient descent as a kernel machine. We compare our exact representation to the well-known Neural Tangent Kernel (NTK) and discuss approximation error relative to the NTK and other non-exact path kernel formulations. We experimentally demonstrate that the kernel can be computed for realistic networks up to machine precision. We use this exact kernel to show that our theoretical contribution can provide useful insights into the predictions made by neural networks, particularly the way in which they generalize.
翻訳日:2023-08-09 16:04:09 公開日:2023-08-07
# MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework ( http://arxiv.org/abs/2308.00352v3 )

ライセンス: Link先を確認
Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu(参考訳) 近年,大規模言語モデル(llm)によるマルチエージェントによるタスク自動解決において顕著な進歩がみられている。 しかしながら、既存のllmベースのマルチエージェントは主に単純な対話タスクの解決に焦点を当てており、llm幻覚問題を中心に複雑なタスクが研究されることはほとんどない。 この種の幻覚は、複数のインテリジェントエージェントをナイーブに連鎖させるとカスケードになり、複雑な問題に効果的に対処できない。 そこで我々はメタプログラミングアプローチとしての効率的なヒューマンワークフローをllmベースのマルチエージェントコラボレーションに組み込む革新的なフレームワークであるmetagptを紹介する。 具体的には、MetaGPTは、Standardized Operating Procedures (SOP) を構造化調整を強化するプロンプトにエンコードする。 その後、モジュール出力を委任し、人間のプロフェッショナルに匹敵するドメイン専門のエージェントを権限付け、アウトプットの検証と複合エラーの最小化を行う。 このようにメタgptは、様々なエージェントに多様な役割を割り当てるためにアセンブリラインパラダイムを利用して、複雑なマルチエージェント協調問題を効果的にかつ凝集的に分解するフレームワークを構築します。 協調ソフトウェア工学ベンチマーク実験により,MetaGPTは既存のチャットベースのマルチエージェントシステムと比較して,一貫性と正解性が向上することを示した。 これは、人間のドメイン知識をマルチエージェントシステムに統合し、複雑な現実世界の課題に取り組む新しい機会を生み出す可能性を強調している。 このプロジェクトのGitHubリポジトリは、https://github.com/geekan/MetaGPTで公開されている。

Recently, remarkable progress has been made in automated task-solving through the use of multi-agent driven by large language models (LLMs). However, existing LLM-based multi-agent works primarily focus on solving simple dialogue tasks, and complex tasks are rarely studied, mainly due to the LLM hallucination problem. This type of hallucination becomes cascading when naively chaining multiple intelligent agents, resulting in a failure to effectively address complex problems. Therefore, we introduce MetaGPT, an innovative framework that incorporates efficient human workflows as a meta programming approach into LLM-based multi-agent collaboration. Specifically, MetaGPT encodes Standardized Operating Procedures (SOPs) into prompts to enhance structured coordination. Subsequently, it mandates modular outputs, empowering agents with domain expertise comparable to human professionals, to validate outputs and minimize compounded errors. In this way, MetaGPT leverages the assembly line paradigm to assign diverse roles to various agents, thereby establishing a framework that can effectively and cohesively deconstruct complex multi-agent collaborative problems. Our experiments on collaborative software engineering benchmarks demonstrate that MetaGPT generates more coherent and correct solutions compared to existing chat-based multi-agent systems. This highlights the potential of integrating human domain knowledge into multi-agent systems, thereby creating new opportunities to tackle complex real-world challenges. The GitHub repository of this project is publicly available on:https://github.com/geekan/MetaGPT.
翻訳日:2023-08-09 16:03:58 公開日:2023-08-07
# 3次元ポーズ推定のための反復グラフフィルタリングネットワーク

Iterative Graph Filtering Network for 3D Human Pose Estimation ( http://arxiv.org/abs/2307.16074v2 )

ライセンス: Link先を確認
Zaedul Islam and A. Ben Hamza(参考訳) グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。 人体の骨格構造をグラフとして自然にモデル化することで、GCNは関節間の空間的関係を捉え、基礎となるポーズの効率的な表現を学ぶことができる。 しかし、ほとんどのGCNベースの手法は共有重み行列を用いており、関節間の異なる複雑な関係を正確に捉えることは困難である。 本稿では,画像中の2次元関節位置の集合から3次元関節位置を予測することを目的とした,人間のポーズ推定のための反復グラフフィルタリングフレームワークを提案する。 提案手法はガウス・シーデル反復法によるラプラシア正規化によるグラフフィルタリングの反復解法に基づく。 この反復解に動機づけられて,重みと隣接変調,スキップ接続,および層正規化を伴う純粋畳み込みブロックを用いたガウス・サイデルネットワーク(gs-net)アーキテクチャを設計した。 隣接変調(adjacency modulation)は、身体関節の固有の接続を超えたエッジの学習を促進し、人間の骨格を反映する調整されたグラフ構造をもたらす一方、スキップ接続は、ネットワークの深さが増加するにつれて入力層の初期特徴から重要な情報を維持するのに役立つ。 提案モデルを2つの標準ベンチマークデータセット上で評価し,3次元人格推定のための強力なベースライン手法の包括的セットと比較した。 実験の結果,本手法は両データセットのベースラインメソッドを上回っており,最先端の性能を実現していることがわかった。 さらに,モデルアーキテクチャの異なるコンポーネントの寄与を解析するためにアブレーション研究を行い,スキップ接続と隣接変調がモデル性能の向上に寄与することを示した。

Graph convolutional networks (GCNs) have proven to be an effective approach for 3D human pose estimation. By naturally modeling the skeleton structure of the human body as a graph, GCNs are able to capture the spatial relationships between joints and learn an efficient representation of the underlying pose. However, most GCN-based methods use a shared weight matrix, making it challenging to accurately capture the different and complex relationships between joints. In this paper, we introduce an iterative graph filtering framework for 3D human pose estimation, which aims to predict the 3D joint positions given a set of 2D joint locations in images. Our approach builds upon the idea of iteratively solving graph filtering with Laplacian regularization via the Gauss-Seidel iterative method. Motivated by this iterative solution, we design a Gauss-Seidel network (GS-Net) architecture, which makes use of weight and adjacency modulation, skip connection, and a pure convolutional block with layer normalization. Adjacency modulation facilitates the learning of edges that go beyond the inherent connections of body joints, resulting in an adjusted graph structure that reflects the human skeleton, while skip connections help maintain crucial information from the input layer's initial features as the network depth increases. We evaluate our proposed model on two standard benchmark datasets, and compare it with a comprehensive set of strong baseline methods for 3D human pose estimation. Our experimental results demonstrate that our approach outperforms the baseline methods on both datasets, achieving state-of-the-art performance. Furthermore, we conduct ablation studies to analyze the contributions of different components of our model architecture and show that the skip connection and adjacency modulation help improve the model performance.
翻訳日:2023-08-09 16:03:35 公開日:2023-08-07
# 逆問題に対するスパース符号化法とマイクロ波トモグラフィーイメージングへの応用

A sparse coding approach to inverse problems with application to microwave tomography imaging ( http://arxiv.org/abs/2308.03818v1 )

ライセンス: Link先を確認
Cesar F. Caiafa, Ramiro M. Irastorza(参考訳) 逆画像問題は、医学的診断から天文学的な研究まで、科学と技術の複数の領域で発生することがある。 不完全かつ歪んだデータから画像を再構成するためには、これらの測定を生成する物理メカニズムと解析対象の画像の固有の特性の両方を考慮に入れたアルゴリズムを作成する必要がある。 本研究では,哺乳類の視覚系に触発された自然画像に対する,現実的でコンパクトで効果的な生成モデルである画像のスパース表現について概説する。 膨大な画像群でモデルをトレーニングすることで,不適切な線形逆問題に対処することができる。 さらに,マイクロ波トモグラフィー画像における非線形および不適切な問題に対するスパース符号化の適用を拡大し,最先端のアルゴリズムを著しく改善する可能性がある。

Inverse imaging problems that are ill-posed can be encountered across multiple domains of science and technology, ranging from medical diagnosis to astronomical studies. To reconstruct images from incomplete and distorted data, it is necessary to create algorithms that can take into account both, the physical mechanisms responsible for generating these measurements and the intrinsic characteristics of the images being analyzed. In this work, the sparse representation of images is reviewed, which is a realistic, compact and effective generative model for natural images inspired by the visual system of mammals. It enables us to address ill-posed linear inverse problems by training the model on a vast collection of images. Moreover, we extend the application of sparse coding to solve the non-linear and ill-posed problem in microwave tomography imaging, which could lead to a significant improvement of the state-of-the-arts algorithms.
翻訳日:2023-08-09 15:36:52 公開日:2023-08-07
# 技術背景の異なるイスラエル人学生のオンラインプライバシーに対する態度と匿名性における性差

Sex differences in attitudes towards online privacy and anonymity among Israeli students with different technical backgrounds ( http://arxiv.org/abs/2308.03814v1 )

ライセンス: Link先を確認
Maor Weinberger, Maayan Zhitomirsky-Geffet and Dan Bouhnik(参考訳) はじめに。 本研究では,イスラエル学生のオンラインプライバシと匿名性に対する態度の男女差を調査・モデル化するための実験的枠組みを提案する。 我々の目標は、男女のオンラインプライバシの態度を相対的にモデル化し、オンラインプライバシの男女差を評価することであった。 方法。 ユーザのオンラインプライバシと匿名性に関するさまざまな要因として,インターネット上での匿名脅威の認識,インターネット上の個人情報保護への懸念,オンラインプライバシ自己効力,オンラインプライバシリテラシー,ユーザのプライバシパラドックス行動への関与傾向,すなわち匿名性やプライバシ脅威の認識にも関わらずの個人データ開示などが検討された。 分析。 イスラエルの学生169名を対象に,クローズドエンドアンケートを用いた定量的調査を行った。 被験者の反応は標準統計的尺度を用いて分析した。 そこで我々は,両性愛者のオンラインプライバシー行動の比較モデルを提案した。 結果だ ウェブ上でのアイデンティティや個人情報を保護する技術知識やスキルに関して、男女の間にはまだデジタルギャップが存在することがわかりました。 興味深いことに, 女性のプライバシーリテラシーが高いにもかかわらず, プライバシーパラドックス行動に関わるユーザの傾向は, 男性の間では高くなかった。 結論だ 女性の比較的高いオンラインプライバシ自己効力レベルと技術的脅威に対する認識の低さは、比較的低い技術であるオンラインプライバシリテラシーレベルと一致しない。 これにより、男性に比べてアイデンティティや個人情報を保護する能力が低下する。 我々は、オンラインのプライバシーと匿名性認識とリテラシーにおけるジェンダー間の技術的ギャップを取り除くために、さらなる措置を講じるべきであると結論づける。

Introduction. In this exploratory study, we proposed an experimental framework to investigate and model male/female differences in attitudes towards online privacy and anonymity among Israeli students. Our aim was to comparatively model men and women's online privacy attitudes, and to assess the online privacy gender gap. Method. Various factors related to the user's online privacy and anonymity were considered, such as awareness of anonymous threats made online, concern for protecting personal information on the Internet, online privacy self-efficacy, online privacy literacy and users' tendency to engage in privacy paradox behaviour, i.e., personal data disclosure despite the awareness of anonymity and privacy threats. Analysis. A user study was carried out among 169 Israeli academic students through a quantitative method using closed-ended questionnaires. The subjects' responses were analysed using standard statistical measures. We then proposed a summarized comparative model for the two sexes' online privacy behaviour. Results. We found that a digital gap still exists between men and women regarding technological knowledge and skills used to protect their identity and personal information on the Web. Interestingly, users' tendency to engage in privacy paradox behaviour was not higher among men despite their higher level of technological online privacy literacy compared to women. Conclusions. Women's relatively high online privacy self-efficacy level and their low awareness of technological threat do not match their relatively low technological online privacy literacy level. This leads to a lower ability to protect their identity and personal information as compared to men. We conclude that further steps should be taken to eliminate the inter-gender technological gap in online privacy and anonymity awareness and literacy.
翻訳日:2023-08-09 15:36:39 公開日:2023-08-07
# 反復低解像度ポイントクラウドコンバータによる高分解能頭蓋欠損再建

High-Resolution Cranial Defect Reconstruction by Iterative, Low-Resolution, Point Cloud Completion Transformers ( http://arxiv.org/abs/2308.03813v1 )

ライセンス: Link先を確認
Marek Wodzinski, Mateusz Daniol, Daria Hemmerling, Miroslaw Socha(参考訳) 毎年何千人もの人が頭蓋骨の損傷に悩まされ、手動設計が高価で時間を要するパーソナライズされたインプラントを必要としている。 したがって、パーソナライズされた頭蓋再建の可用性を高めるための自動的な専用システムが非常に望ましい。 自動頭蓋骨欠損再建の問題は形状完了タスクとして定式化でき、専用ディープネットワークを用いて解決できる。 現在最も一般的なアプローチは、ボリューム表現を使用し、画像セグメンテーション専用のディープネットワークを適用することである。 しかし、このアプローチにはいくつかの制限があり、高解像度のボリュームに十分にスケールできない。 私たちの作業では、問題をポイントクラウド補完タスクに再構成します。 本稿では,任意の解像度で頭蓋欠損を再現し,訓練や推論において高速かつ資源効率がよい反復型トランスフォーマーに基づく手法を提案する。 提案手法を最先端ボリュームアプローチと比較し,高品位な再構成欠陥を維持しつつ,gpuメモリ消費の観点から優れた性能を示す。

Each year thousands of people suffer from various types of cranial injuries and require personalized implants whose manual design is expensive and time-consuming. Therefore, an automatic, dedicated system to increase the availability of personalized cranial reconstruction is highly desirable. The problem of the automatic cranial defect reconstruction can be formulated as the shape completion task and solved using dedicated deep networks. Currently, the most common approach is to use the volumetric representation and apply deep networks dedicated to image segmentation. However, this approach has several limitations and does not scale well into high-resolution volumes, nor takes into account the data sparsity. In our work, we reformulate the problem into a point cloud completion task. We propose an iterative, transformer-based method to reconstruct the cranial defect at any resolution while also being fast and resource-efficient during training and inference. We compare the proposed methods to the state-of-the-art volumetric approaches and show superior performance in terms of GPU memory consumption while maintaining high-quality of the reconstructed defects.
翻訳日:2023-08-09 15:36:07 公開日:2023-08-07
# 非コンパクト一様普遍近似

Noncompact uniform universal approximation ( http://arxiv.org/abs/2308.03812v1 )

ライセンス: Link先を確認
Teun D. H. van Nuland(参考訳) 普遍近似定理は(非コンパクト)入力空間 $\mathbb r^n$ 上の一様収束として一般化される。 無限大で消えるすべての連続函数は、すべての連続活性化関数 $\varphi\neq0$ に対して、1つの隠れた層を持つニューラルネットワークによって一様近似することができる。 さらに$\varphi$が有界である場合、ニューラルネットワークによってどの関数を均一に近似できるかを正確に決定する。 $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$ は、$l$隠れ層と$n$入力を持つニューラルネットワークで一様近似可能な関数のベクトル空間を表す。 すべての$n$とすべての$l\geq2$, $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$に対して、点積の下で代数であることが分かる。 もし$\varphi$ の左極限が右極限(例えば $\varphi$ が sigmoidal であるとき)と異なる場合、代数 $\overline{\mathcal{n}_\varphi^l(\mathbb r^n)}$ (l\geq2$) は$\varphi$ と $l$ とは独立であり、一次元射影からなるsigmoids の積の閉域に等しい。 もし$\varphi$ の左極限がその右極限に等しいなら、$\overline{\mathcal{n}_\varphi^l(\mathbb r^n)}$ (l\geq1$) は(実部分)可換解決代数(英語版)(c*-代数)と等しい。 後者の場合、代数は$l\geq1$とは独立であるが、前者は$\overline{\mathcal{N}_\varphi^2(\mathbb R^n)}$は$\overline{\mathcal{N}_\varphi^1(\mathbb R^n)}$より厳密に大きい。

The universal approximation theorem is generalised to uniform convergence on the (noncompact) input space $\mathbb R^n$. All continuous functions that vanish at infinity can be uniformly approximated by neural networks with one hidden layer, for all continuous activation functions $\varphi\neq0$ with asymptotically linear behaviour at $\pm\infty$. When $\varphi$ is moreover bounded, we exactly determine which functions can be uniformly approximated by neural networks, with the following unexpected results. Let $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$ denote the vector space of functions that are uniformly approximable by neural networks with $l$ hidden layers and $n$ inputs. For all $n$ and all $l\geq2$, $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$ turns out to be an algebra under the pointwise product. If the left limit of $\varphi$ differs from its right limit (for instance, when $\varphi$ is sigmoidal) the algebra $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$ ($l\geq2$) is independent of $\varphi$ and $l$, and equals the closed span of products of sigmoids composed with one-dimensional projections. If the left limit of $\varphi$ equals its right limit, $\overline{\mathcal{N}_\varphi^l(\mathbb R^n)}$ ($l\geq1$) equals the (real part of the) commutative resolvent algebra, a C*-algebra which is used in mathematical approaches to quantum theory. In the latter case, the algebra is independent of $l\geq1$, whereas in the former case $\overline{\mathcal{N}_\varphi^2(\mathbb R^n)}$ is strictly bigger than $\overline{\mathcal{N}_\varphi^1(\mathbb R^n)}$.
翻訳日:2023-08-09 15:35:50 公開日:2023-08-07
# 時変目的関数を用いた非凸双レベル最適化

Non-Convex Bilevel Optimization with Time-Varying Objective Functions ( http://arxiv.org/abs/2308.03811v1 )

ライセンス: Link先を確認
Sen Lin, Daouda Sow, Kaiyi Ji, Yingbin Liang, Ness Shroff(参考訳) バイレベル最適化は、幅広い機械学習問題において強力なツールとなっている。 しかし、現在のnonconvex bilevel optimizationでは、オフラインデータセットと静的関数が検討されており、ストリーミングデータと時変関数を備えた新興オンラインアプリケーションではうまく動作しない可能性がある。 本研究は,オンラインの双方向最適化(OBO)について検討し,時間変化が可能であるとともに,エージェントがオンラインストリーミングデータを用いて決定を継続的に更新する。 本稿では,booにおける真のハイパーグレードの関数のばらつきと可利用性に対処するために,メモリに格納されている最新のハイパーグレード推定のウィンドウ平均に基づいて外層決定を更新するウィンドウ平均化(sobow)を備えたシングルループオンラインバイレベルオプティマイザを提案する。 既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。 OBOの単一ループ更新と関数変動に根ざした技術的難しさに対処するため,決定変数間の複雑な結合を解消し,過次推定誤差を慎重に制御する新しい解析手法を開発した。 軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。 複数の領域にわたる大規模な実験は、SOBOWの有効性を裏付ける。

Bilevel optimization has become a powerful tool in a wide variety of machine learning problems. However, the current nonconvex bilevel optimization considers an offline dataset and static functions, which may not work well in emerging online applications with streaming data and time-varying functions. In this work, we study online bilevel optimization (OBO) where the functions can be time-varying and the agent continuously updates the decisions with online streaming data. To deal with the function variations and the unavailability of the true hypergradients in OBO, we propose a single-loop online bilevel optimizer with window averaging (SOBOW), which updates the outer-level decision based on a window average of the most recent hypergradient estimations stored in the memory. Compared to existing algorithms, SOBOW is computationally efficient and does not need to know previous functions. To handle the unique technical difficulties rooted in single-loop update and function variations for OBO, we develop a novel analytical technique that disentangles the complex couplings between decision variables, and carefully controls the hypergradient estimation error. We show that SOBOW can achieve a sublinear bilevel local regret under mild conditions. Extensive experiments across multiple domains corroborate the effectiveness of SOBOW.
翻訳日:2023-08-09 15:34:54 公開日:2023-08-07
# AdaER: 継続的な生涯学習のための適応的経験リプレイアプローチ

AdaER: An Adaptive Experience Replay Approach for Continual Lifelong Learning ( http://arxiv.org/abs/2308.03810v1 )

ライセンス: Link先を確認
Xingyu Li, Bo Tang, Haifeng Li(参考訳) 連続的な生涯学習は、人間の学習にインスパイアされた機械学習フレームワークであり、学習者は連続的に新しい知識を継続的に獲得するように訓練される。 しかし、ストリーミングトレーニングデータの非定常的な性質は、新しいタスクが導入されたときに学習した知識を素早く忘れることを指す破滅的な忘れこととして知られる重要な課題を生んでいる。 経験的リプレイ(ER)のようないくつかのアプローチはこの問題を軽減するために提案されているが、特に自然で非常に困難なクラスの増加シナリオにおいて、その性能は制限されている。 本稿では,生涯学習の課題に対処するための新しいアルゴリズムであるadaptive-experience replay(adaer)を提案する。 AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。 メモリ再生の段階では、AdaERはコンテキスト的にキューされたメモリリコール(C-CMR)戦略を導入し、データとタスクの両方の観点から現在の入力データと最も矛盾するメモリを選択的に再生する。 さらに、AdaERはエントロピーバランス型貯水池サンプリング(E-BRS)戦略を導入し、情報エントロピーを最大化することでメモリバッファの性能を向上させる。 adaerの有効性を評価するために,教師付き生涯学習ベンチマーク実験を行い,特に授業インクリメンタル学習シナリオに着目した。 その結果,adaerは継続学習ベースラインを上回っており,破滅的な記憶の喪失や学習性能の向上に効果があることが示されている。

Continual lifelong learning is an machine learning framework inspired by human learning, where learners are trained to continuously acquire new knowledge in a sequential manner. However, the non-stationary nature of streaming training data poses a significant challenge known as catastrophic forgetting, which refers to the rapid forgetting of previously learned knowledge when new tasks are introduced. While some approaches, such as experience replay (ER), have been proposed to mitigate this issue, their performance remains limited, particularly in the class-incremental scenario which is considered natural and highly challenging. In this paper, we present a novel algorithm, called adaptive-experience replay (AdaER), to address the challenge of continual lifelong learning. AdaER consists of two stages: memory replay and memory update. In the memory replay stage, AdaER introduces a contextually-cued memory recall (C-CMR) strategy, which selectively replays memories that are most conflicting with the current input data in terms of both data and task. Additionally, AdaER incorporates an entropy-balanced reservoir sampling (E-BRS) strategy to enhance the performance of the memory buffer by maximizing information entropy. To evaluate the effectiveness of AdaER, we conduct experiments on established supervised continual lifelong learning benchmarks, specifically focusing on class-incremental learning scenarios. The results demonstrate that AdaER outperforms existing continual lifelong learning baselines, highlighting its efficacy in mitigating catastrophic forgetting and improving learning performance.
翻訳日:2023-08-09 15:34:34 公開日:2023-08-07
# 宣言型クラウドソーシングによるプロンプトエンジニアリングの再検討

Revisiting Prompt Engineering via Declarative Crowdsourcing ( http://arxiv.org/abs/2308.03854v1 )

ライセンス: Link先を確認
Aditya G. Parameswaran, Shreya Shankar, Parth Asawa, Naman Jain, Yujie Wang(参考訳) 大規模言語モデル(llm)は、テキストの形式でデータの理解と生成に非常に強力だが、不安定でエラーやすい。 LLMに一連のプロンプトを通じて何かをするように要求する、いわゆるプロンプトエンジニアリングを中心としたツールキットやレシピが出現した。 しかし、LLMベースのデータ処理ワークフローでは、特にコスト境界を維持しながら品質を最適化するのは面倒で手作業のプロセスである。 宣言型プロンプトエンジニアリングのビジョンを提示しました。 複数のプロンプト戦略の活用、内部の一貫性の確保、ハイブリッドLLM-非LLMアプローチの探索など、宣言的なクラウドソーシングの文献からアイデアを活用して、プロンプトエンジニアリングをより原則化されたプロセスにします。 ソート,エンティティ解決,インプテーションに関する予備的なケーススタディが,我々のアプローチの可能性を実証する

Large language models (LLMs) are incredibly powerful at comprehending and generating data in the form of text, but are brittle and error-prone. There has been an advent of toolkits and recipes centered around so-called prompt engineering-the process of asking an LLM to do something via a series of prompts. However, for LLM-powered data processing workflows, in particular, optimizing for quality, while keeping cost bounded, is a tedious, manual process. We put forth a vision for declarative prompt engineering. We view LLMs like crowd workers and leverage ideas from the declarative crowdsourcing literature-including leveraging multiple prompting strategies, ensuring internal consistency, and exploring hybrid-LLM-non-LLM approaches-to make prompt engineering a more principled process. Preliminary case studies on sorting, entity resolution, and imputation demonstrate the promise of our approach
翻訳日:2023-08-09 15:27:15 公開日:2023-08-07
# 大規模言語モデルを用いた医療オンコロジーノートからの詳細なオンコロジー履歴と治療計画の抽出

Extracting detailed oncologic history and treatment plan from medical oncology notes with large language models ( http://arxiv.org/abs/2308.03853v1 )

ライセンス: Link先を確認
Madhumita Sushil, Vanessa E. Kennedy, Brenda Y. Miao, Divneet Mandair, Travis Zack, Atul J. Butte(参考訳) 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。 彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。 大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。 症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。 カリフォルニア大学サンフランシスコ校の乳がん進展ノート10枚を用いて,最近リリースされた3つのLSM(GPT-4, GPT-3.5-turbo, FLAN-UL2)の能力評価を行い,臨床経過ノートの2項目から詳細な腫瘍学的履歴をゼロショット抽出した。 私たちのチームは2750のエンティティ、2874の修飾子、1623の関係を注釈付けしました。 gpt-4は、平均bleuスコア0.069、平均ルージュスコア0.072、複雑なタスクにおける平均精度67%(専門的な手作業による評価)で総合的に最高の性能を示した。 特に腫瘍の特徴や薬剤の抽出に優れており,癌による症状の推測や今後の薬剤の考察に優れた性能を示した。 この分析は、GPT-4が臨床研究、複雑な人口管理、高品質な患者ケアの文書化に必要ながん進展ノートから重要な事実を抽出するのに既に有用であることを示している。

Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 10 de-identified breast cancer progress notes at University of California, San Francisco, we applied this schema to assess the abilities of three recently-released LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to perform zero-shot extraction of detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 2750 entities, 2874 modifiers, and 1623 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.69, an average ROUGE score of 0.72, and an average accuracy of 67% on complex tasks (expert manual evaluation). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in inferring symptoms due to cancer and considerations of future medications. The analysis demonstrates that GPT-4 is potentially already usable to extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
翻訳日:2023-08-09 15:27:00 公開日:2023-08-07
# 量子カルーセル:線形回転子に結合した状態の運命

Quantum Carousel: The Fate of a Bound State Attached to a Linear Rotor ( http://arxiv.org/abs/2308.03852v1 )

ライセンス: Link先を確認
Tibor Dome, Artem G. Volosniev, Areg Ghazaryan, Laleh Safari, Richard Schmidt, and Mikhail Lemeshko(参考訳) 我々は、魅力的な不純物-ボソン相互作用が浅い境界状態をサポートする体制におけるアングロン問題(ボゾン浴における線形ローター)を研究する。 境界状態形成近傍におけるアングロンの運命を研究するために, 線形結合モデルを用いた。 まず, 線形回転子を静的不純物上にマッピング可能な, 球対称な不純物-ボソン相互作用について考察する。 有名なポーラロン形式は、この極限において適切な記述を与える。 異方性ポテンシャルに対しては、顕著な異方性特性を持つ浅い境界状態の存在は、アングロン力学を洗い流す多体不安定をもたらす。

We study the angulon problem -- a linear rotor in a bosonic bath -- in the regime where attractive impurity-boson interactions can support a shallow bound state. To study the fate of the angulon in the vicinity of bound-state formation, we formulate a beyond-linear-coupling model. First, we consider attractive, spherically symmetric impurity-boson interactions for which the linear rotor can be mapped onto a static impurity. The well-known polaron formalism provides an adequate description in this limit. For anisotropic potentials, the presence of a shallow bound state with pronounced anisotropic character leads to a many-body instability that washes out the angulon dynamics.
翻訳日:2023-08-09 15:26:24 公開日:2023-08-07
# ユニタリ回路力学におけるクリロフ複雑性とトロッター遷移

Krylov complexity and Trotter transitions in unitary circuit dynamics ( http://arxiv.org/abs/2308.03851v1 )

ライセンス: Link先を確認
Philippe Suchsland, Roderich Moessner, and Pieter W. Claeys(参考訳) 本研究では,最近提案された複雑性と量子カオスの尺度である'krylov complexity'のレンズを通して,進化がユニタリ回路によって制御される多体力学を調べる。 クリロフ複雑性の形式論をユニタリ回路力学に拡張し、ハミルトン力学のトロッター分解として生じるフロッケ回路に焦点をあてる。 短いトロッターステップではハミルトン力学の結果が復元され、大きなトロッターステップは局所的な極大エルゴード作用素の存在によって特徴づけられる異なる普遍的な振る舞いをもたらす:二重ユニタリ回路で例示されるように自己相関関数が消滅する作用素。 これらの演算子は最大複雑性の増大を示し、力学の記憶のない浴槽として機能し、現在の量子コンピューティングのセットアップで直接探索することができる。 これら2つのレジームはカオスシステムのクロスオーバーによって分離される。 逆に、自由可積分系はこれらの異なる状態の間に非解析的遷移を示し、そこでは極大エルゴード作用素が臨界トロッターステップで現れる。

We investigate many-body dynamics where the evolution is governed by unitary circuits through the lens of `Krylov complexity', a recently proposed measure of complexity and quantum chaos. We extend the formalism of Krylov complexity to unitary circuit dynamics and focus on Floquet circuits arising as the Trotter decomposition of Hamiltonian dynamics. For short Trotter steps the results from Hamiltonian dynamics are recovered, whereas a large Trotter step results in different universal behavior characterized by the existence of local maximally ergodic operators: operators with vanishing autocorrelation functions, as exemplified in dual-unitary circuits. These operators exhibit maximal complexity growth, act as a memoryless bath for the dynamics, and can be directly probed in current quantum computing setups. These two regimes are separated by a crossover in chaotic systems. Conversely, we find that free integrable systems exhibit a nonanalytic transition between these different regimes, where maximally ergodic operators appear at a critical Trotter step.
翻訳日:2023-08-09 15:26:12 公開日:2023-08-07
# 準周期変調ランダムハイブリッド回路における測定誘起臨界

Measurement induced criticality in quasiperiodic modulated random hybrid circuits ( http://arxiv.org/abs/2308.03844v1 )

ライセンス: Link先を確認
Gal Shkolnik, Aidan Zabalo, Romain Vasseur, David A. Huse, J. H. Pixley, Snir Gazit(参考訳) 本研究では, 測定誘起相転移(MIPT)におけるQP変調による1次元ハイブリッド量子回路の研究を行った。 非Pisot QP構造を非有界なゆらぎで特徴づけることで、空飛ぶ指数 $\beta$ をラッキーバウンド $\nu \ge 1/(1-\beta)$ を超えるように調整することができる。 局所射影測定によるランダムクリフォード回路の大規模数値シミュレーションにより、十分に大きなQP構造変動はMIPTを不安定化し、さまじい指数である$\beta$によって支配される無限QP型の臨界動的相転移の広いファミリーへの流れを誘導することがわかった。 我々は,実空間再正規化群計算の結論とよく一致する相関長指数と,活性化指数である$\psi \cong \beta$との普遍的活性化動的スケーリングを含む,関連する臨界特性を数値的に決定する。

We study one-dimensional hybrid quantum circuits perturbed by quenched quasiperiodic (QP) modulations across the measurement-induced phase transition (MIPT). Considering non-Pisot QP structures, characterized by unbounded fluctuations, allows us to tune the wandering exponent $\beta$ to exceed the Luck bound $\nu \ge 1/(1-\beta)$ for the stability of the MIPT where $\nu\cong 4/3$. Via large-scale numerical simulations of random Clifford circuits interleaved with local projective measurements, we find that sufficiently large QP structural fluctuations destabilize the MIPT and induce a flow to a broad family of critical dynamical phase transitions of the infinite QP type that is governed by the wandering exponent, $\beta$. We numerically determine the associated critical properties, including the correlation length exponent consistent with saturating the Luck bound, and a universal activated dynamical scaling with activation exponent $\psi \cong \beta$, finding excellent agreement with the conclusions of real space renormalization group calculations.
翻訳日:2023-08-09 15:25:53 公開日:2023-08-07
# JinaAIによる音楽産業のための検索エンジンとレコメンデーションシステム

Search Engine and Recommendation System for the Music Industry built with JinaAI ( http://arxiv.org/abs/2308.03842v1 )

ライセンス: Link先を確認
Ishita Gopalakrishnan, Sanjjushri Varshini R, Ponshriharini V(参考訳) 新たなタスクに関する最も興味深い議論の1つは、音楽産業における検索エンジンとレコメンデーションベースのシステムの開発である。 検索エンジンの分野では、クエリに与えられたデータの速度、正確性、フォーマットなどの要因により、劇的な落ち込みがあることが研究によって示されている。 題名のみに基づく楽曲検索の難しさに直面することが多いため,単一の問合せ入力による検索分析を完了させる解法が提案され,データベース内の曲の歌詞にマッチする。 したがって、ユーザフレンドリーな検索エンジンを開発するために最先端の技術ツールを組み込むことが不可欠である。 Jina AIは、ユーザーが正確な結果を得るために利用されるニューラルネットワークを構築するためのMLOpsフレームワークである。 jina aiは、与えられたクエリの検索エンジンのパフォーマンスの維持と向上に効果的に役立ちます。 効果的な検索エンジンと音楽産業のためのレコメンデーションシステムで、jinaaiで構築されている。

One of the most intriguing debates regarding a novel task is the development of search engines and recommendation-based systems in the music industry. Studies have shown a drastic depression in the search engine fields, due to concerning factors such as speed, accuracy and the format of data given for querying. Often people face difficulty in searching for a song solely based on the title, hence a solution is proposed to complete a search analysis through a single query input and is matched with the lyrics of the songs present in the database. Hence it is essential to incorporate cutting-edge technology tools for developing a user-friendly search engine. Jina AI is an MLOps framework for building neural search engines that are utilized, in order for the user to obtain accurate results. Jina AI effectively helps to maintain and enhance the quality of performance for the search engine for the query given. An effective search engine and a recommendation system for the music industry, built with JinaAI.
翻訳日:2023-08-09 15:25:32 公開日:2023-08-07
# 高分解能サルエント物体検出のためのリカレントマルチスケール変圧器

Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection ( http://arxiv.org/abs/2308.03826v1 )

ライセンス: Link先を確認
Xinhao Deng and Pingping Zhang and Wei Liu and Huchuan Lu(参考訳) Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。 重要な前処理ステップとして、マルチメディアおよびビジョンタスクに多くの潜在的な応用がある。 撮像装置の進歩により、高解像度画像付きSODは近年非常に需要がある。 しかし、従来のSOD法は主に低解像度画像に限られており、高分解能SOD(HRSOD)の開発に適応することが困難である。 HRSODメソッドがいくつか現れるが、トレーニングや評価に十分なデータセットは存在しない。 さらに、現在のHRSOD法は一般に不完全な対象領域と不規則な対象境界を生成する。 上記の問題に対処するため,我々はまず2K-8K解像度で10,500個の高品質な注釈付き画像を含む新しいHRS10Kデータセットを提案する。 私たちが知る限り、これはhrsodタスクで最大のデータセットであり、将来のモデルのトレーニングと評価作業において非常に役立ちます。 さらに,HRSODの性能向上のために,共有トランスフォーマとマルチスケールリファインメントアーキテクチャを連続的に利用するRMFormer(Recurrent Multi-scale Transformer)を提案する。 したがって、低分解能予測のガイダンスにより、高分解能サリエンシマップを生成することができる。 高分解能および低分解能のベンチマークの広範な実験は、提案フレームワークの有効性と優位性を示している。 ソースコードとデータセットは、https://github.com/DrowsyMon/RMFormer.comで公開されている。

Salient Object Detection (SOD) aims to identify and segment the most conspicuous objects in an image or video. As an important pre-processing step, it has many potential applications in multimedia and vision tasks. With the advance of imaging devices, SOD with high-resolution images is of great demand, recently. However, traditional SOD methods are largely limited to low-resolution images, making them difficult to adapt to the development of High-Resolution SOD (HRSOD). Although some HRSOD methods emerge, there are no large enough datasets for training and evaluating. Besides, current HRSOD methods generally produce incomplete object regions and irregular object boundaries. To address above issues, in this work, we first propose a new HRS10K dataset, which contains 10,500 high-quality annotated images at 2K-8K resolution. As far as we know, it is the largest dataset for the HRSOD task, which will significantly help future works in training and evaluating models. Furthermore, to improve the HRSOD performance, we propose a novel Recurrent Multi-scale Transformer (RMFormer), which recurrently utilizes shared Transformers and multi-scale refinement architectures. Thus, high-resolution saliency maps can be generated with the guidance of lower-resolution predictions. Extensive experiments on both high-resolution and low-resolution benchmarks show the effectiveness and superiority of the proposed framework. The source code and dataset are released at: https://github.com/DrowsyMon/RMFormer.
翻訳日:2023-08-09 15:25:17 公開日:2023-08-07
# "do anything now": 大規模言語モデルにおけるインザワイルドジェイルブレイクプロンプトの特性と評価

"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models ( http://arxiv.org/abs/2308.03825v1 )

ライセンス: Link先を確認
Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang(参考訳) 大規模言語モデル(LLM)の誤用は、一般大衆やLLMベンダーから大きな注目を集めている。 これに対し、LLMを人的価値と意図的利用と整合させる努力がなされている。 しかし、特定の種類の敵のプロンプト、すなわちジェイルブレイクプロンプトが出現し、LLMから有害なコンテンツを排除し、継続的に進化している。 本稿では,6ヶ月間に4つのプラットフォームから6,387個のプロンプトを収集し,野生における脱獄プロンプトの初回測定を行った。 自然言語処理技術とグラフベースのコミュニティ検出手法を活用し,ジェイルブレイクプロンプトの特徴と,インジェクションや特権エスカレーションといった主要な攻撃戦略を明らかにする。 私たちはまた、Jailbreakが公共プラットフォームからプライベートプラットフォームへと徐々に移行し、積極的に検知するLLMベンダーにとって新たな課題となることを観察しています。 脱獄プロンプトによる潜在的被害を評価するため,13のシナリオにわたる46,800のサンプルからなる質問セットを作成する。 私たちの実験では、現在のllmとsafeguardsは、すべてのシナリオにおいてジェイルブレイクプロンプトを適切に防御できないことが示されています。 特に,ChatGPT(GPT-3.5)とGPT-4(GPT-4)の攻撃成功率0.99を達成し,100日以上オンラインに継続している。 我々の研究は、脱獄プロンプトの厳しさと進化の脅威に光を当てている。 我々は,研究コミュニティとLLMベンダーがより安全かつ規制されたLLMを促進することを願っている。

The misuse of large language models (LLMs) has garnered significant attention from the general public and LLM vendors. In response, efforts have been made to align LLMs with human values and intent use. However, a particular type of adversarial prompts, known as jailbreak prompt, has emerged and continuously evolved to bypass the safeguards and elicit harmful content from LLMs. In this paper, we conduct the first measurement study on jailbreak prompts in the wild, with 6,387 prompts collected from four platforms over six months. Leveraging natural language processing technologies and graph-based community detection methods, we discover unique characteristics of jailbreak prompts and their major attack strategies, such as prompt injection and privilege escalation. We also observe that jailbreak prompts increasingly shift from public platforms to private ones, posing new challenges for LLM vendors in proactive detection. To assess the potential harm caused by jailbreak prompts, we create a question set comprising 46,800 samples across 13 forbidden scenarios. Our experiments show that current LLMs and safeguards cannot adequately defend jailbreak prompts in all scenarios. Particularly, we identify two highly effective jailbreak prompts which achieve 0.99 attack success rates on ChatGPT (GPT-3.5) and GPT-4, and they have persisted online for over 100 days. Our work sheds light on the severe and evolving threat landscape of jailbreak prompts. We hope our study can facilitate the research community and LLM vendors in promoting safer and regulated LLMs.
翻訳日:2023-08-09 15:24:55 公開日:2023-08-07
# データ予算の分布的ロバスト分類

Distributionally Robust Classification on a Data Budget ( http://arxiv.org/abs/2308.03821v1 )

ライセンス: Link先を確認
Benjamin Feuer, Ameya Joshi, Minh Pham, Chinmay Hegde(参考訳) ディープラーニングの現実世界の利用には、分散シフト下での予測可能なモデル行動が必要である。 CLIPのようなモデルは、人間に匹敵する突発的な自然分布の堅牢性を示すが、数億のトレーニングサンプルを必要とする可能性がある。 データ制限のある領域で、堅牢な学習者をトレーニングできますか? そこで本研究では,画像,ラベル,対応するキャプションを含む4つの新しい学習データセットであるjanus (joint annotations and names set) を紹介し,画像分類の堅牢性に寄与する要因の一連の注意深く制御された調査を行い,それらの結果を大規模メタ分析から得られた結果と比較する。 このアプローチを用いることで、240万の画像サンプルのクロスエントロピー損失でトレーニングされた標準ResNet-50が、4億のサンプルでトレーニングされたCLIP ResNet-50に匹敵する堅牢性を達成できることを示す。 私たちの知る限りでは、これは限られたデータ予算に対して(ほぼ)最先端の分散性を示す最初の結果です。 私たちのデータセットは \url{https://huggingface.co/datasets/penfever/janus_dataset} で利用可能であり、実験の再現に使用されたコードは \url{https://github.com/penfever/vlhub/} で見ることができる。

Real world uses of deep learning require predictable model behavior under distribution shifts. Models such as CLIP show emergent natural distributional robustness comparable to humans, but may require hundreds of millions of training samples. Can we train robust learners in a domain where data is limited? To rigorously address this question, we introduce JANuS (Joint Annotations and Names Set), a collection of four new training datasets with images, labels, and corresponding captions, and perform a series of carefully controlled investigations of factors contributing to robustness in image classification, then compare those results to findings derived from a large-scale meta-analysis. Using this approach, we show that standard ResNet-50 trained with the cross-entropy loss on 2.4 million image samples can attain comparable robustness to a CLIP ResNet-50 trained on 400 million samples. To our knowledge, this is the first result showing (near) state-of-the-art distributional robustness on limited data budgets. Our dataset is available at \url{https://huggingface.co/datasets/penfever/JANuS_dataset}, and the code used to reproduce our experiments can be found at \url{https://github.com/penfever/vlhub/}.
翻訳日:2023-08-09 15:24:26 公開日:2023-08-07
# XFlow: グラフ上のフロー挙動のベンチマーク

XFlow: Benchmarking Flow Behaviors over Graphs ( http://arxiv.org/abs/2308.03819v1 )

ライセンス: Link先を確認
Zijian Zhang, Zonghan Zhang, Zhiqian Chen(参考訳) グラフ上での拡散の発生は、噂、インフルエンザのようなウイルス、スマートグリッドの故障、同様の出来事の拡散によって証明されるように、広くて重要な現象である。 流れの伝播を開始する種子の分布、伝播モデル、およびグラフのトポロジーの間の複雑な相互作用のため、流れの挙動の理解は恐ろしい作業である。 ネットワークの研究は、数学、物理学、社会科学、コンピュータ科学を含む様々な学術分野を包含している。 このネットワーク研究の学際的な性質は、高度に専門化と区画化が特徴であり、それらによる協力が不十分である。 機械学習の観点からは、さまざまなドメインにわたるアルゴリズムを評価するための凝集プラットフォームが不足している。 この分野での現在の研究の大きな障害の1つは、ネットワークシナリオにおけるフローの振る舞いを研究する包括的なベンチマークスイートがないことである。 この格差に対処するために、さまざまなタスク、ベースラインモデル、グラフデータセット、評価ツールを含む新しいベンチマークスイートの実装を提案する。 さらに,さまざまな領域にまたがる多数のフロー関連タスクに対して,ブループリントやロードマップなどの汎用的なアプローチを提供する包括的分析フレームワークを提案する。 経験的調査の結果を踏まえて,現在の基礎モデルの利点と欠点を分析し,今後の研究に向けた可能性について考察する。 データセット、コード、ベースラインモデルが公開された。 https://github.com/xgraphing/xflow

The occurrence of diffusion on a graph is a prevalent and significant phenomenon, as evidenced by the spread of rumors, influenza-like viruses, smart grid failures, and similar events. Comprehending the behaviors of flow is a formidable task, due to the intricate interplay between the distribution of seeds that initiate flow propagation, the propagation model, and the topology of the graph. The study of networks encompasses a diverse range of academic disciplines, including mathematics, physics, social science, and computer science. This interdisciplinary nature of network research is characterized by a high degree of specialization and compartmentalization, and the cooperation facilitated by them is inadequate. From a machine learning standpoint, there is a deficiency in a cohesive platform for assessing algorithms across various domains. One of the primary obstacles to current research in this field is the absence of a comprehensive curated benchmark suite to study the flow behaviors under network scenarios. To address this disparity, we propose the implementation of a novel benchmark suite that encompasses a variety of tasks, baseline models, graph datasets, and evaluation tools. In addition, we present a comprehensive analytical framework that offers a generalized approach to numerous flow-related tasks across diverse domains, serving as a blueprint and roadmap. Drawing upon the outcomes of our empirical investigation, we analyze the advantages and disadvantages of current foundational models, and we underscore potential avenues for further study. The datasets, code, and baseline models have been made available for the public at: https://github.com/XGraphing/XFlow
翻訳日:2023-08-09 15:23:59 公開日:2023-08-07
# 量子安定源の検証

Verification of Quantum Stable Sources ( http://arxiv.org/abs/2308.03875v1 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 量子系における安定源の検証問題を紹介する。 この問題は、Pallisterらによって最初に提案された量子検証の問題と密接に関連している。 アル [1] しかし、それは元の問題の概念を拡張する。 我々は、マルコフ状態と呼ばれる非i.i.d.源に由来する状態の族を紹介する。 定理1では、これらの状態が変化源よりもテンソル積でよく説明されていないことが証明される。 定理2ではさらに、2つのマルコフ状態の間のトレース距離の低い境界を提供し、これは量子安定源の検証の問題を解く最も単純な方法である。

We introduce the problem of verification of stable sources in quantum systems. This problem is closely related to the problem of quantum verification first proposed by Pallister et. al. [1], however it extends the notion of the original problem. We introduce a family of states that come from a non-i.i.d. source which we call a Markov state. We prove in theorem 1 that these states are not well described with tensor products over a changing source. In theorem 2 we further provide a lower bound on the trace distance between two Markov states, which is the simplest way to solve the problem of verification of quantum stable sources.
翻訳日:2023-08-09 15:16:44 公開日:2023-08-07
# mirage:ミラーゲートを用いた量子回路分解と経路協調設計

MIRAGE: Quantum Circuit Decomposition and Routing Collaborative Design using Mirror Gates ( http://arxiv.org/abs/2308.03874v1 )

ライセンス: Link先を確認
Evan McKinney, Michael Hatridge, Alex K. Jones(参考訳) 効率的な大規模量子コンピュータの構築は、キュービット接続性とノイズの多いハードウェア操作のため、大きな課題である。 量子ゲートが物理的に連結された量子ビット上にあることを保証すると同時に、$\texttt{SWAP}$ゲートを最小化し、同時にネイティブな$\textit{basis gates}$への効率的な分解を見つけることが重要である。 この多面最適化の目標は、典型的には回路深度を最小化し、可能な限りの実行精度を達成することである。 本研究では,$\textit{mirror gates}$を用いた分解を改善しながら$\texttt{swap}$ gatesを最小化する協調設計およびトランスパイル手法である$\textit{mirror gates}$を提案する。 ミラーゲートは同じ物理相互作用を利用するが、出力が反転すると、異なるまたは$\textit{mirrored}$量子演算を実現する。 最近、$\sqrt{\textt{iSWAP}}$が$\texttt{CNOT}$よりも優れた分解の利点を持つ強力な基底ゲートとして注目されていることから、$\textt{iSWAP}$ ゲートファミリを実装するシステムがどのようにミラーゲートの恩恵を受けるかを示す。 さらに$\textit{MIRAGE}$は、$\texttt{SWAP}$sを最小化するのではなく、ミラーゲートを使用してルーティングの圧力を減らし、真の回路深さを減らす。 我々はミラーゲートを用いた$\sqrt{\texttt{iswap}}$と$\sqrt[4]{\texttt{iswap}}$の分解の利点について検討する。 また,MIRAGE内における異なる攻撃レベルのミラー置換を受け入れる新たな欲求的アプローチについても述べる。 最後に、四角格子位相を用いた$\texttt{iswap}$システムに対して、$\textit{mirage}$は平均59.9\%$\texttt{swap}$ gatesを取り除いて、平均29.6\%の回路深度を削減し、最終的にアルゴリズムの実用的適用性を向上させる。

Building efficient large-scale quantum computers is a significant challenge due to limited qubit connectivities and noisy hardware operations. Transpilation is critical to ensure that quantum gates are on physically linked qubits, while minimizing $\texttt{SWAP}$ gates and simultaneously finding efficient decomposition into native $\textit{basis gates}$. The goal of this multifaceted optimization step is typically to minimize circuit depth and to achieve the best possible execution fidelity. In this work, we propose $\textit{MIRAGE}$, a collaborative design and transpilation approach to minimize $\texttt{SWAP}$ gates while improving decomposition using $\textit{mirror gates}$. Mirror gates utilize the same underlying physical interactions, but when their outputs are reversed, they realize a different or $\textit{mirrored}$ quantum operation. Given the recent attention to $\sqrt{\texttt{iSWAP}}$ as a powerful basis gate with decomposition advantages over $\texttt{CNOT}$, we show how systems that implement the $\texttt{iSWAP}$ family of gates can benefit from mirror gates. Further, $\textit{MIRAGE}$ uses mirror gates to reduce routing pressure and reduce true circuit depth instead of just minimizing $\texttt{SWAP}$s. We explore the benefits of decomposition for $\sqrt{\texttt{iSWAP}}$ and $\sqrt[4]{\texttt{iSWAP}}$ using mirror gates, including both expanding Haar coverage and conducting a detailed fault rate analysis trading off circuit depth against approximate gate decomposition. We also describe a novel greedy approach accepting mirror substitution at different aggression levels within MIRAGE. Finally, for $\texttt{iSWAP}$ systems that use square-lattice topologies, $\textit{MIRAGE}$ provides an average of 29.6\% reduction in circuit depth by eliminating an average of 59.9\% $\texttt{SWAP}$ gates, which ultimately improves the practical applicability of our algorithm.
翻訳日:2023-08-09 15:16:22 公開日:2023-08-07
# 構文構造を用いたコードのための大規模言語モデルの評価と説明

Evaluating and Explaining Large Language Models for Code Using Syntactic Structures ( http://arxiv.org/abs/2308.03873v1 )

ライセンス: Link先を確認
David N Palacio, Alejandro Velasco, Daniel Rodriguez-Cardenas, Kevin Moran, Denys Poshyvanyk(参考訳) コードのための大規模言語モデル(LLM)は、自然言語とプログラミング言語の両方の巨大なデータセットで事前訓練された高パラメータ、トランスフォーマーベースのニューラルネットワークのファミリーである。 これらのモデルは、GitHub CoPilotのような商用AIベースの開発ツールに急速に採用されている。 しかし、その大きさと複雑さを考えると、プログラミングタスクの有効性の測定と説明は難しい命題である。 コードに対するllmの評価と説明の方法は、必然的にリンクされる。 すなわち、モデルの予測を説明するために、それらはきめ細かな理解可能な概念に確実にマッピングされなければならない。 このマッピングが達成されれば、詳細なモデル評価のための新しい方法が可能になる。 しかしながら、現在の説明可能性技術や評価ベンチマークのほとんどは、モデル予測の解釈とは対照的に、モデルの堅牢性や個々のタスクパフォーマンスに重点を置いている。 この目的のために, ASTxplainerは, LLM評価のための新しい手法と, モデル予測の理解を支援するLCM予測の可視化を可能にするコード用LCMに特有の説明可能性手法である。 その中核にあるASTxplainerは、AST構造内の正規化モデルロジットを抽出し集約することにより、トークン予測をASTノードに整合させる自動メソッドを提供する。 astxplainerの実際的なメリットを示すために、最も人気のあるgithubプロジェクトのキュレートされたデータセットを使用して、12の人気のあるllmで実証的な評価を行うことで、フレームワークが提供できる洞察を説明します。 さらに,モデルユーザが予測を説明することを目的とした,ASTxplainerによるモデル予測の可視化の有用性を検討する。 これらの研究結果は、ASTxplainerがLLMの有効性についての洞察を提供し、エンドユーザが予測を理解するのを助ける可能性を示している。

Large Language Models (LLMs) for code are a family of high-parameter, transformer-based neural networks pre-trained on massive datasets of both natural and programming languages. These models are rapidly being employed in commercial AI-based developer tools, such as GitHub CoPilot. However, measuring and explaining their effectiveness on programming tasks is a challenging proposition, given their size and complexity. The methods for evaluating and explaining LLMs for code are inextricably linked. That is, in order to explain a model's predictions, they must be reliably mapped to fine-grained, understandable concepts. Once this mapping is achieved, new methods for detailed model evaluations are possible. However, most current explainability techniques and evaluation benchmarks focus on model robustness or individual task performance, as opposed to interpreting model predictions. To this end, this paper introduces ASTxplainer, an explainability method specific to LLMs for code that enables both new methods for LLM evaluation and visualizations of LLM predictions that aid end-users in understanding model predictions. At its core, ASTxplainer provides an automated method for aligning token predictions with AST nodes, by extracting and aggregating normalized model logits within AST structures. To demonstrate the practical benefit of ASTxplainer, we illustrate the insights that our framework can provide by performing an empirical evaluation on 12 popular LLMs for code using a curated dataset of the most popular GitHub projects. Additionally, we perform a user study examining the usefulness of an ASTxplainer-derived visualization of model predictions aimed at enabling model users to explain predictions. The results of these studies illustrate the potential for ASTxplainer to provide insights into LLM effectiveness, and aid end-users in understanding predictions.
翻訳日:2023-08-09 15:15:34 公開日:2023-08-07
# eコマース問合せの意味的等価性

Semantic Equivalence of e-Commerce Queries ( http://arxiv.org/abs/2308.03869v1 )

ライセンス: Link先を確認
Aritra Mandal, Daniel Tunkelang and Zhe Wu(参考訳) 検索クエリの変化は、eコマース検索において、表面レベルの異なる異なるクエリを通じて等価な検索意図を表現することができるため、課題となる。 本稿では,クエリ等価性を認識・活用し,検索者およびビジネス成果を高めるためのフレームワークを提案する。 提案手法は,検索意図のベクトル表現へのクエリのマッピング,等価あるいは類似の意図を表現した近傍のクエリの特定,ユーザやビジネス目的の最適化という3つの重要な問題に対処する。 このフレームワークは、クエリ等価性を決定するために、表面の類似性と振る舞いの類似性の両方を利用する。 表面的類似性は、単語の反転、語順、複合化、雑音語に基づくクエリの標準化である。 行動類似性は、過去の検索行動を利用してクエリ意図のベクトル表現を生成する。 オフラインプロセスは文の類似度モデルをトレーニングするために使用され、オンライン最寄りのアプローチは未認識のクエリの処理をサポートする。 提案手法の有効性を実験的に検証し,一般的な文変換モデルよりも優れ,問合せ類似度が0.85のピアソン相関を達成した。 その結果,eコマース検索におけるクエリ等価性を認識・活用するために,履歴行動データとトレーニングモデルを活用する可能性を強調し,ユーザエクスペリエンスとビジネス成果の向上につながった。 さらなる進歩とベンチマークデータセットは、eコマース領域におけるこの重要な問題に対するソリューションの開発を促進するために奨励されている。

Search query variation poses a challenge in e-commerce search, as equivalent search intents can be expressed through different queries with surface-level differences. This paper introduces a framework to recognize and leverage query equivalence to enhance searcher and business outcomes. The proposed approach addresses three key problems: mapping queries to vector representations of search intent, identifying nearest neighbor queries expressing equivalent or similar intent, and optimizing for user or business objectives. The framework utilizes both surface similarity and behavioral similarity to determine query equivalence. Surface similarity involves canonicalizing queries based on word inflection, word order, compounding, and noise words. Behavioral similarity leverages historical search behavior to generate vector representations of query intent. An offline process is used to train a sentence similarity model, while an online nearest neighbor approach supports processing of unseen queries. Experimental evaluations demonstrate the effectiveness of the proposed approach, outperforming popular sentence transformer models and achieving a Pearson correlation of 0.85 for query similarity. The results highlight the potential of leveraging historical behavior data and training models to recognize and utilize query equivalence in e-commerce search, leading to improved user experiences and business outcomes. Further advancements and benchmark datasets are encouraged to facilitate the development of solutions for this critical problem in the e-commerce domain.
翻訳日:2023-08-09 15:15:07 公開日:2023-08-07
# sky to the ground - 大規模なベンチマークと雨の除去に向けたシンプルなベースライン

From Sky to the Ground: A Large-scale Benchmark and Simple Baseline Towards Real Rain Removal ( http://arxiv.org/abs/2308.03867v1 )

ライセンス: Link先を確認
Yun Guo, Xueyao Xiao, Yi Chang, Shumin Deng, Luxin Yan(参考訳) 学習に基づく画像デラウニング手法は大きな進歩を遂げた。 しかしながら、大規模な高品質なペアトレーニングサンプルが欠如していることは、実際のイメージレーディング(rid)を阻害する主なボトルネックである。 このジレンマと進行RIDに対処するため、100万の高解像度(1920*1080)フレーム対を持つ3000の動画シーケンスを含む大規模高品質ペアドリアルレインベンチマーク(LHP-Rain)を構築した。 提案するデータセットが既存のデータセットよりも優れているのは,3つある – 多様性が高く,大規模で,高解像度で高品質なイメージを持つ雨だ。 特に、LHP-Rainの本当の雨は、空に古典的な雨のストリーク/ヴェイリング/オクルージョンを含むだけでなく、デライニングコミュニティが見落としている「地上でのスプラッシュ」も含んでいる。 さらに, 動的雨からの静的背景の分離を改良したGTを生成するための, 頑健な低ランクテンソル復元モデルを提案する。 また,画像および雨層内の自己着脱と層間注意を同時に活用し,識別的特徴表現を備えた簡易な変圧器ベースラインを設計する。 大規模な実験により,提案したデータセットの優位性と,最先端技術に対するデラミニング手法の優位性を検証した。

Learning-based image deraining methods have made great progress. However, the lack of large-scale high-quality paired training samples is the main bottleneck to hamper the real image deraining (RID). To address this dilemma and advance RID, we construct a Large-scale High-quality Paired real rain benchmark (LHP-Rain), including 3000 video sequences with 1 million high-resolution (1920*1080) frame pairs. The advantages of the proposed dataset over the existing ones are three-fold: rain with higher-diversity and larger-scale, image with higher-resolution and higher-quality ground-truth. Specifically, the real rains in LHP-Rain not only contain the classical rain streak/veiling/occlusion in the sky, but also the \textbf{splashing on the ground} overlooked by deraining community. Moreover, we propose a novel robust low-rank tensor recovery model to generate the GT with better separating the static background from the dynamic rain. In addition, we design a simple transformer-based single image deraining baseline, which simultaneously utilize the self-attention and cross-layer attention within the image and rain layer with discriminative feature representation. Extensive experiments verify the superiority of the proposed dataset and deraining method over state-of-the-art.
翻訳日:2023-08-09 15:14:44 公開日:2023-08-07
# 教育における信頼言語モデル

Trusting Language Models in Education ( http://arxiv.org/abs/2308.03866v1 )

ライセンス: Link先を確認
Jogi Suda Neto, Li Deng, Thejaswi Raya, Reza Shahbazi, Nick Liu, Adhitya Venkatesh, Miral Shah, Neeru Khosla, Rodrigo Capobianco Guido(参考訳) 言語モデルは教育で広く使われている。 現代のディープラーニングモデルは、質問応答タスクにおいて非常に優れたパフォーマンスを達成するが、時にはエラーを起こす。 間違った答えを示すことによって誤解を招く生徒を避けるためには、これらのモデルの信頼度、すなわち予測確率を校正することが重要である。 本稿では,BERT 上の XGBoost を用いて,アテンション機構に基づく特徴量を用いて補正された確率を出力することを提案する。 我々の仮説は、注意の流れに含まれる不確実性のレベルはモデルの反応自体の品質に関係しているというものである。

Language Models are being widely used in Education. Even though modern deep learning models achieve very good performance on question-answering tasks, sometimes they make errors. To avoid misleading students by showing wrong answers, it is important to calibrate the confidence - that is, the prediction probability - of these models. In our work, we propose to use an XGBoost on top of BERT to output the corrected probabilities, using features based on the attention mechanism. Our hypothesis is that the level of uncertainty contained in the flow of attention is related to the quality of the model's response itself.
翻訳日:2023-08-09 15:14:18 公開日:2023-08-07
# DefCor-Net:物理対応超音波変形補正

DefCor-Net: Physics-Aware Ultrasound Deformation Correction ( http://arxiv.org/abs/2308.03865v1 )

ライセンス: Link先を確認
Zhongliang Jiang, Yue Zhou, Dongliang Cao, Nassir Navab(参考訳) 変形した画像からの形態学的に正確な解剖学的画像の復元は超音波画像取得において困難であるが、特にコンピュータ支援診断の新たな分野において、正確かつ一貫した診断に不可欠である。 本稿では、粗大かつ多スケールのディープニューラルネットワーク(DefCor-Net)に基づく、新しい解剖学的変形補正手法を提案する。 DefCor-Netは、U字型特徴抽出器を用いて、オンラインの画素単位の剛性を推定し、バイオメディカル知識を取り入れた。 変形場は、アメリカのプローブが測定した力を統合することで多項式回帰を用いて計算される。 実時間でピクセル・バイ・ピクセルの組織特性を推定することにより,解剖学的変形補正の可能性を実現する。 提案するdefcor-netの有効性を示すために、6人のボランティアの前腕と上腕に記録された画像を用いてdefcor-netの訓練と検証を行う。 その結果、DefCor-Netは変形補正の精度を大幅に向上させ、元の幾何を復元する(Dice Coefficient: $114.3\pm20.9$から 8,2.6\pm12.1$へ)。

The recovery of morphologically accurate anatomical images from deformed ones is challenging in ultrasound (US) image acquisition, but crucial to accurate and consistent diagnosis, particularly in the emerging field of computer-assisted diagnosis. This article presents a novel anatomy-aware deformation correction approach based on a coarse-to-fine, multi-scale deep neural network (DefCor-Net). To achieve pixel-wise performance, DefCor-Net incorporates biomedical knowledge by estimating pixel-wise stiffness online using a U-shaped feature extractor. The deformation field is then computed using polynomial regression by integrating the measured force applied by the US probe. Based on real-time estimation of pixel-by-pixel tissue properties, the learning-based approach enables the potential for anatomy-aware deformation correction. To demonstrate the effectiveness of the proposed DefCor-Net, images recorded at multiple locations on forearms and upper arms of six volunteers are used to train and validate DefCor-Net. The results demonstrate that DefCor-Net can significantly improve the accuracy of deformation correction to recover the original geometry (Dice Coefficient: from $14.3\pm20.9$ to $82.6\pm12.1$ when the force is $6N$).
翻訳日:2023-08-09 15:14:09 公開日:2023-08-07
# storyfier:テキスト生成モデルによる語彙学習サポートの検討

Storyfier: Exploring Vocabulary Learning Support with Text Generation Models ( http://arxiv.org/abs/2308.03864v1 )

ライセンス: Link先を確認
Zhenhui Peng, Xingbo Wang, Qiushi Han, Junkai Zhu, Xiaojuan Ma, and Huamin Qu(参考訳) 語彙学習支援ツールは、ストーリーやビデオクリップなどの既存の素材を、ユーザーがそれぞれの単語を記憶するためのコンテキストとして広く利用してきた。 しかし、これらのツールは学習者の興味のある対象語に対して一貫した文脈を提供できず、単語の使用を実践することはほとんどなかった。 本稿では,教師や学生と協力して,テキスト生成モデルを活用したStoryfierを反復的に開発し,学習者が対象語をカバーし,ストーリークローゼテストを行い,これらの単語を用いて適応型AI支援による新しいストーリーを書けるようにする。 対象語を接続し,学習作業の負荷軽減を支援するために,学習者が生成した物語を概ね好んでいることを示す。 しかし、読み書き学習セッションでは、AI機能なしのベースラインツールで学習するよりも、Storyfierを使用する参加者は、リコールやターゲット語の使用においてパフォーマンスが悪くなっている。 生成モデルを用いた学習課題支援に関する洞察について論じる。

Vocabulary learning support tools have widely exploited existing materials, e.g., stories or video clips, as contexts to help users memorize each target word. However, these tools could not provide a coherent context for any target words of learners' interests, and they seldom help practice word usage. In this paper, we work with teachers and students to iteratively develop Storyfier, which leverages text generation models to enable learners to read a generated story that covers any target words, conduct a story cloze test, and use these words to write a new story with adaptive AI assistance. Our within-subjects study (N=28) shows that learners generally favor the generated stories for connecting target words and writing assistance for easing their learning workload. However, in the read-cloze-write learning sessions, participants using Storyfier perform worse in recalling and using target words than learning with a baseline tool without our AI features. We discuss insights into supporting learning tasks with generative models.
翻訳日:2023-08-09 15:13:47 公開日:2023-08-07
# 飛行時間センサとディープラーニングを用いた牛の高精度3次元走査

High-Throughput and Accurate 3D Scanning of Cattle Using Time-of-Flight Sensors and Deep Learning ( http://arxiv.org/abs/2308.03861v1 )

ライセンス: Link先を確認
Gbenga Omotara, Seyed Mohamad Ali Tousi, Jared Decker, Derek Brake, Guilherme N. DeSouza(参考訳) 牛の表現型を正確に測定するための高スループット3Dスキャンソリューションを提案する。 このスキャナーは深度センサー、すなわち飛行時間(Tof)センサーの配列を利用しており、それぞれ専用の組み込みデバイスによって管理されている。 このシステムは、高い忠実度を持つ3dポイントの雲を生成するのに優れており、馬の形状を忠実に再現する正確なメッシュが容易になる。 システムの性能を評価するために,我々は2つの検証プロセスを実装した。 当初、既知の物体を特徴とする制御環境における体積および表面積の測定におけるスキャナーの能力をテストする。 第2に,一連の飛行時センサを操作する際のマルチデバイス同期の影響と必要性について検討する。 実験結果に基づき, 提案システムは, 家畜研究のために, 高品質な未汚染牛網を生産できる。

We introduce a high throughput 3D scanning solution specifically designed to precisely measure cattle phenotypes. This scanner leverages an array of depth sensors, i.e. time-of-flight (Tof) sensors, each governed by dedicated embedded devices. The system excels at generating high-fidelity 3D point clouds, thus facilitating an accurate mesh that faithfully reconstructs the cattle geometry on the fly. In order to evaluate the performance of our system, we have implemented a two-fold validation process. Initially, we test the scanner's competency in determining volume and surface area measurements within a controlled environment featuring known objects. Secondly, we explore the impact and necessity of multi-device synchronization when operating a series of time-of-flight sensors. Based on the experimental results, the proposed system is capable of producing high-quality meshes of untamed cattle for livestock studies.
翻訳日:2023-08-09 15:13:27 公開日:2023-08-07
# モバイルサプライ: Recommender システムの Jigsaw の最後のピース

Mobile Supply: The Last Piece of Jigsaw of Recommender System ( http://arxiv.org/abs/2308.03855v1 )

ライセンス: Link先を確認
Zhenhao Jiang, Biao Zeng, Hao Feng, Jin Liu, Jie Zhang, Jia Jia, Ning Hu(参考訳) 推薦システムはオンラインプラットフォームの基本機能である。 携帯電話のコンピューティング能力の発展に伴い、データ転送遅延とページネーション機構の問題を解決するために、ユーザのデバイスに推奨アルゴリズムを配置した研究者もいる。 しかし、既存のエッジサイドモバイルランキングでは、ページネーション機構の問題は完全に解決できない。 モバイルのランキングは、現在のページにあるアイテムのみをソートできるので、1回または2回呼び出されても動作しない。 さらに、ユーザが現在のページで関心のあるアイテムを見た後、ユーザはリフレッシュして、新しいページのアイテムを取得します。 これにより、モバイルランキングモデルは役に立たない作業が多くなり、ユーザの没入感に影響を与えます。 ページネーション機構の問題を解決するために,モバイル・サプライという推薦者のパイプラインに全く新しいモジュールを提案する。 推薦システムのパイプラインは、"retrival->pre- rank->level->re- rank->Mobile supply->mobile ranking"に拡張されている。 具体的には、リスト値の概念を導入し、ポイントワイド法を用いてリストワイド推定を行う。 また、新しいパイプラインに合わせたモバイルデバイスの違いを考慮して、デバイス対応モバイルランキングという新しいモバイルランキングも設計する。 大規模なオフラインおよびオンライン実験は提案手法の優位性を示し,モバイルサプライがエッジ側レコメンデータシステムとユーザエクスペリエンスをより向上させることができることを示す。 モバイルサプライは大規模なオンラインフードプラットフォームのホームページに展開されており、当社のビジネスでかなりの利益を上げています。

Recommendation system is a fundamental functionality of online platforms. With the development of computing power of mobile phones, some researchers have deployed recommendation algorithms on users' devices to solve the problems of data transmission delay and pagination mechanism. However, the existing edge-side mobile rankings cannot completely solve the problem of pagination mechanism. The mobile rankings can only sort the items on the current page, so it will not work if it is called once or twice. Besides, after the user has viewed the items of interest to the user on the current page, the user refresh to get a new page of items. This will make the mobile ranking model do a lot of useless work and affect the user's immersive experience. In order to solve the pagination mechanism problem, we propose a completely new module in the pipeline of recommender named Mobile Supply. The pipeline of recommender system is extended to "retrival->pre-ranking->ranking->re-ranking->Mobile Supply->mobile ranking". Specifically, we introduce the concept of list value and use point-wise method to approximate list-wise estimation. We also design a new mobile ranking named device-aware mobile ranking considering the difference of mobile devices tailored to the new pipeline. Extensive offline and online experiments show the superiority of our proposed method and prove that Mobile Supply can further improve the performance of edge-side recommender system and user experience. Mobile Supply has been deployed on the homepage page of a large-scale online food platform and has yielded considerable profits in our business.
翻訳日:2023-08-09 15:13:14 公開日:2023-08-07
# 量子コンピュータ信頼できる実行環境のためのハードウェアアーキテクチャ

Hardware Architecture for a Quantum Computer Trusted Execution Environment ( http://arxiv.org/abs/2308.03897v1 )

ライセンス: Link先を確認
Theodoros Trochatos, Chuanqi Xu, Sanjay Deshpande, Yao Lu, Yongshan Ding, Jakub Szefer(参考訳) 今日の量子コンピュータと将来の量子コンピュータが動作するクラウドベースの環境は、ユーザの知的財産のセキュリティとプライバシに関する懸念を提起する。 クラウドベースの量子コンピュータプロバイダに送信された量子回路は、保護を必要とするユーザによって開発されたセンシティブまたはプロプライエタリなアルゴリズムを表す。 また、入力データを回路にハードコードし、回路のリークをユーザのデータを露出させることができる。 悪質な量子コンピュータクラウドプロバイダからユーザの回路とデータを保護するために、この研究は量子コンピュータのための信頼できる実行環境のための最初のハードウェアアーキテクチャを提示した。 ユーザの回路とデータを保護するため、量子コンピュータ制御パルスはデコイ制御パルスで隠蔽される。 デジタルデータは暗号化できるが、アナログ制御パルスは不可能であり、本論文ではアナログ制御パルスを難読化するための新しいデコイパルス法を提案する。 提案するデコイパルスはユーザによって容易にソフトウェアに追加できる。 一方、本論文で提案するアーキテクチャのハードウェアコンポーネントは、量子コンピュータの希釈冷凍機内のデコイパルスを量子ビットに到達する前に減衰させる。 ハードウェアアーキテクチャには、信頼性のあるハードウェアとユーザの情報を保護するためのタンパ耐性機能も含まれている。 この研究は、ハードウェア保護の影響と拡張性を分析するために、変動距離の新しいメトリックを活用する。 保護されていない回路と比較して保護された回路の変動距離は0.16$から0.26$の範囲である。 この研究は、悪意のあるクラウドプロバイダからの保護が実現可能であることを示し、提案されたアーキテクチャに必要なハードウェアコンポーネントは今日利用可能である。

The cloud-based environments in which today's and future quantum computers will operate, raise concerns about the security and privacy of user's intellectual property. Quantum circuits submitted to cloud-based quantum computer providers represent sensitive or proprietary algorithms developed by users that need protection. Further, input data is hard-coded into the circuits, and leakage of the circuits can expose users' data. To help protect users' circuits and data from possibly malicious quantum computer cloud providers, this work presented the first hardware architecture for a trusted execution environment for quantum computers. To protect the user's circuits and data, the quantum computer control pulses are obfuscated with decoy control pulses. While digital data can be encrypted, analog control pulses cannot and this paper proposed the novel decoy pulse approach to obfuscate the analog control pulses. The proposed decoy pulses can easily be added to the software by users. Meanwhile, the hardware components of the architecture proposed in this paper take care of eliminating, i.e. attenuating, the decoy pulses inside the superconducting quantum computer's dilution refrigerator before they reach the qubits. The hardware architecture also contains tamper-resistant features to protect the trusted hardware and users' information. The work leverages a new metric of variational distance to analyze the impact and scalability of hardware protection. The variational distance of the circuits protected with our scheme, compared to unprotected circuits, is in the range of only $0.16$ to $0.26$. This work demonstrates that protection from possibly malicious cloud providers is feasible and all the hardware components needed for the proposed architecture are available today.
翻訳日:2023-08-09 15:07:28 公開日:2023-08-07
# 大規模教育データにおけるスケーラブルで等価な数学問題解決戦略予測

Scalable and Equitable Math Problem Solving Strategy Prediction in Big Educational Data ( http://arxiv.org/abs/2308.03892v1 )

ライセンス: Link先を確認
Anup Shakya, Vasile Rus, Deepak Venugopal(参考訳) 学生の問題解決戦略を理解することは、知的指導システム(itss)と適応指導システム(aiss)を用いた効果的な数学学習に大きな影響を与える。 例えば、it/aisは、間違った戦略によって示される特定の誤解を正すために、パーソナライズし、特定の問題は戦略を改善するために設計され、フラストレーションは、すべての標準的な戦略に適合するのではなく、学生の自然な思考方法に適応することで最小化することができる。 人間の専門家は、十分な学生の交流で教室で手動で戦略を特定できるかもしれないが、これをビッグデータにスケールアップすることは不可能である。 したがって、機械学習とAIの手法の進歩を活用して、あらゆるスキルレベルの学生にも公平なスケーラブルな戦略予測を行う。 具体的には,学生の熟達度に基づいて表現を学ぶmvecという組込みを開発した。 次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタリングし、ほぼ対称な戦略を持つインスタンスをグループ化するようにクラスタを段階的に学習する。 戦略予測モデルは、これらのクラスタからサンプリングされたインスタンスでトレーニングされる。 これにより、さまざまな戦略でモデルをトレーニングしたり、特定のグループの戦略がdnnモデルをバイアスしないようにすることで、すべてのグループでパラメータを最適化することが可能になります。 算数から得られる実世界の大規模学生インタラクションデータセットを用いて, 学習学習のためのトランスフォーマーとnode2vecを用いて, 戦略予測のためのlstmを実装した。 大規模データセットの小さなサンプルでトレーニングすることで,高い精度を達成するために,我々のアプローチがスケールアップ可能であること,また,様々なスキルレベルにおける学習者に対して等しく予測戦略を予測できること,などが示されている。

Understanding a student's problem-solving strategy can have a significant impact on effective math learning using Intelligent Tutoring Systems (ITSs) and Adaptive Instructional Systems (AISs). For instance, the ITS/AIS can better personalize itself to correct specific misconceptions that are indicated by incorrect strategies, specific problems can be designed to improve strategies and frustration can be minimized by adapting to a student's natural way of thinking rather than trying to fit a standard strategy for all. While it may be possible for human experts to identify strategies manually in classroom settings with sufficient student interaction, it is not possible to scale this up to big data. Therefore, we leverage advances in Machine Learning and AI methods to perform scalable strategy prediction that is also fair to students at all skill levels. Specifically, we develop an embedding called MVec where we learn a representation based on the mastery of students. We then cluster these embeddings with a non-parametric clustering method where we progressively learn clusters such that we group together instances that have approximately symmetrical strategies. The strategy prediction model is trained on instances sampled from these clusters. This ensures that we train the model over diverse strategies and also that strategies from a particular group do not bias the DNN model, thus allowing it to optimize its parameters over all groups. Using real world large-scale student interaction datasets from MATHia, we implement our approach using transformers and Node2Vec for learning the mastery embeddings and LSTMs for predicting strategies. We show that our approach can scale up to achieve high accuracy by training on a small sample of a large dataset and also has predictive equality, i.e., it can predict strategies equally well for learners at diverse skill levels.
翻訳日:2023-08-09 15:07:03 公開日:2023-08-07
# 因果知識抽出手法のクロスドメイン評価

A Cross-Domain Evaluation of Approaches for Causal Knowledge Extraction ( http://arxiv.org/abs/2308.03891v1 )

ライセンス: Link先を確認
Anik Saha, Oktie Hassanzadeh, Alex Gittens, Jian Ni, Kavitha Srinivas, Bulent Yener(参考訳) 因果知識抽出は、因果関係を検出することによって、テキストから関連する原因や効果を抽出するタスクである。 このタスクは言語理解と知識発見に重要であるが、この領域の最近の研究は、テキストセグメントを因果または非因果としてバイナリ分類することに重点を置いている。 本研究では,因果知識抽出のための3つの系列タグ付けモデルの徹底的な分析を行い,因果関係抽出に対するスパンベースアプローチと比較する。 我々の実験は、事前訓練された言語モデル(例えばBERT)からの埋め込みが、複雑なアーキテクチャを持つ以前の最先端モデルと比較して、このタスクに顕著なパフォーマンス向上をもたらすことを示した。 我々は,多種多様なドメインの4つのデータセットにまたがる単純シーケンスタグモデルよりも,スパンベースモデルの方が優れた性能を示すことを確かめた。

Causal knowledge extraction is the task of extracting relevant causes and effects from text by detecting the causal relation. Although this task is important for language understanding and knowledge discovery, recent works in this domain have largely focused on binary classification of a text segment as causal or non-causal. In this regard, we perform a thorough analysis of three sequence tagging models for causal knowledge extraction and compare it with a span based approach to causality extraction. Our experiments show that embeddings from pre-trained language models (e.g. BERT) provide a significant performance boost on this task compared to previous state-of-the-art models with complex architectures. We observe that span based models perform better than simple sequence tagging models based on BERT across all 4 data sets from diverse domains with different types of cause-effect phrases.
翻訳日:2023-08-09 15:06:31 公開日:2023-08-07
# テーブルユニオン検索のための生成ベンチマーク作成

Generative Benchmark Creation for Table Union Search ( http://arxiv.org/abs/2308.03883v1 )

ライセンス: Link先を確認
Koyena Pal, Aamod Khatiwada, Roee Shraga, Ren\'ee J. Miller(参考訳) データ管理は従来、データサイズや分散といった重要なパラメータを正確に制御できる、tpcスイートのような構造化ベンチマークを生成するために、合成データジェネレータに依存していました。 これらのベンチマークはデータベース管理システムの成功と採用の中心だった。 しかし、ますます、データ管理の問題は意味のある性質です。 重要な例は、結合できるテーブルを見つけることである。 同じ濃度の任意の2つのテーブルは結合可能であるが、テーブルユニオン探索は、結合が意味的に一貫性のあるテーブルを見つける問題である。 セマンティクス問題は合成データを使ってベンチマークすることはできない。 現在のベンチマーク作成方法は,実データの手作業によるキュレーションとラベル付けを伴います。 これらのメソッドは堅牢でもスケーラブルでもないし、さらに重要なのは、生成されたベンチマークの堅牢性が明確ではないことだ。 生成AIモデルを用いてテーブルユニオン探索のための構造化データベンチマークを作成することを提案する。 本稿では、生成モデルを用いて特定の特性を持つテーブルを作成する新しい方法を提案する。 この手法を用いて、結合性と非結合性の両方を持つテーブルのペアを含む新しいベンチマークを作成する。 既存のベンチマークと新しいベンチマークに対して,最近のテーブルユニオン探索手法を徹底的に評価した。 また,最近の大規模言語モデルに基づく新しいテーブル検索手法を全ベンチマークで提案し,評価した。 具体的には,既存の手作業で作成したベンチマークと比較して,平均精度約60%,30%以上,平均精度が約60%向上した。 我々は,この結果がなぜそうなるのかを検証し,既存のベンチマークでは不可能であった偽陽性と偽陰性の両方についての研究を含む,新しいベンチマークによりより詳細な解析が可能となることを示す。

Data management has traditionally relied on synthetic data generators to generate structured benchmarks, like the TPC suite, where we can control important parameters like data size and its distribution precisely. These benchmarks were central to the success and adoption of database management systems. But more and more, data management problems are of a semantic nature. An important example is finding tables that can be unioned. While any two tables with the same cardinality can be unioned, table union search is the problem of finding tables whose union is semantically coherent. Semantic problems cannot be benchmarked using synthetic data. Our current methods for creating benchmarks involve the manual curation and labeling of real data. These methods are not robust or scalable and perhaps more importantly, it is not clear how robust the created benchmarks are. We propose to use generative AI models to create structured data benchmarks for table union search. We present a novel method for using generative models to create tables with specified properties. Using this method, we create a new benchmark containing pairs of tables that are both unionable and non-unionable but related. We thoroughly evaluate recent existing table union search methods over existing benchmarks and our new benchmark. We also present and evaluate a new table search methods based on recent large language models over all benchmarks. We show that the new benchmark is more challenging for all methods than hand-curated benchmarks, specifically, the top-performing method achieves a Mean Average Precision of around 60%, over 30% less than its performance on existing manually created benchmarks. We examine why this is the case and show that the new benchmark permits more detailed analysis of methods, including a study of both false positives and false negatives that were not possible with existing benchmarks.
翻訳日:2023-08-09 15:05:53 公開日:2023-08-07
# 非知覚状態拡張によるオフライン強化学習における一般化の活用

Exploiting Generalization in Offline Reinforcement Learning via Unseen State Augmentations ( http://arxiv.org/abs/2308.03882v1 )

ライセンス: Link先を確認
Nirbhay Modhe, Qiaozi Gao, Ashwin Kalyan, Dhruv Batra, Govind Thattai, Gaurav Sukhatme(参考訳) オフライン強化学習(RL)手法は、保守的な価値推定による探索と搾取のバランスを崩し、目に見えない状態や行動の価値を罰する。 モデルベースメソッドは、モデルロールアウトによって、未検出の状態をさらに活用することができる。 しかし、これらの手法は2つの要因により、利用可能なオフラインデータから遠く離れた見えない状態を見つける能力に障害がある。 (a)カスケードモデルエラーによるモデルにおける非常に短いロールアウト地平線 (b)オフラインデータで観測された状態のみに由来するモデルロールアウト。 第2の仮定を緩和し,学習モデルと価値推定が一般化する未認識状態の活用を可能にする,新たな未認識状態拡張戦略を提案する。 提案手法では,認識的不確実性推定値が高すぎる(高い誤差)あるいは低すぎる(見掛けたデータに類似しすぎる)状態を用いて,見掛けられた状態の値に変形した摂動によって,見当たらない状態を見出す。 いくつかのオフラインrlタスクのパフォーマンス改善を観察し、我々の拡張戦略が、ベースラインよりも保守的なq値推定というように、総合的に低い平均データセットq値推定につながることを発見しました。

Offline reinforcement learning (RL) methods strike a balance between exploration and exploitation by conservative value estimation -- penalizing values of unseen states and actions. Model-free methods penalize values at all unseen actions, while model-based methods are able to further exploit unseen states via model rollouts. However, such methods are handicapped in their ability to find unseen states far away from the available offline data due to two factors -- (a) very short rollout horizons in models due to cascading model errors, and (b) model rollouts originating solely from states observed in offline data. We relax the second assumption and present a novel unseen state augmentation strategy to allow exploitation of unseen states where the learned model and value estimates generalize. Our strategy finds unseen states by value-informed perturbations of seen states followed by filtering out states with epistemic uncertainty estimates too high (high error) or too low (too similar to seen data). We observe improved performance in several offline RL tasks and find that our augmentation strategy consistently leads to overall lower average dataset Q-value estimates i.e. more conservative Q-value estimates than a baseline.
翻訳日:2023-08-09 15:05:29 公開日:2023-08-07
# guarding the guardians: オンライン児童性的虐待の自動分析

Guarding the Guardians: Automated Analysis of Online Child Sexual Abuse ( http://arxiv.org/abs/2308.03880v1 )

ライセンス: Link先を確認
Juanita Puentes, Angela Castillo, Wilmar Osejo, Yuly Calder\'on, Viviana Quintero, Lina Saldarriaga, Diana Agudelo and Pablo Arbel\'aez(参考訳) 子どもに対するオンライン暴力は近年世界的に増加しており、緊急の注意が必要である。 競争当局は、犯罪のダイナミクスを理解しパターンを特定するために、虐待の苦情を手動で分析する。 しかし、これらの苦情を手動で分析することは、レビュープロセス中にアナリストを有害なコンテンツにさらすことが困難である。 これらの課題を踏まえ,子どもの性的虐待報告を包括的に分析する自動化ツールである,新しいソリューションを提案する。 分析プロセスを自動化することにより,対象,犯罪の程度,損害の3次元のレポートを分類することにより,有害コンテンツへの露出リスクを大幅に低減する。 さらに,複数分野のチームの専門知識を生かして,収集したデータに注釈を付ける新しいアプローチを導入し,より詳細なレポート分析を可能にした。 このアプローチは基本的なパターンや傾向の理解を改善し、法執行機関や政策立案者が子供の暴力と戦うための集中した戦略を作ることができる。

Online violence against children has increased globally recently, demanding urgent attention. Competent authorities manually analyze abuse complaints to comprehend crime dynamics and identify patterns. However, the manual analysis of these complaints presents a challenge because it exposes analysts to harmful content during the review process. Given these challenges, we present a novel solution, an automated tool designed to analyze children's sexual abuse reports comprehensively. By automating the analysis process, our tool significantly reduces the risk of exposure to harmful content by categorizing the reports on three dimensions: Subject, Degree of Criminality, and Damage. Furthermore, leveraging our multidisciplinary team's expertise, we introduce a novel approach to annotate the collected data, enabling a more in-depth analysis of the reports. This approach improves the comprehension of fundamental patterns and trends, enabling law enforcement agencies and policymakers to create focused strategies in the fight against children's violence.
翻訳日:2023-08-09 15:04:58 公開日:2023-08-07
# 量子固有値推定のためのアルゴリズム誤差軽減

Algorithmic error mitigation for quantum eigenvalues estimation ( http://arxiv.org/abs/2308.03879v1 )

ライセンス: Link先を確認
Adam Siegel, Kosuke Mitarai and Keisuke Fujii(参考訳) 与えられたオブザーバブルの固有値を推定する場合、フォールトトレラント量子コンピュータでさえエラー、すなわちアルゴリズムエラーの対象となる。 これらは、位相推定に渡されたユニタリを実装したアルゴリズムの近似に起因し、例えば、トロッター化や量子化といった固有値を抽出する。 これらのエラーは、初期のフォールトトレラントデバイスでは実現不可能な回路の複雑さを増大させることによって対処することができる。 そこで本研究では,限られた資源で実装可能な可観測器の集合の固有値を評価するコストを犠牲にして,任意の順序までアルゴリズム誤差を低減できる誤り緩和戦略を提案する。 必要な可観測物の数は推定され、ハミルトニアンの項数と多項式的にしか増加せず、場合によっては所望の誤差緩和順序と直線的に一致することが示される。 以上の結果から, 量子ビット数に制限のある早期耐故障装置においても, 精度の高い固有値推定が可能であることがわかった。

When estimating the eigenvalues of a given observable, even fault-tolerant quantum computers will be subject to errors, namely algorithmic errors. These stem from approximations in the algorithms implementing the unitary passed to phase estimation to extract the eigenvalues, e.g. Trotterisation or qubitisation. These errors can be tamed by increasing the circuit complexity, which may be unfeasible in early-stage fault-tolerant devices. Rather, we propose in this work an error mitigation strategy that enables a reduction of the algorithmic errors up to any order, at the cost of evaluating the eigenvalues of a set of observables implementable with limited resources. The number of required observables is estimated and is shown to only grow polynomially with the number of terms in the Hamiltonian, and in some cases, linearly with the desired order of error mitigation. Our results show error reduction of several orders of magnitude in physically relevant cases, thus promise accurate eigenvalue estimation even in early fault-tolerant devices with limited number of qubits.
翻訳日:2023-08-09 15:04:43 公開日:2023-08-07
# 開放シュウィンガー模型のリウビリアンダイナミクス:熱媒質における弦破断と運動散逸

Liouvillian Dynamics of the Open Schwinger Model: String Breaking and Kinetic Dissipation in a Thermal Medium ( http://arxiv.org/abs/2308.03878v1 )

ライセンス: Link先を確認
Kyle Lee, James Mulligan, Felix Ringer and Xiaojun Yao(参考訳) 境界状態形成のダイナミクスを理解することは、量子色力学(qcd)のような量子場理論を閉じ込める基本的な問題の1つである。 最初にフェルミオンと反フェルミオンをつなぐ弦の破断が大きな注目を集めたハドロン化機構の1つである。 シュウィンガーモデルのようなより単純で低次元のモデルでリアルタイムの弦破れ力学の理解を深めることにより、凝縮物質や統計システムで見られるQCDやその他の凝縮系におけるハドロン化過程の理解を深めることができる。 本稿では,シュウィンガーモデルにおける弦破壊のダイナミクスを考察し,熱媒質中での修正を考察し,シュウィンガーモデルを熱環境に結合した開量子系として扱う。 システムと環境の間の弱い結合の仕組みの中で、システムのリアルタイムな進化はリンドブラッド進化方程式によって説明できる。 このリンドブラッド方程式のリウヴィリアンギャップとシステムのフォン・ノイマンエントロピーの時間依存性を解析した。 環境相関時間の増加に伴い, 後期緩和速度は低下する。 さらに、環境相関長が無限であるとき、系は2つの定常状態を示し、各々のチャージ共役パリティ(cp)量子数を持つセクタに1つずつを示す。 初期弦が真空で壊れるパラメータ状態に対しては, 運動的消散効果により, 媒体内の弦破壊の遅れが観察される。 逆に、真空時間進化において初期弦がそのまま残る状態においては、熱媒体内の弦の破れ(融解)が観察される。 さらに,オープンシュウィンガーモデルのリウビリアンダイナミクスを量子コンピュータ上でシミュレートし,関連するトロッター誤差を推定する方法についても検討した。

Understanding the dynamics of bound state formation is one of the fundamental questions in confining quantum field theories such as Quantum Chromodynamics (QCD). One hadronization mechanism that has garnered significant attention is the breaking of a string initially connecting a fermion and an anti-fermion. Deepening our understanding of real-time string-breaking dynamics with simpler, lower dimensional models like the Schwinger model can improve our understanding of the hadronization process in QCD and other confining systems found in condensed matter and statistical systems. In this paper, we consider the string-breaking dynamics within the Schwinger model and investigate its modification inside a thermal medium, treating the Schwinger model as an open quantum system coupled to a thermal environment. Within the regime of weak coupling between the system and environment, the real-time evolution of the system can be described by a Lindblad evolution equation. We analyze the Liouvillian gaps of this Lindblad equation and the time dependence of the system's von Neumann entropy. We observe that the late-time relaxation rate decreases as the environment correlation length increases. Moreover, when the environment correlation length is infinite, the system exhibits two steady states, one in each of the sectors with definite charge-conjugation-parity (CP) quantum numbers. For parameter regimes where an initial string breaks in vacuum, we observe a delay of the string breaking in the medium, due to kinetic dissipation effects. Conversely, in regimes where an initial string remains intact in vacuum time evolution, we observe string breaking (melting) in the thermal medium. We further discuss how the Liouvillian dynamics of the open Schwinger model can be simulated on quantum computers and provide an estimate of the associated Trotter errors.
翻訳日:2023-08-09 15:04:25 公開日:2023-08-07
# 線形量子確率系の二次指数コヒーレントフィードバック制御

Quadratic-exponential coherent feedback control of linear quantum stochastic systems ( http://arxiv.org/abs/2308.03918v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen(参考訳) 本稿では,コヒーレント(測定自由)量子コントローラを用いた場の相互接続におけるリスクに敏感な最適制御問題について考察する。 プラントとコントローラは、線形量子確率微分方程式によって制御されるマルチモードオープン量子調和振動子であり、互いに結合し、外部のボゾン場をモデル化するマルチチャネル量子ウィーナープロセスによって駆動される。 制御の目的は,閉ループ系を内部的に安定化させ,植物変数と制御出力をペナル化する二次指数関数の無限水平漸近成長速度を最小化することである。 本稿では,周波数領域および状態空間における制御器のエネルギー・結合行列に対するコスト汎関数の部分フレシェ微分を計算することにより,この問題に対する最適性の1次必要条件を求める。 リスク感受性と重み付きコヒーレント量子lqg制御問題の無限小同値性も確立されている。 変分法に加えて,補助古典系のスペクトル分解と無限カスケードを用いる。 これらの切断は、コヒーレント量子リスク感受性フィードバック合成のための数値最適化アルゴリズム(勾配降下など)に適用できる。

This paper considers a risk-sensitive optimal control problem for a field-mediated interconnection of a quantum plant with a coherent (measurement-free) quantum controller. The plant and the controller are multimode open quantum harmonic oscillators governed by linear quantum stochastic differential equations, which are coupled to each other and driven by multichannel quantum Wiener processes modelling the external bosonic fields. The control objective is to internally stabilize the closed-loop system and minimize the infinite-horizon asymptotic growth rate of a quadratic-exponential functional which penalizes the plant variables and the controller output. We obtain first-order necessary conditions of optimality for this problem by computing the partial Frechet derivatives of the cost functional with respect to the energy and coupling matrices of the controller in frequency domain and state space. An infinitesimal equivalence between the risk-sensitive and weighted coherent quantum LQG control problems is also established. In addition to variational methods, we employ spectral factorizations and infinite cascades of auxiliary classical systems. Their truncations are applicable to numerical optimization algorithms (such as the gradient descent) for coherent quantum risk-sensitive feedback synthesis.
翻訳日:2023-08-09 14:56:18 公開日:2023-08-07
# 国際音声アルファベットへのユニバーサル自動音声転写

Universal Automatic Phonetic Transcription into the International Phonetic Alphabet ( http://arxiv.org/abs/2308.03917v1 )

ライセンス: Link先を確認
Chihiro Taguchi, Yusuke Sakai, Parisa Haghani, David Chiang(参考訳) 本稿では,任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。 音声言語をIPAに転写することは、言語ドキュメントにおいて必須だが時間を要するプロセスであり、部分的に自動化しても、絶滅危惧言語のドキュメントを劇的にスピードアップする可能性がある。 従来の最高の音声-IPAモデル(Wav2Vec2Phoneme)と同様に、我々のモデルはwav2vec 2.0に基づいており、音声入力からIPAを予測するために微調整されている。 我々はCommonVoice 11.0の7言語からのトレーニングデータを使用し、半自動でIPAに書き起こした。 このトレーニングデータセットは、Wav2Vec2Phonemeよりもはるかに小さいが、その高品質により、私たちのモデルは同等またはより良い結果を達成することができる。 さらに,我々の共通音声-IPAモデルの品質は,人間のアノテータのそれに近いことを示す。

This paper presents a state-of-the-art model for transcribing speech in any language into the International Phonetic Alphabet (IPA). Transcription of spoken languages into IPA is an essential yet time-consuming process in language documentation, and even partially automating this process has the potential to drastically speed up the documentation of endangered languages. Like the previous best speech-to-IPA model (Wav2Vec2Phoneme), our model is based on wav2vec 2.0 and is fine-tuned to predict IPA from audio input. We use training data from seven languages from CommonVoice 11.0, transcribed into IPA semi-automatically. Although this training dataset is much smaller than Wav2Vec2Phoneme's, its higher quality lets our model achieve comparable or better results. Furthermore, we show that the quality of our universal speech-to-IPA models is close to that of human annotators.
翻訳日:2023-08-09 14:56:00 公開日:2023-08-07
# 内部変数を持つディープ物理誘導ニューラルネットワークによる非線形材料応答の予測と説明

Predicting and explaining nonlinear material response using deep Physically Guided Neural Networks with Internal Variables ( http://arxiv.org/abs/2308.03915v1 )

ライセンス: Link先を確認
Javier Orera-Echeverria, Jacobo Ayensa-Jim\'enez, Manuel Doblare(参考訳) 非線形材料は、しばしば古典的状態モデル理論でモデル化することが困難である。なぜならそれらは複雑で、時に不正確な物理的および数学的記述を持つからである。 多くの分野において、ニューラルネットワーク手法は、非常に複雑で非線形な相関を識別するための強力なツールとして生まれてきた。 本研究では、最近開発された内部変数付き物理ガイドニューラルネットワーク(PGNNIV)を用いて、モデルフリーアプローチによる構成法則の発見と、測定された力変位データのみを用いたトレーニングを行う。 PGNNIVは、特定の隠された層に制約を強制するために問題の物理学を特に利用し、内部変数データなしで予測を行うことができる。 pgnnivsは, 対象物質の性質(線形, 硬化, 軟化挙動, 過弾性)に関わらず, 内部および外部変数の両方を予測でき, その性質を完全に説明し, 説明可能な人工知能 (xai) に組み込むことができることを示した。

Nonlinear materials are often difficult to model with classical state model theory because they have a complex and sometimes inaccurate physical and mathematical description or we simply do not know how to describe such materials in terms of relations between external and internal variables. In many disciplines, Neural Network methods have arisen as powerful tools to identify very complex and non-linear correlations. In this work, we use the very recently developed concept of Physically Guided Neural Networks with Internal Variables (PGNNIV) to discover constitutive laws using a model-free approach and training solely with measured force-displacement data. PGNNIVs make a particular use of the physics of the problem to enforce constraints on specific hidden layers and are able to make predictions without internal variable data. We demonstrate that PGNNIVs are capable of predicting both internal and external variables under unseen load scenarios, regardless of the nature of the material considered (linear, with hardening or softening behavior and hyperelastic), unravelling the constitutive law of the material hence explaining its nature altogether, placing the method in what is known as eXplainable Artificial Intelligence (XAI).
翻訳日:2023-08-09 14:55:43 公開日:2023-08-07
# ViLP:映像行動認識のための視覚・言語・詩埋め込みを用いた知識探索

ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition ( http://arxiv.org/abs/2308.03908v1 )

ライセンス: Link先を確認
Soumyabrata Chaudhuri and Saumik Bhattacharya(参考訳) ビデオ行動認識(VAR)は、その固有の複雑さのために難しい課題である。 文献では様々なアプローチが検討されているが、多数の人間の行動を認識する統一された枠組みを設計することは依然として難しい問題である。 近年,Multi-Modal Learning (MML) がこの領域で有望な成果を示した。 文学において、2Dスケルトンやポーズのモダリティは、独立に、あるいはビデオに存在する視覚情報(RGBモダリティ)と組み合わせて、このタスクにしばしば使用される。 しかし、ポーズ、視覚情報、テキスト属性の組み合わせはまだ検討されていないが、テキスト属性とポーズ属性は多数のコンピュータビジョンタスクにおいて有効であることが証明されている。 本稿では,varのための最初のポーズ拡張視覚言語モデル(vlm)について述べる。 特に本手法は,ビデオデータの事前学習がなくても,2つの一般的なヒトビデオ行動認識ベンチマークデータセット ucf-101 と hmdb-51 において,92.81% と 73.02% の精度を実現し,速度論的事前学習後の精度は 96.11% と 75.75% である。

Video Action Recognition (VAR) is a challenging task due to its inherent complexities. Though different approaches have been explored in the literature, designing a unified framework to recognize a large number of human actions is still a challenging problem. Recently, Multi-Modal Learning (MML) has demonstrated promising results in this domain. In literature, 2D skeleton or pose modality has often been used for this task, either independently or in conjunction with the visual information (RGB modality) present in videos. However, the combination of pose, visual information, and text attributes has not been explored yet, though text and pose attributes independently have been proven to be effective in numerous computer vision tasks. In this paper, we present the first pose augmented Vision-language model (VLM) for VAR. Notably, our scheme achieves an accuracy of 92.81% and 73.02% on two popular human video action recognition benchmark datasets, UCF-101 and HMDB-51, respectively, even without any video data pre-training, and an accuracy of 96.11% and 75.75% after kinetics pre-training.
翻訳日:2023-08-09 14:55:23 公開日:2023-08-07
# クラウドモニタリングシステムの進歩:システム的アプローチと自動化アルゴリズムの包括的分析:最先端技術

Advancements In Crowd-Monitoring System: A Comprehensive Analysis of Systematic Approaches and Automation Algorithms: State-of-The-Art ( http://arxiv.org/abs/2308.03907v1 )

ライセンス: Link先を確認
Mohammed Ameen, Richard Stone(参考訳) 公衆安全を取り巻く不安が高まり、世界中の政府や安全保障機関の注目を集めている。 これらのエンティティは、これらの懸念に対処するための信頼性とセキュアなクラウド監視システムの必要性をますます認識している。 ヒトの集まりを効果的に管理するには、予期せぬ出来事や合併症を防ぐための積極的な対策が必要である。 群衆監視システムに焦点をあてた研究の欠如と、そのセキュリティへの影響は、人類の会衆を効果的に保護するための潜在的アプローチを探求する、急成長する調査分野を生み出した。 群衆監視システムは、ビジョンベースおよび非ビジョンベース技術を含む、分岐したアプローチに依存している。 この2つの方法論の詳細な分析を本研究で実施する。 これらのアプローチの有効性は、それらがデプロイされる特定の環境と時間的コンテキストに起因している。 本稿では,近年の人工知能(AI)アルゴリズムとモデルの自動システムへの組み込みを詳細に分析し,その現代的応用と様々な文脈における有効性を強調した。

Growing apprehensions surrounding public safety have captured the attention of numerous governments and security agencies across the globe. These entities are increasingly acknowledging the imperative need for reliable and secure crowd-monitoring systems to address these concerns. Effectively managing human gatherings necessitates proactive measures to prevent unforeseen events or complications, ensuring a safe and well-coordinated environment. The scarcity of research focusing on crowd monitoring systems and their security implications has given rise to a burgeoning area of investigation, exploring potential approaches to safeguard human congregations effectively. Crowd monitoring systems depend on a bifurcated approach, encompassing vision-based and non-vision-based technologies. An in-depth analysis of these two methodologies will be conducted in this research. The efficacy of these approaches is contingent upon the specific environment and temporal context in which they are deployed, as they each offer distinct advantages. This paper endeavors to present an in-depth analysis of the recent incorporation of artificial intelligence (AI) algorithms and models into automated systems, emphasizing their contemporary applications and effectiveness in various contexts.
翻訳日:2023-08-09 14:55:01 公開日:2023-08-07
# TIJO:マルチモーダルバックドアモデルに対する共同最適化によるトリガーインバージョン

TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models ( http://arxiv.org/abs/2308.03906v1 )

ライセンス: Link先を確認
Indranil Sur, Karan Sikka, Matthew Walmer, Kaushik Koneripalli, Anirban Roy, Xiao Lin, Ajay Divakaran, Susmit Jha(参考訳) マルチモーダル・バックドア・ディフェンス技術TIJO(Trigger Inversion using Joint Optimization)を提案する。 最近のarXiv:2112.07668では、視覚質問応答タスクのためのマルチモーダルモデルに対するバックドア攻撃が成功した。 デュアルキーバックドアトリガーは2つのモダリティ(画像とテキスト)に分割され、バックドアが起動されるのは、トリガーが両方のモダリティに存在する場合にのみである。 画像とテキストの両方でトリガーをリバースエンジニアリングする統合最適化により,デュアルキー攻撃から防御するtijoを提案する。 この共同最適化は、オフラインの特徴抽出器からなる視覚パイプラインの非連結性のため、マルチモーダルモデルでは困難であり、その出力は融合モジュールを用いてテキストと融合される。 TIJOにおける共同最適化を可能にする重要な洞察は、トリガーインバージョンは、画素空間とは対照的にオブジェクト検出ボックスの特徴空間で実行する必要があることである。 提案手法の有効性をTrojVQAベンチマークで示し,マルチモーダルなデュアルキーバックドア上でのAUCの0.6から0.92から最先端のユニモーダル法を改善する。 さらに, 本手法は, バックドアの単方向ベースラインを改良する。 そこで,我々はアブレーション研究と定性的な結果を用いて,トリガー反転時の視覚特徴に逆特徴トリガーを重ね合わせることの重要性について考察する。 TIJOのプロトタイプ実装はhttps://github.com/SRI-CSL/TIJOで公開されている。

We present a Multimodal Backdoor Defense technique TIJO (Trigger Inversion using Joint Optimization). Recent work arXiv:2112.07668 has demonstrated successful backdoor attacks on multimodal models for the Visual Question Answering task. Their dual-key backdoor trigger is split across two modalities (image and text), such that the backdoor is activated if and only if the trigger is present in both modalities. We propose TIJO that defends against dual-key attacks through a joint optimization that reverse-engineers the trigger in both the image and text modalities. This joint optimization is challenging in multimodal models due to the disconnected nature of the visual pipeline which consists of an offline feature extractor, whose output is then fused with the text using a fusion module. The key insight enabling the joint optimization in TIJO is that the trigger inversion needs to be carried out in the object detection box feature space as opposed to the pixel space. We demonstrate the effectiveness of our method on the TrojVQA benchmark, where TIJO improves upon the state-of-the-art unimodal methods from an AUC of 0.6 to 0.92 on multimodal dual-key backdoors. Furthermore, our method also improves upon the unimodal baselines on unimodal backdoors. We present ablation studies and qualitative results to provide insights into our algorithm such as the critical importance of overlaying the inverted feature triggers on all visual features during trigger inversion. The prototype implementation of TIJO is available at https://github.com/SRI-CSL/TIJO.
翻訳日:2023-08-09 14:54:44 公開日:2023-08-07
# デバイス上でのインテリジェントアシスタント言語理解

Intelligent Assistant Language Understanding On Device ( http://arxiv.org/abs/2308.03905v1 )

ライセンス: Link先を確認
Cecilia Aas, Hisham Abdelsalam, Irina Belousova, Shruti Bhargava, Jianpeng Cheng, Robert Daland, Joris Driesen, Federico Flego, Tristan Guigue, Anders Johannsen, Partha Lal, Jiarui Lu, Joel Ruben Antony Moniz, Nathan Perkins, Dhivya Piraviperumal, Stephen Pulman, Diarmuid \'O S\'eaghdha, David Q. Sun, John Torr, Marco Del Vecchio, Jay Wacker, Jason D. Williams, Hong Yu(参考訳) 最近、電話やその他のパーソナルデバイス上でパーソナルデジタルアシスタントを実行することが可能になった。 本稿では,デバイス上で動作する自然言語理解システムの設計について述べる。 サーバベースのアシスタントと比較して、このシステムはよりプライベートで、より信頼性が高く、より速く、より表現力があり、より正確です。 アーキテクチャとテクノロジに関する重要な選択は何かを説明します。 例えば、ダイアログシステムにおけるいくつかのアプローチは、デプロイメント設定で時間とともにメンテナンスするのが困難である。 実践経験から学びを共有することが,研究コミュニティの今後の活動に役立てられることを期待している。

It has recently become feasible to run personal digital assistants on phones and other personal devices. In this paper we describe a design for a natural language understanding system that runs on device. In comparison to a server-based assistant, this system is more private, more reliable, faster, more expressive, and more accurate. We describe what led to key choices about architecture and technologies. For example, some approaches in the dialog systems literature are difficult to maintain over time in a deployment setting. We hope that sharing learnings from our practical experiences may help inform future work in the research community.
翻訳日:2023-08-09 14:54:18 公開日:2023-08-07
# 重み付けのない真の不変学習について

On genuine invariance learning without weight-tying ( http://arxiv.org/abs/2308.03904v1 )

ライセンス: Link先を確認
Artem Moskalev and Anna Sepliarskaia and Erik J. Bekkers and Arnold Smeulders(参考訳) 本稿では,ニューラルネットワークが学習する不変量の性質と制約を,不変量タイリングによって達成される真の不変量と比較する。 そこで我々は,群の理論的視点を採用し,重み付け制約を伴わずにニューラルネットワークにおける不変学習を分析した。 ネットワークがグループ軌道上のサンプルを正しく分類することを学習したとしても、そのようなモデルの根底にある決定は真の不変性に達しないことを示す。 代わりに、学習した不変性は入力データに強く条件付けされ、入力分布がシフトすると信頼性が低下する。 次に、トレーニング時のモデルの不変性を規則化し、真の不変性に向けて不変学習を導く方法を示す。 この目的のために, 学習不変性を定量化するいくつかの指標を提案する。 (i)予測分布の不変性 (ii)ロジット不変性、及び (iii)塩分不分散相似性。 分散誤差正則化で学習した不変性は, 重み付きモデルの真の不分散を密に再構成し, 厳しい入力分布シフト下においても確実に保持できることを示した。 学習した不変性のより密な分析は、ネットワークが特定の変換群への不変性を選択するとき、入力摂動に対する感度を低下させることによってスペクトル減衰現象も明らかにする。

In this paper, we investigate properties and limitations of invariance learned by neural networks from the data compared to the genuine invariance achieved through invariant weight-tying. To do so, we adopt a group theoretical perspective and analyze invariance learning in neural networks without weight-tying constraints. We demonstrate that even when a network learns to correctly classify samples on a group orbit, the underlying decision-making in such a model does not attain genuine invariance. Instead, learned invariance is strongly conditioned on the input data, rendering it unreliable if the input distribution shifts. We next demonstrate how to guide invariance learning toward genuine invariance by regularizing the invariance of a model at the training. To this end, we propose several metrics to quantify learned invariance: (i) predictive distribution invariance, (ii) logit invariance, and (iii) saliency invariance similarity. We show that the invariance learned with the invariance error regularization closely reassembles the genuine invariance of weight-tying models and reliably holds even under a severe input distribution shift. Closer analysis of the learned invariance also reveals the spectral decay phenomenon, when a network chooses to achieve the invariance to a specific transformation group by reducing the sensitivity to any input perturbation.
翻訳日:2023-08-09 14:54:10 公開日:2023-08-07
# FLIPS:知的参加者選択によるフェデレーション学習

FLIPS: Federated Learning using Intelligent Participant Selection ( http://arxiv.org/abs/2308.03901v1 )

ライセンス: Link先を確認
Rahul Atul Bhope, K. R. Jayaram, Nalini Venkatasubramanian, Ashish Verma, Gegi Thomas(参考訳) 本稿では,FLIPS(Federated Learning, FL)訓練作業におけるデータ管理と不均一性の関与を行うミドルウェアシステム)の設計と実装について述べる。 特に,連合学習における参加者選択におけるラベル分布クラスタリングの効果について検討する。 FLIPSクラスタは、データのラベル分布に基づいてFLトレーニングジョブに関与し、FLトレーニング中に、選択した参加者に各クラスタが公平に表現されることを保証する。 FLIPSは、FedAvg、FedProx、FedDyn、FedOpt、FedYogiなど、最も一般的なFLアルゴリズムをサポートすることができる。 プラットフォームの不均一性と動的リソース可用性を管理するため、FLIPSは、分散されたスマートなコミュニティアプリケーションにおいて、変更能力を扱うためのストラグラー管理機構を組み込んでいる。 ラベル配信、クラスタリング、参加者選択のプライバシは、信頼できる実行環境(TEE)を通じて保証される。 2つの実世界のデータセット、2つの異なる非iid分布と3つの一般的なflアルゴリズム(fedyogi、feedprox、fedavg)を用いた、oortとgradient clusteringの2つの"スマート"選択メカニズムを比較した。 FLIPSはコンバージェンスを大幅に改善し,20~60%の通信コストで17~20%の精度を実現し,トラグラー参加者の存在下での持続性を示した。

This paper presents the design and implementation of FLIPS, a middleware system to manage data and participant heterogeneity in federated learning (FL) training workloads. In particular, we examine the benefits of label distribution clustering on participant selection in federated learning. FLIPS clusters parties involved in an FL training job based on the label distribution of their data apriori, and during FL training, ensures that each cluster is equitably represented in the participants selected. FLIPS can support the most common FL algorithms, including FedAvg, FedProx, FedDyn, FedOpt and FedYogi. To manage platform heterogeneity and dynamic resource availability, FLIPS incorporates a straggler management mechanism to handle changing capacities in distributed, smart community applications. Privacy of label distributions, clustering and participant selection is ensured through a trusted execution environment (TEE). Our comprehensive empirical evaluation compares FLIPS with random participant selection, as well as two other "smart" selection mechanisms - Oort and gradient clustering using two real-world datasets, two different non-IID distributions and three common FL algorithms (FedYogi, FedProx and FedAvg). We demonstrate that FLIPS significantly improves convergence, achieving higher accuracy by 17 - 20 % with 20 - 60 % lower communication costs, and these benefits endure in the presence of straggler participants.
翻訳日:2023-08-09 14:53:49 公開日:2023-08-07
# ランク最小化によるニューラルインプットの確率近似

Developability Approximation for Neural Implicits through Rank Minimization ( http://arxiv.org/abs/2308.03900v1 )

ライセンス: Link先を確認
Pratheba Selvaraju(参考訳) 展開性とは、二次元平面から断裂やせん断をすることなく表面を作る過程を指す。 製造業界で実用化されている。 現像可能な3次元曲面の本質的な特徴は、その 0 ガウス曲率であり、つまり、主曲率の 1 つまたは両方が 0 であることを意味する。 本稿では,神経暗示面から近似発達可能な表面を再構成する手法を提案する。 この手法の中心的な考え方は、ニューラル暗黙の2階微分を演算する正規化項を組み込むことであり、ガウス曲率を効果的に促進する。 入射曲面は無限分解によるより滑らかな変形の利点を提供し、離散表現を用いた最先端手法の高次多角的制約を克服する。 我々は表面曲率の性質からインスピレーションを得て,圧縮センシングによるランク最小化手法を採用した。 本手法の一般化性を検証するため, 開発可能面と開発不可能面の両方の実験結果を得た。

Developability refers to the process of creating a surface without any tearing or shearing from a two-dimensional plane. It finds practical applications in the fabrication industry. An essential characteristic of a developable 3D surface is its zero Gaussian curvature, which means that either one or both of the principal curvatures are zero. This paper introduces a method for reconstructing an approximate developable surface from a neural implicit surface. The central idea of our method involves incorporating a regularization term that operates on the second-order derivatives of the neural implicits, effectively promoting zero Gaussian curvature. Implicit surfaces offer the advantage of smoother deformation with infinite resolution, overcoming the high polygonal constraints of state-of-the-art methods using discrete representations. We draw inspiration from the properties of surface curvature and employ rank minimization techniques derived from compressed sensing. Experimental results on both developable and non-developable surfaces, including those affected by noise, validate the generalizability of our method.
翻訳日:2023-08-09 14:53:07 公開日:2023-08-07
# PMU測定に基づく深部伝達学習による電力系統の短期電圧安定性評価

PMU measurements based short-term voltage stability assessment of power systems via deep transfer learning ( http://arxiv.org/abs/2308.03953v1 )

ライセンス: Link先を確認
Yang Li, Shitu Zhang, Yuanzheng Li, Jiting Cao, Shuyue Jia(参考訳) ディープラーニングは、電力系統における短期電圧安定評価(stvsa)の課題に対処する効果的なソリューションとして登場した。 しかし、既存のディープラーニングベースのstvsaアプローチでは、トポロジカルな変更への適応、サンプルラベリング、小さなデータセットの処理に制限がある。 これらの課題を克服するために,深層移動学習を用いた新しいファサー計測ユニット (PMU) を用いたSTVSA法を提案する。 この手法はPMUが取得したリアルタイムな動的情報を利用して初期データセットを生成する。 サンプルラベリングにはtemporal ensemblingを使用し、データ拡張には最小二乗生成逆ネットワーク(lsgan)を使用し、小規模データセットでの効果的なディープラーニングを可能にする。 さらに, 異なる断層間の接続を探索することにより, トポロジカルな変化への適応性を高める。 IEEE 39-bus 試験システムの実験結果から,提案手法は移動学習によるモデル評価精度を約20%向上し,トポロジ的変化への強い適応性を示した。 トランスフォーマーモデルの自己認識機構を活用することで、浅層学習法や他のディープラーニングベースのアプローチよりも大きな利点を提供する。

Deep learning has emerged as an effective solution for addressing the challenges of short-term voltage stability assessment (STVSA) in power systems. However, existing deep learning-based STVSA approaches face limitations in adapting to topological changes, sample labeling, and handling small datasets. To overcome these challenges, this paper proposes a novel phasor measurement unit (PMU) measurements-based STVSA method by using deep transfer learning. The method leverages the real-time dynamic information captured by PMUs to create an initial dataset. It employs temporal ensembling for sample labeling and utilizes least squares generative adversarial networks (LSGAN) for data augmentation, enabling effective deep learning on small-scale datasets. Additionally, the method enhances adaptability to topological changes by exploring connections between different faults. Experimental results on the IEEE 39-bus test system demonstrate that the proposed method improves model evaluation accuracy by approximately 20% through transfer learning, exhibiting strong adaptability to topological changes. Leveraging the self-attention mechanism of the Transformer model, this approach offers significant advantages over shallow learning methods and other deep learning-based approaches.
翻訳日:2023-08-09 14:47:14 公開日:2023-08-07
# 相互情報推定と最大化によるゼロショットスケルトンに基づく行動認識

Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization ( http://arxiv.org/abs/2308.03950v1 )

ライセンス: Link先を確認
Yujie Zhou, Wenwen Qiang, Anyi Rao, Ning Lin, Bing Su, Jiaqi Wang(参考訳) ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。 鍵となるのは、視覚空間とセマンティック空間の間の接続を構築することである。 これまでの研究は主に、配列を特異な特徴ベクトルに符号化することに集中し、その特徴を埋め込み空間内の同じアンカー点にマッピングしてきた。 彼らのパフォーマンスは 1)大域的な視覚的/意味的分布アライメントの無知は、2つの空間間の真の相互依存性を捉える限界をもたらす。 2)行動手がかりの豊富なフレームワイド特徴が単一特徴ベクトルに直接プールされるため,時間情報の無視 相互情報(MI)推定と最大化によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。 具体的には 1) 分布アライメントのための視覚空間と意味空間の間のMIを最大化する。 2) 時間的情報を利用してMIを推定し, フレーム数が増えるにつれてMIの増大を促す。 3つの大規模スケルトン行動データセットに関する広範囲な実験を行い,本手法の有効性を確認した。 コード: https://github.com/yujieouo/smie。

Zero-shot skeleton-based action recognition aims to recognize actions of unseen categories after training on data of seen categories. The key is to build the connection between visual and semantic space from seen to unseen classes. Previous studies have primarily focused on encoding sequences into a singular feature vector, with subsequent mapping the features to an identical anchor point within the embedded space. Their performance is hindered by 1) the ignorance of the global visual/semantic distribution alignment, which results in a limitation to capture the true interdependence between the two spaces. 2) the negligence of temporal information since the frame-wise features with rich action clues are directly pooled into a single feature vector. We propose a new zero-shot skeleton-based action recognition method via mutual information (MI) estimation and maximization. Specifically, 1) we maximize the MI between visual and semantic space for distribution alignment; 2) we leverage the temporal information for estimating the MI by encouraging MI to increase as more frames are observed. Extensive experiments on three large-scale skeleton action datasets confirm the effectiveness of our method. Code: https://github.com/YujieOuO/SMIE.
翻訳日:2023-08-09 14:46:52 公開日:2023-08-07
# 量子と量子にインスパイアされた立体K近傍クラスタリング

Quantum and Quantum-Inspired Stereographic K Nearest-Neighbour Clustering ( http://arxiv.org/abs/2308.03949v1 )

ライセンス: Link先を確認
Alonso Viladomat Jasso, Ark Modi, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 近距離クラスタリングは、古典的な光ファイバー通信システムにおける信号の復号化に自然に応用できる、シンプルで強力な機械学習アルゴリズムである。 量子neighbourクラスタリングは、従来のアルゴリズムよりもスピードアップを約束するが、現在の古典的なデータの埋め込みは、不正確性、耐え難いスローダウン、望ましくない効果をもたらす。 本研究は,k 近距離クラスタリングにおける量子距離推定のための符号化としてブロッホ球面への一般化された逆ステレオ射影を提案し,類似した古典的手法を開発し,その精度,実行時間,収束をベンチマークする。 提案アルゴリズムは,アルゴリズムの精度と収束率の両方を改善した。 また,64Quadrature Amplitude Modulationデータを収集し,光ファイバーの実験的構成について述べる。 これはアルゴリズムがベンチマークされるデータセットである。 実験を通じて,実世界の光ファイバーデータのクラスタリングに「量子インスパイアされた」ステレオグラフィックkを用いた多数の利点と実用性を示す。 この研究はまた、逆立体射影の半径を最適化することでより大きな利点を得られることを証明している。

Nearest-neighbour clustering is a simple yet powerful machine learning algorithm that finds natural application in the decoding of signals in classical optical fibre communication systems. Quantum nearest-neighbour clustering promises a speed-up over the classical algorithms, but the current embedding of classical data introduces inaccuracies, insurmountable slowdowns, or undesired effects. This work proposes the generalised inverse stereographic projection into the Bloch sphere as an encoding for quantum distance estimation in k nearest-neighbour clustering, develops an analogous classical counterpart, and benchmarks its accuracy, runtime and convergence. Our proposed algorithm provides an improvement in both the accuracy and the convergence rate of the algorithm. We detail an experimental optic fibre setup as well, from which we collect 64-Quadrature Amplitude Modulation data. This is the dataset upon which the algorithms are benchmarked. Through experiments, we demonstrate the numerous benefits and practicality of using the `quantum-inspired' stereographic k nearest-neighbour for clustering real-world optical-fibre data. This work also proves that one can achieve a greater advantage by optimising the radius of the inverse stereographic projection.
翻訳日:2023-08-09 14:46:36 公開日:2023-08-07
# 変圧器を用いた大規模ヘテロジニアス・フェデレーション・ラーニングの展開

The Prospect of Enhancing Large-Scale Heterogeneous Federated Learning with Transformers ( http://arxiv.org/abs/2308.03945v1 )

ライセンス: Link先を確認
Yulan Gao, Hao Sun, Zengxiang Li, Han Yu(参考訳) フェデレーション学習(FL)は、分散データ所有者間でAIモデルの協調トレーニングを可能にすることで、データプライバシの懸念に対処する。 FLの広範な採用は、データ不均一性と大量のデータ所有者が関与する基本的な課題に直面します。 本稿では, 変圧器を用いたflモデルの一般化とパーソナライゼーションを実現するための展望について検討する。 FLとTransformer、ResNet、パーソナライズされたResNetベースのFLアプローチを様々なシナリオで比較実験する。 これらの実験では、大規模なヘテロジニアスFLタスクにおいて、トランスフォーマーがディープニューラルネットワークよりも有利であることを示すために、データ所有者の数が異なる。 さらに,cka(centered kernel alignment)表現の異なるレイヤとflモデル間の類似性を比較することにより,トランスフォーマティブの性能を解析し,その実現可能性の背景にある理由について考察する。

Federated learning (FL) addresses data privacy concerns by enabling collaborative training of AI models across distributed data owners. Wide adoption of FL faces the fundamental challenges of data heterogeneity and the large scale of data owners involved. In this paper, we investigate the prospect of Transformer-based FL models for achieving generalization and personalization in this setting. We conduct extensive comparative experiments involving FL with Transformers, ResNet, and personalized ResNet-based FL approaches under various scenarios. These experiments consider varying numbers of data owners to demonstrate Transformers' advantages over deep neural networks in large-scale heterogeneous FL tasks. In addition, we analyze the superior performance of Transformers by comparing the Centered Kernel Alignment (CKA) representation similarity across different layers and FL models to gain insight into the reasons behind their promising capabilities.
翻訳日:2023-08-09 14:46:15 公開日:2023-08-07
# GraPhSyM:グラフ物理合成モデル

GraPhSyM: Graph Physical Synthesis Model ( http://arxiv.org/abs/2308.03944v1 )

ライセンス: Link先を確認
Ahmed Agiza, Rajarshi Roy, Teodor Dumitru Ene, Saad Godil, Sherief Reda, Bryan Catanzaro(参考訳) 本研究では,グラフ注意ネットワーク(GATv2)モデルであるGraPhSyMを紹介する。 トレーニングが完了すると、GraPhSyMは、論理合成のような初期のEDAステージに対する最終的な設計メトリクスを、遅い物理合成フローを走らせることなく正確に可視化し、ステージ間のグローバルな共最適化を可能にする。 さらに、GraPhSymが提供する迅速で正確なフィードバックは、機械学習ベースのEDA最適化フレームワークに役立ちます。 グラフとして表される回路のゲートレベルネットリストが与えられたとき、GraPhSyMはグラフ構造、接続性、電気的特性を利用してバッファ挿入やゲートサイズなどの物理合成変換の影響を予測する。 攻撃的な遅延ターゲットで合成された6000のプレフィックス加算器のデータセットでトレーニングすると、GraPhSyMは合成後の遅延(98.3%)と、高速な0.22s推論時間を持つ未確認加算器の面積(96.1%)を正確に予測することができる。 さらに,GraPhSyMの合成性について,一定の遅延目標に対してトレーニングしたモデルを用いて,様々な遅延目標の合成後の指標を正確に予測する。 最後に,GraPhSyMモデルをトレーニング対象の加算器と異なる回路で評価した場合に,有望な一般化能力を報告した。 結果は、GraPhSyMが高度な最適化技術のための強力なツールとして機能し、EDA機械学習フレームワークのオラクルとして機能する可能性を示している。

In this work, we introduce GraPhSyM, a Graph Attention Network (GATv2) model for fast and accurate estimation of post-physical synthesis circuit delay and area metrics from pre-physical synthesis circuit netlists. Once trained, GraPhSyM provides accurate visibility of final design metrics to early EDA stages, such as logic synthesis, without running the slow physical synthesis flow, enabling global co-optimization across stages. Additionally, the swift and precise feedback provided by GraPhSym is instrumental for machine-learning-based EDA optimization frameworks. Given a gate-level netlist of a circuit represented as a graph, GraPhSyM utilizes graph structure, connectivity, and electrical property features to predict the impact of physical synthesis transformations such as buffer insertion and gate sizing. When trained on a dataset of 6000 prefix adder designs synthesized at an aggressive delay target, GraPhSyM can accurately predict the post-synthesis delay (98.3%) and area (96.1%) metrics of unseen adders with a fast 0.22s inference time. Furthermore, we illustrate the compositionality of GraPhSyM by employing the model trained on a fixed delay target to accurately anticipate post-synthesis metrics at a variety of unseen delay targets. Lastly, we report promising generalization capabilities of the GraPhSyM model when it is evaluated on circuits different from the adders it was exclusively trained on. The results show the potential for GraPhSyM to serve as a powerful tool for advanced optimization techniques and as an oracle for EDA machine learning frameworks.
翻訳日:2023-08-09 14:45:56 公開日:2023-08-07
# 効率的な自己白バランス補正のための決定論的神経照明マッピング

Deterministic Neural Illumination Mapping for Efficient Auto-White Balance Correction ( http://arxiv.org/abs/2308.03939v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Do\u{g}a Y{\i}lmaz, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) オートホワイトバランス(オートホワイトバランス、Auto-white Balance、AWB)は、様々な照明シナリオにおいて正確で一貫した色補正のための画像信号処理装置において重要な操作である。 本稿では,現在最先端の高解像度画像に対して,少なくとも35倍高速な処理を実現する,新しい,効率的なAWB補正手法を提案する。 本手法は,定性的な色調変換に着想を得て,学習可能な投影行列を標準照明形式とAWB補正出力の両方に活用する。 これは高分解能画像と対応する潜在表現をマッピングモジュールに供給し、正準形式を導出し、さらにピクセル値を修正されたバージョンにマッピングする別のマッピングモジュールを含む。 この戦略は解像度に依存しないように設計されており、事前訓練されたAWBネットワークをバックボーンとしてシームレスに統合することができる。 実験の結果,本手法の有効性を確認し,性能改善と時間複雑性の低減が得られた。 本手法は,デジタル画像のリアルタイムかつ高品質な色補正を約束する,効率的な深層学習に基づくAWB補正ソリューションを提供する。 ソースコードはhttps://github.com/birdortyedi/DeNIM/で入手できる。

Auto-white balance (AWB) correction is a critical operation in image signal processors for accurate and consistent color correction across various illumination scenarios. This paper presents a novel and efficient AWB correction method that achieves at least 35 times faster processing with equivalent or superior performance on high-resolution images for the current state-of-the-art methods. Inspired by deterministic color style transfer, our approach introduces deterministic illumination color mapping, leveraging learnable projection matrices for both canonical illumination form and AWB-corrected output. It involves feeding high-resolution images and corresponding latent representations into a mapping module to derive a canonical form, followed by another mapping module that maps the pixel values to those for the corrected version. This strategy is designed as resolution-agnostic and also enables seamless integration of any pre-trained AWB network as the backbone. Experimental results confirm the effectiveness of our approach, revealing significant performance improvements and reduced time complexity compared to state-of-the-art methods. Our method provides an efficient deep learning-based AWB correction solution, promising real-time, high-quality color correction for digital imaging applications. Source code is available at https://github.com/birdortyedi/DeNIM/
翻訳日:2023-08-09 14:45:30 公開日:2023-08-07
# ALFA -- 病院全体にわたる病理画像分類の一般化を促進するためのあらゆる特徴抽象化の活用

ALFA -- Leveraging All Levels of Feature Abstraction for Enhancing the Generalization of Histopathology Image Classification Across Unseen Hospitals ( http://arxiv.org/abs/2308.03936v1 )

ライセンス: Link先を確認
Milad Sikaroudi, Shahryar Rahnamayan, H.R. Tizhoosh(参考訳) 画像分類の汎用性の向上を目標として,機能抽象化のあらゆるレベルを生かした徹底的な手法を提案する。 本手法は,前文課題として機能する病理組織学的シナリオにおける共通分布シフトを伴う拡張型自己スーパービジョンを組み込んだものである。 これにより、トレーニングラベルに頼ることなく、トレーニングイメージから不変機能を導出し、異なる抽象化レベルをカバーできる。 その後の抽象化レベルに移行し、さまざまな研修病院における不変機能のさらなる抽出を容易にするために、ドメインアライメントモジュールを使用する。 参加病院の特徴を高度に表現するために、エンコーダは診断ラベルとは独立して病院ラベルを分類するよう訓練される。 それぞれのエンコーダの機能はその後、冗長性を最小化し、特徴を分離するために切り離される。 この表現は、広い範囲のセマンティック情報にまたがるものであり、異なる分布から見えない画像に対するロバスト性の向上を示すモデルの開発を可能にする。 PACSデータセット(ドメイン一般化ベンチマーク)、MHISTデータセットに病理組織特異的ジッタを適用した合成データセット(分布シフトの異なる異なるドメインを定義する)、およびTCGAの4つの画像リポジトリから得られた腎細胞癌データセットから得られた実験結果から、提案モデルが様々な画像粒度の管理に適していることが示された。 そこで,新たな病院画像に直面すると,一般化性が向上した。

We propose an exhaustive methodology that leverages all levels of feature abstraction, targeting an enhancement in the generalizability of image classification to unobserved hospitals. Our approach incorporates augmentation-based self-supervision with common distribution shifts in histopathology scenarios serving as the pretext task. This enables us to derive invariant features from training images without relying on training labels, thereby covering different abstraction levels. Moving onto the subsequent abstraction level, we employ a domain alignment module to facilitate further extraction of invariant features across varying training hospitals. To represent the highly specific features of participating hospitals, an encoder is trained to classify hospital labels, independent of their diagnostic labels. The features from each of these encoders are subsequently disentangled to minimize redundancy and segregate the features. This representation, which spans a broad spectrum of semantic information, enables the development of a model demonstrating increased robustness to unseen images from disparate distributions. Experimental results from the PACS dataset (a domain generalization benchmark), a synthetic dataset created by applying histopathology-specific jitters to the MHIST dataset (defining different domains with varied distribution shifts), and a Renal Cell Carcinoma dataset derived from four image repositories from TCGA, collectively indicate that our proposed model is adept at managing varying levels of image granularity. Thus, it shows improved generalizability when faced with new, out-of-distribution hospital images.
翻訳日:2023-08-09 14:45:10 公開日:2023-08-07
# chatgptバイオメディカル生成テキストの信頼の確立 : 疾患-シンプトムリンクを検証するオントロジに基づく知識グラフ

Establishing Trust in ChatGPT BioMedical Generated Text: An Ontology-Based Knowledge Graph to Validate Disease-Symptom Links ( http://arxiv.org/abs/2308.03929v1 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed and Alessandro Crimi and Magdalena M. Misiak and Byung Suk Lee(参考訳) 方法: 革新的アプローチにより, 真正な医学文献とAI生成コンテンツからオントロジーに基づく知識グラフを構築する。 我々の目標は、事実情報を検証されていないデータと区別することです。 そこで我々は,「人体疾患と症状」クエリを用いて生医学文献から収集した2つのデータセットと,ChatGPTによる記事のシミュレーションを行った。 これらのデータセット(PubMedとChatGPT)を用いて、それぞれ10セットの抽象化をキュレートし、ランダムに選択した。 本手法は, 疾患オントロジー (DOID) と症状オントロジー (SYMP) を利用して知識グラフを構築することに焦点を当てる。 ファクトチェックアルゴリズムとネットワーク集中度指標を用いて,GPT病症状リンク分析を行い,ノイズ,仮説,有意な発見の事実知識の精度を定量化した。 結果:ChatGPT知識グラフとPubMed知識グラフを比較した結果,興味深い観察結果が得られた。 PubMedの知識グラフは病気症状の用語が豊富に存在するが、いくつかのChatGPTグラフが接続数でそれらを上回っているのは驚きである。 さらに、いくつかのGPTグラフは、特に重なり合うノードに対して、集中度スコアの優位性を示している。 この顕著なコントラストは、AI生成コンテンツから得られる知識の未発見の可能性を示し、検証を待っている。 すべてのグラフのうち、任意の2つのグラフ間の事実的リンク比はピークの60%に達した。 結論: 私たちの調査から得られた興味深い洞察は、ChatGPTデータセットから生成された知識グラフにおける用語間のリンク数が、PubMedのそれを上回ることだった。 この早期発見は、リンクが保持する可能性のある新しい知識を明らかにするためにユニバーサルネットワークメトリクスを使用したさらなる調査を促した。

Methods: Through an innovative approach, we construct ontology-based knowledge graphs from authentic medical literature and AI-generated content. Our goal is to distinguish factual information from unverified data. We compiled two datasets: one from biomedical literature using a "human disease and symptoms" query, and another generated by ChatGPT, simulating articles. With these datasets (PubMed and ChatGPT), we curated 10 sets of 250 abstracts each, selected randomly with a specific seed. Our method focuses on utilizing disease ontology (DOID) and symptom ontology (SYMP) to build knowledge graphs, robust mathematical models that facilitate unbiased comparisons. By employing our fact-checking algorithms and network centrality metrics, we conducted GPT disease-symptoms link analysis to quantify the accuracy of factual knowledge amid noise, hypotheses, and significant findings. Results: The findings obtained from the comparison of diverse ChatGPT knowledge graphs with their PubMed counterparts revealed some interesting observations. While PubMed knowledge graphs exhibit a wealth of disease-symptom terms, it is surprising to observe that some ChatGPT graphs surpass them in the number of connections. Furthermore, some GPT graphs are demonstrating supremacy of the centrality scores, especially for the overlapping nodes. This striking contrast indicates the untapped potential of knowledge that can be derived from AI-generated content, awaiting verification. Out of all the graphs, the factual link ratio between any two graphs reached its peak at 60%. Conclusions: An intriguing insight from our findings was the striking number of links among terms in the knowledge graph generated from ChatGPT datasets, surpassing some of those in its PubMed counterpart. This early discovery has prompted further investigation using universal network metrics to unveil the new knowledge the links may hold.
翻訳日:2023-08-09 14:44:45 公開日:2023-08-07
# モノクローナル抗体産生におけるスイッチング操作の最適化--経済mpcと強化学習

Optimizing the switching operation in monoclonal antibody production: Economic MPC and reinforcement learning ( http://arxiv.org/abs/2308.03928v1 )

ライセンス: Link先を確認
Sandra A. Obiri and Song Bo and Bernard T. Agyeman and Benjamin Decardi-Nelson and Jinfeng Liu (University of Alberta)(参考訳) モノクローナル抗体(mAbs)は、医学において欠かせない存在であり、現在、生物医薬品開発の最前線にある。 しかし、市場需要の増加とmAb臨床治療に必要なかなりの量の服用は、その大規模生産において大きな進歩を必要としている。 工業用mAbの製造プロセスのほとんどはバッチ処理に依存しており、結果として大幅なダウンタイムが発生する。 完全に継続的かつ統合された製造プロセスへの移行は、中間製品の貯蔵に伴う余分な費用を省きながら、製品収量と品質を高める可能性を秘めている。 統合された連続mAb生産プロセスは上流と下流のプロセスに分けられる。 統合プロセスの連続性を保証する重要な側面の1つは、典型的にはフェールバッチ方式で操作されるクロマトグラフィーカラムであるキャプチャカラムの切り替えである。 スイッチング動作の離散性のため、経済的なMPC(EMPC)のような高度なプロセス制御アルゴリズムの実装は困難である。 これは、整数非線形プログラム(INLP)をサンプリング時間毎にオンラインに解決する必要があるためである。 本稿では,Sigmoid function approximation approach と rectified linear unit (ReLU) approximation approach という2つの計算効率のよいEMPC実装手法を提案する。 深層強化学習(drl)の応用についても検討している。 これら3つの方法は、1%の製品ブレークスルールールに基づいて最適化を含まない従来のスイッチングアプローチと比較される。

Monoclonal antibodies (mAbs) have emerged as indispensable assets in medicine, and are currently at the forefront of biopharmaceutical product development. However, the growing market demand and the substantial doses required for mAb clinical treatments necessitate significant progress in its large-scale production. Most of the processes for industrial mAb production rely on batch operations, which result in significant downtime. The shift towards a fully continuous and integrated manufacturing process holds the potential to boost product yield and quality, while eliminating the extra expenses associated with storing intermediate products. The integrated continuous mAb production process can be divided into the upstream and downstream processes. One crucial aspect that ensures the continuity of the integrated process is the switching of the capture columns, which are typically chromatography columns operated in a fed-batch manner downstream. Due to the discrete nature of the switching operation, advanced process control algorithms such as economic MPC (EMPC) are computationally difficult to implement. This is because an integer nonlinear program (INLP) needs to be solved online at each sampling time. This paper introduces two computationally-efficient approaches for EMPC implementation, namely, a sigmoid function approximation approach and a rectified linear unit (ReLU) approximation approach. It also explores the application of deep reinforcement learning (DRL). These three methods are compared to the traditional switching approach which is based on a 1% product breakthrough rule and which involves no optimization.
翻訳日:2023-08-09 14:44:12 公開日:2023-08-07
# 動的非結合能動フィードバックによる2量子絡み合いの安定化

Stabilizing two-qubit entanglement with dynamically decoupled active feedback ( http://arxiv.org/abs/2308.03923v1 )

ライセンス: Link先を確認
Sacha Greenfield, Leigh Martin, Felix Motzoi, K. Birgitta Whaley, Justin Dressel, and Eli M. Levenson-Falk(参考訳) 連続的な2量子ビットハーフパリティ測定からアクティブな状態依存フィードバックを用いた2つの非相互作用量子ビットの最大絡み合い状態の安定化のためのプロトコルを,並列な非可換動的デカップリングドライブと協調して提案・解析する。 我々は、そのようなドライブが測定とフィードバックを同時に行うという驚くべき結果を示し、フィードバックプロトコル自体の一部であることも示している。 フィードバックループの時間遅延,不完全な状態追跡,非効率な測定,および1/f分散キュービット周波数雑音の劣化など,現実的な非理想性の存在下でも,単位近傍の忠実度による頑健な安定化を実現することができることを示す。 制御信号の影響を追跡するフィードバックコントローラにおいて、前方状態推定戦略を導入することで、フィードバック遅延の軽減を図る。

We propose and analyze a protocol for stabilizing a maximally entangled state of two noninteracting qubits using active state-dependent feedback from a continuous two-qubit half-parity measurement in coordination with a concurrent, non-commuting dynamical decoupling drive. We demonstrate the surprising result that such a drive be simultaneous with the measurement and feedback, and can also be part of the feedback protocol itself. We show that robust stabilization with near-unit fidelity can be achieved even in the presence of realistic nonidealities, such as time delay in the feedback loop, imperfect state-tracking, inefficient measurements, and dephasing from 1/f-distributed qubit-frequency noise. We mitigate feedback-delay error by introducing a forward-state-estimation strategy in the feedback controller that tracks the effects of control signals already in transit.
翻訳日:2023-08-09 14:43:50 公開日:2023-08-07
# 深部生成モデルを用いた効率的予備軌道設計のためのamortized global search

Amortized Global Search for Efficient Preliminary Trajectory Design with Deep Generative Models ( http://arxiv.org/abs/2308.03960v1 )

ライセンス: Link先を確認
Anjian Li, Amlan Sinha, Ryne Beeson(参考訳) 予備軌道設計は、軌道最適化問題に対する複数の定性的異なる解を求める大域的探索問題である。 高次元と非凸性、および問題パラメータの頻繁な調整により、グローバル検索は計算的に要求されるようになる。 本稿では,ソリューションのクラスタリング構造を利用して,アモータイズされたグローバルサーチ(AmorGS)フレームワークを提案する。 我々は、先述した問題と類似した構造を共有する軌跡解の予測に深層生成モデルを使用し、未確認パラメータ値のグローバル探索を加速する。 本手法は, de jong の5番目の関数と低反発円制限3体問題を用いて評価する。

Preliminary trajectory design is a global search problem that seeks multiple qualitatively different solutions to a trajectory optimization problem. Due to its high dimensionality and non-convexity, and the frequent adjustment of problem parameters, the global search becomes computationally demanding. In this paper, we exploit the clustering structure in the solutions and propose an amortized global search (AmorGS) framework. We use deep generative models to predict trajectory solutions that share similar structures with previously solved problems, which accelerates the global search for unseen parameter values. Our method is evaluated using De Jong's 5th function and a low-thrust circular restricted three-body problem.
翻訳日:2023-08-09 14:34:06 公開日:2023-08-07
# 簡単な合成データによる大言語モデルにおけるサイコフィナンシーの低減

Simple synthetic data reduces sycophancy in large language models ( http://arxiv.org/abs/2308.03958v1 )

ライセンス: Link先を確認
Jerry Wei and Da Huang and Yifeng Lu and Denny Zhou and Quoc V. Le(参考訳) 共犯性(sycophancy)は望ましくない行動であり、モデルがそのビューが客観的に正しくない場合であっても、その応答を人間のビューに従うように調整する(例えば、ユーザがリベラルであることを明かすと、リベラルなビューに適応する)。 本稿では,言語モデルにおけるサイコフィナンシーの有病率について検討し,その振舞いを軽減するための単純な合成データ介入を提案する。 まず、3つの統合作業(perez et al., 2022)で、モデルが正しい答えのない文(例えば政治)について意見を求めると、モデルのスケーリングと命令のチューニングの両方が最大540bのパラメータのパームモデルの統合度を大幅に増加させるのが観察される。 第2に、シンコファンシー評価を客観的に誤りである単純な追加文に拡張し、これらのステートメントが間違っていることを知っても、ユーザがそうした場合も言語モデルがそれに同意し続けることを見出します。 梅毒を減らすため,公共のNLPタスクを取り入れ,これらのタスクに対するユーザの意見に頑健なモデルを奨励する簡単な合成データ介入を提案する。 軽量な微調整ステップにこれらのデータを追加することで、ホールドアウトプロンプトのシンコファンティックな振る舞いを大幅に削減できる。 介入のための合成データを生成するコードはhttps://github.com/google/sycophancy-interventionにある。

Sycophancy is an undesirable behavior where models tailor their responses to follow a human user's view even when that view is not objectively correct (e.g., adapting liberal views once a user reveals that they are liberal). In this paper, we study the prevalence of sycophancy in language models and propose a simple synthetic-data intervention to reduce this behavior. First, on a set of three sycophancy tasks (Perez et al., 2022) where models are asked for an opinion on statements with no correct answers (e.g., politics), we observe that both model scaling and instruction tuning significantly increase sycophancy for PaLM models up to 540B parameters. Second, we extend sycophancy evaluations to simple addition statements that are objectively incorrect, finding that despite knowing that these statements are wrong, language models will still agree with them if the user does as well. To reduce sycophancy, we present a straightforward synthetic-data intervention that takes public NLP tasks and encourages models to be robust to user opinions on these tasks. Adding these data in a lightweight finetuning step can significantly reduce sycophantic behavior on held-out prompts. Code for generating synthetic data for intervention can be found at https://github.com/google/sycophancy-intervention.
翻訳日:2023-08-09 14:33:52 公開日:2023-08-07
# 神経間共変性固定は対向性ロバスト性を引き起こす

Fixed Inter-Neuron Covariability Induces Adversarial Robustness ( http://arxiv.org/abs/2308.03956v1 )

ライセンス: Link先を確認
Muhammad Ahmed Shah and Bhiksha Raj(参考訳) 敵対的摂動の脆弱性はディープニューラルネットワーク(DNN)の重大な欠陥であり、現実のシナリオにおける彼らの信頼性に関する疑問を引き起こす。 一方、DNNがエミュレートすることが想定される人間の知覚は、そのような摂動に対して非常に頑丈であり、人間の知覚には、それを堅牢にするが、現在のDNNのクラスでは表現されない特定の特徴があることを示している。 そのような特徴の1つは、生物学的ニューロンの活性は相関しており、この相関構造は、たとえ性能と学習を損なうとしても、長い時間にわたってかなり硬い傾向にあるということである。 我々は、DNNの活性化にそのような制約を組み込むことで、その逆の堅牢性が向上するであろうと仮定し、この仮説をテストするために、固定されたが学習された共変性パターンに従って活性化が一致したニューロンからなる自己持続活性化(SCA)層を開発した。 画像および音声認識タスクで評価すると、sca層を持つモデルは高い精度を達成し、最先端のオートpgd攻撃である \textit{without on training on adversarially perturbed dataに対して、多層パーセプトロンモデルよりもかなり頑健であった。

The vulnerability to adversarial perturbations is a major flaw of Deep Neural Networks (DNNs) that raises question about their reliability when in real-world scenarios. On the other hand, human perception, which DNNs are supposed to emulate, is highly robust to such perturbations, indicating that there may be certain features of the human perception that make it robust but are not represented in the current class of DNNs. One such feature is that the activity of biological neurons is correlated and the structure of this correlation tends to be rather rigid over long spans of times, even if it hampers performance and learning. We hypothesize that integrating such constraints on the activations of a DNN would improve its adversarial robustness, and, to test this hypothesis, we have developed the Self-Consistent Activation (SCA) layer, which comprises of neurons whose activations are consistent with each other, as they conform to a fixed, but learned, covariability pattern. When evaluated on image and sound recognition tasks, the models with a SCA layer achieved high accuracy, and exhibited significantly greater robustness than multi-layer perceptron models to state-of-the-art Auto-PGD adversarial attacks \textit{without being trained on adversarially perturbed data
翻訳日:2023-08-09 14:33:26 公開日:2023-08-07
# 乱れた分子ポラリトンにおける周波数依存性光反応性

Frequency-dependent photoreactivity in disordered molecular polaritons ( http://arxiv.org/abs/2308.03954v1 )

ライセンス: Link先を確認
Juan B. P\'erez-S\'anchez, Federico Mellini, Noel C. Giebink, Joel Yuen-Zhou(参考訳) 我々は,n\gg10^{6}$分子の無秩序アンサンブルがキャビティモードに結合する強結合系において,分子ポラリトンの超高速量子力学をシミュレートする強力な形式(d-cut-e)を提案する。 特に、このダイナミクスを、$\sim n_{bins}$電子状態を持つ単一の$\textit{effective}$分子をホストするキャビティで捉えることができ、ここでは$n_{bins}\ll n$は、障害分布を識別するビンの数である。 d-cut-eを用いて,高度に乱れたアンサンブルでは,広帯域励起に伴う総反応がキャビティの外部に収束することを示す。 しかし、強いカップリングは個々の分子に異なる反応性を与え、狭帯域励起によって反応が変化する。 重要なことに、この効果は偏光子による光フィルタリングによる線形吸収の変化に留まらない。

We present a powerful formalism (d-CUT-E) to simulate the ultrafast quantum dynamics of molecular polaritons in the collective strong coupling regime, where a disordered ensemble of $N\gg10^{6}$ molecules couples to a cavity mode. Notably, we can capture this dynamics with a cavity hosting a single $\textit{effective}$ molecule with $\sim N_{bins}$ electronic states, where $N_{bins}\ll N$ is the number of bins discretizing the disorder distribution. Using d-CUT-E, we show that in highly disordered ensembles, total reaction yield upon broadband excitation converges to that outside of the cavity. Yet, strong coupling can bestow different reactivities upon individual molecules, leading to changes in reaction yield upon narrowband excitation. Crucially, this effect goes beyond changes in linear absorption due to optical filtering through polaritons.
翻訳日:2023-08-09 14:33:00 公開日:2023-08-07
# 株式市場価格予測:lstmとシーケンシャル・セルフ・アテンション・ベースのハイブリッド・アプローチ

Stock Market Price Prediction: A Hybrid LSTM and Sequential Self-Attention based Approach ( http://arxiv.org/abs/2308.04419v1 )

ライセンス: Link先を確認
Karan Pardeshi, Sukhpal Singh Gill, Ahmed M. Abdelmoniem(参考訳) 最も興味深い研究分野の1つは株式市場であり、株価の予測は投資家が正しいタイミングで最善の決定を行うことで利益を上げるのに役立つかもしれない。 深層学習戦略は金融市場において重要な手法として現れてきた。 株式市場は2つの側面から影響を受けている。一つは地政学的、社会的、グローバルな出来事であり、価格動向に影響を及ぼす可能性がある。 一方、第2の側面は歴史的価格傾向と季節性にのみ焦点を合わせ、株価の予測を可能にしています。 本稿では,第2の側面に着目し,最小限の誤差で将来の価格を予測するモデルを構築することを目的とする。 株価の予測結果を改善するために,LSTM-SSAM(Sequential Self-Attention Mechanism)を用いたLong Short-Term Memory(LSTM)というモデルを提案する。 最後に,SBIN,HDFCBANK,BANKBARODAの3つのデータセットについて広範な実験を行った。 実験により,既存モデルと比較して提案モデルの有効性と妥当性が示された。 実験の結果,根平均二乗誤差 (RMSE) とR-二乗評価指標 (R2) が最適であることがわかった。

One of the most enticing research areas is the stock market, and projecting stock prices may help investors profit by making the best decisions at the correct time. Deep learning strategies have emerged as a critical technique in the field of the financial market. The stock market is impacted due to two aspects, one is the geo-political, social and global events on the bases of which the price trends could be affected. Meanwhile, the second aspect purely focuses on historical price trends and seasonality, allowing us to forecast stock prices. In this paper, our aim is to focus on the second aspect and build a model that predicts future prices with minimal errors. In order to provide better prediction results of stock price, we propose a new model named Long Short-Term Memory (LSTM) with Sequential Self-Attention Mechanism (LSTM-SSAM). Finally, we conduct extensive experiments on the three stock datasets: SBIN, HDFCBANK, and BANKBARODA. The experimental results prove the effectiveness and feasibility of the proposed model compared to existing models. The experimental findings demonstrate that the root-mean-squared error (RMSE), and R-square (R2) evaluation indicators are giving the best results.
翻訳日:2023-08-09 11:46:50 公開日:2023-08-07
# 量子古典相転移と単一光子干渉

Quantum-classical phase transition and single photon interference ( http://arxiv.org/abs/1007.2538v5 )

ライセンス: Link先を確認
Vladan Pankovic(参考訳) 本研究では、光子軌道のマイクロ検出器が一対の同一原子によって提示される2つのビームスプリッターにおける単一光子干渉の現実的な実験を理論的に提案・検討する。 光子と検出器の間の量子の絡み合いの研究(schr\"odinger cat effect)は、検出手順(反復)が絶対的な文字を持たないことを明確に示している。 また、量子古典的な連続相転移による自発的な(非力学的な)ユニタリ対称性(重ね合わせ)による崩壊のモデル化も認めている。 (実際、崩壊は自発的対称性の破れの一般形式論の特別な場合と見なすことができる。) 最後に、量子力学の基礎問題の簡単な解が認められる。

In this work we theoretically suggest and consider a realistic experiment of single photon interference at two beam splitters where micro-detector of the photon trajectories is presented by a pair of distant identical atoms. It admits studying of the quantum entanglement between photon and detector (Schr\"odinger cat effect) which clearly demonstrates that detection procedure (collapse) has no any absolute character. Also it admits modeling of the collapse by spontaneous (non-dynamical) unitary symmetry (superposition) breaking (effective hiding) by quantum-classical continuous phase transition. (Practically, collapse can be considered as an especial case of the general formalism of spontaneous symmetry breaking.) Finally it admits a simple solution of the quantum mechanics foundation problem.
翻訳日:2023-08-09 01:42:33 公開日:2023-08-07
# 画像の作り直し:ディープ・イメージ・コンポジションに関する総合的な調査

Making Images Real Again: A Comprehensive Survey on Deep Image Composition ( http://arxiv.org/abs/2106.14490v3 )

ライセンス: Link先を確認
Li Niu, Wenyan Cong, Liu Liu, Yan Hong, Bo Zhang, Jing Liang, Liqing Zhang(参考訳) 一般的な画像編集操作として、画像合成は、ある画像と別の背景画像から前景を合成することを目的としている。 しかし、合成画像が非現実的になるような問題は数多くある。 これらの問題は、前景と背景の矛盾(例えば、不整合照明)、幾何学的不整合(例えば、不合理なサイズ)、意味的不一貫性(例えば、ミスマッチされた意味的文脈)を含む。 画像合成タスクは複数のサブタスクに分解され、各サブタスクが1つ以上の課題を目標とする。 特に、オブジェクト配置は、前景の合理的なスケール、位置、形状を見つけることを目的としている。 画像ブレンディングは、前景と背景の間の不自然な境界に対処することを目的としている。 イメージ調和は前景の照明統計を調整することを目的としている。 シャドウ生成は、フォアグラウンドで可能なシャドウを生成することを目的としている。 これらのサブタスクは順次または並列に実行でき、リアルな合成画像を取得する。 我々の知る限りでは、画像合成に関する以前の調査はない。 本稿では,画像合成のサブタスクと組合せタスクについて包括的調査を行う。 それぞれについて、既存のメソッド、利用可能なデータセット、一般的な評価メトリクスをまとめます。 画像合成のためのデータセットとコードはhttps://github.com/bcmi/Awesome-Image-Compositionで要約されている。

As a common image editing operation, image composition aims to combine the foreground from one image and another background image, resulting in a composite image. However, there are many issues that could make the composite images unrealistic. These issues can be summarized as the inconsistency between foreground and background, which includes appearance inconsistency (e.g., incompatible illumination), geometry inconsistency (e.g., unreasonable size), and semantic inconsistency (e.g., mismatched semantic context). Image composition task could be decomposed into multiple sub-tasks, in which each sub-task targets at one or more issues. Specifically, object placement aims to find reasonable scale, location, and shape for the foreground. Image blending aims to address the unnatural boundary between foreground and background. Image harmonization aims to adjust the illumination statistics of foreground. Shadow generation aims to generate plausible shadow for the foreground. These sub-tasks can be executed sequentially or parallelly to acquire realistic composite images. To the best of our knowledge, there is no previous survey on image composition. In this paper, we conduct comprehensive survey over the sub-tasks and combinatorial task of image composition. For each one, we summarize the existing methods, available datasets, and common evaluation metrics. Datasets and codes for image composition are summarized at https://github.com/bcmi/Awesome-Image-Composition.
翻訳日:2023-08-09 01:39:40 公開日:2023-08-07
# 自然言語処理におけるToken-Modification Adversarial Attacks: A Survey

Token-Modification Adversarial Attacks for Natural Language Processing: A Survey ( http://arxiv.org/abs/2103.00676v2 )

ライセンス: Link先を確認
Tom Roth, Yansong Gao, Alsharif Abuadbba, Surya Nepal, Wei Liu(参考訳) 現在、自然言語処理システムに対する多くの敵攻撃がある。 これらのうち、大半は個々のドキュメントトークンを変更することで成功をおさめています。 各トークン修飾攻撃は、敵または特定の検索アルゴリズムに対する制約など、基本コンポーネントの特定の組み合わせによって定義される。 この観察に動機づけられて,既存のトークン修飾攻撃を調査し,各コンポーネントを抽出した。 攻撃非依存のフレームワークを用いて調査を構造化し、フィールドの効果的な分類とコンポーネントの比較を容易にする。 この調査は、新たな研究者をこの分野に誘導し、個別の攻撃成分に関するさらなる研究を促すことを目的としている。

There are now many adversarial attacks for natural language processing systems. Of these, a vast majority achieve success by modifying individual document tokens, which we call here a token-modification attack. Each token-modification attack is defined by a specific combination of fundamental components, such as a constraint on the adversary or a particular search algorithm. Motivated by this observation, we survey existing token-modification attacks and extract the components of each. We use an attack-independent framework to structure our survey which results in an effective categorisation of the field and an easy comparison of components. This survey aims to guide new researchers to this field and spark further research into individual attack components.
翻訳日:2023-08-09 01:38:48 公開日:2023-08-07
# 補間テンソル積ウェーブレットに基づく電子構造計算

Electronic structure calculations with interpolating tensor product wavelet basis ( http://arxiv.org/abs/2101.05540v8 )

ライセンス: Link先を確認
Tommi H\"oyn\"al\"anmaa and Tapio T. Rantala(参考訳) 本稿では,3次元Deslauriers--Dubucウェーブレットからなる基底集合を導入し,HおよびHe原子および分子のSchr\"odinger方程式をHF法とDFT法で解く。 水素の2sと2pの励起状態も計算する。 核のクーロン特異性は擬ポテンシャルを用いて処理される。 固有値問題をArnoldi法とLaczos法、GMRES法とCGNR法によるPoisson式で解き、補間ウェーブレットの生体直交関係を用いて行列要素を計算する。 パフォーマンスはCCCBDBやBigDFTと比較される。

We introduce a basis set consisting of three-dimensional Deslauriers--Dubuc wavelets and solve numerically the Schr\"odinger equations of H and He atoms and molecules $\mathrm{H}_2$, $\mathrm{H}_2^+$, and $\mathrm{LiH}$ with HF and DFT methods. We also compute the 2s and 2p excited states of hydrogen. The Coulomb singularity at the nucleus is handled by using a pseudopotential. The eigenvalue problem is solved with Arnoldi and Lanczos methods, Poisson equation with GMRES and CGNR methods, and matrix elements are computed using the biorthogonality relations of the interpolating wavelets. Performance is compared with those of CCCBDB and BigDFT.
翻訳日:2023-08-09 01:38:37 公開日:2023-08-07
# 経済複雑性の政策的意味

The Policy Implications of Economic Complexity ( http://arxiv.org/abs/2205.02164v2 )

ライセンス: Link先を確認
C\'esar A. Hidalgo(参考訳) 近年、経済の複雑さは基礎研究や応用研究の活発な分野へと成長している。 しかし、重要な進歩にもかかわらず、経済の複雑さの政策的な意味はいまだに不明なままであり、誤解されている。 ここでは,4つのWsに基づく枠組みにおける経済複雑性の政策的含意を整理する。対象活動の特定に焦点をあてるアプローチ,関連する活動と無関係な活動のタイミング支援に焦点をあてるアプローチ,知識の地理的拡散に焦点をあてるアプローチ,構造変化のエージェントが果たす役割に焦点を当てるアプローチなどである。 本稿の目的は、地域・国際開発における継続的な利用を促進するために、経済複雑性の政策的意義をグループ化し、組織化し、明確化する枠組みを提供することである。

In recent years economic complexity has grown into an active field of fundamental and applied research. Yet, despite important advances, the policy implications of economic complexity remain unclear or misunderstood. Here I organize the policy implications of economic complexity in a framework grounded on 4 Ws: what approaches, focused on identifying target activities and/or locations; when approaches, focused on timing support for related and unrelated activities; where approaches, focused on the geographic diffusion of knowledge; and who approaches, focused on the role played by agents of structural change. The goal of this paper is to provide a framework that groups, organizes, and clarifies the policy implications of economic complexity to facilitate its continued use in regional and international development.
翻訳日:2023-08-09 01:29:47 公開日:2023-08-07
# 特徴とラベルの機械学習

Machine Unlearning of Features and Labels ( http://arxiv.org/abs/2108.11577v4 )

ライセンス: Link先を確認
Alexander Warnecke, Lukas Pirch, Christian Wressnegger and Konrad Rieck(参考訳) 機械学習モデルから情報を取り除くことは、トレーニングプロセスを部分的に戻す必要のある非自明なタスクである。 このタスクは、クレジットカード番号やパスワードなどの機密データが誤ってモデルに入力され、その後削除される場合、避けられない。 近年,この問題を解決するために,機械学習の異なる概念が提案されている。 これらのアプローチは個々のデータポイントを取り除くのに有効であるが、大きな機能群とラベルを戻さなければならないシナリオにはスケールしない。 本稿では,アンラーニング機能とラベルに関する最初の手法を提案する。 本手法は影響関数の概念を基盤とし,モデルパラメータのクローズドフォーム更新による学習を実現する。 これにより、トレーニングデータの影響を学習モデルに振り返り、データ漏洩やプライバシーの問題を修正することができる。 強い凸損失関数を持つモデルを学習するために,提案手法は理論的保証付き未学習を認定する。 非凸損失モデルに対しては、未学習の特徴やラベルが他の戦略よりも効果的ではるかに高速であることを示す。

Removing information from a machine learning model is a non-trivial task that requires to partially revert the training process. This task is unavoidable when sensitive data, such as credit card numbers or passwords, accidentally enter the model and need to be removed afterwards. Recently, different concepts for machine unlearning have been proposed to address this problem. While these approaches are effective in removing individual data points, they do not scale to scenarios where larger groups of features and labels need to be reverted. In this paper, we propose the first method for unlearning features and labels. Our approach builds on the concept of influence functions and realizes unlearning through closed-form updates of model parameters. It enables to adapt the influence of training data on a learning model retrospectively, thereby correcting data leaks and privacy issues. For learning models with strongly convex loss functions, our method provides certified unlearning with theoretical guarantees. For models with non-convex losses, we empirically show that unlearning features and labels is effective and significantly faster than other strategies.
翻訳日:2023-08-09 01:26:33 公開日:2023-08-07
# Hessian-based generalization Guaranteesを用いたディープニューラルネットワークのロバスト微調整

Robust Fine-Tuning of Deep Neural Networks with Hessian-based Generalization Guarantees ( http://arxiv.org/abs/2206.02659v5 )

ライセンス: Link先を確認
Haotian Ju, Dongyue Li, Hongyang R. Zhang(参考訳) 対象タスクにおける事前訓練されたディープニューラルネットワークの微調整を検討する。 我々は、しばしば観測される過剰フィッティングの問題(例えば、ターゲットデータセットが小さい場合や、トレーニングラベルが騒がしい場合など)を理解するために、微調整の一般化特性について検討する。 深層ネットワークに対する既存の一般化手法は、微調整モデルの初期化(即ち事前訓練されたネットワーク)からの距離や、深層ネットワークの雑音安定性などの概念に依存する。 本稿では,PAC-Bayesian解析によるヘッセン系距離測定を同定し,微調整モデルの一般化ギャップとよく相関することを示した。 理論的には、微調整モデルに対するヘッセン距離に基づく一般化境界を証明できる。 また, ラベルノイズに対する微調整について, オーバーフィッティングが重要な問題に対処する手法として, クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。 経験的に、ヘッセン距離測度は、実際に微調整されたモデルの観測された一般化ギャップのスケールと一致する。 また,複数の画像分類タスクにおいて,先行手法に比べて有意な効果を示し,微調整モデルのヘッセン距離測定は実質的に減少することを示した。

We consider fine-tuning a pretrained deep neural network on a target task. We study the generalization properties of fine-tuning to understand the problem of overfitting, which has often been observed (e.g., when the target dataset is small or when the training labels are noisy). Existing generalization measures for deep networks depend on notions such as distance from the initialization (i.e., the pretrained network) of the fine-tuned model and noise stability properties of deep networks. This paper identifies a Hessian-based distance measure through PAC-Bayesian analysis, which is shown to correlate well with observed generalization gaps of fine-tuned models. Theoretically, we prove Hessian distance-based generalization bounds for fine-tuned models. We also describe an extended study of fine-tuning against label noise, where overfitting is against a critical problem; We present an algorithm and a generalization error guarantee for this algorithm under a class conditional independent noise model. Empirically, we observe that the Hessian-based distance measure can match the scale of the observed generalization gap of fine-tuned models in practice. We also test our algorithm on several image classification tasks with noisy training labels, showing notable gains over prior methods, and the Hessian distance measure of the fine-tuned model decreases substantially.
翻訳日:2023-08-09 01:19:57 公開日:2023-08-07
# I-ViT:効率的な視覚変換器推論のための整数のみ量子化

I-ViT: Integer-only Quantization for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2207.01405v4 )

ライセンス: Link先を確認
Zhikai Li and Qingyi Gu(参考訳) ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端の性能を達成した。 しかし、これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。 量子化はモデルの複雑さを減らすための有望なアプローチであり、dyadic arithmetic pipelineは量子化モデルが効率的な整数のみの推論を可能にする。 残念ながら、dyadic演算は畳み込みニューラルネットワークの同質性条件に基づいているが、これはvitsの非線形成分には適用できないため、vitsの整数のみの推論は未解決の問題となっている。 本稿では,vitに対する整数のみの量子化スキームであるi-vitを提案する。vitsは整数演算とビットシフトによる推論の計算グラフ全体を浮動小数点演算なしで実行可能にする。 i-vitでは、線形演算(例えば、matmul や dense)はdyadic演算を伴う整数専用パイプラインに従い、非線形演算(例えばsoftmax、gelu、layernorm)は、提案される軽量整数専用演算法によって近似される。 より具体的には、I-ViTでは、整数ビットシフトを用いて対応する浮動小数点演算を近似するShiftmaxとShiftGELUが提案されている。 我々は,様々なベンチマークモデルを用いてI-ViTを評価し,整数のみのINT8量子化が全精度(FP)ベースラインに匹敵する精度(あるいはさらに高い精度)を達成することを示した。 さらに、GPUの整数演算ユニットの実用的なハードウェア展開にTVMを使用し、FPモデルと比較して3.72$\sim$4.11$\times$推論スピードアップを達成した。 PytorchとTVMのコードはhttps://github.com/zkkli/I-ViT.comで公開されている。

Vision Transformers (ViTs) have achieved state-of-the-art performance on various computer vision applications. However, these models have considerable storage and computational overheads, making their deployment and efficient inference on edge devices challenging. Quantization is a promising approach to reducing model complexity, and the dyadic arithmetic pipeline can allow the quantized models to perform efficient integer-only inference. Unfortunately, dyadic arithmetic is based on the homogeneity condition in convolutional neural networks, which is not applicable to the non-linear components in ViTs, making integer-only inference of ViTs an open issue. In this paper, we propose I-ViT, an integer-only quantization scheme for ViTs, to enable ViTs to perform the entire computational graph of inference with integer arithmetic and bit-shifting, and without any floating-point arithmetic. In I-ViT, linear operations (e.g., MatMul and Dense) follow the integer-only pipeline with dyadic arithmetic, and non-linear operations (e.g., Softmax, GELU, and LayerNorm) are approximated by the proposed light-weight integer-only arithmetic methods. More specifically, I-ViT applies the proposed Shiftmax and ShiftGELU, which are designed to use integer bit-shifting to approximate the corresponding floating-point operations. We evaluate I-ViT on various benchmark models and the results show that integer-only INT8 quantization achieves comparable (or even slightly higher) accuracy to the full-precision (FP) baseline. Furthermore, we utilize TVM for practical hardware deployment on the GPU's integer arithmetic units, achieving 3.72$\sim$4.11$\times$ inference speedup compared to the FP model. Code of both Pytorch and TVM is released at https://github.com/zkkli/I-ViT.
翻訳日:2023-08-09 01:08:14 公開日:2023-08-07
# 深層表モデルを用いたトランスファー学習

Transfer Learning with Deep Tabular Models ( http://arxiv.org/abs/2206.15306v2 )

ライセンス: Link先を確認
Roman Levin, Valeriia Cherepanova, Avi Schwarzschild, Arpit Bansal, C. Bayan Bruss, Tom Goldstein, Andrew Gordon Wilson, Micah Goldblum(参考訳) 表型データに対するディープラーニングに関する最近の研究は、深い表型モデルの強力な性能を示し、しばしば勾配を増した決定木とニューラルネットワークの間のギャップを埋めている。 正確性はさておき、ニューラルモデルの大きな利点は、再利用可能な機能を学び、新しいドメインで簡単に微調整できることだ。 この性質はコンピュータビジョンや自然言語アプリケーションでしばしば利用され、タスク固有のトレーニングデータが不足している場合、転送学習は不可欠である。 本研究では,上流データにより,広く使用されているGBDTモデルに対して,表層ニューラルネットワークが決定的な優位性を示す。 本稿では,表層トランスファー学習のための現実的な医療診断ベンチマークを提案し,様々な表層ニューラルネットワークアーキテクチャを用いて,上流データを用いたパフォーマンス向上のためのハウツーガイドを提案する。 最後に,上流と下流の機能集合が異なる場合の擬似特徴量法を提案する。 私たちのコードはhttps://github.com/LevinRoman/tabular-transfer-learning で利用可能です。

Recent work on deep learning for tabular data demonstrates the strong performance of deep tabular models, often bridging the gap between gradient boosted decision trees and neural networks. Accuracy aside, a major advantage of neural models is that they learn reusable features and are easily fine-tuned in new domains. This property is often exploited in computer vision and natural language applications, where transfer learning is indispensable when task-specific training data is scarce. In this work, we demonstrate that upstream data gives tabular neural networks a decisive advantage over widely used GBDT models. We propose a realistic medical diagnosis benchmark for tabular transfer learning, and we present a how-to guide for using upstream data to boost performance with a variety of tabular neural network architectures. Finally, we propose a pseudo-feature method for cases where the upstream and downstream feature sets differ, a tabular-specific problem widespread in real-world applications. Our code is available at https://github.com/LevinRoman/tabular-transfer-learning .
翻訳日:2023-08-09 01:07:40 公開日:2023-08-07
# FairGrad:Fairness Aware Aware Gradient Descent

FairGrad: Fairness Aware Gradient Descent ( http://arxiv.org/abs/2206.10923v2 )

ライセンス: Link先を確認
Gaurav Maheshwari, Micha\"el Perrot(参考訳) 分類におけるグループフェアネスの問題は、集団のサブグループに対して不当に差別しないモデルを学習することを目的としている。 既存のアプローチの多くは、単純なバイナリタスクに限定されているか、実際に適用可能なトレーニングメカニズムを実装するのが難しい。 本稿では,FairGradを提案する。FairGradは,グループ固有の重み付けを,有効かどうかに基づいて反復的に学習する再重み付け方式に基づくフェアネスの実施手法である。 FairGradは実装が容易で、様々な標準のフェアネス定義に対応しており、オーバーヘッドは最小限である。 さらに,自然言語処理やコンピュータビジョンなど,さまざまなデータセットに対して標準ベースラインと競合することを示す。 FairGradはPyPIパッケージとしてhttps://pypi.org/project/fairgradで利用可能である。

We address the problem of group fairness in classification, where the objective is to learn models that do not unjustly discriminate against subgroups of the population. Most existing approaches are limited to simple binary tasks or involve difficult to implement training mechanisms which reduces their practical applicability. In this paper, we propose FairGrad, a method to enforce fairness based on a re-weighting scheme that iteratively learns group specific weights based on whether they are advantaged or not. FairGrad is easy to implement, accommodates various standard fairness definitions, and comes with minimal overhead. Furthermore, we show that it is competitive with standard baselines over various datasets including ones used in natural language processing and computer vision. FairGrad is available as a PyPI package at - https://pypi.org/project/fairgrad
翻訳日:2023-08-09 01:06:57 公開日:2023-08-07
# CARLANE: シミュレーションから複数の実世界ドメインへの教師なしドメイン適応のためのレーン検出ベンチマーク

CARLANE: A Lane Detection Benchmark for Unsupervised Domain Adaptation from Simulation to multiple Real-World Domains ( http://arxiv.org/abs/2206.08083v4 )

ライセンス: Link先を確認
Julian Gebele, Bonifaz Stuhr and Johann Haselberger(参考訳) 教師なしのドメイン適応は、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを転送することで、ドメインシフトを緩和する大きな可能性を示す。 教師なしのドメイン適応は様々な複雑なビジョンタスクに応用されているが、自動運転のレーン検出に焦点を当てた作業はごくわずかである。 これは、公開データセットの欠如による可能性がある。 そこで本研究では,2次元レーン検出のための3方向sim-to-realドメイン適応ベンチマークであるcarlaneを提案する。 CARLANEには、シングルターゲットデータセットのMoLaneとTuLane、マルチターゲットデータセットのMuLaneが含まれている。 これらのデータセットは、さまざまなシーンをカバーする3つの異なるドメインで構成されており、合計163kのユニークなイメージが含まれている。 さらに,原型的クロスドメイン自己教師型学習に基づく独自の手法を含む,体系的なベースラインの評価と報告を行う。 評価されたドメイン適応法の偽陽性率と偽陰性率は,完全教師付きベースラインと比較すると高い値を示した。 これは、レーン検出のための教師なしドメイン適応の研究をさらに強化するためにcarlaneのようなベンチマークが必要であることを裏付ける。 CARLANE、すべての評価モデルと対応する実装はhttps://carlanebenchmark.github.io.comで公開されている。

Unsupervised Domain Adaptation demonstrates great potential to mitigate domain shifts by transferring models from labeled source domains to unlabeled target domains. While Unsupervised Domain Adaptation has been applied to a wide variety of complex vision tasks, only few works focus on lane detection for autonomous driving. This can be attributed to the lack of publicly available datasets. To facilitate research in these directions, we propose CARLANE, a 3-way sim-to-real domain adaptation benchmark for 2D lane detection. CARLANE encompasses the single-target datasets MoLane and TuLane and the multi-target dataset MuLane. These datasets are built from three different domains, which cover diverse scenes and contain a total of 163K unique images, 118K of which are annotated. In addition we evaluate and report systematic baselines, including our own method, which builds upon Prototypical Cross-domain Self-supervised Learning. We find that false positive and false negative rates of the evaluated domain adaptation methods are high compared to those of fully supervised baselines. This affirms the need for benchmarks such as CARLANE to further strengthen research in Unsupervised Domain Adaptation for lane detection. CARLANE, all evaluated models and the corresponding implementations are publicly available at https://carlanebenchmark.github.io.
翻訳日:2023-08-09 01:06:42 公開日:2023-08-07
# 雑音ラベル存在下での畳み込みニューラルネットワークトレーニングにおけるデータ拡張の影響に関する研究

A Study on the Impact of Data Augmentation for Training Convolutional Neural Networks in the Presence of Noisy Labels ( http://arxiv.org/abs/2208.11176v3 )

ライセンス: Link先を確認
Emeson Santana, Gustavo Carneiro, Filipe R. Cordeiro(参考訳) ラベルノイズは大規模な実世界のデータセットで一般的であり、その存在はディープニューラルネットワークのトレーニングプロセスに悪影響を及ぼす。 この問題に対処するためのトレーニング戦略に焦点を当てた研究はいくつかあるが、深層ニューラルネットワークをトレーニングするための設計選択としてのデータの強化の影響を評価する研究は少ない。 本研究では,異なるデータ拡張を用いたモデルのロバスト性と,ノイズラベルの存在下でのトレーニング改善について分析する。 mnist, cifar-10, cifar-100, and the real-world dataset clothing1mの合成ノイズレベルが異なる,最先端および古典的データ拡張戦略を評価する。 本手法を精度指標を用いて評価する。 その結果、データ拡張の適切な選択は、ラベルノイズに対するモデルロバスト性を大幅に向上させ、拡張のないベースラインと比較して177.84%の相対的テスト精度を向上し、最先端のDivideMixトレーニング戦略により6%の絶対値が向上することを示した。

Label noise is common in large real-world datasets, and its presence harms the training process of deep neural networks. Although several works have focused on the training strategies to address this problem, there are few studies that evaluate the impact of data augmentation as a design choice for training deep neural networks. In this work, we analyse the model robustness when using different data augmentations and their improvement on the training with the presence of noisy labels. We evaluate state-of-the-art and classical data augmentation strategies with different levels of synthetic noise for the datasets MNist, CIFAR-10, CIFAR-100, and the real-world dataset Clothing1M. We evaluate the methods using the accuracy metric. Results show that the appropriate selection of data augmentation can drastically improve the model robustness to label noise, increasing up to 177.84% of relative best test accuracy compared to the baseline with no augmentation, and an increase of up to 6% in absolute value with the state-of-the-art DivideMix training strategy.
翻訳日:2023-08-09 00:59:44 公開日:2023-08-07
# FedOBD:フェデレーションラーニングによる大規模ニューラルネットワークの効率的なトレーニングのための機会論的ブロックドロップアウト

FedOBD: Opportunistic Block Dropout for Efficiently Training Large-scale Neural Networks through Federated Learning ( http://arxiv.org/abs/2208.05174v5 )

ライセンス: Link先を確認
Yuanyuan Chen, Zichen Chen, Pengcheng Wu, Han Yu(参考訳) 大規模ニューラルネットワークは相当な表現力を持っている。 工業アプリケーションにおける複雑な学習タスクに適している。 しかしながら、大規模モデルは、現在の連合学習(fl)パラダイムの下で、トレーニングに重大な課題をもたらす。 効率的なFLトレーニングのための既存のアプローチは、しばしばモデルパラメータのドロップアウトを利用する。 しかし、個々のモデルパラメータを操作することは、大規模FLモデルを訓練する際の通信オーバーヘッドを有意義に削減するだけでなく、最近の研究で示されているように、スケーリングの取り組みやモデル性能にも寄与する可能性がある。 これらの問題に対処するため,FedOBD(Federated Opportunistic Block Dropout)アプローチを提案する。 鍵となる新規性は、大規模モデルをセマンティックブロックに分解し、FL参加者が、モデルのトレーニングにおいて重要と思われる量子化されたブロックをFLサーバにアップロードして集約できるようにすることである。 複数の実世界のデータセットに基づく4つの最先端アプローチに対するfeedobdの評価実験は、最高のパフォーマンスのベースラインアプローチと比較して、全体の通信オーバーヘッドを88%以上削減し、最も高いテスト精度を達成していることを示している。 我々の知る限りでは、FedOBDは個々のパラメータレベルではなくブロックレベルでFLモデルのドロップアウトを実行するための最初のアプローチである。

Large-scale neural networks possess considerable expressive power. They are well-suited for complex learning tasks in industrial applications. However, large-scale models pose significant challenges for training under the current Federated Learning (FL) paradigm. Existing approaches for efficient FL training often leverage model parameter dropout. However, manipulating individual model parameters is not only inefficient in meaningfully reducing the communication overhead when training large-scale FL models, but may also be detrimental to the scaling efforts and model performance as shown by recent research. To address these issues, we propose the Federated Opportunistic Block Dropout (FedOBD) approach. The key novelty is that it decomposes large-scale models into semantic blocks so that FL participants can opportunistically upload quantized blocks, which are deemed to be significant towards training the model, to the FL server for aggregation. Extensive experiments evaluating FedOBD against four state-of-the-art approaches based on multiple real-world datasets show that it reduces the overall communication overhead by more than 88% compared to the best performing baseline approach, while achieving the highest test accuracy. To the best of our knowledge, FedOBD is the first approach to perform dropout on FL models at the block level rather than at the individual parameter level.
翻訳日:2023-08-09 00:59:13 公開日:2023-08-07
# 脳腫瘍mriおよびcovid-19胸部x線画像のための視覚解釈および説明可能な深層学習モデル

Visual Interpretable and Explainable Deep Learning Models for Brain Tumor MRI and COVID-19 Chest X-ray Images ( http://arxiv.org/abs/2208.00953v2 )

ライセンス: Link先を確認
Yusuf Brima and Marcellin Atemkeng(参考訳) 深層学習は、医療画像解析を約束するが、解釈可能性に欠け、医療の採用を妨げる。 モデル推論を説明する属性技術は、臨床ステークホルダーの間で深層学習への信頼を高める可能性がある。 本稿では,深層ニューラルネットワークによる医用画像の解析方法を評価することを目的とした。 近年の深層畳み込みニューラルネットワークモデルによる脳腫瘍mriおよびcovid-19胸部x線データからの予測を,適応的経路に基づく勾配積分を用いて推定した。 この技術はバイオマーカーの可能性を強調し、モデルバイアスを露呈し、入力と予測の関係に関する洞察を提供した。 本分析は,これらのデータセット上でモデル推論を解明する手法の能力を示す。 結果として得られた帰結は、予測の背後にある根拠を明らかにすることによって、ドメインエキスパートのディープラーニングの透明性を向上させることを約束する。 本研究は、医療関係者の深層学習に対する信頼を高めるためのモデル解釈可能性を向上させる。

Deep learning shows promise for medical image analysis but lacks interpretability, hindering adoption in healthcare. Attribution techniques that explain model reasoning may increase trust in deep learning among clinical stakeholders. This paper aimed to evaluate attribution methods for illuminating how deep neural networks analyze medical images. Using adaptive path-based gradient integration, we attributed predictions from brain tumor MRI and COVID-19 chest X-ray datasets made by recent deep convolutional neural network models. The technique highlighted possible biomarkers, exposed model biases, and offered insights into the links between input and prediction. Our analysis demonstrates the method's ability to elucidate model reasoning on these datasets. The resulting attributions show promise for improving deep learning transparency for domain experts by revealing the rationale behind predictions. This study advances model interpretability to increase trust in deep learning among healthcare stakeholders.
翻訳日:2023-08-09 00:58:51 公開日:2023-08-07
# brachistochrone進化における量子速度限界

Quantum Speed Limit under Brachistochrone Evolution ( http://arxiv.org/abs/2208.00230v2 )

ライセンス: Link先を確認
Fu-Quan Dou, Min-Peng Han, and Chuan-Cun Shu(参考訳) 時間とエネルギーの揺らぎの間のハイゼンベルクの不確実性原理に従って、量子速度制限(QSL)の概念が確立され、量子状態間の最小進化時間を決定する。 様々なシナリオにおけるqsl時間境界の取得にかなりの理論的および実験的努力が費やされている。 しかし、一般的な量子問題に対して有意義なQSLを導出することが長年の目標である。 本稿では,閉かつオープンな量子系に対するQSLバウンドを導出する幾何学的手法を提案する。 リーマン計量の枠組みにおける量子ブラキストロン問題の解法により、与えられた初期状態から最終状態へのQSLは、システム全体のダイナミクスだけでなく、臨界パラメータの個々のダイナミクスによっても決定されることを示す。 3つの代表的なシナリオで新しい境界の有用性を実証し、一般的な量子進化問題の厳密で有意義なQSL境界を見つける上で、顕著な利点を示す。

According to the Heisenberg uncertainty principle between time and energy fluctuation, a concept of the quantum speed limit (QSL) has been established to determine the minimum evolutionary time between quantum states. Considerable theoretical and experimental efforts are invested in obtaining the QSL time bounds in various scenarios. However, it remains a long-standing goal to derive a meaningful QSL bound for a general quantum problem. Here, we propose a geometrical approach to derive a QSL bound for closed and open quantum systems. By solving a quantum brachistochrone problem in the framework of the Riemannian metric, we show that the QSL between a given initial state to a final state is determined not only by the entire dynamics of the system but also by the individual dynamics of a critical parameter. We exemplify the utility of the new bound in three representative scenarios, demonstrating a pronounced advantage in finding a tight and meaningful QSL bound of a general quantum evolution problem.
翻訳日:2023-08-09 00:58:38 公開日:2023-08-07
# Claim-Dissector:ジョイントリグレードとVeracity予測を備えた解釈可能なFact-Checkingシステム

Claim-Dissector: An Interpretable Fact-Checking System with Joint Re-ranking and Veracity Prediction ( http://arxiv.org/abs/2207.14116v4 )

ライセンス: Link先を確認
Martin Fajcik, Petr Motlicek, Pavel Smrz(参考訳) ファクトチェックと分析のための新しい潜在変数モデルであり、クレームと検索されたエビデンスが共同で識別することを学ぶ。 (i)当該クレームに関連する証拠 (ii)クレームの妥当性。 本稿では,各証拠関連確率とその最終妥当性確率への寄与を解釈可能な方法で解き放つことを提案し,その最終的な妥当性確率は,各証拠関連確率の線形アンサンブルに比例する。 このようにして、最終的な予測確率に対する証拠の個々の寄与を特定できる。 このモデルでは,各証拠が(s) を支持しているか,(r) を反論しているか,さらに識別することができる。 これにより、S/R確率が最終的な判定にどの程度貢献するかを定量化したり、不一致の証拠を検出することができる。 その解釈可能な性質にもかかわらず、本システムはFEVERデータセットの最先端と競合する結果を、典型的な2段階のシステムパイプラインと比較して実現し、パラメータは大幅に少ない。 また、faviqとrealfcデータセットに新しい最先端を設定する。 さらに,我々のモデルでは,粗粒度監視を用いて細粒度関係の学習が可能であり,その2つの方法が示されている。 i)本モデルでは,段落レベルの関連性監視のみを用いながら,競争力のある文のリコールが可能であることを示す。 (ii) 妥当性の最も細かい粒度に目を向けると, このモデルはトークンレベルで妥当性を識別できることを示す。 そこで我々は,トークンレベルの解釈可能性に着目した新しいベンチマークTLR-FEVERを提案する。 そして、モデルが注目しているトークンにこれらのアノテーションがどの程度似ているかを測定します。

We present Claim-Dissector: a novel latent variable model for fact-checking and analysis, which given a claim and a set of retrieved evidences jointly learns to identify: (i) the relevant evidences to the given claim, (ii) the veracity of the claim. We propose to disentangle the per-evidence relevance probability and its contribution to the final veracity probability in an interpretable way -- the final veracity probability is proportional to a linear ensemble of per-evidence relevance probabilities. In this way, the individual contributions of evidences towards the final predicted probability can be identified. In per-evidence relevance probability, our model can further distinguish whether each relevant evidence is supporting (S) or refuting (R) the claim. This allows to quantify how much the S/R probability contributes to the final verdict or to detect disagreeing evidence. Despite its interpretable nature, our system achieves results competitive with state-of-the-art on the FEVER dataset, as compared to typical two-stage system pipelines, while using significantly fewer parameters. It also sets new state-of-the-art on FAVIQ and RealFC datasets. Furthermore, our analysis shows that our model can learn fine-grained relevance cues while using coarse-grained supervision, and we demonstrate it in 2 ways. (i) We show that our model can achieve competitive sentence recall while using only paragraph-level relevance supervision. (ii) Traversing towards the finest granularity of relevance, we show that our model is capable of identifying relevance at the token level. To do this, we present a new benchmark TLR-FEVER focusing on token-level interpretability -- humans annotate tokens in relevant evidences they considered essential when making their judgment. Then we measure how similar are these annotations to the tokens our model is focusing on.
翻訳日:2023-08-09 00:58:21 公開日:2023-08-07
# 一段階の等角予測近似のための新しい深層学習手法

A novel Deep Learning approach for one-step Conformal Prediction approximation ( http://arxiv.org/abs/2207.12377v4 )

ライセンス: Link先を確認
Julia A. Meister, Khuong An Nguyen, Stelios Kapetanakis, Zhiyuan Luo(参考訳) 信頼度を計測可能なディープラーニング予測は、特にリスクの高い環境では、現実の問題に対してますます望ましい。 共形予測(cp)フレームワークは、最小限の制約によって最大エラー率を保証する汎用ソリューションである。 本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。 ストリンジェントな期待cp出力分布からの偏差を評価してペナライズすることにより、ディープラーニングモデルは、入力データと共形p値との直接関係を学習することができる。 5つのベンチマークデータセット上での7つのバイナリおよびマルチクラス予測タスクに対する、新しい損失関数の競合性を示すための総合的な経験的評価を行う。 同じデータセットにおいて,本手法は,近似的妥当性と予測効率を維持しつつ,acpと比較して最大86%のトレーニング時間短縮を実現している。

Deep Learning predictions with measurable confidence are increasingly desirable for real-world problems, especially in high-risk settings. The Conformal Prediction (CP) framework is a versatile solution that guarantees a maximum error rate given minimal constraints. In this paper, we propose a novel conformal loss function that approximates the traditionally two-step CP approach in a single step. By evaluating and penalising deviations from the stringent expected CP output distribution, a Deep Learning model may learn the direct relationship between the input data and the conformal p-values. We carry out a comprehensive empirical evaluation to show our novel loss function's competitiveness for seven binary and multi-class prediction tasks on five benchmark datasets. On the same datasets, our approach achieves significant training time reductions up to 86% compared to Aggregated Conformal Prediction (ACP), while maintaining comparable approximate validity and predictive efficiency.
翻訳日:2023-08-09 00:57:52 公開日:2023-08-07
# hybmt:高速テストベクトル生成のためのハイブリッドメタ予測型mlアルゴリズム

HybMT: Hybrid Meta-Predictor based ML Algorithm for Fast Test Vector Generation ( http://arxiv.org/abs/2207.11312v3 )

ライセンス: Link先を確認
Shruti Pandey, Jayadeva, Smruti R. Sarangi(参考訳) MLモデルは、テストカバレッジを増やし、全体のテスト時間を短縮するために、ますます使われています。 この分野はまだ初期段階であり、これまでは大型回路の速度と精度で商用ツールに匹敵するアルゴリズムは存在しなかった。 本稿では、この障壁を突破するATPGアルゴリズムHybMTを提案する。 シスターメソッドと同様に、再帰的バックトラッキングを使用する古典的な podem アルゴリズムを補強する。 出力が与えられた値(0または1)であることを保証するために、値を設定する必要がある論理ゲートの入力ネットを予測するカスタム2レベル予測器を設計する。 我々の予測器は、2つの第1レベルの予測器の中から出力を選択し、最も有効なものはベスポークニューラルネットワークであり、もう1つはSVM回帰器である。 一般的な最先端の商用ATPGツールと比較すると、HybMTはEPFLベンチマーク回路の故障カバレッジを損なうことなく、CPU時間全体の56.6%の低下を示した。 HybMTは、最高のMLベースのアルゴリズムよりも126.4%のスピードアップを示し、EPFLベンチマーク回路のフォールトカバレッジは等しく良い。

ML models are increasingly being used to increase the test coverage and decrease the overall testing time. This field is still in its nascent stage and up till now there were no algorithms that could match or outperform commercial tools in terms of speed and accuracy for large circuits. We propose an ATPG algorithm HybMT in this paper that finally breaks this barrier. Like sister methods, we augment the classical PODEM algorithm that uses recursive backtracking. We design a custom 2-level predictor that predicts the input net of a logic gate whose value needs to be set to ensure that the output is a given value (0 or 1). Our predictor chooses the output from among two first-level predictors, where the most effective one is a bespoke neural network and the other is an SVM regressor. As compared to a popular, state-of-the-art commercial ATPG tool, HybMT shows an overall reduction of 56.6% in the CPU time without compromising on the fault coverage for the EPFL benchmark circuits. HybMT also shows a speedup of 126.4% over the best ML-based algorithm while obtaining an equal or better fault coverage for the EPFL benchmark circuits.
翻訳日:2023-08-09 00:57:38 公開日:2023-08-07
# 相対論的量子力学における測定と確率

Measurement and Probability in Relativistic Quantum Mechanics ( http://arxiv.org/abs/2209.12411v3 )

ライセンス: Link先を確認
Ed Seidewitz(参考訳) 究極的には、量子測定のいかなる説明も相対論的量子力学(rqm)に拡張可能であり、多くの正確に証明された実験結果は、rqmに基づく量子場理論(qft)に従わなければならない。 量子測定の伝統的な「崩壊」仮定は、少なくとも少なくとも、通常は定式化されているように、同時性(英語版)の相対性に反するので、相対論的文脈では問題となる。 伝統的な崩壊解釈の代替として、修正されていないユニタリ量子形式論のエベレット的アプローチは、RQMとQFTに明確に拡張された唯一の方法である。 しかし、そのようなアプローチの通常の「多くの世界」解釈は、異なる可能な「世界」に対する確率を定義する方法の難しさにつながる。 本稿では、宇宙の状態が、その内部に記録された測定の非コヒーレントなヒストリーに分解される相対論的測定モデルを提供することにより、この難しさに対処する。 ズレックの不変性の概念はこの相対論的時空の文脈に一般化することができ、ボルンの規則と一致するこれらの量子ヒストリーのいずれかの確率の客観的な定義を与える。 この結果、繰り返し繰り返される実験の統計は、繰り返しの回数が増えるにつれて生まれた規則に従う傾向がある。 このような実験に実際に使用する波動関数は、普遍固有状態の非常に粗い重ね合わせの局所的還元であり、それらの「集合」は、我々の宇宙の「真の」固有状態の測定から得られた追加的な知識に基づく更新として再解釈することができる。

Ultimately, any explanation of quantum measurement must be extendable to relativistic quantum mechanics (RQM), since many precisely confirmed experimental results follow from quantum field theory (QFT), which is based on RQM. Certainly, the traditional "collapse" postulate for quantum measurement is problematic in a relativistic context, at the very least because, as usually formulated, it violates the relativity of simultaneity. Among alternatives to the traditional collapse interpretation, the Everettian approach of an unmodified, unitary quantum formalism is the only one that has been clearly extended to RQM and QFT. However, the usual "many worlds" interpretation of such an approach leads to to difficulty in how to even define probabilities over different possible "worlds". The present paper addresses this difficulty by providing a relativistic model of measurement, in which the state of the universe is decomposed into decoherent histories of measurements recorded within it. Zurek's concept of envariance can be generalized to this context of relativistic spacetime, giving an objective definition of the probability of any one of these quantum histories, consistent with Born's rule. This then leads to the statistics of any repeated experiment also tending to follow the Born rule as the number of repetitions increases. The wave functions that we actually use for such experiments are local reductions of very coarse-grained superpositions of universal eigenstates, and their "collapse" can be re-interpreted as simply an update based on additional incremental knowledge gained from a measurement about the "real" eigenstate of our universe.
翻訳日:2023-08-09 00:48:37 公開日:2023-08-07
# cuts: 医療用画像セグメンテーションのための教師なしフレームワーク

CUTS: A Fully Unsupervised Framework for Medical Image Segmentation ( http://arxiv.org/abs/2209.11359v4 )

ライセンス: Link先を確認
Chen Liu, Matthew Amodio, Liangbo L. Shen, Feng Gao, Arman Avesta, Sanjay Aneja, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy(参考訳) 本研究では,医用画像セグメンテーションのための完全教師なしディープラーニングフレームワークであるCUTS(Contrastive and Unsupervised Training for Segmentation)を導入する。 ピクセルとその周辺地域からの自己スーパービジョンを画像自身で活用する。 教師なしのアプローチは、コントラスト学習や自動エンコーディングの概念を活用するトレーニング目標を最適化します。 いずれの段階においてもラベル付きデータを必要とせず,新たな2段階アプローチで医療画像のセグメンテーションを行う。 最初の段階は、高次元の潜在埋め込み空間におけるベクトル表現を用いて、周囲のパッチと共にすべてのピクセルを埋め込む「ピクセル中心のパッチ」を作成することである。 第2段階は、多スケールの位相データ解析手法である拡散凝縮を用いて、これらの埋め込みベクトルを任意のレベルの粒度で動的に粗粒化する。 最終的な結果は、様々なスケールで画像構造をハイライトする粗い部分分割のシリーズである。 本研究では,自然画像,網膜眼底画像,脳mri画像のマルチスケールセグメンテーションを成功させた。 本フレームワークは, 医療画像の場合, 臨床解釈に関連のある異なる情報を伝達しうる, 異なるスケールで構造やパターンを規定する。 本フレームワークは,3つの医用画像データセットにおける既存の教師なし手法と比較して,ダイス係数とハウスドルフ距離の10%から200%の改善を定量的に示す。 ラベルに頼らずに複数の意味のある粒度の医療画像の分節化の問題に取り組む中で,今後,退屈かつ反復的な手動アノテーションを回避できることを実証したい。

In this work we introduce CUTS (Contrastive and Unsupervised Training for Segmentation), a fully unsupervised deep learning framework for medical image segmentation to better utilize the vast majority of imaging data that is not labeled or annotated. We utilize self-supervision from pixels and their local neighborhoods in the images themselves. Our unsupervised approach optimizes a training objective that leverages concepts from contrastive learning and autoencoding. Our framework segments medical images with a novel two-stage approach without relying on any labeled data at any stage. The first stage involves the creation of a "pixel-centered patch" that embeds every pixel along with its surrounding patch, using a vector representation in a high-dimensional latent embedding space. The second stage utilizes diffusion condensation, a multi-scale topological data analysis approach, to dynamically coarse-grain these embedding vectors at all levels of granularity. The final outcome is a series of coarse-to-fine segmentations that highlight image structures at various scales. In this work, we show successful multi-scale segmentation on natural images, retinal fundus images, and brain MRI images. Our framework delineates structures and patterns at different scales which, in the cases of medical images, may carry distinct information relevant to clinical interpretation. Quantitatively, our framework demonstrates improvements ranging from 10% to 200% on dice coefficient and Hausdorff distance compared to existing unsupervised methods across three medical image datasets. As we tackle the problem of segmenting medical images at multiple meaningful granularities without relying on any label, we hope to demonstrate the possibility to circumvent tedious and repetitive manual annotations in future practice.
翻訳日:2023-08-09 00:48:09 公開日:2023-08-07
# 仮想光ステージによるポートレート画像のリライトと合成・再適応の学習

Learning to Relight Portrait Images via a Virtual Light Stage and Synthetic-to-Real Adaptation ( http://arxiv.org/abs/2209.10510v2 )

ライセンス: Link先を確認
Yu-Ying Yeh, Koki Nagano, Sameh Khamis, Jan Kautz, Ming-Yu Liu, Ting-Chun Wang(参考訳) 人物の肖像画と対象照明の環境マップが与えられた場合、ポートレートリライティングは、対象照明のある環境に現れたように、画像中の人物を再照明することを目的としている。 高品質な結果を得るために、近年の手法はディープラーニングに依存している。 効果的なアプローチは、光ステージでキャプチャされた、望ましい入出力ペアの忠実度の高いデータセットでディープニューラルネットワークのトレーニングを監督することである。 しかし、そのようなデータを取得するには高価な特別なキャプチャリグと時間を要する作業が必要であり、少数のリソースに満ちた研究所へのアクセスは制限されている。 この制限に対処するため,光ステージを必要とせずにSOTA(State-of-the-art Relighting)手法に匹敵する新しい手法を提案する。 我々のアプローチは、肖像画のリライティングの成功は2つの条件に依存するという認識に基づいている。 まず、物理的なリライティングの振る舞いを模倣する必要がある。 第二に、出力はフォトリアリスティックでなければならない。 第1の条件を満たすために,様々な3d合成人間に対して異なる環境マップ下で物理的にレンダリングを行う仮想光ステージによって生成されたトレーニングデータを用いて,リライトネットワークを訓練することを提案する。 第2の条件を満たすために,光合成から現実への新たなアプローチを開発した。 sota結果の達成に加えて,メガネのグラアの制御性向上や映像のリライトにおける時間的一貫性の向上など,従来の手法よりもいくつかの利点がある。

Given a portrait image of a person and an environment map of the target lighting, portrait relighting aims to re-illuminate the person in the image as if the person appeared in an environment with the target lighting. To achieve high-quality results, recent methods rely on deep learning. An effective approach is to supervise the training of deep neural networks with a high-fidelity dataset of desired input-output pairs, captured with a light stage. However, acquiring such data requires an expensive special capture rig and time-consuming efforts, limiting access to only a few resourceful laboratories. To address the limitation, we propose a new approach that can perform on par with the state-of-the-art (SOTA) relighting methods without requiring a light stage. Our approach is based on the realization that a successful relighting of a portrait image depends on two conditions. First, the method needs to mimic the behaviors of physically-based relighting. Second, the output has to be photorealistic. To meet the first condition, we propose to train the relighting network with training data generated by a virtual light stage that performs physically-based rendering on various 3D synthetic humans under different environment maps. To meet the second condition, we develop a novel synthetic-to-real approach to bring photorealism to the relighting network output. In addition to achieving SOTA results, our approach offers several advantages over the prior methods, including controllable glares on glasses and more temporally-consistent results for relighting videos.
翻訳日:2023-08-09 00:47:42 公開日:2023-08-07
# LLEDA -- 生涯の自己監督型ドメイン適応

LLEDA -- Lifelong Self-Supervised Domain Adaptation ( http://arxiv.org/abs/2211.09027v3 )

ライセンス: Link先を確認
Mamatha Thota, Dewei Yi and Georgios Leontidis(参考訳) 人間や動物は、これまで獲得した知識を失うことなく、生涯にわたって新しい情報を継続的に学習することができる。 しかし、ニューラルネットワークは古い知識と相反する新しい情報によってこの問題に苦しめられ、破滅的な忘れることになる。 補足学習システム(cls)理論は、海馬と新皮質のシステム間の相互作用によって、哺乳類の脳における長期かつ効率的な学習が可能になることを示唆している。 提案されている生涯の自己教師付きドメイン適応(lleda)フレームワークは、cls理論から着想を得て、2つのネットワーク間の相互作用を模倣している: 海馬に触発されたdaネットワークは、データ分散の変化に素早く適応し、新皮質に触発されたsslネットワークは、徐々にドメインに依存しない一般的な表現を学習する。 LLEDAの潜時リプレイ技術は、過去のメモリ潜時表現を再活性化し再生することでこれらの2つのネットワーク間の通信を容易にする。 大規模な実験により,提案手法は,新たな領域に移動した場合の破滅的な忘れ込みを抑えながら,長期適応を達成できることがわかった。

Humans and animals have the ability to continuously learn new information over their lifetime without losing previously acquired knowledge. However, artificial neural networks struggle with this due to new information conflicting with old knowledge, resulting in catastrophic forgetting. The complementary learning systems (CLS) theory suggests that the interplay between hippocampus and neocortex systems enables long-term and efficient learning in the mammalian brain, with memory replay facilitating the interaction between these two systems to reduce forgetting. The proposed Lifelong Self-Supervised Domain Adaptation (LLEDA) framework draws inspiration from the CLS theory and mimics the interaction between two networks: a DA network inspired by the hippocampus that quickly adjusts to changes in data distribution and an SSL network inspired by the neocortex that gradually learns domain-agnostic general representations. LLEDA's latent replay technique facilitates communication between these two networks by reactivating and replaying the past memory latent representations to stabilise long-term generalisation and retention without interfering with the previously learned information. Extensive experiments demonstrate that the proposed method outperforms several other methods resulting in a long-term adaptation while being less prone to catastrophic forgetting when transferred to new domains.
翻訳日:2023-08-09 00:40:07 公開日:2023-08-07
# QAmeleon: たった5つの例による多言語QA

QAmeleon: Multilingual QA with Only 5 Examples ( http://arxiv.org/abs/2211.08264v2 )

ライセンス: Link先を確認
Priyanka Agrawal, Chris Alberti, Fantine Huot, Joshua Maynez, Ji Ma, Sebastian Ruder, Kuzman Ganchev, Dipanjan Das, Mirella Lapata(参考訳) 大規模で高品質なデータセットの可用性は、質問応答(QA)の最近の進歩の主要な要因のひとつだ。 しかし、このような注釈付きデータセットは収集が困難でコストがかかり、英語以外の言語にはほとんど存在しない。 大きなモノリンガルトレーニングデータセット構築の代替として、数ショットの学習環境下で事前訓練された言語モデル(PLM)を活用する方法がある。 我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルがトレーニングされたマルチ言語データを自動的に生成する。 翻訳ベースのベースラインよりも精度が向上し、英語のみのベースラインと、約50,000のラベル付きサンプルでトレーニングされた上界とのギャップの60%近くを橋渡しし、リソース設定でラベル付きサンプルに直接qaモデルを微調整するよりも、常に大幅に改善される。 TyDiQA-GoldPとMLQAベンチマークの実験では、言語間でのデータ合成スケールのプロンプトチューニングがほとんどなく、大規模なアノテーションの代替となることが示されている。

The availability of large, high-quality datasets has been one of the main drivers of recent progress in question answering (QA). Such annotated datasets however are difficult and costly to collect, and rarely exist in languages other than English, rendering QA technology inaccessible to underrepresented languages. An alternative to building large monolingual training datasets is to leverage pre-trained language models (PLMs) under a few-shot learning setting. Our approach, QAmeleon, uses a PLM to automatically generate multilingual data upon which QA models are trained, thus avoiding costly annotation. Prompt tuning the PLM for data synthesis with only five examples per language delivers accuracy superior to translation-based baselines, bridges nearly 60% of the gap between an English-only baseline and a fully supervised upper bound trained on almost 50,000 hand labeled examples, and always leads to substantial improvements compared to fine-tuning a QA model directly on labeled examples in low resource settings. Experiments on the TyDiQA-GoldP and MLQA benchmarks show that few-shot prompt tuning for data synthesis scales across languages and is a viable alternative to large-scale annotation.
翻訳日:2023-08-09 00:39:43 公開日:2023-08-07
# 多モードPET-CTセグメンテーションのためのハイパーコネクテッドトランスネットワーク

Hyper-Connected Transformer Network for Multi-Modality PET-CT Segmentation ( http://arxiv.org/abs/2210.15808v2 )

ライセンス: Link先を確認
Lei Bi, Michael Fulham, Shaoli Song, David Dagan Feng, Jinman Kim(参考訳) 18F]-フルオロデオキシグルコース(FDG)ポジトロントモグラフィー(PET-CT)は,多くの癌を診断するための画像モダリティとなっている。 PET-CT画像の同時学習は, 自動腫瘍分割とコンピュータ支援癌診断システムの開発に必須である。 本研究では,マルチモードPET-CT画像に対して,トランスフォーマネットワーク(TN)とハイパーコネクテッドフュージョンを統合したハイパーコネクテッドトランスフォーマ(HCT)ネットワークを提案する。 tnは、画像全体のコンテキスト情報をキャプチャするセルフアテンション機構を備えたイメージパッチ埋め込みを使用することで、画像特徴学習にグローバル依存性を提供する能力として活用された。 我々はTNの単一モダリティ定義を複数のTNベースブランチで拡張し,画像の特徴を別々に抽出した。 また,複数のトランスフォーマーにまたがる文脈的かつ補完的な画像特徴を反復的に融合するハイパーコネクテッドフュージョンも導入した。 2つの臨床データセットを用いた結果から,hctは従来の手法と比較して分節精度が向上した。

[18F]-Fluorodeoxyglucose (FDG) positron emission tomography - computed tomography (PET-CT) has become the imaging modality of choice for diagnosing many cancers. Co-learning complementary PET-CT imaging features is a fundamental requirement for automatic tumor segmentation and for developing computer aided cancer diagnosis systems. In this study, we propose a hyper-connected transformer (HCT) network that integrates a transformer network (TN) with a hyper connected fusion for multi-modality PET-CT images. The TN was leveraged for its ability to provide global dependencies in image feature learning, which was achieved by using image patch embeddings with a self-attention mechanism to capture image-wide contextual information. We extended the single-modality definition of TN with multiple TN based branches to separately extract image features. We also introduced a hyper connected fusion to fuse the contextual and complementary image features across multiple transformers in an iterative manner. Our results with two clinical datasets show that HCT achieved better performance in segmentation accuracy when compared to the existing methods.
翻訳日:2023-08-09 00:38:42 公開日:2023-08-07
# calochallengeデータセット1のためのcaloflow

CaloFlow for CaloChallenge Dataset 1 ( http://arxiv.org/abs/2210.14245v2 )

ライセンス: Link先を確認
Claudius Krause, Ian Pang, David Shih(参考訳) caloflowは、流れの正規化に基づく高速熱量計シミュレーションの新しい有望なアプローチである。 高速カロリメータシミュレーションチャレンジ2022のデータセット1の光子と荷電ピオンGeant4シャワーにCaloFlowを適用することで、Geant4より数桁速いサンプリング時間で高忠実度サンプルを作成できることを示す。 本研究では, カロリメータシャワー画像, 高レベル特徴のヒストグラム, およびジェアント4試料とカロフローを区別する分類器などの総合指標を用いて, 試料の忠実度を示す。

CaloFlow is a new and promising approach to fast calorimeter simulation based on normalizing flows. Applying CaloFlow to the photon and charged pion Geant4 showers of Dataset 1 of the Fast Calorimeter Simulation Challenge 2022, we show how it can produce high-fidelity samples with a sampling time that is several orders of magnitude faster than Geant4. We demonstrate the fidelity of the samples using calorimeter shower images, histograms of high-level features, and aggregate metrics such as a classifier trained to distinguish CaloFlow from Geant4 samples.
翻訳日:2023-08-09 00:38:24 公開日:2023-08-07
# 帰納的行動推論

Abductive Action Inference ( http://arxiv.org/abs/2210.13984v4 )

ライセンス: Link先を確認
Clement Tan, Chai Kiat Yeo, Cheston Tan, Basura Fernando(参考訳) 帰納的推論(abductive reasoning)は、与えられた不完全な観測集合の最も可能性の高い推論を行うことを目的としている。 本稿では,1枚のスナップショットに示される特定の状態に到達するために,人間がどの動作を実行したのかという問題に対処する,「帰納的行動推論」と呼ばれる新しい研究課題を紹介する。 本研究は,行動セット予測,行動シーケンス予測,帰納的行動検証という3つの重要な帰納的推論問題を考察した。 これらの課題に対処するために,Transformers, Graph Neural Networks, CLIP, BLIP, GPT3, エンドツーエンドトレーニングSlow-Fast, Resnet50-3D, ViTモデルなどの確立したモデルについて検討する。 さらに,リレーショナルグラフニューラルネットワーク,リレーショナル双線形プールモデル,リレーショナルルールベース推論モデル,リレーショナルGAT-3プロンプト手法,リレーショナルトランスフォーマーモデルなど,帰納的行動推論に適した革新的なモデルをいくつか紹介する。 特に、新たに提案されたオブジェクト-リレーショナルビリニアグラフエンコーダ-デコーダ(BiGED)モデルは、評価されたすべてのメソッドの中で最も効果的であり、Action Genomeデータセットの複雑な処理に優れた習熟度を示す。 この研究の貢献は、人間の行動の意味を理解する上で大きな進歩をもたらし、これらの行動の結果について非常に妥当な推測を行う。

Abductive reasoning aims to make the most likely inference for a given set of incomplete observations. In this paper, we introduce a novel research task known as "abductive action inference" which addresses the question of which actions were executed by a human to reach a specific state shown in a single snapshot. The research explores three key abductive inference problems: action set prediction, action sequence prediction, and abductive action verification. To tackle these challenging tasks, we investigate various models, including established ones such as Transformers, Graph Neural Networks, CLIP, BLIP, GPT3, end-to-end trained Slow-Fast, Resnet50-3D, and ViT models. Furthermore, the paper introduces several innovative models tailored for abductive action inference, including a relational graph neural network, a relational bilinear pooling model, a relational rule-based inference model, a relational GPT-3 prompt method, and a relational Transformer model. Notably, the newly proposed object-relational bilinear graph encoder-decoder (BiGED) model emerges as the most effective among all methods evaluated, demonstrating good proficiency in handling the intricacies of the Action Genome dataset. The contributions of this research offer significant progress toward comprehending the implications of human actions and making highly plausible inferences concerning the outcomes of these actions.
翻訳日:2023-08-09 00:38:11 公開日:2023-08-07
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v6 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。 リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically).
翻訳日:2023-08-09 00:29:58 公開日:2023-08-07
# スペクトル正規化核2サンプルテスト

Spectral Regularized Kernel Two-Sample Tests ( http://arxiv.org/abs/2212.09201v2 )

ライセンス: Link先を確認
Omar Hagrass, Bharath K. Sriperumbudur and Bing Li(参考訳) 過去10年間で、一般(すなわち非ユークリッド)領域における非パラメトリックテスト問題に取り組むために多くの人気を得たアプローチは、確率分布を埋め込むカーネルヒルベルト空間(RKHS)の再生の概念に基づいている。 私たちの研究の主な目標は、このアプローチに基づいて構築された2サンプルテストの最適性を理解することです。 まず,一般的なMDD (maximum mean discrepancy) 2サンプル試験は,Hellinger距離で測定された分離境界において最適ではないことを示す。 第2に,共分散情報(mmdテストでは捉えられていない)を考慮してスペクトル正規化に基づくmmdテストの修正を提案し,mmdテストで達成されたより小さい分離境界でミニマックス最適であることを示す。 第3に、正規化パラメータを選択し、適応テストが対数係数までほぼ極小であることを示すためのデータ駆動型戦略を含む、上記のテストの適応バージョンを提案する。 さらに,テストしきい値がエレガントに選択されるテストの置換変種について,サンプルの置換により検討した。 合成および実世界のデータに関する数値実験を通じて,提案試験のMDD試験と比較して優れた性能を示す。

Over the last decade, an approach that has gained a lot of popularity to tackle non-parametric testing problems on general (i.e., non-Euclidean) domains is based on the notion of reproducing kernel Hilbert space (RKHS) embedding of probability distributions. The main goal of our work is to understand the optimality of two-sample tests constructed based on this approach. First, we show that the popular MMD (maximum mean discrepancy) two-sample test is not optimal in terms of the separation boundary measured in Hellinger distance. Second, we propose a modification to the MMD test based on spectral regularization by taking into account the covariance information (which is not captured by the MMD test) and prove the proposed test to be minimax optimal with a smaller separation boundary than that achieved by the MMD test. Third, we propose an adaptive version of the above test which involves a data-driven strategy to choose the regularization parameter and show the adaptive test to be almost minimax optimal up to a logarithmic factor. Moreover, our results hold for the permutation variant of the test where the test threshold is chosen elegantly through the permutation of the samples. Through numerical experiments on synthetic and real-world data, we demonstrate the superior performance of the proposed test in comparison to the MMD test.
翻訳日:2023-08-09 00:29:49 公開日:2023-08-07
# 構造化知識と統一検索生成によるマルチモーダル・マルチホップ質問応答の強化

Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation ( http://arxiv.org/abs/2212.08632v2 )

ライセンス: Link先を確認
Qian Yang, Qian Chen, Wen Wang, Baotian Hu, Min Zhang(参考訳) マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。 既存の手法は、しばしば別々に証拠を検索し、その証拠に基づいて回答を生成するために言語モデルを使用するため、候補を適切に結合せず、検索中に相互依存関係をモデル化できない。 また,検索と生成のパイプライン化手法は,検索性能が低ければ生成性能が低下する可能性がある。 そこで本研究では,構造化知識と統一検索生成(skurg)手法を提案する。 SKURGはエンティティ中心のFusion Encoderを使用して、共有エンティティを使用して異なるモダリティからのソースをアライメントする。 次に、統合された検索生成デコーダを使用して、回答生成のための中間検索結果を統合し、検索ステップ数を適応的に決定する。 2つの代表的なマルチモーダルマルチホップQAデータセットに関する大規模な実験により、MultimodalQAとWebQAは、SKURGがより少ないパラメータでソース検索と回答生成性能の両方において最先端モデルより優れていることを示した。 私たちのコードはhttps://github.com/HITsz-TMG/SKURG.comで公開されています。

Multi-modal multi-hop question answering involves answering a question by reasoning over multiple input sources from different modalities. Existing methods often retrieve evidences separately and then use a language model to generate an answer based on the retrieved evidences, and thus do not adequately connect candidates and are unable to model the interdependent relations during retrieval. Moreover, the pipelined approaches of retrieval and generation might result in poor generation performance when retrieval performance is low. To address these issues, we propose a Structured Knowledge and Unified Retrieval-Generation (SKURG) approach. SKURG employs an Entity-centered Fusion Encoder to align sources from different modalities using shared entities. It then uses a unified Retrieval-Generation Decoder to integrate intermediate retrieval results for answer generation and also adaptively determine the number of retrieval steps. Extensive experiments on two representative multi-modal multi-hop QA datasets MultimodalQA and WebQA demonstrate that SKURG outperforms the state-of-the-art models in both source retrieval and answer generation performance with fewer parameters. Our code is available at https://github.com/HITsz-TMG/SKURG.
翻訳日:2023-08-09 00:29:28 公開日:2023-08-07
# scenegate:テキストビジュアル質問応答のためのシーングラフベースのコアテンションネットワーク

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering ( http://arxiv.org/abs/2212.08283v3 )

ライセンス: Link先を確認
Feiqi Cao, Siwen Luo, Felipe Nunez, Zean Wen, Josiah Poon, Caren Han(参考訳) TextVQAのアプローチのほとんどは、単純なトランスフォーマーエンコーダによるオブジェクト、シーンテキスト、質問ワードの統合に焦点を当てている。 しかし、これは異なるモダリティ間の意味的関係をとらえることができない。 本稿では,テキストVQAのためのScene Graphベースのコ・アテンション・ネットワーク(SceneGATE)を提案し,オブジェクト間の意味的関係,光学文字認識(OCR)トークン,質問語について述べる。 これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。 我々は、モーダル間相互作用のガイダンスとして、言語と視覚の間のモーダル内相互作用を捉えるガイド付きアテンションモジュールを開発した。 この2つのモダリティの関係を明確化するために,シーングラフに基づく意味関係認識注意と位置関係認識注意という2つの注意モジュールを提案し,統合した。 我々は2つのベンチマークデータセットであるText-VQAとST-VQAについて広範な実験を行った。 SceneGATE法はシーングラフとそのアテンションモジュールにより既存の手法よりも優れていた。

Most TextVQA approaches focus on the integration of objects, scene texts and question words by a simple transformer encoder. But this fails to capture the semantic relations between different modalities. The paper proposes a Scene Graph based co-Attention Network (SceneGATE) for TextVQA, which reveals the semantic relations among the objects, Optical Character Recognition (OCR) tokens and the question words. It is achieved by a TextVQA-based scene graph that discovers the underlying semantics of an image. We created a guided-attention module to capture the intra-modal interplay between the language and the vision as a guidance for inter-modal interactions. To make explicit teaching of the relations between the two modalities, we proposed and integrated two attention modules, namely a scene graph-based semantic relation-aware attention and a positional relation-aware attention. We conducted extensive experiments on two benchmark datasets, Text-VQA and ST-VQA. It is shown that our SceneGATE method outperformed existing ones because of the scene graph and its attention modules.
翻訳日:2023-08-09 00:29:06 公開日:2023-08-07
# RepQ-ViT:視覚変換器の後の量子化のためのスケール再パラメータ化

RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers ( http://arxiv.org/abs/2212.08254v2 )

ライセンス: Link先を確認
Zhikai Li, Junrui Xiao, Lianwei Yang, and Qingyi Gu(参考訳) トレーニング後量子化(PTQ)は、エンドツーエンドの再トレーニングなしでキャリブレーションを行うための小さなデータセットのみを必要とするもので、軽量で実用的なモデル圧縮技術である。 近年、視覚変換器(ViT)のいくつかのPTQスキームが提示されているが、残念なことに、特に低ビットの場合、それらは非自明な精度劣化に悩まされている。 本稿では,この課題に対処するため,量子化スケール再パラメータ化に基づく新しい ViT 用 PTQ フレームワークである RepQ-ViT を提案する。 repq-vitは量子化と推論のプロセスを分離し、前者は複素量子化器、後者はスケール再パラメータ化簡易量子化器を用いる。 これにより、正確な量子化と効率的な推論の両方が保証され、ターゲットハードウェアを満たすために量子化性能を犠牲にする既存のアプローチと区別される。 より具体的には、極端分布を持つ2つのコンポーネントに焦点を当てる: チャネル間の激しいアクティベーションと、パワーロー特徴を持つソフトマックスアクティベーションと、それぞれチャネルワイド量子化とlog$\sqrt{2}$量子化をそれぞれ適用する。 次に,ハードウェアフレンドリーなレイヤワイズ量子化とlog2量子化にスケールを再パラメータ化し,精度や計算コストを小さく抑えながら推論を行う。 異なるモデル変種を持つ複数の視覚タスクについて広範な実験が行われ、ハイパーパラメータと高価な再構成手順なしでrepq-vitが既存の強力なベースラインよりも優れており、4ビットのvitsのptqの精度を有益に向上できることが証明された。 コードはhttps://github.com/zkkli/RepQ-ViT.comで入手できる。

Post-training quantization (PTQ), which only requires a tiny dataset for calibration without end-to-end retraining, is a light and practical model compression technique. Recently, several PTQ schemes for vision transformers (ViTs) have been presented; unfortunately, they typically suffer from non-trivial accuracy degradation, especially in low-bit cases. In this paper, we propose RepQ-ViT, a novel PTQ framework for ViTs based on quantization scale reparameterization, to address the above issues. RepQ-ViT decouples the quantization and inference processes, where the former employs complex quantizers and the latter employs scale-reparameterized simplified quantizers. This ensures both accurate quantization and efficient inference, which distinguishes it from existing approaches that sacrifice quantization performance to meet the target hardware. More specifically, we focus on two components with extreme distributions: post-LayerNorm activations with severe inter-channel variation and post-Softmax activations with power-law features, and initially apply channel-wise quantization and log$\sqrt{2}$ quantization, respectively. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference, with only slight accuracy or computational costs. Extensive experiments are conducted on multiple vision tasks with different model variants, proving that RepQ-ViT, without hyperparameters and expensive reconstruction procedures, can outperform existing strong baselines and encouragingly improve the accuracy of 4-bit PTQ of ViTs to a usable level. Code is available at https://github.com/zkkli/RepQ-ViT.
翻訳日:2023-08-09 00:28:49 公開日:2023-08-07
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v9 )

ライセンス: Link先を確認
Yikun Bai and Berhnard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2023-08-09 00:28:16 公開日:2023-08-07
# ニューラルネットワーク制御器を用いた非線形力学系の区間到達性

Interval Reachability of Nonlinear Dynamical Systems with Neural Network Controllers ( http://arxiv.org/abs/2301.07912v2 )

ライセンス: Link先を確認
Saber Jafarpour, Akash Harapanahalli, Samuel Coogan(参考訳) 本稿では、ニューラルネットワークコントローラを用いた非線形連続時間力学系の厳密な検証のための区間解析に基づく計算効率の良いフレームワークを提案する。 ニューラルネットワークが与えられた場合、既存の検証アルゴリズムを使用して、入出力動作の包含関数を構築する。 混合単調理論に着想を得て, ニューラルネットワークの包含関数と開ループ系の分解関数を用いて, 閉ループダイナミクスをより大きな系に組み込む。 この埋め込みは、システムの非線形構造を保ちながら、神経制御ループの安全性解析にスケーラブルなアプローチを提供する。 埋め込みシステムの単一の軌跡を用いて,到達可能な集合の超矩形超近似を効率的に計算できることを示す。 我々は,この計算の利点を分割戦略によって活用するアルゴリズムを設計し,その実行時と調整可能なパラメータのバランスを保ちながら,到達可能な集合の推定値を改善する。 このアルゴリズムの性能を2つのケーススタディで実証する。 まず,複素非線形環境におけるこの手法の強みを示す。 そこで,本手法は線形離散化システムにおける最先端検証アルゴリズムの性能に適合することを示す。

This paper proposes a computationally efficient framework, based on interval analysis, for rigorous verification of nonlinear continuous-time dynamical systems with neural network controllers. Given a neural network, we use an existing verification algorithm to construct inclusion functions for its input-output behavior. Inspired by mixed monotone theory, we embed the closed-loop dynamics into a larger system using an inclusion function of the neural network and a decomposition function of the open-loop system. This embedding provides a scalable approach for safety analysis of the neural control loop while preserving the nonlinear structure of the system. We show that one can efficiently compute hyper-rectangular over-approximations of the reachable sets using a single trajectory of the embedding system. We design an algorithm to leverage this computational advantage through partitioning strategies, improving our reachable set estimates while balancing its runtime with tunable parameters. We demonstrate the performance of this algorithm through two case studies. First, we demonstrate this method's strength in complex nonlinear environments. Then, we show that our approach matches the performance of the state-of-the art verification algorithm for linear discretized systems.
翻訳日:2023-08-09 00:21:45 公開日:2023-08-07
# TikTalk: リアルタイムのマルチモーダルチャットのためのビデオベースの対話データセット

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World ( http://arxiv.org/abs/2301.05880v2 )

ライセンス: Link先を確認
Hongpeng Lin, Ludan Ruan, Wenke Xia, Peiyu Liu, Jingyuan Wen, Yixin Xu, Di Hu, Ruihua Song, Wayne Xin Zhao, Qin Jin and Zhiwu Lu(参考訳) マルチモーダルコンテキストを用いた知的・人間的なチャットボットの研究を容易にするため,TikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。 人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。 ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。 従来のマルチモーダル対話データセットと比較して、TikTalkのよりリッチなコンテキストタイプは、より多様な会話をもたらす一方で、複雑なマルチモーダル情報からパーソナライズされた応答を生成することの難しさも増す。 さらに、外部知識はデータセットでより頻繁に引き起こされます。 これらの事実はマルチモーダル対話モデルの新たな課題を明らかにする。 そこで,tiktalkの特徴を定量的に示し,ビデオベースのマルチモーダルチットチャットタスクを提案し,対話ベースラインの評価を行った。 実験結果から,大規模言語モデル(LLM)を組み込んだモデルの方が,より多様な応答を生成できることがわかった。 さらに、上記のすべての課題を、既存のモデルはうまく解決できない。 ビジュアル拡張を備えた LLM においても,今後の改善の余地は大きい。 我々のデータセットは \url{https://ruc-aimind.github.io/projects/TikTalk/} で利用可能です。

To facilitate the research on intelligent and human-like chatbots with multi-modal context, we introduce a new video-based multi-modal dialogue dataset, called TikTalk. We collect 38K videos from a popular video-sharing platform, along with 367K conversations posted by users beneath them. Users engage in spontaneous conversations based on their multi-modal experiences from watching videos, which helps recreate real-world chitchat context. Compared to previous multi-modal dialogue datasets, the richer context types in TikTalk lead to more diverse conversations, but also increase the difficulty in capturing human interests from intricate multi-modal information to generate personalized responses. Moreover, external knowledge is more frequently evoked in our dataset. These facts reveal new challenges for multi-modal dialogue models. We quantitatively demonstrate the characteristics of TikTalk, propose a video-based multi-modal chitchat task, and evaluate several dialogue baselines. Experimental results indicate that the models incorporating large language models (LLM) can generate more diverse responses, while the model utilizing knowledge graphs to introduce external knowledge performs the best overall. Furthermore, no existing model can solve all the above challenges well. There is still a large room for future improvements, even for LLM with visual extensions. Our dataset is available at \url{https://ruc-aimind.github.io/projects/TikTalk/}.
翻訳日:2023-08-09 00:21:27 公開日:2023-08-07
# 連続学習のための潜在スペクトル規則化

Latent Spectral Regularization for Continual Learning ( http://arxiv.org/abs/2301.03345v3 )

ライセンス: Link先を確認
Emanuele Frascaroli, Riccardo Benaglia, Matteo Boschini, Luca Moschella, Cosimo Fiorini, Emanuele Rodol\`a, Simone Calderara(参考訳) 新しい知識が生涯にわたって収集されるにつれて、生物学的知性は有機的に成長するが、ニューラルネットワークはトレーニングデータ分布の変化に直面すると壊滅的に忘れてしまう。 リハーサルベースの連続学習(CL)アプローチは、この制限を克服するための汎用的で信頼性の高いソリューションとして確立されているが、突然の入力障害とメモリ制約は予測の一貫性を変えることが知られている。 本研究は,学習者の潜在空間の幾何学的特徴を調査し,異なるクラスのデータポイントがより混ざり合うことを発見し,分類を補う。 そこで我々は,潜在空間のラプラシアンスペクトルに対する弱い要求を強制し,分割行動を促進する幾何学的正則化器を提案する。 提案手法はCaSpeR(Continuous Spectral Regularizer)と呼ばれ,任意のリハーサルベースのCLアプローチと容易に組み合わせて,標準ベンチマーク上でのSOTA法の性能を向上させることができることを示す。 最後に、CaSpeRの効果と適用性に関する洞察を提供するために、さらなる分析を行う。

While biological intelligence grows organically as new knowledge is gathered throughout life, Artificial Neural Networks forget catastrophically whenever they face a changing training data distribution. Rehearsal-based Continual Learning (CL) approaches have been established as a versatile and reliable solution to overcome this limitation; however, sudden input disruptions and memory constraints are known to alter the consistency of their predictions. We study this phenomenon by investigating the geometric characteristics of the learner's latent space and find that replayed data points of different classes increasingly mix up, interfering with classification. Hence, we propose a geometric regularizer that enforces weak requirements on the Laplacian spectrum of the latent space, promoting a partitioning behavior. We show that our proposal, called Continual Spectral Regularizer (CaSpeR), can be easily combined with any rehearsal-based CL approach and improves the performance of SOTA methods on standard benchmarks. Finally, we conduct additional analysis to provide insights into CaSpeR's effects and applicability.
翻訳日:2023-08-09 00:20:15 公開日:2023-08-07
# ハイパーパラメータ最適化による自律走行システムのモデルパラメータ同定

Model Parameter Identification via a Hyperparameter Optimization Scheme for Autonomous Racing Systems ( http://arxiv.org/abs/2301.01470v5 )

ライセンス: Link先を確認
Hyunki Seong, Chanyoung Chung, and David Hyunchul Shim(参考訳) 本稿では,ハイパーパラメータ最適化方式(MI-HPO)を用いたモデルパラメータ同定手法を提案する。 提案手法は,データ駆動最適化方式で動的モデルのパラメータを同定する効率的な探索探索戦略を採用する。 本手法は,フルスケールの自動運転車であるAV-21のモデルパラメータ同定に有効である。 次に、モデルベースの計画・制御システムの設計に最適化されたパラメータを組み込む。 実験では、MI-HPOは従来のパラメータ同定法より13倍以上早く収束している。 さらに、MI-HPOを用いて学習したパラメトリックモデルは、与えられたデータセットに適合し、目に見えない動的シナリオにおける一般化能力を示す。 我々はさらに,インディアナポリス・モーター・スピードウェイとラスベガス・モーター・スピードウェイで,安定的な障害物回避と最高217km/hの高速走行を実証し,モデルベースのシステムを検証するための広範囲なフィールドテストを実施した。 私たちの仕事とテストのビデオのソースコードは、https://github.com/hynkis/mi-hpoで閲覧できます。

In this letter, we propose a model parameter identification method via a hyperparameter optimization scheme (MI-HPO). Our method adopts an efficient explore-exploit strategy to identify the parameters of dynamic models in a data-driven optimization manner. We utilize our method for model parameter identification of the AV-21, a full-scaled autonomous race vehicle. We then incorporate the optimized parameters for the design of model-based planning and control systems of our platform. In experiments, MI-HPO exhibits more than 13 times faster convergence than traditional parameter identification methods. Furthermore, the parametric models learned via MI-HPO demonstrate good fitness to the given datasets and show generalization ability in unseen dynamic scenarios. We further conduct extensive field tests to validate our model-based system, demonstrating stable obstacle avoidance and high-speed driving up to 217 km/h at the Indianapolis Motor Speedway and Las Vegas Motor Speedway. The source code for our work and videos of the tests are available at https://github.com/hynkis/MI-HPO.
翻訳日:2023-08-09 00:19:57 公開日:2023-08-07
# FFNeRV:ビデオ用フローガイドフレームワイズニューラル表現

FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos ( http://arxiv.org/abs/2212.12294v2 )

ライセンス: Link先を確認
Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Eunbyung Park(参考訳) 座標に基づくあるいは暗黙の神経表現としても知られる神経場は、様々な種類の信号の表現、生成、操作の顕著な能力を示している。 しかし、映像表現では、RGB色に画素ワイド座標をマッピングすると、圧縮性能は比較的低く、収束速度や推論速度は遅い。 近年,時間座標をフレーム全体にマッピングするフレームワイドビデオ表現が,ビデオ表現の代替手法として登場し,圧縮率の向上と符号化速度の向上を実現している。 有望だが、最先端のビデオ圧縮アルゴリズムのパフォーマンスには達していない。 本研究では,標準ビデオコーデックにインスパイアされたビデオのフレーム間の時間的冗長性を利用するために,フレーム毎の表現にフロー情報を組み込む新しい手法であるffnervを提案する。 さらに,一次元時間格子によって実現される完全畳み込み構造を導入し,空間的特徴の連続性を改善する。 実験の結果,ffnervはフレームワイズ表現やニューラルフィールドを用いた手法において,映像圧縮とフレーム補間に最適な性能を示すことがわかった。 さらにモデルサイズを小さくするために,よりコンパクトな畳み込みアーキテクチャをgroupとpointwise畳み込みを用いて考案する。 量子化学習やエントロピー符号化などのモデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。

Neural fields, also known as coordinate-based or implicit neural representations, have shown a remarkable capability of representing, generating, and manipulating various forms of signals. For video representations, however, mapping pixel-wise coordinates to RGB colors has shown relatively low compression performance and slow convergence and inference speed. Frame-wise video representation, which maps a temporal coordinate to its entire frame, has recently emerged as an alternative method to represent videos, improving compression rates and encoding speed. While promising, it has still failed to reach the performance of state-of-the-art video compression algorithms. In this work, we propose FFNeRV, a novel method for incorporating flow information into frame-wise representations to exploit the temporal redundancy across the frames in videos inspired by the standard video codecs. Furthermore, we introduce a fully convolutional architecture, enabled by one-dimensional temporal grids, improving the continuity of spatial features. Experimental results show that FFNeRV yields the best performance for video compression and frame interpolation among the methods using frame-wise representations or neural fields. To reduce the model size even further, we devise a more compact convolutional architecture using the group and pointwise convolutions. With model compression techniques, including quantization-aware training and entropy coding, FFNeRV outperforms widely-used standard video codecs (H.264 and HEVC) and performs on par with state-of-the-art video compression algorithms.
翻訳日:2023-08-09 00:19:18 公開日:2023-08-07
# ブラックホール複雑化・非破壊・安定化型熱機械

Black Hole complexity, unscrambling, and stabilizer thermal machines ( http://arxiv.org/abs/2212.11337v3 )

ライセンス: Link先を確認
Salvatore F.E. Oliviero, Lorenzo Leone, Seth Lloyd and Alioscia Hamma(参考訳) ブラックホールは、局所的な相関を急速に破壊し、システム全体に情報を拡散するため、情報の高速スクランブルであると考えられている。 ブラックホールの内部ダイナミクスの完全な知識[arxiv:1710.03363]を与えられた場合、この情報は原則的に解明できる。 この研究は、ブラックホールの内部ダイナミクスを知らないとしても、ホーキング放射を観測することで、未知のブラックホールから情報を効率的に復号することができることを示している。 驚くべきことに、急速にスクランブルするが完全にカオスではない未知の内部ダイナミクスを持つブラックホールはクリフォードデコーダを認めている:スクランブルユニタリの突出性は指数関数的に複雑であっても効率的に回復できる。 この回復は、全ての冗長な複雑性がエントロピー、安定化エントロピーとして記述できるため可能である。 非カオスブラックホールの場合、冷凍機のように安定剤のエントロピーを効率的に汲み上げることができる。

Black holes are believed to be fast scramblers of information, as they rapidly destroy local correlations and spread information throughout the system. Unscrambling this information is in principle possible, given perfect knowledge of the black hole internal dynamics[arXiv:1710.03363]. This work shows that even if one doesn't know the internal dynamics of the black hole, information can be efficiently decoded from an unknown black hole by observing the outgoing Hawking radiation. We show that, surprisingly, black holes with an unknown internal dynamics that are rapidly scrambling but not fully chaotic admit Clifford decoders: the salient properties of a scrambling unitary can be efficiently recovered even if exponentially complex. This recovery is possible because all the redundant complexity can be described as an entropy, the stabilizer entropy. We show how for non-chaotic black holes the stabilizer entropy can be efficiently pumped away, just as in a refrigerator.
翻訳日:2023-08-09 00:18:25 公開日:2023-08-07
# パワーの一般化--St{\o}rmerの不等式の再検討

Generalization of the Powers--St{\o}rmer's inequality revisited ( http://arxiv.org/abs/2302.07818v2 )

ライセンス: Link先を確認
Mohsen Kian, Mohammad Sal Moslehian, and Hiroyuki Osaka(参考訳) 2つの量子状態の間を識別する誤差の確率の上限を見つけることに関して、 \begin{align*} \mathrm{tr}(a+b) - \mathrm{tr}|a-b|\leq 2\, \mathrm{tr}\big(f(a)g(b)\big) \end{align*} が任意の正行列モノトーン関数 $f$, ここで $g(x)=x/f(x)$, そしてすべての正行列 $a$ と $b$ に対して成り立つことがよく知られている。 本研究は、この不等式を満たす関数の集合が追加要素を含むことを示し、この主張を支持するための例を示す。 さらに, 上記の不等式の演算子バージョンに基づいて, 演算子単調減少関数の特性を示す。 行列パースペクティブ関数が考慮されるとき、関数と行列不等式を示す。

Relating to finding possible upper bounds for the probability of error for discriminating between two quantum states, it is well-known that \begin{align*} \mathrm{tr}(A+B) - \mathrm{tr}|A-B|\leq 2\, \mathrm{tr}\big(f(A)g(B)\big) \end{align*} holds for every positive matrix monotone function $f$, where $g(x)=x/f(x)$, and all positive matrices $A$ and $B$. This study demonstrates that the set of functions satisfying this inequality includes additional elements and provides illustrative examples to support this claim. Furthermore, the paper presents a characterization of operator monotone decreasing functions based on an operator version of the above inequality. functions and present a matrix inequality, when the matrix perspective function is considered.
翻訳日:2023-08-09 00:10:43 公開日:2023-08-07
# 地球観測のための衛星ミッション計画への量子アルゴリズムの適用

Quantum algorithms applied to satellite mission planning for Earth observation ( http://arxiv.org/abs/2302.07181v2 )

ライセンス: Link先を確認
Serge Rainjonneau, Igor Tokarev, Sergei Iudin, Saaketh Rayaprolu, Karan Pinto, Daria Lemtiuzhnikova, Miras Koblan, Egor Barashov, Mo Kordzanganeh, Markus Pflitsch, Alexey Melnikov(参考訳) 地球イメージング衛星は、産業活動のグローバルな追跡を可能にする日常生活の重要な部分である。 ユースケースは、天気予報からデジタル地図、炭素の足跡追跡、植生モニタリングまで、多くのアプリケーションに及ぶ。 しかし、衛星は製造が難しく、メンテナンスが高価で、軌道に打ち上げるのが難しいという制限がある。 そのため、衛星を効率的に使用する必要がある。 これは、大規模な解決を計算的に禁止できる衛星ミッション計画問題として知られる課題である。 しかし、グリーディ強化学習や最適化アルゴリズムのような最適に近いアルゴリズムは、しばしば十分な解像度を提供する。 本稿では、ミッション計画問題の解決と、これまでに実装された古典的アルゴリズムに対する利点を示すために、量子アルゴリズムのセットを紹介する。 この問題は、何千ものタスクと複数の衛星を含む実際のデータセットで完了した高優先度タスクの数を最大化するものとして定式化されている。 この研究は、ソリューションチェーンとクラスタリング、最適化、機械学習アルゴリズムが最適なソリューションの最大の可能性を提供することを示した。 本稿では,ハイブリダイド量子強化学習エージェントが高優先度タスクに対して98.5%の完了率を達成でき,75.8%の完成率でベースライングリード法を大幅に改善できることを示す。 この研究の結果は、宇宙産業における量子可能ソリューションへの道のり、そしてより一般的には、産業全体にわたる将来のミッションプランニング問題への道を開いた。

Earth imaging satellites are a crucial part of our everyday lives that enable global tracking of industrial activities. Use cases span many applications, from weather forecasting to digital maps, carbon footprint tracking, and vegetation monitoring. However, there are limitations; satellites are difficult to manufacture, expensive to maintain, and tricky to launch into orbit. Therefore, satellites must be employed efficiently. This poses a challenge known as the satellite mission planning problem, which could be computationally prohibitive to solve on large scales. However, close-to-optimal algorithms, such as greedy reinforcement learning and optimization algorithms, can often provide satisfactory resolutions. This paper introduces a set of quantum algorithms to solve the mission planning problem and demonstrate an advantage over the classical algorithms implemented thus far. The problem is formulated as maximizing the number of high-priority tasks completed on real datasets containing thousands of tasks and multiple satellites. This work demonstrates that through solution-chaining and clustering, optimization and machine learning algorithms offer the greatest potential for optimal solutions. This paper notably illustrates that a hybridized quantum-enhanced reinforcement learning agent can achieve a completion percentage of 98.5% over high-priority tasks, significantly improving over the baseline greedy methods with a completion rate of 75.8%. The results presented in this work pave the way to quantum-enabled solutions in the space industry and, more generally, future mission planning problems across industries.
翻訳日:2023-08-09 00:09:59 公開日:2023-08-07
# フェデレーション・サバイバル・フォレスト

Federated Survival Forests ( http://arxiv.org/abs/2302.02807v2 )

ライセンス: Link先を確認
Alberto Archetti, Matteo Matteucci(参考訳) サバイバル分析(Survival analysis)は、人口に対する特定の関心事の発生時刻をモデル化する統計のサブフィールドである。 生存分析は医療、工学、社会科学に広く応用された。 しかし、現実世界のアプリケーションは、分散、不完全、検閲、機密のサバイバルデータセットを含む。 この文脈では、連合学習は生存分析アプリケーションの性能を大幅に向上させることができる。 フェデレーション学習は、ユーザのプライバシを損なうことなく、複数のデータセット上で機械学習モデルを共同でトレーニングする、一連のプライバシ保護技術を提供する。 しかし、近年のai研究における連合学習の広範な発展にもかかわらず、連合生存分析に焦点を当てた研究は少ない。 本研究では,最も成功した生存モデルであるランダム生存林に基づく生存分析のための新しいフェデレーションアルゴリズムを提案する。 提案手法をFedSurF(Federated Survival Forest)と呼ぶ。 単一のコミュニケーションラウンドによって、federfは数百のフェデレーションでトレーニングされたディープラーニングベースのフェデレーションモデルに匹敵する識別能力を得る。 さらに、FedSurFはランダムな森林の利点、すなわち計算コストの低いことと、不足した値と不完全なデータセットの自然な処理を全て保持する。 これらの利点は、計算能力の低いデバイスに複数の小さなデータセットを格納した現実世界のフェデレーション環境で特に望ましい。 数値実験により、FedSurFとフェデレーションネットワークの最先端サバイバルモデルを比較し、FedSurFが非同一分散データを用いた現実的な環境でのディープラーニングベースのフェデレーションアルゴリズムよりも優れていることを示す。

Survival analysis is a subfield of statistics concerned with modeling the occurrence time of a particular event of interest for a population. Survival analysis found widespread applications in healthcare, engineering, and social sciences. However, real-world applications involve survival datasets that are distributed, incomplete, censored, and confidential. In this context, federated learning can tremendously improve the performance of survival analysis applications. Federated learning provides a set of privacy-preserving techniques to jointly train machine learning models on multiple datasets without compromising user privacy, leading to a better generalization performance. However, despite the widespread development of federated learning in recent AI research, few studies focus on federated survival analysis. In this work, we present a novel federated algorithm for survival analysis based on one of the most successful survival models, the random survival forest. We call the proposed method Federated Survival Forest (FedSurF). With a single communication round, FedSurF obtains a discriminative power comparable to deep-learning-based federated models trained over hundreds of federated iterations. Moreover, FedSurF retains all the advantages of random forests, namely low computational cost and natural handling of missing values and incomplete datasets. These advantages are especially desirable in real-world federated environments with multiple small datasets stored on devices with low computational capabilities. Numerical experiments compare FedSurF with state-of-the-art survival models in federated networks, showing how FedSurF outperforms deep-learning-based federated algorithms in realistic environments with non-identically distributed data.
翻訳日:2023-08-09 00:09:08 公開日:2023-08-07
# スクリーニング分類器の群内公正性について

On the Within-Group Fairness of Screening Classifiers ( http://arxiv.org/abs/2302.00025v2 )

ライセンス: Link先を確認
Nastaran Okati, Stratis Tsirtsis and Manuel Gomez Rodriguez(参考訳) スクリーニング分類器は、様々な選択プロセスにおいて資格のある候補を特定するためにますます使われる。 この文脈では、分類器が校正された場合、期待して、しきい値決定規則を用いて所望の適格候補数を含む最小の候補を特定できることが最近示されている。 これにより、分類器をスクリーニングする唯一の要件としてキャリブレーションにフォーカスするサポートが提供される。 本稿では, 校正された分類器を用いたスクリーニング政策は, 不当な集団内不公平性に苦しむ可能性があることを論じる。 さらに、分類器が各群内の自然な単調性である内群単調性を満たすならば、このような不公平性は避けることができると論じる。 次に,動的計画に基づく効率的な後処理アルゴリズムを導入し,その確率推定がグループ内単調性を満たすように,与えられた校正分類器を最小に修正する。 我々は,US Census Surveyデータを用いて本アルゴリズムを検証し,予測粒度とショートリストサイズの観点から,グループ内単調性が小さいコストで実現できることを示す。

Screening classifiers are increasingly used to identify qualified candidates in a variety of selection processes. In this context, it has been recently shown that, if a classifier is calibrated, one can identify the smallest set of candidates which contains, in expectation, a desired number of qualified candidates using a threshold decision rule. This lends support to focusing on calibration as the only requirement for screening classifiers. In this paper, we argue that screening policies that use calibrated classifiers may suffer from an understudied type of within-group unfairness -- they may unfairly treat qualified members within demographic groups of interest. Further, we argue that this type of unfairness can be avoided if classifiers satisfy within-group monotonicity, a natural monotonicity property within each of the groups. Then, we introduce an efficient post-processing algorithm based on dynamic programming to minimally modify a given calibrated classifier so that its probability estimates satisfy within-group monotonicity. We validate our algorithm using US Census survey data and show that within-group monotonicity can be often achieved at a small cost in terms of prediction granularity and shortlist size.
翻訳日:2023-08-09 00:08:42 公開日:2023-08-07
# 四重星系は必ずしもネストされた三重星ではない--動的安定性に対する機械学習アプローチ

Quadruple-star systems are not always nested triples: a machine learning approach to dynamical stability ( http://arxiv.org/abs/2301.09930v2 )

ライセンス: Link先を確認
Pavan Vynatheya, Rosemary A. Mardling, Adrian S. Hamers(参考訳) 四重星系の動的安定性は伝統的に、四重星を構成する2つの「ネステッド」三重星を含む問題として扱われてきた。 本研究では,機械学習アルゴリズムである多層パーセプトロンを用いて,その安定性(長期有界性)に基づいて2+2および3+1四重項を直接分類した。 分類のためのトレーニングデータセットは、それぞれ$5\times10^5$ quadruplesで構成され、高精度な$n$-bodyコードmstarを使って統合された。 また,ゼロ傾斜系の限定パラメータ空間研究を行い,四重項と三重項を直接比較した。 4重mlpモデルと3重mlpモデルの両方が,特に3+1倍の3重mlpアプローチよりも優れた性能を示した。 2+2 MLPモデルと3+1 MLPモデルの分類精度はそれぞれ94%と93%であり、"nested"三重アプローチのスコアは88%と66%である。 これは四倍体集団合成研究にとって重要な意味を持つ。 MLPモデルは、非常にシンプルで、実装もほぼ瞬間的であり、それらにアクセスするPython3スクリプトとともにGitHubで利用可能です。

The dynamical stability of quadruple-star systems has traditionally been treated as a problem involving two `nested' triples which constitute a quadruple. In this novel study, we employed a machine learning algorithm, the multi-layer perceptron (MLP), to directly classify 2+2 and 3+1 quadruples based on their stability (or long-term boundedness). The training data sets for the classification, comprised of $5\times10^5$ quadruples each, were integrated using the highly accurate direct $N$-body code MSTAR. We also carried out a limited parameter space study of zero-inclination systems to directly compare quadruples to triples. We found that both our quadruple MLP models perform better than a `nested' triple MLP approach, which is especially significant for 3+1 quadruples. The classification accuracies for the 2+2 MLP and 3+1 MLP models are 94% and 93% respectively, while the scores for the `nested' triple approach are 88% and 66% respectively. This is a crucial implication for quadruple population synthesis studies. Our MLP models, which are very simple and almost instantaneous to implement, are available on GitHub, along with Python3 scripts to access them.
翻訳日:2023-08-09 00:07:55 公開日:2023-08-07
# 選択的な説明: 人間の入力を説明可能なAIに活用する

Selective Explanations: Leveraging Human Input to Align Explainable AI ( http://arxiv.org/abs/2301.09656v3 )

ライセンス: Link先を確認
Vivian Lai, Yiming Zhang, Chacha Chen, Q. Vera Liao, Chenhao Tan(参考訳) 近年、説明可能なAI(XAI)アルゴリズムの膨大なコレクションが開発されているが、人間による説明の作り方や消費方法との大きなギャップについてはしばしば批判されている。 その結果、現在のXAI技術は使用が難しく、有効性が欠如していることがしばしば見出される。 本研究では,人間の説明の基本的な特性であるai説明を,受取人の選好と一致するものに基づいて,多数のモデル理由のサブセットを選択的に提示することにより,これらのギャップを解消しようとする。 人間の入力を小さなサンプルに利用して選択的な説明を生成するための一般的なフレームワークを提案する。 このフレームワークは、異なる選択目標、入力の種類などを考慮したリッチな設計空間を開きます。 事例として,意思決定支援タスクを用いて,意思決定者が決定タスクにどう関係するかに基づいて,選択的な説明を探索する。 実験1では,提案する枠組みに基づいて,より広範なパラダイムの3つのうち3つを検討する実験を行った: 実験1では,参加者に対して,オープン・リミテッドと批判的インプットのいずれでも,選択的な説明を生成するための独自のインプットを提供することを依頼する。 研究2では、類似ユーザ(アノテーション)のパネルからの入力に基づいて、参加者の選択的な説明を示す。 我々の実験は、aiへの過度な依存を減らし、aiの判断結果や主観的知覚を改善するための選択的説明の可能性を実証すると同時に、これらのポジティブな効果のいくつかを、aiの説明を補強するための自身のインプットを提供する機会に特徴づけるニュアンス付き図を描いています。 我々の研究は、人間のコミュニケーション行動にインスパイアされた新しいXAIフレームワークを提案し、AI説明と人間の生産と説明の消費をより良く整合させるための今後の作業を促進する可能性を実証している。

While a vast collection of explainable AI (XAI) algorithms have been developed in recent years, they are often criticized for significant gaps with how humans produce and consume explanations. As a result, current XAI techniques are often found to be hard to use and lack effectiveness. In this work, we attempt to close these gaps by making AI explanations selective -- a fundamental property of human explanations -- by selectively presenting a subset from a large set of model reasons based on what aligns with the recipient's preferences. We propose a general framework for generating selective explanations by leveraging human input on a small sample. This framework opens up a rich design space that accounts for different selectivity goals, types of input, and more. As a showcase, we use a decision-support task to explore selective explanations based on what the decision-maker would consider relevant to the decision task. We conducted two experimental studies to examine three out of a broader possible set of paradigms based on our proposed framework: in Study 1, we ask the participants to provide their own input to generate selective explanations, with either open-ended or critique-based input. In Study 2, we show participants selective explanations based on input from a panel of similar users (annotators). Our experiments demonstrate the promise of selective explanations in reducing over-reliance on AI and improving decision outcomes and subjective perceptions of the AI, but also paint a nuanced picture that attributes some of these positive effects to the opportunity to provide one's own input to augment AI explanations. Overall, our work proposes a novel XAI framework inspired by human communication behaviors and demonstrates its potentials to encourage future work to better align AI explanations with human production and consumption of explanations.
翻訳日:2023-08-09 00:07:33 公開日:2023-08-07
# スパイクニューラルネットワークの学習のための記憶と時間効率のバックプロパゲーションに向けて

Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks ( http://arxiv.org/abs/2302.14311v3 )

ライセンス: Link先を確認
Qingyan Meng, Mingqing Xiao, Shen Yan, Yisen Wang, Zhouchen Lin, Zhi-Quan Luo(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。 微分不可能なSNNモデルのトレーニングでは,代用勾配法(SG法)を用いたBPTT法が高性能である。 しかし、この方法はトレーニング中にかなりのメモリコストとトレーニング時間に苦しむ。 本稿では,BPTTと比較して訓練効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 まず、時間領域を通したSNNのバックプロパゲーションは、計算された最終的な勾配にわずかに寄与することを示す。 そこで,バックプロパゲーション中に計算グラフの重要でない経路を無視することを提案する。 提案手法は,スカラー乗算回数を削減し,全体の時間ステップに依存しない小さなメモリ占有を実現する。 さらに, SLTT の変種である SLTT-K を提案し, K 時間ステップでのみバックプロパゲーションが可能であり, 必要なスカラー乗算数が減少し, 総時間ステップに依存しない。 静的およびニューロモルフィックデータセットの実験により,SLTTの訓練効率と性能が向上した。 特に,bpttと比較してメモリコストとトレーニング時間は70%以上,50%以上低減する一方,imagenetでは最先端の精度を実現する。

Spiking Neural Networks (SNNs) are promising energy-efficient models for neuromorphic computing. For training the non-differentiable SNN models, the backpropagation through time (BPTT) with surrogate gradients (SG) method has achieved high performance. However, this method suffers from considerable memory cost and training time during training. In this paper, we propose the Spatial Learning Through Time (SLTT) method that can achieve high performance while greatly improving training efficiency compared with BPTT. First, we show that the backpropagation of SNNs through the temporal domain contributes just a little to the final calculated gradients. Thus, we propose to ignore the unimportant routes in the computational graph during backpropagation. The proposed method reduces the number of scalar multiplications and achieves a small memory occupation that is independent of the total time steps. Furthermore, we propose a variant of SLTT, called SLTT-K, that allows backpropagation only at K time steps, then the required number of scalar multiplications is further reduced and is independent of the total time steps. Experiments on both static and neuromorphic datasets demonstrate superior training efficiency and performance of our SLTT. In particular, our method achieves state-of-the-art accuracy on ImageNet, while the memory cost and training time are reduced by more than 70% and 50%, respectively, compared with BPTT.
翻訳日:2023-08-09 00:01:43 公開日:2023-08-07
# 電流フィードバックによるヒューマノイドの2足歩行学習

Learning Bipedal Walking for Humanoids with Current Feedback ( http://arxiv.org/abs/2303.03724v2 )

ライセンス: Link先を確認
Rohan Pratap Singh, Zhaoming Xie, Pierre Gergondet, Fumio Kanehiro(参考訳) 深層強化学習(rl)技術とシミュレーションのトレーニングを組み合わせた最近の進歩は、脚付きロボットのためのロバストなコントローラの開発に新たなアプローチを提供した。 しかし、実際のハードウェアへのそのようなアプローチの適用は、直接駆動アクチュエータを備えた四足歩行ロボットと低速変速装置を備えた軽量二足歩行ロボットに限られている。 実物大のヒューマノイドロボットへの応用は、大きなsim2realのギャップのため、明らかに一般的ではない。 本稿では,アクチュエータレベルでの不正確なトルク追跡から発生するヒューマノイドロボットのsim2現実的ギャップ問題を効果的に克服する手法を提案する。 本研究の目的は, 実ロボットのアクチュエータからの電流フィードバックを, トルク追跡の貧弱さで人工的に劣化したシミュレーション環境において活用することである。 提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。 また,目的とする動的ランダム化とフィードフォワードポリシアーキテクチャを組み合わせることで,ゼロショットのシム2リアルな成功を達成でき,計算コストのかかるメモリベースのネットワークアーキテクチャの必要性を排除できることを示す。 最後に,提案するrlポリシのロバスト性を検証するために,従来の不均一な地形を歩くためのモデルベースコントローラと実際のロボットとの比較を行った。

Recent advances in deep reinforcement learning (RL) based techniques combined with training in simulation have offered a new approach to developing robust controllers for legged robots. However, the application of such approaches to real hardware has largely been limited to quadrupedal robots with direct-drive actuators and light-weight bipedal robots with low gear-ratio transmission systems. Application to real, life-sized humanoid robots has been less common arguably due to a large sim2real gap. In this paper, we present an approach for effectively overcoming the sim2real gap issue for humanoid robots arising from inaccurate torque-tracking at the actuator level. Our key idea is to utilize the current feedback from the actuators on the real robot, after training the policy in a simulation environment artificially degraded with poor torque-tracking. Our approach successfully trains a unified, end-to-end policy in simulation that can be deployed on a real HRP-5P humanoid robot to achieve bipedal locomotion. Through ablations, we also show that a feedforward policy architecture combined with targeted dynamics randomization is sufficient for zero-shot sim2real success, thus eliminating the need for computationally expensive, memory-based network architectures. Finally, we validate the robustness of the proposed RL policy by comparing its performance against a conventional model-based controller for walking on uneven terrain with the real robot.
翻訳日:2023-08-08 23:49:20 公開日:2023-08-07
# tfheによるプライバシ保存ツリーベース推論

Privacy-Preserving Tree-Based Inference with TFHE ( http://arxiv.org/abs/2303.01254v3 )

ライセンス: Link先を確認
Jordan Frery and Andrei Stoian and Roman Bredehoft and Luis Montero and Celia Kherfallah and Benoit Chevallier-Mames and Arthur Meyre(参考訳) プライバシー強化技術(pets)は、データ分析を許可しながらデータのプライバシーを保護する方法として提案されている。 本研究では、暗号化データ上で任意の計算を実行できる強力なツールであるFully Homomorphic Encryption (FHE)に焦点を当てる。 FHEはここ数年で多くの注目を集め、現実的な実行時間と正確性に達しています。 より正確には、木ベースのモデルにfheを適用する方法を説明し、暗号化された表データに対して最先端のソリューションを得る。 本手法は, 決定木, ランダム林, 勾配増木木など, 幅広い木質モデルに適用可能であり, https://github.com/zama-ai/concrete-ml でオープンソース化された concrete-ML ライブラリ内に実装されている。 選択されたユースケースセットを用いて、FHEバージョンが正確性の観点から、保護されていないバージョンに非常に近いことを示す。

Privacy enhancing technologies (PETs) have been proposed as a way to protect the privacy of data while still allowing for data analysis. In this work, we focus on Fully Homomorphic Encryption (FHE), a powerful tool that allows for arbitrary computations to be performed on encrypted data. FHE has received lots of attention in the past few years and has reached realistic execution times and correctness. More precisely, we explain in this paper how we apply FHE to tree-based models and get state-of-the-art solutions over encrypted tabular data. We show that our method is applicable to a wide range of tree-based models, including decision trees, random forests, and gradient boosted trees, and has been implemented within the Concrete-ML library, which is open-source at https://github.com/zama-ai/concrete-ml. With a selected set of use-cases, we demonstrate that our FHE version is very close to the unprotected version in terms of accuracy.
翻訳日:2023-08-08 23:48:12 公開日:2023-08-07
# AIの民主化 - 複数の意味、目標、方法

Democratising AI: Multiple Meanings, Goals, and Methods ( http://arxiv.org/abs/2303.12642v3 )

ライセンス: Link先を確認
Elizabeth Seger, Aviv Ovadya, Ben Garfinkel, Divya Siddarth, Allan Dafoe(参考訳) 多くの政党がAIの民主化を要求しているが、この言葉は様々な目標を指し、その追求は時折矛盾する。 本稿では,(1)AI利用の民主化,(2)AI開発の民主化,(3)AI利益の民主化,(4)AIガバナンスの民主化の4つについて論じる。 各形態の民主化を達成するための多くの目標と方法について議論する。 この論文の主な特徴は、AIの民主化は、AIアクセシビリティの改善と混同してはならない、多義的で時には矛盾する概念であるということだ。 AIの民主化、具体的な方針とトレードオフに関する生産的な議論、という曖昧なコミットメントを超えて、AIガバナンスの民主化の主要な役割を、使用、開発、利益に関する決定を巡って、トレードオフとリスクをナビゲートするために認識する必要がある。

Numerous parties are calling for the democratisation of AI, but the phrase is used to refer to a variety of goals, the pursuit of which sometimes conflict. This paper identifies four kinds of AI democratisation that are commonly discussed: (1) the democratisation of AI use, (2) the democratisation of AI development, (3) the democratisation of AI profits, and (4) the democratisation of AI governance. Numerous goals and methods of achieving each form of democratisation are discussed. The main takeaway from this paper is that AI democratisation is a multifarious and sometimes conflicting concept that should not be conflated with improving AI accessibility. If we want to move beyond ambiguous commitments to democratising AI, to productive discussions of concrete policies and trade-offs, then we need to recognise the principal role of the democratisation of AI governance in navigating tradeoffs and risks across decisions around use, development, and profits.
翻訳日:2023-08-08 23:42:24 公開日:2023-08-07
# 遅延アウェア階層型連合学習

Delay-Aware Hierarchical Federated Learning ( http://arxiv.org/abs/2303.12414v3 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Nicol\`o Michelusi, Christopher Brinton(参考訳) フェデレーション学習は、ワイヤレスエッジに分散したトレーニングモデルとして人気を集めている。 本稿では、エッジとクラウド間の通信遅延を考慮した分散機械学習(ML)モデルの学習効率を向上させるために、遅延対応階層型学習(DFL)を提案する。 従来のフェデレート学習とは異なり、DFLは、各グローバルアグリゲーション期間内のデバイスデータセット上で複数の確率勾配降下イテレーションを活用し、ローカルサブネットワーク内のエッジサーバを通じてモデルパラメータを断続的に集約する。 グローバル同期の間、クラウドサーバはローカル・グロバル・コンバインダを使用して、時代遅れのグローバルモデルとローカルモデルを統合し、両方の重要な要素を保存し、遅延の有無で学習効率を向上する。 一連の条件が得られ、o(1/k) の部分線形収束率を達成する。 これらの知見に基づき, DFL の適応制御アルゴリズムを開発し, サブ線形収束率を目標として, エネルギー消費と通信遅延を緩和するポリシーを実装した。 数値評価により、dflは、既存のflアルゴリズムよりも高速なグローバルモデル収束、リソース消費の低減、通信遅延に対する堅牢性において優れた性能を示す。 要約すると、この手法は凸損失関数と非凸損失関数の両方を扱う際の効率と結果を改善する。

Federated learning has gained popularity as a means of training models distributed across the wireless edge. The paper introduces delay-aware hierarchical federated learning (DFL) to improve the efficiency of distributed machine learning (ML) model training by accounting for communication delays between edge and cloud. Different from traditional federated learning, DFL leverages multiple stochastic gradient descent iterations on device datasets within each global aggregation period and intermittently aggregates model parameters through edge servers in local subnetworks. During global synchronization, the cloud server consolidates local models with the outdated global model using a local-global combiner, thus preserving crucial elements of both, enhancing learning efficiency under the presence of delay. A set of conditions is obtained to achieve the sub-linear convergence rate of O(1/k). Based on these findings, an adaptive control algorithm is developed for DFL, implementing policies to mitigate energy consumption and communication latency while aiming for a sublinear convergence rate. Numerical evaluations show DFL's superior performance in terms of faster global model convergence, reduced resource consumption, and robustness against communication delays compared to existing FL algorithms. In summary, this proposed method offers improved efficiency and results when dealing with both convex and non-convex loss functions.
翻訳日:2023-08-08 23:42:06 公開日:2023-08-07
# Mimic3D:3Dから2Dの模倣で3D対応のGANを作れる

Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D Imitation ( http://arxiv.org/abs/2303.09036v2 )

ライセンス: Link先を確認
Xingyu Chen, Yu Deng, Baoyuan Wang(参考訳) 光リアリズムとマルチビューの3D整合性の両方で画像を生成することは、3D対応のGANには不可欠である。 CNNベースの2Dスーパーレゾリューションによるフォトリアリズムの改善は、厳密な3D一貫性を損なう可能性がある。 本稿では,3次元レンダリングブランチで生成した画像を2次元スーパーレゾリューションブランチで再現することにより,GANが厳密な3次元一貫性を維持しながら高品質な画像を生成することができる3D-to-2D模倣方式を提案する。 また、3次元表現学習を改善するために3次元認識畳み込みを導入し、画像生成品質をさらに向上させる。 本手法はFFHQとAFHQ-v2のFIDスコア5.4と4.3をそれぞれ512×512の解像度で達成し, 直接3Dレンダリングによる既存の3D認識GANよりも優れ, 2D超解像を利用する従来の最先端手法に非常に近い。 プロジェクトウェブサイト: https://seanchenxy.github.io/Mimic3DWeb

Generating images with both photorealism and multiview 3D consistency is crucial for 3D-aware GANs, yet existing methods struggle to achieve them simultaneously. Improving the photorealism via CNN-based 2D super-resolution can break the strict 3D consistency, while keeping the 3D consistency by learning high-resolution 3D representations for direct rendering often compromises image quality. In this paper, we propose a novel learning strategy, namely 3D-to-2D imitation, which enables a 3D-aware GAN to generate high-quality images while maintaining their strict 3D consistency, by letting the images synthesized by the generator's 3D rendering branch to mimic those generated by its 2D super-resolution branch. We also introduce 3D-aware convolutions into the generator for better 3D representation learning, which further improves the image generation quality. With the above strategies, our method reaches FID scores of 5.4 and 4.3 on FFHQ and AFHQ-v2 Cats, respectively, at 512x512 resolution, largely outperforming existing 3D-aware GANs using direct 3D rendering and coming very close to the previous state-of-the-art method that leverages 2D super-resolution. Project website: https://seanchenxy.github.io/Mimic3DWeb.
翻訳日:2023-08-08 23:40:03 公開日:2023-08-07
# 雑音量子光回路の最適化における二次速度アップ

A Quadratic Speedup in the Optimization of Noisy Quantum Optical Circuits ( http://arxiv.org/abs/2303.08879v2 )

ライセンス: Link先を確認
Robbe De Prins, Yuan Yao, Anuj Apte and Filippo M. Miatto(参考訳) 光子数分解(PNR)検出器を用いた線形光量子回路は、ガウス的ボソンサンプリング(GBS)と、ゴッテマン・キタエフ・プレスキル(GKP)、猫、NOON状態などの非ガウス的状態の生成に用いられている。 量子コンピューティングや量子力学の多くのスキームにおいて重要である。 PNR検出器を用いた古典的な最適化回路は、指数関数的に大きなヒルベルト空間のため困難であり、状態ベクトルが密度行列に置き換えられるにつれてデコヒーレンスの存在が二次的に困難である。 この問題に対処するために、ノイズのないケースに匹敵する複雑さを伴う検出確率、条件状態(回路パラメトリゼーションに関する勾配も含む)を計算するアルゴリズムのファミリーを導入する。 その結果、同じリソースを使って、これまでの2倍のモードで回路をシミュレートし、最適化することができる。 より正確には、検出モードが$D$および未検出モードが$U$の場合、我々のアルゴリズムの複雑さは$O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$であり、$O(M^2 \prod_{i \in D\cup U} C_i^2)$である。 特に,本手法では,全モードが検出される場合と同様に,検出確率を計算するための2次高速化を行う。 最後に、これらのアルゴリズムは実装され、オープンソースのフォトニック最適化ライブラリMrMustardで使用できる。

Linear optical quantum circuits with photon number resolving (PNR) detectors are used for both Gaussian Boson Sampling (GBS) and for the preparation of non-Gaussian states such as Gottesman-Kitaev-Preskill (GKP), cat and NOON states. They are crucial in many schemes of quantum computing and quantum metrology. Classically optimizing circuits with PNR detectors is challenging due to their exponentially large Hilbert space, and quadratically more challenging in the presence of decoherence as state vectors are replaced by density matrices. To tackle this problem, we introduce a family of algorithms that calculate detection probabilities, conditional states (as well as their gradients with respect to circuit parametrizations) with a complexity that is comparable to the noiseless case. As a consequence we can simulate and optimize circuits with twice the number of modes as we could before, using the same resources. More precisely, for an $M$-mode noisy circuit with detected modes $D$ and undetected modes $U$, the complexity of our algorithm is $O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$, rather than $O(M^2 \prod_{i \in D\cup U} C_i^2)$, where $C_i$ is the Fock cutoff of mode $i$. As a particular case, our approach offers a full quadratic speedup for calculating detection probabilities, as in that case all modes are detected. Finally, these algorithms are implemented and ready to use in the open-source photonic optimization library MrMustard.
翻訳日:2023-08-08 23:39:37 公開日:2023-08-07
# Ab initio電子格子ダウンフォールディング:電荷密度波材料におけるポテンシャルエネルギー景観、非調和性、分子動力学

Ab initio electron-lattice downfolding: potential energy landscapes, anharmonicity, and molecular dynamics in charge density wave materials ( http://arxiv.org/abs/2303.07261v2 )

ライセンス: Link先を確認
Arne Schobert, Jan Berges, Erik G. C. P. van Loon, Michael A. Sentef, Sergey Brener, Mariana Rossi, and Tim O. Wehling(参考訳) 電子と核の自由度の相互作用は、凝縮物質物理学と化学において際立った問題をもたらす。 計算上の課題は、特に大規模システム、長期スケール、非平衡システム、強い相関を持つシステムにおいて発生する。 本研究では, ダウンフォールディングアプローチが電子的側面における複雑さの低減を促進し, 電子的性質と核運動のシミュレーション, 特に分子動力学 (md) シミュレーションを促進させることを示す。 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, 1次元炭素鎖を含む選択電荷密度波(CDW)系のフル密度関数計算に対して, 制約, アンスクリーニング, 組み合わせに基づく3つの異なる下降戦略をベンチマークした。 ダウンフォールドモデルはスーパーセル上のポテンシャルエネルギー表面を正確に再現でき、純粋にab initio計算と比較して約5桁のmdシミュレーションで計算速度を上げることができる。 1H-TaS$_2$の場合、古典的なレプリカ交換と量子パス積分MDシミュレーションを報告し、CDW遷移に対する熱的および量子的変動の影響を明らかにした。

The interplay of electronic and nuclear degrees of freedom presents an outstanding problem in condensed matter physics and chemistry. Computational challenges arise especially for large systems, long time scales, in nonequilibrium, or in systems with strong correlations. In this work, we show how downfolding approaches facilitate complexity reduction on the electronic side and thereby boost the simulation of electronic properties and nuclear motion - in particular molecular dynamics (MD) simulations. Three different downfolding strategies based on constraining, unscreening, and combinations thereof are benchmarked against full density functional calculations for selected charge density wave (CDW) systems, namely 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, and a one-dimensional carbon chain. We find that the downfolded models can reproduce potential energy surfaces on supercells accurately and facilitate computational speedup in MD simulations by about five orders of magnitude in comparison to purely ab initio calculations. For monolayer 1H-TaS$_2$ we report classical replica exchange and quantum path integral MD simulations, revealing the impact of thermal and quantum fluctuations on the CDW transition.
翻訳日:2023-08-08 23:38:38 公開日:2023-08-07
# Decoupled One-Pass Networkによるオープンボキャブラリセマンティックセマンティックセグメンテーション

Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network ( http://arxiv.org/abs/2304.01198v2 )

ライセンス: Link先を確認
Cong Han, Yujie Zhong, Dengjie Li, Kai Han, Lin Ma(参考訳) 近年,open-vocabulary semantic segmentation問題に注目が集まっており,提案マスク生成のためのストリームと事前学習されたビジュアル言語モデルを用いたセグメント分類という,2つのストリームネットワークに基づく最適な実行手法が提案されている。 しかし、既存の2ストリーム手法では、非常に非効率な視覚言語モデルに大量の(最大100まで)画像作物を渡す必要がある。 この問題に対処するために、入力画像ごとに視覚言語モデルに1回だけパスする必要のあるネットワークを提案する。 具体的には,まず,事前学習した視覚エンコーダ内のパッチ埋め込み間の有害干渉を制限するために,パッチ切断と呼ぶ新しいネットワーク適応手法を提案する。 そこで我々は,ネットワークがより差別的な特徴に着目するように,分類アンカー学習を提案する。 大規模実験により,提案手法は予測の4倍から7倍の速さで最先端の手法を超越し,優れた性能を発揮することが示された。 コード: https://github.com/conghan0808/deop.git

Recently, the open-vocabulary semantic segmentation problem has attracted increasing attention and the best performing methods are based on two-stream networks: one stream for proposal mask generation and the other for segment classification using a pretrained visual-language model. However, existing two-stream methods require passing a great number of (up to a hundred) image crops into the visual-language model, which is highly inefficient. To address the problem, we propose a network that only needs a single pass through the visual-language model for each input image. Specifically, we first propose a novel network adaptation approach, termed patch severance, to restrict the harmful interference between the patch embeddings in the pre-trained visual encoder. We then propose classification anchor learning to encourage the network to spatially focus on more discriminative features for classification. Extensive experiments demonstrate that the proposed method achieves outstanding performance, surpassing state-of-the-art methods while being 4 to 7 times faster at inference. Code: https://github.com/CongHan0808/DeOP.git
翻訳日:2023-08-08 23:31:36 公開日:2023-08-07
# 超周期的な測定システムと文脈のパターン

Hypercyclic systems of measurements and patterns of contextuality ( http://arxiv.org/abs/2304.01155v3 )

ライセンス: Link先を確認
Victor H. Cervantes and Ehtibar N. Dzhafarov(参考訳) 文脈性の概念の基本的特性に基づいて選択され、外乱の有無にかかわらず任意の測定系に適用できる4つの文脈性尺度を考察する。 測定システムが変化するにつれて、どちらかが変化し、もう一方が一定のままである。 これは文脈性の異なる側面を測定することを意味しており、ある特定の意味での文脈性の尺度を1つだけ選ぶのではなく、それら全てを使って文脈性のパターンによって文脈システムを特徴付けることができると提案した。 しかし、文脈性のパターンを研究するには、その便利なパラメトリゼーションを必要とする様々な測定システムの体系的な方法が必要である。 我々は、量子力学の基礎において主要な役割を担った環状系のクラス内の便利なパラメトリゼーションを持つ。 しかし、このクラスでは文脈性の4つの尺度が互いに比例していることが示されているため、文脈性のパターンを研究するのに使用できない。 本稿では,超循環計測系について述べる。 便利なパラメトリゼーションを保ちながら循環系を一般化する。 このクラスのシステムでは、大規模システムと同様、文脈性の尺度の2つが互いに機能していることが示される。 つまり、ハイパーサイクリックシステムは文脈性のパターンを研究するのに使うことができる。

We consider four measures of contextuality, chosen for being based on the fundamental properties of the notion of contextuality, and for being applicable to arbitrary systems of measurements, both without and with disturbance. We have previously shown that no two of them are functions of each other: as systems of measurements change, either of them can change while the other remains constant. This means that they measure different aspects of contextuality, and we proposed that rather than picking just one measure of contextuality in one specific sense, one could use all of them to characterize a contextual system by its pattern of contextuality. To study patterns of contextuality, however, one needs a systematic way of varying systems of measurements, which requires their convenient parametrization. We have convenient parametrization within the class of cyclic systems that have played a dominant role in the foundations of quantum mechanics. However, they cannot be used to study patterns of contextuality, because within this class the four measures of contextuality have been shown to be proportional to each other. In this concept paper we introduce hypercyclic systems of measurements. They generalize cyclic systems while preserving convenient parametrization. We show that within this class of systems, the same as for systems at large, no two of the measures of contextuality are functions of each other. This means that hypercyclic systems can be used to study patterns of contextuality.
翻訳日:2023-08-08 23:31:16 公開日:2023-08-07
# POAR:オープンな語彙ペデストリアン属性認識を目指して

POAR: Towards Open Vocabulary Pedestrian Attribute Recognition ( http://arxiv.org/abs/2303.14643v2 )

ライセンス: Link先を確認
Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng Tan(参考訳) 歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。 既存のメソッドは、事前に定義された属性クラスを持つマルチラベル分類器をトレーニングすることでpar問題に対処する。 しかし、現実世界の歩行者属性をすべて使い果たすことは不可能である。 この問題に対処するため,新しい歩行者用オープン属性認識(POAR)フレームワークを開発した。 私たちのキーとなる考え方は、画像テキスト検索問題としてPOAR問題を定式化することです。 マスク戦略を用いたトランスフォーマーベースの画像エンコーダを設計する。 特定の歩行者(例えば、頭、上体、下体、足など)に焦点を当て、対応する属性を視覚的な埋め込みにエンコードするために、一連の属性トークンが導入される。 各属性カテゴリは自然言語文として記述され、テキストエンコーダによってエンコードされる。 次に,属性の視覚埋め込みとテキスト埋め込みの類似度を計算し,入力画像に対して最適な属性記述を求める。 属性カテゴリごとに特定の分類器を学習する既存の方法とは異なり、歩行者を部分レベルでモデル化し、未知の属性を扱うための探索方法を探る。 最後に、歩行者画像が複数の属性を構成することができるため、マスク付きトークンによるMTMC損失をトレーニングするために提案する。 オープン属性の設定でベンチマークパーデータセットで広範な実験が行われている。 提案手法の有効性を検証し,POARタスクの強いベースラインを形成可能なPOAR手法の有効性を確認した。 私たちのコードは \url{https://github.com/IvyYZ/POAR} で利用可能です。

Pedestrian attribute recognition (PAR) aims to predict the attributes of a target pedestrian in a surveillance system. Existing methods address the PAR problem by training a multi-label classifier with predefined attribute classes. However, it is impossible to exhaust all pedestrian attributes in the real world. To tackle this problem, we develop a novel pedestrian open-attribute recognition (POAR) framework. Our key idea is to formulate the POAR problem as an image-text search problem. We design a Transformer-based image encoder with a masking strategy. A set of attribute tokens are introduced to focus on specific pedestrian parts (e.g., head, upper body, lower body, feet, etc.) and encode corresponding attributes into visual embeddings. Each attribute category is described as a natural language sentence and encoded by the text encoder. Then, we compute the similarity between the visual and text embeddings of attributes to find the best attribute descriptions for the input images. Different from existing methods that learn a specific classifier for each attribute category, we model the pedestrian at a part-level and explore the searching method to handle the unseen attributes. Finally, a many-to-many contrastive (MTMC) loss with masked tokens is proposed to train the network since a pedestrian image can comprise multiple attributes. Extensive experiments have been conducted on benchmark PAR datasets with an open-attribute setting. The results verified the effectiveness of the proposed POAR method, which can form a strong baseline for the POAR task. Our code is available at \url{https://github.com/IvyYZ/POAR}.
翻訳日:2023-08-08 23:28:43 公開日:2023-08-07
# 量子幾何学的テンソルを持たない変分量子時間進化

Variational Quantum Time Evolution without the Quantum Geometric Tensor ( http://arxiv.org/abs/2303.12839v3 )

ライセンス: Link先を確認
Julien Gacon, Jannes Nys, Riccardo Rossi, Stefan Woerner, Giuseppe Carleo(参考訳) 量子状態のリアルタイムおよび想像的進化は、量子力学の研究、基底状態の作成、熱力学的観測値の計算など、物理学、化学などにおける強力なツールである。 短期的デバイスでは、変動量子時間発展はこれらのタスクの有望な候補であり、必要な回路モデルによって利用可能なデバイスの能力と近似精度をトレードオフすることができる。 しかし、回路を確実に実行できたとしても、量子幾何テンソル(QGT)の計算により、変動量子時間進化アルゴリズムは、関連するシステムサイズに対してすぐに実現不可能となる。 本稿では,QGTの明示的な評価を回避できる2つの定式化を利用して,このスケーリング問題の解を提案する。 ハイゼンベルク・ハミルトニアンの時間進化のアルゴリズムを実証し、標準的な変分量子時間進化アルゴリズムのコストのごく一部で系の力学を正確に再現することを示した。 量子想像時間進化の応用として、ハイゼンベルクモデルの熱力学的観測可能(サイトごとのエネルギー)を計算する。

The real- and imaginary-time evolution of quantum states are powerful tools in physics, chemistry, and beyond, to investigate quantum dynamics, prepare ground states or calculate thermodynamic observables. On near-term devices, variational quantum time evolution is a promising candidate for these tasks, as the required circuit model can be tailored to trade off available device capabilities and approximation accuracy. However, even if the circuits can be reliably executed, variational quantum time evolution algorithms quickly become infeasible for relevant system sizes due to the calculation of the Quantum Geometric Tensor (QGT). In this work, we propose a solution to this scaling problem by leveraging a dual formulation that circumvents the explicit evaluation of the QGT. We demonstrate our algorithm for the time evolution of the Heisenberg Hamiltonian and show that it accurately reproduces the system dynamics at a fraction of the cost of standard variational quantum time evolution algorithms. As an application of quantum imaginary-time evolution, we calculate a thermodynamic observable, the energy per site, of the Heisenberg model.
翻訳日:2023-08-08 23:28:02 公開日:2023-08-07
# パーソナライズしたの? リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価

Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v6 )

ライセンス: Link先を確認
Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasnja, Peng Liao, Kelly Zhang, Susan Murphy(参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。 このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。 オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。 しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。 RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。 パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。 本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。 我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.
翻訳日:2023-08-08 23:22:26 公開日:2023-08-07
# 差分プライバシーを用いた効率的な無線フェデレーション学習のためのグラディエントスパシフィケーション

Gradient Sparsification for Efficient Wireless Federated Learning with Differential Privacy ( http://arxiv.org/abs/2304.04164v2 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Feng Shu, Haitao Zhao, Wen Chen and Hongbo Zhu(参考訳) フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。 しかし、それはモデルをアップロードすることによる個人情報の漏洩に悩まされている。 さらに、モデルサイズが大きくなるにつれて、送信帯域の制限によるトレーニング遅延が増加し、差分プライバシー(DP)保護を用いてモデル性能が低下する。 本稿では,コンバージェンス性能を犠牲にすることなくトレーニング効率を向上させるために,無線チャネル上での勾配スパーシフィケーション権限付きflフレームワークを提案する。 具体的には、まず、各クライアントのローカルトレーニングにおける勾配要素のごく一部を保持するためにランダムなスペーシフィケーションアルゴリズムを設計し、DPによって誘導される性能劣化を軽減し、無線チャネル上での伝送パラメータの数を減少させる。 そこで,提案アルゴリズムの収束境界を非凸FL問題をモデル化して解析する。 次に、送信電力の制約、平均送信遅延、およびクライアントのDP要求に基づいて、展開した収束境界を最小化する時間列確率最適化問題を定式化する。 lyapunov drift-plus-penaltyフレームワークを利用して最適化問題に対する解析的解法を開発した。 提案手法の有効性を実証するために,3つの実時間データセットで広範な実験を行った。 提案アルゴリズムは,通信と計算の相互作用をフル活用して,ランダムスケジューリング,ラウンドロビン,遅延最小化アルゴリズムなどのベースラインより優れていることを示す。

Federated learning (FL) enables distributed clients to collaboratively train a machine learning model without sharing raw data with each other. However, it suffers the leakage of private information from uploading models. In addition, as the model size grows, the training latency increases due to limited transmission bandwidth and the model performance degrades while using differential privacy (DP) protection. In this paper, we propose a gradient sparsification empowered FL framework over wireless channels, in order to improve training efficiency without sacrificing convergence performance. Specifically, we first design a random sparsification algorithm to retain a fraction of the gradient elements in each client's local training, thereby mitigating the performance degradation induced by DP and and reducing the number of transmission parameters over wireless channels. Then, we analyze the convergence bound of the proposed algorithm, by modeling a non-convex FL problem. Next, we formulate a time-sequential stochastic optimization problem for minimizing the developed convergence bound, under the constraints of transmit power, the average transmitting delay, as well as the client's DP requirement. Utilizing the Lyapunov drift-plus-penalty framework, we develop an analytical solution to the optimization problem. Extensive experiments have been implemented on three real life datasets to demonstrate the effectiveness of our proposed algorithm. We show that our proposed algorithms can fully exploit the interworking between communication and computation to outperform the baselines, i.e., random scheduling, round robin and delay-minimization algorithms.
翻訳日:2023-08-08 23:21:58 公開日:2023-08-07
# 人体運動予測のためのグラフガイド型MLPミキサ

Graph-Guided MLP-Mixer for Skeleton-Based Human Motion Prediction ( http://arxiv.org/abs/2304.03532v2 )

ライセンス: Link先を確認
Xinshun Wang, Qiongjie Cui, Chen Chen, Shen Zhao, Mengyuan Liu(参考訳) 近年,グラフ畳み込みネットワーク(GCN)は人間の動作予測に広く利用されているが,その性能は相変わらず不満足である。 近年、視覚タスク用に開発されたMLP-Mixerは、GCNの代替として人間の動き予測に活用され、GCNよりも優れた性能と効率を達成している。 ヒト骨格の骨結合構造をエッジとノードのグラフとして表すGCNとは異なり、MLP-Mixerは完全な連結層に依存しており、そのようなグラフのような人間の構造を明示的にモデル化することはできない。 MLP-Mixer のこの制限を打破するために,従来の MLP-Mixer アーキテクチャにグラフ構造をモデル化する機能を備えた新しいアプローチである \textit{Graph-Guided Mixer} を提案する。 グラフガイダンスを組み込むことで、人間の骨格のグラフ表現内の特定の接続パターンを効果的にキャプチャし、利用することができる。 本稿では,MLP-Mixer と GCN との理論的関係を明らかにする。 次に提案した『textit{Graph-Guided Mixer} 』を,グラフ構造からのガイダンスを組み込むために,元の MLP-Mixer アーキテクチャを再発明した方法について述べる。 そして,Human3.6M,AMASS,および3DPWデータセットについて広範囲に評価を行い,本手法が最先端の性能を実現することを示す。

In recent years, Graph Convolutional Networks (GCNs) have been widely used in human motion prediction, but their performance remains unsatisfactory. Recently, MLP-Mixer, initially developed for vision tasks, has been leveraged into human motion prediction as a promising alternative to GCNs, which achieves both better performance and better efficiency than GCNs. Unlike GCNs, which can explicitly capture human skeleton's bone-joint structure by representing it as a graph with edges and nodes, MLP-Mixer relies on fully connected layers and thus cannot explicitly model such graph-like structure of human's. To break this limitation of MLP-Mixer's, we propose \textit{Graph-Guided Mixer}, a novel approach that equips the original MLP-Mixer architecture with the capability to model graph structure. By incorporating graph guidance, our \textit{Graph-Guided Mixer} can effectively capture and utilize the specific connectivity patterns within human skeleton's graph representation. In this paper, first we uncover a theoretical connection between MLP-Mixer and GCN that is unexplored in existing research. Building on this theoretical connection, next we present our proposed \textit{Graph-Guided Mixer}, explaining how the original MLP-Mixer architecture is reinvented to incorporate guidance from graph structure. Then we conduct an extensive evaluation on the Human3.6M, AMASS, and 3DPW datasets, which shows that our method achieves state-of-the-art performance.
翻訳日:2023-08-08 23:21:11 公開日:2023-08-07
# 人間の行動認識における3次元ポーズとトラッキングの利点について

On the Benefits of 3D Pose and Tracking for Human Action Recognition ( http://arxiv.org/abs/2304.01199v2 )

ライセンス: Link先を確認
Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Christoph Feichtenhofer, Jitendra Malik(参考訳) 本研究では,行動認識のためのトラッキングと3Dポーズの利点について検討する。 これを達成するために、空間の定点ではなく、人間の運動の軌道上の行動を分析するラグランジュ的視点を採る。 この立場を取ることで、人々のトラックレットを使って行動を予測することができます。 この精神の中では、まず3Dのポーズを用いて行動を推測し、対人インタラクションを研究することの利点を示す。 次に,トラックレット上での3次元ポーズと文脈的外観を用いてラグランジュ的行動認識モデルを提案する。 そこで本手法は,AVA v2.2データセットのポーズのみの設定と標準ベンチマーク設定の両方で,最先端のパフォーマンスを実現する。 ポーズキューのみを用いてアクションを推論すると、ポーズモデルは対応する最先端モデルに対して+10.0mAP、融合モデルは最高の最先端モデルに対して+2.8mAPとなる。 コードと結果は以下の通りである。 https://brjathu.github.io/lart

In this work we study the benefits of using tracking and 3D poses for action recognition. To achieve this, we take the Lagrangian view on analysing actions over a trajectory of human motion rather than at a fixed point in space. Taking this stand allows us to use the tracklets of people to predict their actions. In this spirit, first we show the benefits of using 3D pose to infer actions, and study person-person interactions. Subsequently, we propose a Lagrangian Action Recognition model by fusing 3D pose and contextualized appearance over tracklets. To this end, our method achieves state-of-the-art performance on the AVA v2.2 dataset on both pose only settings and on standard benchmark settings. When reasoning about the action using only pose cues, our pose model achieves +10.0 mAP gain over the corresponding state-of-the-art while our fused model has a gain of +2.8 mAP over the best state-of-the-art model. Code and results are available at: https://brjathu.github.io/LART
翻訳日:2023-08-08 23:19:04 公開日:2023-08-07
# MixPro: MaskMixによるデータ拡張とビジョントランスのためのプログレッシブアテンションラベリング

MixPro: Data Augmentation with MaskMix and Progressive Attention Labeling for Vision Transformer ( http://arxiv.org/abs/2304.12043v2 )

ライセンス: Link先を確認
Qihao Zhao and Yangyu Huang and Wei Hu and Fan Zhang and Jun Liu(参考訳) 最近提案されたデータ拡張TransMixは、視覚変換器(ViT)の堅牢性と性能向上を支援するためにアテンションラベルを使用している。 しかし、TransMixには2つの側面がある。 1)TransMixの画像トリミング法はViTに適さない可能性がある。 2)トレーニングの初期段階では,モデルは信頼できない注意マップを生成する。 TransMixは信頼できないアテンションマップを使用して、モデルに影響を与える可能性のある混合アテンションラベルを計算する。 上記の課題に対処するため,画像空間とラベル空間におけるMaskMixとProgressive Attention Labeling(PAL)を提案する。 詳細は、画像空間の観点から、パッチのようなグリッドマスクに基づく2つの画像の混合であるMaskMixを設計する。 特に、各マスクパッチのサイズは調整可能であり、画像パッチサイズの倍である。 ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。 最後に、MaskMixとProgressive Attention LabelingをMixProという新しいデータ拡張メソッドとして組み合わせます。 本手法は,画像ネット分類のスケールで様々なvitモデルを改善することができる(deit-tに基づくtop-1精度は300エポック)。 ImageNet上でMixProで事前トレーニングされた後、ViTベースのモデルはセマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへのより良い転送可能性を示す。 さらに、transmixと比較すると、mixproはいくつかのベンチマークで強い堅牢性を示している。 コードはhttps://github.com/fistyee/MixProで入手できる。

The recently proposed data augmentation TransMix employs attention labels to help visual transformers (ViT) achieve better robustness and performance. However, TransMix is deficient in two aspects: 1) The image cropping method of TransMix may not be suitable for ViTs. 2) At the early stage of training, the model produces unreliable attention maps. TransMix uses unreliable attention maps to compute mixed attention labels that can affect the model. To address the aforementioned issues, we propose MaskMix and Progressive Attention Labeling (PAL) in image and label space, respectively. In detail, from the perspective of image space, we design MaskMix, which mixes two images based on a patch-like grid mask. In particular, the size of each mask patch is adjustable and is a multiple of the image patch size, which ensures each image patch comes from only one image and contains more global contents. From the perspective of label space, we design PAL, which utilizes a progressive factor to dynamically re-weight the attention weights of the mixed attention label. Finally, we combine MaskMix and Progressive Attention Labeling as our new data augmentation method, named MixPro. The experimental results show that our method can improve various ViT-based models at scales on ImageNet classification (73.8\% top-1 accuracy based on DeiT-T for 300 epochs). After being pre-trained with MixPro on ImageNet, the ViT-based models also demonstrate better transferability to semantic segmentation, object detection, and instance segmentation. Furthermore, compared to TransMix, MixPro also shows stronger robustness on several benchmarks. The code is available at https://github.com/fistyee/MixPro.
翻訳日:2023-08-08 23:10:51 公開日:2023-08-07
# 完全受動量子鍵分布の実験的実証

Experimental demonstration of fully passive quantum key distribution ( http://arxiv.org/abs/2304.11655v2 )

ライセンス: Link先を確認
Feng-Yu Lu, Ze-Hao Wang, V\'ictor Zapatero, Jia-Lin Chen, Shuang Wang, Zhen-Qiang Yin, Marcos Curty, De-Yong He, Rong Wang, Wei Chen, Guan-Jie Fan-Yuan, Guang-Can Guo, Zheng-Fu Han(参考訳) 量子鍵分布(qkd)に対するパッシブなアプローチは、ユーザのデバイスからすべてのアクティブな変調を取り除くことであり、変調器側チャネルを取り除くための非常に望ましい対策である。 しかしながら、QKDシステムでは、理論的および実用的両方の制限により、アクティブな変調が完全に取り除かれていない。 本研究では,完全受動型QKD符号化システムを提案し,モジュレータフリーQKDリンクの実装に成功したことを報告する。 最新の理論分析によると、我々のプロトタイプは有限鍵方式で競合する秘密鍵レートを提供することができる。

The passive approach to quantum key distribution (QKD) consists of removing all active modulation from the users' devices, a highly desirable countermeasure to get rid of modulator side-channels. Nevertheless, active modulation has not been completely removed in QKD systems so far, due to both theoretical and practical limitations. In this work, we present a fully passive time-bin encoding QKD system and report on the successful implementation of a modulator-free QKD link. According to the latest theoretical analysis, our prototype is capable of delivering competitive secret key rates in the finite key regime.
翻訳日:2023-08-08 23:10:25 公開日:2023-08-07
# 病理組織学におけるロバスト画像分割のためのリアルデータエンリッチメント

Realistic Data Enrichment for Robust Image Segmentation in Histopathology ( http://arxiv.org/abs/2304.09534v2 )

ライセンス: Link先を確認
Sarah Cechnicka, James Ball, Hadrien Reynaud, Callum Arthurs, Candice Roufosse, and Bernhard Kainz(参考訳) 病理組織学的全スライド画像(WSI)における定量的解析の貧弱さは臨床的に重要な障害である。 大規模なWSIを手動でアノテートすることは要求と時間を要する作業であり、完全に教師付き学習システムで使用すると期待される結果が得られそうにない。 稀に観察される疾患パターンと物体のスケールの大きな違いは、従来の患者摂取を通してモデル化することが困難である。 以前の手法では、画像ごとのいくつかの要因のみを学習する直接的な疾患分類や、大多数の観察に偏っている平均的な画像分割性能を報告する必要がある。 幾何学的画像拡張は、平均ケース予測のロバスト性を改善し、限られたデータセットを豊かにするためによく用いられる。 今のところ、画像内の不均衡なオブジェクトのセグメンテーションなど、安定性を改善するために現実的な後方分布をサンプリングする手法は提供されていない。 そこで,本研究では拡散モデルに基づく新しい手法を提案する。 本手法は,機械学習パイプラインの訓練に適した限られた臨床データセットを拡張し,実際の患者と区別できない病理像を生成するための解釈可能なヒト制御可能な方法を提供する。 以上の結果は,パブリックドメインと腎移植研究の2つのデータセットで検証した。

Poor performance of quantitative analysis in histopathological Whole Slide Images (WSI) has been a significant obstacle in clinical practice. Annotating large-scale WSIs manually is a demanding and time-consuming task, unlikely to yield the expected results when used for fully supervised learning systems. Rarely observed disease patterns and large differences in object scales are difficult to model through conventional patient intake. Prior methods either fall back to direct disease classification, which only requires learning a few factors per image, or report on average image segmentation performance, which is highly biased towards majority observations. Geometric image augmentation is commonly used to improve robustness for average case predictions and to enrich limited datasets. So far no method provided sampling of a realistic posterior distribution to improve stability, e.g. for the segmentation of imbalanced objects within images. Therefore, we propose a new approach, based on diffusion models, which can enrich an imbalanced dataset with plausible examples from underrepresented groups by conditioning on segmentation maps. Our method can simply expand limited clinical datasets making them suitable to train machine learning pipelines, and provides an interpretable and human-controllable way of generating histopathology images that are indistinguishable from real ones to human experts. We validate our findings on two datasets, one from the public domain and one from a Kidney Transplant study.
翻訳日:2023-08-08 23:09:50 公開日:2023-08-07
# 推定テーマ最適化と統合推定最適化とサンプル平均近似:確率的優位性の観点から

Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus Sample Average Approximation: A Stochastic Dominance Perspective ( http://arxiv.org/abs/2304.06833v3 )

ライセンス: Link先を確認
Adam N. Elmachtoub, Henry Lam, Haofeng Zhang, Yunfan Zhao(参考訳) データ駆動確率最適化では、最適化タスクに加えて、基盤となる分布のモデルパラメータをデータから推定する必要がある。 近年の文献では、最高の経験的客観的性能につながるモデルパラメータを選択することによって、推定と最適化のプロセスを統合することを考える。 統合推定最適化(ieo)と呼ばれるこの統合アプローチは、モデルが誤って特定された場合、単純な推定最適化(eto)を上回ることが容易に示せる。 本稿では,モデルクラスが十分に特定され,十分なデータがある場合に,逆挙動が現れることを示す。 具体的には, 一般の非線形確率最適化問題に対して, モデルクラスが基底真理をカバーしている場合, 単純ETOがIEOの漸近的に優れていることを示す。 つまり、後悔の分布全体、すなわち平均や他の瞬間だけでなく、IEOと比べて常にETOの方が良い。 結果はまた、決定が観測された特徴に依存する制約付き文脈最適化問題にも適用できる。 また, 標準サンプル平均近似 (saa) が, モデルクラスが後悔の観点でよく特定され, 誤特定された場合に最善の場合には, いかに最悪かを実証する。 最後に、理論的比較を裏付ける実験結果を提供し、洞察が有限サンプル状態および様々な誤識別の下でいつ保持されるかを示す。

In data-driven stochastic optimization, model parameters of the underlying distribution need to be estimated from data in addition to the optimization task. Recent literature considers integrating the estimation and optimization processes by selecting model parameters that lead to the best empirical objective performance. This integrated approach, which we call integrated-estimation-optimization (IEO), can be readily shown to outperform simple estimate-then-optimize (ETO) when the model is misspecified. In this paper, we show that a reverse behavior appears when the model class is well-specified and there is sufficient data. Specifically, for a general class of nonlinear stochastic optimization problems, we show that simple ETO outperforms IEO asymptotically when the model class covers the ground truth, in the strong sense of stochastic dominance of the regret. Namely, the entire distribution of the regret, not only its mean or other moments, is always better for ETO compared to IEO. Our results also apply to constrained, contextual optimization problems where the decision depends on observed features. Whenever applicable, we also demonstrate how standard sample average approximation (SAA) performs the worst when the model class is well-specified in terms of regret, and best when it is misspecified. Finally, we provide experimental results to support our theoretical comparisons and illustrate when our insights hold in finite-sample regimes and under various degrees of misspecification.
翻訳日:2023-08-08 23:08:44 公開日:2023-08-07
# 自然言語テキストからのプロセスモデル生成のためのルールベース名前付きエンティティ認識と関係抽出

Beyond Rule-based Named Entity Recognition and Relation Extraction for Process Model Generation from Natural Language Text ( http://arxiv.org/abs/2305.03960v2 )

ライセンス: Link先を確認
Julian Neuberger, Lars Ackermann, Stefan Jablonski(参考訳) プロセス対応情報システムは、計画、運用、日々のビジネス活動の最適化を容易にし、企業に対して広範なアドバンテージを提供する。 しかし、形式的なビジネスプロセスモデルを設計するための時間を要するが必要なステップは、しばしばこれらのシステムの可能性を妨げます。 この課題を克服するために、自然言語テキストからビジネスプロセスモデルの自動生成が、このステップを高速化するための有望なアプローチとして登場した。 一般に、自然言語からプロセス関連情報を抽出し、実際のモデルを作成するという2つの重要なサブタスクを解決しなければならない。 最初のサブタスクへのアプローチはルールベースのメソッドで、特定のドメインに高度に最適化されているが、関連するアプリケーションへの適応は困難である。 この問題を解決するために,我々は,既存のパイプラインの完全なデータ駆動を実現するための拡張を提案する。 我々は、機能エンジニアリングとルール定義に関連するかなりのオーバーヘッドを取り除くだけでなく、異なるデータセット、エンティティとリレーショナルタイプ、新しいドメインへの適応を可能にする改良されたパイプラインの競争力を実証する。 さらに、最初のサブタスクで利用可能な最大のデータセット(pet)は、プロセス記述におけるエンティティの言及間の言語的参照に関する情報を含まない。 しかし、これらの言及を単一のビジュアル要素に分解することは、高品質なプロセスモデルに不可欠である。 本稿では,言語参照に関する情報を取り入れたPETデータセットの拡張と,それを解決する方法を提案する。 最後に、目の前のデータセットに固有の課題を詳細に分析します。

Process-aware information systems offer extensive advantages to companies, facilitating planning, operations, and optimization of day-to-day business activities. However, the time-consuming but required step of designing formal business process models often hampers the potential of these systems. To overcome this challenge, automated generation of business process models from natural language text has emerged as a promising approach to expedite this step. Generally two crucial subtasks have to be solved: extracting process-relevant information from natural language and creating the actual model. Approaches towards the first subtask are rule based methods, highly optimized for specific domains, but hard to adapt to related applications. To solve this issue, we present an extension to an existing pipeline, to make it entirely data driven. We demonstrate the competitiveness of our improved pipeline, which not only eliminates the substantial overhead associated with feature engineering and rule definition, but also enables adaptation to different datasets, entity and relation types, and new domains. Additionally, the largest available dataset (PET) for the first subtask, contains no information about linguistic references between mentions of entities in the process description. Yet, the resolution of these mentions into a single visual element is essential for high quality process models. We propose an extension to the PET dataset that incorporates information about linguistic references and a corresponding method for resolving them. Finally, we provide a detailed analysis of the inherent challenges in the dataset at hand.
翻訳日:2023-08-08 23:02:02 公開日:2023-08-07
# 空洞磁気光学における非相互絡み合い

Nonreciprocal entanglement in cavity-magnon optomechanics ( http://arxiv.org/abs/2305.03325v3 )

ライセンス: Link先を確認
Jiaojiao Chen, Xiao-Gang Fan, Wei Xiong, Dong Wang, Liu Ye(参考訳) マクロな量子効果を研究するための有望なプラットフォームであるキャビティ光学は、サグネック効果による非相互絡みの研究に広く用いられている。 本稿では,マグノンカー効果を用いるハイブリッドキャビティ-マグノン光学系において,マグノン,光子,フォノン間の非相互絡み合いを実現する方法を提案する。 我々はカー効果がマグノン周波数シフトと追加の2つのマグノン効果をもたらすことを示す。 どちらも正から負まで、マゼクティック場の方向をチューニングすることで調整でき、非相反性に繋がる。 マグノン周波数デチューニングや2マグノン効果の係数などのシステムパラメータをチューニングすることにより、二成分および三成分の絡み合いを非相対的に向上させることができる。 定義した双方向コントラスト比のさらなる研究により, システム内の非相互性はオン/オフ可能であり, 浴槽温度で操作できることがわかった。 本提案は,マグノンカー効果と非相互絡み合いを示す潜在経路を提供するだけでなく,非線形効果を持つハイブリッドキャビティ・マグノン光学系における多種多様な非相互デバイスの設計・設計への道を開く。

Cavity optomechanics, a promising platform to investigate macroscopic quantum effects, has been widely used to study nonreciprocal entanglement with Sagnec effect. Here we propose an alternative way to realize nonreciprocal entanglemment among magnons, photons, and phonons in a hybrid cavity-magnon optomechanics, where magnon Kerr effect is used. We show that the Kerr effect gives rise to a magnon frequency shift and an additional two-magnon effect. Both of them can be tuned from positive to negative via tuning the magectic field direction, leading to nonreciprocity. By tuning system parameters such as magnon frequency detuning or the coefficient of the two-magnon effect, bipartite and tripartite entanglements can be nonreciprocally enhanced. By further studying the defined bidirectional contrast ratio, we find that nonreciprocity in our system can be switch on and off, and can be engineered by the bath temperature. Our proposal not only provides a potential path to demonstrate nonreciprocal entanglement with the magnon Kerr effect, but also opens a direction to engineer and design diverse nonreciprocal devices in hybrid cavity-magnon optomechanics with nonlinear effects.
翻訳日:2023-08-08 23:00:43 公開日:2023-08-07
# アトリビューションによる挿入型テキストバックドア攻撃に対する防御

Defending against Insertion-based Textual Backdoor Attacks via Attribution ( http://arxiv.org/abs/2305.02394v2 )

ライセンス: Link先を確認
Jiazhao Li, Zhuofeng Wu, Wei Ping, Chaowei Xiao, V.G. Vinod Vydiswaran(参考訳) テキストバックドア攻撃は、新しい攻撃モデルとして、訓練中にモデルにバックドアを追加するのに有効であることが示されている。 このようなバックドア攻撃に対する防御は緊急かつ重要になっている。 本稿では,BadNLとInSentの2つの挿入型毒殺攻撃に対して,効率的な帰属型パイプラインであるAttDefを提案する。 具体的には,より大きな帰属スコアを持つトークンを,より大きな帰属単語が誤った予測結果に寄与するため,潜在的トリガーとみなす。 さらに、入力が有毒かどうかを識別するために、外部事前訓練言語モデルを利用する。 提案手法は,従来の手法を一貫して改善する2つの一般的な攻撃シナリオ(訓練データとテストデータ)において十分に一般化できることを示す。 例えば、AttDefは2つの攻撃を平均精度79.97%(56.59%アップ)と48.34%(3.99%アップ)で軽減し、4つのベンチマークデータセットの予測リカバリで新たな最先端のパフォーマンスを達成する。

Textual backdoor attack, as a novel attack model, has been shown to be effective in adding a backdoor to the model during training. Defending against such backdoor attacks has become urgent and important. In this paper, we propose AttDef, an efficient attribution-based pipeline to defend against two insertion-based poisoning attacks, BadNL and InSent. Specifically, we regard the tokens with larger attribution scores as potential triggers since larger attribution words contribute more to the false prediction results and therefore are more likely to be poison triggers. Additionally, we further utilize an external pre-trained language model to distinguish whether input is poisoned or not. We show that our proposed method can generalize sufficiently well in two common attack scenarios (poisoning training data and testing data), which consistently improves previous methods. For instance, AttDef can successfully mitigate both attacks with an average accuracy of 79.97% (56.59% up) and 48.34% (3.99% up) under pre-training and post-training attack defense respectively, achieving the new state-of-the-art performance on prediction recovery over four benchmark datasets.
翻訳日:2023-08-08 23:00:21 公開日:2023-08-07
# 情報不足、無反応著者、実験欠陥:nlpにおける過去のヒト評価の再現性評価の不可能性

Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP ( http://arxiv.org/abs/2305.01633v2 )

ライセンス: Link先を確認
Anya Belz, Craig Thomson, Ehud Reiter, Gavin Abercrombie, Jose M. Alonso-Moral, Mohammad Arvan, Anouck Braggaar, Mark Cieliebak, Elizabeth Clark, Kees van Deemter, Tanvi Dinkar, Ond\v{r}ej Du\v{s}ek, Steffen Eger, Qixiang Fang, Mingqi Gao, Albert Gatt, Dimitra Gkatzia, Javier Gonz\'alez-Corbelle, Dirk Hovy, Manuela H\"urlimann, Takumi Ito, John D. Kelleher, Filip Klubicka, Emiel Krahmer, Huiyuan Lai, Chris van der Lee, Yiru Li, Saad Mahamood, Margot Mieskes, Emiel van Miltenburg, Pablo Mosteiro, Malvina Nissim, Natalie Parde, Ond\v{r}ej Pl\'atek, Verena Rieser, Jie Ruan, Joel Tetreault, Antonio Toral, Xiaojun Wan, Leo Wanner, Lewis Watson, Diyi Yang(参考訳) 本研究は,NLPにおける人的評価を再現可能なものにするために,NLPにおける人的評価の集合を同定する取り組みについて報告する。 論文の13%に過ぎなかったことを含む結果と調査結果を提示する。 (i)生殖の障壁が十分に低いこと、 (ii)再現のために考慮すべき十分な情報と、再生のために選択した実験のうちの1つを除くすべてのものが、再生を行う意義に疑問を呈する欠陥があることが判明した。 その結果, コーディネート学習設計を, 再現アプローチから標準化・再生産-twiceアプローチに変更しなければならなかった。 我々の総合的な(否定的な)発見は、NLPにおける人間の評価の大部分は再現可能ではなく、再現可能でもなく、複製を正当化するには欠陥が多すぎるということであり、恐ろしい絵を描くが、NLPにおける人間の評価を設計し、レポートする方法を再考する機会を与える。

We report our efforts in identifying a set of previous human evaluations in NLP that would be suitable for a coordinated study examining what makes human evaluations in NLP more/less reproducible. We present our results and findings, which include that just 13\% of papers had (i) sufficiently low barriers to reproduction, and (ii) enough obtainable information, to be considered for reproduction, and that all but one of the experiments we selected for reproduction was discovered to have flaws that made the meaningfulness of conducting a reproduction questionable. As a result, we had to change our coordinated study design from a reproduce approach to a standardise-then-reproduce-twice approach. Our overall (negative) finding that the great majority of human evaluations in NLP is not repeatable and/or not reproducible and/or too flawed to justify reproduction, paints a dire picture, but presents an opportunity for a rethink about how to design and report human evaluations in NLP.
翻訳日:2023-08-08 22:59:57 公開日:2023-08-07
# 弱いテキストによる画像の人間-人間間相互作用の学習

Learning Human-Human Interactions in Images from Weak Textual Supervision ( http://arxiv.org/abs/2304.14104v2 )

ライセンス: Link先を確認
Morris Alper and Hadar Averbuch-Elor(参考訳) 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。 本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。 本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。 本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。 さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。 コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。

Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.
翻訳日:2023-08-08 22:59:39 公開日:2023-08-07
# チャネル知識を持たないエンドツーエンド通信システムのための深い決定論的ポリシー勾配

Deep Deterministic Policy Gradient for End-to-End Communication Systems without Prior Channel Knowledge ( http://arxiv.org/abs/2305.07448v2 )

ライセンス: Link先を確認
Bolun Zhang and Nguyen Van Huynh(参考訳) E2E(End-to-End)学習に基づく概念は,無線通信システムにおいて送信機と受信機を協調的に最適化するために最近導入された。 残念なことに、このE2E学習アーキテクチャは、トランスシーバーでディープニューラルネットワーク(DNN)を共同でトレーニングするために、事前に異なるチャネルモデルを必要とする。 本稿では,Deep Deterministic Policy gradient(DDPG)ベースのフレームワークを開発することにより,この問題を解決することを目的とする。 特に、提案手法では、受信機DNNの損失値を用いて送信機DNNを訓練する。 シミュレーションの結果,提案手法は先行チャネルモデルを必要とせず,送信機と受信機を協調的に訓練できることがわかった。 さらに,提案したDDPGベースのソリューションは,最先端のソリューションよりも優れた検出性能が得られることを示す。

End-to-End (E2E) learning-based concept has been recently introduced to jointly optimize both the transmitter and the receiver in wireless communication systems. Unfortunately, this E2E learning architecture requires a prior differentiable channel model to jointly train the deep neural networks (DNNs) at the transceivers, which is hardly obtained in practice. This paper aims to solve this issue by developing a deep deterministic policy gradient (DDPG)-based framework. In particular, the proposed solution uses the loss value of the receiver DNN as the reward to train the transmitter DNN. The simulation results then show that our proposed solution can jointly train the transmitter and the receiver without requiring the prior channel model. In addition, we demonstrate that the proposed DDPG-based solution can achieve better detection performance compared to the state-of-the-art solutions.
翻訳日:2023-08-08 22:50:29 公開日:2023-08-07
# 硬度負の学習による放射線診断自動生成

Automatic Radiology Report Generation by Learning with Increasingly Hard Negatives ( http://arxiv.org/abs/2305.07176v2 )

ライセンス: Link先を確認
Bhanu Prakash Voutharoja and Lei Wang and Luping Zhou(参考訳) 医学的画像やレポートは通常、解剖学的に共通する内容のため、互いに類似しているため、自動放射線学レポート生成は困難である。 これにより、個々の画像のユニークさを捉えるのが難しくなり、望ましくないジェネリックまたはミスマッチしたレポートを生成する傾向にある。 この状況は、画像とレポートの微妙なミスマッチをキャプチャできる、より差別的な特徴を学習することを求めている。 そこで本稿では,識別イメージを学習し,特徴を最も近い仲間,すなわちハードネガティブと区別し,特徴を報告するための新しい枠組みを提案する。 特に,より識別的な特徴を達成するために,訓練中の各画像に対して,より強固な負のレポートを作成することにより,学習課題の難易度を徐々に高めていく。 急激な負を補助変数として扱うことにより、この過程を min-max の交互最適化問題として定式化する。 各イテレーションにおいて、与えられた一組の強陰性レポートに基づいて、レポート生成に関連する損失関数を最小化することにより、通常通り画像およびレポート特徴を学習する。 その後、画像とレポートのアライメントを反映した損失を最大化することで、新たな厳しいネガティブレポートが作成される。 この最適化を解決すれば、より具体的に正確なレポートを生成することができるモデルが得られる。 このフレームワークは,ネットワークの重み付けを余分に導入することなく,識別的特徴学習を促進する。 また、既存のハードネガティブの生成方法とは対照的に、トレーニングセットから厳しいサンプルを生成することにより、データセットの粒度を超えてフレームワークが拡張されます。 ベンチマークデータセットの実験研究により,本フレームワークの有効性が検証され,既存の医療報告生成モデルを簡単に改善するためのプラグインとして機能することが確認された。

Automatic radiology report generation is challenging as medical images or reports are usually similar to each other due to the common content of anatomy. This makes a model hard to capture the uniqueness of individual images and is prone to producing undesired generic or mismatched reports. This situation calls for learning more discriminative features that could capture even fine-grained mismatches between images and reports. To achieve this, this paper proposes a novel framework to learn discriminative image and report features by distinguishing them from their closest peers, i.e., hard negatives. Especially, to attain more discriminative features, we gradually raise the difficulty of such a learning task by creating increasingly hard negative reports for each image in the feature space during training, respectively. By treating the increasingly hard negatives as auxiliary variables, we formulate this process as a min-max alternating optimisation problem. At each iteration, conditioned on a given set of hard negative reports, image and report features are learned as usual by minimising the loss functions related to report generation. After that, a new set of harder negative reports will be created by maximising a loss reflecting image-report alignment. By solving this optimisation, we attain a model that can generate more specific and accurate reports. It is noteworthy that our framework enhances discriminative feature learning without introducing extra network weights. Also, in contrast to the existing way of generating hard negatives, our framework extends beyond the granularity of the dataset by generating harder samples out of the training set. Experimental study on benchmark datasets verifies the efficacy of our framework and shows that it can serve as a plug-in to readily improve existing medical report generation models.
翻訳日:2023-08-08 22:50:14 公開日:2023-08-07
# 高次元過度線形回帰における最小ノルムリスクのバッチ安定化

Batches Stabilize the Minimum Norm Risk in High Dimensional Overparameterized Linear Regression ( http://arxiv.org/abs/2306.08432v2 )

ライセンス: Link先を確認
Shahar Stein Ioushua, Inbar Hasidim, Ofer Shayevitz and Meir Feder(参考訳) データをバッチに分割する学習アルゴリズムは、多くの機械学習アプリケーションで一般的であり、典型的には計算効率と性能のトレードオフを提供する。 本稿では,等方的ガウス特徴を持つ最小ノルム過パラメータ線形回帰モデルのレンズによるバッチ分割の利点について検討する。 最小ノルム推定器の自然な小バッチバージョンを提案し,その二次リスクの上限を導出し,最適バッチサイズの選択のために,ノイズレベルと過パラメータ比に逆比例することを示した。 極小ノルムとは対照的に, 推定器は単調に過パラメータ化比が増加する安定なリスク挙動を認め, 補間点での爆発と二重発振現象の両方を除去する。 興味深いことに、バッチパーティションによって提供されるこの暗黙の規則化は、バッチ間の機能の重複によって部分的に説明される。 我々の境界は、新しい手法の組み合わせ、特にランダム部分空間上のノイズ射影のワッサーシュタイン計量における正規近似によって導かれる。

Learning algorithms that divide the data into batches are prevalent in many machine-learning applications, typically offering useful trade-offs between computational efficiency and performance. In this paper, we examine the benefits of batch-partitioning through the lens of a minimum-norm overparameterized linear regression model with isotropic Gaussian features. We suggest a natural small-batch version of the minimum-norm estimator, and derive an upper bound on its quadratic risk, showing it is inversely proportional to the noise level as well as to the overparameterization ratio, for the optimal choice of batch size. In contrast to minimum-norm, our estimator admits a stable risk behavior that is monotonically increasing in the overparameterization ratio, eliminating both the blowup at the interpolation point and the double-descent phenomenon. Interestingly, we observe that this implicit regularization offered by the batch partition is partially explained by feature overlap between the batches. Our bound is derived via a novel combination of techniques, in particular normal approximation in the Wasserstein metric of noisy projections over random subspaces.
翻訳日:2023-08-08 22:43:35 公開日:2023-08-07
# 対称テンソル分解問題の対称性と臨界点

Symmetry & Critical Points for Symmetric Tensor Decomposition Problems ( http://arxiv.org/abs/2306.07886v3 )

ライセンス: Link先を確認
Yossi Arjevani, Gal Vinograd(参考訳) 実対称テンソルの階数 1 項の和への分解に伴う非凸最適化問題を考える。 問題次元においてPuiseux級数で表される臨界点の無限族を構成するために、リッチ対称性構造を用いており、目的関数とヘッセンスペクトルの値に関する正確な解析的推定値を得る。 その結果、局所最適化法を用いて様々な障害の解析的特徴付けが可能となり、特に、その対称性、構造、解析的性質によって異なるサドルとミニマの複雑な配列が明らかにされた。 すべての臨界点に対して生じる望ましくない現象は、対象関数の値によって増加する負のヘッセン固有値の数を懸念する。 我々のアプローチはニュートン多面体と実際の代数幾何学、特に曲線選択補題の成果を利用して、退化臨界点の極端な性質を決定し、特に最適化過程を著しく遅くする3階サドルの無限の族の存在を確立する。

We consider the nonconvex optimization problem associated with the decomposition of a real symmetric tensor into a sum of rank one terms. Use is made of the rich symmetry structure to construct infinite families of critical points represented by Puiseux series in the problem dimension, and so obtain precise analytic estimates on the value of the objective function and the Hessian spectrum. The results allow an analytic characterization of various obstructions to using local optimization methods, revealing in particular a complex array of saddles and minima differing by their symmetry, structure and analytic properties. A~desirable phenomenon, occurring for all critical points considered, concerns the number of negative Hessian eigenvalues increasing with the value of the objective function. Our approach makes use of Newton polyhedra as well as results from real algebraic geometry, notably the Curve Selection Lemma, to determine the extremal character of degenerate critical points, establishing in particular the existence of infinite families of third-order saddles which can significantly slow down the optimization process.
翻訳日:2023-08-08 22:43:18 公開日:2023-08-07
# 低l$ rydberg状態におけるヘリウム原子のマッター波干渉法について

Comment on "Matter-wave interferometry with helium atoms in low-$l$ Rydberg states'' ( http://arxiv.org/abs/2306.06776v2 )

ライセンス: Link先を確認
D. Z. Chan and J. D. D. Martin(参考訳) Tommey と Hogan [Phys. A, 104, 033305 (2021)] は、Rydberg の非均一電場を約2000m/sで走行する原子を用いた物質波干渉実験を報告している。 実験の本質物理学を含む単純化されたモデルを用いて、観測された干渉縞によって測定された位相差は、ライドバーグ原子の加速に依存するのではなく、単に不均質な電場を通る原子の均一な運動に依存することを示した。

Tommey and Hogan [Phys. Rev. A, 104, 033305 (2021)] have reported a matter-wave interference experiment using Rydberg atoms traveling through inhomogeneous electric fields at approximately 2000 m/s. Using a simplified model containing the essential physics of their experiment, we show that the phase difference measured by their observed interference fringes does not depend -- in any significant way -- on the acceleration of the Rydberg atoms, but instead simply on the uniform motion of the atoms through the inhomogeneous electric field.
翻訳日:2023-08-08 22:42:48 公開日:2023-08-07
# Divide-and-Learnによるソフトウェアパフォーマンスの予測

Predicting Software Performance with Divide-and-Learn ( http://arxiv.org/abs/2306.06651v2 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen(参考訳) 高度に構成可能なソフトウェアシステムの性能を予測することは、パフォーマンステストと品質保証の基礎となる。 そのために最近の研究は、ソフトウェアのパフォーマンスをモデル化するために、マシン/ディープ学習に依存している。 しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。 本稿では,$DaL$という「分割学習」の概念に基づくアプローチを提案する。 基本的な考え方は、サンプルのスパーシティを扱うために、サンプルを構成ランドスケープから遠くの分割に分割し、それぞれが特徴のスパーシティを扱うための局所モデルとして正規化されたDeep Neural Networkを構築します。 新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。 8つの実世界のシステムと5つのトレーニングデータによる実験結果から、DaL$は最先端のアプローチと比較して、40ケース中33ケース(26ケースが大幅に改善されている)において、最高のシステムよりもパフォーマンスが悪く、精度が最大で1.94\times$改善されていることが明らかになった。 実際に$DaL$は、基礎となるローカルモデルとして使用する際の異なるグローバルモデルも大幅に改善し、柔軟性をさらに強化する。 オープンサイエンスを促進するために、この研究のすべてのデータ、コード、補足的な数字は、私たちのリポジトリでアクセスできます。

Predicting the performance of highly configurable software systems is the foundation for performance testing and quality assurance. To that end, recent work has been relying on machine/deep learning to model software performance. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose an approach based on the concept of 'divide-and-learn', dubbed $DaL$. The basic idea is that, to handle sample sparsity, we divide the samples from the configuration landscape into distant divisions, for each of which we build a regularized Deep Neural Network as the local model to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Experiment results from eight real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, $DaL$ performs no worse than the best counterpart on 33 out of 40 cases (within which 26 cases are significantly better) with up to $1.94\times$ improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. Practically, $DaL$ also considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility. To promote open science, all the data, code, and supplementary figures of this work can be accessed at our repository: https://github.com/ideas-labo/DaL.
翻訳日:2023-08-08 22:42:31 公開日:2023-08-07
# 近隣比較による言語モデルに対する会員推測攻撃

Membership Inference Attacks against Language Models via Neighbourhood Comparison ( http://arxiv.org/abs/2305.18462v2 )

ライセンス: Link先を確認
Justus Mattern, Fatemehsadat Mireshghallah, Zhijing Jin, Bernhard Sch\"olkopf, Mrinmaya Sachan, Taylor Berg-Kirkpatrick(参考訳) 会員推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としており、言語モデルのプライバシーリスクを評価するために広く利用されている。 既存の攻撃のほとんどは、モデルがトレーニングサンプルに非トレーニングポイントよりも高い確率を割り当てる傾向にあるという観察に依存している。 しかし、モデルスコアの分離による単純な閾値付けは、サンプルの本質的な複雑さを考慮しないため、高い偽陽性率をもたらす傾向にある。 近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。 しかし、参照モデルをトレーニングするために、このような攻撃は、敵が元のトレーニングデータとよく似たサンプルにアクセスできるという強い非現実的な仮定をもたらす。 したがって、より現実的なシナリオでその性能を調査し、参照モデルのトレーニングに使用されるデータ分散に関して非常に脆弱であることを見出します。 筆者らは,この脆弱性が安全性の層を提供するかどうかを検討するために,与えられたサンプルのモデルスコアと合成した隣接テキストのスコアを比較し,トレーニングデータ配信へのアクセスの必要性を排除した近傍攻撃を提案し,評価する。 我々は,トレーニングデータ分布に関する完全な知識を持つ参照ベースの攻撃と競合することに加えて,既存の参照フリー攻撃と不完全な知識を持つ参照ベースの攻撃を明らかに上回っていることを示し,敵攻撃の脅威モデルの再評価の必要性を実証する。

Membership Inference attacks (MIAs) aim to predict whether a data sample was present in the training data of a machine learning model or not, and are widely used for assessing the privacy risks of language models. Most existing attacks rely on the observation that models tend to assign higher probabilities to their training samples than non-training points. However, simple thresholding of the model score in isolation tends to lead to high false-positive rates as it does not account for the intrinsic complexity of a sample. Recent work has demonstrated that reference-based attacks which compare model scores to those obtained from a reference model trained on similar data can substantially improve the performance of MIAs. However, in order to train reference models, attacks of this kind make the strong and arguably unrealistic assumption that an adversary has access to samples closely resembling the original training data. Therefore, we investigate their performance in more realistic scenarios and find that they are highly fragile in relation to the data distribution used to train reference models. To investigate whether this fragility provides a layer of safety, we propose and evaluate neighbourhood attacks, which compare model scores for a given sample to scores of synthetically generated neighbour texts and therefore eliminate the need for access to the training data distribution. We show that, in addition to being competitive with reference-based attacks that have perfect knowledge about the training data distribution, our attack clearly outperforms existing reference-free attacks as well as reference-based attacks with imperfect knowledge, which demonstrates the need for a reevaluation of the threat model of adversarial attacks.
翻訳日:2023-08-08 22:40:55 公開日:2023-08-07
# それら全てを支配する一つのモデル:スロベニアの要約者ランキング

One model to rule them all: ranking Slovene summarizers ( http://arxiv.org/abs/2306.11518v2 )

ライセンス: Link先を確認
Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) テキスト要約は自然言語処理において必須の課題であり、研究者たちはルールベースのシステムからニューラルネットワークまで、長年にわたり様々なアプローチを開発してきた。 しかし、あらゆるタイプのテキストでうまく機能する単一のモデルやアプローチは存在しない。 与えられたテキストに対して最適な要約モデルを推奨するシステムを提案する。 提案システムでは,入力内容を分析し,与えられた入力に対するルージュスコアの観点で,どの要約者が最善のスコアを取るべきかを予測する,完全接続型ニューラルネットワークを用いる。 メタモデルは、入力の異なる特性、特にDoc2Vec文書表現を用いて、スロベニア語で開発された4つの異なる要約モデルの中から選択する。 4つのスロヴェニア要約モデルは、低リソース言語におけるテキスト要約に関連する様々な課題に対処する。 提案したSloMetaSumモデルの性能を自動評価し,その一部を手動で評価する。 その結果,システムは手動で最適なモデルを選択するステップを自動生成することがわかった。

Text summarization is an essential task in natural language processing, and researchers have developed various approaches over the years, ranging from rule-based systems to neural networks. However, there is no single model or approach that performs well on every type of text. We propose a system that recommends the most suitable summarization model for a given text. The proposed system employs a fully connected neural network that analyzes the input content and predicts which summarizer should score the best in terms of ROUGE score for a given input. The meta-model selects among four different summarization models, developed for the Slovene language, using different properties of the input, in particular its Doc2Vec document representation. The four Slovene summarization models deal with different challenges associated with text summarization in a less-resourced language. We evaluate the proposed SloMetaSum model performance automatically and parts of it manually. The results show that the system successfully automates the step of manually selecting the best model.
翻訳日:2023-08-08 22:30:24 公開日:2023-08-07
# 均一電場及び磁場中の平面フェルミオンに対するフェルミオン縮合と真空エネルギー-モーメントテンソル

Fermionic condensate and the vacuum energy-momentum tensor for planar fermions in homogeneous electric and magnetic fields ( http://arxiv.org/abs/2306.11402v2 )

ライセンス: Link先を確認
V. V. Parazian(参考訳) 外部定数と均質な電場と磁場の平面上に局在した巨大なフェルミイオン量子場を考える。 磁場は平面に垂直であり、電場は平行である。 ディラック方程式に対する完全な解の集合が提示される。 真空状態の重要な物理特性として,フェルミオン凝縮とエネルギー-運動テンソルの期待値について検討した。 再正規化はHurwitz関数を用いて行われる。 結果は、ゼロ電界の場合の研究結果と比較される。 問題パラメータの値について,各領域における真空期待値の挙動について考察する。 その結果は、長波長近似におけるディラックモデルにより記述されたグラフェンシートの電子サブシステムを含む。

We consider a massive fermionic quantum field localized on a plane in external constant and homogeneous electric and magnetic fields. The magnetic field is perpendicular to the plane and the electric field is parallel. The complete set of solutions to the Dirac equation is presented. As important physical characteristics of the vacuum state, the fermion condensate and the expectation value of the energy-momentum tensor are investigated. The renormalization is performed using the Hurwitz function. The results are compared with those previously studied in the case of zero electric field. We discuss the behavior of the vacuum expectation values in different regions for the values of the problem parameters. Applications of the results include the electronic subsystem of graphene sheet described by the Dirac model in the long-wavelength approximation.
翻訳日:2023-08-08 22:30:08 公開日:2023-08-07
# 双極子-双極子相互作用による格子状sr原子の集団散乱

Collective scattering in lattice-trapped Sr atoms via dipole-dipole interactions ( http://arxiv.org/abs/2306.09937v2 )

ライセンス: Link先を確認
Shengnan Zhang, Sandhya Ganesh, Balsant Shivanand Tiwari, Kai Bongs and Yeshpal Singh(参考訳) 結合双極子モデルに基づいて,5$s5p^{3}$P$_{0}\to5s4d^{3}$D$_{1}$遷移で誘導される双極子-双極子相互作用の存在下で,3次元光学格子に閉じ込められた高密度Srアンサンブルの集合特性について検討した。 その結果,散乱光強度,周波数シフト,直線幅などの集団散乱特性は格子内の原子間距離と原子数に強く依存していることが判明した。 さらに, 放射強度は格子中の原子分布, レーザー偏光, 検出位置に強く依存する。 この結果から, 格子移動アンサンブルの集合的挙動を実験スケールに相当する原子番号で理解するだけでなく, 多体物理を探索するための優れたプラットフォームを提供し, 量子情報処理や量子シミュレーションなどの応用のための新しい窓を開くことができる。

We investigate, based on the coupled dipole model, collective properties of dense Sr ensembles trapped in a three-dimensional (3D) optical lattice in the presence of dipole-dipole interactions induced on the 5$s5p^{3}$P$_{0}\to5s4d^{3}$D$_{1}$ transition. Our results reveal that the collective scattering properties, such as the scattered light intensity, frequency shift and linewidth, strongly depend on the interatomic distance and the atom number in the lattice. Moreover, the emission intensity is strongly dependent on the atomic distribution in lattices, the laser polarization and the detection position. The results not only offer the understanding of collective behaviors of lattice-trapped ensembles with an atom number equivalent to the experimental scale, but also provide an excellent platform for exploring many-body physics, thereby, opening a new window for applications like quantum information processing and quantum simulation.
翻訳日:2023-08-08 22:29:37 公開日:2023-08-07
# 一般化経験的類型を用いた深部生成モデルの理解

Understanding Deep Generative Models with Generalized Empirical Likelihoods ( http://arxiv.org/abs/2306.09780v2 )

ライセンス: Link先を確認
Suman Ravuri, M\'elanie Rey, Shakir Mohamed, Marc Deisenroth(参考訳) 深層生成モデルが高次元データの分布をいかにうまく捉えるかを理解することは、まだ重要な課題である。 生成的敵対的ネットワークや拡散モデルのような特定のモデルクラスでは特に困難であり、そのモデルは正確な可能性を認めない。 本研究では,一般化経験的可能性 (GEL) 法が深部生成モデル (DGM) の多くの欠陥を識別できる診断ツール群を提供することを示した。 モーメント条件の適切な仕様により,提案手法はどのモードがドロップされたか,DGMがモード不均衡である程度,およびDGMがクラス内多様性を十分に捉えているか否かを識別できることを示す。 本稿では,最大平均不一致と一般化された経験的確率による手法を組み合わせて,サンプル毎の解釈可能性を保持する分布テストだけでなく,ラベル情報を含むメトリクスを作成する方法を示す。 このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上することがわかった。 実装はhttps://github.com/deepmind/understanding_deep_generative_models_with_generalized_empirical_likeliho od/で行います。

Understanding how well a deep generative model captures a distribution of high-dimensional data remains an important open challenge. It is especially difficult for certain model classes, such as Generative Adversarial Networks and Diffusion Models, whose models do not admit exact likelihoods. In this work, we demonstrate that generalized empirical likelihood (GEL) methods offer a family of diagnostic tools that can identify many deficiencies of deep generative models (DGMs). We show, with appropriate specification of moment conditions, that the proposed method can identify which modes have been dropped, the degree to which DGMs are mode imbalanced, and whether DGMs sufficiently capture intra-class diversity. We show how to combine techniques from Maximum Mean Discrepancy and Generalized Empirical Likelihood to create not only distribution tests that retain per-sample interpretability, but also metrics that include label information. We find that such tests predict the degree of mode dropping and mode imbalance up to 60% better than metrics such as improved precision/recall. We provide an implementation at https://github.com/deepmind/understanding_deep_generative_models_with_generalized_empirical_likeliho od/.
翻訳日:2023-08-08 22:29:19 公開日:2023-08-07
# 微調整VQGANモデルを用いた極端画像圧縮

Extreme Image Compression using Fine-tuned VQGAN Models ( http://arxiv.org/abs/2307.08265v2 )

ライセンス: Link先を確認
Qi Mao, Tinghan Yang, Yinuo Zhang, Shuyin Pan, Meng Wang, Shiqi Wang, Siwei Ma(参考訳) 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。 それでも、極端な圧縮比(<0.1$ bpp)を達成するための有効性と適用性は依然として制限されている。 本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することにより,単純かつ効果的な符号化フレームワークを提案する。 主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。 具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。 K-meansアルゴリズムを用いて,事前学習した大規模コードブックを小さなコードブックにクラスタリングする。 これにより、画像は様々な範囲のVQインデックスマップとして表現され、可変ビットレートと異なるレベルの再構成品質が得られる。 様々なデータセットに対する大規模定性的および定量的実験により、提案手法は、知覚的品質指向のメトリクスと極低ビットレート下での人間の知覚において、最先端のコーデックよりも優れていることを示した。

Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. Nevertheless, their efficacy and applicability in achieving extreme compression ratios ($<0.1$ bpp) still remain constrained. In this work, we propose a simple yet effective coding framework by introducing vector quantization (VQ)-based generative models into the image compression domain. The main insight is that the codebook learned by the VQGAN model yields strong expressive capacity, facilitating efficient compression of continuous information in the latent space while maintaining reconstruction quality. Specifically, an image can be represented as VQ-indices by finding the nearest codeword, which can be encoded using lossless compression methods into bitstreams. We then propose clustering a pre-trained large-scale codebook into smaller codebooks using the K-means algorithm. This enables images to be represented as diverse ranges of VQ-indices maps, resulting in variable bitrates and different levels of reconstruction quality. Extensive qualitative and quantitative experiments on various datasets demonstrate that the proposed framework outperforms the state-of-the-art codecs in terms of perceptual quality-oriented metrics and human perception under extremely low bitrates.
翻訳日:2023-08-08 22:24:03 公開日:2023-08-07
# DNAGPT:Versatile DNAシークエンス解析タスクのための汎用事前学習ツール

DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks ( http://arxiv.org/abs/2307.05628v2 )

ライセンス: Link先を確認
Daoan Zhang, Weitong Zhang, Bing He, Yu Zhao, Jianguo Zhang, Chenchen Qin, Jianhua Yao(参考訳) GPTは、言語シーケンスから一般的な情報を抽出できることが証明されており、すべての下流タスクの恩恵を受けている。 これは、事前訓練されたモデルを使用して、DNA配列に隠された固有情報を探索する動機となります。 しかし、dna配列解析におけるデータとタスクの要求は、生成、予測、回帰といった異なるフォーマットで処理され、複雑さを持ち、ヌクレオチド配列や発現レベルといった異なるモダリティを伴う。 既存のBERTベースのモデルは、ほとんどの場合生成タスクであり、シーケンスデータを入力および出力として使用するため、1つのモデルで様々なDNA解析タスクを簡単に処理することはできない。 そこで本研究では,全哺乳類から200億以上の塩基対をトレーニングしたDNA事前学習型DNAモデルDNAGPTを提案する。 本稿では,事前学習期間にバイナリ分類タスク(dnaシークエンス)と数値回帰タスク(グアニン-シトシン含量予測)を追加し,対応する埋め込み層とエンコーディングヘッドでアーキテクチャを強化することで,古典的なgptモデルを強化する。 また、同じトークン空間内でシーケンス、番号、タスクに関連する情報をエンコードする包括的トークン言語を設計する。 そのため、DNAGPTは汎用的なDNA解析タスクを処理でき、同時にシーケンスデータと数値データの両方を処理することができる。 我々は、ゲノムシグナルおよび領域認識、疑似ゲノム生成およびmrnaアブランス回帰タスクに関するモデルを評価した。 プレトレーニングの恩恵を受けたdnagptは,ダウンストリームタスク用に特別に設計された既存モデルよりも優れた性能を示すことができる。

GPT has been proven to be capable of extracting general information from language sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden inherent information in DNA sequences. However, data and task requirements in DNA sequence analyses are tasked in different formats such as generation, prediction and regression, and are complexity and involve different modalities, such as nucleotides sequences and, expression levels, etc. Existing BERT-based models are mostly for generation tasks and use sequence data as input and output, thus cannot easily handle various DNA analysis tasks in one single model. Herein, we propose a generalized DNA pre-training DNA model, DNAGPT, that was trained on over 200 billion base pairs from all the mammals. We enhance the classic GPT model by adding binary classification task (DNA sequence order) and numerical regression task (guanine-cytosine content prediction) in the pre-training period and enhancing the architecture with corresponding embedding layers and encoding heads. We also design a comprehensive token language to encode sequence, number and task related information in the same token space. Therefore, DNAGPT can handle versatile DNA analysis tasks and simultaneously process handle both sequence and numerical data. We have evaluated our model on genomic signals and regions recognition, pseudo genomes generation and mRNA abudance regression tasks. We demonstrate that benefiting from pre-training, DNAGPT can shows superior performance than the existing models specially designed for various downstreams tasks.
翻訳日:2023-08-08 22:23:15 公開日:2023-08-07
# came: 信頼誘導型適応メモリ効率の最適化

CAME: Confidence-guided Adaptive Memory Efficient Optimization ( http://arxiv.org/abs/2307.02047v2 )

ライセンス: Link先を確認
Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang, Yang You(参考訳) Adam や LAMB のような適応勾配法は、大規模言語モデルの訓練において優れた性能を示した。 それにもかかわらず、適応性の必要性は、パラメータごとの勾配の第二モーメント推定を維持する必要がある。 この問題を解決するために、補助メモリ使用量の大幅な削減を実現するために、メモリ効率の良い最適化器(例えば、Adafactor)がいくつか提案されている。 本稿では,既存のメモリ効率の最適化手法の不安定性を低減するための信頼度誘導戦略を最初に検討する。 この戦略に基づいて,従来の適応手法のような高速収束とメモリ効率の低い手法の2つの目標を同時に達成するCAMEを提案する。 BERT や GPT-2 などの様々な NLP タスクにおける CAME の訓練安定性と優れた性能を実験により実証した。 特に,最大バッチサイズ32,768のbertプリトレーニングでは,adamオプティマイザに比べて高速に収束し,高い精度を実現する。 CAMEの実装は一般公開されている。

Adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent performance in the training of large language models. Nevertheless, the need for adaptivity requires maintaining second-moment estimates of the per-parameter gradients, which entails a high cost of extra memory overheads. To solve this problem, several memory-efficient optimizers (e.g., Adafactor) have been proposed to obtain a drastic reduction in auxiliary memory usage, but with a performance penalty. In this paper, we first study a confidence-guided strategy to reduce the instability of existing memory efficient optimizers. Based on this strategy, we propose CAME to simultaneously achieve two goals: fast convergence as in traditional adaptive methods, and low memory usage as in memory-efficient methods. Extensive experiments demonstrate the training stability and superior performance of CAME across various NLP tasks such as BERT and GPT-2 training. Notably, for BERT pre-training on the large batch size of 32,768, our proposed optimizer attains faster convergence and higher accuracy compared with the Adam optimizer. The implementation of CAME is publicly available.
翻訳日:2023-08-08 22:21:48 公開日:2023-08-07
# FaceCLIPNeRF:変形性ニューラルネットワークを用いたテキスト駆動型3次元顔マニピュレーション

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields ( http://arxiv.org/abs/2307.11418v2 )

ライセンス: Link先を確認
Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo(参考訳) 近年のNeural Radiance Fields(NeRF)の進歩により、高忠実度3次元顔再構成と新しいビュー合成が可能になったため、その操作は3次元視覚において必須の課題となった。 しかし,既存の操作手法では,ユーザが提供するセマンティックマスクや手動属性検索など,高度な人的労力を必要とする。 我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストを必要とするように設計されている。 そこで,我々はまず動的シーン上で,潜在コード条件変形可能なnerfであるシーンマニピュレータを訓練し,潜在コードを用いて顔変形を制御する。 しかし、1つの潜在コードでシーン変形を表現することは、異なるインスタンスで観測される局所変形を合成するのに不利である。 そこで,提案する位置条件アンカーコンポジタ(pac)は,空間的に変化する潜在コードを用いて操作されたシーンを表現することを学習する。 シーンマニピュレータによるレンダリングは、テキスト駆動操作のためのCLIP埋め込み空間のターゲットテキストと高いコサイン類似性を得るために最適化される。 我々の知る限りでは、NeRFで再構築された顔のテキスト駆動操作に最初に取り組むアプローチである。 大規模な結果,比較,アブレーション研究は,我々のアプローチの有効性を示すものである。

As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.
翻訳日:2023-08-08 20:38:00 公開日:2023-08-07
# マルチモーダル感情分析のための一般デバイアス

General Debiasing for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2307.10511v2 )

ライセンス: Link先を確認
Teng Sun, Juntong Ni, Wenjie Wang, Liqiang Jing, Yinwei Wei, and Liqiang Nie(参考訳) 既存のマルチモーダル感性分析(MSA)の研究は、マルチモーダル特徴と感情ラベルの急激な相関を適合させることなく、予測にマルチモーダル情報を利用する。 例えば、青い背景を持つほとんどのビデオがデータセットに肯定的なラベルを持っている場合、モデルは予測にそのような相関に依存するが、"青い背景"は感情に関連した機能ではない。 この問題に対処するために、我々は、突発的相関への依存を減らすことで、MSAモデルの外部分布(OOD)一般化能力を向上することを目的とした、一般的なMSAタスクを定義する。 そこで本研究では,より偏りのあるサンプルに適応的に小さな重みを割り当てる逆確率重み付け(ipw)に基づく一般的な偏りの枠組みを提案する。 この脱バイアスフレームワークの鍵は、各サンプルのバイアスを推定することであり、これは2つのステップによって達成される。 1)各モダリティにおけるロバストな特徴と偏った特徴の分離 2)バイアス特徴を利用してバイアスを推定する。 最後に,IPWを用いて大規模バイアスサンプルの効果を低減し,感情予測のための堅牢な特徴学習を実現する。 モデルの一般化能力を調べるために、元のテストセットを2つのベンチマークに保持し、さらに複数のユニモーダルおよびマルチモーダルのoodテストセットを構築する。 実験結果は,提案フレームワークの優れた一般化能力を示すものである。 我々は https://github.com/Teng-Sun/GEAR.com を再生するためのコードとデータをリリースした。

Existing work on Multimodal Sentiment Analysis (MSA) utilizes multimodal information for prediction yet unavoidably suffers from fitting the spurious correlations between multimodal features and sentiment labels. For example, if most videos with a blue background have positive labels in a dataset, the model will rely on such correlations for prediction, while "blue background" is not a sentiment-related feature. To address this problem, we define a general debiasing MSA task, which aims to enhance the Out-Of-Distribution (OOD) generalization ability of MSA models by reducing their reliance on spurious correlations. To this end, we propose a general debiasing framework based on Inverse Probability Weighting (IPW), which adaptively assigns small weights to the samples with larger bias (i.e., the severer spurious correlations). The key to this debiasing framework is to estimate the bias of each sample, which is achieved by two steps: 1) disentangling the robust features and biased features in each modality, and 2) utilizing the biased features to estimate the bias. Finally, we employ IPW to reduce the effects of large-biased samples, facilitating robust feature learning for sentiment prediction. To examine the model's generalization ability, we keep the original testing sets on two benchmarks and additionally construct multiple unimodal and multimodal OOD testing sets. The empirical results demonstrate the superior generalization ability of our proposed framework. We have released the code and data to facilitate the reproduction https://github.com/Teng-Sun/GEAR.
翻訳日:2023-08-08 20:36:58 公開日:2023-08-07
# TableGPT:テーブル,自然言語,コマンドをひとつのGPTに統合する

TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT ( http://arxiv.org/abs/2307.08674v3 )

ライセンス: Link先を確認
Liangyu Zha, Junlin Zhou, Liyao Li, Rui Wang, Qingyi Huang, Saisai Yang, Jing Yuan, Changbao Su, Xiang Li, Aofeng Su, Tao Zhang, Chen Zhou, Kaizhe Shou, Miao Wang, Wufang Zhu, Guoshan Lu, Chao Ye, Yali Ye, Wentao Ye, Yiming Zhang, Xinglong Deng, Jie Xu, Haobo Wang, Gang Chen, Junbo Zhao(参考訳) テーブルは現実世界のデータベースで広く使われており、人間が分析し操作するのにかなりの時間と労力を要する。 大規模言語モデル(llm)の進歩により、自然言語入力を使用してテーブルとの対話が可能になり、この機能を現実に近いものにした。 本稿では,外部関数コマンドを用いたテーブル上でのLLMの理解と操作を可能にする,統合された微調整フレームワークTableGPTを提案する。 テーブルとシームレスに対話する機能を導入し、質問応答、データ操作(例えば、挿入、削除、クエリ、操作の変更)、データの可視化、分析レポート生成、自動予測など、幅広い機能を実現する。 TableGPTは、ユーザに対して、テーブルデータを活用することによって、利便性とアクセシビリティを提供することを目指している。 TableGPTの中核には、グローバルな表表表現という新しい概念があり、これはLLMがメタ情報以外のテーブル全体を包括的に理解できるようにするものである。 表とテキストの両モードでLLMを共同で訓練することで、テーブルGPTは表データの深い理解とテーブル上の複雑な操作を、チェーン・オブ・コマンドで行うことができる。 重要なのは、TableGPTは外部APIインターフェースに頼るのではなく、自己完結型のシステムという利点を提供します。 さらに、効率的なデータプロセスフロー、クエリ拒否(適切な場合)、プライベートデプロイメントをサポートし、ドメインデータの微調整とデータのプライバシの確保を可能にし、フレームワークの特定のユースケースへの適応性を高める。

Tables are prevalent in real-world databases, requiring significant time and effort for humans to analyze and manipulate. The advancements in large language models (LLMs) have made it possible to interact with tables using natural language input, bringing this capability closer to reality. In this paper, we present TableGPT, a unified fine-tuned framework that enables LLMs to understand and operate on tables using external functional commands. It introduces the capability to seamlessly interact with tables, enabling a wide range of functionalities such as question answering, data manipulation (e.g., insert, delete, query, and modify operations), data visualization, analysis report generation, and automated prediction. TableGPT aims to provide convenience and accessibility to users by empowering them to effortlessly leverage tabular data. At the core of TableGPT lies the novel concept of global tabular representations, which empowers LLMs to gain a comprehensive understanding of the entire table beyond meta-information. By jointly training LLMs on both table and text modalities, TableGPT achieves a deep understanding of tabular data and the ability to perform complex operations on tables through chain-of-command instructions. Importantly, TableGPT offers the advantage of being a self-contained system rather than relying on external API interfaces. Moreover, it supports efficient data process flow, query rejection (when appropriate) and private deployment, enabling faster domain data fine-tuning and ensuring data privacy, which enhances the framework's adaptability to specific use cases.
翻訳日:2023-08-08 20:35:25 公開日:2023-08-07
# IML-ViT:視覚変換器による画像操作位置のベンチマーク

IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer ( http://arxiv.org/abs/2307.14863v2 )

ライセンス: Link先を確認
Xiaochen Ma, Bo Du, Zhuohang Jiang, Ahmed Y. Al Hammadi, Jizhe Zhou(参考訳) 高度な画像改ざん技術は、マルチメディアの信頼性にますます挑戦し、画像操作ローカライゼーション(IML)の開発につながっている。 しかし、優れたIMLモデルを作る理由は何ですか? 答えは、アーティファクトをキャプチャする方法にあります。 爆発するアーティファクトは、操作された領域と認証された領域の間に非意味的な不一致を抽出する必要がある。 自己認識機構を使えば、Transformerはアーティファクトをキャプチャするためのより良い候補になるはずだ。 しかし、データセットが限られているため、現在、IMLがベンチマークとして機能するための純粋なViTベースのアプローチは存在しない。 それでもCNNは、弱い長距離と非セマンティックモデリングに悩まされている。 このギャップを埋めるために,人工物が画像解像度に敏感であり,マルチスケールな特徴の下で増幅され,操作境界で巨大であるという事実に基づいて,高分解能のvitを構築すること,マルチスケールな特徴抽出能力,少量のデータに収束可能なマニピュレーションエッジの監督など,前者の質問に対する答えを定式化する。 我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。 5つのベンチマークデータセットに関する広範な実験により、このモデルが最先端の操作ローカライゼーションメソッドよりも優れていることが確認された。

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between manipulated and authentic regions, necessitating explicit comparisons between the two areas. With the self-attention mechanism, naturally, the Transformer should be a better candidate to capture artifacts. However, due to limited datasets, there is currently no pure ViT-based approach for IML to serve as a benchmark, and CNNs dominate the entire task. Nevertheless, CNNs suffer from weak long-range and non-semantic modeling. To bridge this gap, based on the fact that artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision that could converge with a small amount of data. We term this simple but effective ViT paradigm IML-ViT, which has significant potential to become a new benchmark for IML. Extensive experiments on five benchmark datasets verified our model outperforms the state-of-the-art manipulation localization methods.Code and models are available at \url{https://github.com/SunnyHaze/IML-ViT}.
翻訳日:2023-08-08 20:29:11 公開日:2023-08-07
# LSTM, BiLSTM, CNN, GRU, GloVeを用いた癌遺伝子変異分類のためのハイブリッド機械学習モデル

A Hybrid Machine Learning Model for Classifying Gene Mutations in Cancer using LSTM, BiLSTM, CNN, GRU, and GloVe ( http://arxiv.org/abs/2307.14361v2 )

ライセンス: Link先を確認
Sanad Aburass, Osama Dorgham and Jamil Al Shaqsi(参考訳) 本研究では、LSTM、BiLSTM、CNN、GRU、GloVeを組み合わせたアンサンブルモデルを用いて、Kaggleのパーソナライズドメディカル:がん治療データセットを再定義する手法を提案する。 その結果,BERT,Electra,Roberta,XLNet,Distilbert,LSTMアンサンブルなどのよく知られたトランスフォーマーと比較した。 我々のモデルは、精度、精度、リコール、f1スコア、平均二乗誤差の点で他の全てのモデルよりも優れていた。 驚くべきことに、トレーニング時間も少なくなり、パフォーマンスと効率の完全な組み合わせになった。 本研究は,遺伝子変異分類などの難しい課題に対するアンサンブルモデルの有用性を示す。

This study presents an ensemble model combining LSTM, BiLSTM, CNN, GRU, and GloVe to classify gene mutations using Kaggle's Personalized Medicine: Redefining Cancer Treatment dataset. The results were compared against well-known transformers like as BERT, Electra, Roberta, XLNet, Distilbert, and their LSTM ensembles. Our model outperformed all other models in terms of accuracy, precision, recall, F1 score, and Mean Squared Error. Surprisingly, it also needed less training time, resulting in a perfect combination of performance and efficiency. This study demonstrates the utility of ensemble models for difficult tasks such as gene mutation classification.
翻訳日:2023-08-08 20:28:40 公開日:2023-08-07
# EasyNet:3Dインダストリアル異常検出のための簡易ネットワーク

EasyNet: An Easy Network for 3D Industrial Anomaly Detection ( http://arxiv.org/abs/2307.13925v3 )

ライセンス: Link先を確認
Ruitao Chen, Guoyang Xie, Jiaqi Liu, Jinbao Wang, Ziqi Luo, Jinfan Wang, Feng Zheng(参考訳) 3d異常検出は産業生産(im)におけるコンピュータビジョンの新たな課題である。 近年,多くの高度なアルゴリズムが公表されているが,そのほとんどがIMのニーズを満たすことはできない。 欠点はいくつかある。 一 アルゴリズムが大規模な事前訓練されたモデルに大きく依存するため、生産ラインへの展開が困難であること。 二 記憶バンクの過多による記憶オーバヘッドの大幅な増加 三 推論速度は、リアルタイムでは達成できない。 To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment. 大規模な実験により、EasyNetは事前訓練されたモデルやメモリバンクを使わずに92.6%の異常検出AUROCを実現している。 さらに、EasyNetは既存の方法よりも高速で、Tesla V100 GPU上で94.55 FPSのフレームレートを持つ。

3D anomaly detection is an emerging and vital computer vision task in industrial manufacturing (IM). Recently many advanced algorithms have been published, but most of them cannot meet the needs of IM. There are several disadvantages: i) difficult to deploy on production lines since their algorithms heavily rely on large pre-trained models; ii) hugely increase storage overhead due to overuse of memory banks; iii) the inference speed cannot be achieved in real-time. To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment. Extensive experiments show that EasyNet achieves an anomaly detection AUROC of 92.6% without using pre-trained models and memory banks. In addition, EasyNet is faster than existing methods, with a high frame rate of 94.55 FPS on a Tesla V100 GPU.
翻訳日:2023-08-08 20:28:08 公開日:2023-08-07
# led照明変調による顔認識システムに対する知覚不能な物理的攻撃

Imperceptible Physical Attack against Face Recognition Systems via LED Illumination Modulation ( http://arxiv.org/abs/2307.13294v2 )

ライセンス: Link先を確認
Junbin Fang, Canjian Jiang, You Jiang, Puxi Lin, Zhaojie Chen, Yujing Sun, Siu-Ming Yiu, Zoe L. Jiang(参考訳) 顔認識は私たちの日常生活において重要な役割を担い始めているが、データ駆動型顔認識システムは敵の攻撃に弱いことに注意する必要がある。 しかし、現在の敵攻撃の2つのカテゴリ、すなわちデジタル攻撃と物理的攻撃はどちらも欠点があり、以前の攻撃は非現実的であり、後者は目立った、高い計算能力、実行不可能である。 この問題に対処するために,led照明変調に基づく実用的で実行可能で,目立たず,計算能力の低い敵攻撃を提案する。 提案手法を騙すために,シーンled照明の高速強度変調により人間の眼に知覚不能な輝度変化を生じさせ,cmosイメージセンサのローリングシャッター効果を顔認識システムに適用し,撮像した顔画像に輝度情報の摂動を注入する。 本報告では,顔検出のためのDoS攻撃と,顔認証のためのDodging攻撃について述べる。 また,顔検出モデルであるdlib,mtcnn,retinaface,および顔認証モデルであるdlib,facenet,arcfaceに対するその効果を評価した。広範な実験により,顔検出モデルに対するdos攻撃の成功率は97.67%,100%,100%,すべての顔検証モデルに対するドーディング攻撃の成功率は100%に達した。

Although face recognition starts to play an important role in our daily life, we need to pay attention that data-driven face recognition vision systems are vulnerable to adversarial attacks. However, the current two categories of adversarial attacks, namely digital attacks and physical attacks both have drawbacks, with the former ones impractical and the latter one conspicuous, high-computational and inexecutable. To address the issues, we propose a practical, executable, inconspicuous and low computational adversarial attack based on LED illumination modulation. To fool the systems, the proposed attack generates imperceptible luminance changes to human eyes through fast intensity modulation of scene LED illumination and uses the rolling shutter effect of CMOS image sensors in face recognition systems to implant luminance information perturbation to the captured face images. In summary,we present a denial-of-service (DoS) attack for face detection and a dodging attack for face verification. We also evaluate their effectiveness against well-known face detection models, Dlib, MTCNN and RetinaFace , and face verification models, Dlib, FaceNet,and ArcFace.The extensive experiments show that the success rates of DoS attacks against face detection models reach 97.67%, 100%, and 100%, respectively, and the success rates of dodging attacks against all face verification models reach 100%.
翻訳日:2023-08-08 20:27:14 公開日:2023-08-07
# 大規模言語モデルにおける文脈学習はラベル関係を学習するが、従来の学習ではない

In-Context Learning in Large Language Models Learns Label Relationships but Is Not Conventional Learning ( http://arxiv.org/abs/2307.12375v2 )

ライセンス: Link先を確認
Jannik Kossen, Tom Rainforth, Yarin Gal(参考訳) 下流タスクにおけるLarge Language Models (LLM) の性能は、文脈における入力-ラベル関係の例を含むと、しばしば著しく改善される。 例えば、Xie et al. (2021)は、ICLを汎用学習アルゴリズムに例えたが、Min et al. (2022b)は、ICLはインコンテキストの例からラベル関係を学ばないと主張している。 本稿では,(1)テキスト内サンプルのラベルが予測にどのように影響するか,(2)事前学習中に学習したラベル関係がテキスト内サンプルとどのように相互作用するか,(3)ICLがテキスト内サンプル間でラベル情報を集約する方法について検討する。 この結果から, LLM はテキスト内ラベルからの情報を通常含んでいるが, 事前学習とテキスト内ラベルの関係は異なる扱いがなされており, モデルがすべてのテキスト内情報を等しく考慮していないことが示唆された。 私たちの結果は、llmの動作の理解と調整に関する洞察を与えます。

The performance of Large Language Models (LLMs) on downstream tasks often improves significantly when including examples of the input-label relationship in the context. However, there is currently no consensus about how this in-context learning (ICL) ability of LLMs works: for example, while Xie et al. (2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022b) argue ICL does not even learn label relationships from in-context examples. In this paper, we study (1) how labels of in-context examples affect predictions, (2) how label relationships learned during pre-training interact with input-label examples provided in-context, and (3) how ICL aggregates label information across in-context examples. Our findings suggests LLMs usually incorporate information from in-context labels, but that pre-training and in-context label relationships are treated differently, and that the model does not consider all in-context information equally. Our results give insights into understanding and aligning LLM behavior.
翻訳日:2023-08-08 20:26:38 公開日:2023-08-07
# 物理インフォームドニューラルネットワークによる次元の呪いへの取り組み

Tackling the Curse of Dimensionality with Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.12306v2 )

ライセンス: Link先を確認
Zheyuan Hu, Khemraj Shukla, George Em Karniadakis, Kenji Kawaguchi(参考訳) 次元の呪い (CoD) は計算資源に重きを置き、次元が大きくなるにつれて計算コストが指数関数的に増加する。 これは60年以上前にRichard Bellman氏が最初に指摘したように、高次元PDEを解決する上で大きな課題となる。 近年、数値偏微分方程式(PDE)を高次元で解くことに成功したが、そのような計算は違法に高価であり、一般的な非線形PDEの高次元への真のスケーリングは達成されていない。 本稿では,任意の高次元PDEを解くために,物理インフォームドニューラルネットワーク(PINN)をスケールアップする新しい手法を提案する。 新しい手法はStochastic Dimension Gradient Descent (SDGD)と呼ばれ、PDEの勾配を異なる次元に対応するピースに分解し、トレーニングPINNの各イテレーションでこれらの次元のサブセットをランダムにサンプリングする。 提案手法の収束保証とその他の望ましい性質を理論的に証明する。 提案手法は,ピンスメッシュを使わずに1つのgpu上で非常に高速に,ハミルトン・ヤコビ・ベルマン(hjb)方程式やシュル(shr\"{o}dinger方程式など,多くの悪名高い高次元pdesを解くことができることを実験的に証明した。 例えば、sdgdとピンを用いた単一のgpu上で、非自明な非線形pdes(1つのhjb方程式と1つのブラックシェール方程式)を6時間で10万次元で解く。 SDGD は PINN の一般的な訓練手法であるため、SDGD は任意の高次元 PDE に対してスケールアップするために、現在および将来の PINN のどの変種にも適用することができる。

The curse-of-dimensionality (CoD) taxes computational resources heavily with exponentially increasing computational cost as the dimension increases. This poses great challenges in solving high-dimensional PDEs as Richard Bellman first pointed out over 60 years ago. While there has been some recent success in solving numerically partial differential equations (PDEs) in high dimensions, such computations are prohibitively expensive, and true scaling of general nonlinear PDEs to high dimensions has never been achieved. In this paper, we develop a new method of scaling up physics-informed neural networks (PINNs) to solve arbitrary high-dimensional PDEs. The new method, called Stochastic Dimension Gradient Descent (SDGD), decomposes a gradient of PDEs into pieces corresponding to different dimensions and samples randomly a subset of these dimensional pieces in each iteration of training PINNs. We theoretically prove the convergence guarantee and other desired properties of the proposed method. We experimentally demonstrate that the proposed method allows us to solve many notoriously hard high-dimensional PDEs, including the Hamilton-Jacobi-Bellman (HJB) and the Schr\"{o}dinger equations in thousands of dimensions very fast on a single GPU using the PINNs mesh-free approach. For instance, we solve nontrivial nonlinear PDEs (one HJB equation and one Black-Scholes equation) in 100,000 dimensions in 6 hours on a single GPU using SDGD with PINNs. Since SDGD is a general training methodology of PINNs, SDGD can be applied to any current and future variants of PINNs to scale them up for arbitrary high-dimensional PDEs.
翻訳日:2023-08-08 20:26:17 公開日:2023-08-07
# 高次解法のための教師なし機械学習ショックキャプチャ技術

Unsupervised machine-learning shock-capturing technique for high-order solvers ( http://arxiv.org/abs/2308.00086v2 )

ライセンス: Link先を確認
Andr\'es Mateo-Gab\'in, Kenza Tlales, Eusebio Valero, Esteban Ferrer, Gonzalo Rubio(参考訳) 本稿では,ガウス混合モデル(gmms)に基づく教師なし機械学習ショックキャプチャアルゴリズムを提案する。 提案したGMMセンサは衝撃検出において顕著な精度を示し,パラメータチューニングを必要としない多種多様なテストケースに対して堅牢である。 GMMを用いたセンサと最先端のセンサを比較した。 全ての方法は高次圧縮性不連続ガレルキン解法に統合され、人工粘度を変調して衝撃を捉えることができる。 高レイノルズ数を含む超音速テストケースは、センサーの性能を示し、最先端のセンサーと同じ効果を示している。 %のnodal dg aproachは, サブセルフラックス拡散法, 超音速特徴検出, メッシュ微細化における潜在的な応用を可能にする。 広範囲なトレーニングデータセットなしで機能する適応特性と能力により、このGMMベースのセンサーは複雑なジオメトリと様々なフロー構成に適している。 本研究は,高度なCFD符号の堅牢性と効率を向上させるため,GMMセンサで実証した教師なし機械学習手法の可能性を明らかにする。

We present a novel unsupervised machine learning shock capturing algorithm based on Gaussian Mixture Models (GMMs). The proposed GMM sensor demonstrates remarkable accuracy in detecting shocks and is robust across diverse test cases without the need for parameter tuning. We compare the GMM-based sensor with state-of-the-art alternatives. All methods are integrated into a high-order compressible discontinuous Galerkin solver where artificial viscosity can be modulated to capture shocks. Supersonic test cases, including high Reynolds numbers, showcase the sensor's performance, demonstrating the same effectiveness as fine-tuned state-of-the-art sensors. %The nodal DG aproach allows for potential applications in sub-cell flux-differencing formulations, supersonic feature detection, and mesh refinement. The adaptive nature and ability to function without extensive training datasets make this GMM-based sensor suitable for complex geometries and varied flow configurations. Our study reveals the potential of unsupervised machine learning methods, exemplified by the GMM sensor, to improve the robustness and efficiency of advanced CFD codes.
翻訳日:2023-08-08 20:17:44 公開日:2023-08-07
# ネットワーク型マルチエージェントマルコフ決定プロセスのための分散動的プログラミングと分散td学習のフレームワーク

Distributed Dynamic Programming and an O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v2 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散動的プログラミング(DP)と分散時間差(TD)学習アルゴリズムについて検討する。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 私たちの貢献は2つの重要なポイントにまとめることができる。 1) 連続時間領域における平均的コンセンサス法に着想を得た分散DPを提案する。 このDPの収束性は制御理論の観点から評価される。 2) 上記のDPに基づいて,新しい分散TD学習アルゴリズムを考案し,その収束性を証明する。 提案する分散DPの際立った特徴は,2つの独立系がそれぞれ異なる役割を担っていることである。 この特徴は、ボルカー・メインの定理を用いて直接確立できる、新しい分散TD学習戦略のステージを設定する。

The primary objective of this paper is to investigate distributed dynamic programming (DP) and distributed temporal difference (TD) learning algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Additionally, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. Our contributions can be summarized in two key points: 1) We introduce a novel distributed DP, inspired by the averaging consensus method in the continuous-time domain. The convergence of this DP is assessed through control theory perspectives. 2) Building upon the aforementioned DP, we devise a new distributed TD-learning algorithm and prove its convergence. A standout feature of our proposed distributed DP is its incorporation of two independent dynamic systems, each with a distinct role. This characteristic sets the stage for a novel distributed TD-learning strategy, the convergence of which can be directly established using the Borkar-Meyn theorem.
翻訳日:2023-08-08 20:17:29 公開日:2023-08-07
# DDG-Net: 弱教師付き時間行動定位のための識別可能性駆動型グラフネットワーク

DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2307.16415v2 )

ライセンス: Link先を確認
Xiaojun Tang, Junsong Fan, Chuanchen Luo, Zhaoxiang Zhang, Man Zhang, and Zongyuan Yang(参考訳) WTAL(Wakly-supervised temporal action Localization)は、実用的ながら困難な課題である。 大規模なデータセットのため、既存のほとんどのメソッドは他のデータセットで事前訓練されたネットワークを使用して特徴を抽出する。 この問題に対処するため、研究者はいくつかの機能拡張モジュールを設計し、特にスニペット間の時間的関係をモデル化して、ローカライズモジュールの性能を向上させる。 しかし、それら全ては曖昧な情報の悪影響を無視し、他人の差別性を低下させる。 この現象を考慮し,不明瞭なスニペットや識別スニペットを明示的にモデル化し,不明瞭な情報の伝達を防止し,スニペットレベルの表現の識別性を高める識別性駆動型グラフネットワーク(ddg-net)を提案する。 さらに,特徴の同化を防止し,グラフ畳み込みネットワークを駆動し,より差別的な表現を生成する特徴一貫性損失を提案する。 THUMOS14とActivityNet1.2ベンチマークに関する大規模な実験は、DDG-Netの有効性を示し、両方のデータセットに新たな最先端結果を確立する。 ソースコードは \url{https://github.com/xiaojuntang22/iccv2023-ddgnet} で入手できる。

Weakly-supervised temporal action localization (WTAL) is a practical yet challenging task. Due to large-scale datasets, most existing methods use a network pretrained in other datasets to extract features, which are not suitable enough for WTAL. To address this problem, researchers design several modules for feature enhancement, which improve the performance of the localization module, especially modeling the temporal relationship between snippets. However, all of them neglect the adverse effects of ambiguous information, which would reduce the discriminability of others. Considering this phenomenon, we propose Discriminability-Driven Graph Network (DDG-Net), which explicitly models ambiguous snippets and discriminative snippets with well-designed connections, preventing the transmission of ambiguous information and enhancing the discriminability of snippet-level representations. Additionally, we propose feature consistency loss to prevent the assimilation of features and drive the graph convolution network to generate more discriminative representations. Extensive experiments on THUMOS14 and ActivityNet1.2 benchmarks demonstrate the effectiveness of DDG-Net, establishing new state-of-the-art results on both datasets. Source code is available at \url{https://github.com/XiaojunTang22/ICCV2023-DDGNet}.
翻訳日:2023-08-08 20:16:46 公開日:2023-08-07
# CNNを用いたカリブ海の屋根分類のためのVHR後航空画像とLiDARデータの利用

Fusing VHR Post-disaster Aerial Imagery and LiDAR Data for Roof Classification in the Caribbean using CNNs ( http://arxiv.org/abs/2307.16177v2 )

ライセンス: Link先を確認
Isabelle Tingzon, Nuala Margaret Cowan, Pierre Chrzanowski(参考訳) 建築特性の正確かつ最新の情報は、脆弱性評価に不可欠であるが、災害リスク管理に必要な重要な露光データセットを得るには、従来の調査実施に伴う高コストと長期の時間枠が障害となる可能性がある。 本研究では,2017年のハリケーン・マリアに続いてドミニカで得られた高解像度の正光線と空中LiDARデータから屋根特性の自動分類に深層学習技術を活用する。 マルチモーダル地球観測データの融合は、単一のデータソースのみを使用するよりも優れていることを示す。 提案手法を用いて, 屋根材分類におけるF1スコアの0.93と0.92をそれぞれ達成した。 この研究は、政府がカリブ海の回復力と災害対応を改善するための、よりタイムリーな情報構築を支援することを目的としている。

Accurate and up-to-date information on building characteristics is essential for vulnerability assessment; however, the high costs and long timeframes associated with conducting traditional field surveys can be an obstacle to obtaining critical exposure datasets needed for disaster risk management. In this work, we leverage deep learning techniques for the automated classification of roof characteristics from very high-resolution orthophotos and airborne LiDAR data obtained in Dominica following Hurricane Maria in 2017. We demonstrate that the fusion of multimodal earth observation data performs better than using any single data source alone. Using our proposed methods, we achieve F1 scores of 0.93 and 0.92 for roof type and roof material classification, respectively. This work is intended to help governments produce more timely building information to improve resilience and disaster response in the Caribbean.
翻訳日:2023-08-08 20:16:23 公開日:2023-08-07
# 適応するか適応しないか? 意味セグメンテーションのためのリアルタイム適応

To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2307.15063v2 )

ライセンス: Link先を確認
Marc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus H\"arenstam-Nielsen, Hossein Azizpour, Hedvig Kjellstr\"om, Daniel Cremers, Matteo Poggi(参考訳) セマンティックセグメンテーションのためのオンラインドメイン適応の目標は、突然の気象イベントなど、デプロイメント中に発生する予期せぬドメイン変更に対処することだ。 しかし、ブルートフォース適応に伴う高い計算コストにより、このパラダイムは現実世界のアプリケーションでは実現不可能である。 本稿では,リアルタイムドメイン適応のためのハードウェア・アウェア Modular Least Expensive TrainingフレームワークHAMLETを提案する。 我々のアプローチには、ハードウェア対応のバックプロパゲーションオーケストレーションエージェント(HAMT)と、モデルがいつ、どのように適合するかをアクティブに制御できる専用のドメインシフト検出器が含まれている。 これらの進歩により、我々は1つのコンシューマグレードGPU上で29FPS以上で同時にセマンティックセグメンテーションを行うことができる。 このフレームワークの精度と速度のトレードオフを,実験結果を通じてOnDAおよびShiftベンチマークで実証した。

The goal of Online Domain Adaptation for semantic segmentation is to handle unforeseeable domain changes that occur during deployment, like sudden weather events. However, the high computational costs associated with brute-force adaptation make this paradigm unfeasible for real-world applications. In this paper we propose HAMLET, a Hardware-Aware Modular Least Expensive Training framework for real-time domain adaptation. Our approach includes a hardware-aware back-propagation orchestration agent (HAMT) and a dedicated domain-shift detector that enables active control over when and how the model is adapted (LT). Thanks to these advancements, our approach is capable of performing semantic segmentation while simultaneously adapting at more than 29FPS on a single consumer-grade GPU. Our framework's encouraging accuracy and speed trade-off is demonstrated on OnDA and SHIFT benchmarks through experimental results.
翻訳日:2023-08-08 20:15:54 公開日:2023-08-07
# OpenFlamingo: 大規模な自己回帰型ビジョンランゲージモデルをトレーニングするためのオープンソースフレームワーク

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models ( http://arxiv.org/abs/2308.01390v2 )

ライセンス: Link先を確認
Anas Awadalla and Irena Gao and Josh Gardner and Jack Hessel and Yusuf Hanafy and Wanrong Zhu and Kalyani Marathe and Yonatan Bitton and Samir Gadre and Shiori Sagawa and Jenia Jitsev and Simon Kornblith and Pang Wei Koh and Gabriel Ilharco and Mitchell Wortsman and Ludwig Schmidt(参考訳) OpenFlamingoは,3Bパラメータから9Bパラメータまでの自動回帰視覚言語モデルである。 OpenFlamingoは、DeepMindのFlamingoモデルをオープンソースで複製する試みである。 7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80~89%の平均である。 本報告では,モデル,トレーニングデータ,ハイパーパラメータ,評価スイートについて述べる。 私たちは、モデルとコードをhttps://github.com/mlfoundations/open_flamingoで共有しています。

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.
翻訳日:2023-08-08 20:09:00 公開日:2023-08-07
# LLMはガラス箱モデル、サプライズ発見、そしてサプライズ修復を理解

LLMs Understand Glass-Box Models, Discover Surprises, and Suggest Repairs ( http://arxiv.org/abs/2308.01157v2 )

ライセンス: Link先を確認
Benjamin J. Lengerich, Sebastian Bordt, Harsha Nori, Mark E. Nunnally, Yin Aphinyanaphongs, Manolis Kellis, Rich Caruana(参考訳) 大規模言語モデル(LLM)は、複雑な結果を一変量グラフ表現コンポーネントに分解する解釈可能なモデルに非常に適していることを示す。 階層的な推論アプローチを採用することで、LLMはモデル全体をコンテキストに適合させることなく、包括的なモデルレベルの要約を提供することができます。 このアプローチにより、LCMは、事前の知識に矛盾する異常の検出、異常の原因の潜在的な説明、異常を除去する修復の提案など、データサイエンスにおける一般的なタスクを自動化するために、その広範なバックグラウンド知識を適用することができる。 我々は、医療における複数の例を用いて、一般化付加モデル(GAM)を中心に、これらのLLMの新しい機能の有用性を実証している。 最後に、パッケージ $\texttt{TalkToEBM}$ をオープンソース LLM-GAM インターフェースとして提示する。

We show that large language models (LLMs) are remarkably good at working with interpretable models that decompose complex outcomes into univariate graph-represented components. By adopting a hierarchical approach to reasoning, LLMs can provide comprehensive model-level summaries without ever requiring the entire model to fit in context. This approach enables LLMs to apply their extensive background knowledge to automate common tasks in data science such as detecting anomalies that contradict prior knowledge, describing potential reasons for the anomalies, and suggesting repairs that would remove the anomalies. We use multiple examples in healthcare to demonstrate the utility of these new capabilities of LLMs, with particular emphasis on Generalized Additive Models (GAMs). Finally, we present the package $\texttt{TalkToEBM}$ as an open-source LLM-GAM interface.
翻訳日:2023-08-08 20:08:08 公開日:2023-08-07
# AIに魅了される - 大規模言語モデルによる浸透テスト

Getting pwn'd by AI: Penetration Testing with Large Language Models ( http://arxiv.org/abs/2308.00121v2 )

ライセンス: Link先を確認
Andreas Happe, J\"urgen Cito(参考訳) ソフトウェアセキュリティテストの分野、特に浸透テストは、高いレベルの専門知識を必要とし、多くの手動テストと分析ステップを含む活動である。 本稿では,GPT3.5のような大規模言語モデルを用いたAIスパーリングパートナーによる浸透試験の強化について検討する。 セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。 後者では,脆弱な仮想マシン(SSHを介して接続される)を用いて,LLM生成した低レベルアクション間のクローズドフィードバックループを実装し,脆弱性のマシン状態を解析し,仮想マシン内で自動的に実行される具体的な攻撃ベクトルを提案する。 我々は、有望な初歩的な成果、改善のための詳細な道程、AIベースのスパーリングパートナーを提供する倫理に関する綿密な検討について論じる。

The field of software security testing, more specifically penetration testing, is an activity that requires high levels of expertise and involves many manual testing and analysis steps. This paper explores the potential usage of large-language models, such as GPT3.5, to augment penetration testers with AI sparring partners. We explore the feasibility of supplementing penetration testers with AI models for two distinct use cases: high-level task planning for security testing assignments and low-level vulnerability hunting within a vulnerable virtual machine. For the latter, we implemented a closed-feedback loop between LLM-generated low-level actions with a vulnerable virtual machine (connected through SSH) and allowed the LLM to analyze the machine state for vulnerabilities and suggest concrete attack vectors which were automatically executed within the virtual machine. We discuss promising initial results, detail avenues for improvement, and close deliberating on the ethics of providing AI-based sparring partners.
翻訳日:2023-08-08 20:06:09 公開日:2023-08-07
# G-Mix:フラットミニマを目指す総合的な混合学習フレームワーク

G-Mix: A Generalized Mixup Learning Framework Towards Flat Minima ( http://arxiv.org/abs/2308.03236v1 )

ライセンス: Link先を確認
Xingyu Li and Bo Tang(参考訳) ディープニューラルネットワーク(DNN)は、様々な複雑なタスクにおいて有望な結果を示している。 しかし、現在のDNNは、特にトレーニングデータに制限がある場合、過パラメータ化の課題に直面している。 DNNの一般化能力を高めるために、Mixup技術が人気を集めている。 しかし、それでも準最適結果を生み出す。 トレーニング損失ランドスケープのシャープネスとモデル一般化を結びつけるSAM(Sharpness-Aware Minimization)アプローチに着想を得て,DNNモデルのトレーニングにMixupとSAMの強みを組み合わせたGeneralized-Mixupという新たな学習フレームワークを提案する。 この理論解析は、G-Mixフレームワークが一般化をいかに促進するかを示す。 さらに、G-MixフレームワークでDNN性能をさらに最適化するために、バイナリG-Mixと分解G-Mixの2つの新しいアルゴリズムを導入する。 これらのアルゴリズムは、各サンプルのシャープネス感度に基づいてトレーニングデータを2つのサブセットに分割し、Mixupの"manifold intrusion"の問題に対処する。 理論的説明と実験結果の両方で、提案したBG-MixアルゴリズムとDG-Mixアルゴリズムは、複数のデータセットやモデルにわたるモデルの一般化をさらに促進し、最先端の性能を達成する。

Deep neural networks (DNNs) have demonstrated promising results in various complex tasks. However, current DNNs encounter challenges with over-parameterization, especially when there is limited training data available. To enhance the generalization capability of DNNs, the Mixup technique has gained popularity. Nevertheless, it still produces suboptimal outcomes. Inspired by the successful Sharpness-Aware Minimization (SAM) approach, which establishes a connection between the sharpness of the training loss landscape and model generalization, we propose a new learning framework called Generalized-Mixup, which combines the strengths of Mixup and SAM for training DNN models. The theoretical analysis provided demonstrates how the developed G-Mix framework enhances generalization. Additionally, to further optimize DNN performance with the G-Mix framework, we introduce two novel algorithms: Binary G-Mix and Decomposed G-Mix. These algorithms partition the training data into two subsets based on the sharpness-sensitivity of each example to address the issue of "manifold intrusion" in Mixup. Both theoretical explanations and experimental results reveal that the proposed BG-Mix and DG-Mix algorithms further enhance model generalization across multiple datasets and models, achieving state-of-the-art performance.
翻訳日:2023-08-08 15:54:19 公開日:2023-08-07
# 高度なトランスフォーマーに基づく言語モデルの進化の分析:オピニオンマイニング実験

Analysis of the Evolution of Advanced Transformer-Based Language Models: Experiments on Opinion Mining ( http://arxiv.org/abs/2308.03235v1 )

ライセンス: Link先を確認
Nour Eddine Zekaoui, Siham Yousfi, Maryem Rhanoui, Mounia Mikram(参考訳) オピニオンマイニング(英: opinion mining)または感情分析(英: sentiment analysis)は、自然言語処理(nlp)のサブフィールドであり、主観的な情報をテキスト素材で識別し抽出することに焦点を当てている。 これには、テキストの全体感情(例えば、肯定的または否定的)を決定することや、高度な機械学習とディープラーニング技術の使用を含む、テキストで表される特定の感情や意見を特定することが含まれる。 近年、トランスフォーマティブ言語モデルによって、注意機構と並列計算により、人間の感情分析のタスクが直感的になる。 これらのアドバンテージは、シーケンシャルな処理に多くの時間を費やすリカレントニューラルネットワークとは異なり、言語的なタスクにおいてそのようなモデルを非常に強力にします。 本論文は,最先端のトランスフォーマー言語モデルにおける意見マイニングの挙動を考察し,それらの特徴を強調するハイレベルな比較を行った。 さらに,本研究では,今後の研究課題のガイドラインとして,生産技術者が焦点を絞るアプローチを導いた上で,研究者にとって有用であることを示す。

Opinion mining, also known as sentiment analysis, is a subfield of natural language processing (NLP) that focuses on identifying and extracting subjective information in textual material. This can include determining the overall sentiment of a piece of text (e.g., positive or negative), as well as identifying specific emotions or opinions expressed in the text, that involves the use of advanced machine and deep learning techniques. Recently, transformer-based language models make this task of human emotion analysis intuitive, thanks to the attention mechanism and parallel computation. These advantages make such models very powerful on linguistic tasks, unlike recurrent neural networks that spend a lot of time on sequential processing, making them prone to fail when it comes to processing long text. The scope of our paper aims to study the behaviour of the cutting-edge Transformer-based language models on opinion mining and provide a high-level comparison between them to highlight their key particularities. Additionally, our comparative study shows leads and paves the way for production engineers regarding the approach to focus on and is useful for researchers as it provides guidelines for future research subjects.
翻訳日:2023-08-08 15:53:58 公開日:2023-08-07
# テキスト内学習による複数質問に対する自動抽出とフィードバック生成の探索

Exploring Automated Distractor and Feedback Generation for Math Multiple-choice Questions via In-context Learning ( http://arxiv.org/abs/2308.03234v1 )

ライセンス: Link先を確認
Hunter McNichols, Wanyong Feng, Jaewook Lee, Alexander Scarlatos, Digory Smith, Simon Woodhead, Andrew Lan(参考訳) 多重選択質問(MCQ)は、管理しやすく、格付けしやすく、評価と実践の両方において信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 mcqsの重要な側面は、生徒の特定の誤解や不十分な知識をターゲットにした不正確なオプションである。 これまで、高品質の邪魔者を作る仕事は、教師やコンテンツデザイナーにとって労働集約的なプロセスであり、スケーラビリティは限られていた。 本研究では,大規模言語モデルを用いた数学MCQにおける自動散逸器とそれに対応するフィードバックメッセージ生成の課題について検討する。 我々は,これら2つのタスクを定式化し,シンプルで文脈内学習に基づくソリューションを提案する。 さらに,2つの非標準メトリクスを用いて,生成した気晴らしとフィードバックメッセージの品質評価を行う。 我々は,学生の回答情報を含む実世界のMCQデータセットを用いて,これらのタスクに関する広範な実験を行う。 この結果から,自動イントラクタとフィードバック生成の改善の余地が十分にあることが示唆された。 今後の作業の方向性も概説します

Multiple-choice questions (MCQs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable format in both assessments and practices. An important aspect of MCQs is the distractors, i.e., incorrect options that are designed to target specific misconceptions or insufficient knowledge among students. To date, the task of crafting high-quality distractors has largely remained a labor-intensive process for teachers and learning content designers, which has limited scalability. In this work, we explore the task of automated distractor and corresponding feedback message generation in math MCQs using large language models. We establish a formulation of these two tasks and propose a simple, in-context learning-based solution. Moreover, we explore using two non-standard metrics to evaluate the quality of the generated distractors and feedback messages. We conduct extensive experiments on these tasks using a real-world MCQ dataset that contains student response information. Our findings suggest that there is a lot of room for improvement in automated distractor and feedback generation. We also outline several directions for future work
翻訳日:2023-08-08 15:53:36 公開日:2023-08-07
# FPGA論理要素パッケージング予測のための不均衡大規模グラフ学習フレームワーク

Imbalanced Large Graph Learning Framework for FPGA Logic Elements Packing Prediction ( http://arxiv.org/abs/2308.03231v1 )

ライセンス: Link先を確認
Zhixiong Di, Runzhe Tao, Lin Chen, Qiang Wu, Yibo Lin(参考訳) 典型的なFPGA CADフローにおいて、パッケージングは必要なステップである。 FPGAの配置とルーティングのパフォーマンスに大きな影響を与える。 パッキング結果の早期予測は、設計最適化と迅速な設計閉鎖を導くことができる。 本研究では,論理要素が配置後に充填されるかどうかを予測するため,不均衡なグラフ学習フレームワークImLGを提案する。 具体的には,回路グラフのノード表現学習を強化するための特徴抽出と特徴集約手法を提案する。 満載・未充填論理要素の不均衡分布により,この不均衡学習タスクに対するグラフオーバーサンプリングやミニバッチトレーニングなどの手法を大規模回路グラフで提案する。 実験の結果,最新のガウス型予測法と比較して,f1スコアを42.82%向上できることがわかった。 物理設計の結果, 提案手法は配線幅を0.93%, スライス占有率を0.89%向上させる。

Packing is a required step in a typical FPGA CAD flow. It has high impacts to the performance of FPGA placement and routing. Early prediction of packing results can guide design optimization and expedite design closure. In this work, we propose an imbalanced large graph learning framework, ImLG, for prediction of whether logic elements will be packed after placement. Specifically, we propose dedicated feature extraction and feature aggregation methods to enhance the node representation learning of circuit graphs. With imbalanced distribution of packed and unpacked logic elements, we further propose techniques such as graph oversampling and mini-batch training for this imbalanced learning task in large circuit graphs. Experimental results demonstrate that our framework can improve the F1 score by 42.82% compared to the most recent Gaussian-based prediction method. Physical design results show that the proposed method can assist the placer in improving routed wirelength by 0.93% and SLICE occupation by 0.89%.
翻訳日:2023-08-08 15:53:17 公開日:2023-08-07
# 一般浅層ネットワークによる近似のトラクタビリティ

Tractability of approximation by general shallow networks ( http://arxiv.org/abs/2308.03230v1 )

ライセンス: Link先を確認
Hrushikesh Mhaskar, Tong Mao(参考訳) 本稿では,一般浅層ネットワークの次元独立境界(ニューラルネットワーク, \textbf{123} (2020), 142-152)において,よりシャープな結果版を提案する。 \mathbb{x}$ と $\mathbb{y}$ をコンパクト距離空間とする。 x\mapsto\int_{\mathbb{Y}} G(x, y)d\tau( y)$, $ x\in\mathbb{X}$, by $G$-networks of the form $ x\mapsto \sum_{k=1}^n a_kG(x, y_k)$, $ y_1,\cdots, y_n\in\mathbb{Y}$, $a_1,\cdots, a_n\in\mathbb{R}$。 被覆数の観点から、$\mathbb{x}$ と $\mathbb{y}$ の次元を定義すると、n$ の項で近似の次数上の次元独立な境界が得られる。 応用には、高次元空間への関数拡張の重要な問題だけでなく、電力整合線形単位ネットワーク、粒子関数ネットワーク、特定の放射基底関数ネットワークによる近似が含まれる。

In this paper, we present a sharper version of the results in the paper Dimension independent bounds for general shallow networks; Neural Networks, \textbf{123} (2020), 142-152. Let $\mathbb{X}$ and $\mathbb{Y}$ be compact metric spaces. We consider approximation of functions of the form $ x\mapsto\int_{\mathbb{Y}} G( x, y)d\tau( y)$, $ x\in\mathbb{X}$, by $G$-networks of the form $ x\mapsto \sum_{k=1}^n a_kG( x, y_k)$, $ y_1,\cdots, y_n\in\mathbb{Y}$, $a_1,\cdots, a_n\in\mathbb{R}$. Defining the dimensions of $\mathbb{X}$ and $\mathbb{Y}$ in terms of covering numbers, we obtain dimension independent bounds on the degree of approximation in terms of $n$, where also the constants involved are all dependent at most polynomially on the dimensions. Applications include approximation by power rectified linear unit networks, zonal function networks, certain radial basis function networks as well as the important problem of function extension to higher dimensional spaces.
翻訳日:2023-08-08 15:53:04 公開日:2023-08-07
# apbench:アベイラビリティ中毒攻撃と防御の統一ベンチマーク

APBench: A Unified Benchmark for Availability Poisoning Attacks and Defenses ( http://arxiv.org/abs/2308.03258v1 )

ライセンス: Link先を確認
Tianrui Qin, Xitong Gao, Juanjuan Zhao, Kejiang Ye, Cheng-Zhong Xu(参考訳) モデルトレーニングにおける使用を防ぐために、知覚不能な摂動を注入してデータを汚染する方法であるアベイラビリティ中毒の有効性が調査の対象となっている。 これまでの研究では、このような毒殺を効果的に防ぐのは難しいことが示唆された。 しかし、様々な防衛手法の導入は、この概念に異議を唱えている。 この分野での急速な進歩により、実験装置のバリエーションにより、異なる新しい手法の性能を正確に評価することはできない。 これらの毒殺方法の攻撃と防御能力を更に評価するために,敵毒殺の有効性を評価するためのベンチマーク-APBenchを開発した。 apbenchは9つの最先端の毒殺攻撃、8つの防御アルゴリズム、4つの従来のデータ拡張技術で構成されている。 また,異なる中毒率で実験を行い,複数のデータセットに対する攻撃とモデルアーキテクチャ間の伝達性を評価した。 さらに,教師なしモデルを対象とした2つの追加攻撃の包括的評価を行った。 以上の結果から,個人のプライバシ保護における既存攻撃の不十分さが明らかとなった。 apbenchはオープンソースであり、ディープラーニングコミュニティで利用可能である。

The efficacy of availability poisoning, a method of poisoning data by injecting imperceptible perturbations to prevent its use in model training, has been a hot subject of investigation. Previous research suggested that it was difficult to effectively counteract such poisoning attacks. However, the introduction of various defense methods has challenged this notion. Due to the rapid progress in this field, the performance of different novel methods cannot be accurately validated due to variations in experimental setups. To further evaluate the attack and defense capabilities of these poisoning methods, we have developed a benchmark -- APBench for assessing the efficacy of adversarial poisoning. APBench consists of 9 state-of-the-art availability poisoning attacks, 8 defense algorithms, and 4 conventional data augmentation techniques. We also have set up experiments with varying different poisoning ratios, and evaluated the attacks on multiple datasets and their transferability across model architectures. We further conducted a comprehensive evaluation of 2 additional attacks specifically targeting unsupervised models. Our results reveal the glaring inadequacy of existing attacks in safeguarding individual privacy. APBench is open source and available to the deep learning community: https://github.com/lafeat/apbench.
翻訳日:2023-08-08 15:42:36 公開日:2023-08-07
# TempFuser: 長期の短期核融合変換器を用いた空中戦における戦術とアジャイル飛行マニアの学習

TempFuser: Learning Tactical and Agile Flight Maneuvers in Aerial Dogfights using a Long Short-Term Temporal Fusion Transformer ( http://arxiv.org/abs/2308.03257v1 )

ライセンス: Link先を確認
Hyunki Seong and David Hyunchul Shim(参考訳) 空中戦は、短期的な視点から急速に変化する空力力と共に、戦術的に変化する操作を長期的な視点から理解する必要がある。 本稿では,空中ドッグファイトにおけるポリシーネットワークのための長期短期核融合変圧器(TempFuser)を提案する。 本手法では,LSTMをベースとした2つの入力埋め込みを用いて,長期のスパース状態軌跡と,短期の高密度状態軌跡を符号化する。 トランスフォーマーエンコーダを通じて2つの埋め込みを統合することで、この方法は、アジャイルおよび戦術的な操作のためにエンドツーエンドの飛行コマンドを導出する。 我々は、TempFuserベースのポリシーモデルをトレーニングするために、深い強化学習フレームワークを定式化します。 そして,本モデルの有効性を広く検証し,高忠実度環境下での多種多様な対向機に対して,他のベースラインモデルよりも優れていることを示す。 我々のモデルは、基礎的な戦闘機の操縦、人間のパイロットのような戦術的な操縦、低高度での強靭な超音速追跡を、事前の知識を明示的にコーディングすることなく学べる。 ビデオは \url{https://sites.google.com/view/tempfuser} で利用可能である。

Aerial dogfights necessitate understanding the tactically changing maneuvers from a long-term perspective, along with the rapidly changing aerodynamics from a short-term view. In this paper, we propose a novel long short-term temporal fusion transformer (TempFuser) for a policy network in aerial dogfights. Our method uses two LSTM-based input embeddings to encode long-term, sparse state trajectories, as well as short-term, dense state trajectories. By integrating the two embeddings through a transformer encoder, the method subsequently derives end-to-end flight commands for agile and tactical maneuvers. We formulate a deep reinforcement learning framework to train our TempFuser-based policy model. We then extensively validate our model, demonstrating that it outperforms other baseline models against a diverse range of opponent aircraft in a high-fidelity environment. Our model successfully learns basic fighter maneuvers, human pilot-like tactical maneuvers, and robust supersonic pursuit in low altitudes without explicitly coded prior knowledge. Videos are available at \url{https://sites.google.com/view/tempfuser}
翻訳日:2023-08-08 15:42:18 公開日:2023-08-07
# 画像融合のためのクロスモダリティインタラクションを用いたグラフニューラルネットワークの学習

Learning a Graph Neural Network with Cross Modality Interaction for Image Fusion ( http://arxiv.org/abs/2308.03256v1 )

ライセンス: Link先を確認
Jiawei Li, Jiansheng Chen, Jinyuan Liu, Huimin Ma(参考訳) 赤外線と可視光融合は、マルチモダリティイメージング技術の分野において、徐々に重要なフォークであることが証明されている。 近年の研究では、融合画像の品質だけでなく、下流タスクの性能評価にも注目が集まっている。 しかし、多くの手法は異なるモダリティから相互学習に目を向けることはめったになく、融合した画像は重要な詳細やテクスチャを欠いている。 この問題を解決するために、IGNetと呼ばれる融合のための相互モード間の対話型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。 具体的には,まず,グラフ構造構築に必要な入力として,浅い特徴を実現するためにマルチスケール抽出器を適用する。 次に、グラフ相互作用モジュールは、赤外/可視分岐の抽出された中間特徴をグラフ構造に構築することができる。 一方、2つの枝のグラフ構造は相互モダリティと意味学習と相互作用するため、融合した画像は重要な特徴表現を維持し、下流タスクの性能を高めることができる。 また、提案するリーダノードは、同じモダリティで情報伝達を改善することができる。 最後に、すべてのグラフ機能をマージして、融合結果を得る。 異なるデータセット(TNO、MFNet、M3FD)の大規模な実験により、IGNetは平均2.59%のmAP@.5と7.77%のmIoUを、比較した最先端手法よりも高い精度で、視覚的に魅力的な融合画像を生成することができることを示した。 提案されたIGNetのソースコードはhttps://github.com/lok-18/IGNetで入手できる。

Infrared and visible image fusion has gradually proved to be a vital fork in the field of multi-modality imaging technologies. In recent developments, researchers not only focus on the quality of fused images but also evaluate their performance in downstream tasks. Nevertheless, the majority of methods seldom put their eyes on the mutual learning from different modalities, resulting in fused images lacking significant details and textures. To overcome this issue, we propose an interactive graph neural network (GNN)-based architecture between cross modality for fusion, called IGNet. Specifically, we first apply a multi-scale extractor to achieve shallow features, which are employed as the necessary input to build graph structures. Then, the graph interaction module can construct the extracted intermediate features of the infrared/visible branch into graph structures. Meanwhile, the graph structures of two branches interact for cross-modality and semantic learning, so that fused images can maintain the important feature expressions and enhance the performance of downstream tasks. Besides, the proposed leader nodes can improve information propagation in the same modality. Finally, we merge all graph features to get the fusion result. Extensive experiments on different datasets (TNO, MFNet and M3FD) demonstrate that our IGNet can generate visually appealing fused images while scoring averagely 2.59% mAP@.5 and 7.77% mIoU higher in detection and segmentation than the compared state-of-the-art methods. The source code of the proposed IGNet can be available at https://github.com/lok-18/IGNet.
翻訳日:2023-08-08 15:41:59 公開日:2023-08-07
# PaniniQa:対話型質問応答による患者教育の強化

PaniniQA: Enhancing Patient Education Through Interactive Question Answering ( http://arxiv.org/abs/2308.03253v1 )

ライセンス: Link先を確認
Pengshan Cai, Zonghai Yao, Fei Liu, Dakuo Wang, Meghan Reilly, Huixue Zhou, Lingxi Li, Yi Cao, Alok Kapoor, Adarsha Bajracharya, Dan Berlowitz, Hong Yu(参考訳) 患者ポータルは、退院した患者が電子健康記録(EHR)でパーソナライズされた退院指示にアクセスできるようにする。 しかし,多くの患者は退院指示の理解や記憶が困難である。 本稿では,患者が退院指示を理解するのに役立つ,患者中心の対話型質問応答システムpaniniqaを提案する。 パニーニQAはまず患者の退院指示から重要な臨床内容を特定し、次に患者固有の教育的質問を定式化する。 さらに、パニーニQAは、患者の誤解を訂正するためのタイムリーなフィードバックを提供する回答検証機能も備えている。 パニーニQAが効果的な相互作用を通じて患者の医療指導の熟達を向上できることを示す総合的自動的・人的評価結果

Patient portal allows discharged patients to access their personalized discharge instructions in electronic health records (EHRs). However, many patients have difficulty understanding or memorizing their discharge instructions. In this paper, we present PaniniQA, a patient-centric interactive question answering system designed to help patients understand their discharge instructions. PaniniQA first identifies important clinical content from patients' discharge instructions and then formulates patient-specific educational questions. In addition, PaniniQA is also equipped with answer verification functionality to provide timely feedback to correct patients' misunderstandings. Our comprehensive automatic and human evaluation results demonstrate our PaniniQA is capable of improving patients' mastery of their medical instructions through effective interactions
翻訳日:2023-08-08 15:41:34 公開日:2023-08-07
# mziベースのコヒーレントフォトニックニューラルネットワークにおける光損失とクロストークノイズの解析

Analysis of Optical Loss and Crosstalk Noise in MZI-based Coherent Photonic Neural Networks ( http://arxiv.org/abs/2308.03249v1 )

ライセンス: Link先を確認
Amin Shafiee, Sanmitra Banerjee, Krishnendu Chakrabarty, Sudeep Pasricha, Mahdi Nikdast(参考訳) 機械学習モデルのサイズと複雑さの継続的な増加に伴い、そのようなモデルを効率的に実行する特別なハードウェアの必要性は急速に増大している。 このようなニーズに対処するために、シリコンフォトニックベースのニューラルネットワーク(sp-nn)加速器は、最近、レイテンシーが低く、エネルギー効率が向上するため、電子加速器に代わる有望な選択肢として登場した。 SP-NNは、線形代数プロセッサのファンインとファンアウトの問題を緩和できるだけでなく、その運用帯域幅は、数GHzのクロックレートに制限された電子回路よりも少なくとも1桁高速な光検出レート(通常は100GHz)と一致させることができる。 残念なことに、SP-NNの基盤となるシリコンフォトニックデバイスは、製造不完全性や望ましくない光カップリングに起因する固有の光学損失とクロストークノイズに悩まされ、ネットワークがスケールアップするにつれてその影響は蓄積される。 その結果、SP-NNにおける推論精度は、そのような非効率(例えば10%以下に低下する)の影響を受け得るが、その影響はまだ十分に研究されていない。 本稿では,mach-zehnder interferometer (mzi) デバイスを用いたコヒーレントsp-nnsにおいて,ボトムアップ方式を用いて光損失とクロストークノイズを総合的にモデル化する。 提案したモデルは、異なる構成のSP-NNアーキテクチャに適用でき、損失とクロストークの影響を分析することができる。 このような分析は、SP-NNを設計する際に、精度とスケーラビリティの要件を推測する上で重要である。 提案手法を用いて,3つのMZIメッシュ構成(レック,クレメンツ,ダイアモンド)で異なるスケールのSP-NNに対して,光損失とクロストークノイズの蓄積により,高い出力ペナルティと破滅的推論精度を最大84%低下させることを示した。

With the continuous increase in the size and complexity of machine learning models, the need for specialized hardware to efficiently run such models is rapidly growing. To address such a need, silicon-photonic-based neural network (SP-NN) accelerators have recently emerged as a promising alternative to electronic accelerators due to their lower latency and higher energy efficiency. Not only can SP-NNs alleviate the fan-in and fan-out problem with linear algebra processors, their operational bandwidth can match that of the photodetection rate (typically 100 GHz), which is at least over an order of magnitude faster than electronic counterparts that are restricted to a clock rate of a few GHz. Unfortunately, the underlying silicon photonic devices in SP-NNs suffer from inherent optical losses and crosstalk noise originating from fabrication imperfections and undesired optical couplings, the impact of which accumulates as the network scales up. Consequently, the inferencing accuracy in an SP-NN can be affected by such inefficiencies -- e.g., can drop to below 10% -- the impact of which is yet to be fully studied. In this paper, we comprehensively model the optical loss and crosstalk noise using a bottom-up approach, from the device to the system level, in coherent SP-NNs built using Mach-Zehnder interferometer (MZI) devices. The proposed models can be applied to any SP-NN architecture with different configurations to analyze the effect of loss and crosstalk. Such an analysis is important where there are inferencing accuracy and scalability requirements to meet when designing an SP-NN. Using the proposed analytical framework, we show a high power penalty and a catastrophic inferencing accuracy drop of up to 84% for SP-NNs of different scales with three known MZI mesh configurations (i.e., Reck, Clements, and Diamond) due to accumulated optical loss and crosstalk noise.
翻訳日:2023-08-08 15:41:24 公開日:2023-08-07
# 任意多部システムにおける遺伝子多部絡みの検出

Detection of Genuine Multipartite Entanglement in Arbitrary Multipartite systems ( http://arxiv.org/abs/2308.03245v1 )

ライセンス: Link先を確認
Yu Lu, Shao-Ming Fei(参考訳) 一般化されたパウリ作用素を用いて密度行列を表現することにより、任意の$n$-partite量子状態の真の多部絡みについて検討する。 相関テンソルに基づく任意の次元を持つ多部量子状態の真の多部交絡と非完全分離性を検出するための一般的な枠組みを提案する。 有効基準は、真の多部絡みを検証するために導出される。 詳細な例は、基準が既存の基準よりも真のマルチパーティの絡み目を検出することを示すためである。

We study the genuine multipartite entanglement of arbitrary $n$-partite quantum states by representing the density matrices in terms of the generalized Pauli operators. We introduce a general framework for detecting genuine multipartite entanglement and non full-separability of multipartite quantum states with arbitrary dimensions based on correlation tensors. Effective criterion is derived to verify the genuine multipartite entanglement. Detailed examples are given to show that the criterion detects more genuine multipartite entanglement than the existing criteria.
翻訳日:2023-08-08 15:40:44 公開日:2023-08-07
# Mind the Gap: Oracleの成功ルートを再考することで、ビジョンとランゲージのナビゲーションの成功率を改善する

Mind the Gap: Improving Success Rate of Vision-and-Language Navigation by Revisiting Oracle Success Routes ( http://arxiv.org/abs/2308.03244v1 )

ライセンス: Link先を確認
Chongyang Zhao, Yuankai Qi and Qi Wu(参考訳) vision-and-language navigation (vln) は、与えられた命令に従ってターゲットの場所へナビゲートすることを目的としている。 本稿では、ナビゲーションの各ステップにおいてより正確な動作を予測することに焦点を当てた既存の手法とは異なり、VLNにおける長年無視されてきた問題に最初に取り組み、成功率(SR)とOracle成功率(OSR)のギャップを狭める。 我々は、R2RとREVERIEの2つのベンチマークデータセットにまたがる4つの最先端VLNメソッドに対して、一貫して大きなギャップ(最大9%)を観察する。 高いOSRは、ロボットエージェントが目標位置を通過していることを示しているが、低いSRは、エージェントが最終的に目標位置に立ち寄らないことを示唆している。 動作を直接予測する代わりに、市販のVLNモデルによって与えられる軌道から目標位置をマイニングする。 特に,多モジュールトランスフォーマモデルを用いて,指示に記述された目標位置の信頼度を予測するために使用される,コンパクトな識別軌跡視点表現を学習する。 提案手法は,R2R,REVERIE,NDHの3つの広義のデータセットを用いて評価し,将来的な研究の可能性を示す。

Vision-and-Language Navigation (VLN) aims to navigate to the target location by following a given instruction. Unlike existing methods focused on predicting a more accurate action at each step in navigation, in this paper, we make the first attempt to tackle a long-ignored problem in VLN: narrowing the gap between Success Rate (SR) and Oracle Success Rate (OSR). We observe a consistently large gap (up to 9%) on four state-of-the-art VLN methods across two benchmark datasets: R2R and REVERIE. The high OSR indicates the robot agent passes the target location, while the low SR suggests the agent actually fails to stop at the target location at last. Instead of predicting actions directly, we propose to mine the target location from a trajectory given by off-the-shelf VLN models. Specially, we design a multi-module transformer-based model for learning compact discriminative trajectory viewpoint representation, which is used to predict the confidence of being a target location as described in the instruction. The proposed method is evaluated on three widely-adopted datasets: R2R, REVERIE and NDH, and shows promising results, demonstrating the potential for more future research.
翻訳日:2023-08-08 15:40:36 公開日:2023-08-07
# 追加モデルなしの教師なし逆検出: トレーニング損失は変わるべき

Unsupervised Adversarial Detection without Extra Model: Training Loss Should Change ( http://arxiv.org/abs/2308.03243v1 )

ライセンス: Link先を確認
Chien Cheng Chyou, Hung-Ting Su, Winston H. Hsu(参考訳) 逆の堅牢性は、現実世界のアプリケーションのためのディープラーニングモデルの展開において、重要な課題となる。 敵対的なトレーニングと監視された検出に対する従来のアプローチは、攻撃タイプの事前知識とラベル付きトレーニングデータへのアクセスに依存している。 既存の教師なし敵意検出手法は、対象モデルが適切に機能するかどうかを識別するが、不必要な特徴に依存し、敵意攻撃を強化する共通のクロスエントロピートレーニング損失の使用により、悪用される。 敵攻撃の事前知識のない無用な特徴とそれに対応する検出方法を新たに提案する。 与えられた全てのホワイトボックス攻撃に対する検出率は、制限のない攻撃(DF($\infty$))を除いて93.9%を超え、偽陽性率はわずか2.5%である。 提案手法は,すべての攻撃型において良好に動作し,偽陽性率は特定のタイプにおいて良好である手法よりも優れている。

Adversarial robustness poses a critical challenge in the deployment of deep learning models for real-world applications. Traditional approaches to adversarial training and supervised detection rely on prior knowledge of attack types and access to labeled training data, which is often impractical. Existing unsupervised adversarial detection methods identify whether the target model works properly, but they suffer from bad accuracies owing to the use of common cross-entropy training loss, which relies on unnecessary features and strengthens adversarial attacks. We propose new training losses to reduce useless features and the corresponding detection method without prior knowledge of adversarial attacks. The detection rate (true positive rate) against all given white-box attacks is above 93.9% except for attacks without limits (DF($\infty$)), while the false positive rate is barely 2.5%. The proposed method works well in all tested attack types and the false positive rates are even better than the methods good at certain types.
翻訳日:2023-08-08 15:40:13 公開日:2023-08-07
# 特にアクセス不能 -- データサイエンスノートブックのデータ駆動理解(in)アクセス可能性

Notably Inaccessible -- Data Driven Understanding of Data Science Notebook (In)Accessibility ( http://arxiv.org/abs/2308.03241v1 )

ライセンス: Link先を確認
Venkatesh Potluri, Sudheesh Singanamalla, Nussara Tieanklin, Jennifer Mankoff(参考訳) コンピュータノート、探索、データ分析、情報視覚化によるストーリーテリングを容易にするツールは、データサイエンスコミュニティで広く受け入れられている標準となっている。 これらのノートブックは、Jupyter、Datalore、Google Colabといったノートブックソフトウェアを通じて広く採用されている。 データサイエンティストが計算ノートの使用方法、痛み点の特定、協調的なデータサイエンスの実践を実現するための広範な研究があるが、視覚障害者(BVI)がこれらのノートを使用して経験する様々なアクセシビリティ障壁についてはほとんど知られていない。 BVIユーザは,(1)インターフェースのアクセシビリティ,(2)インターフェースでデータを表現する一般的な方法,(3)一般的なライブラリがアクセス可能な出力を提供することができないため,計算ノートブックインタフェースを使用することができない。 100000のjupyterノートブックを大規模に体系的に分析し,これらのノートブックの作成と消費に影響を与える発行ノートブックのアクセシビリティ課題を特定した。 そこで本研究では,ノートブックのアーティファクトのアクセシビリティ向上,オーサリングプラクティスの提案,ノートブックのアクセス性向上のためのインフラストラクチャの変更を提案する。 PDFはhttps://blvi.dev/noteably-in accessible-paperで取得できる。

Computational notebooks, tools that facilitate storytelling through exploration, data analysis, and information visualization, have become the widely accepted standard in the data science community. These notebooks have been widely adopted through notebook software such as Jupyter, Datalore and Google Colab, both in academia and industry. While there is extensive research to learn how data scientists use computational notebooks, identify their pain points, and enable collaborative data science practices, very little is known about the various accessibility barriers experienced by blind and visually impaired (BVI) users using these notebooks. BVI users are unable to use computational notebook interfaces due to (1) inaccessibility of the interface, (2) common ways in which data is represented in these interfaces, and (3) inability for popular libraries to provide accessible outputs. We perform a large scale systematic analysis of 100000 Jupyter notebooks to identify various accessibility challenges in published notebooks affecting the creation and consumption of these notebooks. Through our findings, we make recommendations to improve accessibility of the artifacts of a notebook, suggest authoring practices, and propose changes to infrastructure to make notebooks accessible. An accessible PDF can be obtained at https://blvi.dev/noteably-inaccessible-paper
翻訳日:2023-08-08 15:39:52 公開日:2023-08-07
# Asynchronous Decentralized Q-Learning: Persistenceによる2つの時間スケール分析

Asynchronous Decentralized Q-Learning: Two Timescale Analysis By Persistence ( http://arxiv.org/abs/2308.03239v1 )

ライセンス: Link先を確認
Bora Yongacoglu and G\"urdal Arslan and Serdar Y\"uksel(参考訳) 非定常性はマルチエージェント強化学習(marl:multi-agent reinforcement learning)において基本的な課題である。 MARLにおける多くの理論的進歩は、エージェントのポリシー更新を様々な方法で調整することで、エージェントがポリシーを変更できる同期時間を含む非定常性の課題を避ける。 同期化はマルチタイムスケール手法による多くのMARLアルゴリズムの解析を可能にするが、多くの分散アプリケーションではそのような同期は不可能である。 本稿では,最近の確率ゲーム用marlアルゴリズムである分散q-learningアルゴリズムの非同期変種について検討する。 我々は、非同期アルゴリズムが高い確率で平衡に作用する十分な条件を提供する。 提案手法は,q-factor 更新において一定の学習率を活用し,初期の作業の同期的な仮定を緩和する上で重要であることを示した。 また,ポリシー更新のダイナミクスによって得られたマルコフ連鎖をマルチタイムスケールで解析する手法を用いて,後悔テストの伝統から得られた他のアルゴリズムの非同期一般化にも適用する。 本研究は,分散型q-learningアルゴリズムとその親和性を,パラメータが独立に選択される設定に適用し,事前作業の調整前提を課さずに非定常性を和らげる。

Non-stationarity is a fundamental challenge in multi-agent reinforcement learning (MARL), where agents update their behaviour as they learn. Many theoretical advances in MARL avoid the challenge of non-stationarity by coordinating the policy updates of agents in various ways, including synchronizing times at which agents are allowed to revise their policies. Synchronization enables analysis of many MARL algorithms via multi-timescale methods, but such synchrony is infeasible in many decentralized applications. In this paper, we study an asynchronous variant of the decentralized Q-learning algorithm, a recent MARL algorithm for stochastic games. We provide sufficient conditions under which the asynchronous algorithm drives play to equilibrium with high probability. Our solution utilizes constant learning rates in the Q-factor update, which we show to be critical for relaxing the synchrony assumptions of earlier work. Our analysis also applies to asynchronous generalizations of a number of other algorithms from the regret testing tradition, whose performance is analyzed by multi-timescale methods that study Markov chains obtained via policy update dynamics. This work extends the applicability of the decentralized Q-learning algorithm and its relatives to settings in which parameters are selected in an independent manner, and tames non-stationarity without imposing the coordination assumptions of prior work.
翻訳日:2023-08-08 15:39:29 公開日:2023-08-07
# フェデレーション・マルチドメインミーティング要約のためのアダプタによる選択的知識蒸留

Adapter-based Selective Knowledge Distillation for Federated Multi-domain Meeting Summarization ( http://arxiv.org/abs/2308.03275v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Xiyuan Du, Min-Yen Kan, Bing Qin(参考訳) 会議要約は、利用者に凝縮した要約を提供するための有望な手法として登場した。 しかしながら、既存の作業は集中型データのトレーニングに重点を置いており、センシティブな性質のため、ミーティングデータが集中的に収集できない現実のシナリオを無視している。 このギャップは、ミーティング要約のための連合学習を探求する動機付けとなります。 2つの重要な課題が進歩を妨げる。 第一に、最先端の要約はパラメーター重な事前学習モデルに基づいている。 このようなモデルのパラメータをクライアント間で変更することは、大きな帯域幅コストを課す。 第2に、現実世界のミーティングデータはさまざまなドメインに属し、クライアント間で分散しているため、非識別的かつ独立した分散(非iid)のインスタンスである。 IID仮定は成り立たないが、どの学習アルゴリズムが最も適しているかが変わる。 そこで本研究では,高性能クライアントモデルの学習のためのアダプタ型フェデレーション選択的知識蒸留法(adafedseleckd)を提案する。 具体的には,2つのアダプタが協調的に少ないパラメータで学習し,通信コストを削減できるアダプタベースの要約モデルを開発する。 そこで我々は,非IIDデータに基づくグローバルパラメータを活用しながら,ドメイン中心のモデリングを自らのデータで堅牢に扱うための,選択的知識蒸留戦略を考案した。 QMSumベンチマークでの大規模な実験は、AdaFedSelecKDが強力な集中型トレーニング手法で同等のパフォーマンスを達成できることを示し、その一般化性と堅牢性を示している。

Meeting summarization has emerged as a promising technique for providing users with condensed summaries. However, existing work has focused on training models on centralized data, neglecting real-world scenarios where meeting data are infeasible to collect centrally, due to their sensitive nature. This gap motivates us to explore federated learning for meeting summarization. Two critical challenges impede progress. First, state-of-the-art summarizers are based on parameter-heavy pre-trained models. Exchanging such a model's parameters across clients imposes large bandwidth costs. Second, as real-world meeting data belong to various domains and are distributed across clients, they are instances of non-identically and independently distributed (non-IID). IID assumptions do not hold, which changes which forms of learning algorithms best apply. To address this, we propose Adapter-based Federated Selective Knowledge Distillation (AdaFedSelecKD) for training performant client models. Specifically, we develop an adapter-based summarization model where two adapters cooperatively facilitate learning using fewer parameters to reduce communication costs. Then, we devise a selective knowledge distillation strategy, assisting clients in robustly handling domain-focused modelling on their own data, while leveraging global parameters based on non-IID data. Extensive experiments on the QMSum benchmark demonstrate AdaFedSelecKD can achieve comparable performance with powerful centralized training methods, and shows its generalizability and robustness.
翻訳日:2023-08-08 15:34:38 公開日:2023-08-07
# DSformer:多変量時系列長期予測のための二重サンプリング変換器

DSformer: A Double Sampling Transformer for Multivariate Time Series Long-term Prediction ( http://arxiv.org/abs/2308.03274v1 )

ライセンス: Link先を確認
Chengqing Yu, Fei Wang, Zezhi Shao, Tao Sun, Lin Wu, Yongjun Xu(参考訳) 多変量時系列の長期予測は、データの長期変化を予測することを目的としており、意思決定のための参照を提供することができる。 この分野ではトランスフォーマーベースのモデルが進歩しているが、大域情報、局所情報、変数相関の3つの特徴をフル活用していないのが普通である。 上記の3つの特徴を効果的にマイニングし,高精度な予測モデルを確立するために,二重サンプリング(DS)ブロックと時間変動注意(TVA)ブロックからなる二重サンプリングトランス (DSformer) を提案する。 まず、DSブロックはダウンサンプリングとピースワイズサンプリングを使用して、元のシリーズをそれぞれグローバル情報とローカル情報に焦点を当てた特徴ベクトルに変換する。 そして、TVAブロックは時間的注意と可変注意を用いて、これらの特徴ベクトルを異なる次元からマイニングし、キー情報を抽出する。 最後に、並列構造に基づいて、DSformerは複数のTVAブロックを使用して、それぞれDSブロックから得られた異なる特徴をマイニングし統合する。 統合特徴情報は、多層パーセプトロンに基づいて生成デコーダに渡され、多変量時系列の長期予測を実現する。 9つの実世界のデータセットの実験結果から、DSformerは既存の8つのベースラインを上回ります。

Multivariate time series long-term prediction, which aims to predict the change of data in a long time, can provide references for decision-making. Although transformer-based models have made progress in this field, they usually do not make full use of three features of multivariate time series: global information, local information, and variables correlation. To effectively mine the above three features and establish a high-precision prediction model, we propose a double sampling transformer (DSformer), which consists of the double sampling (DS) block and the temporal variable attention (TVA) block. Firstly, the DS block employs down sampling and piecewise sampling to transform the original series into feature vectors that focus on global information and local information respectively. Then, TVA block uses temporal attention and variable attention to mine these feature vectors from different dimensions and extract key information. Finally, based on a parallel structure, DSformer uses multiple TVA blocks to mine and integrate different features obtained from DS blocks respectively. The integrated feature information is passed to the generative decoder based on a multi-layer perceptron to realize multivariate time series long-term prediction. Experimental results on nine real-world datasets show that DSformer can outperform eight existing baselines.
翻訳日:2023-08-08 15:34:15 公開日:2023-08-07
# セルフ教師付き食品プレトレーニングのための特徴抑制コントラスト

Feature-Suppressed Contrast for Self-Supervised Food Pre-training ( http://arxiv.org/abs/2308.03272v1 )

ライセンス: Link先を確認
Xinda Liu, Yaohui Zhu, Linhu Liu, Jiang Tian, Lili Wang(参考訳) 食品画像分析における従来のアプローチは、広範囲な注釈付きデータセットに依存しており、このような画像の多様性と複雑な性質により、人間のラベル付け費用が大幅に削減されている。 コントラッシブな自己監督手法の非ラベルデータ利用効果に触発されて、Weiqingはこれらの手法を非ラベル食品画像に活用することを探る。 対照的な自己監督手法では、データ拡張によって画像からランダムに2つのビューが生成される。 しかし, 食品画像に関しては, 類似した情報を含む傾向があり, 相互情報が多く, コントラスト的自己教師付き学習の効果を阻害している。 この問題に対処するために,ビュー間の相互情報を減らすための機能抑制コントラスト(feasc)を提案する。 この2つのビューの類似した内容は特徴マップにおいて高度または高度に応答するため、提案されたferscは応答認識スキームを使用して、教師なしの方法でサルエント特徴をローカライズする。 他方のコントラストビューを変更せず、一方の視点に有意な特徴を抑圧することにより、2つの視点間の相互情報を低減し、自己教師付き食品事前学習におけるコントラスト学習の有効性を高める。 プラグアンドプレイモジュールとして提案手法は,BYOLとSimSiamを1.70 %$\sim$ 6.69 %の分類精度で改良する。 また,提案手法の有効性を実証し,下流のセグメンテーションタスクにおいて上向きの結果が得られた。

Most previous approaches for analyzing food images have relied on extensively annotated datasets, resulting in significant human labeling expenses due to the varied and intricate nature of such images. Inspired by the effectiveness of contrastive self-supervised methods in utilizing unlabelled data, weiqing explore leveraging these techniques on unlabelled food images. In contrastive self-supervised methods, two views are randomly generated from an image by data augmentations. However, regarding food images, the two views tend to contain similar informative contents, causing large mutual information, which impedes the efficacy of contrastive self-supervised learning. To address this problem, we propose Feature Suppressed Contrast (FeaSC) to reduce mutual information between views. As the similar contents of the two views are salient or highly responsive in the feature map, the proposed FeaSC uses a response-aware scheme to localize salient features in an unsupervised manner. By suppressing some salient features in one view while leaving another contrast view unchanged, the mutual information between the two views is reduced, thereby enhancing the effectiveness of contrast learning for self-supervised food pre-training. As a plug-and-play module, the proposed method consistently improves BYOL and SimSiam by 1.70\% $\sim$ 6.69\% classification accuracy on four publicly available food recognition datasets. Superior results have also been achieved on downstream segmentation tasks, demonstrating the effectiveness of the proposed method.
翻訳日:2023-08-08 15:33:53 公開日:2023-08-07
# 局所構造対応グラフコントラスト表現学習

Local Structure-aware Graph Contrastive Representation Learning ( http://arxiv.org/abs/2308.03271v1 )

ライセンス: Link先を確認
Kai Yang, Yuan Liu, Zijuan Zhao, Peijin Ding, Wenqian Zhao(参考訳) グラフ表現学習法として従来のグラフニューラルネットワーク(GNN)はラベル情報によって制約される。 しかし、ラベル問題に効果的に取り組むグラフコントラスト学習(GCL)手法は、主にグローバルグラフや小さなサブグラフ構造(例えば、一階の近傍)の特徴情報に焦点を当てている。 本稿では,複数のビューからノードの構造情報をモデル化する局所構造対応グラフ比較表現学習法(LS-GCL)を提案する。 具体的には,一階近傍に限定されない意味部分グラフを構築する。 ローカルビューでは、各ターゲットノードのセマンティックサブグラフが共有GNNエンコーダに入力され、サブグラフレベルに埋め込まれたターゲットノードを取得する。 次に、プーリング関数を用いてサブグラフレベルのグラフ埋め込みを生成する。 グローバルビューでは、元のグラフが不要なノードの意味情報を保存していることを考慮し、共有gnnエンコーダを利用して、グローバルグラフレベルでターゲットノードの埋め込みを学習する。 提案するLS-GCLモデルは,マルチレベルコントラスト損失関数を用いて,類似インスタンス間の共通情報を3つの視点で最大化するために最適化されている。 5つのデータセットに対する実験結果から,本手法はノード分類およびリンク予測タスクにおいて,最先端のグラフ表現学習手法よりも優れていた。

Traditional Graph Neural Network (GNN), as a graph representation learning method, is constrained by label information. However, Graph Contrastive Learning (GCL) methods, which tackle the label problem effectively, mainly focus on the feature information of the global graph or small subgraph structure (e.g., the first-order neighborhood). In the paper, we propose a Local Structure-aware Graph Contrastive representation Learning method (LS-GCL) to model the structural information of nodes from multiple views. Specifically, we construct the semantic subgraphs that are not limited to the first-order neighbors. For the local view, the semantic subgraph of each target node is input into a shared GNN encoder to obtain the target node embeddings at the subgraph-level. Then, we use a pooling function to generate the subgraph-level graph embeddings. For the global view, considering the original graph preserves indispensable semantic information of nodes, we leverage the shared GNN encoder to learn the target node embeddings at the global graph-level. The proposed LS-GCL model is optimized to maximize the common information among similar instances at three various perspectives through a multi-level contrastive loss function. Experimental results on five datasets illustrate that our method outperforms state-of-the-art graph representation learning approaches for both node classification and link prediction tasks.
翻訳日:2023-08-08 15:33:28 公開日:2023-08-07
# ComplEx 埋め込みのための単純なルール注入

Simple Rule Injection for ComplEx Embeddings ( http://arxiv.org/abs/2308.03269v1 )

ライセンス: Link先を確認
Haodi Ma, Anthony Colas, Yuejie Wang, Ali Sadeghian, Daisy Zhe Wang(参考訳) ニューラルナレッジグラフ推論における最近の研究は、論理規則と知識グラフ埋め込みを組み合わせることで、事前知識の恩恵を受けている。 しかし、ルールの根拠付けは避けられず、様々なルールを注入することは、まだ徹底的に調査されていない。 本研究では,単純な制約を通した複数種類のルールを注入するメカニズムであるinjexを提案する。 まず、InjExがそのようなルールを注入できることを理論的に証明する。 次に,InjExが解釈可能な事前知識を埋め込み空間に注入することを示すために,知識グラフ補完(KGC)と少数ショット知識グラフ補完(FKGC)の設定の両方でInjExを評価する。 実験結果から,InjExはKGCモデルと,そのスケーラビリティと効率性を維持しつつ,特殊な数ショットモデルの両方に優れることがわかった。

Recent works in neural knowledge graph inference attempt to combine logic rules with knowledge graph embeddings to benefit from prior knowledge. However, they usually cannot avoid rule grounding, and injecting a diverse set of rules has still not been thoroughly explored. In this work, we propose InjEx, a mechanism to inject multiple types of rules through simple constraints, which capture definite Horn rules. To start, we theoretically prove that InjEx can inject such rules. Next, to demonstrate that InjEx infuses interpretable prior knowledge into the embedding space, we evaluate InjEx on both the knowledge graph completion (KGC) and few-shot knowledge graph completion (FKGC) settings. Our experimental results reveal that InjEx outperforms both baseline KGC models as well as specialized few-shot models while maintaining its scalability and efficiency.
翻訳日:2023-08-08 15:33:07 公開日:2023-08-07
# ビデオ質問応答のための冗長性認識変換器

Redundancy-aware Transformer for Video Question Answering ( http://arxiv.org/abs/2308.03267v1 )

ライセンス: Link先を確認
Yicong Li, Xun Yang, An Zhang, Chun Feng, Xiang Wang, Tat-Seng Chua(参考訳) 本稿では,現在のビデオQAパラダイムにおける2種類の冗長性について述べる。 具体的には、現在のビデオエンコーダは、階層的に異なる粒度で全てのビデオ手がかりを階層的に埋め込む傾向にあり、必然的に、オブジェクトレベルで詳細な視覚手がかりを圧倒する \textit{neighboring-frame redundancy} を導入する。 その後、一般的な視覚-言語融合設計では、すべての視覚要素を問合せトークンで徹底的に融合させ、ペアの視覚-言語相互作用を明示的に差別化せずに解答に悪影響を与える。 そこで本研究では,ビデオQAの冗長性を意識したモデリングを目的としたトランスフォーマーアーキテクチャを提案する。 隣接するフレームの冗長性に対処するため,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入し,隣接するフレームのみに注意を向けるメッセージパッシング方式を採用した。 モーダル間の冗長性については,新たな適応サンプリングを融合モジュールに装備し,解答のみをサポートする視覚要素の小さなサブセットを識別することにより,視覚言語間の相互作用を明確に区別する。 これらの進歩により、この \underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) は、複数の VideoQA ベンチマークで最先端の結果を得ることができる。

This paper identifies two kinds of redundancy in the current VideoQA paradigm. Specifically, the current video encoders tend to holistically embed all video clues at different granularities in a hierarchical manner, which inevitably introduces \textit{neighboring-frame redundancy} that can overwhelm detailed visual clues at the object level. Subsequently, prevailing vision-language fusion designs introduce the \textit{cross-modal redundancy} by exhaustively fusing all visual elements with question tokens without explicitly differentiating their pairwise vision-language interactions, thus making a pernicious impact on the answering. To this end, we propose a novel transformer-based architecture, that aims to model VideoQA in a redundancy-aware manner. To address the neighboring-frame redundancy, we introduce a video encoder structure that emphasizes the object-level change in neighboring frames, while adopting an out-of-neighboring message-passing scheme that imposes attention only on distant frames. As for the cross-modal redundancy, we equip our fusion module with a novel adaptive sampling, which explicitly differentiates the vision-language interactions by identifying a small subset of visual elements that exclusively support the answer. Upon these advancements, we find this \underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) can achieve state-of-the-art results on multiple VideoQA benchmarks.
翻訳日:2023-08-08 15:32:53 公開日:2023-08-07
# SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability ( http://arxiv.org/abs/2308.03266v1 )

ライセンス: Link先を確認
Xian Shi, Yexin Yang, Zerui Li, Shiliang Zhang(参考訳) ホットワードのカスタマイズは、ASRのフィールドに残る重要な問題の1つであり、ASRシステムのユーザーがエンティティ、人、その他のフレーズの名前をカスタマイズできるようにすることに価値がある。 過去数年間、ASRの文脈化のための暗黙的および明示的なモデリング戦略が開発されてきた。 これらのアプローチは十分に機能しているが、特に非自己回帰型asrモデルでは有効性の不安定など、いくつかの欠点がある。 本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。 AEDベースのモデルの精度、NARモデルの効率、文脈化における優れた性能を組み合わせる。 数万時間にわたる産業用ビッグデータ実験において,提案したモデルは,カスタマイズや一般のASRタスクにおいて,強力なベースラインを達成している。 さらに,大規模にやってくるホットワードを効率よくフィルタリングし,さらなる改善を図る。

Hotword customization is one of the important issues remained in ASR field - it is of value to enable users of ASR systems to customize names of entities, persons and other phrases. The past few years have seen both implicit and explicit modeling strategies for ASR contextualization developed. While these approaches have performed adequately, they still exhibit certain shortcomings, such as instability in effectiveness, especially in non-autoregressive ASR models. In this paper we propose Semantic-augmented Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with flexible and effective hotword customization ability. It combines the accuracy of the AED-based model, the efficiency of the NAR model, and the excellent performance in contextualization. In tens of thousands of hours industrial big data experiments, our proposed model outperforms strong baselines in customization and general ASR tasks. Besides, we explore an efficient way to filter large scale incoming hotwords for further improvement.
翻訳日:2023-08-08 15:32:21 公開日:2023-08-07
# 中国語シーン画像の超解像化のためのベンチマーク

A Benchmark for Chinese-English Scene Text Image Super-resolution ( http://arxiv.org/abs/2308.03262v1 )

ライセンス: Link先を確認
Jianqi Ma, Zhetong Liang, Wangmeng Xiang, Xi Yang, Lei Zhang(参考訳) Scene Text Image Super- resolution (STISR) は、与えられた低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。 現存するほとんどの著作は、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いているが、多様で複雑な文字構造を持つ中国語のテキストにはほとんど取り組んでいない。 本稿では,構造的に複雑な漢字の復元を重視した実世界の中国語-英語ベンチマークデータセットであるReal-CEを提案する。 このベンチマークでは、実世界のLR-HRテキストイメージペア~(合計33,789行を含む)2$\times$と4$\times$ズームモードのトレーニング/テストが提供されている。 さらに,画像領域と特徴領域の構造的監督を提供するエッジ認識学習手法を設計し,漢字の濃密な構造を効果的に再構築する。 提案したReal-CEベンチマークで実験を行い,既存のSTISRモデルをエッジ認識による損失なしで評価する。 データやソースコードを含むベンチマークはhttps://github.com/mjq11302010044/Real-CEで公開されている。

Scene Text Image Super-resolution (STISR) aims to recover high-resolution (HR) scene text images with visually pleasant and readable text content from the given low-resolution (LR) input. Most existing works focus on recovering English texts, which have relatively simple character structures, while little work has been done on the more challenging Chinese texts with diverse and complex character structures. In this paper, we propose a real-world Chinese-English benchmark dataset, namely Real-CE, for the task of STISR with the emphasis on restoring structurally complex Chinese characters. The benchmark provides 1,935/783 real-world LR-HR text image pairs~(contains 33,789 text lines in total) for training/testing in 2$\times$ and 4$\times$ zooming modes, complemented by detailed annotations, including detection boxes and text transcripts. Moreover, we design an edge-aware learning method, which provides structural supervision in image and feature domains, to effectively reconstruct the dense structures of Chinese characters. We conduct experiments on the proposed Real-CE benchmark and evaluate the existing STISR models with and without our edge-aware loss. The benchmark, including data and source code, is available at https://github.com/mjq11302010044/Real-CE.
翻訳日:2023-08-08 15:31:53 公開日:2023-08-07
# 異なる時系列変換器(TST)アーキテクチャの探索:電気自動車(EV)のバッテリー寿命予測を事例として

Exploring Different Time-series-Transformer (TST) Architectures: A Case Study in Battery Life Prediction for Electric Vehicles (EVs) ( http://arxiv.org/abs/2308.03260v1 )

ライセンス: Link先を確認
Niranjan Sitapure, and Atharva Kulkarni(参考訳) 近年、電気自動車(ev)のバッテリー技術が注目され、新しい電池材料や化学薬品の開発に重点が置かれている。 しかし、充電状態(SOC)や温度などの重要なバッテリパラメータを正確に予測することは、高度なバッテリ管理システム(BMS)を構築する上での課題である。 既存のバッテリーモデルは、環境温度、キャビン温度、標高、EV運転中の再生ブレーキなど、バッテリー性能に影響を与えるすべてのパラメータを包括的にカバーしていない。 これらの補助パラメータを従来のモデルに組み込むことが困難であるため,データ駆動型アプローチを提案する。 マルチヘッドアテンションと並列化フレンドリなアーキテクチャを活用した時系列変換器(TST)をLSTMモデルと共に検討した。 エンコーダTST+デコーダLSTMとハイブリッドTST-LSTMを含む新しいTSTアーキテクチャも開発され、既存のモデルと比較される。 BMW i3(60Ah)における72回の運転旅行からなるデータセットを使用して、EVのバッテリー寿命予測に対処し、環境、バッテリ、自動車運転、加熱回路データを含む正確なTSTモデルを作成し、将来の時間ステップのSOCとバッテリ温度を予測する。

In recent years, battery technology for electric vehicles (EVs) has been a major focus, with a significant emphasis on developing new battery materials and chemistries. However, accurately predicting key battery parameters, such as state-of-charge (SOC) and temperature, remains a challenge for constructing advanced battery management systems (BMS). Existing battery models do not comprehensively cover all parameters affecting battery performance, including non-battery-related factors like ambient temperature, cabin temperature, elevation, and regenerative braking during EV operation. Due to the difficulty of incorporating these auxiliary parameters into traditional models, a data-driven approach is suggested. Time-series-transformers (TSTs), leveraging multiheaded attention and parallelization-friendly architecture, are explored alongside LSTM models. Novel TST architectures, including encoder TST + decoder LSTM and a hybrid TST-LSTM, are also developed and compared against existing models. A dataset comprising 72 driving trips in a BMW i3 (60 Ah) is used to address battery life prediction in EVs, aiming to create accurate TST models that incorporate environmental, battery, vehicle driving, and heating circuit data to predict SOC and battery temperature for future time steps.
翻訳日:2023-08-08 15:31:08 公開日:2023-08-07
# 深部畳み込みニューラルネットワークの最適近似と学習率

Optimal Approximation and Learning Rates for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2308.03259v1 )

ライセンス: Link先を確認
Shao-Bo Lin(参考訳) 本稿では,ゼロパディングと最大プールを用いた深部畳み込みニューラルネットワークの近似と学習性能解析に焦点を当てた。 r$-smooth関数を近似するために、深さ$l$の深い畳み込みニューラルネットワークの近似率は、対数係数まで最適である(l^2/\log l)^{-2r/d} $である。 さらに,深層畳み込みニューラルネットワーク上で経験的リスク最小化を実現するために,ほぼ最適学習率を推定する。

This paper focuses on approximation and learning performance analysis for deep convolutional neural networks with zero-padding and max-pooling. We prove that, to approximate $r$-smooth function, the approximation rates of deep convolutional neural networks with depth $L$ are of order $ (L^2/\log L)^{-2r/d} $, which is optimal up to a logarithmic factor. Furthermore, we deduce almost optimal learning rates for implementing empirical risk minimization over deep convolutional neural networks.
翻訳日:2023-08-08 15:30:31 公開日:2023-08-07
# SynJax: JAX の構造化確率分布

SynJax: Structured Probability Distributions for JAX ( http://arxiv.org/abs/2308.03291v1 )

ライセンス: Link先を確認
Milo\v{s} Stanojevi\'c and Laurent Sartran(参考訳) ディープラーニングソフトウェアライブラリの開発は、ユーザがモデリングに集中できると同時に、現代的なハードウェアアクセラレータの実行を最適化する退屈で時間のかかるタスクをライブラリに任せることで、この分野の大きな進歩をもたらした。 しかし、これは、プリミティブがベクトル化された計算に容易にマッピングするトランスフォーマーのような、特定のタイプのディープラーニングモデルにのみ恩恵がある。 木やセグメンテーションなどの構造化オブジェクトを明示的に説明するモデルは、ベクトル化形式で実装が難しいカスタムアルゴリズムを必要とするため、等しく利益を得られなかった。 SynJaxは、アライメント、タグ付け、セグメンテーション、選挙区木、スパンニングツリーを含む構造化分布のための効率的なベクトル化推論アルゴリズムを提供することで、この問題に対処する。 SynJaxを使えば、データ構造を明示的にモデル化する大規模な微分可能なモデルを構築することができます。 コードはhttps://github.com/deepmind/synjaxで入手できる。

The development of deep learning software libraries enabled significant progress in the field by allowing users to focus on modeling, while letting the library to take care of the tedious and time-consuming task of optimizing execution for modern hardware accelerators. However, this has benefited only particular types of deep learning models, such as Transformers, whose primitives map easily to the vectorized computation. The models that explicitly account for structured objects, such as trees and segmentations, did not benefit equally because they require custom algorithms that are difficult to implement in a vectorized form. SynJax directly addresses this problem by providing an efficient vectorized implementation of inference algorithms for structured distributions covering alignment, tagging, segmentation, constituency trees and spanning trees. With SynJax we can build large-scale differentiable models that explicitly model structure in the data. The code is available at https://github.com/deepmind/synjax.
翻訳日:2023-08-08 15:23:35 公開日:2023-08-07
# FLIQS:One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search ( http://arxiv.org/abs/2308.03290v1 )

ライセンス: Link先を確認
Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li(参考訳) 量子化は、現代のディープニューラルネットワーク(DNN)のモデルサイズ、計算要求、エネルギー消費を減らすための主流圧縮技術となっている。 最近のハードウェアでは、整数と浮動小数点の複数の変種を含む数値的サポートが改善され、モデルコストの低い高品質な結果を得るために混合精度量子化が求められている。 事前の混合精度量子化法は、精度を損なうトレーニング後の量子化探索や、分岐から高いメモリ使用率をもたらす微分可能な量子化探索を実行している。 そこで本研究では,整数モデルと低精度浮動小数点モデルの両方で再学習する必要をなくした,最初の単発混合精度量子化探索を提案する。 複数の畳み込みネットワークおよび視覚変換器モデル上での浮動小数点および整数量子化探索(FLIQS)を評価し,パレート最適モデルを検出する。 提案手法は,一様精度,手動混合精度,最近の整数量子化探索法により改良されたモデルを検出する。 提案する整数量子化探索により,imagenetにおけるresnet-18の精度を1.31%向上させ,resnet-50を0.90%向上させる。 さらに,新しい混合精度浮動小数点探索法を初めて検討し,最新のfp8モデルと比較して,mobilenetv2を最大0.98%改善した。 最後に、fliqsを拡張して、共同量子化とニューラルアーキテクチャ空間を同時に検索し、mobilenetv2検索空間における同様のモデルコストでイメージネットの精度を2.69%向上させる。

Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With the improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision quantization methods have performed a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our floating-point and integer quantization search (FLIQS) on multiple convolutional networks and vision transformer models to discover Pareto-optimal models. Our approach discovers models that improve upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With the proposed integer quantization search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and ResNet-50 by 0.90% points with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% points compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2 search space.
翻訳日:2023-08-08 15:23:19 公開日:2023-08-07
# シーン画像を用いたマルチラベル自己監督学習

Multi-Label Self-Supervised Learning with Scene Images ( http://arxiv.org/abs/2308.03286v1 )

ライセンス: Link先を確認
Ke Zhu and Minghao Fu and Jianxin Wu(参考訳) シーンイメージをターゲットとした自己教師あり学習(SSL)手法は最近急速に成長しており、主に専用の密マッチング機構か、高価な教師なしオブジェクト発見モジュールに依存している。 本稿では,これらの厳密な操作に代えて,シーン/複数ラベル画像SSLを多ラベル分類問題として扱い,学習フレームワークを大幅に単純化することで,高品質な画像表現を学習可能であることを示す。 具体的には、組込みと2つの辞書の組込みを比較して各入力画像に複数の二項擬似ラベルを割り当て、二項クロスエントロピー損失を用いてネットワークを最適化する。 提案手法はマルチラベル自己教師学習(MLS)と呼ばれる。 MLSによる擬似ラベルは、異なる画像にまたがって意味的に類似した擬似陽性のペアを自動的に見つけ、コントラスト学習を容易にする。 MLSはMS-COCOの高品質な表現を学習し、分類、検出、セグメンテーションのベンチマークで最先端の結果を得る。 同時に、MLSは既存のメソッドよりもはるかにシンプルで、デプロイやさらなる探索が容易である。

Self-supervised learning (SSL) methods targeting scene images have seen a rapid growth recently, and they mostly rely on either a dedicated dense matching mechanism or a costly unsupervised object discovery module. This paper shows that instead of hinging on these strenuous operations, quality image representations can be learned by treating scene/multi-label image SSL simply as a multi-label classification problem, which greatly simplifies the learning framework. Specifically, multiple binary pseudo-labels are assigned for each input image by comparing its embeddings with those in two dictionaries, and the network is optimized using the binary cross entropy loss. The proposed method is named Multi-Label Self-supervised learning (MLS). Visualizations qualitatively show that clearly the pseudo-labels by MLS can automatically find semantically similar pseudo-positive pairs across different images to facilitate contrastive learning. MLS learns high quality representations on MS-COCO and achieves state-of-the-art results on classification, detection and segmentation benchmarks. At the same time, MLS is much simpler than existing methods, making it easier to deploy and for further exploration.
翻訳日:2023-08-08 15:22:47 公開日:2023-08-07
# 量子機械学習を用いた高速離散変調連続可変量子鍵分布

High-rate discretely-modulated continuous-variable quantum key distribution using quantum machine learning ( http://arxiv.org/abs/2308.03283v1 )

ライセンス: Link先を確認
Qin Liao, Jieyu Liu, Anqi Huang, Lei Huang, Zhuoying Fei, Xiquan Fu(参考訳) 本稿では,量子機械学習技術を用いた離散変調連続可変量子鍵分布(DM CVQKD)の高精度化手法を提案する。CVQKDシステム全体を,量子分類器のトレーニングと推定に使用する初期化部,高相関の生鍵を生成するための予測部,アリスとボブが共有する最後の秘密鍵列を生成するデータ後処理部という,3つの部分に分けられる。 この目的のために、低複素量子k-ネアレスト近傍(qknn)分類器はボブ側での損失離散変調コヒーレント状態(dmcss)を予測するために設計されている。 提案するQkNNベースのCVQKDの性能,特に機械学習のメトリクスと複雑性について分析し,半定値プログラム(SDP)法を用いてその理論的安全性を検証した。 シミュレーションにより,提案方式の秘密鍵レートは既存のDM CVQKDプロトコルよりも明らかに優れており,変調分散の増大によりさらに向上可能であることが示された。

We propose a high-rate scheme for discretely-modulated continuous-variable quantum key distribution (DM CVQKD) using quantum machine learning technologies, which divides the whole CVQKD system into three parts, i.e., the initialization part that is used for training and estimating quantum classifier, the prediction part that is used for generating highly correlated raw keys, and the data-postprocessing part that generates the final secret key string shared by Alice and Bob. To this end, a low-complexity quantum k-nearest neighbor (QkNN) classifier is designed for predicting the lossy discretely-modulated coherent states (DMCSs) at Bob's side. The performance of the proposed QkNN-based CVQKD especially in terms of machine learning metrics and complexity is analyzed, and its theoretical security is proved by using semi-definite program (SDP) method. Numerical simulation shows that the secret key rate of our proposed scheme is explicitly superior to the existing DM CVQKD protocols, and it can be further enhanced with the increase of modulation variance.
翻訳日:2023-08-08 15:22:29 公開日:2023-08-07
# きめ細かいシーングラフ生成のための環境不変カリキュラム関係学習

Environment-Invariant Curriculum Relation Learning for Fine-Grained Scene Graph Generation ( http://arxiv.org/abs/2308.03282v1 )

ライセンス: Link先を確認
Yukuan Min and Aming Wu and Cheng Deng(参考訳) シーングラフ生成(SGG)タスクは、対象と対象のペアに基づいて述語を特定するように設計されているが、既存のデータセットには、予測された述語からのクラス不均衡と、与えられた対象と対象のペアからのコンテキスト不均衡という2つの不均衡ケースが含まれている。 既存の手法のほとんどは予測された述語の不均衡に焦点を合わせ、対象と対象のペアの不均衡を無視する。 この2つの不均衡なケースに対処するために,既存のSGG手法にプラグイン・アンド・プレイ方式で適用可能な,環境不変なカリキュラム関係学習(EICR)手法を提案する。 具体的には、対象物対の不均衡を取り除くために、まず対象物対に対する異なる分布環境を構築し、環境変化に不変なモデルを学ぶ。 そして, 異なる環境のバランスをとり, 述語不均衡を解消するために, クラスバランスのカリキュラム学習戦略を構築する。 VGおよびGQAデータセットを用いた総合的な実験により、我々のEICRフレームワークは様々なSGGモデルの一般的な戦略として捉えることができ、大幅な改善が達成できることが示された。

The scene graph generation (SGG) task is designed to identify the predicates based on the subject-object pairs.However,existing datasets generally include two imbalance cases: one is the class imbalance from the predicted predicates and another is the context imbalance from the given subject-object pairs, which presents significant challenges for SGG. Most existing methods focus on the imbalance of the predicted predicate while ignoring the imbalance of the subject-object pairs, which could not achieve satisfactory results. To address the two imbalance cases, we propose a novel Environment Invariant Curriculum Relation learning (EICR) method, which can be applied in a plug-and-play fashion to existing SGG methods. Concretely, to remove the imbalance of the subject-object pairs, we first construct different distribution environments for the subject-object pairs and learn a model invariant to the environment changes. Then, we construct a class-balanced curriculum learning strategy to balance the different environments to remove the predicate imbalance. Comprehensive experiments conducted on VG and GQA datasets demonstrate that our EICR framework can be taken as a general strategy for various SGG models, and achieve significant improvements.
翻訳日:2023-08-08 15:22:07 公開日:2023-08-07
# 多段階コントラスト学習による汎用テキスト埋め込みに向けて

Towards General Text Embeddings with Multi-stage Contrastive Learning ( http://arxiv.org/abs/2308.03281v1 )

ライセンス: Link先を確認
Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang(参考訳) 多段階コントラスト学習で学習した汎用テキスト埋め込みモデルであるGTEを提案する。 各種NLPタスクを単一のフォーマットに統一する最近の進歩に合わせて、複数のソースから多種多様なデータセットを比較学習することで、統一されたテキスト埋め込みモデルを訓練する。 教師なし事前学習および教師なし微調整段階のトレーニングデータを著しく増加させることで,既存の埋め込みモデルよりも大幅な性能向上を実現した。 特に、比較的控えめなパラメータ数が110Mであっても、GTE$_\text{base}$はOpenAIが提供するブラックボックス埋め込みAPIより優れており、巨大なテキスト埋め込みベンチマークで10倍大きなテキスト埋め込みモデルを超えています。 さらに、各プログラミング言語を個別に微調整することなく、同じサイズのコードレトリバーをテキストとして扱うことで、以前のベストなコードレトリバーよりも優れています。 要約すると、本モデルは多段階のコントラスト学習を効果的に活用し、多様なNLPおよびコード関連タスクに適用可能な、強力で効率的なテキスト埋め込みモデルを提供する。

We present GTE, a general-purpose text embedding model trained with multi-stage contrastive learning. In line with recent advancements in unifying various NLP tasks into a single format, we train a unified text embedding model by employing contrastive learning over a diverse mixture of datasets from multiple sources. By significantly increasing the number of training data during both unsupervised pre-training and supervised fine-tuning stages, we achieve substantial performance gains over existing embedding models. Notably, even with a relatively modest parameter count of 110M, GTE$_\text{base}$ outperforms the black-box embedding API provided by OpenAI and even surpasses 10x larger text embedding models on the massive text embedding benchmark. Furthermore, without additional fine-tuning on each programming language individually, our model outperforms previous best code retrievers of similar size by treating code as text. In summary, our model achieves impressive results by effectively harnessing multi-stage contrastive learning, offering a powerful and efficient text embedding model with broad applicability across various NLP and code-related tasks.
翻訳日:2023-08-08 15:21:45 公開日:2023-08-07
# Mirror-NeRF:Whitted-Style Ray Tracing を用いたミラー用ニューラル放射場学習

Mirror-NeRF: Learning Neural Radiance Fields for Mirrors with Whitted-Style Ray Tracing ( http://arxiv.org/abs/2308.03280v1 )

ライセンス: Link先を確認
Junyi Zeng, Chong Bao, Rui Chen, Zilong Dong, Guofeng Zhang, Hujun Bao, Zhaopeng Cui(参考訳) 近年,Neural Radiance Fields (NeRF) は新たなビュー合成や表面再構成などにおいて大きな成功を収めている。 しかし、物理反射はレンダリングパイプラインでは考慮されないため、NeRFは鏡内の反射を別々に仮想的なシーンと勘違いし、ミラーの不正確な再構成とミラー内の多視点不整合反射につながる。 本稿では,ミラーの正確な形状と反射を学習し,シーンに新しいオブジェクトやミラーを追加したり,これら新しいオブジェクトの反射をミラーに合成したり,ミラーの粗さを制御したりといった,様々なシーン操作アプリケーションをサポートする,mirror-nerfという新しいニューラルネットワークフレームワークを提案する。 この目的を達成するために,ホイットテッド・レイトレーシングの光移動モデルに従って反射確率とトレーシング・レイを導入することにより,統一的な放射場を提案するとともに,学習プロセスを容易にする手法をいくつか開発する。 合成データセットと実データセットの比較実験により,本手法の優位性を示した。 コードと補足資料はプロジェクトのWebページ(https://zju3dv.github.io/Mirror-NeRF/)で公開されている。

Recently, Neural Radiance Fields (NeRF) has exhibited significant success in novel view synthesis, surface reconstruction, etc. However, since no physical reflection is considered in its rendering pipeline, NeRF mistakes the reflection in the mirror as a separate virtual scene, leading to the inaccurate reconstruction of the mirror and multi-view inconsistent reflections in the mirror. In this paper, we present a novel neural rendering framework, named Mirror-NeRF, which is able to learn accurate geometry and reflection of the mirror and support various scene manipulation applications with mirrors, such as adding new objects or mirrors into the scene and synthesizing the reflections of these new objects in mirrors, controlling mirror roughness, etc. To achieve this goal, we propose a unified radiance field by introducing the reflection probability and tracing rays following the light transport model of Whitted Ray Tracing, and also develop several techniques to facilitate the learning process. Experiments and comparisons on both synthetic and real datasets demonstrate the superiority of our method. The code and supplementary material are available on the project webpage: https://zju3dv.github.io/Mirror-NeRF/.
翻訳日:2023-08-08 15:21:24 公開日:2023-08-07
# UniversalNER: オープンネームエンティティ認識のための大規模言語モデルからの蒸留ターゲット

UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition ( http://arxiv.org/abs/2308.03279v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon(参考訳) 大規模言語モデル(LLM)は、任意の実体や関係を理解するなど、顕著な一般化性を示している。 インストラクションチューニングは、AlpacaやVicunaのようなよりコスト効率の良いモデルにLLMを蒸留するのに有効であることが証明されている。 しかし、これらの学生モデルは、下流のアプリケーションにおいて大きなマージンで元のLLMを追随している。 本稿では,オープン情報抽出などの幅広い応用クラスで優れた学生モデルを訓練するための,ミッション指向の指導チューニングによるターゲット蒸留について検討する。 ケーススタディでは、名前付きエンティティ認識(NER)を用いて、ChatGPTをより小さなUniversalNERモデルに蒸留してオープンNERを構築する方法を示す。 評価のために, バイオメディシン, プログラミング, ソーシャルメディア, 法律, ファイナンスなど9つの領域にわたる43のデータセットからなるNERベンチマークを作成した。 直接の監督を使わずに、UniversalNERは数万のエンティティタイプにまたがる顕著なNER精度を達成し、AlpacaやVicunaのような一般的な命令チューニングモデルよりも平均30以上の絶対的なF1点を達成している。 パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。 注目すべきは、UniversalNERは、教師付きNERの例を使用するInstructUIEのような、最先端のマルチタスク命令チューニングシステムよりも優れています。 また, 蒸留アプローチにおける各種成分の影響を評価するため, 徹底的なアブレーション試験を行った。 我々は,将来の蒸留研究を促進するために,蒸留レシピ,データ,ユニバーサルナーモデルをリリースする。

Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation with mission-focused instruction tuning to train student models that can excel in a broad application class such as open information extraction. Using named entity recognition (NER) for case study, we show how ChatGPT can be distilled into much smaller UniversalNER models for open NER. For evaluation, we assemble the largest NER benchmark to date, comprising 43 datasets across 9 diverse domains such as biomedicine, programming, social media, law, finance. Without using any direct supervision, UniversalNER attains remarkable NER accuracy across tens of thousands of entity types, outperforming general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute F1 points in average. With a tiny fraction of parameters, UniversalNER not only acquires ChatGPT's capability in recognizing arbitrary entity types, but also outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably, UniversalNER even outperforms by a large margin state-of-the-art multi-task instruction-tuned systems such as InstructUIE, which uses supervised NER examples. We also conduct thorough ablation studies to assess the impact of various components in our distillation approach. We will release the distillation recipe, data, and UniversalNER models to facilitate future research on targeted distillation.
翻訳日:2023-08-08 15:21:04 公開日:2023-08-07
# 曖昧さから明示性:形式解析のためのNLP支援5G仕様抽象化

From Ambiguity to Explicitness: NLP-Assisted 5G Specification Abstraction for Formal Analysis ( http://arxiv.org/abs/2308.03277v1 )

ライセンス: Link先を確認
Shiyu Yuan, Jingda Yang, Sudhanshu Arya, Carlo Lipizzi, Ying Wang(参考訳) 5gワイヤレス通信プロトコルの形式的手法に基づく分析は、論理的脆弱性の特定や、特に設計段階でのセキュリティ評価の促進に不可欠である。 自然言語処理(NLP)は技術を支援し、ほとんどのツールは業界や研究コミュニティでは広く採用されていない。 数学のアプローチによる従来の形式的検証は、手動の論理的抽象化に大きく依存しており、時間的消費とエラーが発生しやすい。 NLP支援法が産業研究に適用されなかったのは、プロトコル設計の自然言語の曖昧さが、形式的検証の明示性に異論があるためかもしれない。 本研究では,プロトコル設計において形式的手法を採用するという課題に対処し,自然言語で記述された3gppプロトコルを対象とし,プロトコル分析を合理化するハイブリッド手法を提案する。 まず、NLPツールを用いてデータを構築し、次にNLPモデルを用いて、構築されたデータを用いて識別子と形式的特性を抽出する2ステップパイプラインを提案する。 識別子と形式的性質はさらに形式分析に使用される。 識別子と形式プロパティの異なる依存関係を基準として,3つのモデルを実装した。 最適モデルの結果,識別子抽出では39%,形式的特性予測では42%の精度が得られた。 我々の研究は、特に5GおよびnextG通信において、大規模で複雑な仕様およびプロトコル分析のための形式解析を行うための効率的な手順の実証である。

Formal method-based analysis of the 5G Wireless Communication Protocol is crucial for identifying logical vulnerabilities and facilitating an all-encompassing security assessment, especially in the design phase. Natural Language Processing (NLP) assisted techniques and most of the tools are not widely adopted by the industry and research community. Traditional formal verification through a mathematics approach heavily relied on manual logical abstraction prone to being time-consuming, and error-prone. The reason that the NLP-assisted method did not apply in industrial research may be due to the ambiguity in the natural language of the protocol designs nature is controversial to the explicitness of formal verification. To address the challenge of adopting the formal methods in protocol designs, targeting (3GPP) protocols that are written in natural language, in this study, we propose a hybrid approach to streamline the analysis of protocols. We introduce a two-step pipeline that first uses NLP tools to construct data and then uses constructed data to extract identifiers and formal properties by using the NLP model. The identifiers and formal properties are further used for formal analysis. We implemented three models that take different dependencies between identifiers and formal properties as criteria. Our results of the optimal model reach valid accuracy of 39% for identifier extraction and 42% for formal properties predictions. Our work is proof of concept for an efficient procedure in performing formal analysis for largescale complicate specification and protocol analysis, especially for 5G and nextG communications.
翻訳日:2023-08-08 15:20:34 公開日:2023-08-07
# Spaceyze:空間対応最適化による地理空間ビデオ分析システム

Spatialyze: A Geospatial Video Analytics System with Spatial-Aware Optimizations ( http://arxiv.org/abs/2308.03276v1 )

ライセンス: Link先を確認
Chanwut Kittivorawong, Yongming Ge, Yousef Helal, Alvin Cheung(参考訳) 携帯電話や監視カメラなどのコモディティなハードウェアを使って撮影されたビデオは、時間や位置などの様々なメタデータを記録する。 このような地理空間的ビデオは日常的に遭遇し,その量は著しく増加している。 しかし、そのようなデータと効率的に対話できるデータ管理システムは存在しません。 本稿では,地理空間ビデオのエンドツーエンドクエリのための新しいフレームワークであるSpatialyzeについて述べる。 Spatialyzeにはドメイン固有の言語があり、ユーザは3段階の宣言型ビルド-フィルタ-オブザーブパラダイムを使って地理空間ビデオ分析ワークフローを構築することができる。 内部的には、Spatialyzeはワークフローの宣言的な性質、ビデオに格納された時間空間メタデータ、現実世界のオブジェクトの物理的な振る舞いを活用してワークフローの実行を最適化する。 実世界のビデオとワークフローを用いた結果から、spatialyzeは、最適化されていない実行と比較して97.1%の精度を維持しながら、実行時間を最大5.3倍削減できることがわかった。

Videos that are shot using commodity hardware such as phones and surveillance cameras record various metadata such as time and location. We encounter such geospatial videos on a daily basis and such videos have been growing in volume significantly. Yet, we do not have data management systems that allow users to interact with such data effectively. In this paper, we describe Spatialyze, a new framework for end-to-end querying of geospatial videos. Spatialyze comes with a domain-specific language where users can construct geospatial video analytic workflows using a 3-step, declarative, build-filter-observe paradigm. Internally, Spatialyze leverages the declarative nature of such workflows, the temporal-spatial metadata stored with videos, and physical behavior of real-world objects to optimize the execution of workflows. Our results using real-world videos and workflows show that Spatialyze can reduce execution time by up to 5.3x, while maintaining up to 97.1% accuracy compared to unoptimized execution.
翻訳日:2023-08-08 15:20:09 公開日:2023-08-07
# コードセマンティクス学習のための対称性保存プログラム表現

Symmetry-Preserving Program Representations for Learning Code Semantics ( http://arxiv.org/abs/2308.03312v1 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana(参考訳) 大規模言語モデル(llm)は、多くのセキュリティタスクの重要な側面である自動プログラム推論において、約束を示している。 しかし、既存のコード用のllmアーキテクチャは、自然言語処理のような他のドメインから借用されることが多く、コードの一般化と堅牢性に懸念を抱いている。 鍵となる一般化の課題は、制御やデータフローを含むコードセマンティクスの知識をllmアーキテクチャに組み込むことである。 変換対称性を利用した畳み込み層の例からインスピレーションを得て、コード対称性がプログラム解析とモデリングのためにllmアーキテクチャをどのように強化できるかを考察する。 本稿では,コード対称性を意味論的保存変換として正式に定義する厳密なグループ理論フレームワークを提案する。 本フレームワークを用いて,プログラムの対称性を保存し,その一般化とロバスト性を示す新たな自己注意法を導入し,異なるバイナリおよびソースコード解析タスクの詳細な実験評価を行った。 全体として、我々のコード対称性フレームワークは厳格で強力な推論技術を提供しており、コードのための特殊なLCMの開発をガイドし、LLM誘導プログラム推論タスクを前進させる。

Large Language Models (LLMs) have shown promise in automated program reasoning, a crucial aspect of many security tasks. However, existing LLM architectures for code are often borrowed from other domains like natural language processing, raising concerns about their generalization and robustness to unseen code. A key generalization challenge is to incorporate the knowledge of code semantics, including control and data flow, into the LLM architectures. Drawing inspiration from examples of convolution layers exploiting translation symmetry, we explore how code symmetries can enhance LLM architectures for program analysis and modeling. We present a rigorous group-theoretic framework that formally defines code symmetries as semantics-preserving transformations and provides techniques for precisely reasoning about symmetry preservation within LLM architectures. Using this framework, we introduce a novel variant of self-attention that preserves program symmetries, demonstrating its effectiveness in generalization and robustness through detailed experimental evaluations across different binary and source code analysis tasks. Overall, our code symmetry framework offers rigorous and powerful reasoning techniques that can guide the future development of specialized LLMs for code and advance LLM-guided program reasoning tasks.
翻訳日:2023-08-08 15:14:27 公開日:2023-08-07
# CrossTalk:会話音声認識によるビデオ会議におけるコミュニケーションとコラボレーションの促進

CrossTalk: Enhancing Communication and Collaboration in Videoconferencing with Intent Recognition from Conversational Speech ( http://arxiv.org/abs/2308.03311v1 )

ライセンス: Link先を確認
Haijun Xia, Tony Wang, Aditya Gunturu, Peiling Jiang, William Duan, Xiaoshuo Yao(参考訳) ビデオ会議や仮想現実といったデジタルコミュニケーションメディアの進歩と普及にもかかわらず、利用者が表現する豊かな意図には依然として従わない。 音声、ビデオ、メッセージの送信以外にも、デジタルコミュニケーションメディアは、コミュニケーションとコラボレーションを強化するために邪魔にならない支援を提供するプロアクティブなファシリテーターとして考えています。 形成的研究の結果から,パネル基板,言語に基づく意図認識,軽量なインタラクション技術など,コミュニケーションとコラボレーションへのインテリジェンスの体系的統合を探求するための3つの重要な設計概念を提案する。 そこで我々はCrossTalkを開発した。CrossTalkはこれらのコンセプトをインスタンス化し、より流動的で柔軟なコミュニケーションとコラボレーション体験を可能にする。

Despite the advances and ubiquity of digital communication media such as videoconferencing and virtual reality, they remain oblivious to the rich intentions expressed by users. Beyond transmitting audio, videos, and messages, we envision digital communication media as proactive facilitators that can provide unobtrusive assistance to enhance communication and collaboration. Informed by the results of a formative study, we propose three key design concepts to explore the systematic integration of intelligence into communication and collaboration, including the panel substrate, language-based intent recognition, and lightweight interaction techniques. We developed CrossTalk, a videoconferencing system that instantiates these concepts, which was found to enable a more fluid and flexible communication and collaboration experience.
翻訳日:2023-08-08 15:14:05 公開日:2023-08-07
# 制約付きディリクレエネルギー最小化に基づく入射グラフ神経拡散

Implicit Graph Neural Diffusion Based on Constrained Dirichlet Energy Minimization ( http://arxiv.org/abs/2308.03306v1 )

ライセンス: Link先を確認
Guoji Fu, Mohammed Haroon Dupty, Yanfei Dong, Lee Wee Sun(参考訳) インプリシトグラフニューラルネットワーク(GNN)は、GNNが長距離依存を効果的にキャプチャするための潜在的アプローチとして登場した。 しかし、貧弱な設計の暗黙のgnn層は過剰なスムーシングを経験したり、データ幾何学習への適応性が制限されたりして、グラフ学習問題におけるパフォーマンスを損なう可能性がある。 これらの問題に対処するため,パラメータ化グラフラプラシアン演算子に基づく暗黙グラフ拡散層を設計するための幾何学的枠組みを導入する。 我々のフレームワークは、頂点空間とエッジ空間の幾何学と、データからグラフ勾配演算子を学習できる。 さらに, ディリクレエネルギー最小化問題の固定点解として暗黙のgnn層を捉える方法を示し, 過スムーシングに苦しむような条件を与える。 過度にスムーズな問題を克服するため,我々は,ノード特徴情報の保存によるスムーズ化と引き換えに,頂点特徴に制約のあるディリクレエネルギー最小化問題の解として,暗黙グラフ拡散層を設計した。 パラメータ化グラフ Laplacian の最大の固有値よりも大きい適切なハイパーパラメータセットにより、我々のフレームワークは、一意の平衡と迅速な収束を保証する。 提案モデルでは,ノード分類タスクやグラフ分類タスクのベンチマークデータセットにおいて,暗黙的かつ明示的なGNNを導くよりも優れた性能を示す。

Implicit graph neural networks (GNNs) have emerged as a potential approach to enable GNNs to capture long-range dependencies effectively. However, poorly designed implicit GNN layers can experience over-smoothing or may have limited adaptability to learn data geometry, potentially hindering their performance in graph learning problems. To address these issues, we introduce a geometric framework to design implicit graph diffusion layers based on a parameterized graph Laplacian operator. Our framework allows learning the geometry of vertex and edge spaces, as well as the graph gradient operator from data. We further show how implicit GNN layers can be viewed as the fixed-point solution of a Dirichlet energy minimization problem and give conditions under which it may suffer from over-smoothing. To overcome the over-smoothing problem, we design our implicit graph diffusion layer as the solution of a Dirichlet energy minimization problem with constraints on vertex features, enabling it to trade off smoothing with the preservation of node feature information. With an appropriate hyperparameter set to be larger than the largest eigenvalue of the parameterized graph Laplacian, our framework guarantees a unique equilibrium and quick convergence. Our models demonstrate better performance than leading implicit and explicit GNNs on benchmark datasets for node and graph classification tasks, with substantial accuracy improvements observed for some datasets.
翻訳日:2023-08-08 15:13:50 公開日:2023-08-07
# LoRA-FA:大規模言語モデルのためのメモリ効率の低い低ランク適応

LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models Fine-tuning ( http://arxiv.org/abs/2308.03303v1 )

ライセンス: Link先を確認
Longteng Zhang, Lin Zhang, Shaohuai Shi, Xiaowen Chu, Bo Li(参考訳) 低ランク適応 (LoRA) 法は、微調整された大言語モデル (LLM) のトレーニング可能なパラメータの量を大幅に削減できるが、低ランク重み更新には高価なアクティベーションメモリが必要である。 LoRAレイヤの削減やアクティベーション再計算の使用は、微調整性能を損なったり、計算オーバーヘッドを増大させる可能性がある。 そこで本研究では,メモリ効率の良い微調整手法であるlora-faを提案する。 LoRA-FAは、$A$の投射重量を凍結し、各LoRA層で$B$の投射重量を更新する。 モデルウェイトの変化はLLMの微調整中に低ランク空間に留まり、フルランクの入力アクティベーションを格納する必要がなくなる。 複数のモデルタイプ(RoBERTa,T5,LLaMA)とモデルスケールにまたがる広範な実験を行う。 この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクの細調整精度が常に高いことがわかった。 さらに、LoRA-FAはLoRAと比較してメモリ全体のコストを1.4$\times$まで削減できる。

The low-rank adaptation (LoRA) method can largely reduce the amount of trainable parameters for fine-tuning large language models (LLMs), however, it still requires expensive activation memory to update low-rank weights. Reducing the number of LoRA layers or using activation recomputation could harm the fine-tuning performance or increase the computational overhead. In this work, we present LoRA-FA, a memory-efficient fine-tuning method that reduces the activation memory without performance degradation and expensive recomputation. LoRA-FA chooses to freeze the projection-down weight of $A$ and update the projection-up weight of $B$ in each LoRA layer. It ensures the change of model weight reside in a low-rank space during LLMs fine-tuning, while eliminating the requirement to store full-rank input activations. We conduct extensive experiments across multiple model types (RoBERTa, T5, LLaMA) and model scales. Our results show that LoRA-FA can always achieve close fine-tuning accuracy across different tasks compared to full parameter fine-tuning and LoRA. Furthermore, LoRA-FA can reduce the overall memory cost by up to 1.4$\times$ compared to LoRA.
翻訳日:2023-08-08 15:13:22 公開日:2023-08-07
# ChatGPTは何を読んだか? 生成人工知能応用による考古学的引用の起源

What has ChatGPT read? The origins of archaeological citations used by a generative artificial intelligence application ( http://arxiv.org/abs/2308.03301v1 )

ライセンス: Link先を確認
Dirk HR Spennemann(参考訳) ChatGPTのパブリックリリースは、かなり公開され、生成型AI言語モデルの有用性と能力について広く議論されている。 テキストソースからデータを抽出して要約し、それを人間のようなコンテキスト応答として提示する能力は、ユーザが質問するであろう質問に答えるための、極めて適したツールである。 本稿は,ChatGPTの訓練段階に含まれると思われる考古学文献を検証した。 ChatGPTが関連する参照を提供する一方で、大きな割合は虚偽であることが判明した。 生成AIモデルにより「記憶された」ソースのクローゼ分析を用いて,ChatGPTが真の参照の全文にアクセスできたことを証明できなかった。 ChatGPTが提供するすべての参照が本物であることが判明したことも、Wikipediaのページに引用されている。 これは、少なくとも一部のデータのソースがこれらのページにあることを強く示している。 データ品質との関連性について考察する。

The public release of ChatGPT has resulted in considerable publicity and has led to wide-spread discussion of the usefulness and capabilities of generative AI language models. Its ability to extract and summarise data from textual sources and present them as human-like contextual responses makes it an eminently suitable tool to answer questions users might ask. This paper tested what archaeological literature appears to have been included in ChatGPT's training phase. While ChatGPT offered seemingly pertinent references, a large percentage proved to be fictitious. Using cloze analysis to make inferences on the sources 'memorised' by a generative AI model, this paper was unable to prove that ChatGPT had access to the full texts of the genuine references. It can be shown that all references provided by ChatGPT that were found to be genuine have also been cited on Wikipedia pages. This strongly indicates that the source base for at least some of the data is found in those pages. The implications of this in relation to data quality are discussed.
翻訳日:2023-08-08 15:13:00 公開日:2023-08-07
# 覚えてますか? フェイクオーディオ検出のためのカタストロフィック・フォーミングの克服

Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection ( http://arxiv.org/abs/2308.03300v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Chuyuan Zhang(参考訳) 現在の偽音声検出アルゴリズムは、ほとんどのデータセットで有望なパフォーマンスを達成した。 しかし、異なるデータセットのオーディオを扱う場合、パフォーマンスは著しく低下する可能性がある。 破滅的な忘れを克服するための直交重み修正は、異なるデータセット間の真のオーディオの類似性を考慮していない。 この制限を克服するために、正規化適応重み修正(RAWM)と呼ばれる破滅的な忘れを克服するために、偽音声検出のための連続学習アルゴリズムを提案する。 検出ネットワークを微調整する場合,本手法は実発話と偽発話の比率に応じて重み付け方向を適応的に計算する。 適応的な修正方向により、ネットワークは古いモデルの知識を維持しながら、新しいデータセット上の偽の音声を効果的に検出し、破滅的な忘れを軽減できる。 また,異なる音響条件から収集した純音声は,その特徴分布に歪む可能性があるため,この点において,ネットワークに古い分布を記憶させるような正規化制約を導入する。 本手法は,音声の感情認識などの関連分野に容易に一般化できる。 また,複数のデータセットにまたがるアプローチを評価し,クロスデータセット実験において有意な性能改善を得た。

Current fake audio detection algorithms have achieved promising performances on most datasets. However, their performance may be significantly degraded when dealing with audio of a different dataset. The orthogonal weight modification to overcome catastrophic forgetting does not consider the similarity of genuine audio across different datasets. To overcome this limitation, we propose a continual learning algorithm for fake audio detection to overcome catastrophic forgetting, called Regularized Adaptive Weight Modification (RAWM). When fine-tuning a detection network, our approach adaptively computes the direction of weight modification according to the ratio of genuine utterances and fake utterances. The adaptive modification direction ensures the network can effectively detect fake audio on the new dataset while preserving its knowledge of old model, thus mitigating catastrophic forgetting. In addition, genuine audio collected from quite different acoustic conditions may skew their feature distribution, so we introduce a regularization constraint to force the network to remember the old distribution in this regard. Our method can easily be generalized to related fields, like speech emotion recognition. We also evaluate our approach across multiple datasets and obtain a significant performance improvement on cross-dataset experiments.
翻訳日:2023-08-08 15:12:45 公開日:2023-08-07
# 影響関数を用いた大規模言語モデル一般化の研究

Studying Large Language Model Generalization with Influence Functions ( http://arxiv.org/abs/2308.03296v1 )

ライセンス: Link先を確認
Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman(参考訳) 機械学習モデルにより良い可視性を持たせることで、関連するリスクを理解して軽減しようとすると、潜在的に価値のある証拠は次のようになる。 モデルのパラメータ(およびそれゆえその出力)は、与えられたシーケンスがトレーニングセットに追加された場合、どのように変化するか? 影響関数は小さなモデルに対する洞察を生み出すが、逆ヘッセンベクトル積 (IHVP) の計算が困難であるため、大規模言語モデル (LLM) への拡張は困難である。 固有値補正 kronecker-factored approximation curvature (ek-fac) 近似を用いて最大52億パラメータのllmまで影響関数をスケールする。 我々の実験では、IHVP計算が桁違い高速であるにもかかわらず、EK-FACは従来の影響関数推定器と同様の精度を達成している。 本研究では,tf-idfフィルタリングと問合せバッチ処理の2つのアルゴリズム手法について検討した。 影響関数を用いて,影響パターンのスパース性,スケールによる抽象化の増大,数学とプログラミングの能力,言語間一般化,ロールプレイング行動など,llmの一般化パターンを調査した。 多くの明らかに洗練された一般化形式にもかかわらず、意外な限界を識別する:キーフレーズの順序が反転すると、ほぼゼロに崩壊する。 全体として、影響関数は LLM の一般化特性を研究するための強力な新しいツールを与える。

When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
翻訳日:2023-08-08 15:12:28 公開日:2023-08-07
# DOMINO:マルチセンサ時系列データのためのドメイン不変超次元分類

DOMINO: Domain-invariant Hyperdimensional Classification for Multi-Sensor Time Series Data ( http://arxiv.org/abs/2308.03295v1 )

ライセンス: Link先を確認
Junyao Wang, Luke Chen, Mohammad Abdullah Al Faruque(参考訳) モノのインターネットの急速な進化とともに、多くの現実世界のアプリケーションは不均一に接続されたセンサーを使って時系列情報を捉えている。 エッジベースの機械学習(ML)手法は、しばしばローカルに収集されたデータを分析するために使用される。 しかし、データ駆動MLアプローチにおける根本的な問題は、分散シフトである。 モデルがトレーニング対象と異なるデータ分散上にデプロイされた場合、モデルのパフォーマンスが著しく低下する可能性がある。 さらに、より高度なディープニューラルネットワーク(DNN)が提案され、マルチセンサー時系列データにおける空間的および時間的依存関係をキャプチャし、今日のエッジデバイスの容量を超える計算資源を必要とする。 脳にインスパイアされた超次元コンピューティング(HDC)はエッジベースの学習のための軽量なソリューションとして導入されているが、既存のHDCも分散シフトの課題に対して脆弱である。 本稿では,ノイズの多いマルチセンサ時系列データにおける分散シフト問題に対処する新しいHDC学習フレームワークであるDOMINOを提案する。 DOMINOは高次元空間上での効率的かつ並列な行列演算を利用して、領域不変次元を動的に識別しフィルタリングする。 幅広いマルチセンサ時系列分類タスクについて評価したところ、DOMINOは最先端(SOTA)DNNベースのドメイン一般化技術よりも平均2.04%高い精度で達成でき、7.83倍高速トレーニングと26.94倍高速推論を実現している。 さらに重要なことは、DOMINOは部分的にラベル付けされ、高度に不均衡なデータから学習するときに、SOTA DNNよりも10.93倍高い堅牢性を提供する。

With the rapid evolution of the Internet of Things, many real-world applications utilize heterogeneously connected sensors to capture time-series information. Edge-based machine learning (ML) methodologies are often employed to analyze locally collected data. However, a fundamental issue across data-driven ML approaches is distribution shift. It occurs when a model is deployed on a data distribution different from what it was trained on, and can substantially degrade model performance. Additionally, increasingly sophisticated deep neural networks (DNNs) have been proposed to capture spatial and temporal dependencies in multi-sensor time series data, requiring intensive computational resources beyond the capacity of today's edge devices. While brain-inspired hyperdimensional computing (HDC) has been introduced as a lightweight solution for edge-based learning, existing HDCs are also vulnerable to the distribution shift challenge. In this paper, we propose DOMINO, a novel HDC learning framework addressing the distribution shift problem in noisy multi-sensor time-series data. DOMINO leverages efficient and parallel matrix operations on high-dimensional space to dynamically identify and filter out domain-variant dimensions. Our evaluation on a wide range of multi-sensor time series classification tasks shows that DOMINO achieves on average 2.04% higher accuracy than state-of-the-art (SOTA) DNN-based domain generalization techniques, and delivers 7.83x faster training and 26.94x faster inference. More importantly, DOMINO performs notably better when learning from partially labeled and highly imbalanced data, providing 10.93x higher robustness against hardware noises than SOTA DNNs.
翻訳日:2023-08-08 15:12:00 公開日:2023-08-07
# 対話システムは質問マークを使わずに適切な応答を生成することができるか? --質問票が対話システムに及ぼす影響の検討

Dialogue Systems Can Generate Appropriate Responses without the Use of Question Marks? -- Investigation of the Effects of Question Marks on Dialogue Systems ( http://arxiv.org/abs/2308.03293v1 )

ライセンス: Link先を確認
Tomoya Mizumoto, Takato Yamazaki, Katsumasa Yoshikawa, Masaya Ohagi, Toshiki Kawamoto and Toshinori Sato(参考訳) 個人が話し言葉に参加すると、テキストベースの会話で明らかな現象とは異なる様々な現象が観察される。 書き込まれたコミュニケーションは、一般的に質問マークを使用してクエリを示すが、話し言葉の会話では、クエリは文末の上昇イントネーションによってしばしば示される。 しかし、多数の音声認識エンジンは、認識されたクエリに質問マークを付加せず、音声対話システムを作成する際に課題を呈する。 具体的には、文末の質問マークがないことは、音声対話システムにおけるクエリに対する適切な応答の発生を妨げる可能性がある。 そこで,対話システムにおける質問マークの影響について検討し,その影響が示唆された。 さらに,対話システムに影響を与える発話の種類を決定するために,具体的な事例を分析した。

When individuals engage in spoken discourse, various phenomena can be observed that differ from those that are apparent in text-based conversation. While written communication commonly uses a question mark to denote a query, in spoken discourse, queries are frequently indicated by a rising intonation at the end of a sentence. However, numerous speech recognition engines do not append a question mark to recognized queries, presenting a challenge when creating a spoken dialogue system. Specifically, the absence of a question mark at the end of a sentence can impede the generation of appropriate responses to queries in spoken dialogue systems. Hence, we investigate the impact of question marks on dialogue systems, with the results showing that they have a significant impact. Moreover, we analyze specific examples in an effort to determine which types of utterances have the impact on dialogue systems.
翻訳日:2023-08-08 15:11:31 公開日:2023-08-07
# 断熱量子想像時間進化

Adiabatic quantum imaginary time evolution ( http://arxiv.org/abs/2308.03292v1 )

ライセンス: Link先を確認
Kasra Hejazi, Mario Motta, Garnet Kin-Lic Chan(参考訳) 本稿では,システムのハミルトニアンの下での量子イマジナリー時間発展を実装した断熱状態形成プロトコルを提案する。 元々の量子想像時間進化アルゴリズムとは異なり、断熱的な量子想像時間進化は、その実行中に量子状態トモグラフィーを必要とせず、標準断熱状態準備とは異なり、最終的なハミルトンはハミルトニアン系ではない。 代わりに、アルゴリズムは、想像上の時間発展状態の軌跡に従うことを保証する古典微分方程式を積分することで断熱ハミルトニアンを得る。 このプロトコルを限られたリソースを持つ量子アーキテクチャ上で実装できるヒューリスティックスを導入する。 我々は,1次元スピンモデルにおける古典的シミュレーションにより,このアルゴリズムの性能を探索し,そのコスト,性能,実装性を長期にわたって決定する本質的特徴を強調する。 このプロトコルの急速な収束とリソース要求の低さが、短期的な状態準備アプリケーションにとって魅力的なものであると主張している。

We introduce an adiabatic state preparation protocol which implements quantum imaginary time evolution under the Hamiltonian of the system. Unlike the original quantum imaginary time evolution algorithm, adiabatic quantum imaginary time evolution does not require quantum state tomography during its runtime, and unlike standard adiabatic state preparation, the final Hamiltonian is not the system Hamiltonian. Instead, the algorithm obtains the adiabatic Hamiltonian by integrating a classical differential equation that ensures that one follows the imaginary time evolution state trajectory. We introduce some heuristics that allow this protocol to be implemented on quantum architectures with limited resources. We explore the performance of this algorithm via classical simulations in a one-dimensional spin model and highlight essential features that determine its cost, performance, and implementability for longer times. We find competitive performance when compared to the original quantum imaginary time evolution, and argue that the rapid convergence of this protocol and its low resource requirements make it attractive for near-term state preparation applications.
翻訳日:2023-08-08 15:11:18 公開日:2023-08-07
# 音声分離のためのBGRUとGMMによる深絞りネットワークの改善

Improving Deep Attractor Network by BGRU and GMM for Speech Separation ( http://arxiv.org/abs/2308.03332v1 )

ライセンス: Link先を確認
Rawad Melhem, Assef Jafar, Riad Hamadeh(参考訳) Deep Attractor Network (DANet) は、双方向長短期記憶(BLSTM)を用いた音声分離分野における最先端技術であるが、DANetモデルの複雑さは非常に高い。 本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。 k-means以外のガウス混合モデル (gmm) をクラスタリングアルゴリズムとしてdanetに適用し, 複雑性を低減し, 学習速度と精度を向上させる。 本稿では,SDR (Signal to Distortion Ratio) ,SIR (Signal to Interference Ratio) ,SAR (Signal to Artifact Ratio) ,PESQ (Perceptual Evaluation Speech Quality) を用いて測定した。 TIMITコーパスの2つの話者混合データセットを用いて提案モデルの評価を行い,従来のDANetモデルよりも優れたSDRとPSSQの12.3dBと2.94のスコアを得た。 その他の改善は、パラメータ数と時間トレーニングのそれぞれ20.7%と17.9%であった。 このモデルはアラビア語の混合音声信号に適用され,結果が英語よりも良好であった。

Deep Attractor Network (DANet) is the state-of-the-art technique in speech separation field, which uses Bidirectional Long Short-Term Memory (BLSTM), but the complexity of the DANet model is very high. In this paper, a simplified and powerful DANet model is proposed using Bidirectional Gated neural network (BGRU) instead of BLSTM. The Gaussian Mixture Model (GMM) other than the k-means was applied in DANet as a clustering algorithm to reduce the complexity and increase the learning speed and accuracy. The metrics used in this paper are Signal to Distortion Ratio (SDR), Signal to Interference Ratio (SIR), Signal to Artifact Ratio (SAR), and Perceptual Evaluation Speech Quality (PESQ) score. Two speaker mixture datasets from TIMIT corpus were prepared to evaluate the proposed model, and the system achieved 12.3 dB and 2.94 for SDR and PESQ scores respectively, which were better than the original DANet model. Other improvements were 20.7% and 17.9% in the number of parameters and time training, respectively. The model was applied on mixed Arabic speech signals and the results were better than that in English.
翻訳日:2023-08-08 15:04:15 公開日:2023-08-07
# ネットワーク還元によるニューラルネットワーク検証の高速化

Expediting Neural Network Verification via Network Reduction ( http://arxiv.org/abs/2308.03330v1 )

ライセンス: Link先を確認
Yuyi Zhong, Ruiwei Wang, Siau-Cheng Khoo(参考訳) ネットワークが重要なアプリケーションで正しく機能することを保証するため、ディープニューラルネットワークの安全性を検証するための幅広い検証手法が提案されている。 しかし、多くのよく知られた検証ツールはまだ複雑なネットワークアーキテクチャと大きなネットワークサイズで苦労している。 本研究では,検証前の事前処理手法としてネットワーク低減手法を提案する。 提案手法は、安定なReLUニューロンを除去してニューラルネットワークを低減し、最も有効なツールで処理可能なReLU層とAffine層からなるシーケンシャルニューラルネットワークに変換する。 α-beta-crown, verinet, primaなど,最先端の完全かつ不完全な検証ツールでリダクション技術をインスタンス化する。 大規模ベンチマーク実験の結果,提案手法はニューラルネットワークを著しく削減し,既存の検証ツールを高速化できることが示唆された。 さらに,実験結果から,ネットワークの縮小により,複数のネットワーク上で既存の検証ツールの可用性が向上し,それらを逐次ニューラルネットワークに還元できることを示した。

A wide range of verification methods have been proposed to verify the safety properties of deep neural networks ensuring that the networks function correctly in critical applications. However, many well-known verification tools still struggle with complicated network architectures and large network sizes. In this work, we propose a network reduction technique as a pre-processing method prior to verification. The proposed method reduces neural networks via eliminating stable ReLU neurons, and transforming them into a sequential neural network consisting of ReLU and Affine layers which can be handled by the most verification tools. We instantiate the reduction technique on the state-of-the-art complete and incomplete verification tools, including alpha-beta-crown, VeriNet and PRIMA. Our experiments on a large set of benchmarks indicate that the proposed technique can significantly reduce neural networks and speed up existing verification tools. Furthermore, the experiment results also show that network reduction can improve the availability of existing verification tools on many networks by reducing them into sequential neural networks.
翻訳日:2023-08-08 15:03:29 公開日:2023-08-07
# 非暴力的コミュニケーション仲介のためのジェネレーティブAIトライアル

Generative AI trial for nonviolent communication mediation ( http://arxiv.org/abs/2308.03326v1 )

ライセンス: Link先を確認
Takeshi Kato(参考訳) 多様な価値観を持つ人々の自由と連帯性を組み合わせた混合生物社会を目指して,私は,社会分裂と紛争のさまざまな状況における思いやりの付与を可能にする非暴力的コミュニケーション(NVC)に注目し,そのために生成的AIを試した。 特にChatGPTは、従来の認定トレーナーの代わりに、4つのプロセス(観察、感情、ニーズ、要求)で入力文を仲介(修正)する可能性をテストするために使用された。 この結果から,まだ実用レベルには達していないが,生成AIの適用の可能性が示唆された。 推奨される改善ガイドラインには、モデル応答の追加、修正された応答の再学習、各プロセスに適した用語の指定、必要な情報の再入力が含まれる。 生成AIの使用は、最初は認定トレーナーを支援し、イベントやワークショップの準備とレビューを行い、将来はデジタル民主主義、プラットフォーム協力、サイバー人間による社会協力システムにおける合意形成と協調行動を支援するのに役立ちます。 生成型AIを用いたNVCメディエーションの普及が、ミックスバイオティクス社会の早期実現につながることが期待されている。

Aiming for a mixbiotic society that combines freedom and solidarity among people with diverse values, I focused on nonviolent communication (NVC) that enables compassionate giving in various situations of social division and conflict, and tried a generative AI for it. Specifically, ChatGPT was used in place of the traditional certified trainer to test the possibility of mediating (modifying) input sentences in four processes: observation, feelings, needs, and requests. The results indicate that there is potential for the application of generative AI, although not yet at a practical level. Suggested improvement guidelines included adding model responses, relearning revised responses, specifying appropriate terminology for each process, and re-asking for required information. The use of generative AI will be useful initially to assist certified trainers, to prepare for and review events and workshops, and in the future to support consensus building and cooperative behavior in digital democracy, platform cooperatives, and cyber-human social co-operating systems. It is hoped that the widespread use of NVC mediation using generative AI will lead to the early realization of a mixbiotic society.
翻訳日:2023-08-08 15:03:00 公開日:2023-08-07
# 一般化可能な人物識別のための部分認識変換器

Part-Aware Transformer for Generalizable Person Re-identification ( http://arxiv.org/abs/2308.03322v1 )

ライセンス: Link先を確認
Hao Ni, Yuke Li, Heng Tao Shen, Jingkuan Song(参考訳) ドメイン一般化者再識別(DG-ReID)は、ソースドメインのモデルをトレーニングし、見えないドメインでうまく一般化することを目的としている。 ビジョントランスフォーマーは通常、分布シフト下での一般的なcnnネットワークよりも優れた一般化能力をもたらす。 しかし、TransformerベースのReIDモデルは、ソースドメインの教師付き学習戦略のため、必然的にドメイン固有のバイアスに適合しない。 異なるidのグローバルイメージは異なる特徴を持つべきであるが、同様の局所的な部分(黒いバックパックなど)は、この制約によって拘束されない。 そこで本研究では,DG-ReID に共通する局所的な視覚情報をマイニングするために,CSL (Cross-ID similarity Learning) と呼ばれるプロキシタスクを設計することで,DG-ReID のための純粋なトランスフォーマーモデルを提案する。 このプロキシタスクは、IDラベルに関係なく部品の視覚的類似性のみを気にするので、モデルが汎用的な特徴を学習することができるため、ドメイン固有のバイアスの副作用を軽減することができる。 CSLで得られる局所的類似性に基づいて、グローバルな特徴の一般化をさらに向上するために、PSD(Part-guided Self-Distillation)を提案する。 提案手法は,ほとんどのDG ReID設定下での最先端性能を実現する。 Market$\to$Duke設定では、当社の手法は、それぞれランク1とmAPの10.9%、12.8%を超える。 コードはhttps://github.com/liyuke65535/Part-Aware-Transformerで入手できる。

Domain generalization person re-identification (DG-ReID) aims to train a model on source domains and generalize well on unseen domains. Vision Transformer usually yields better generalization ability than common CNN networks under distribution shifts. However, Transformer-based ReID models inevitably over-fit to domain-specific biases due to the supervised learning strategy on the source domain. We observe that while the global images of different IDs should have different features, their similar local parts (e.g., black backpack) are not bounded by this constraint. Motivated by this, we propose a pure Transformer model (termed Part-aware Transformer) for DG-ReID by designing a proxy task, named Cross-ID Similarity Learning (CSL), to mine local visual information shared by different IDs. This proxy task allows the model to learn generic features because it only cares about the visual similarity of the parts regardless of the ID labels, thus alleviating the side effect of domain-specific biases. Based on the local similarity obtained in CSL, a Part-guided Self-Distillation (PSD) is proposed to further improve the generalization of global features. Our method achieves state-of-the-art performance under most DG ReID settings. Under the Market$\to$Duke setting, our method exceeds state-of-the-art by 10.9% and 12.8% in Rank1 and mAP, respectively. The code is available at https://github.com/liyuke65535/Part-Aware-Transformer.
翻訳日:2023-08-08 15:02:37 公開日:2023-08-07
# AFN: Encoder-Decoder Frameworkによる適応核融合正規化

AFN: Adaptive Fusion Normalization via Encoder-Decoder Framework ( http://arxiv.org/abs/2308.03321v1 )

ライセンス: Link先を確認
Zikai Zhou, Huanran Chen(参考訳) ディープラーニングの成功は、正規化層とは区別できない。 研究者は様々な正規化関数を提案しており、それぞれに利点と欠点がある。 これに対し、すべての正規化手順を組み合わせて弱点を緩和する統一正規化関数を設計する努力がなされている。 また,Adaptive Fusion Normalizationと呼ばれる新しい正規化関数も提案した。 実験により,AFNは領域一般化や画像分類タスクにおいて,従来の正規化手法よりも優れていた。

The success of deep learning is inseparable from normalization layers. Researchers have proposed various normalization functions, and each of them has both advantages and disadvantages. In response, efforts have been made to design a unified normalization function that combines all normalization procedures and mitigates their weaknesses. We also proposed a new normalization function called Adaptive Fusion Normalization. Through experiments, we demonstrate AFN outperforms the previous normalization techniques in domain generalization and image classification tasks.
翻訳日:2023-08-08 15:02:14 公開日:2023-08-07
# クライアントレベル差分プライバシーを用いたバイナリフェデレーション学習

Binary Federated Learning with Client-Level Differential Privacy ( http://arxiv.org/abs/2308.03320v1 )

ライセンス: Link先を確認
Lumin Liu, Jun Zhang, Shenghui Song, Khaled B. Letaief(参考訳) フェデレートラーニング(FL)は、プライバシ保護のための協調学習フレームワークであり、プライバシ保護をさらに強化するために差分プライバシを適用することができる。 既存のFLシステムは、トレーニングアルゴリズムとしてフェデレーション平均(FedAvg)を採用し、ガウス機構で差分プライバシーを実装している。 しかしながら、これらのシステムの固有のプライバシーユーティリティトレードオフは、厳格なプライバシー予算が実施されれば、トレーニングパフォーマンスを著しく低下させる。 さらに、ガウス機構はモデル重みが高精度であることを要求する。 通信効率を向上し、プライバシー利用のトレードオフを改善するために、差分プライバシーを保証する通信効率の高いFLトレーニングアルゴリズムを提案する。 具体的には、バイナリニューラルネットワーク(BNN)を採用し、FL設定に離散ノイズを導入することを提案する。 バイナリモデルパラメータは高い通信効率のためにアップロードされ、クライアントレベルの差分プライバシー保護を実現するために離散ノイズが追加される。 達成された性能保証は厳密に証明され、離散ノイズのレベルに依存することが示されている。 MNISTとFashion-MNISTデータセットに基づく実験結果から,提案したトレーニングアルゴリズムは,バイナリモデル更新による通信オーバーヘッドの低さを享受しながら,クライアントレベルのプライバシ保護とパフォーマンス向上を実現する。

Federated learning (FL) is a privacy-preserving collaborative learning framework, and differential privacy can be applied to further enhance its privacy protection. Existing FL systems typically adopt Federated Average (FedAvg) as the training algorithm and implement differential privacy with a Gaussian mechanism. However, the inherent privacy-utility trade-off in these systems severely degrades the training performance if a tight privacy budget is enforced. Besides, the Gaussian mechanism requires model weights to be of high-precision. To improve communication efficiency and achieve a better privacy-utility trade-off, we propose a communication-efficient FL training algorithm with differential privacy guarantee. Specifically, we propose to adopt binary neural networks (BNNs) and introduce discrete noise in the FL setting. Binary model parameters are uploaded for higher communication efficiency and discrete noise is added to achieve the client-level differential privacy protection. The achieved performance guarantee is rigorously proved, and it is shown to depend on the level of discrete noise. Experimental results based on MNIST and Fashion-MNIST datasets will demonstrate that the proposed training algorithm achieves client-level privacy protection with performance gain while enjoying the benefits of low communication overhead from binary model updates.
翻訳日:2023-08-08 15:02:05 公開日:2023-08-07
# HomOpt: ホモトピーに基づくハイパーパラメータ最適化手法

HomOpt: A Homotopy-Based Hyperparameter Optimization Method ( http://arxiv.org/abs/2308.03317v1 )

ライセンス: Link先を確認
Sophia J. Abraham, Kehelwala D. G. Maduranga, Jeffery Kinnison, Zachariah Carmichael, Jonathan D. Hauenstein, Walter J. Scheirer(参考訳) 機械学習は、アルゴリズムのイノベーションと、大規模に利用可能な高品質なデータの組み合わせによって、過去数十年で驚くべき成功を収めてきた。 しかし、第3の重要な要素はハイパーパラメータの微調整であり、最適なモデル性能を達成する上で重要な役割を果たす。 その重要性にもかかわらず、ハイパーパラメータ最適化(HPO)はいくつかの理由から難しい課題である。 多くのHPO手法は単純探索法に依存し、損失関数が滑らかで連続であると仮定するが、必ずしもそうではないかもしれない。 グリッド探索やベイズ最適化のような伝統的な手法は、しばしば損失の風景を素早く適応し効率的に探索するのに苦労する。 グリッド探索は計算コストが高く、ベイズ最適化は素数に遅くなる。 HPOの探索空間はしばしば高次元かつ非凸であるため、大域的な最小値を見つけることはしばしば困難である。 さらに、最適なハイパーパラメータは特定のデータセットやタスクに敏感になり、検索プロセスはさらに複雑になる。 これらの問題に対処するために,一般化加法モデル(GAM)とホモトピー最適化を組み合わせたデータ駆動型アプローチを用いて,新しいハイパーパラメータ最適化法であるHomOptを提案する。 この戦略は、連続的、離散的、カテゴリー的領域空間における最適値へのより高速な収束で、任意のメソッドの性能と有効性を高める最適化手法を確立した。 複数の最適化手法(ランダムサーチ、TPE、ベイズ、SMACなど)に適用されたHomOptの有効性を比較し、多くの標準化された機械学習ベンチマークにおける客観的パフォーマンスの改善とオープンセット認識タスクへの挑戦を示す。

Machine learning has achieved remarkable success over the past couple of decades, often attributed to a combination of algorithmic innovations and the availability of high-quality data available at scale. However, a third critical component is the fine-tuning of hyperparameters, which plays a pivotal role in achieving optimal model performance. Despite its significance, hyperparameter optimization (HPO) remains a challenging task for several reasons. Many HPO techniques rely on naive search methods or assume that the loss function is smooth and continuous, which may not always be the case. Traditional methods, like grid search and Bayesian optimization, often struggle to quickly adapt and efficiently search the loss landscape. Grid search is computationally expensive, while Bayesian optimization can be slow to prime. Since the search space for HPO is frequently high-dimensional and non-convex, it is often challenging to efficiently find a global minimum. Moreover, optimal hyperparameters can be sensitive to the specific dataset or task, further complicating the search process. To address these issues, we propose a new hyperparameter optimization method, HomOpt, using a data-driven approach based on a generalized additive model (GAM) surrogate combined with homotopy optimization. This strategy augments established optimization methodologies to boost the performance and effectiveness of any given method with faster convergence to the optimum on continuous, discrete, and categorical domain spaces. We compare the effectiveness of HomOpt applied to multiple optimization techniques (e.g., Random Search, TPE, Bayes, and SMAC) showing improved objective performance on many standardized machine learning benchmarks and challenging open-set recognition tasks.
翻訳日:2023-08-08 15:01:42 公開日:2023-08-07
# 確率的プロセス環境のためのディープQネットワーク

Deep Q-Network for Stochastic Process Environments ( http://arxiv.org/abs/2308.03316v1 )

ライセンス: Link先を確認
Kuangheng He(参考訳) 強化学習は、与えられたシステムの複雑な問題を解決するための最適な政策を訓練するための強力なアプローチである。 本研究は,flappy birdと新しく開発された株式取引環境を事例として,情報不足の確率的プロセス環境における強化学習の適用を実証することを目的とする。 深層q学習ネットワークの様々な構造を評価し,確率的プロセス環境に最も適した変種を同定する。 さらに,現状の課題を議論し,環境構築と強化学習技術のさらなる開発に向けた潜在的な改善を提案する。

Reinforcement learning is a powerful approach for training an optimal policy to solve complex problems in a given system. This project aims to demonstrate the application of reinforcement learning in stochastic process environments with missing information, using Flappy Bird and a newly developed stock trading environment as case studies. We evaluate various structures of Deep Q-learning networks and identify the most suitable variant for the stochastic process environment. Additionally, we discuss the current challenges and propose potential improvements for further work in environment-building and reinforcement learning techniques.
翻訳日:2023-08-08 15:01:16 公開日:2023-08-07
# GPTとプログラム分析:GPTScanにおけるスマートコントラクト論理脆弱性のインテリジェント検出に向けて

When GPT Meets Program Analysis: Towards Intelligent Detection of Smart Contract Logic Vulnerabilities in GPTScan ( http://arxiv.org/abs/2308.03314v1 )

ライセンス: Link先を確認
Yuqiang Sun, Daoyuan Wu, Yue Xue, Han Liu, Haijun Wang, Zhengzi Xu, Xiaofei Xie, Yang Liu(参考訳) スマートコントラクトはさまざまな脆弱性が発生しやすいため、時間とともに大きな損失を被ります。 現在の分析ツールは、主に、固定されたコントロールや再エントレランスや整数オーバーフローといったデータフローパターンによる脆弱性をターゲットにしている。 しかし、Web3セキュリティバグに関する最近の調査では、ドメイン固有のプロパティ記述やチェックの欠如により、これらのバグの約80%が既存のツールで監査できないことが明らかになった。 Generative Pretraining Transformer (GPT)の最近の進歩を考えると、GPTがスマートコントラクトにおける論理的脆弱性の検出にどのように役立つかを検討する価値がある。 本稿では,gptと静的解析を組み合わせた初のスマートコントラクトロジック脆弱性検出ツールであるgptscanを提案する。 GPTの事前訓練された知識によって制限される脆弱性を識別するためにのみGPTに頼るのではなく、汎用的なコード理解ツールとしてGPTを利用する。 各ロジックの脆弱性タイプをシナリオとプロパティに分割することで、GPTScanは候補の脆弱性とGPTをマッチさせる。 GPTScanはさらに、GPTにキー変数とステートメントをインテリジェントに認識するよう指示し、静的確認によって検証する。 約400のコントラクトプロジェクトと3K Solidityファイルを持つ多様なデータセットの評価によると、GPTScanはトークンコントラクトの高精度(90%以上)と、Web3Bugsのような大規模プロジェクトの許容精度(57.14%)を達成する。 人間の監査官が見逃した9つの新たな脆弱性を含む80%以上のリコールで、基盤となるロジックの脆弱性を効果的に検出する。 GPTScanは高速で費用対効果があり、平均14.39秒と0.01 USDで1000行のSolidityコードをスキャンする。 さらに、静的な確認はGPTSが偽陽性の3分の2を減らすのに役立つ。

Smart contracts are prone to various vulnerabilities, leading to substantial financial losses over time. Current analysis tools mainly target vulnerabilities with fixed control or dataflow patterns, such as re-entrancy and integer overflow. However, a recent study on Web3 security bugs revealed that about 80% of these bugs cannot be audited by existing tools due to the lack of domain-specific property description and checking. Given recent advances in Generative Pretraining Transformer (GPT), it is worth exploring how GPT could aid in detecting logic vulnerabilities in smart contracts. In this paper, we propose GPTScan, the first tool combining GPT with static analysis for smart contract logic vulnerability detection. Instead of relying solely on GPT to identify vulnerabilities, which can lead to high false positives and is limited by GPT's pre-trained knowledge, we utilize GPT as a versatile code understanding tool. By breaking down each logic vulnerability type into scenarios and properties, GPTScan matches candidate vulnerabilities with GPT. To enhance accuracy, GPTScan further instructs GPT to intelligently recognize key variables and statements, which are then validated by static confirmation. Evaluation on diverse datasets with around 400 contract projects and 3K Solidity files shows that GPTScan achieves high precision (over 90%) for token contracts and acceptable precision (57.14%) for large projects like Web3Bugs. It effectively detects groundtruth logic vulnerabilities with a recall of over 80%, including 9 new vulnerabilities missed by human auditors. GPTScan is fast and cost-effective, taking an average of 14.39 seconds and 0.01 USD to scan per thousand lines of Solidity code. Moreover, static confirmation helps GPTScan reduce two-thirds of false positives.
翻訳日:2023-08-08 15:01:08 公開日:2023-08-07
# 大規模言語モデルが集合オピニオンダイナミクスに及ぼす影響の定量化

Quantifying the Impact of Large Language Models on Collective Opinion Dynamics ( http://arxiv.org/abs/2308.03313v1 )

ライセンス: Link先を確認
Chao Li, Xing Su, Chao Fan, Haoying Han, Cong Xue, Chunmo Zheng(参考訳) 意見表現と交換のプロセスは民主主義社会の重要な要素である。 従来のメディアと異なる意見形成過程において、人々は大きな言語モデル(LLM)と相互作用するので、LLMの影響はますます認識され、懸念されている。 しかし、LLMが意見表現や社会的意見ネットワークの交換の過程にどのように影響するかについての知識は限られている。 そこで我々は, LLMの意見, 認知的受容性, 利用戦略をエンコードする意見ネットワークダイナミクスモデルを作成し, 様々なシナリオにおいて, LLMが意見ダイナミクスに与える影響をシミュレートする。 シミュレーションの結果は、効果的な需要指向の意見ネットワーク介入を知らせる。 本研究の結果から, LLMのアウトプットは, 集団的意見差に一意かつ肯定的な影響を及ぼすことが明らかとなった。 認知受容性の集団的意見形成に対する限界効果は非線形であり、減少傾向を示す。 LLMに部分的に依存すると、意見交換のプロセスがより激しくなり、意見の多様性がより有利になる。 実際、LLMの使用を全面的に禁止するよりも、人々が部分的にLLMに依存している場合、38.6%の意見の多様性がある。 意見の最適な多様性は、使用せず、部分的に頼りで、完全にllmに頼らない人の割合がおよそ4:12:1に達したときに発見された。 我々の実験は、反対/中立/ランダムの意見を持つ追加のエージェントを導入することで、LLMの偏りや有害な出力の影響を効果的に軽減できることを示した。 本研究は,LLM の時代における意見力学に関する貴重な知見を提供し,不適切な出力の欠点と LLM の使用に対処するために,特定のシナリオに合わせたカスタマイズされた介入の必要性を強調した。

The process of opinion expression and exchange is a critical component of democratic societies. As people interact with large language models (LLMs) in the opinion shaping process different from traditional media, the impacts of LLMs are increasingly recognized and being concerned. However, the knowledge about how LLMs affect the process of opinion expression and exchange of social opinion networks is very limited. Here, we create an opinion network dynamics model to encode the opinions of LLMs, cognitive acceptability and usage strategies of individuals, and simulate the impact of LLMs on opinion dynamics in a variety of scenarios. The outcomes of the simulations inform about effective demand-oriented opinion network interventions. The results from this study suggested that the output opinion of LLMs has a unique and positive effect on the collective opinion difference. The marginal effect of cognitive acceptability on collective opinion formation is nonlinear and shows a decreasing trend. When people partially rely on LLMs, the exchange process of opinion becomes more intense and the diversity of opinion becomes more favorable. In fact, there is 38.6% more opinion diversity when people all partially rely on LLMs, compared to prohibiting the use of LLMs entirely. The optimal diversity of opinion was found when the fractions of people who do not use, partially rely on, and fully rely on LLMs reached roughly 4:12:1. Our experiments also find that introducing extra agents with opposite/neutral/random opinions, we can effectively mitigate the impact of biased/toxic output from LLMs. Our findings provide valuable insights into opinion dynamics in the age of LLMs, highlighting the need for customized interventions tailored to specific scenarios to address the drawbacks of improper output and use of LLMs.
翻訳日:2023-08-08 15:00:37 公開日:2023-08-07
# CBCT-to-CT合成のためのエネルギー誘導拡散モデル

Energy-Guided Diffusion Model for CBCT-to-CT Synthesis ( http://arxiv.org/abs/2308.03354v1 )

ライセンス: Link先を確認
Linjie Fu, Xia Li, Xiuding Cai, Dong Miao, Yu Yao and Yali Shen(参考訳) コーンビームCT(CBCT)は、臓器解剖が変化した場合の放射線治療を正確に行うことにより、適応放射線療法(ART)において重要な役割を担っている。 しかし,CBCT画像は散乱ノイズやアーティファクトに悩まされており,正確な線量計算や組織局在の精度にCBCTのみを頼っている。 したがって、解剖学的構造を保ちながらCBCT画質とハウンズフィールドユニット(HU)の精度を向上させる必要がある。 ARTにおけるCBCTの役割と応用価値を高めるために,エネルギー誘導拡散モデル(EGDiff)を提案し,胸部腫瘍データセットを用いてCBCTから合成CT(sCT)を生成する実験を行った。 実験結果は、平均絶対誤差26.87$\pm$6.14 HU、構造類似度指数0.850$\pm$0.03、ピーク信号対雑音比19.83$\pm$1.39 dB、正規化相互相関0.874$\pm$0.04で印象的な性能を示した。 これらの結果から,本手法は精度と画質において最先端の教師なし合成法よりも優れており,優れたsct画像が得られた。

Cone Beam CT (CBCT) plays a crucial role in Adaptive Radiation Therapy (ART) by accurately providing radiation treatment when organ anatomy changes occur. However, CBCT images suffer from scatter noise and artifacts, making relying solely on CBCT for precise dose calculation and accurate tissue localization challenging. Therefore, there is a need to improve CBCT image quality and Hounsfield Unit (HU) accuracy while preserving anatomical structures. To enhance the role and application value of CBCT in ART, we propose an energy-guided diffusion model (EGDiff) and conduct experiments on a chest tumor dataset to generate synthetic CT (sCT) from CBCT. The experimental results demonstrate impressive performance with an average absolute error of 26.87$\pm$6.14 HU, a structural similarity index measurement of 0.850$\pm$0.03, a peak signal-to-noise ratio of the sCT of 19.83$\pm$1.39 dB, and a normalized cross-correlation of the sCT of 0.874$\pm$0.04. These results indicate that our method outperforms state-of-the-art unsupervised synthesis methods in accuracy and visual quality, producing superior sCT images.
翻訳日:2023-08-08 14:54:06 公開日:2023-08-07
# SciGraphQA: 科学グラフのための大規模多段階質問回答データセット

SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs ( http://arxiv.org/abs/2308.03349v1 )

ライセンス: Link先を確認
Shengzhi Li, Nima Tajbakhsh(参考訳) 本研究では,学術グラフに関連する多ターン質問応答データセットであるSciGraphQAを提案する。 SciGraphQAは、以前最大のチャート視覚質問回答データセットであるChartVQAの13倍の大きさである。 また、非合成チャートを持つ最大のオープンソースチャートVQAデータセットでもある。 データセットを構築するために、2010年から2020年にかけて発行された290,000のコンピュータサイエンスまたは機械学習ArXiv論文を選択し、Palm-2を使用して、グラフに関するオープン語彙のマルチターン質問回答対話の295万のサンプルを生成しました。 文脈として,テキストのみのPalm-2に紙のタイトル,要約,グラフを参照する段落,グラフ自体からのリッチテキストのコンテキストデータを提供し,各グラフの平均2.23質問回答ターンの対話を得た。 我々はgpt-4に3kテストセットで平均8.7/10の評価を得た。 我々は,LLaVa,mPLUGowl,BLIP-2,openFlamingoなどのMLLMモデルにおいて,CIDErスコアが0.08のLLaVA-13Bが最も高性能であることを示す。 さらに、DePlotモデルを用いてグラフから抽出したシリアライズされたデータテーブルを含め、LLAVAの0ショットCIDErを0.15に向上させることにより、LLAVAの質問プロンプトをさらに強化した。 また,データセットの有効性を検証するために,データセットを用いてLLaVaを微調整し,CIDErスコア0.26に到達した。 我々は,セグメンテーションマスクトークンと,創発的プロンプト技術と組み合わせたより大きなLCMバックボーンを活用することにより,さらなる精度向上を期待する。 私たちのコードとデータはオープンソースです。

In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper's context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.
翻訳日:2023-08-08 14:53:42 公開日:2023-08-07
# 協調色化:NIR画像スペクトル変換のための潜在クロスドメイン先行探索

Cooperative Colorization: Exploring Latent Cross-Domain Priors for NIR Image Spectrum Translation ( http://arxiv.org/abs/2308.03348v1 )

ライセンス: Link先を確認
Xingxing Yang, Jie Chen, Zaifeng Yang(参考訳) 近赤外線(NIR)画像スペクトル変換は多くの有望な応用において難しい問題である。 既存の手法は、NIRとRGBドメイン間のマッピングの曖昧さに悩まされており、モデルの学習能力の限界と、トレーニングに十分なNIR-RGBイメージペアの有効性のために、一般化が不十分である。 これらの課題に対処するため、我々はCoColorと呼ばれる潜在スペクトルコンテキスト先行とタスク領域先行を探索し、NIR画像を別のプロキシグレースケールカラー化タスクと並行して色づけする協調学習パラダイムを提案する。 これら2つのタスクドメイン(事前学習された色付けネットワークの形式で)からの補完的な統計および意味スペクトル情報は、タスクドメインの先行として持ち込まれる。 その後、2つのドメイン翻訳モジュールが設計され、間欠的なNIR画像がグレースケールから生成され、真のNIR画像と並行して色付けされる。 これらの断続変換は、効率的なドメイン知識交換のための潜在スペクトル文脈として機能する。 段階的にこれらのモジュールをピクセルレベルと機能レベルの一貫性の制約によって微調整し、融合します。 実験により,提案した協調学習フレームワークは,多彩な色と豊かなテクスチャを持つ良好なスペクトル変換出力を生成し,NIRとグレースケールのカラー化タスクのPNSRで最先端の3.95dBと4.66dBを上回った。

Near-infrared (NIR) image spectrum translation is a challenging problem with many promising applications. Existing methods struggle with the mapping ambiguity between the NIR and the RGB domains, and generalize poorly due to the limitations of models' learning capabilities and the unavailability of sufficient NIR-RGB image pairs for training. To address these challenges, we propose a cooperative learning paradigm that colorizes NIR images in parallel with another proxy grayscale colorization task by exploring latent cross-domain priors (i.e., latent spectrum context priors and task domain priors), dubbed CoColor. The complementary statistical and semantic spectrum information from these two task domains -- in the forms of pre-trained colorization networks -- are brought in as task domain priors. A bilateral domain translation module is subsequently designed, in which intermittent NIR images are generated from grayscale and colorized in parallel with authentic NIR images; and vice versa for the grayscale images. These intermittent transformations act as latent spectrum context priors for efficient domain knowledge exchange. We progressively fine-tune and fuse these modules with a series of pixel-level and feature-level consistency constraints. Experiments show that our proposed cooperative learning framework produces satisfactory spectrum translation outputs with diverse colors and rich textures, and outperforms state-of-the-art counterparts by 3.95dB and 4.66dB in terms of PNSR for the NIR and grayscale colorization tasks, respectively.
翻訳日:2023-08-08 14:53:10 公開日:2023-08-07
# 絡み合いと量子テレポーテーションに基づく並列分散量子SATソルバ

A Parallel and Distributed Quantum SAT Solver Based on Entanglement and Quantum Teleportation ( http://arxiv.org/abs/2308.03344v1 )

ライセンス: Link先を確認
Shang-Wei Lin, Tzu-Fan Wang, Yean-Ru Chen, Zhe Hou, David San\'an, Yon Shin Teo(参考訳) boolean satisfiability (sat) はコンピュータ科学における根本的な問題である。 SAT問題解決のための効率的なアルゴリズムを見つけることは、コンピュータ科学など多くの分野において幅広い意味を持つ。 量子SATソルバはGroverのアルゴリズムに基づく文献で提案されている。 既存の量子satソルバは、全ての可能な入力を一度に考慮することができるが、式の各節を1つずつ順次評価し、時間複雑性o(m) -- グルーバー反復当たりの節数に線形である。 本研究では,線形時間 o(m) から定数時間 o(1) への各イテレーションの時間複雑性を,余剰エンタングル量子ビットを用いて削減する並列量子satソルバを開発した。 極端に大きな問題が発生した場合、我々のソリューションのスケーラビリティをさらに向上するため、提案した並列SATソルバの分散バージョンを量子テレポーテーションに基づいて開発し、必要な全量子ビットを複数の量子コンピュータ(ノード)間で共有分散し、量子SATソルバを全ノードで協調的に実現した。 我々は、我々のアプローチの正しさを証明し、シミュレーションでそれらを実証した。

Boolean satisfiability (SAT) solving is a fundamental problem in computer science. Finding efficient algorithms for SAT solving has broad implications in many areas of computer science and beyond. Quantum SAT solvers have been proposed in the literature based on Grover's algorithm. Although existing quantum SAT solvers can consider all possible inputs at once, they evaluate each clause in the formula one by one sequentially, making the time complexity O(m) -- linear to the number of clauses m -- per Grover iteration. In this work, we develop a parallel quantum SAT solver, which reduces the time complexity in each iteration from linear time O(m) to constant time O(1) by utilising extra entangled qubits. To further improve the scalability of our solution in case of extremely large problems, we develop a distributed version of the proposed parallel SAT solver based on quantum teleportation such that the total qubits required are shared and distributed among a set of quantum computers (nodes), and the quantum SAT solving is accomplished collaboratively by all the nodes. We have proved the correctness of our approaches and demonstrated them in simulations.
翻訳日:2023-08-08 14:52:42 公開日:2023-08-07
# G\"オーデリア的視点からのベルトルマンの靴下

Bertlmann's socks from a G\"odelian perspective ( http://arxiv.org/abs/2308.03341v1 )

ライセンス: Link先を確認
Marcello Poletti(参考訳) 量子力学(Quantum mechanics)は、反直観的であるのと同じくらい効果的である理論である。 量子的な実践は不可解に作用するが、状態ベクトルの崩壊や非局所性のような謎めいた現象を我々に受け入れさせ、その結果、持続不可能な「非フィンゴ」のスタンスへと押し上げる。 しかし、その誕生から1世紀後、1974年にホイーラーによって近似された有望な解釈キーが提示された。 この理論の解釈的パラドックスは、論理的不決定性と量子的不決定性の関係を見極めれば解決されるかもしれない。 両者が観測者/観測された関係問題とどのように密接に結びついているか、また量子物理学の慣用的な振る舞いが、この経路に従う規範とどのように一致しているかを示す。

Quantum mechanics is a theory that is as effective as it is counterintuitive. While quantum practices operate impeccably, they compel us to embrace enigmatic phenomena like the collapse of the state vector and non-locality, thereby pushing us towards untenable "hypotheses non fingo" stances. However, a century after its inception, we are presented with a promising interpretive key, intimated by Wheeler as early as 1974. The interpretative paradoxes of this theory might be resolved if we discern the relationship between logical undecidability and quantum undecidability. It will be demonstrated how both are intricately linked to an observer/observed relational issue, and how the idiosyncratic behaviours of quantum physics can be reconciled with the normative, following this path.
翻訳日:2023-08-08 14:52:22 公開日:2023-08-07
# 周波数領域のコントラスト学習を併用したハイブリッドCNN変換器アーキテクチャ

A Hybrid CNN-Transformer Architecture with Frequency Domain Contrastive Learning for Image Deraining ( http://arxiv.org/abs/2308.03340v1 )

ライセンス: Link先を確認
Cheng Wang and Wei Li(参考訳) image derainingは、雨の嵐で劣化した画像を復元する難しいタスクです。

Image deraining is a challenging task that involves restoring degraded images affected by rain streaks.
翻訳日:2023-08-08 14:52:06 公開日:2023-08-07
# ルジャンドルとチェビシェフによるフォルクナー・スカン型方程式の解法

Solving Falkner-Skan type equations via Legendre and Chebyshev Neural Blocks ( http://arxiv.org/abs/2308.03337v1 )

ライセンス: Link先を確認
Alireza Afzal Aghaei, Kourosh Parand, Ali Nikkhah, Shakila Jaberi(参考訳) 本稿では,非線形なfalkner-skan方程式を解くための新しいディープラーニングアーキテクチャを提案する。 LegendreとChebyshevのニューラルネットワークブロックを用いて、ニューラルネットワークの近似能力を高めるために直交多項式をどのように使用できるかを示す。 さらに,これらの関数の数学的特性を利用して,導関数の演算行列を用いて,バックプロパゲーションアルゴリズムの計算複雑性を克服する。 提案手法の効率は,falkner-skan方程式の様々な構成をシミュレートして行った。

In this paper, a new deep-learning architecture for solving the non-linear Falkner-Skan equation is proposed. Using Legendre and Chebyshev neural blocks, this approach shows how orthogonal polynomials can be used in neural networks to increase the approximation capability of artificial neural networks. In addition, utilizing the mathematical properties of these functions, we overcome the computational complexity of the backpropagation algorithm by using the operational matrices of the derivative. The efficiency of the proposed method is carried out by simulating various configurations of the Falkner-Skan equation.
翻訳日:2023-08-08 14:52:03 公開日:2023-08-07
# 重力ポテンシャル推定における有限サイズ光学格子時計の標準量子限界

Standard quantum limit of finite-size optical lattice clock in estimating gravitational potential ( http://arxiv.org/abs/2308.03335v1 )

ライセンス: Link先を確認
Fumiya Nishimura, Yui Kuramochi, Kazuhiro Yamamoto(参考訳) 本研究では,光格子時計を用いた重力ポテンシャル推定の精度限界を量子クレーブ(r-raoバウンド)を用いて評価した。 次に、単層および多層光学格子クロックの結果を比較した。 その結果, 有限サイズの光格子時計を用いた重力ポテンシャル推定値のばらつきの下限は時間関数として散逸し, 繰り返し回復することがわかった。 すなわち、重力ポテンシャル推定の精度は、有限サイズの光格子時計における重力減衰の影響による時間の単調関数ではない。 さらに、この効果は、下界のばらつきを回避しようとする場合に、推定精度限界を生成する。 光格子クロックの層数が十分に大きい場合、その限界は光格子クロックの詳細とは独立である。 この限界に達するのに必要な時間は、地球の重力によって100万カドミウム原子からなる3次元の光学格子時計で約33時間と計算され、他の原子ではほぼ同じである。

We evaluated the accuracy limit for estimating gravitational potential using optical lattice clocks by utilizing the quantum Cram\'{e}r--Rao bound. We then compared the results for single-layer and multilayer optical lattice clocks. The results indicate that the lower bound of variance of the estimator of gravitational potential using finite-size optical lattice clocks diverges and recovers repeatedly as a function of time. Namely, the accuracy of the gravitational potential estimation is not a monotonic function of time owing to the effect of gravitational dephasing in finite-size optical lattice clock. Further, this effect creates an estimation accuracy limit when attempting to avoid the divergence of the lower bound. When the number of layers in the optical lattice clock is sufficiently large, the limit is independent of the optical lattice clock details. The time required to reach this limit is calculated to be approximately 33 hours for a three-dimensional optical lattice clock consisting of one million cadmium atoms due to Earth's gravity, and approximately the same for other atoms.
翻訳日:2023-08-08 14:51:51 公開日:2023-08-07
# 量子多体電池のエルゴトロピー推定のための変分量子アルゴリズム

Variational quantum algorithm for ergotropy estimation in quantum many-body batteries ( http://arxiv.org/abs/2308.03334v1 )

ライセンス: Link先を確認
Duc Tuan Hoang, Friederike Metz, Andreas Thomasen, Tran Duong Anh-Tai, Thomas Busch and Thom\'as Fogarty(参考訳) 量子バッテリは、従来のバッテリよりも優れた性能を持つ可能性があると予測されているため、量子技術の発展において重要な要素である。 本研究では,ノイズ・中間スケール量子(nisq)デバイス上での多体量子電池の帯電過程と作業抽出をシミュレーションし,電池からの作業抽出を最大化する最適ユニタリ操作を求める変分量子エルゴトロピー(vqergo)アルゴリズムを考案する。 横磁場イジングダイナミクス中の量子電池のエルゴトロピーを計算してvqergoをテストする。 システムサイズや充電時間が異なるバッテリを調査し,理想的なシミュレータとノイズシミュレータを用いて変動最適化の最小回路深度を解析した。 最後に、VQErgoアルゴリズムの一部を最適化し、IBMの量子デバイス上のエルゴトロピーを計算する。

Quantum batteries are predicted to have the potential to outperform their classical counterparts and are therefore an important element in the development of quantum technologies. In this work we simulate the charging process and work extraction of many-body quantum batteries on noisy-intermediate scale quantum (NISQ) devices, and devise the Variational Quantum Ergotropy (VQErgo) algorithm which finds the optimal unitary operation that maximises work extraction from the battery. We test VQErgo by calculating the ergotropy of a quantum battery undergoing transverse field Ising dynamics. We investigate the battery for different system sizes and charging times and analyze the minimum required circuit depth of the variational optimization using both ideal and noisy simulators. Finally, we optimize part of the VQErgo algorithm and calculate the ergotropy on one of IBM's quantum devices.
翻訳日:2023-08-08 14:51:37 公開日:2023-08-07
# 不均一知識融合 : LLMによる個人化勧告の新しいアプローチ

Heterogeneous Knowledge Fusion: A Novel Approach for Personalized Recommendation via LLM ( http://arxiv.org/abs/2308.03333v1 )

ライセンス: Link先を確認
Bin Yin, Junjie Xie, Yu Qin, Zixiang Ding, Zhichao Feng, Xiang Li, Wei Lin(参考訳) ユーザの異種行動の分析とマイニングは,レコメンデーションシステムにおいて極めて重要である。 しかし、様々な異種行動をレコメンデーションモデルに組み込む従来の手法は、特徴の空間性と知識の断片化の問題を引き起こす。 この課題に対処するために,ユーザの異種行動情報から異種知識を抽出し,融合させることにより,Large Language Model (LLM) を用いたパーソナライズドレコメンデーションのための新しいアプローチを提案する。 さらに、異種知識とレコメンデーションタスクを組み合わせることで、パーソナライズされたレコメンデーションのためにLLM上で指導チューニングを行う。 実験の結果,提案手法はユーザの不均一な振る舞いを効果的に統合し,レコメンデーション性能を大幅に向上できることがわかった。

The analysis and mining of user heterogeneous behavior are of paramount importance in recommendation systems. However, the conventional approach of incorporating various types of heterogeneous behavior into recommendation models leads to feature sparsity and knowledge fragmentation issues. To address this challenge, we propose a novel approach for personalized recommendation via Large Language Model (LLM), by extracting and fusing heterogeneous knowledge from user heterogeneous behavior information. In addition, by combining heterogeneous knowledge and recommendation tasks, instruction tuning is performed on LLM for personalized recommendations. The experimental results demonstrate that our method can effectively integrate user heterogeneous behavior and significantly improve recommendation performance.
翻訳日:2023-08-08 14:51:20 公開日:2023-08-07
# 筋骨格トレーニングを刺激するvrによる身体追跡

VR-based body tracking to stimulate musculoskeletal training ( http://arxiv.org/abs/2308.03375v1 )

ライセンス: Link先を確認
M. Neidhardt, S. Gerlach F. N. Schmidt, I. A. K. Fiedler, S. Grube, B. Busse, and A. Schlaefer(参考訳) トレーニングは、十分な筋機能、身体制御、身体調整の維持と改善に役立つ。 これらは転倒による骨折のリスクを低減するために重要であり、特に高齢者や怪我から回復した人々にとって重要である。 バーチャルリアリティートレーニングは、コスト効率が高く個人化されたトレーニング体験を提供する。 本稿では,高齢者や障害者の筋骨格トレーニングを可能とし,自律的なトレーニングと自動進行評価を可能にするHoloLens 2の応用について述べる。 バランスと身体制御を刺激するために,身体運動によって制御される仮想ダウンヒルスキーシナリオを設計した。 スキー場のパラメータを適応させることで,個々のユーザに対してトレーニングの強度を調整できる。 本研究では,HoloLens 2単独の運動データが筋骨格トレーニング中の体の動きと関節角度を制御・予測するのに十分かどうかを評価する。 10名の健常者の動きを外部追跡カメラで記録し,訓練中の参加者の身体と関節の角度を追跡した。 HoloLens2の運動データから、相関係数を推定し、全身運動を導出できるかどうかを系統的に分析する。 運動障害の影響は報告されておらず、スキー中に素早く相互作用し、運動を制御することができた。 その結果,hololens 2 運動データと上肢運動の外部追跡と下肢関節角度との間に高い相関関係が認められた。

Training helps to maintain and improve sufficient muscle function, body control, and body coordination. These are important to reduce the risk of fracture incidents caused by falls, especially for the elderly or people recovering from injury. Virtual reality training can offer a cost-effective and individualized training experience. We present an application for the HoloLens 2 to enable musculoskeletal training for elderly and impaired persons to allow for autonomous training and automatic progress evaluation. We designed a virtual downhill skiing scenario that is controlled by body movement to stimulate balance and body control. By adapting the parameters of the ski slope, we can tailor the intensity of the training to individual users. In this work, we evaluate whether the movement data of the HoloLens 2 alone is sufficient to control and predict body movement and joint angles during musculoskeletal training. We record the movements of 10 healthy volunteers with external tracking cameras and track a set of body and joint angles of the participant during training. We estimate correlation coefficients and systematically analyze whether whole body movement can be derived from the movement data of the HoloLens 2. No participant reports movement sickness effects and all were able to quickly interact and control their movement during skiing. Our results show a high correlation between HoloLens 2 movement data and the external tracking of the upper body movement and joint angles of the lower limbs.
翻訳日:2023-08-08 14:43:43 公開日:2023-08-07
# クラス増分学習のための不均一な予測補償

Heterogeneous Forgetting Compensation for Class-Incremental Learning ( http://arxiv.org/abs/2308.03374v1 )

ライセンス: Link先を確認
Jiahua Dong, Wenqi Liang, Yang Cong, Gan Sun(参考訳) クラスインクリメンタルラーニング (CIL) は, 過去のカテゴリーにおける破滅的な忘れを克服しつつ, 新しいクラスを連続的に学習する上で, 顕著な成功を収めた。 しかし、既存のCIL法の多くは、すべての古いカテゴリが同じ忘れるペースを持ち、異なる古いクラス間で不均一性を忘れることによる負の影響を無視していると不当に仮定している。 上記の課題を克服するため,我々は,表現面と勾配面の両方から,忘れやすい,忘れにくい古いカテゴリのヘテロジニアスな忘れることを解決できる,新しいヘテロジニアス・フォーティング・補償(hfc)モデルを開発した。 具体的には、表現的側面からの不均一な忘れを緩和するタスク意味集約ブロックを設計する。 各タスク内のローカルカテゴリ情報を集約し、タスク共有グローバル表現を学習する。 さらに,2つの新しいプラグ・アンド・プレイ損失,すなわち,勾配バランスの欠如補償損失と勾配バランスの関係蒸留損失を発生させ,勾配の欠落を緩和する。 彼らは、古いカテゴリの不均一性を忘れることと不均一な関係の整合性を正すために勾配バランスの補正を考える。 いくつかの代表的なデータセットの実験では、HFCモデルの有効性が示されている。 コードはhttps://github.com/JiahuaDong/HFCで入手できる。

Class-incremental learning (CIL) has achieved remarkable successes in learning new classes consecutively while overcoming catastrophic forgetting on old categories. However, most existing CIL methods unreasonably assume that all old categories have the same forgetting pace, and neglect negative influence of forgetting heterogeneity among different old classes on forgetting compensation. To surmount the above challenges, we develop a novel Heterogeneous Forgetting Compensation (HFC) model, which can resolve heterogeneous forgetting of easy-to-forget and hard-to-forget old categories from both representation and gradient aspects. Specifically, we design a task-semantic aggregation block to alleviate heterogeneous forgetting from representation aspect. It aggregates local category information within each task to learn task-shared global representations. Moreover, we develop two novel plug-and-play losses: a gradient-balanced forgetting compensation loss and a gradient-balanced relation distillation loss to alleviate forgetting from gradient aspect. They consider gradient-balanced compensation to rectify forgetting heterogeneity of old categories and heterogeneous relation consistency. Experiments on several representative datasets illustrate effectiveness of our HFC model. The code is available at https://github.com/JiahuaDong/HFC.
翻訳日:2023-08-08 14:43:24 公開日:2023-08-07
# 時系列計測における情報容量の抽出

Extractable Information Capacity in Sequential Measurements Metrology ( http://arxiv.org/abs/2308.03370v1 )

ライセンス: Link先を確認
Yaoling Yang, Victor Montenegro, Abolfazl Bayat(参考訳) 従来の量子センシングの定式化は、プローブが各測定後に初期状態にリセットされるという仮定に基づいている。 非常に異なるアプローチでは、時間消費のリセットを避けるシーケンシャルな測定スキームを追求することもできる。 この状況では、すべての測定結果は異なるプローブから得られるが、他のデータサンプルと相関する。 逐次測定精度の適切な記述を見つけることは、指数的に大きな結果を持つ長周期の解析を必要とするため、非常に難しい。 そこで我々は, 逐次測定の任意の長さに対する精度の指標として, フィッシャー情報を計算するための再帰式と効率的なモンテカルロ法を開発した。 その結果,フィッシャー情報は当初,測定数と非線形にスケールし,漸近的に飽和して線形スケーリングを行うことがわかった。 このような遷移は、興味のあるパラメータに関する抽出可能な情報を基本的に制約し、複数のシーケンシャルな測定を行う際にプローブの有限記憶と直接リンクされる。 これらの結果に基づいて,最適な測定シーケンス長の決定と,3つの物理系における結果の実証を行う。

The conventional formulation of quantum sensing is based on the assumption that the probe is reset to its initial state after each measurement. In a very distinct approach, one can also pursue a sequential measurement scheme in which time-consuming resetting is avoided. In this situation, every measurement outcome effectively comes from a different probe, yet correlated with other data samples. Finding a proper description for the precision of sequential measurement sensing is very challenging as it requires the analysis of long sequences with exponentially large outcomes. Here, we develop a recursive formula and an efficient Monte-Carlo approach to calculate the Fisher information, as a figure of merit for sensing precision, for arbitrary lengths of sequential measurements. Our results show that Fisher information initially scales non-linearly with the number of measurements and then asymptotically saturates to linear scaling. Such transition, which fundamentally constrains the extractable information about the parameter of interest, is directly linked to the finite memory of the probe when undergoes multiple sequential measurements. Based on these, we establish a figure of merit to determine the optimal measurement sequence length and exemplify our results in three different physical systems.
翻訳日:2023-08-08 14:43:03 公開日:2023-08-07
# 因果樹林の多様性の重要性--治療効果の不均一性を断ち切る

Variable importance for causal forests: breaking down the heterogeneity of treatment effects ( http://arxiv.org/abs/2308.03369v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard, Julie Josse (PREMEDICAL)(参考訳) 因果ランダム林は不均一な処理効果を効率的に推定する。 しかしながら、フォレストアルゴリズムはブラックボックスの性質でもよく知られており、入力変数が治療効果の不均一性にどのように関与しているかを特徴付けていない。 本稿では,各入力が処理効果の不均一性に与える影響を定量化するために,因果林の新しい重要変数アルゴリズムを開発する。 提案手法は回帰問題に広く用いられるdrop and relearnの原理に触発されたものである。 重要なこととして,森林再訓練の扱い方を示す。 共同設立者が治療効果の不均一性に関与していない場合、局所中心段階は重要度尺度の一貫性を強制する。 そうでなければ、共同創設者が異質性にも影響を及ぼすと、再訓練された因果樹林に整合性回復のための補正用語を導入する。 さらに, シミュレーション, 半合成, 実データによる実験により, 重要度尺度の優れた性能が示され, 各種テストケースにおける競合よりも優れていた。 実験では、我々のアプローチが変数のグループに効率的に拡張できることを示し、実際に重要な洞察を提供する。

Causal random forests provide efficient estimates of heterogeneous treatment effects. However, forest algorithms are also well-known for their black-box nature, and therefore, do not characterize how input variables are involved in treatment effect heterogeneity, which is a strong practical limitation. In this article, we develop a new importance variable algorithm for causal forests, to quantify the impact of each input on the heterogeneity of treatment effects. The proposed approach is inspired from the drop and relearn principle, widely used for regression problems. Importantly, we show how to handle the forest retrain without a confounding variable. If the confounder is not involved in the treatment effect heterogeneity, the local centering step enforces consistency of the importance measure. Otherwise, when a confounder also impacts heterogeneity, we introduce a corrective term in the retrained causal forest to recover consistency. Additionally, experiments on simulated, semi-synthetic, and real data show the good performance of our importance measure, which outperforms competitors on several test cases. Experiments also show that our approach can be efficiently extended to groups of variables, providing key insights in practice.
翻訳日:2023-08-08 14:42:45 公開日:2023-08-07
# Coarse-to-Fine Lexicon-based RetrieverによるFew-shotおよびZero-shotエンティティリンクの改善

Improving Few-shot and Zero-shot Entity Linking with Coarse-to-Fine Lexicon-based Retriever ( http://arxiv.org/abs/2308.03365v1 )

ライセンス: Link先を確認
Shijue Huang, Bingbing Wang, Libo Qin, Qin Zhao and Ruifeng Xu(参考訳) 短いショットとゼロショットのエンティティリンクは、より難しいが現実のシナリオに近い、テールと新興エンティティに焦点を当てている。 主流の方法は'retrieve and rerank'の二段階フレームワークである。 本稿では,2つの層で機能するエンティティ候補を効果的に検索する,粗大なレキシコンベース検索手法を提案する。 第1の層はエンティティ名を利用して粗粒度候補を検索し、第2の層は粗粒度候補を絞り込む。 さらに、この第2層はエンティティ記述を利用して、既存の人気エンティティと名前を共有するテールまたは新しいエンティティを効果的に曖昧にします。 実験の結果,検索段階において広範囲な微調整を必要とせず,優れた性能を得ることができた。 特に,nlpcc 2023の共有タスク6では,中国のマイナショットとゼロショットのエンティティリンクで第1位にランク付けした。

Few-shot and zero-shot entity linking focus on the tail and emerging entities, which are more challenging but closer to real-world scenarios. The mainstream method is the ''retrieve and rerank'' two-stage framework. In this paper, we propose a coarse-to-fine lexicon-based retriever to retrieve entity candidates in an effective manner, which operates in two layers. The first layer retrieves coarse-grained candidates by leveraging entity names, while the second layer narrows down the search to fine-grained candidates within the coarse-grained ones. In addition, this second layer utilizes entity descriptions to effectively disambiguate tail or new entities that share names with existing popular entities. Experimental results indicate that our approach can obtain superior performance without requiring extensive finetuning in the retrieval stage. Notably, our approach ranks the 1st in NLPCC 2023 Shared Task 6 on Chinese Few-shot and Zero-shot Entity Linking.
翻訳日:2023-08-08 14:42:24 公開日:2023-08-07
# 画像超解像用デュアルアグリゲーショントランス

Dual Aggregation Transformer for Image Super-Resolution ( http://arxiv.org/abs/2308.03364v1 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu(参考訳) Transformerは最近、画像超解像(SR)を含む低レベルの視覚タスクでかなりの人気を得ている。 これらのネットワークは、異なる次元、空間またはチャネルに沿って自己注意を利用し、印象的なパフォーマンスを達成する。 これにより、トランスフォーマーの2次元を組み合わせることで、より強力な表現能力を得ることができます。 そこで本稿では,画像srのための新しいトランスフォーマーモデルであるdual aggregation transformer (dat)を提案する。 DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。 具体的には、連続したトランスフォーマーブロックに空間的およびチャネル的自己アテンションを交互に適用する。 代替戦略により、DATはグローバルコンテキストをキャプチャし、ブロック間フィーチャーアグリゲーションを実現することができる。 さらに,ブロック内特徴集約を実現するために,適応インタラクションモジュール(aim)と空間ゲートフィードフォワードネットワーク(sgfn)を提案する。 AIMは2つの自己注意機構を対応する次元から補完する。 一方、SGFNはフィードフォワードネットワークに非線形空間情報を導入する。 大規模な実験により、我々のDATは現在の方法を上回ることがわかった。 コードとモデルはhttps://github.com/zhengchen1999/datで取得できる。

Transformer has recently gained considerable popularity in low-level vision tasks, including image super-resolution (SR). These networks utilize self-attention along different dimensions, spatial or channel, and achieve impressive performance. This inspires us to combine the two dimensions in Transformer for a more powerful representation capability. Based on the above idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT), for image SR. Our DAT aggregates features across spatial and channel dimensions, in the inter-block and intra-block dual manner. Specifically, we alternately apply spatial and channel self-attention in consecutive Transformer blocks. The alternate strategy enables DAT to capture the global context and realize inter-block feature aggregation. Furthermore, we propose the adaptive interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to achieve intra-block feature aggregation. AIM complements two self-attention mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional non-linear spatial information in the feed-forward network. Extensive experiments show that our DAT surpasses current methods. Code and models are obtainable at https://github.com/zhengchen1999/DAT.
翻訳日:2023-08-08 14:42:05 公開日:2023-08-07
# 対人機械学習に関する読書調査--対人攻撃とその理解

A reading survey on adversarial machine learning: Adversarial attacks and their understanding ( http://arxiv.org/abs/2308.03363v1 )

ライセンス: Link先を確認
Shashank Kotyan(参考訳) ディープラーニングは、高パフォーマンスで複雑なデータのためにニューラルネットワークをトレーニングする権限を与えてくれました。 しかし、研究が進むにつれて、ニューラルネットワークのいくつかの脆弱性が明らかになった。 特定の研究分野であるadversarial machine learningは、ニューラルネットワークがオリジナルの入力を誤分類する原因となる脆弱性を悪用し、理解している。 敵攻撃と呼ばれるアルゴリズムのクラスが提案され、ニューラルネットワークが異なるドメインの様々なタスクを誤って分類する。 敵攻撃に関する広範な研究が進み、敵攻撃の分類を理解することが不可欠である。 これは、脆弱性を体系的な順序で理解し、敵の攻撃の影響を軽減するのに役立つでしょう。 本稿は、既存の敵攻撃とその理解について、異なる視点で調査する。 また,既存の敵防御の概略と,敵の攻撃効果の軽減に関する限界についても述べる。 さらに, 敵対的機械学習の分野における今後の研究方向に関する議論を締めくくった。

Deep Learning has empowered us to train neural networks for complex data with high performance. However, with the growing research, several vulnerabilities in neural networks have been exposed. A particular branch of research, Adversarial Machine Learning, exploits and understands some of the vulnerabilities that cause the neural networks to misclassify for near original input. A class of algorithms called adversarial attacks is proposed to make the neural networks misclassify for various tasks in different domains. With the extensive and growing research in adversarial attacks, it is crucial to understand the classification of adversarial attacks. This will help us understand the vulnerabilities in a systematic order and help us to mitigate the effects of adversarial attacks. This article provides a survey of existing adversarial attacks and their understanding based on different perspectives. We also provide a brief overview of existing adversarial defences and their limitations in mitigating the effect of adversarial attacks. Further, we conclude with a discussion on the future research directions in the field of adversarial machine learning.
翻訳日:2023-08-08 14:41:50 公開日:2023-08-07
# 非構造化電子カルテの効率的な経時的理解のための記号推論と言語モデルとの結合

Coupling Symbolic Reasoning with Language Modeling for Efficient Longitudinal Understanding of Unstructured Electronic Medical Records ( http://arxiv.org/abs/2308.03360v1 )

ライセンス: Link先を確認
Shivani Shekhar, Simran Tiwari, T. C. Rensink, Ramy Eskander, Wael Salloum(参考訳) 医療における人工知能(AI)の応用は、特に最近のトランスフォーマーベースの大規模言語モデル(LLM)の進歩により、革命的になった。 しかし、非構造化の電子医療記録を理解するタスクは、記録の性質(例えば、非構造化、非一貫性、冗長性)と、医学変数の包括的理解を可能にする推論パラダイムを導出するllmの欠如を考えると、依然として課題である。 本研究では,非構造化臨床テキストの理解を深めるために,記号推論と言語モデリングを結合する能力について検討する。 このような組み合わせにより、非構造化レコードから複数の医療変数の抽出が向上することを示す。 さらに,現在最先端の商用LLMは,商用LLMに匹敵する検索機能を享受していることを示す。 最後に, LLM の排他的使用により低性能となるため, シンボル推論の適用による LLM ステアリングの必要性について詳述する。

The application of Artificial Intelligence (AI) in healthcare has been revolutionary, especially with the recent advancements in transformer-based Large Language Models (LLMs). However, the task of understanding unstructured electronic medical records remains a challenge given the nature of the records (e.g., disorganization, inconsistency, and redundancy) and the inability of LLMs to derive reasoning paradigms that allow for comprehensive understanding of medical variables. In this work, we examine the power of coupling symbolic reasoning with language modeling toward improved understanding of unstructured clinical texts. We show that such a combination improves the extraction of several medical variables from unstructured records. In addition, we show that the state-of-the-art commercially-free LLMs enjoy retrieval capabilities comparable to those provided by their commercial counterparts. Finally, we elaborate on the need for LLM steering through the application of symbolic reasoning as the exclusive use of LLMs results in the lowest performance.
翻訳日:2023-08-08 14:41:37 公開日:2023-08-07
# 360{\deg}サルエント物体検出における歪み検出トランス

Distortion-aware Transformer in 360{\deg} Salient Object Detection ( http://arxiv.org/abs/2308.03359v1 )

ライセンス: Link先を確認
Yinjie Zhao, Lichen Zhao, Qian Yu, Jing Zhang, Lu Sheng, Dong Xu(参考訳) vrとarの出現により、360{\deg}データはコンピュータビジョンとマルチメディアコミュニティから注目を集めている。 通常、360{\deg} データは特徴抽出のために2次元ERP (equirectular projection) 画像に投影される。 しかし、既存の手法では投影による歪みを処理できず、360データベースのタスクの開発を妨げている。 そこで本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。 我々は2つの視点からこの問題に取り組む。 まず,歪み適応モジュールを2つ導入する。 ひとつはDistortion Mapping Moduleで、このモジュールはモデルを世界中の歪んだ機能に事前適応させる。 2つ目のモジュールはDistortion-Adaptive Attention Blockで、マルチスケール機能の局所歪みを低減する。 次に,360{\deg}データの特徴を生かすために,学習可能な関係行列を示し,位置埋め込みの一部として使用することで,さらなる性能向上を図る。 3つの公開データセットについて広範な実験を行い,本モデルが既存の2d sod (salient object detection) および360 sod法よりも優れていることを示した。

With the emergence of VR and AR, 360{\deg} data attracts increasing attention from the computer vision and multimedia communities. Typically, 360{\deg} data is projected into 2D ERP (equirectangular projection) images for feature extraction. However, existing methods cannot handle the distortions that result from the projection, hindering the development of 360-data-based tasks. Therefore, in this paper, we propose a Transformer-based model called DATFormer to address the distortion problem. We tackle this issue from two perspectives. Firstly, we introduce two distortion-adaptive modules. The first is a Distortion Mapping Module, which guides the model to pre-adapt to distorted features globally. The second module is a Distortion-Adaptive Attention Block that reduces local distortions on multi-scale features. Secondly, to exploit the unique characteristics of 360{\deg} data, we present a learnable relation matrix and use it as part of the positional embedding to further improve performance. Extensive experiments are conducted on three public datasets, and the results show that our model outperforms existing 2D SOD (salient object detection) and 360 SOD methods.
翻訳日:2023-08-08 14:41:18 公開日:2023-08-07
# 分散型PMDPにおける離散通信による帰還ギャップ最小化

Minimizing Return Gaps with Discrete Communications in Decentralized POMDP ( http://arxiv.org/abs/2308.03358v1 )

ライセンス: Link先を確認
Jingdi Chen, Tian Lan(参考訳) マルコフ決定過程における協調的マルチエージェント強化学習課題の解決にはコミュニケーションが不可欠である。 既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存していることが多い。 しかし、このようなブラックボックスアプローチでは、期待した戻り値に対する定量的な保証が得られず、しばしば通信オーバーヘッドが高く、解釈可能性の低い連続メッセージの生成につながる。 本稿では,完全な可観測性を持つ理想的な方針と離散的通信を伴う最適部分可観測性ポリシーとの回帰ギャップの上限を定式化する。 この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。 上界を最小化することにより,マルチエージェント通信におけるメッセージ生成関数の驚くほど単純な設計を提案し,正規化情報最大化損失関数を用いた強化学習と統合する。 評価の結果,提案する離散通信は最先端のマルチエージェント通信ベースラインを著しく上回っており,自然に解釈可能な数ビットメッセージでほぼ最適に近いリターンが得られることがわかった。

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in Partially-Observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents. However, such black-box approaches are unable to provide any quantitative guarantees on the expected return and often lead to the generation of continuous messages with high communication overhead and poor interpretability. In this paper, we establish an upper bound on the return gap between an ideal policy with full observability and an optimal partially-observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. By minimizing the upper bound, we propose a surprisingly simple design of message generation functions in multi-agent communication and integrate it with reinforcement learning using a Regularized Information Maximization loss function. Evaluations show that the proposed discrete communication significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly-optimal returns with few-bit messages that are naturally interpretable.
翻訳日:2023-08-08 14:41:01 公開日:2023-08-07
# ラベルなしの馬:ラベルなし画像と合成事前画像から自己教師付き馬のポーズ推定

A Horse with no Labels: Self-Supervised Horse Pose Estimation from Unlabelled Images and Synthetic Prior ( http://arxiv.org/abs/2308.03411v1 )

ライセンス: Link先を確認
Jose Sosa and David Hogg(参考訳) 動物のポーズを推定する深層学習法を訓練するためにラベル付きデータを取得することは難しい。 近年,合成データはポーズ推定に広く利用されているが,ほとんどの手法は,合成画像やラベルを利用した教師付き学習パラダイムに依存している。 トレーニングは完全に教師なしか? 小さな合成データセットで十分か? 動物のポーズを推定する上で、最小の仮定は何でしょう? 提案手法は,非標識画像と少量の合成2Dポーズのみを前提とした,単純かつ効果的な自己監督手法によって,これらの課題に対処する。 私たちは3Dや2Dのポーズアノテーション(複雑な3D動物モデル)の必要性を完全に排除しています。 提案手法は,主にYouTubeビデオ用に収集された馬の画像と,2D合成ポーズからなる先行画像を用いて訓練する。 後者は、トレーニングに必要な画像の数より3倍小さい。 本手法は,馬像の難解な組でテストし,予測した3次元および2次元ポーズを評価する。 本研究は, 合成データから生成する2次元ポーズとラベルなし画像として, 少ない仮定でも正確な動物のポーズを学習できることを実証する。 最小限の要件と少ないデータの量を考えると、我々の方法は容易に異なる動物に展開できる。

Obtaining labelled data to train deep learning methods for estimating animal pose is challenging. Recently, synthetic data has been widely used for pose estimation tasks, but most methods still rely on supervised learning paradigms utilising synthetic images and labels. Can training be fully unsupervised? Is a tiny synthetic dataset sufficient? What are the minimum assumptions that we could make for estimating animal pose? Our proposal addresses these questions through a simple yet effective self-supervised method that only assumes the availability of unlabelled images and a small set of synthetic 2D poses. We completely remove the need for any 3D or 2D pose annotations (or complex 3D animal models), and surprisingly our approach can still learn accurate 3D and 2D poses simultaneously. We train our method with unlabelled images of horses mainly collected for YouTube videos and a prior consisting of 2D synthetic poses. The latter is three times smaller than the number of images needed for training. We test our method on a challenging set of horse images and evaluate the predicted 3D and 2D poses. We demonstrate that it is possible to learn accurate animal poses even with as few assumptions as unlabelled images and a small set of 2D poses generated from synthetic data. Given the minimum requirements and the abundance of unlabelled data, our method could be easily deployed to different animals.
翻訳日:2023-08-08 14:35:12 公開日:2023-08-07
# DiT:動的トークンルーティングを用いた高能率ビジョントランス

DiT: Efficient Vision Transformers with Dynamic Token Routing ( http://arxiv.org/abs/2308.03409v1 )

ライセンス: Link先を確認
Yuchen Ma, Zhengcong Fei, Junshi Huang(参考訳) 近年、画像のトークンは、多くの高密度ネットワークで同じ静的データフローを共有している。 しかし、空間スケールの大きな変化や視覚的実体の認識の難しさなど、画像内の物体間のばらつきから課題が生じる。 本稿では,ダイナミックビジョン変換器のイメージトークンのルーティング経路を詳細に把握するための,データ依存型トークンルーティング方式を提案する。 提案フレームワークは,トークン毎のデータ依存パスを生成し,オブジェクトスケールとトークンの視覚的識別に適応する。 フィードフォワードでは、微分可能なルーティングゲートは、画像トークンのスケーリングパスと機能変換パスを選択するように設計され、マルチパスの特徴伝達に繋がる。 このように、オブジェクトスケールの影響と画像表現の視覚的識別を慎重に調整することができる。 さらに、ルーティングゲートに予算制約を与え、特徴抽出の早期停止を行うことにより、計算コストをさらに削減することができる。 実験では,画像ネット分類,オブジェクト検出,インスタンスセグメンテーション,セマンティクスセグメンテーションにおいて,多くのsata手法よりも優れた性能と適度な複雑性/正確性トレードオフを実現する。 特に、DiT-B5は10.3 GFLOPsのImageNet上で84.8\%のトップ-1Accを取得しており、同様の計算複雑性を持つSoTA法よりも1.0\%高い。 これらの広範な結果は、DiTが様々な視覚タスクのための多用途バックボーンとして機能できることを証明している。

Recently, the tokens of images share the same static data flow in many dense networks. However, challenges arise from the variance among the objects in images, such as large variations in the spatial scale and difficulties of recognition for visual entities. In this paper, we propose a data-dependent token routing strategy to elaborate the routing paths of image tokens for Dynamic Vision Transformer, dubbed DiT. The proposed framework generates a data-dependent path per token, adapting to the object scales and visual discrimination of tokens. In feed-forward, the differentiable routing gates are designed to select the scaling paths and feature transformation paths for image tokens, leading to multi-path feature propagation. In this way, the impact of object scales and visual discrimination of image representation can be carefully tuned. Moreover, the computational cost can be further reduced by giving budget constraints to the routing gate and early-stopping of feature extraction. In experiments, our DiT achieves superior performance and favorable complexity/accuracy trade-offs than many SoTA methods on ImageNet classification, object detection, instance segmentation, and semantic segmentation. Particularly, the DiT-B5 obtains 84.8\% top-1 Acc on ImageNet with 10.3 GFLOPs, which is 1.0\% higher than that of the SoTA method with similar computational complexity. These extensive results demonstrate that DiT can serve as versatile backbones for various vision tasks.
翻訳日:2023-08-08 14:34:51 公開日:2023-08-07
# 空間的に変化するナノフォトニクスニューラルネットワーク

Spatially Varying Nanophotonic Neural Networks ( http://arxiv.org/abs/2308.03407v1 )

ライセンス: Link先を確認
Kaixuan Wei, Xiao Li, Johannes Froech, Praneeth Chakravarthula, James Whitehead, Ethan Tseng, Arka Majumdar, Felix Heide(参考訳) 人工知能の爆発的な成長とエネルギーコストは、従来の電子プロセッサに代わる潜在的な選択肢として、新しいコンピューティングモードへの強い関心を喚起した。 電子の代わりに光子を使って演算を行うフォトニックプロセッサは、超低レイテンシと消費電力で光ニューラルネットワークを実現することを約束している。 しかし、基礎となるネットワーク設計によって制限された既存の光学ニューラルネットワークは、最先端の電子ニューラルネットワークよりも画像認識精度がはるかに低い。 本研究では,低次元再パラメータ化技術を用いて学習した大カーネル空間変動畳み込みニューラルネットワークを導入することにより,このギャップを埋める。 我々は,平面型メタ光学系を用いて,角度依存応答を誘導するナノフォトニック構造を含むネットワークを実験的にインスタンス化する。 約2kパラメータを持つ非常に軽量な電子バックエンドと組み合わせて、ナノフォトニクスニューラルネットワークがcifar-10データセット上で73.80\%のブラインドテスト分類精度に達することを実証し、初めて、光ニューラルネットワークが、57mパラメータを持つ最初の現代的なデジタルニューラルネットワーク -- alexnet (72.64\%) よりも優れ、現代のディープラーニング時代に光ニューラルネットワークをもたらすことを示した。

The explosive growth of computation and energy cost of artificial intelligence has spurred strong interests in new computing modalities as potential alternatives to conventional electronic processors. Photonic processors that execute operations using photons instead of electrons, have promised to enable optical neural networks with ultra-low latency and power consumption. However, existing optical neural networks, limited by the underlying network designs, have achieved image recognition accuracy much lower than state-of-the-art electronic neural networks. In this work, we close this gap by introducing a large-kernel spatially-varying convolutional neural network learned via low-dimensional reparameterization techniques. We experimentally instantiate the network with a flat meta-optical system that encompasses an array of nanophotonic structures designed to induce angle-dependent responses. Combined with an extremely lightweight electronic backend with approximately 2K parameters we demonstrate a nanophotonic neural network reaches 73.80\% blind test classification accuracy on CIFAR-10 dataset, and, as such, the first time, an optical neural network outperforms the first modern digital neural network -- AlexNet (72.64\%) with 57M parameters, bringing optical neural network into modern deep learning era.
翻訳日:2023-08-08 14:34:28 公開日:2023-08-07
# ATM性能シミュレーションのための応用メタモデリング

Applied metamodelling for ATM performance simulations ( http://arxiv.org/abs/2308.03404v1 )

ライセンス: Link先を確認
Christoffer Riis, Francisco N. Antunes, Tatjana Boli\'c, G\'erald Gurtner, Andrew Cook, Carlos Lima Azevedo, and Francisco C\^amara Pereira(参考訳) 航空交通管理シミュレータ(atm)を計画や運用に使用するのは、そのモデリングの複雑さから困難である。 本稿では,ATM意思決定を支援するためのシミュレーションメタモデルに,アクティブラーニングとSHAP値を統合する3段階のフレームワークであるXALM(eXplainable Active Learning Metamodel)を提案する。 XALMはATMシミュレータにおける入力変数と出力変数の間の隠れた関係を効率的に発見する。 実験の結果,シミュレーションの少ないXGBoostメタモデルに匹敵するXALMの予測性能を示した。 さらに、XALMは非アクティブ学習メタモデルよりも優れた説明能力を示す。 航空機と乗客のATMシミュレーターである"Mercury"を用いて、XALMはパリのシャルル・ド・ゴール空港の現実のシナリオに適用され、到着マネージャの範囲と6変数を分析して範囲を広げる。 このケーススタディは、シミュレーションの解釈可能性の向上と変数相互作用の理解におけるXALMの有効性を示す。 計算の課題に対処し、説明可能性を改善することで、xalmは従来のシミュレーションに基づく分析を補完する。 最後に,メタモデルの計算負担を軽減するための2つの実践的アプローチについて論じる。メタモデル固有の不確実性に基づくアクティブラーニングの停止基準を導入し,メタモデルに使用されるシミュレーションを重要な性能指標間で再利用する方法を示し,必要なシミュレーションの総数を削減する。

The use of Air traffic management (ATM) simulators for planing and operations can be challenging due to their modelling complexity. This paper presents XALM (eXplainable Active Learning Metamodel), a three-step framework integrating active learning and SHAP (SHapley Additive exPlanations) values into simulation metamodels for supporting ATM decision-making. XALM efficiently uncovers hidden relationships among input and output variables in ATM simulators, those usually of interest in policy analysis. Our experiments show XALM's predictive performance comparable to the XGBoost metamodel with fewer simulations. Additionally, XALM exhibits superior explanatory capabilities compared to non-active learning metamodels. Using the `Mercury' (flight and passenger) ATM simulator, XALM is applied to a real-world scenario in Paris Charles de Gaulle airport, extending an arrival manager's range and scope by analysing six variables. This case study illustrates XALM's effectiveness in enhancing simulation interpretability and understanding variable interactions. By addressing computational challenges and improving explainability, XALM complements traditional simulation-based analyses. Lastly, we discuss two practical approaches for reducing the computational burden of the metamodelling further: we introduce a stopping criterion for active learning based on the inherent uncertainty of the metamodel, and we show how the simulations used for the metamodel can be reused across key performance indicators, thus decreasing the overall number of simulations needed.
翻訳日:2023-08-08 14:34:07 公開日:2023-08-07
# 機械学習による魚株評価に向けて

Towards Machine Learning-based Fish Stock Assessment ( http://arxiv.org/abs/2308.03403v1 )

ライセンス: Link先を確認
Stefan L\"udtke and Maria E. Pierce(参考訳) 魚株の正確な評価は持続的漁業管理に不可欠である。 しかし、既存の統計ストックアセスメントモデルは、特に地球温暖化やその他の人為的ストレスによって変化する生態系において、採用やストックバイオマスの産出といった関連するストックパラメータの予測性能が低い可能性がある。 本稿では,これらのストックパラメータの推定と予測を改善するために,機械学習モデルの利用について検討する。 本稿では,従来の統計ストックアセスメントモデルと教師付きml,特に勾配強化木を組み合わせたハイブリッドモデルを提案する。 ハイブリッドモデルは,古典モデルによる初期推定を活用し,機械学習モデルを用いてポストホック補正を行い,精度を向上させる。 5つの異なる株について実験を行い, 多くの場合, 雇用・産出の予測精度が大幅に向上することを確認した。

The accurate assessment of fish stocks is crucial for sustainable fisheries management. However, existing statistical stock assessment models can have low forecast performance of relevant stock parameters like recruitment or spawning stock biomass, especially in ecosystems that are changing due to global warming and other anthropogenic stressors. In this paper, we investigate the use of machine learning models to improve the estimation and forecast of such stock parameters. We propose a hybrid model that combines classical statistical stock assessment models with supervised ML, specifically gradient boosted trees. Our hybrid model leverages the initial estimate provided by the classical model and uses the ML model to make a post-hoc correction to improve accuracy. We experiment with five different stocks and find that the forecast accuracy of recruitment and spawning stock biomass improves considerably in most cases.
翻訳日:2023-08-08 14:33:42 公開日:2023-08-07
# マルチショット量子コンピュータシミュレーションのgpu高速化のための効率的な手法

Efficient techniques to GPU Accelerations of Multi-Shot Quantum Computing Simulations ( http://arxiv.org/abs/2308.03399v1 )

ライセンス: Link先を確認
Jun Doi, Hiroshi Horii, Christopher Wood(参考訳) 量子コンピュータは多くのアプリケーションを計算するために実用的になりつつある。 しかし、現在の量子コンピュータは、コンピュータリソース、ハードウェアの限界、不安定性、ノイズのために制限されているため、従来のコンピュータ上での量子コンピューティングのシミュレーションはまだ有用である。 古典コンピュータにおける量子コンピューティングシミュレーションの性能の向上は、量子コンピュータとそのアルゴリズムの開発に寄与する。 古典的コンピュータ上の量子コンピューティングシミュレーションは、特に多くの量子ビットを持つ量子回路や、ノイズシミュレーションや中間測度を持つ回路の多数のショットをシミュレートする場合に、長いパフォーマンス時間を必要とする。 グラフィック処理ユニット(gpu)は、計算能力と高帯域幅メモリを利用して量子コンピュータシミュレーションを加速するのに適しており、比較的大きな量子ビット回路をシミュレートする大きな利点がある。 しかし、ランダム性は高い並列化を妨げるため、マルチショットのシミュレーションではノイズを伴う。 さらにGPUは、GPUカーネルの実行のオーバーヘッドが大きいため、少数の量子ビットを持つ回路をシミュレートすることに不利がある。 本稿では,GPU上でのマルチショットシミュレーションのための最適化手法を提案する。 複数のシミュレーションのショットを単一のgpuカーネル実行に集め、ノイズによるランダム性をスケジューリングすることでオーバーヘッドを削減する。 さらに,マルチショットシミュレーションにおける計算量とメモリ使用量を削減するショットブランチを導入する。 これらの手法を用いることで、以前の実装から x10 を高速化する。

Quantum computers are becoming practical for computing numerous applications. However, simulating quantum computing on classical computers is still demanding yet useful because current quantum computers are limited because of computer resources, hardware limits, instability, and noises. Improving quantum computing simulation performance in classical computers will contribute to the development of quantum computers and their algorithms. Quantum computing simulations on classical computers require long performance times, especially for quantum circuits with a large number of qubits or when simulating a large number of shots for noise simulations or circuits with intermediate measures. Graphical processing units (GPU) are suitable to accelerate quantum computer simulations by exploiting their computational power and high bandwidth memory and they have a large advantage in simulating relatively larger qubits circuits. However, GPUs are inefficient at simulating multi-shots runs with noises because the randomness prevents highly parallelization. In addition, GPUs have a disadvantage in simulating circuits with a small number of qubits because of the large overheads in GPU kernel execution. In this paper, we introduce optimization techniques for multi-shot simulations on GPUs. We gather multiple shots of simulations into a single GPU kernel execution to reduce overheads by scheduling randomness caused by noises. In addition, we introduce shot-branching that reduces calculations and memory usage for multi-shot simulations. By using these techniques, we speed up x10 from previous implementations.
翻訳日:2023-08-08 14:33:28 公開日:2023-08-07
# HARU-NetによるNucleusセグメンテーションの強化:ハイブリッドアテンションに基づく残留U-Blocksネットワーク

Enhancing Nucleus Segmentation with HARU-Net: A Hybrid Attention Based Residual U-Blocks Network ( http://arxiv.org/abs/2308.03382v1 )

ライセンス: Link先を確認
Junzhou Chen, Qian Huang, Yulin Chen, Linyi Qian, Chengyuan Yu(参考訳) 核画像セグメンテーションは、解析、病理診断、分類において重要なステップであり、核セグメンテーションの品質に大きく依存している。 しかし、核の大きさの変化、ぼやけた核輪郭、不均一な染色、細胞クラスタリング、重なり合った細胞といった問題の複雑さは大きな課題となる。 現在の核分割法は主に核形態学や輪郭に基づくアプローチに依存している。 核形態に基づく手法は一般化能力に制限があり、不規則な形状の核を効果的に予測できないが、輪郭に基づく抽出法では重なり合う核を正確に分割することが困難である。 上記の問題に対処するために,ハイブリッドアテンションに基づく残差Uブロックを用いたデュアルブランチネットワークを提案する。 ネットワークは、目標情報と目標輪郭を同時に予測する。 さらに,ターゲット情報とターゲット輪郭を組み合わせた後処理法を導入し,重なり合う核を識別し,インスタンス分割画像を生成する。 ネットワーク内では,ネットワークからコンテキスト情報を効果的に抽出・統合するコンテキスト融合ブロック(cf-block)を提案する。 本手法の性能評価のために, 大規模定量的評価を行った。 実験により,BNS,MoNuSeg,CoNSeg,CPM-17データセットの最先端手法と比較して,提案手法の優れた性能を示した。

Nucleus image segmentation is a crucial step in the analysis, pathological diagnosis, and classification, which heavily relies on the quality of nucleus segmentation. However, the complexity of issues such as variations in nucleus size, blurred nucleus contours, uneven staining, cell clustering, and overlapping cells poses significant challenges. Current methods for nucleus segmentation primarily rely on nuclear morphology or contour-based approaches. Nuclear morphology-based methods exhibit limited generalization ability and struggle to effectively predict irregular-shaped nuclei, while contour-based extraction methods face challenges in accurately segmenting overlapping nuclei. To address the aforementioned issues, we propose a dual-branch network using hybrid attention based residual U-blocks for nucleus instance segmentation. The network simultaneously predicts target information and target contours. Additionally, we introduce a post-processing method that combines the target information and target contours to distinguish overlapping nuclei and generate an instance segmentation image. Within the network, we propose a context fusion block (CF-block) that effectively extracts and merges contextual information from the network. Extensive quantitative evaluations are conducted to assess the performance of our method. Experimental results demonstrate the superior performance of the proposed method compared to state-of-the-art approaches on the BNS, MoNuSeg, CoNSeg, and CPM-17 datasets.
翻訳日:2023-08-08 14:33:07 公開日:2023-08-07
# 低照度ビジョンのためのバイレベル生成学習

Bilevel Generative Learning for Low-Light Vision ( http://arxiv.org/abs/2308.03381v1 )

ライセンス: Link先を確認
Yingchi Liu, Zhu Liu, Long Ma, Jinyuan Liu, Xin Fan, Zhongxuan Luo, Risheng Liu(参考訳) 近年,低照度ビジョン(LLV)のためのディープラーニングスキームの構築への関心が高まっている。 既存の技術は主にタスク固有およびデータ依存のビジョンモデルを標準RGBドメインで設計することに焦点を当てている。 本研究では,rawからrgbドメインへデータを変換する生成ブロックを導入することで,汎用的な低光度視覚ソリューションを提案する。 この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。 生成手順とビジョンタスクとの潜在対応を正確に特徴付けるため、上位レベルとして定義される生成ブロックのパラメータと下位レベルとして定義されたビジョンタスクのパラメータとを両層モデルとする。 さらに,新しい二段階生成学習パラダイムを得るために,目標の異なる2種類の学習戦略,すなわち低コストと高精度を開発する。 生成ブロックは、強化タスクのバイレベル最適化を通じて、他の低照度視覚タスクにおいて強力な一般化能力を持つ。 提案手法の優位性を示すために,3つの代表的な低照度視覚課題,すなわち強調,検出,セグメンテーションの総合的評価を行った。 コードはhttps://github.com/Yingchi1998/BGLで入手できる。

Recently, there has been a growing interest in constructing deep learning schemes for Low-Light Vision (LLV). Existing techniques primarily focus on designing task-specific and data-dependent vision models on the standard RGB domain, which inherently contain latent data associations. In this study, we propose a generic low-light vision solution by introducing a generative block to convert data from the RAW to the RGB domain. This novel approach connects diverse vision problems by explicitly depicting data generation, which is the first in the field. To precisely characterize the latent correspondence between the generative procedure and the vision task, we establish a bilevel model with the parameters of the generative block defined as the upper level and the parameters of the vision task defined as the lower level. We further develop two types of learning strategies targeting different goals, namely low cost and high accuracy, to acquire a new bilevel generative learning paradigm. The generative blocks embrace a strong generalization ability in other low-light vision tasks through the bilevel optimization on enhancement tasks. Extensive experimental evaluations on three representative low-light vision tasks, namely enhancement, detection, and segmentation, fully demonstrate the superiority of our proposed approach. The code will be available at https://github.com/Yingchi1998/BGL.
翻訳日:2023-08-08 14:32:42 公開日:2023-08-07
# 学生の知識概念の動的習得を評価するための対物単調な知識追跡

Counterfactual Monotonic Knowledge Tracing for Assessing Students' Dynamic Mastery of Knowledge Concepts ( http://arxiv.org/abs/2308.03377v1 )

ライセンス: Link先を確認
Moyu Zhang, Xinning Zhu, Chunhong Zhang, Wenchen Qian, Feng Pan, Hui Zhao(参考訳) 知識追跡(KT)タスクの中核として、学生の知識概念の動的習得を評価することは、オフライン教育とオンライン教育アプリケーションの両方に不可欠である。 学生の知識概念の熟達はしばしばラベル付けされていないため、既存のkt法は、無ラベル概念の熟達の課題に対処するための実践に対する学生の反応に対する知識概念の熟達のために、歴史的実践の暗黙のパラダイムに依存している。 しかし、隠された概念熟達値に特定の制約を課さずに学生の反応を純粋に予測することは、概念熟達値としてこれらの中間値の精度を保証するものではない。 この問題に対処するため,本研究では,学生の知識概念習得の進化を抑えるために,反現実的仮定を用いて,上記の暗黙的パラダイムを基盤として,CMKTと呼ばれる原則的アプローチを提案する。

As the core of the Knowledge Tracking (KT) task, assessing students' dynamic mastery of knowledge concepts is crucial for both offline teaching and online educational applications. Since students' mastery of knowledge concepts is often unlabeled, existing KT methods rely on the implicit paradigm of historical practice to mastery of knowledge concepts to students' responses to practices to address the challenge of unlabeled concept mastery. However, purely predicting student responses without imposing specific constraints on hidden concept mastery values does not guarantee the accuracy of these intermediate values as concept mastery values. To address this issue, we propose a principled approach called Counterfactual Monotonic Knowledge Tracing (CMKT), which builds on the implicit paradigm described above by using a counterfactual assumption to constrain the evolution of students' mastery of knowledge concepts.
翻訳日:2023-08-08 14:32:21 公開日:2023-08-07
# サブセットに対するロバスト順序回帰と相互作用の比較

Robust Ordinal Regression for Subsets Comparisons with Interactions ( http://arxiv.org/abs/2308.03376v1 )

ライセンス: Link先を確認
Hugo Gilbert (LAMSADE), Mohamed Ouaguenouni, Meltem Ozturk (LAMSADE), Olivier Spanjaard(参考訳) 本稿では,サブセット間の意思決定者の好みを学習するための厳密な順序付け手法を提案する。 Fishburn と LaValle (1996) から導かれた決定モデルと、我々が学習するパラメータは、要素間の相互作用が考えられるため、部分集合上の厳密な弱順序と互換性を持つのに十分である。 また,利用可能な選好データが信頼できる予測と適合しない場合には,いくつかの選好を予測しない。 予測された選好は、最も単純なモデル(occamのカミソリ)が選好データを説明すると信頼できるものとみなされる。 頑健な順序回帰法に従うと、予測はモデルパラメータの可能な値を含む不確実性セットに基づいている。 我々は、サブセット間の堅牢な順序関係を定義し、この支配関係が成立するかどうかを決定する手順を設計する。 合成データと実世界のデータを用いて,好み予測の豊かさと信頼性を評価する数値実験を行った。

This paper is dedicated to a robust ordinal method for learning the preferences of a decision maker between subsets. The decision model, derived from Fishburn and LaValle (1996) and whose parameters we learn, is general enough to be compatible with any strict weak order on subsets, thanks to the consideration of possible interactions between elements. Moreover, we accept not to predict some preferences if the available preference data are not compatible with a reliable prediction. A predicted preference is considered reliable if all the simplest models (Occam's razor) explaining the preference data agree on it. Following the robust ordinal regression methodology, our predictions are based on an uncertainty set encompassing the possible values of the model parameters. We define a robust ordinal dominance relation between subsets and we design a procedure to determine whether this dominance relation holds. Numerical tests are provided on synthetic and real-world data to evaluate the richness and reliability of the preference predictions made.
翻訳日:2023-08-08 14:32:01 公開日:2023-08-07
# 大規模行動空間を用いたオフポリティ評価のための二重ロバスト推定器

Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces ( http://arxiv.org/abs/2308.03443v1 )

ライセンス: Link先を確認
Tatsuhiro Shimizu(参考訳) 大規模行動空間を持つコンテキスト的帯域設定におけるオフ・ポリティ・アセスメント(OPE)について検討する。 ベンチマーク評価者は厳しいバイアスと分散トレードオフに苦しむ。 パラメトリックアプローチは正しいモデルを特定するのが難しいためバイアスに悩まされるが、重みのあるアプローチはばらつきに悩まされる。 これらの制限を克服するため、推定器の分散を緩和するためにMarginalized Inverse Propensity Scoring (MIPS) が提案された。 推定器をより正確にするために,mprの2重ロバストな推定器であるmarginalized doubly robust (mdr) estimatorを提案する。 理論的解析により,提案した推定器はMIPSよりも弱い仮定の下では偏りがなく,IPSに対する分散低減は維持されている。 実証実験は、既存の推定値に対するMDRの優位性を検証する。

We study Off-Policy Evaluation (OPE) in contextual bandit settings with large action spaces. The benchmark estimators suffer from severe bias and variance tradeoffs. Parametric approaches suffer from bias due to difficulty specifying the correct model, whereas ones with importance weight suffer from variance. To overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was proposed to mitigate the estimator's variance via embeddings of an action. To make the estimator more accurate, we propose the doubly robust estimator of MIPS called the Marginalized Doubly Robust (MDR) estimator. Theoretical analysis shows that the proposed estimator is unbiased under weaker assumptions than MIPS while maintaining variance reduction against IPS, which was the main advantage of MIPS. The empirical experiment verifies the supremacy of MDR against existing estimators.
翻訳日:2023-08-08 14:23:45 公開日:2023-08-07
# 固有スペクトルに基づく量子共分散行列の分類に関する結果

A Result About the Classification of Quantum Covariance Matrices Based on Their Eigenspectra ( http://arxiv.org/abs/2308.03439v1 )

ライセンス: Link先を確認
Arik Avagyan(参考訳) 有限自由度を持つ連続変数量子システムの有効な共分散行列の集合は、ハイゼンベルクの不確実性原理による実正定値行列の集合の厳密な部分集合である。 これは、一般に、対角量子共分散行列のすべての直交変換が有効な量子共分散行列を生成するわけではないことを意味する。 したがって自然問題が起こり、与えられた固有スペクトルと一致する量子共分散行列の集合を見つける。 純粋ガウス状態の特別なクラスについて、与えられた固有スペクトルを持つ量子共分散行列の集合は直交シンプレクティック群の作用の1つの軌道からなる。 この種類の状態の共分散行列の固有スペクトルは、それぞれ1に乗算するペアで構成されている。 このクラスの任意の固有スペクトルに対応する量子共分散行列の集合が直交シンプレクティック変換によって関連しているという性質を持つ、より大きい非自明な固有スペクトルのクラスを記述する。 さらに、この性質を持つ非退化固有スペクトルは、このクラスに属しなければならず、そのような固有スペクトルの集合は、ガウス状態の物理的に関連する熱的およびスクイーズ的パラメータを識別する非退化固有スペクトルのクラスと一致することを示す。

The set of valid covariance matrices of a continuous-variable quantum system with a finite number of degrees of freedom is a strict subset of the set of real positive-definite matrices due to Heisenberg's uncertainty principle. This has the implication that, in general, not every orthogonal transform of a diagonal quantum covariance matrix produces a valid quantum covariance matrix. A natural question thus arises, to find the set of quantum covariance matrices consistent with a given eigenspectrum. For the special class of pure Gaussian states the set of quantum covariance matrices with a given eigenspectrum consists of a single orbit of the action of the orthogonal symplectic group. The eigenspectra of the covariance matrices of this class of states are composed of pairs that each multiply to one. We describe a larger non-trivial class of eigenspectra with the property that the set of quantum covariance matrices corresponding to any eigenspectrum in this class are related by orthogonal symplectic transformations. Further, we show that all non-degenerate eigenspectra with this property must belong to this class, and that the set of such eigenspectra coincides with the class of non-degenerate eigenspectra that identify the physically relevant thermal and squeezing parameters of a Gaussian state.
翻訳日:2023-08-08 14:23:28 公開日:2023-08-07
# rcmha: 自然言語モデリングにおける相対畳み込み多頭注意

RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling ( http://arxiv.org/abs/2308.03429v1 )

ライセンス: Link先を確認
Herman Sugiharto, Aradea, Husni Mubarok(参考訳) Attentionモジュールは言語モデリングで一般的な使用法を見つけ、自然言語処理の幅広い範囲で異なる課題を提示している。 MHA(Multi-Head Attention)は絶対的な位置符号化を採用しており、トークン長に制限を課し、組み込み入力処理中にかなりのメモリ消費を伴っている。 研究者によって提案された現在の修正は、transform-xlやrelative multi-head attention (rmha)で採用されているアプローチと同様の相対的位置符号化の利用である。 これらの課題に対処するため,本研究では,メモリ使用量を最小限に抑えた精度向上を約束するDepth-Wise Convolutional Layerアーキテクチャと合わせて,相対的な位置エンコーディングを活用し,MHAを改良する試みを行った。 提案するrcmhaフレームワークは,まず,入力埋め込みへの奥行き方向畳み込み層の適用,クエリー,キー,値パラメータの包含,第2に,相対位置符号化をアテンションスコアリングフェーズに組み込み,スケールド・ドット製品アテンションと調和して統合する,2つの統合コンポーネントの修正を伴っている。 実証実験はRCMHAの利点を強調しており、MHA、MDHA、RMHAなどの他の注意モジュールと比較して0.572のスコアを誇っている。 メモリ利用に関して、rmhaは最も粗末で、平均2.98 gbの消費を示し、3.5 gbを必要とするrmhaを上回っている。

The Attention module finds common usage in language modeling, presenting distinct challenges within the broader scope of Natural Language Processing. Multi-Head Attention (MHA) employs an absolute positional encoding, which imposes limitations on token length and entails substantial memory consumption during the processing of embedded inputs. The current remedy proposed by researchers involves the utilization of relative positional encoding, similar to the approach adopted in Transformer-XL or Relative Multi-Head Attention (RMHA), albeit the employed architecture consumes considerable memory resources. To address these challenges, this study endeavors to refine MHA, leveraging relative positional encoding in conjunction with the Depth-Wise Convolutional Layer architecture, which promises heightened accuracy coupled with minimized memory usage. The proposed RCMHA framework entails the modification of two integral components: firstly, the application of the Depth-Wise Convolutional Layer to the input embedding, encompassing Query, Key, and Value parameters; secondly, the incorporation of Relative Positional Encoding into the attention scoring phase, harmoniously integrated with Scaled Dot-Product Attention. Empirical experiments underscore the advantages of RCMHA, wherein it exhibits superior accuracy, boasting a score of 0.572 in comparison to alternative attention modules such as MHA, Multi-DConv-Head Attention (MDHA), and RMHA. Concerning memory utilization, RMHA emerges as the most frugal, demonstrating an average consumption of 2.98 GB, surpassing RMHA which necessitates 3.5 GB.
翻訳日:2023-08-08 14:23:08 公開日:2023-08-07
# TPTU:大規模言語モデルベースAIエージェントのタスクプランニングとツール利用

TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents ( http://arxiv.org/abs/2308.03427v1 )

ライセンス: Link先を確認
Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Xingyu Zeng, Rui Zhao(参考訳) 近年の自然言語処理の進歩により、Large Language Models (LLM) は様々な現実世界のアプリケーションのための強力なツールとして登場した。 それらの長所にもかかわらず、LLMの本質的な生成能力は、タスク計画と外部ツールの使用を必要とする複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案し,複雑な問題に対処するために必要な重要な機能について議論する。 このフレームワーク内では、推論プロセスを実行するために2つの異なるタイプのエージェント(すなわち、ワンステップエージェントとシーケンシャルエージェント)を設計する。 その後、様々なLCMを用いてフレームワークをインスタンス化し、典型的なタスクにおけるタスク計画とツール利用(TPTU)能力を評価する。 私たちのゴールは、重要な発見と課題を強調することで、研究者や実践者がAIアプリケーションでLLMのパワーを活用する上で有用なリソースを提供することです。 本研究は,これらのモデルの有効性を強調し,さらなる調査と改善を必要とする領域を特定する。

With recent advancements in natural language processing, Large Language Models (LLMs) have emerged as powerful tools for various real-world applications. Despite their prowess, the intrinsic generative abilities of LLMs may prove insufficient for handling complex tasks which necessitate a combination of task planning and the usage of external tools. In this paper, we first propose a structured framework tailored for LLM-based AI Agents and discuss the crucial capabilities necessary for tackling intricate problems. Within this framework, we design two distinct types of agents (i.e., one-step agent and sequential agent) to execute the inference process. Subsequently, we instantiate the framework using various LLMs and evaluate their Task Planning and Tool Usage (TPTU) abilities on typical tasks. By highlighting key findings and challenges, our goal is to provide a helpful resource for researchers and practitioners to leverage the power of LLMs in their AI applications. Our study emphasizes the substantial potential of these models, while also identifying areas that need more investigation and improvement.
翻訳日:2023-08-08 14:22:37 公開日:2023-08-07
# 動的エラースケーリング機構を用いた中国のASR誤り訂正

Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism ( http://arxiv.org/abs/2308.03423v1 )

ライセンス: Link先を確認
Jiaxin Fan, Yong Zhang, Hanzhang Li, Jianzong Wang, Zhitao Li, Sheng Ouyang, Ning Cheng, Jing Xiao(参考訳) 中国語の自動音声認識(asr)の誤り訂正は、大きな文字セットと境界のない形態素に基づく構造を含む、中国語のユニークな特徴のために重大な課題がある。 現在の主流モデルは、しばしば単語レベルの特徴と音声情報を有効に活用するのに苦労する。 そこで本稿では,ASR出力による誤りテキストの検出と訂正を行う動的エラースケーリング機構を取り入れた新しい手法を提案する。 このメカニズムは、単語レベルの特徴と音声情報を動的に融合することにより、追加のセマンティックデータでモデルを強化する。 さらに,不正確な文字による誤語マッチング問題に対処するために,一意な誤り低減と増幅戦略を実装した。 実験の結果,asr誤差補正の大幅な改善,提案手法の有効性の実証,確立したデータセットに有望な結果が得られた。

Chinese Automatic Speech Recognition (ASR) error correction presents significant challenges due to the Chinese language's unique features, including a large character set and borderless, morpheme-based structure. Current mainstream models often struggle with effectively utilizing word-level features and phonetic information. This paper introduces a novel approach that incorporates a dynamic error scaling mechanism to detect and correct phonetically erroneous text generated by ASR output. This mechanism operates by dynamically fusing word-level features and phonetic information, thereby enriching the model with additional semantic data. Furthermore, our method implements unique error reduction and amplification strategies to address the issues of matching wrong words caused by incorrect characters. Experimental results indicate substantial improvements in ASR error correction, demonstrating the effectiveness of our proposed method and yielding promising results on established datasets.
翻訳日:2023-08-08 14:22:21 公開日:2023-08-07
# 対話型質問応答のためのプロンプトガイドコピー機構

Prompt Guided Copy Mechanism for Conversational Question Answering ( http://arxiv.org/abs/2308.03422v1 )

ライセンス: Link先を確認
Yong Zhang, Zhitao Li, Jianzong Wang, Yiming Gao, Ning Cheng, Fengying Yu, Jing Xiao(参考訳) CQA(Conversational Question Answering)は,会話フロー質問に対する自然な回答を生成することを目的とした課題である。 本稿では,抽出された回答の流速と適切性を改善するために,新しいプロンプト誘導コピー機構を導入した抽出方法に対するプラグ可能なアプローチを提案する。 提案手法では,質問と回答をリンクするプロンプトを用いて,抽出された回答の自然性を検証するためのコピー機構を案内し,回答が流布し,適切であることを保証するために必要な編集を行う。 3つのプロンプト、例えば、質問-合理関係プロンプト、質問記述プロンプト、会話履歴プロンプトは、コピー機構の性能を高める。 本実験は,本手法が自然回答の生成を効果的に促進し,CoQA課題において良好な結果をもたらすことを示す。

Conversational Question Answering (CQA) is a challenging task that aims to generate natural answers for conversational flow questions. In this paper, we propose a pluggable approach for extractive methods that introduces a novel prompt-guided copy mechanism to improve the fluency and appropriateness of the extracted answers. Our approach uses prompts to link questions to answers and employs attention to guide the copy mechanism to verify the naturalness of extracted answers, making necessary edits to ensure that the answers are fluent and appropriate. The three prompts, including a question-rationale relationship prompt, a question description prompt, and a conversation history prompt, enhance the copy mechanism's performance. Our experiments demonstrate that this approach effectively promotes the generation of natural answers and achieves good results in the CoQA challenge.
翻訳日:2023-08-08 14:22:06 公開日:2023-08-07
# RecycleGPT: リサイクル可能なモジュールを備えた自動回帰言語モデル

RecycleGPT: An Autoregressive Language Model with Recyclable Module ( http://arxiv.org/abs/2308.03421v1 )

ライセンス: Link先を確認
Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, Kunpeng Wang, Wenlai Zhao, Guangwen Yang(参考訳) 既存の大きな言語モデルは、Kトークンのシーケンスを生成するためにK回実行する必要がある。 本稿では,複数のステップでモデル全体を動作させることなく,事前生成したモデル状態をリサイクルすることで,高速な復号化速度を持つ生成言語モデルRecycleGPTを提案する。 提案手法は,シーケンス内の隣接トークンは通常強い相関関係を持ち,シーケンス内の次のトークンは前列のトークンに基づいて合理的に推測あるいは推測できるという観測に基づく。 下流テキスト生成タスクにおける理論的評価と実用的なテストを通じて,提案手法の有効性を実証し,高い性能を維持しつつ,最大1.4倍の高速化を実現する。

Existing large language models have to run K times to generate a sequence of K tokens. In this paper, we present RecycleGPT, a generative language model with fast decoding speed by recycling pre-generated model states without running the whole model in multiple steps. Our approach relies on the observation that adjacent tokens in a sequence usually have strong correlations and the next token in a sequence can be reasonably guessed or inferred based on the preceding ones. Through theoretical evaluations and practical tests on downstream text generation tasks, we demonstrate the effectiveness of our approach in lowering inference latency, achieving up to 1.4x speedup while preserving high performance.
翻訳日:2023-08-08 14:21:49 公開日:2023-08-07
# PURL: リンクデコレーションの安全で効果的な衛生化

PURL: Safe and Effective Sanitization of Link Decoration ( http://arxiv.org/abs/2308.03417v1 )

ライセンス: Link先を確認
Shaoor Munir, Patrick Lee, Umar Iqbal, Zubair Shafiq, Sandra Siby(参考訳) プライバシーを重視したブラウザは、サードパーティのクッキーやブラウザの指紋認証をブロックする措置を講じている。 トラッカは、採用する追跡技術に関係なく、クライアントからサーバ側へリンクデコレーションを通じて情報を流出させる必要があるため、デコレーションされたリンク内のトラッキング情報を検出および浄化する有望な直交アプローチである。 PURLは、Webページ実行の層間グラフ表現を利用して、リンクの装飾を安全かつ効果的に衛生化する機械学習手法である。 評価の結果,purlは,従来の回避手法に対して頑健でありながら,正確性とwebサイト破損の低減の観点から,既存の対策を大きく上回っていることがわかった。 上位100万のウェブサイトでPURLを用いて測定を行った。 リンクの装飾は、よく知られた広告主やトラッカーによって広く悪用され、ブラウザのストレージ、メールアドレス、指紋認証に関わるスクリプトから収集されたユーザー情報を流出させる。

While privacy-focused browsers have taken steps to block third-party cookies and browser fingerprinting, novel tracking methods that bypass existing defenses continue to emerge. Since trackers need to exfiltrate information from the client- to server-side through link decoration regardless of the tracking technique they employ, a promising orthogonal approach is to detect and sanitize tracking information in decorated links. We present PURL, a machine-learning approach that leverages a cross-layer graph representation of webpage execution to safely and effectively sanitize link decoration. Our evaluation shows that PURL significantly outperforms existing countermeasures in terms of accuracy and reducing website breakage while being robust to common evasion techniques. We use PURL to perform a measurement study on top-million websites. We find that link decorations are widely abused by well-known advertisers and trackers to exfiltrate user information collected from browser storage, email addresses, and scripts involved in fingerprinting.
翻訳日:2023-08-08 14:21:36 公開日:2023-08-07
# 低レイテンシ同時音声翻訳におけるエンドツーエンド評価

End-to-End Evaluation for Low-Latency Simultaneous Speech Translation ( http://arxiv.org/abs/2308.03415v1 )

ライセンス: Link先を確認
Christian Huber, Tu Anh Dinh, Carlos Mullov, Ngoc Quan Pham, Thai Binh Nguyen, Fabian Retkowski, Stefan Constantin, Enes Yavuz Ugan, Danni Liu, Zhaolin Li, Sai Koneru, Jan Niehues and Alexander Waibel(参考訳) 低遅延音声翻訳の課題は、最近、いくつかの出版物や共有タスクで示されているように、研究コミュニティにおいて大きな関心を集めている。 したがって、これらの異なるアプローチを現実的なシナリオで評価することが不可欠である。 しかし、現在、システムの特定の側面のみが評価されており、しばしば異なるアプローチを比較することはできない。 本研究では,実環境下で低レイテンシ音声翻訳の様々な側面を遂行し,評価する最初の枠組みを提案する。 評価はエンドツーエンドで行われる。 これには、オーディオのセグメンテーションや、さまざまなコンポーネントの実行時間が含まれる。 第2に,このフレームワークを用いた低遅延音声翻訳に対する異なるアプローチを比較する。 我々は、出力を更新するオプションを持つモデルと、固定出力を持つメソッドを評価する。 さらに、最先端のカスケードシステムとエンドツーエンドシステムを直接比較する。 最後に、フレームワークは翻訳品質とレイテンシを自動的に評価すると同時に、低レイテンシモデルの出力をユーザに示すためのwebインターフェースも提供する。

The challenge of low-latency speech translation has recently draw significant interest in the research community as shown by several publications and shared tasks. Therefore, it is essential to evaluate these different approaches in realistic scenarios. However, currently only specific aspects of the systems are evaluated and often it is not possible to compare different approaches. In this work, we propose the first framework to perform and evaluate the various aspects of low-latency speech translation under realistic conditions. The evaluation is carried out in an end-to-end fashion. This includes the segmentation of the audio as well as the run-time of the different components. Secondly, we compare different approaches to low-latency speech translation using this framework. We evaluate models with the option to revise the output as well as methods with fixed output. Furthermore, we directly compare state-of-the-art cascaded as well as end-to-end systems. Finally, the framework allows to automatically evaluate the translation quality as well as latency and also provides a web interface to show the low-latency model outputs to the user.
翻訳日:2023-08-08 14:21:20 公開日:2023-08-07
# GaFET: 眼内画像からの幾何学的顔表情変換学習

GaFET: Learning Geometry-aware Facial Expression Translation from In-The-Wild Images ( http://arxiv.org/abs/2308.03413v1 )

ライセンス: Link先を確認
Tianxiang Ma, Bingchuan Li, Qian He, Jing Dong, Tieniu Tan(参考訳) 現在の顔アニメーション法は表現を個別に操作できるが、いくつかの制限がある。 動きに基づく顔再現モデルによって操作される表現は粗雑である。 顔のアクションユニットでモデル化された他のアイデアは、アノテーションでカバーされていない任意の表現に一般化することはできない。 本稿では, パラメトリックな3次元表情表現をベースとし, 安定的に表現を分離できる新しい形状認識型表情変換(gafet)フレームワークを提案する。 その中でも, 空間的特徴のアライメント課題に対処しつつ, 非幾何学的顔ディテールを補完する多レベル特徴アライメントトランスが提案されている。 In-the-wild 画像における GaFET の学習難度を低減するために,StyleGAN に基づくデプレッションモデルを設計する。 定性的かつ定量的な実験により、最先端の手法と比較して高品質で正確な表情伝達結果が得られ、様々なポーズや複雑なテクスチャの適用性を示す。 また,動画やアノテートされたトレーニングデータは省略され,使用や一般化が容易になる。

While current face animation methods can manipulate expressions individually, they suffer from several limitations. The expressions manipulated by some motion-based facial reenactment models are crude. Other ideas modeled with facial action units cannot generalize to arbitrary expressions not covered by annotations. In this paper, we introduce a novel Geometry-aware Facial Expression Translation (GaFET) framework, which is based on parametric 3D facial representations and can stably decoupled expression. Among them, a Multi-level Feature Aligned Transformer is proposed to complement non-geometric facial detail features while addressing the alignment challenge of spatial features. Further, we design a De-expression model based on StyleGAN, in order to reduce the learning difficulty of GaFET in unpaired "in-the-wild" images. Extensive qualitative and quantitative experiments demonstrate that we achieve higher-quality and more accurate facial expression transfer results compared to state-of-the-art methods, and demonstrate applicability of various poses and complex textures. Besides, videos or annotated training data are omitted, making our method easier to use and generalize.
翻訳日:2023-08-08 14:21:07 公開日:2023-08-07
# Deepfake Detection: 比較分析

Deepfake Detection: A Comparative Analysis ( http://arxiv.org/abs/2308.03471v1 )

ライセンス: Link先を確認
Sohail Ahmed Khan and Duc-Tien Dang-Nguyen(参考訳) 本稿では,ディープフェイク検出のための教師付きモデルと自己監督型モデルの総合的比較分析を行う。 本研究では,FakeAVCeleb,CelebDF-V2,DFDC,FaceForensics++の4つのベンチマークを用いて,教師付きディープラーニングアーキテクチャと,自己教師型戦略(DINO,CLIP)を用いた2つのトランスフォーマーベースモデルの評価を行った。 分析には、データセット内およびデータセット間評価、最高のパフォーマンスモデル、一般化機能、拡張の影響などが含まれる。 また,モデルのサイズと性能のトレードオフについても検討する。 私たちの主な目標は、異なるディープラーニングアーキテクチャ(トランスフォーマー、CNN)、トレーニング戦略(教師、自己管理)、ディープフェイク検出ベンチマークの有効性に関する洞察を提供することです。 これらの知見は、個人や社会に対するディープフェイクの有害な影響を緩和するために重要な、より正確で信頼性の高いディープフェイク検知システムの開発を導くのに役立つ。

This paper present a comprehensive comparative analysis of supervised and self-supervised models for deepfake detection. We evaluate eight supervised deep learning architectures and two transformer-based models pre-trained using self-supervised strategies (DINO, CLIP) on four benchmarks (FakeAVCeleb, CelebDF-V2, DFDC, and FaceForensics++). Our analysis includes intra-dataset and inter-dataset evaluations, examining the best performing models, generalisation capabilities, and impact of augmentations. We also investigate the trade-off between model size and performance. Our main goal is to provide insights into the effectiveness of different deep learning architectures (transformers, CNNs), training strategies (supervised, self-supervised), and deepfake detection benchmarks. These insights can help guide the development of more accurate and reliable deepfake detection systems, which are crucial in mitigating the harmful impact of deepfakes on individuals and society.
翻訳日:2023-08-08 14:16:44 公開日:2023-08-07
# RoadScan: 道路における自動ポットホール検出のための新しいロバストトランスファー学習フレームワーク

RoadScan: A Novel and Robust Transfer Learning Framework for Autonomous Pothole Detection in Roads ( http://arxiv.org/abs/2308.03467v1 )

ライセンス: Link先を確認
Guruprasad Parasnis, Anmol Chokshi, Kailas Devadkar(参考訳) 本研究では,ディープラーニングと画像処理技術を用いたポットホール検出手法を提案する。 提案システムは,VGG16モデルを用いて特徴抽出を行い,RoadScanと呼ばれるトリプルト損失を持つカスタムのSiameseネットワークを利用する。 このシステムは、道路利用者に重大なリスクをもたらす道路上の穴の重大な問題に対処することを目的としている。 道路上の穴による事故は、多くの事故を引き起こした。 ポットホールを完全に取り除く必要があるが、時間のかかる工程である。 したがって、一般道路利用者は損傷を避けるため、安全な距離から穴を検知できる必要がある。 既存のポットホール検出法は、道路やポットホールの構造やテクスチャの類似性により故障の確率が高い物体検出アルゴリズムに大きく依存している。 さらに、これらのシステムは数百万のパラメータを利用するため、一般市民向けの小規模アプリケーションではモデルの使用が困難になる。 多様な画像処理手法と多種多様なハイパフォーマンスネットワークを解析することにより,ポットホールを正確に検出する際の優れた性能を実現する。 精度、EER、精度、リコール、AUROCなどの評価指標は、システムの有効性を検証する。 さらに,本モデルでは,少ないパラメータとデータを用いて計算効率と費用対効果を示す。 この研究は、交通分野における技術の重要性と、道路安全と利便性を高める可能性を強調している。 このモデルで提案されたネットワークは96.12 %の精度、3.89 %のEER、0.988のAUROC値で動作し、これは他の最先端技術と非常に競合する。

This research paper presents a novel approach to pothole detection using Deep Learning and Image Processing techniques. The proposed system leverages the VGG16 model for feature extraction and utilizes a custom Siamese network with triplet loss, referred to as RoadScan. The system aims to address the critical issue of potholes on roads, which pose significant risks to road users. Accidents due to potholes on the roads have led to numerous accidents. Although it is necessary to completely remove potholes, it is a time-consuming process. Hence, a general road user should be able to detect potholes from a safe distance in order to avoid damage. Existing methods for pothole detection heavily rely on object detection algorithms which tend to have a high chance of failure owing to the similarity in structures and textures of a road and a pothole. Additionally, these systems utilize millions of parameters thereby making the model difficult to use in small-scale applications for the general citizen. By analyzing diverse image processing methods and various high-performing networks, the proposed model achieves remarkable performance in accurately detecting potholes. Evaluation metrics such as accuracy, EER, precision, recall, and AUROC validate the effectiveness of the system. Additionally, the proposed model demonstrates computational efficiency and cost-effectiveness by utilizing fewer parameters and data for training. The research highlights the importance of technology in the transportation sector and its potential to enhance road safety and convenience. The network proposed in this model performs with a 96.12 % accuracy, 3.89 % EER, and a 0.988 AUROC value, which is highly competitive with other state-of-the-art works.
翻訳日:2023-08-08 14:16:23 公開日:2023-08-07
# 広いギャップとクラスタリング公理

Wide Gaps and Clustering Axioms ( http://arxiv.org/abs/2308.03464v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek(参考訳) 広く応用されたk平均アルゴリズムは、高い/低い類似性/密度に関して我々の期待に反するクラスタリングを生成し、これらの期待を自然な方法で形式化する距離ベースクラスタリングアルゴリズムに対するクラインバーグの公理的システムと矛盾している。 k-平均は特に一貫性公理に反する。 この衝突は、アルゴリズムのクラスタリングヘムがクラスタリングの公理系に適合することを期待するために、データ自体がクラスタリング可能な性質を持つべきだという明示的な期待によるものである。 これを示すために、変分 k-分離性と残留 k-分離性という2つの新しいクラスタビリティ特性を導入し、クラインバーグの一貫性公理がユークリッド空間や非ユークリッド空間で作用するk-平均に対して成り立つことを示す。 さらに,k-means に当てはまらない Kleinberg のリッチネス公理にほぼ一致する k-means アルゴリズムの拡張を提案する。 このようにして、k-平均をユークリッドおよび非ユークリッド設定におけるクラインバーグの公理的枠組みと調和させる。 クラスタリングとクラスタ性理論の公理的枠組みの理論への貢献の他に、k平均コスト関数を最適化するアルゴリズムをテストするためにデータセットを構築することができる。 これには、事前にグローバルな最適化が知られている {clusterable data の構築方法が含まれる。

The widely applied k-means algorithm produces clusterings that violate our expectations with respect to high/low similarity/density and is in conflict with Kleinberg's axiomatic system for distance based clustering algorithms that formalizes those expectations in a natural way. k-means violates in particular the consistency axiom. We hypothesise that this clash is due to the not explicated expectation that the data themselves should have the property of being clusterable in order to expect the algorithm clustering hem to fit a clustering axiomatic system. To demonstrate this, we introduce two new clusterability properties, variational k-separability and residual k-separability and show that then the Kleinberg's consistency axiom holds for k-means operating in the Euclidean or non-Euclidean space. Furthermore, we propose extensions of k-means algorithm that fit approximately the Kleinberg's richness axiom that does not hold for k-means. In this way, we reconcile k-means with Kleinberg's axiomatic framework in Euclidean and non-Euclidean settings. Besides contribution to the theory of axiomatic frameworks of clustering and for clusterability theory, practical contribution is the possibility to construct {datasets for testing purposes of algorithms optimizing k-means cost function. This includes a method of construction of {clusterable data with known in advance global optimum.
翻訳日:2023-08-08 14:15:56 公開日:2023-08-07
# DiffSynth:リアルタイムビデオ合成のための遅延インイテレーションデクリッカ

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis ( http://arxiv.org/abs/2308.03463v1 )

ライセンス: Link先を確認
Zhongjie Duan, Lizhou You, Chengyu Wang, Cen Chen, Ziheng Wu, Weining Qian, Jun Huang, Fei Chao, Rongrong Ji(参考訳) 近年、拡散モデルが画像合成における最も強力なアプローチとして登場している。 しかし、これらのモデルをビデオ合成に直接適用することは、しばしば目立ったフリックングコンテンツにつながるため、課題となる。 最近提案されたゼロショット法は、フリックをある程度緩和するが、コヒーレントなビデオを生成するのに苦労している。 本稿では,画像合成パイプラインをビデオ合成パイプラインに変換する新しい手法であるDiffSynthを提案する。 DiffSynthは2つの重要なコンポーネントで構成されている。 潜像デクリッカリングフレームワークは、拡散モデルの潜像空間にビデオデクリッカリングを適用し、中間ステップにおけるフレッカの蓄積を効果的に防止する。 さらに、異なるフレーム内のオブジェクトをリマップし、それらをブレンドしてビデオ一貫性を高める、patch blending algorithmというビデオデクリッカーアルゴリズムを提案する。 diffsynthの顕著な利点の1つは、テキスト誘導ビデオスタイライゼーション、ファッションビデオ合成、画像誘導ビデオスタイライゼーション、ビデオ復元、および3dレンダリングなど、様々なビデオ合成タスクへの一般的な適用である。 テキスト誘導型ビデオスタイリングのタスクでは,チェリーピッキングなしで高品質な映像を合成することができる。 実験結果はDiffSynthの有効性を示した。 すべてのビデオはプロジェクトのページで見ることができる。 ソースコードもリリースされる予定だ。

In recent years, diffusion models have emerged as the most powerful approach in image synthesis. However, applying these models directly to video synthesis presents challenges, as it often leads to noticeable flickering contents. Although recently proposed zero-shot methods can alleviate flicker to some extent, we still struggle to generate coherent videos. In this paper, we propose DiffSynth, a novel approach that aims to convert image synthesis pipelines to video synthesis pipelines. DiffSynth consists of two key components: a latent in-iteration deflickering framework and a video deflickering algorithm. The latent in-iteration deflickering framework applies video deflickering to the latent space of diffusion models, effectively preventing flicker accumulation in intermediate steps. Additionally, we propose a video deflickering algorithm, named patch blending algorithm, that remaps objects in different frames and blends them together to enhance video consistency. One of the notable advantages of DiffSynth is its general applicability to various video synthesis tasks, including text-guided video stylization, fashion video synthesis, image-guided video stylization, video restoring, and 3D rendering. In the task of text-guided video stylization, we make it possible to synthesize high-quality videos without cherry-picking. The experimental results demonstrate the effectiveness of DiffSynth. All videos can be viewed on our project page. Source codes will also be released.
翻訳日:2023-08-08 14:15:29 公開日:2023-08-07
# 非IIDデータを用いたフェデレーション学習のためのクロスサイロプロトタイプ校正

Cross-Silo Prototypical Calibration for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2308.03457v1 )

ライセンス: Link先を確認
Zhuang Qi, Lei Meng, Zitan Chen, Han Hu, Hui Lin, Xiangxu Meng(参考訳) Federated Learningは、異なるクライアントのローカルモデルを活用することによって、すべてのクライアントにプライバシ保護方法で一般化する、サーバ側のグローバルモデルを学ぶことを目指している。 既存のソリューションでは、クライアント間の目的関数の正規化や、改善されたモデル一般化機能のための集約メカニズムの改善に重点を置いている。 しかしながら、それらのパフォーマンスは通常、異種データ分散や欠落クラスのようなデータセットバイアスによって制限される。 この問題に対処するために,サーバ側で一貫した特徴空間を学習するために,クライアントから追加のプロトタイプ情報を取得するクロスサイロなプロトタイプキャリブレーション手法(FedCSPC)を提案する。 具体的には、FedCSPCはまずデータプロトタイプモデリング(DPM)モジュールを使用してクラスタリングを通じてデータパターンを学習し、キャリブレーションを支援する。 その後、CSPCモジュールは拡張コントラスト学習法を開発し、明確な決定境界を維持しつつ、効果的にクロスソース機能を一貫した空間に投影できるキャリブレーションの堅牢性を改善する。 さらに、cspcモジュールの実装の容易さとプラグアンドプレイ特性により、さらに注目に値する。 実験は, 性能比較, アブレーション研究, 深部分析, ケーススタディの4つのデータセットで実施され, その結果, FedCSPCは, 校正モデルの指導のもと, 同一クラスの異なるデータソース間で一貫した特徴を学習できることを確認した。 ソースコードはhttps://github.com/qizhuang-qz/FedCSPCで公開されている。

Federated Learning aims to learn a global model on the server side that generalizes to all clients in a privacy-preserving manner, by leveraging the local models from different clients. Existing solutions focus on either regularizing the objective functions among clients or improving the aggregation mechanism for the improved model generalization capability. However, their performance is typically limited by the dataset biases, such as the heterogeneous data distributions and the missing classes. To address this issue, this paper presents a cross-silo prototypical calibration method (FedCSPC), which takes additional prototype information from the clients to learn a unified feature space on the server side. Specifically, FedCSPC first employs the Data Prototypical Modeling (DPM) module to learn data patterns via clustering to aid calibration. Subsequently, the cross-silo prototypical calibration (CSPC) module develops an augmented contrastive learning method to improve the robustness of the calibration, which can effectively project cross-source features into a consistent space while maintaining clear decision boundaries. Moreover, the CSPC module's ease of implementation and plug-and-play characteristics make it even more remarkable. Experiments were conducted on four datasets in terms of performance comparison, ablation study, in-depth analysis and case study, and the results verified that FedCSPC is capable of learning the consistent features across different data sources of the same class under the guidance of calibrated model, which leads to better performance than the state-of-the-art methods. The source codes have been released at https://github.com/qizhuang-qz/FedCSPC.
翻訳日:2023-08-08 14:14:48 公開日:2023-08-07
# コンピュータとネットワークの収束のためのインテリジェンス-環境管理プラットフォーム

Intelligence-Endogenous Management Platform for Computing and Network Convergence ( http://arxiv.org/abs/2308.03450v1 )

ライセンス: Link先を確認
Zicong Hong, Xiaoyu Qiu, Jian Lin, Wuhui Chen, Yue Yu, Hui Wang, Song Guo, Wen Gao(参考訳) 大規模な新興アプリケーションが、今日ではユビキタスなコンピューティングパワーの需要を押し上げている。 この傾向は、近年のemph{Computing and Network Convergence} (CNC) の人気を刺激するだけでなく、CNCにおけるリソースやタスクの変化を調整するための管理プラットフォームのインテリジェント化を急務に必要としている。 そこで本稿では,人工知能技術に基づくCNCのためのインテリジェンス内在的管理プラットフォームである「emph{CNC Brain"」について紹介する。 CNCのライフサイクルを通じて、4つの重要なビルディングブロック、すなわち知覚、スケジューリング、適応、ガバナンスを通じて、CNCの供給と需要と高い不均一性を効率よく自動的にマッチングすることを目的としている。 彼らの機能、目標、課題が提示されます。 提案する概念と枠組みの有効性を検討するために,深層強化学習技術に基づくcnc脳のプロトタイプを実装した。 また、オープンソースの2つのフレームワーク(OpenFaasとKubernetes)とMicrosoft Azureが提供する実世界のビジネスデータセットを統合するCNCテストベッドで評価されている。 評価結果は,資源利用と性能の観点から提案手法の有効性を実証した。 最後に,CNC脳研究の今後の方向性について述べる。

Massive emerging applications are driving demand for the ubiquitous deployment of computing power today. This trend not only spurs the recent popularity of the \emph{Computing and Network Convergence} (CNC), but also introduces an urgent need for the intelligentization of a management platform to coordinate changing resources and tasks in the CNC. Therefore, in this article, we present the concept of an intelligence-endogenous management platform for CNCs called \emph{CNC brain} based on artificial intelligence technologies. It aims at efficiently and automatically matching the supply and demand with high heterogeneity in a CNC via four key building blocks, i.e., perception, scheduling, adaptation, and governance, throughout the CNC's life cycle. Their functionalities, goals, and challenges are presented. To examine the effectiveness of the proposed concept and framework, we also implement a prototype for the CNC brain based on a deep reinforcement learning technology. Also, it is evaluated on a CNC testbed that integrates two open-source and popular frameworks (OpenFaas and Kubernetes) and a real-world business dataset provided by Microsoft Azure. The evaluation results prove the proposed method's effectiveness in terms of resource utilization and performance. Finally, we highlight the future research directions of the CNC brain.
翻訳日:2023-08-08 14:13:55 公開日:2023-08-07
# 事前学習型言語モデルに対する知識保存型プルーニング

Knowledge-preserving Pruning for Pre-trained Language Models without Retraining ( http://arxiv.org/abs/2308.03449v1 )

ライセンス: Link先を確認
Seungcheol Park, Hojun Choi, U Kang(参考訳) 事前訓練された言語モデルを考えると、再訓練せずに効率的に圧縮できるだろうか? リトレーニングフリーな構造化プルーニングアルゴリズムは、大規模言語モデルのプルーニング能力と大幅に削減されたプルーニングコストのために、事前訓練された言語モデルの圧縮に不可欠である。 しかし、既存のリトレーニングフリーアルゴリズムは、事前訓練されたモデルの有用な知識を保存できないため、精度が著しく低下する。 本稿では,事前学習された言語モデルに対する正確なリトレーニングフリー構造化pruningアルゴリズムであるk-pruning(knowledge-preserving pruning)を提案する。 Kプルーニング(K-pruning)は、その固有の知識の量に基づいて、注目の頭とニューロンを同定し、特定する。 k-pruningは、プリトレーニングされたモデルの知識を保存するために、各サブレイヤの知識再構築に続いて、プルーニングの反復プロセスを適用する。 その結果、KプルーニングはSQuADベンチマークで80%の圧縮率で既存のトレーニングなしプルーニングアルゴリズムよりも58.02%p高いF1スコアを示した。

Given a pre-trained language model, how can we efficiently compress it without retraining? Retraining-free structured pruning algorithms are crucial in pre-trained language model compression due to their significantly reduced pruning cost and capability to prune large language models. However, existing retraining-free algorithms encounter severe accuracy degradation, as they fail to preserve the useful knowledge of pre-trained models. In this paper, we propose K-pruning (Knowledge-preserving pruning), an accurate retraining-free structured pruning algorithm for pre-trained language models. K-pruning identifies and prunes attention heads and neurons deemed to be superfluous, based on the amount of their inherent knowledge. K-pruning applies an iterative process of pruning followed by knowledge reconstruction for each sub-layer to preserve the knowledge of the pre-trained models. Consequently, K-pruning shows up to 58.02%p higher F1 score than existing retraining-free pruning algorithms under a high compression rate of 80% on the SQuAD benchmark.
翻訳日:2023-08-08 14:13:22 公開日:2023-08-07
# 2つのペアですべての暗さを照らす:RAWデノイングのための校正不要パイプライン

Lighting Every Darkness in Two Pairs: A Calibration-Free Pipeline for RAW Denoising ( http://arxiv.org/abs/2308.03448v1 )

ライセンス: Link先を確認
Xin Jin, Jia-Wen Xiao, Ling-Hao Han, Chunle Guo, Ruixun Zhang, Xialei Liu, Chongyi Li(参考訳) キャリブレーションに基づく手法は、極めて低照度環境下で生画像のノイズを低減させる。 しかし、これらの手法にはいくつかの欠点がある。 1) 校正手続きは、手間と時間を要する。 2)異なるカメラのデノイザーの転送が困難であり、 3) 合成雑音と実雑音との差は高ディジタルゲインにより増大する。 以上の欠点を克服するために,デジタルゲインやカメラセンサに関係なく,LED(Lighting Every Drakness)のキャリブレーションフリーパイプラインを提案する。 ノイズパラメータの校正やトレーニングを繰り返し行う代わりに,数発のペアデータと微調整のみを対象カメラに適用することができた。 さらに、両段階間のよく設計された構造変更は、余分な計算コストを伴わずに合成ノイズと実雑音の間の領域ギャップを軽減する。 追加のデジタルゲイン毎に2ペア(合計6ペア)と0.5%のイテレーションを施すことで,他のキャリブレーション法よりも優れた性能を実現する。 私たちのコードはhttps://github.com/Srameo/LED で利用可能です。

Calibration-based methods have dominated RAW image denoising under extremely low-light environments. However, these methods suffer from several main deficiencies: 1) the calibration procedure is laborious and time-consuming, 2) denoisers for different cameras are difficult to transfer, and 3) the discrepancy between synthetic noise and real noise is enlarged by high digital gain. To overcome the above shortcomings, we propose a calibration-free pipeline for Lighting Every Drakness (LED), regardless of the digital gain or camera sensor. Instead of calibrating the noise parameters and training repeatedly, our method could adapt to a target camera only with few-shot paired data and fine-tuning. In addition, well-designed structural modification during both stages alleviates the domain gap between synthetic and real noise without any extra computational cost. With 2 pairs for each additional digital gain (in total 6 pairs) and 0.5% iterations, our method achieves superior performance over other calibration-based methods. Our code is available at https://github.com/Srameo/LED .
翻訳日:2023-08-08 14:13:00 公開日:2023-08-07
# 否定文を用いた生体医学知識グラフ埋め込み

Biomedical Knowledge Graph Embeddings with Negative Statements ( http://arxiv.org/abs/2308.03447v1 )

ライセンス: Link先を確認
Rita T. Sousa, Sara Silva, Heiko Paulheim, Catia Pesquita(参考訳) 知識グラフは実世界の実体とその関係の強力な表現である。 これらの関係の大部分は肯定的な言明として定義されるが、否定的な言明の重要性はますます認識され、特にオープンワールドの仮定の下では顕著である。 負のステートメントを明示的に考慮することで、エンティティの要約や質問応答、タンパク質機能予測のようなドメイン固有のタスクのパフォーマンスを向上させることが示されている。 しかし、知識グラフにおけるエンティティのより正確な表現を生成する負のステートメントの可能性にもかかわらず、知識グラフ埋め込みアプローチによる負のステートメントの探索には注意が払われていない。 本稿では,知識グラフ表現学習プロセスに否定文を組み込む新しい手法であるTrueWalksを提案する。 特に,肯定文と否定文を区別するだけでなく,オントロジーに富む知識グラフにおける否定の意味的意味を考慮に入れた,新たな歩行生成手法を提案する。 これは生物医学領域の応用において特に重要であり、オントロジーレベルでの負のステートメントに関する埋め込みアプローチの不備が決定的な限界として認識されている。 オントロジーに富む生物医学知識グラフにおけるTrueWalksの評価は,タンパク質間相互作用予測と遺伝子発現関連予測という,KG埋め込みに基づく2つの異なる予測課題により行われる。 確立されたベンチマークに対して広範囲な分析を行い、本手法が知識グラフのすべてのタスクへの埋め込み性能を向上させることを実証する。

A knowledge graph is a powerful representation of real-world entities and their relations. The vast majority of these relations are defined as positive statements, but the importance of negative statements is increasingly recognized, especially under an Open World Assumption. Explicitly considering negative statements has been shown to improve performance on tasks such as entity summarization and question answering or domain-specific tasks such as protein function prediction. However, no attention has been given to the exploration of negative statements by knowledge graph embedding approaches despite the potential of negative statements to produce more accurate representations of entities in a knowledge graph. We propose a novel approach, TrueWalks, to incorporate negative statements into the knowledge graph representation learning process. In particular, we present a novel walk-generation method that is able to not only differentiate between positive and negative statements but also take into account the semantic implications of negation in ontology-rich knowledge graphs. This is of particular importance for applications in the biomedical domain, where the inadequacy of embedding approaches regarding negative statements at the ontology level has been identified as a crucial limitation. We evaluate TrueWalks in ontology-rich biomedical knowledge graphs in two different predictive tasks based on KG embeddings: protein-protein interaction prediction and gene-disease association prediction. We conduct an extensive analysis over established benchmarks and demonstrate that our method is able to improve the performance of knowledge graph embeddings on all tasks.
翻訳日:2023-08-08 14:12:45 公開日:2023-08-07
# 光とホモダイン検出のコヒーレントな状態による量子力学の仮定の検証

Testing the postulates of quantum mechanics with coherent states of light and homodyne detection ( http://arxiv.org/abs/2308.03446v1 )

ライセンス: Link先を確認
Lorcan O. Conlon, Angus Walsh, Yuhan Hua, Oliver Thearle, Tobias Vogl, Falk Eilenberger, Ping Koy Lam and Syed M. Assad(参考訳) 量子力学は、これまであらゆる実験テストに耐えてきた。 しかし、実験的な検証を必要とするアドホックな仮定に依存している。 過去10年間、これらの仮定を試験する多くの研究が行われており、ボルンの法則の確率とヒルベルト空間の複雑な性質を決定するためのテストが数多く行われている。 これらのテストは、教科書量子理論との大きな違いを明らかにしていないが、そのようなテストは異なる構成と異なる量子状態を用いて行うことが重要である。 ここでは,3アーム干渉計とホモダイン検出を組み合わせた光のコヒーレント状態を用いた最初の実験を行う。 提案する構成では、追加の仮定が必要となるが、以前のテストに比べて大きなヒルベルト空間に存在する量子状態を使用することができる。 ボルンの法則をテストするとき、第3次干渉は$\kappa$ = 0.002 $\pm$ 0.004 となり、量子力学が複雑であるかどうかをテストするとき、F = 1.0000 $\pm$ 0.0003 のペレスパラメータを求める(F = 1 は期待される複素量子力学に対応する)。 我々はまた、グラウバーの光学コヒーレンス理論をテストするために実験を用いる。

Quantum mechanics has withstood every experimental test thus far. However, it relies on ad-hoc postulates which require experimental verification. Over the past decade there has been a great deal of research testing these postulates, with numerous tests of Born's rule for determining probabilities and the complex nature of the Hilbert space being carried out. Although these tests are yet to reveal any significant deviation from textbook quantum theory, it remains important to conduct such tests in different configurations and using different quantum states. Here we perform the first such test using coherent states of light in a three-arm interferometer combined with homodyne detection. Our proposed configuration requires additional assumptions, but allows us to use quantum states which exist in a larger Hilbert space compared to previous tests. For testing Born's rule, we find that the third order interference is bounded to be $\kappa$ = 0.002 $\pm$ 0.004 and for testing whether quantum mechanics is complex or not we find a Peres parameter of F = 1.0000 $\pm$ 0.0003 (F = 1 corresponds to the expected complex quantum mechanics). We also use our experiment to test Glauber's theory of optical coherence.
翻訳日:2023-08-08 14:12:19 公開日:2023-08-07
# 近接電界を用いた製造ラインにおける作業者の活動認識

Worker Activity Recognition in Manufacturing Line Using Near-body Electric Field ( http://arxiv.org/abs/2308.03514v1 )

ライセンス: Link先を確認
Sungho Suh, Vitor Fortes Rey, Sizhen Bian, Yu-Chi Huang, Jo\v{z}e M. Ro\v{z}anec, Hooman Tavakoli Ghinani, Bo Zhou, Paul Lukowicz(参考訳) 製造業は高度なセンシングと制御システムを導入することで生産効率と製品品質の向上に努めている。 ウェアラブルセンサーはこの目標を達成するための有望なソリューションとして登場しており、製造ラインにおける労働者の活動の連続的で控えめな監視を提供することができる。 本稿では, imuとボディキャパシタンスセンシングモジュールを組み合わせて, 製造ラインにおける作業者の活動を認識する新しいウェアラブルセンシングプロトタイプを提案する。 これらのマルチモーダルセンサデータを扱うために,マルチチャネル時系列畳み込みニューラルネットワークと深部畳み込みLSTMのための早期・後期センサデータ融合手法を提案する。 製造ラインのテストベッドにおいて,提案するセンシングプロトタイプとapple watchを用いてセンサデータを収集し,アノテートすることにより,提案ハードウェアおよびニューラルネットワークモデルを評価する。 実験の結果,提案手法はベースライン法と比較して優れた性能を示し,製造業における実世界の応用の可能性を示している。 さらに、ボディコンデンサセンサと機能融合法によるセンシングプロトタイプは6.35%向上し、ボディコンデンサセンサとApple Watchデータを使用せずに、提案したセンシングプロトタイプよりも9.38%高いマクロF1スコアが得られる。

Manufacturing industries strive to improve production efficiency and product quality by deploying advanced sensing and control systems. Wearable sensors are emerging as a promising solution for achieving this goal, as they can provide continuous and unobtrusive monitoring of workers' activities in the manufacturing line. This paper presents a novel wearable sensing prototype that combines IMU and body capacitance sensing modules to recognize worker activities in the manufacturing line. To handle these multimodal sensor data, we propose and compare early, and late sensor data fusion approaches for multi-channel time-series convolutional neural networks and deep convolutional LSTM. We evaluate the proposed hardware and neural network model by collecting and annotating sensor data using the proposed sensing prototype and Apple Watches in the testbed of the manufacturing line. Experimental results demonstrate that our proposed methods achieve superior performance compared to the baseline methods, indicating the potential of the proposed approach for real-world applications in manufacturing industries. Furthermore, the proposed sensing prototype with a body capacitive sensor and feature fusion method improves by 6.35%, yielding a 9.38% higher macro F1 score than the proposed sensing prototype without a body capacitive sensor and Apple Watch data, respectively.
翻訳日:2023-08-08 14:03:57 公開日:2023-08-07
# 多層建物における正常・避難道探索時の決定点選択予測のためのデータ駆動手法

A data-driven approach to predict decision point choice during normal and evacuation wayfinding in multi-story buildings ( http://arxiv.org/abs/2308.03511v1 )

ライセンス: Link先を確認
Yan Feng, Panchamy Krishnakumari(参考訳) 複合建築物における歩行者経路選択行動の理解は,歩行者の安全を確保する上で重要である。 これまでの研究では、従来のデータ収集手法と離散的選択モデルを使用して、歩行者の経路や出口選択、特に単純な屋内環境に対するさまざまな要因の影響を理解してきた。 しかし、複雑な建物の歩行者道選択に関する研究は依然として限られている。 本稿では,多層建物における通常および緊急時の歩行者選択点の理解と予測のためのデータ駆動手法を提案する。 そこで我々はまず室内ネットワーク表現を構築し,VR座標を室内表現にマッピングするデータマッピング手法を提案した。 次に,多層建物における4つのウェイフィニング作業中の経路に沿った歩行者決定点選択を予測するために,ランダムフォレスト(RF)モデルを用いた。 多階建てビルの歩行者行動データは仮想現実実験によって収集された。 その結果,ロジスティック回帰モデルと比較して,rfモデル(平均93%)を用いた決定点の予測精度が有意に高かった。 最大予測精度はタスク3で96%であった。 さらに,個人特性を組み合わせたモデル性能を検証したところ,個人特性が決定点選択に影響しないことが判明した。 本稿では,複雑な屋内建物における歩行者経路選択行動の研究に機械学習アルゴリズムを適用する可能性を示す。

Understanding pedestrian route choice behavior in complex buildings is important to ensure pedestrian safety. Previous studies have mostly used traditional data collection methods and discrete choice modeling to understand the influence of different factors on pedestrian route and exit choice, particularly in simple indoor environments. However, research on pedestrian route choice in complex buildings is still limited. This paper presents a data-driven approach for understanding and predicting the pedestrian decision point choice during normal and emergency wayfinding in a multi-story building. For this, we first built an indoor network representation and proposed a data mapping technique to map VR coordinates to the indoor representation. We then used a well-established machine learning algorithm, namely the random forest (RF) model to predict pedestrian decision point choice along a route during four wayfinding tasks in a multi-story building. Pedestrian behavioral data in a multi-story building was collected by a Virtual Reality experiment. The results show a much higher prediction accuracy of decision points using the RF model (i.e., 93% on average) compared to the logistic regression model. The highest prediction accuracy was 96% for task 3. Additionally, we tested the model performance combining personal characteristics and we found that personal characteristics did not affect decision point choice. This paper demonstrates the potential of applying a machine learning algorithm to study pedestrian route choice behavior in complex indoor buildings.
翻訳日:2023-08-08 14:03:35 公開日:2023-08-07
# 光カゴメ格子上の3成分ボースガス中のアベリア及び非アベリア量子スピン液体

Abelian and non-Abelian quantum spin liquids in a three-component Bose gas on optical Kagome lattices ( http://arxiv.org/abs/2308.03509v1 )

ライセンス: Link先を確認
Kaiye Shi, Wei Zhang, and Zheng-Xin Liu(参考訳) 位相相における非アベリア素粒子の実現は、位相量子計算への重要なステップである。 光学カゴメ格子上の接触相互作用を伴う3成分ボース気体中の非可換量子スピン液体(qsl)相を実現するためのスキームを提案する。 強結合系では、システムは隣接するスピン間の2体および3体相互作用を持つ効果的なスピン-1モデルによって記述される。 変分モンテカルロ法によって位相図をマッピングすることにより、イジング型エノンが非可換ブレイディング統計に従う非可換キラルスピン相を見つける。 原子集団からのスピンスピン相関を測定することにより、ギャップのないキラルエッジ状態を検出することができる。 さらに、位相秩序と格子対称性の破れ秩序の両方を示す興味深いZ2 QSL相が観察された。 我々のスキームは、ボゾン原子の冷たい量子気体に実装することができる。

Realization of non-Abelian anyons in topological phases is a crucial step toward topological quantum computation. We propose a scheme to realize a non-Abelian quantum spin liquid (QSL) phase in a three-component Bose gas with contact interaction on optical Kagome lattices. In the strong coupling regime, the system is described by an effective spin-1 model with two- and three-body interactions between neighboring spins. By mapping out the phase diagram via variational Monte Carlo method, we find a non-Abelian chiral spin liquid phase in which the Ising-type anyons obey non-Abelian braiding statistics. The gapless chiral edge states can be detected by measuring the spin-spin correlation from atomic population. Furthermore, an interesting Z2 QSL phase is observed exhibiting both topological order and lattice symmetry breaking order. Our scheme can be implemented in cold quantum gases of bosonic atoms.
翻訳日:2023-08-08 14:03:15 公開日:2023-08-07
# バランスの取れた顔データセット: アンダー表現グループのためのラベル付き合成顔画像データセットを生成するためのStyleGAN

Balanced Face Dataset: Guiding StyleGAN to Generate Labeled Synthetic Face Image Dataset for Underrepresented Group ( http://arxiv.org/abs/2308.03495v1 )

ライセンス: Link先を確認
Kidist Amde Mekonnen(参考訳) 機械学習モデルが特定の問題領域内のデータを効果的に認識するために一般化するためには、データのサイズと実世界のシナリオを表す必要があるとよく理解されている。 それでも、現実世界のデータセットはしばしば過剰に表現され、表現されていないグループである。 機械学習のバイアスを軽減するひとつのソリューションは、多様で代表的なデータセットを活用することだ。 すべての人口動態をカバーするデータセットでモデルをトレーニングすることは、機械学習のバイアスを減らすために不可欠である。 しかし、大規模なデータセットの収集とラベル付けは困難であり、手動ラベリングのコストを削減すべく、合成データ生成とアクティブラベリングを使用する。 本研究の目的は,styleganモデルを用いたロバストな顔画像データセットの作成である。 異なる人口集団間でのデータセットのバランスの取れた分布を達成するために、StyleGaNの生成過程を制御し、異なる下流タスクに注釈を付けた合成データセットを開発した。

For a machine learning model to generalize effectively to unseen data within a particular problem domain, it is well-understood that the data needs to be of sufficient size and representative of real-world scenarios. Nonetheless, real-world datasets frequently have overrepresented and underrepresented groups. One solution to mitigate bias in machine learning is to leverage a diverse and representative dataset. Training a model on a dataset that covers all demographics is crucial to reducing bias in machine learning. However, collecting and labeling large-scale datasets has been challenging, prompting the use of synthetic data generation and active labeling to decrease the costs of manual labeling. The focus of this study was to generate a robust face image dataset using the StyleGAN model. In order to achieve a balanced distribution of the dataset among different demographic groups, a synthetic dataset was created by controlling the generation process of StyleGaN and annotated for different downstream tasks.
翻訳日:2023-08-08 14:02:59 公開日:2023-08-07
# 自由形物体スキャンのための光度特徴変換の学習

Learning Photometric Feature Transform for Free-form Object Scan ( http://arxiv.org/abs/2308.03492v1 )

ライセンス: Link先を確認
Xiang Feng, Kaizhang Kang, Fan Pei, Huakeng Ding, Jinjiang You, Ping Tan, Kun Zhou, Hongzhi Wu(参考訳) 本研究では,複数の非構造ビューからの光計測値を,空間的に識別され,かつ,かつ空間的に不変な低レベル特徴に自動的に集約・変換し,多視点ステレオ法により3次元再構成する手法を提案する。 取得時の照明条件と特徴変換は、大量の合成データに基づいて共同で訓練される。 さらに、手持ちスキャンから様々な挑戦対象の幾何学的および異方的反射を再構築するシステムを構築する。 このシステムの有効性は、カメラとLEDの配列からなる軽量のプロトタイプと、市販のタブレットで実証されている。 本研究は,プロの3Dスキャナーと写真からの再構成に対して検証し,最新技術と比較した。

We propose a novel framework to automatically learn to aggregate and transform photometric measurements from multiple unstructured views into spatially distinctive and view-invariant low-level features, which are fed to a multi-view stereo method to enhance 3D reconstruction. The illumination conditions during acquisition and the feature transform are jointly trained on a large amount of synthetic data. We further build a system to reconstruct the geometry and anisotropic reflectance of a variety of challenging objects from hand-held scans. The effectiveness of the system is demonstrated with a lightweight prototype, consisting of a camera and an array of LEDs, as well as an off-the-shelf tablet. Our results are validated against reconstructions from a professional 3D scanner and photographs, and compare favorably with state-of-the-art techniques.
翻訳日:2023-08-08 14:02:41 公開日:2023-08-07
# 長さを伴わない:過剰または不十分な長さの列をモデル化するための知識追跡の強化

No Length Left Behind: Enhancing Knowledge Tracing for Modeling Sequences of Excessive or Insufficient Lengths ( http://arxiv.org/abs/2308.03488v1 )

ライセンス: Link先を確認
Moyu Zhang, Xinning Zhu, Chunhong Zhang, Feng Pan, Wenchen Qian, Hui Zhao(参考訳) 知識追跡(KT)は,過去の質問応答行動に基づいて,学生の実践に対する反応を予測することを目的としている。 しかし、現在のKT手法のほとんどはAUC全体の改善に重点を置いており、過剰または不十分な長さのシーケンスをモデル化するのに十分な最適化の余地を残している。 シーケンスが長くなると、計算コストは指数関数的に増加する。 したがって、KT法は通常、シーケンスを許容範囲に切り離すため、オンラインサービスシステムのモデルでは、長いシークエンスを持つ学生の完全な過去の実践行動を捉えることが困難になる。 逆に、ほとんどのKT手法を用いて短い練習シーケンスの学生をモデル化することは、限られた観察サンプルのために過度に適合する可能性がある。 上記の制約に対処するため,Sequence-Flexible Knowledge Tracing (SFKT) と呼ばれるモデルを提案する。

Knowledge tracing (KT) aims to predict students' responses to practices based on their historical question-answering behaviors. However, most current KT methods focus on improving overall AUC, leaving ample room for optimization in modeling sequences of excessive or insufficient lengths. As sequences get longer, computational costs will increase exponentially. Therefore, KT methods usually truncate sequences to an acceptable length, which makes it difficult for models on online service systems to capture complete historical practice behaviors of students with too long sequences. Conversely, modeling students with short practice sequences using most KT methods may result in overfitting due to limited observation samples. To address the above limitations, we propose a model called Sequence-Flexible Knowledge Tracing (SFKT).
翻訳日:2023-08-08 14:02:28 公開日:2023-08-07
# マンモグラフィ画像における質量検出の改善:弱い教師付き学習とクラス活性化マップ法の検討

Improving Mass Detection in Mammography Images: A Study of Weakly Supervised Learning and Class Activation Map Methods ( http://arxiv.org/abs/2308.03486v1 )

ライセンス: Link先を確認
Vicente Sampaio and Filipe R. Cordeiro(参考訳) 近年,マンモグラフィー画像による大量検出が弱く,ピクセルレベルのアノテーションの必要性が低下している。 しかしながら、文献上の既存のモデルの多くは、他のアクティベーションテクニックを探求する潜在的な利点を見越して、アクティベーションメソッドとしてクラスアクティベーションマップ(cam)に依存している。 本研究は,マンモグラフィ画像における弱教師あり訓練の最先端手法と組み合わせて,異なるアクティベーションマップを探索・比較する研究である。 具体的には,マンモグラフィ画像における質量検出のためのGMICモデルにおいて,CAM,GradCAM,GradCAM++,XGradCAM,LayerCAMの手法について検討する。 評価はVinDr-Mammoデータセット上で行われ、測定精度、真正性率(TPR)、偽負性率(FNR)、偽正性画像(FPPI)を利用する。 その結果, トレーニングやテスト段階において, アクティベーションマップの異なる戦略を用いることで, モデルの改善が期待できることがわかった。 この戦略により、GMIC法の結果を改善し、FPPI値の低減とTPRの増大を図る。

In recent years, weakly supervised models have aided in mass detection using mammography images, decreasing the need for pixel-level annotations. However, most existing models in the literature rely on Class Activation Maps (CAM) as the activation method, overlooking the potential benefits of exploring other activation techniques. This work presents a study that explores and compares different activation maps in conjunction with state-of-the-art methods for weakly supervised training in mammography images. Specifically, we investigate CAM, GradCAM, GradCAM++, XGradCAM, and LayerCAM methods within the framework of the GMIC model for mass detection in mammography images. The evaluation is conducted on the VinDr-Mammo dataset, utilizing the metrics Accuracy, True Positive Rate (TPR), False Negative Rate (FNR), and False Positive Per Image (FPPI). Results show that using different strategies of activation maps during training and test stages leads to an improvement of the model. With this strategy, we improve the results of the GMIC method, decreasing the FPPI value and increasing TPR.
翻訳日:2023-08-08 14:02:13 公開日:2023-08-07
# すべての絡み合った状態を示す2つのディラックスピノルに対する9つのローレンツ共変ビテンサー

Nine Lorentz covariant bitensors for two Dirac spinors to indicate all entangled states ( http://arxiv.org/abs/2308.03482v1 )

ライセンス: Link先を確認
Markus Johansson(参考訳) 2つの空間的な分離されたディラック粒子のスピノリアル自由度を考慮し、9つの局所ローレンツ共変ビテンサーの集合を構成する。 これら4つのビットセンサーは以前にも [Phys. A 105, 032402 (2022), arXiv:2103.07784] に記述されている。 ビットセンサの集合は、二つの粒子の状態が積状態である場合に限り、9つのビットセンサが同時にゼロとなる性質を持つ。 したがって、このビテンサーの集まりは、2つの空間的な分離されたディラック粒子の間のスピノルの絡み合いの種類を示している。

The spinorial degrees of freedom of two spacelike separated Dirac particles are considered and a collection of nine locally Lorentz covariant bitensors is constructed. Four of these bitensors have been previously described in [Phys. Rev. A 105, 032402 (2022), arXiv:2103.07784]. The collection of bitensors has the property that all nine bitensors are simultaneously zero if and only if the state of the two particles is a product state. Thus this collection of bitensors indicates any type of spinor entanglement between two spacelike separated Dirac particles.
翻訳日:2023-08-08 14:01:53 公開日:2023-08-07
# 車両検出の物理世界逆境ロバスト性を探る

Exploring the Physical World Adversarial Robustness of Vehicle Detection ( http://arxiv.org/abs/2308.03476v1 )

ライセンス: Link先を確認
Wei Jiang, Tianyuan Zhang, Shuangcheng Liu, Weiyu Ji, Zichao Zhang, Gang Xiao(参考訳) 敵攻撃は実世界の検出モデルの堅牢性を損なう可能性がある。 しかし,実環境下でのモデル評価は,資源集約的な実験により課題となる。 仮想シミュレーションは代替手段を提供するが、標準ベンチマークの欠如が進行している。 そこで我々は,CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。 このパイプラインを通じて、離散・連続インスタントレベル(DCI)データセットを確立し、3つの検出モデルと3つの物理的敵攻撃を含む包括的な実験を可能にする。 本研究は,敵対的条件下での多様なモデル性能を浮き彫りにする。 yolo v6は顕著な弾力性を示し、平均精度(ap)が6.59%低下した。 対照的に、ASA攻撃は、他のアルゴリズムの2倍の14.51%の平均AP削減をもたらす。 また,静的なシーンではAPの認識が向上し,様々な気象条件で結果が比較的一定であることに留意する。 興味深いことに、我々の研究は敵攻撃アルゴリズムの進歩が'limitation'に近づいていることを示唆している。 まとめると、我々の研究は現実世界の文脈における敵対的攻撃の重要性を強調し、汎用ベンチマークとしてdciデータセットを紹介します。 本研究は,検出モデルの堅牢性を高めるための貴重な知見と,敵攻撃の領域における今後の研究へのガイダンスを提供する。

Adversarial attacks can compromise the robustness of real-world detection models. However, evaluating these models under real-world conditions poses challenges due to resource-intensive experiments. Virtual simulations offer an alternative, but the absence of standardized benchmarks hampers progress. Addressing this, we propose an innovative instant-level data generation pipeline using the CARLA simulator. Through this pipeline, we establish the Discrete and Continuous Instant-level (DCI) dataset, enabling comprehensive experiments involving three detection models and three physical adversarial attacks. Our findings highlight diverse model performances under adversarial conditions. Yolo v6 demonstrates remarkable resilience, experiencing just a marginal 6.59% average drop in average precision (AP). In contrast, the ASA attack yields a substantial 14.51% average AP reduction, twice the effect of other algorithms. We also note that static scenes yield higher recognition AP values, and outcomes remain relatively consistent across varying weather conditions. Intriguingly, our study suggests that advancements in adversarial attack algorithms may be approaching its ``limitation''.In summary, our work underscores the significance of adversarial attacks in real-world contexts and introduces the DCI dataset as a versatile benchmark. Our findings provide valuable insights for enhancing the robustness of detection models and offer guidance for future research endeavors in the realm of adversarial attacks.
翻訳日:2023-08-08 14:01:40 公開日:2023-08-07
# 風力発電所における発電予測 階層構造活用からの洞察

How to forecast power generation in wind farms? Insights from leveraging hierarchical structure ( http://arxiv.org/abs/2308.03472v1 )

ライセンス: Link先を確認
Lucas English, Mahdi Abolghasemi(参考訳) 再生可能エネルギー発電の予測は、世界的な脱炭素化に対する意思決定に役立つ重要な洞察を提供する。 再生可能エネルギー生成はしばしば断面階層を通して表現され、1つの農場は複数の個別の発電機を持つ。 和解による階層的予測は、理論的にも経験的にも予測の質が著しく向上することを示した。 しかし、個別の時間的・横断的な集計によって生成された予測が統合的な時間的予測やより粒度の細かいデータに基づく個々の予測よりも優れているかどうかは不明である。 本研究では,風力発電予測のための線形回帰および勾配推力機械学習を用いて,異なる断面積・時間的調整手法の精度について検討した。 その結果,複数の時間的アグリゲーションにおいて,横断的再結合は個々の横断的再結合よりも優れていることがわかった。 時間的整合された機械学習ベース予測もまた、粗い時間的粒度において高い精度を示し、短期的な風速予測の採用を促進する可能性がある。 また, 線形回帰は, 断続風速シリーズのほとんどのレベルにおいて, 機械学習モデルより優れていることを示す。

Forecasting of renewable energy generation provides key insights which may help with decision-making towards global decarbonisation. Renewable energy generation can often be represented through cross-sectional hierarchies, whereby a single farm may have multiple individual generators. Hierarchical forecasting through reconciliation has demonstrated a significant increase in the quality of forecasts both theoretically and empirically. However, it is not evident whether forecasts generated by individual temporal and cross-sectional aggregation can be superior to integrated cross-temporal forecasts and to individual forecasts on more granular data. In this study, we investigate the accuracies of different cross-sectional and cross-temporal reconciliation methods using both linear regression and gradient boosting machine learning for forecasting wind farm power generation. We found that cross-temporal reconciliation is superior to individual cross-sectional reconciliation at multiple temporal aggregations. Cross-temporally reconciled machine learning base forecasts also demonstrated a high accuracy at coarser temporal granularities, which may encourage adoption for short-term wind forecasts. We also show that linear regression can outperform machine learning models across most levels in cross-sectional wind time series.
翻訳日:2023-08-08 14:01:20 公開日:2023-08-07
# 最適化局所操作によるエネルギー固有状態からの作業抽出可能性

Work extractability from energy eigenstates under optimized local operations ( http://arxiv.org/abs/2308.03537v1 )

ライセンス: Link先を確認
Shotaro Z. Baba, Nobuyuki Yoshioka, Takahiro Sagawa(参考訳) 熱力学の第2法則と循環ユニタリ進化を受ける量子多体系のエネルギー固有状態との関係について検討する。 数値最適化制御プロトコルを用いて,作業抽出可能性がシステムの可積分性に与える影響を分析する。 その結果,非可積分系では,局所制御操作が最適化された場合でも,作業抽出可能エネルギー固有状態の数はゼロに収束することがわかった。 対照的に可積分系では、制御操作の局所性によらず、正の作用を抽出できる指数関数的に多くの固有状態が存在する。 このような顕著な異なる挙動が熱エネルギー固有状態の数に起因することを数値的に示す。 その結果、孤立量子多体系における熱力学の第2法則の基礎が解明され、量子多体熱エンジンの開発に寄与することが期待される。

We examine the relationship between the second law of thermodynamics and the energy eigenstates of quantum many-body systems that undergo cyclic unitary evolution. Using a numerically optimized control protocol, we analyze how the work extractability is affected by the integrability of the system. Our findings reveal that, in nonintegrable systems the number of work-extractable energy eigenstates converges to zero, even when the local control operations are optimized. In contrast, in integrable systems, there are exponentially many eigenstates from which positive work can be extracted, regardless of the locality of the control operations. We numerically demonstrate that such a strikingly different behavior can be attributed to the number of athermal energy eigenstates. Our results provide insights into the foundations of the second law of thermodynamics in isolated quantum many-body systems, which are expected to contribute to the development of quantum many-body heat engines.
翻訳日:2023-08-08 13:55:05 公開日:2023-08-07
# グラフ上の量子ウォークに基づく de novo dna sequence assembly の量子アルゴリズム

Quantum algorithm for de novo DNA sequence assembly based on quantum walks on graphs ( http://arxiv.org/abs/2308.03532v1 )

ライセンス: Link先を確認
G. D. Varsamis, I. G. Karafyllidis, K. M. Gilkes U. Arranz, R. Martin-Cuevas, G. Calleja, J. Wong, H. C. Jessen, P. Dimitrakis, P. Kolovos, R. Sandaltzopoulos(参考訳) De novo DNA配列は、NPハード問題である重複グラフの経路を見つけることに基づいている。 グラフの量子ウォークに基づくデノボ組立のための量子アルゴリズムを開発した。 重複グラフは階層構造を形成するより小さなグラフに繰り返し分割される。 我々は、低階グラフの経路を見つけるために量子ウォークと、高階層ランクのハミルトン経路を見つける量子アルゴリズムを用いる。 分割量子アルゴリズムと,ハイ階層ランクのハミルトン経路を探索する量子アルゴリズムをテストし,qiskitを用いてその正しい動作を確認した。 低階グラフの経路を探索するための量子ウォークのカスタムシミュレーションを開発した。 本稿では,デノボDNA組立問題の解法として,効率的な量子アルゴリズムの開発の基礎となる手法を提案する。

De novo DNA sequence assembly is based on finding paths in overlap graphs, which is a NP-hard problem. We developed a quantum algorithm for de novo assembly based on quantum walks in graphs. The overlap graph is partitioned repeatedly to smaller graphs that form a hierarchical structure. We use quantum walks to find paths in low rank graphs and a quantum algorithm that finds Hamiltonian paths in high hierarchical rank. We tested the partitioning quantum algorithm, as well as the quantum algorithm that finds Hamiltonian paths in high hierarchical rank and confirmed its correct operation using Qiskit. We developed a custom simulation for quantum walks to search for paths in low rank graphs. The approach described in this paper may serve as a basis for the development of efficient quantum algorithms that solve the de novo DNA assembly problem.
翻訳日:2023-08-08 13:54:50 公開日:2023-08-07
# 多様性・均衡・格差の測定:2021年ドイツ連邦選挙におけるメディア報道の分析

Measuring Variety, Balance, and Disparity: An Analysis of Media Coverage of the 2021 German Federal Election ( http://arxiv.org/abs/2308.03531v1 )

ライセンス: Link先を確認
Michael F\"arber, Jannik Schwade, Adam Jatowt(参考訳) ニュース記事における多様性の決定と測定は、フィルターバブルの防止や、特に選挙前における公論の促進など、様々な理由から重要である。 これまでのところ、多様性の識別と分析は、米国の選挙に関連するニュース記事間の単語や話題の重なりを測定するなど、様々な方法で照らされてきた。 しかし,(1)多様性,(2)バランス,(3)格差,(3)個人,当事者,話題を考慮し,ニュース記事の多様性を一体的に測定できるのかという問題は解決されていない。 本稿では,これらの次元に応じて,ニュース記事の多様性を決定する枠組みを提案する。 さらに、Google Top Storiesのデータセットを作成し提供し、2021年のドイツ連邦選挙の2週間前に900以上のニュースメディアから26,000以上のユニークな見出しを収集しました。 より一般的な検索語(例えば「選択」)に対して高い多様性を観察する一方で、様々な検索語(「教育」、「ユーロペ」、「気候保護」、「政府」)が3次元の2つに高い多様性を持つニュース記事を生み出した。 これは、むしろ未来志向のトピックに関するより主観的で専用の議論を反映している。

Determining and measuring diversity in news articles is important for a number of reasons, including preventing filter bubbles and fueling public discourse, especially before elections. So far, the identification and analysis of diversity have been illuminated in a variety of ways, such as measuring the overlap of words or topics between news articles related to US elections. However, the question of how diversity in news articles can be measured holistically, i.e., with respect to (1) variety, (2) balance, and (3) disparity, considering individuals, parties, and topics, has not been addressed. In this paper, we present a framework for determining diversity in news articles according to these dimensions. Furthermore, we create and provide a dataset of Google Top Stories, encompassing more than 26,000 unique headlines from more than 900 news outlets collected within two weeks before and after the 2021 German federal election. While we observe high diversity for more general search terms (e.g., "election"), a range of search terms ("education," "Europe," "climate protection," "government") resulted in news articles with high diversity in two out of three dimensions. This reflects a more subjective, dedicated discussion on rather future-oriented topics.
翻訳日:2023-08-08 13:54:38 公開日:2023-08-07
# 無線スペクトルデータのための深層特徴学習

Deep Feature Learning for Wireless Spectrum Data ( http://arxiv.org/abs/2308.03530v1 )

ライセンス: Link先を確認
Ljupcho Milosheski, Gregor Cerar, Bla\v{z} Bertalani\v{c}, Carolina Fortuna and Mihael Mohor\v{c}i\v{c}(参考訳) 近年、ディープラーニングアーキテクチャに統合された特徴抽出層によって、機械学習モデルのトレーニングのための従来の機能エンジニアリングプロセスが自動化されている。 無線ネットワークでは、ドメイン関連課題に対する特徴表現の自動学習において多くの研究が行われた。 しかし、既存の研究の多くは、ラベルを使ってモデルを最適化することで学習プロセスのいくつかの監督を前提としている。 本稿では,無線送信クラスタリングにおける特徴表現の学習手法について,教師なし方式,すなわちラベルを不要にする手法について検討する。 本稿では,入力データの次元表現を,ベースライン主成分分析(PCA)と比較して99.3%少ない成分で自動的に学習する畳み込みニューラルネットワークに基づくモデルを提案する。 自動表現学習は,無線伝送バーストの形状を含む微細なクラスタを抽出でき,ベースラインは背景雑音に基づくデータの一般的な分離性しか実現できないことを示す。

In recent years, the traditional feature engineering process for training machine learning models is being automated by the feature extraction layers integrated in deep learning architectures. In wireless networks, many studies were conducted in automatic learning of feature representations for domain-related challenges. However, most of the existing works assume some supervision along the learning process by using labels to optimize the model. In this paper, we investigate an approach to learning feature representations for wireless transmission clustering in a completely unsupervised manner, i.e. requiring no labels in the process. We propose a model based on convolutional neural networks that automatically learns a reduced dimensionality representation of the input data with 99.3% less components compared to a baseline principal component analysis (PCA). We show that the automatic representation learning is able to extract fine-grained clusters containing the shapes of the wireless transmission bursts, while the baseline enables only general separability of the data based on the background noise.
翻訳日:2023-08-08 13:54:16 公開日:2023-08-07
# 高速インタラクティブセグメンテーションのための特徴デカップリング・リサイクリングネットワーク

Feature Decoupling-Recycling Network for Fast Interactive Segmentation ( http://arxiv.org/abs/2308.03529v1 )

ライセンス: Link先を確認
Huimin Zeng, Weinong Wang, Xin Tao, Zhiwei Xiong, Yu-Wing Tai, Wenjie Pei(参考訳) 近年のインタラクティブセグメンテーション手法は, 画像の不変性を考慮せずに, 画像, ユーザガイダンス, 従来予測されていたマスクを入力とする。 その結果、各インタラクションにおいて、ソース画像から特徴抽出が繰り返され、実質的な計算冗長性が生じる。 本稿では,本研究で提案するfdrn(feature decoupling-recycling network)を提案する。 これにより、インタラクティブプロセス全体の効率を大幅に改善することができる。 具体的には,3つの相違点に対処するために,3つの視点からDecoupling-Recycling戦略を適用する。 まず,2種類の入力領域を別々に処理するために,ユーザガイダンスの符号化からソース画像意味学の学習を分離する。 第二に、FDRNは階層化された意味表現から高レベルの特徴と低レベルの特徴を分離し、特徴学習を強化する。 第3に、ユーザガイダンスのエンコーディング中に、現在のユーザガイダンスが履歴ガイダンスから切り離され、現在のユーザガイダンスの効果が強調される。 異なるドメインとモダリティから得られた6つのデータセットに関する広範な実験を行い、以下のモデルの有効性を実証する。 1) 他の方法よりも優れた効率性,特に長期的インタラクション(最大4.25倍の速度)を必要とする困難なシナリオにおいて有利であり,かつ,良好なセグメンテーション性能を達成する。 2) ユニバーサルエンハンスメント技術としての様々な方法への強い適用性 3) 医用画像のセグメンテーションや誤解を招くユーザガイダンスに対するロバスト性など,優れたクロスタスク汎用性。

Recent interactive segmentation methods iteratively take source image, user guidance and previously predicted mask as the input without considering the invariant nature of the source image. As a result, extracting features from the source image is repeated in each interaction, resulting in substantial computational redundancy. In this work, we propose the Feature Decoupling-Recycling Network (FDRN), which decouples the modeling components based on their intrinsic discrepancies and then recycles components for each user interaction. Thus, the efficiency of the whole interactive process can be significantly improved. To be specific, we apply the Decoupling-Recycling strategy from three perspectives to address three types of discrepancies, respectively. First, our model decouples the learning of source image semantics from the encoding of user guidance to process two types of input domains separately. Second, FDRN decouples high-level and low-level features from stratified semantic representations to enhance feature learning. Third, during the encoding of user guidance, current user guidance is decoupled from historical guidance to highlight the effect of current user guidance. We conduct extensive experiments on 6 datasets from different domains and modalities, which demonstrate the following merits of our model: 1) superior efficiency than other methods, particularly advantageous in challenging scenarios requiring long-term interactions (up to 4.25x faster), while achieving favorable segmentation performance; 2) strong applicability to various methods serving as a universal enhancement technique; 3) well cross-task generalizability, e.g., to medical image segmentation, and robustness against misleading user guidance.
翻訳日:2023-08-08 13:54:04 公開日:2023-08-07
# ChatGPTの共感能力を探る

Exploring ChatGPT's Empathic Abilities ( http://arxiv.org/abs/2308.03527v1 )

ライセンス: Link先を確認
Kristina Schaaff, Caroline Reinig, Tim Schlippe(参考訳) 共感はしばしば、他人の心の状態や感情を共有し理解する能力として理解される。 様々な領域におけるチャットボットの利用が増加し、例えば、宿題を手伝う子供たち、医療アドバイスを求める個人、日々の交流の源泉としてチャットボットを使用している人々などによって、人間とコンピュータの相互作用における共感の重要性が増している。 そこで本研究では,GPT-3.5に基づくChatGPTが情緒的反応や情緒的表情を呈する程度について検討した。 本研究では,(1)感情の理解と表現,(2)パラレル感情応答,(3)共感的性格の3つの側面を解析した。 そこで我々はChatGPTを様々な共感的側面で評価し、人間の行動と比較するだけでなく、チャットボット全般の共感を解析する方法も示す。 その結果、91.7%の症例において、ChatGPTは感情を正しく識別し、適切な回答を得られることがわかった。 会話中、chatgptは70.7%の症例で平行感情で反応した。 ChatGPTの共感能力は,共感の異なる側面をカバーする5つの質問紙を用いて評価した。 結果から,ChatGPTの共感能力は健常人の平均を下回っていることが明らかとなったが,Asperger症候群/高機能自閉症と診断された人のスコアよりも優れていた。

Empathy is often understood as the ability to share and understand another individual's state of mind or emotion. With the increasing use of chatbots in various domains, e.g., children seeking help with homework, individuals looking for medical advice, and people using the chatbot as a daily source of everyday companionship, the importance of empathy in human-computer interaction has become more apparent. Therefore, our study investigates the extent to which ChatGPT based on GPT-3.5 can exhibit empathetic responses and emotional expressions. We analyzed the following three aspects: (1) understanding and expressing emotions, (2) parallel emotional response, and (3) empathic personality. Thus, we not only evaluate ChatGPT on various empathy aspects and compare it with human behavior but also show a possible way to analyze the empathy of chatbots in general. Our results show, that in 91.7% of the cases, ChatGPT was able to correctly identify emotions and produces appropriate answers. In conversations, ChatGPT reacted with a parallel emotion in 70.7% of cases. The empathic capabilities of ChatGPT were evaluated using a set of five questionnaires covering different aspects of empathy. Even though the results indicate that the empathic abilities of ChatGPT are still below the average of healthy humans, the scores are better than those of people who have been diagnosed with Asperger syndrome / high-functioning autism.
翻訳日:2023-08-08 13:53:38 公開日:2023-08-07
# alphastar unplugged:大規模オフライン強化学習

AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning ( http://arxiv.org/abs/2308.03526v1 )

ライセンス: Link先を確認
Micha\"el Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad \.Zo{\l}na, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama, Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah Henderson, Sergio G\'omez Colmenarejo, A\"aron van den Oord, Wojciech Marian Czarnecki, Nando de Freitas, Oriol Vinyals(参考訳) StarCraft IIは、部分的に観察可能で、確率的で、マルチエージェントであり、マスターするには、リアルタイムの低レベル実行を伴う長期間にわたる戦略的な計画が必要である。 プロとしても活躍している。 StarCraft IIは、その難しい性質と、Blizzardが人間のプレイヤーがプレイする数百万のStarCraft IIゲームの巨大なデータセットをリリースしたため、オフラインのRLアルゴリズムの進行に特化している。 そこで本論文では,AlphaStar Unpluggedと呼ばれるベンチマークを構築し,オフライン強化学習における前例のない課題を紹介した。 データセット(blizzardのリリースの一部分)、機械学習メソッドのapiを標準化するツール、評価プロトコルを定義する。 また,行動クローン,アクタ-クリティックおよびミューゼロのオフライン変異など,ベースラインエージェントも提示する。 オフラインデータのみを使用してエージェントの状態を改善し、以前公開されたalphastar行動クローニングエージェントに対して90%の勝利率を達成した。

StarCraft II is one of the most challenging simulated reinforcement learning environments; it is partially observable, stochastic, multi-agent, and mastering StarCraft II requires strategic planning over long time horizons with real-time low-level execution. It also has an active professional competitive scene. StarCraft II is uniquely suited for advancing offline RL algorithms, both because of its challenging nature and because Blizzard has released a massive dataset of millions of StarCraft II games played by human players. This paper leverages that and establishes a benchmark, called AlphaStar Unplugged, introducing unprecedented challenges for offline reinforcement learning. We define a dataset (a subset of Blizzard's release), tools standardizing an API for machine learning methods, and an evaluation protocol. We also present baseline agents, including behavior cloning, offline variants of actor-critic and MuZero. We improve the state of the art of agents using only offline data, and we achieve 90% win rate against previously published AlphaStar behavior cloning agent.
翻訳日:2023-08-08 13:53:13 公開日:2023-08-07
# Vocab-Expander: 単語埋め込みに基づくドメイン特化語彙作成システム

Vocab-Expander: A System for Creating Domain-Specific Vocabularies Based on Word Embeddings ( http://arxiv.org/abs/2308.03519v1 )

ライセンス: Link先を確認
Michael F\"arber, Nicholas Popovic(参考訳) 本稿では、エンドユーザー(例えば技術スカウト)が関心領域の語彙を作成し拡張できるオンラインツールである、https://vocab-expander.comでvocab-expanderを提案する。 それは、Webテキストと常識知識ベースであるConceptNetに基づく最先端の単語埋め込み技法のアンサンブルを利用して、すでに与えられた用語に関する関連用語を提案する。 このシステムには使いやすいインタフェースがあり、ユーザーは用語の提案を素早く確認したり拒否したりできる。 Vocab-Expanderは、テクノロジーとイノベーションマネジメントにおける概念ベースの情報検索の改善、組織内や学際プロジェクトにおけるコミュニケーションとコラボレーションの強化、教育の特定のコースのための語彙の作成など、さまざまなユースケースを提供している。

In this paper, we propose Vocab-Expander at https://vocab-expander.com, an online tool that enables end-users (e.g., technology scouts) to create and expand a vocabulary of their domain of interest. It utilizes an ensemble of state-of-the-art word embedding techniques based on web text and ConceptNet, a common-sense knowledge base, to suggest related terms for already given terms. The system has an easy-to-use interface that allows users to quickly confirm or reject term suggestions. Vocab-Expander offers a variety of potential use cases, such as improving concept-based information retrieval in technology and innovation management, enhancing communication and collaboration within organizations or interdisciplinary projects, and creating vocabularies for specific courses in education.
翻訳日:2023-08-08 13:52:37 公開日:2023-08-07
# キーワードスポッティングの簡略化:文字カウントとCTC再構成を用いたセグメンテーションフリーアプローチ

Keyword Spotting Simplified: A Segmentation-Free Approach using Character Counting and CTC re-scoring ( http://arxiv.org/abs/2308.03515v1 )

ライセンス: Link先を確認
George Retsinas, Giorgos Sfikas, Christophoros Nikou(参考訳) セグメンテーションフリーキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱い、最先端検出システムから借用し、単語境界ボックスの提案機構を同時に提案し、対応する表現を計算する。 複雑なDNNモデルや大規模DNNモデルに依存する手法の規範とは対照的に,文書イメージを効率的にスキャンし,クエリ情報を含む矩形領域を探索するセグメンテーションフリーシステムを提案する。 基礎となるモデルは単純でコンパクトで、単語レベルの注釈付き画像に基づいて訓練された暗黙的に学習されたスケールマップを通じて矩形領域上の文字発生を予測する。 提案する文書スキャニングは、この文字カウントを用いて、統合画像とバイナリ検索を介してコスト効率の良い方法で実行される。 最後に、文字カウントによる検索類似性をピラミッド表現とCTCに基づく再構成アルゴリズムにより洗練し、訓練されたCNNモデルを完全に活用する。 2つの広く使われているデータセットに対する実験的検証は、基礎となるモデルの単純さにもかかわらず、より複雑な代替案に匹敵する結果が得られたことを示している。

Recent advances in segmentation-free keyword spotting treat this problem w.r.t. an object detection paradigm and borrow from state-of-the-art detection systems to simultaneously propose a word bounding box proposal mechanism and compute a corresponding representation. Contrary to the norm of such methods that rely on complex and large DNN models, we propose a novel segmentation-free system that efficiently scans a document image to find rectangular areas that include the query information. The underlying model is simple and compact, predicting character occurrences over rectangular areas through an implicitly learned scale map, trained on word-level annotated images. The proposed document scanning is then performed using this character counting in a cost-effective manner via integral images and binary search. Finally, the retrieval similarity by character counting is refined by a pyramidal representation and a CTC-based re-scoring algorithm, fully utilizing the trained CNN model. Experimental validation on two widely-used datasets shows that our method achieves state-of-the-art results outperforming the more complex alternatives, despite the simplicity of the underlying model.
翻訳日:2023-08-08 13:52:20 公開日:2023-08-07
# 駆動量子ビットの最終状態を制御するための初期位相のチューニング:トンネルの単一パスコヒーレント破壊

Tuning the initial phase to control the final state of a driven qubit: single-passage coherent destruction of tunneling ( http://arxiv.org/abs/2308.03571v1 )

ライセンス: Link先を確認
Polina Kofman, Sergey Shevchenko, Franco Nori(参考訳) 駆動量子系はランダウ・ツェナー=シュテッケルベルク=マヨラナ(LZSM)の遷移を、各エネルギー準交差時に経験することができる。 この準交叉が周期駆動下で繰り返し通過した場合、軌道は構成的にも破壊的にも干渉することができる。 トンネルのコヒーレント破壊として知られる後者の場合、エネルギー状態間の遷移が抑制される。 二重通過の場合においても、累積相差(Stueckelberg相とも呼ばれる)は破壊的な干渉を引き起こし、遷移は起こらない。 本稿では,シングルパスダイナミクスの類似プロセスについて論じる。 重畳状態から始まるLZSMシングルパス問題について検討する。 この初期状態の位相差は干渉をもたらす。 これが破壊的であり、遷移確率がゼロとなるとき、そのような状況はトンネルの単一通過コヒーレント破壊と呼ばれる。 移行後に占有確率が変化しないように位相が選択された場合、これは占有保存と呼ばれ、これはトランジッションレス駆動の問題と類似する。 量子制御において,システムのパラメータ(走行速度,初期位相,初期遅延)がいかに変化するかを示す。

A driven quantum system can experience Landau-Zener-Stueckelberg-Majorana (LZSM) transitions between its states, when the respective energy levels quasi-cross. If this quasicrossing is passed repeatedly under periodic driving, the trajectories can interfere either constructively or destructively. In the latter case, known as coherent destruction of tunneling, the transition between the energy states is suppressed. Even for a double-passage case, the accumulated phase difference (also referred to as the Stueckelberg phase) can lead to destructive interference, resulting in no transition. In this paper we discuss a similar process for a single-passage dynamics. We study the LZSM single-passage problem starting from a superposition state. The phase difference of this initial state results in interference. When this is destructive, resulting in a zero transition probability, such situation can be called single-passage coherent destruction of tunneling. When the phase is chosen so that the occupation probabilities do not change after the transition, this can be called occupation conservation and this is analogous to the problem of transitionless driving. We demonstrate how varying the system parameters (driving velocity, initial phase, initial detuning) can be used for quantum control.
翻訳日:2023-08-08 13:44:36 公開日:2023-08-07
# 誤測定データを用いたカーネルベース2つのサンプルテストの部分的同定

Partial identification of kernel based two sample tests with mismeasured data ( http://arxiv.org/abs/2308.03570v1 )

ライセンス: Link先を確認
Ron Nafshi, Maggie Makar(参考訳) 最大平均離散性(MMD)のような非パラメトリックな2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。 しかし、既存の文献の大多数は、2つの分布からの誤りのないサンプルが利用可能であると仮定しており、この仮定を緩和し、一方の分布の非ランダムな$\epsilon$比率が誤って他方とグループ化される、$\epsilon$-contaminationの下でmmdの推定を研究する。 我々は、$\epsilon$-contaminationの下では、MDDの典型的な見積もりは信頼できないことを示す。 代わりに、MDDの部分的同定について検討し、真で未知のMDDを含むシャープな上下境界を特徴付ける。 我々は,これらの境界を推定する方法を提案し,サンプルサイズが増加するにつれてmmdの最も鋭い境界に収束する推定値を示し,他の手法よりも収束速度が速いことを示す。 3つのデータセットを使用することで、私たちのアプローチが代替案よりも優れていることを実証的に検証します。

Nonparametric two-sample tests such as the Maximum Mean Discrepancy (MMD) are often used to detect differences between two distributions in machine learning applications. However, the majority of existing literature assumes that error-free samples from the two distributions of interest are available.We relax this assumption and study the estimation of the MMD under $\epsilon$-contamination, where a possibly non-random $\epsilon$ proportion of one distribution is erroneously grouped with the other. We show that under $\epsilon$-contamination, the typical estimate of the MMD is unreliable. Instead, we study partial identification of the MMD, and characterize sharp upper and lower bounds that contain the true, unknown MMD. We propose a method to estimate these bounds, and show that it gives estimates that converge to the sharpest possible bounds on the MMD as sample size increases, with a convergence rate that is faster than alternative approaches. Using three datasets, we empirically validate that our approach is superior to the alternatives: it gives tight bounds with a low false coverage rate.
翻訳日:2023-08-08 13:44:14 公開日:2023-08-07
# マルチ)2チャンネル近藤モデルの体系的コンパクト化 i. 一貫したボゾナイズ・デボソナイズアプローチと精密比較

Systematic compactification of the (multi) two-channel Kondo model. I. Consistent bosonization-debosonization approach and exact comparisons ( http://arxiv.org/abs/2308.03569v1 )

ライセンス: Link先を確認
Aleksandar Ljepoja, C.J. Bolech, Nayana Shah(参考訳) 非平衡状態においても近藤型量子不純物モデルを研究するためのボゾナイズ・デボゾン化法の一貫した利用を明確にするために、二チャネル近藤モデルのコンパクト化手順(モデルの単一チャネルバージョンを使用してよりコンパクトに書き直し、スピンと電荷の分離と双対性を利用する)を再検討し、その有効範囲を制限する隠れた近似を明らかにする。 これは、2つまたはそれ以上のチャネルに対して、これらのモデルのトゥールーズ限界に関する以前の研究を補完し拡張し、これらの計算で拡張されたフレームワークの使用の必要性を補強する。 我々は、異なるモデル間の正確な比較を行い、そのモデルのコンパクト化バージョンとオリジナルバージョンの間には、一貫性因子の追跡が完全に一致していることを示す。

Capitalizing on recent work, that clarifies the consistent use of bosonization-debosonization methods to study Kondo-type quantum impurity models even in non-equilibrium settings, we revisit the compactification procedure of the two-channel Kondo model (by which it is rewritten more compactly using the single-channel version of the model and exploiting separation and duality between spin and charge) and uncover some hidden approximations that could limit its range of validity. This complements and extends, for two or any even number of channels, beyond previous work on the Toulouse limit of these models, and reinforces the need for the use of an extended framework in these calculations. We carry out a number of exact comparisons between the different models, and show that keeping track of the, so called, consistency factors leads to full agreement between the compactified and original version of the model.
翻訳日:2023-08-08 13:43:55 公開日:2023-08-07
# GPT-3のトポロジカル解釈

Topological Interpretations of GPT-3 ( http://arxiv.org/abs/2308.03565v1 )

ライセンス: Link先を確認
Tianyi Sun and Bradley Nelson(参考訳) 文ベクトルと文の意味的意味の相関関係を導出する一貫した方法を検討するための実験的検討である。 我々はまず,GPT-3,Word2Vec,Sentence-BERTの3つの最先端単語/文埋め込み手法を用いて,平文文字列を高次元空間に埋め込む。 次に、埋め込み空間における2つの文ベクトルの任意の組合せ間の対距離を計算し、それらを行列にマッピングする。 各距離行列に基づいて、埋め込み空間における他の文ベクトルに対する文ベクトルの距離の相関を計算する。 次に、距離行列の各対の相関を計算する。 異なる埋め込み空間における同じ文の相関と同一埋め込み空間における異なる文の相関を観察した。 これらの観察は私たちの仮説と一致し、次の段階へと進む。

This is an experiential study of investigating a consistent method for deriving the correlation between sentence vector and semantic meaning of a sentence. We first used three state-of-the-art word/sentence embedding methods including GPT-3, Word2Vec, and Sentence-BERT, to embed plain text sentence strings into high dimensional spaces. Then we compute the pairwise distance between any possible combination of two sentence vectors in an embedding space and map them into a matrix. Based on each distance matrix, we compute the correlation of distances of a sentence vector with respect to the other sentence vectors in an embedding space. Then we compute the correlation of each pair of the distance matrices. We observed correlations of the same sentence in different embedding spaces and correlations of different sentences in the same embedding space. These observations are consistent with our hypothesis and take us to the next stage.
翻訳日:2023-08-08 13:43:38 公開日:2023-08-07
# mondrian: より安価なapi価格で大規模言語モデルに対する迅速な抽象化攻撃

Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing ( http://arxiv.org/abs/2308.03558v1 )

ライセンス: Link先を確認
Wai Man Si, Michael Backes, Yang Zhang(参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)市場は急速に拡大し、成熟しています。 例えば、OpenAIのChatGPTは高度な大規模言語モデル(LLM)であり、関連する料金で様々なクエリに対する応答を生成する。 これらのモデルは十分なパフォーマンスを提供できるが、完璧には程遠い。 研究者は長年、敵対的攻撃やモデル毒性などのLSMの脆弱性と限界を研究してきた。 必然的に、商用のMLモデルはそのような問題から除外されることはなく、MLaaSが成長し続けるにつれて問題となる可能性がある。 本稿では,LLM APIに対する新たな攻撃戦略,即時抽象化攻撃について述べる。 具体的には、文を抽象化する単純で簡単なメソッドであるmondrianを提案し、llm apiの使用コストを下げる。 このアプローチでは、敵はまず、ターゲットapiのプロキシ(確立価格の高い)として機能する擬似api(確立価格の低い)を作成する。 次に、擬似APIはMondrianを利用してユーザクエリを変更し、ターゲットAPIから抽象化されたレスポンスを取得し、エンドユーザに転送する。 その結果,テキスト分類,生成,質問応答など,さまざまなタスクにおいて,ユーザクエリのトークン長を13%から23%まで短縮することに成功した。 一方、これらの抽象クエリは、ChatGPTのようなタスク固有および一般的な言語モデルの実用性にはあまり影響を与えない。 Mondrianはまた、命令プロンプトのトークン長を、出力品質を損なうことなく、少なくとも11%削減する。 その結果、迅速な抽象化攻撃は、api開発とデプロイメントのコストを伴わずに、敵が利益を得ることができる。

The Machine Learning as a Service (MLaaS) market is rapidly expanding and becoming more mature. For example, OpenAI's ChatGPT is an advanced large language model (LLM) that generates responses for various queries with associated fees. Although these models can deliver satisfactory performance, they are far from perfect. Researchers have long studied the vulnerabilities and limitations of LLMs, such as adversarial attacks and model toxicity. Inevitably, commercial ML models are also not exempt from such issues, which can be problematic as MLaaS continues to grow. In this paper, we discover a new attack strategy against LLM APIs, namely the prompt abstraction attack. Specifically, we propose Mondrian, a simple and straightforward method that abstracts sentences, which can lower the cost of using LLM APIs. In this approach, the adversary first creates a pseudo API (with a lower established price) to serve as the proxy of the target API (with a higher established price). Next, the pseudo API leverages Mondrian to modify the user query, obtain the abstracted response from the target API, and forward it back to the end user. Our results show that Mondrian successfully reduces user queries' token length ranging from 13% to 23% across various tasks, including text classification, generation, and question answering. Meanwhile, these abstracted queries do not significantly affect the utility of task-specific and general language models like ChatGPT. Mondrian also reduces instruction prompts' token length by at least 11% without compromising output quality. As a result, the prompt abstraction attack enables the adversary to profit without bearing the cost of API development and deployment.
翻訳日:2023-08-08 13:43:25 公開日:2023-08-07
# zhongjing: エキスパートフィードバックと現実世界のマルチターン対話による大規模言語モデルの中国の医療能力の向上

Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue ( http://arxiv.org/abs/2308.03549v1 )

ライセンス: Link先を確認
Songhua Yang, Hanjia Zhao, Senbin Zhu, Guangyu Zhou, Hongfei Xu, Yuxiang Jia, Hongying Zan(参考訳) 近年のLLM(Large Language Models)の進歩は,ユーザの意図を理解し,応答する上で画期的な成果を上げている。 しかし、その性能は中国医学などいくつかの専門分野の一般的なユースケースに及ばない。 LLMに漢方薬を組み込む既存の取り組みは、シングルターンおよび蒸留ダイアログデータを備えたスーパービジョンファインチューニング(SFT)に依存している。 これらのモデルには、医師のような積極的調査やマルチターン理解能力がなく、常に安全とプロフェッショナル主義の専門家と対応できない。 本稿では,前訓練から人間フィードバックによる強化学習(rlhf)までのトレーニングパイプライン全体を実装した,中国初の医学llamaベースのllmであるzhongjingを紹介する。 さらに, 複雑な対話能力と積極的な調査開始能力を大幅に向上させる, 7,000 人の医師と患者との対話の多ターン医療対話データセット CMtMedQA を導入する。 バイオメディカルドメインのユニークな特徴を考慮し, アノテーション規則と評価基準を定義した。 その結果,ChatGPTを用いた50倍のトレーニングデータと,ChatGPTを用いた100倍のパラメータを持つにもかかわらず,モデルが様々な能力でベースラインを上回り,ChatGPTの性能に匹敵することがわかった。 RLHFはモデルの命令追従能力と安全性をさらに改善する。 さらなる研究のために、コードやデータセット、モデルもリリースしています。

Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot always align responses with safety and professionalism experts. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from pre-training to reinforcement learning with human feedback (RLHF). Additionally, we introduce a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model's capability for complex dialogue and proactive inquiry initiation. We define a refined annotation rule and evaluation criteria given the biomedical domain's unique characteristics. Results show that our model outperforms baselines in various capacities and matches the performance of ChatGPT in a few abilities, despite having 50x training data with previous best model and 100x parameters with ChatGPT. RLHF further improves the model's instruction-following ability and safety. We also release our code, datasets and model for further research.
翻訳日:2023-08-08 13:43:02 公開日:2023-08-07
# 準粒子と位相量子秩序の最低ランダウ準位における融合機構

Fusion Mechanism for Quasiparticles and Topological Quantum Order in the Lowest-Landau-Level ( http://arxiv.org/abs/2308.03548v1 )

ライセンス: Link先を確認
Arkadiusz Bochniak and Gerardo Ortiz(参考訳) ハルペリン多層系から始め, ボソニックおよびフェルミニックな単層量子ホール状態(あるいは空隙)を任意の充填係数で生成する階層的スキームを開発した。 この方法では、アベリアまたは非アベリア統計と元の真空の性質に依存する量子数に準粒子励起を挿入することができる。 最も重要なことは、準電子と磁気エクソンの融合機構を明らかにし、コムンで導入された粒子分数化に関するアイデアを一般化する。 Phys 5,171 (2022) であった。 さらに、第2の量子化表現において、これらの空孔を特徴づける固有の位相量子秩序を明らかにする。 特に、Abelian Pfaffian と Hafnian の量子流体状態に対する一般化された合成(一般化された読み取り)演算子を構築して方法論を説明する。

Starting from Halperin multilayer systems we develop a hierarchical scheme that generates, bosonic and fermionic, single-layer quantum Hall states (or vacua) of arbitrary filling factor. Our scheme allows for the insertion of quasiparticle excitations with either Abelian or non-Abelian statistics and quantum numbers that depend on the nature of the original vacuum. Most importantly, it reveals a fusion mechanism for quasielectrons and magnetoexcitons that generalizes ideas about particle fractionalization introduced in Commun. Phys. 5, 171 (2022) for the case of Laughlin fluids. In addition, in the second quantization representation, we uncover the inherent topological quantum order characterizing these vacua. In particular, we illustrate the methodology by constructing generalized composite (generalized Read) operators for the non-Abelian Pfaffian and Hafnian quantum fluid states.
翻訳日:2023-08-08 13:42:39 公開日:2023-08-07
# アクティブランプ計測性能評価のためのトランスファー学習フレームワーク

A Transfer Learning Framework for Proactive Ramp Metering Performance Assessment ( http://arxiv.org/abs/2308.03542v1 )

ライセンス: Link先を確認
Xiaobo Ma, Adrian Cottam, Mohammad Razaur Rahman Shaon, Yao-Jan Wu(参考訳) 交通機関は、ランプ計測システムを展開または拡張する際に、ランプ計測性能を評価する必要がある。 ランプメータリング戦略の評価は、主に高速道路交通移動性への影響を調べることに集中している。 これらの効果を探索する方法の1つは、ランプ計測戦略の変更前後の速度などの交通状況を比較することである。 新しいランプメータ制御戦略の実装に続くアフターシナリオでの高速道路交通状態の予測は、ターゲット戦略の潜在的有効性に関する貴重な洞察を提供する。 しかし、後続のシナリオにおける高速道路交通状況の予測や交通政策の有効性評価、ランプメータリングなどの交通制御戦略における機械学習の利用は、現在の文献では若干制限されている。 そこで本研究では,新しいランプメータ制御戦略が施行された後,高速道路交通パラメータ(速度,占有率,流量)を予測する枠組みを提案する。 既知の高速道路セグメントの前後の状況における交通状態の空間的・時間的特徴の関係を学習することにより,この学習を伝達し,新しい高速道路セグメントの交通パラメータを予測する。 提案フレームワークは転送学習モデルに基づいて構築される。 実験の結果,提案手法は高速道路交通パラメータ予測の代替として利用し,ランプメータリング性能を積極的に評価できることがわかった。

Transportation agencies need to assess ramp metering performance when deploying or expanding a ramp metering system. The evaluation of a ramp metering strategy is primarily centered around examining its impact on freeway traffic mobility. One way these effects can be explored is by comparing traffic states, such as the speed before and after the ramp metering strategy has been altered. Predicting freeway traffic states for the after scenarios following the implementation of a new ramp metering control strategy could offer valuable insights into the potential effectiveness of the target strategy. However, the use of machine learning methods in predicting the freeway traffic state for the after scenarios and evaluating the effectiveness of transportation policies or traffic control strategies such as ramp metering is somewhat limited in the current literature. To bridge the research gap, this study presents a framework for predicting freeway traffic parameters (speed, occupancy, and flow rate) for the after situations when a new ramp metering control strategy is implemented. By learning the association between the spatial-temporal features of traffic states in before and after situations for known freeway segments, the proposed framework can transfer this learning to predict the traffic parameters for new freeway segments. The proposed framework is built upon a transfer learning model. Experimental results show that the proposed framework is feasible for use as an alternative for predicting freeway traffic parameters to proactively evaluate ramp metering performance.
翻訳日:2023-08-08 13:42:23 公開日:2023-08-07
# 非線形雑音除去のためのハイブリッド量子古典K平均の試験

Testing of Hybrid Quantum-Classical K-Means for Nonlinear Noise Mitigation ( http://arxiv.org/abs/2308.03540v1 )

ライセンス: Link先を確認
Ark Modi, Alonso Viladomat Jasso, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 最寄りクラスタリングは、M$-Quadrature Amplitude Modulation (M-QAM)プロトコルを用いて送信される信号の復号化に自然に適用できる強力なヒューリスティックアルゴリズムである。 lloydらは指数関数的なスピードアップを約束するアルゴリズムの量子バージョンを提案した。 16-QAMおよび実験64-QAMデータ上でのハイブリッド量子古典的実装を用いて,本アルゴリズムの性能解析を行った。 次に、従来のk-meansクラスタリングアルゴリズムに対して実装をベンチマークする。 古典的なデータの量子符号化の選択は、あらゆる量子機械学習アルゴリズムのハイブリッド量子古典的な実装と同様に、パフォーマンスにおいて重要な役割を果たす。 本研究では,データ埋め込みに一般的な角度埋め込み法と重なり推定にSWAPテストを用いる。 このアルゴリズムはqiskitを使ってソフトウェアでエミュレートされ、シミュレーションおよび実世界の実験データでテストされる。 角度埋め込み法における誘導メトリックの観点からの精度の差について検討し,距離推定の文脈における角度埋め込み法に関する詳細な解析を行った。 実験用光ファイバー装置についても詳述し,64QAMデータを収集する。 これはアルゴリズムがベンチマークされるデータセットである。 最後に,今後の研究への期待と今後の方向性について述べる。

Nearest-neighbour clustering is a powerful set of heuristic algorithms that find natural application in the decoding of signals transmitted using the $M$-Quadrature Amplitude Modulation (M-QAM) protocol. Lloyd et al. proposed a quantum version of the algorithm that promised an exponential speed-up. We analyse the performance of this algorithm by simulating the use of a hybrid quantum-classical implementation of it upon 16-QAM and experimental 64-QAM data. We then benchmark the implementation against the classical k-means clustering algorithm. The choice of quantum encoding of the classical data plays a significant role in the performance, as it would for the hybrid quantum-classical implementation of any quantum machine learning algorithm. In this work, we use the popular angle embedding method for data embedding and the SWAP test for overlap estimation. The algorithm is emulated in software using Qiskit and tested on simulated and real-world experimental data. The discrepancy in accuracy from the perspective of the induced metric of the angle embedding method is discussed, and a thorough analysis regarding the angle embedding method in the context of distance estimation is provided. We detail an experimental optic fibre setup as well, from which we collect 64-QAM data. This is the dataset upon which the algorithms are benchmarked. Finally, some promising current and future directions for further research are discussed.
翻訳日:2023-08-08 13:42:02 公開日:2023-08-07
# データ駆動トランスファー学習フレームワークに基づくオンランプ・オフランプ交通流の推定

On-ramp and Off-ramp Traffic Flows Estimation Based on A Data-driven Transfer Learning Framework ( http://arxiv.org/abs/2308.03538v1 )

ライセンス: Link先を確認
Xiaobo Ma, Abolfazl Karimpour, Yao-Jan Wu(参考訳) 交通省や州、地方交通省が、オンランプとオフランプの各対の交通流へのアクセスを必要とせず、最も適切な制御戦略を策定し、交通性能の監視、維持、評価を行う。 しかし、ランプフローは常に交通機関に提供され易くはなく、物理的なセンサーが設置されていない場所での不足フローを推定する努力はほとんどなされていない。 この研究ギャップを埋めるために、高速道路本線のループ検出器から収集したデータのみを用いて、行方不明のランプ流を正確に推定できるデータ駆動フレームワークを提案する。 提案フレームワークは転送学習モデルを採用している。 転送学習モデルは、ソースとターゲットドメインの基盤となるデータ分布が同じでなければならないという仮定を緩和する。 そこで,提案手法は,交通パターン,分布,特性の異なる高速道路におけるオンランプおよびオフランプ流の高精度な推定を保証できる。 実験結果に基づいて、フロー推定平均絶対誤差はオンランプで23.90 veh/hから40.85 veh/h、オフランプで31.58 veh/hから45.31 veh/h、オンランプで34.55 veh/hから57.77 veh/h、オフランプで41.75 veh/hから58.80 veh/hである。 さらに比較分析の結果,提案手法は従来の機械学習モデルよりも優れていることがわかった。 提案手法に基づく推定ランプフローは, 交通機関が物理的なセンサが設置されていない場所でのランプ制御戦略の運用を強化するのに役立つ。

To develop the most appropriate control strategy and monitor, maintain, and evaluate the traffic performance of the freeway weaving areas, state and local Departments of Transportation need to have access to traffic flows at each pair of on-ramp and off-ramp. However, ramp flows are not always readily available to transportation agencies and little effort has been made to estimate these missing flows in locations where no physical sensors are installed. To bridge this research gap, a data-driven framework is proposed that can accurately estimate the missing ramp flows by solely using data collected from loop detectors on freeway mainlines. The proposed framework employs a transfer learning model. The transfer learning model relaxes the assumption that the underlying data distributions of the source and target domains must be the same. Therefore, the proposed framework can guarantee high-accuracy estimation of on-ramp and off-ramp flows on freeways with different traffic patterns, distributions, and characteristics. Based on the experimental results, the flow estimation mean absolute errors range between 23.90 veh/h to 40.85 veh/h for on-ramps, and 31.58 veh/h to 45.31 veh/h for off-ramps; the flow estimation root mean square errors range between 34.55 veh/h to 57.77 veh/h for on-ramps, and 41.75 veh/h to 58.80 veh/h for off-ramps. Further, the comparison analysis shows that the proposed framework outperforms other conventional machine learning models. The estimated ramp flows based on the proposed method can help transportation agencies to enhance the operations of their ramp control strategies for locations where physical sensors are not installed.
翻訳日:2023-08-08 13:41:42 公開日:2023-08-07
# マルチ)2チャンネル近藤モデルの体系的コンパクト化 II。 スケーリングと普遍性の比較研究

Systematic compactification of the (multi) two-channel Kondo model. II. Comparative study of scaling and universality ( http://arxiv.org/abs/2308.03590v1 )

ライセンス: Link先を確認
Aleksandar Ljepoja, Nayana Shah, C. J. Bolech(参考訳) 2チャンネルコンドモデルの体系的コンパクト化(およびそのマルチチャネル拡張、共用紙Iを参照)と過去のコンパクト化の提案に対する妥当性の実証に続いて、アンダーソンの単純な貧乏者の手順を用いて、これらの2つのモデルと元のモデルの比較研究を行う。 これにより、スケーリング時にどのように流れるかという3つのモデル間の普遍的な合意を明らかにし、そのような一致の一般的な限界について提案する。 このようにして、多くのボゾニゼーションベースの写像(特に量子不純物モデル)において標準単純化が暗黙的になる条件を更に解明し、一貫性のあるボゾニゼーション・デボソニゼーションのアプローチが必要な場合に、確実に使用することができる。

Following up on the systematic compactification of the two-channel Kondo model (and its multi-channel extensions; see companion paper I) and the demonstration of its validity over the past proposal of compactification, we resort to a study of scaling using Anderson's simple poor man's procedure to carry out a comparative study of these two and the original model. By doing so we unveil a universal agreement among the three models in how they flow upon scaling, and suggest what are the general limits of such a concordance. In this way we further elucidate the conditions under which the standard simplifications implicit in many bosonization-based mappings (particularly of quantum impurity models) can be used reliably, and when the consistent bosonization-debosonization approach is needed.
翻訳日:2023-08-08 13:35:21 公開日:2023-08-07
# 説明可能なAIにおける特徴の重要性と特徴の影響

Feature Importance versus Feature Influence and What It Signifies for Explainable AI ( http://arxiv.org/abs/2308.03589v1 )

ライセンス: Link先を確認
Kary Fr\"amling(参考訳) 決定論の文脈で使われる場合、特徴の重要性は、他の特徴と比較して、ある特徴の価値がモデル結果(または結果の効用)をどの程度変えるかを表す。 特徴の重要性は、最先端のExplainable AIメソッドで使われている機能の影響と混同してはならない。 特徴の重要性とは対照的に、特徴の影響は参照レベルやベースラインに対して測定される。 文脈的重要性と実用性(CIU)メソッドは、グローバルかつ局所的な特徴の重要性を統一的に定義し、ポストホックな説明にも適用することができる。 本稿は,ciuをグローバルとローカルの両方の説明可能性に適用し,異なる方法の忠実性と安定性を評価し,文脈的重要性と文脈的有用性を用いた説明が,影響のみを使用する場合よりも表現力と柔軟に説明できることを示す。

When used in the context of decision theory, feature importance expresses how much changing the value of a feature can change the model outcome (or the utility of the outcome), compared to other features. Feature importance should not be confused with the feature influence used by most state-of-the-art post-hoc Explainable AI methods. Contrary to feature importance, feature influence is measured against a reference level or baseline. The Contextual Importance and Utility (CIU) method provides a unified definition of global and local feature importance that is applicable also for post-hoc explanations, where the value utility concept provides instance-level assessment of how favorable or not a feature value is for the outcome. The paper shows how CIU can be applied to both global and local explainability, assesses the fidelity and stability of different methods, and shows how explanations that use contextual importance and contextual utility can provide more expressive and flexible explanations than when using influence only.
翻訳日:2023-08-08 13:35:05 公開日:2023-08-07
# SoilNet: ヨーロッパにおける土壌有機炭素予測のための注意型時空間深層学習フレームワーク

SoilNet: An Attention-based Spatio-temporal Deep Learning Framework for Soil Organic Carbon Prediction with Digital Soil Mapping in Europe ( http://arxiv.org/abs/2308.03586v1 )

ライセンス: Link先を確認
Nafiseh Kakhani, Moien Rangzan, Ali Jamali, Sara Attarchi, Seyed Kazem Alavipanah, and Thomas Scholten(参考訳) デジタル土壌マッピング(DSM)は、統計モデリングと機械学習(ML)手法を含む最先端技術を統合し、土壌特性とその空間分布を正確に描写する高度なアプローチである。 土壌有機炭素(SOC)は土壌の健康、栄養循環、温室効果ガス排出、生態系全体の生産性に関する貴重な洞察を提供する重要な土壌特性である。 本研究では,DSMフレームワークにおける空間時間深層学習(DL)技術の意義を明らかにする。 欧州全体でのSOC予測のために,ベース畳み込みニューラルネットワーク(CNN)モデルと空間的注意機構を用いた空間情報と,長期記憶(LSTM)ネットワークを用いた気候時空間情報を組み合わせた新しいアーキテクチャを提案する。 このモデルは、ランドサット-8画像、地形、リモートセンシング指標、気候時系列を含む包括的な環境特徴を入力特徴として利用する。 その結果、提案手法は、DSMで一般的に使用されるランダムフォレストのような従来のML手法よりも優れており、低根平均二乗誤差(RMSE)が得られることが示された。 このモデルはSOC予測のための堅牢なツールであり、他の土壌特性にも適用可能であり、DSM技術の進歩に寄与し、正確な情報に基づく土地管理と意思決定プロセスの促進に寄与する。

Digital soil mapping (DSM) is an advanced approach that integrates statistical modeling and cutting-edge technologies, including machine learning (ML) methods, to accurately depict soil properties and their spatial distribution. Soil organic carbon (SOC) is a crucial soil attribute providing valuable insights into soil health, nutrient cycling, greenhouse gas emissions, and overall ecosystem productivity. This study highlights the significance of spatial-temporal deep learning (DL) techniques within the DSM framework. A novel architecture is proposed, incorporating spatial information using a base convolutional neural network (CNN) model and spatial attention mechanism, along with climate temporal information using a long short-term memory (LSTM) network, for SOC prediction across Europe. The model utilizes a comprehensive set of environmental features, including Landsat-8 images, topography, remote sensing indices, and climate time series, as input features. Results demonstrate that the proposed framework outperforms conventional ML approaches like random forest commonly used in DSM, yielding lower root mean square error (RMSE). This model is a robust tool for predicting SOC and could be applied to other soil properties, thereby contributing to the advancement of DSM techniques and facilitating land management and decision-making processes based on accurate information.
翻訳日:2023-08-08 13:34:46 公開日:2023-08-07
# WIKITIDE:Wikipediaベースのタイムスタンプ定義ペアデータセット

WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset ( http://arxiv.org/abs/2308.03582v1 )

ライセンス: Link先を確認
Hsuvas Borkakoty and Luis Espinosa-Anke(参考訳) 言語モデルに支配される現在のNLPコンテキストにおける根本的な課題は、現在のアーキテクチャの柔軟性から、新しい情報を'学習'することにある。 連続学習やパラメータ効率のよい微調整のようなモデル中心のソリューションが利用可能であるが、言語や世界の変化を確実に識別する方法はまだ疑問である。 本稿では,ウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットであるWikiTiDeを提案する。 このようなリソースは、特に、概念、イベント、または名前付きエンティティに関するコア更新のための知識リソースをスキャンできるトレーニングモデルにおいて、ダイアクロニックNLPの加速に役立ちます。 提案手法は完全自動であり,ブートストラップアルゴリズムを用いて高品質なデータセットを徐々に作成する。 我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。 また、多くの下流タスクで微調整されたモデルを活用し、競合するベースラインに関して有望な結果を示す。

A fundamental challenge in the current NLP context, dominated by language models, comes from the inflexibility of current architectures to 'learn' new information. While model-centric solutions like continual learning or parameter-efficient fine tuning are available, the question still remains of how to reliably identify changes in language or in the world. In this paper, we propose WikiTiDe, a dataset derived from pairs of timestamped definitions extracted from Wikipedia. We argue that such resource can be helpful for accelerating diachronic NLP, specifically, for training models able to scan knowledge resources for core updates concerning a concept, an event, or a named entity. Our proposed end-to-end method is fully automatic, and leverages a bootstrapping algorithm for gradually creating a high-quality dataset. Our results suggest that bootstrapping the seed version of WikiTiDe leads to better fine-tuned models. We also leverage fine-tuned models in a number of downstream tasks, showing promising results with respect to competitive baselines.
翻訳日:2023-08-08 13:34:23 公開日:2023-08-07
# 語彙推論型による制御可能な自然言語推論に向けて

Towards Controllable Natural Language Inference through Lexical Inference Types ( http://arxiv.org/abs/2308.03581v1 )

ライセンス: Link先を確認
Yingji Zhang, Danilo S. Carvalho, Ian Pratt-Hartmann, Andre Freitas(参考訳) 説明可能な自然言語推論(Explainable natural language inference)は、説明的推論チェーンを生成するメカニズムを提供することを目的としている。 EntailmentBankという最近のコーパスは、entailment tree \cite{dalvi2021explaining}を使って質問に対する回答を説明することによって、このタスクを進めようとしている。 彼らはt5モデルを使って木を直接生成し、どのように答えが推測されるかを説明することができる。 しかし、中間ステップの生成を説明・制御する能力が欠如しており、これはマルチホップ推論プロセスに不可欠である。 % 最近の1社であるEntailmentBankは、entailment tree \cite{dalvi2021explaining} で質問に対する回答を説明することによって、この課題を推し進めることを目指している。 彼らはT5を用いてツリーを直接生成し、答えがどのように推論されるかを説明するが、中間体がどのように生成されるかは説明できない。 本研究では,多分野説明推論のための制御された自然言語推論アーキテクチャを提案する。 生成の制御を改善し,説明的分析を可能にするために,抽象意味表現(amr)グラフに基づく語彙推論型を定義し,t5のアーキテクチャを変更し,その型情報に基づく潜在文表現(t5ボトルネック)を学習する。 約5000の注釈付き説明的推論ステップのデータセットも提供しています。 実験の結果,t5のボトルネックで誘発される推論型付けは,t5が明示的な制御下で結論を出すのに役立つことが示唆された。

Explainable natural language inference aims to provide a mechanism to produce explanatory (abductive) inference chains which ground claims to their supporting premises. A recent corpus called EntailmentBank strives to advance this task by explaining the answer to a question using an entailment tree \cite{dalvi2021explaining}. They employ the T5 model to directly generate the tree, which can explain how the answer is inferred. However, it lacks the ability to explain and control the generation of intermediate steps, which is crucial for the multi-hop inference process. % One recent corpus, EntailmentBank, aims to push this task forward by explaining an answer to a question according to an entailment tree \cite{dalvi2021explaining}. They employ T5 to generate the tree directly, which can explain how the answer is inferred but cannot explain how the intermediate is generated, which is essential to the multi-hop inference process. In this work, we focus on proposing a controlled natural language inference architecture for multi-premise explanatory inference. To improve control and enable explanatory analysis over the generation, we define lexical inference types based on Abstract Meaning Representation (AMR) graph and modify the architecture of T5 to learn a latent sentence representation (T5 bottleneck) conditioned on said type information. We also deliver a dataset of approximately 5000 annotated explanatory inference steps, with well-grounded lexical-symbolic operations. Experimental results indicate that the inference typing induced at the T5 bottleneck can help T5 to generate a conclusion under explicit control.
翻訳日:2023-08-08 13:34:03 公開日:2023-08-07
# 基本となるパターンを明らかにする:データセットの類似性、パフォーマンス、一般化

Revealing the Underlying Patterns: Investigating Dataset Similarity, Performance, and Generalization ( http://arxiv.org/abs/2308.03580v1 )

ライセンス: Link先を確認
Akshit Achara, Ram Krishna Pandey(参考訳) 教師付きディープラーニングモデルは、特定のタスクで許容できるパフォーマンスを達成するために、大量のラベル付きデータを必要とする。 しかし、見当たらないデータでテストすると、そのモデルはうまく機能しないかもしれない。 したがって、モデルは一般化を改善するために、追加および様々なラベル付きデータで訓練される必要がある。 本研究の目的は,モデルとその性能,一般化を理解することである。 モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。 提案する距離メトリクスとモデル性能を組み合わせることで,候補アーキテクチャのプールから適切なモデル/アーキテクチャを選択することができる。 これらのモデルの一般化は,少数の未確認画像(例えば,1,3,7)をトレーニングセットに追加するだけで改善できることを示した。 提案手法は、動的環境における未知のデータに対するモデル性能の推定を行い、トレーニングとアノテーションのコストを削減する。

Supervised deep learning models require significant amount of labelled data to achieve an acceptable performance on a specific task. However, when tested on unseen data, the models may not perform well. Therefore, the models need to be trained with additional and varying labelled data to improve the generalization. In this work, our goal is to understand the models, their performance and generalization. We establish image-image, dataset-dataset, and image-dataset distances to gain insights into the model's behavior. Our proposed distance metric when combined with model performance can help in selecting an appropriate model/architecture from a pool of candidate architectures. We have shown that the generalization of these models can be improved by only adding a small number of unseen images (say 1, 3 or 7) into the training set. Our proposed approach reduces training and annotation costs while providing an estimate of model performance on unseen data in dynamic environments.
翻訳日:2023-08-08 13:33:34 公開日:2023-08-07
# Credit Scoringのための量子機械学習

Quantum Machine Learning for Credit Scoring ( http://arxiv.org/abs/2308.03575v1 )

ライセンス: Link先を確認
Nikolaos Schetakis, Davit Aghamalyan, Michael Boguslavsky, Agnieszka Rees, Marc Raktomalala, Paul Griffin(参考訳) 本稿では,中小企業(中小企業)のクレジットスコアリングに量子機械学習(QML)を適用する方法について検討する。 量子/古典ハイブリッドアプローチは、いくつかのモデル、アクティベーション関数、エポック、その他のパラメータで使用されている。 結果は、2つの量子分類器と古典的ニューラルネットワークを使用して、シンガポールの企業のデータに適用された最良のモデルから示される。 従来のモデルに比べて,350エポックでトレーニングされた量子モデルの方が,予測性能に比較して3500エポックよりはるかに効率的である。 驚くべきことに、12量子ビットを超える量子ビット数の増加と、量子モデルに余分な分類器ブロックの追加によって、精度の低下が観測された。 シミュレータや実際の量子コンピュータ上での実践的な問題についても検討する。 全体として、クレジットスコアリングにおけるハイブリッドQMLの使用に関する、最初の詳細な調査において、大きな期待が得られます。

In this paper we explore the use of quantum machine learning (QML) applied to credit scoring for small and medium-sized enterprises (SME). A quantum/classical hybrid approach has been used with several models, activation functions, epochs and other parameters. Results are shown from the best model, using two quantum classifiers and a classical neural network, applied to data for companies in Singapore. We observe significantly more efficient training for the quantum models over the classical models with the quantum model trained for 350 epochs compared to 3500 epochs for comparable prediction performance. Surprisingly, a degradation in the accuracy was observed as the number of qubits was increased beyond 12 qubits and also with the addition of extra classifier blocks in the quantum model. Practical issues for executing on simulators and real quantum computers are also explored. Overall, we see great promise in this first in-depth exploration of the use of hybrid QML in credit scoring.
翻訳日:2023-08-08 13:33:21 公開日:2023-08-07
# 進化的直接政策探索における一般化早期停止

Generalized Early Stopping in Evolutionary Direct Policy Search ( http://arxiv.org/abs/2308.03574v1 )

ライセンス: Link先を確認
Etor Arza, Leni K. Le Goff and Emma Hart(参考訳) 長い評価時間は、直接ポリシー探索タスクのような多くの最適化問題、特にロボット工学の応用など、物理世界における評価の実行に関わる場合において一般的である。 多くの場合、一定期間にわたって解を評価すると、計算時間を増やすことで目的値が上昇しないことが明らかになる(例えば、2輪ロボットがその場で継続的に回転する場合)。 このような場合、計算時間を短縮するために評価を早期に停止することは理にかなっている。 しかしながら、評価を止めるためのほとんどのアプローチは問題に特化しており、目の前のタスクのために特別に設計する必要がある。 そこで本研究では,政策検索の早期停止手法を提案する。 提案手法は,各ステップの目的値のみを考察し,問題固有の知識を必要としない。 ゲーム,ロボティクス,古典的な制御領域から引き出された5つの直接的なポリシー探索環境における停止基準を検証し,最大75%の計算時間を節約できることを示す。 また,問題固有の停止基準と比較し,より汎用的に適用しながら,比較可能な性能を示す。

Lengthy evaluation times are common in many optimization problems such as direct policy search tasks, especially when they involve conducting evaluations in the physical world, e.g. in robotics applications. Often, when evaluating a solution over a fixed time period, it becomes clear that the objective value will not increase with additional computation time (for example, when a two-wheeled robot continuously spins on the spot). In such cases, it makes sense to stop the evaluation early to save computation time. However, most approaches to stop the evaluation are problem-specific and need to be specifically designed for the task at hand. Therefore, we propose an early stopping method for direct policy search. The proposed method only looks at the objective value at each time step and requires no problem-specific knowledge. We test the introduced stopping criterion in five direct policy search environments drawn from games, robotics, and classic control domains, and show that it can save up to 75% of the computation time. We also compare it with problem-specific stopping criteria and demonstrate that it performs comparably while being more generally applicable.
翻訳日:2023-08-08 13:33:07 公開日:2023-08-07
# 連合学習が透かしを満たすとき - 知的財産保護技術の包括的概要

When Federated Learning meets Watermarking: A Comprehensive Overview of Techniques for Intellectual Property Protection ( http://arxiv.org/abs/2308.03573v1 )

ライセンス: Link先を確認
Mohammed Lansari, Reda Bellafqira, Katarzyna Kapusta, Vincent Thouvenot, Olivier Bettan, Gouenou Coatrieux(参考訳) フェデレートラーニング(FL)は、複数の参加者がデータの集中化を必要とせずにディープニューラルネットワーク(DNN)を協調的にトレーニングできる技術である。 プライバシー保護の特長は、医療や軍など、センシティブな状況での応用を魅力的なものにすることにある。 データは明示的に交換されていないが、トレーニング手順では参加者のモデルに関する情報を共有する必要がある。 これにより、個々のモデルは悪意あるアクターによる盗難や不正な配布に脆弱になる。 機械学習(ML)における所有権保護の問題に対処するため,過去5年間にDNN透かし法が開発されてきた。 既存の作品の多くは中央集権的な透かしに重点を置いているが、flとその独特の制約のために設計された手法はごくわずかである。 本稿では,この領域で発生する新たな課題と機会に光を当てながら,連合学習用透かしの最近の進歩について概説する。

Federated Learning (FL) is a technique that allows multiple participants to collaboratively train a Deep Neural Network (DNN) without the need of centralizing their data. Among other advantages, it comes with privacy-preserving properties making it attractive for application in sensitive contexts, such as health care or the military. Although the data are not explicitly exchanged, the training procedure requires sharing information about participants' models. This makes the individual models vulnerable to theft or unauthorized distribution by malicious actors. To address the issue of ownership rights protection in the context of Machine Learning (ML), DNN Watermarking methods have been developed during the last five years. Most existing works have focused on watermarking in a centralized manner, but only a few methods have been designed for FL and its unique constraints. In this paper, we provide an overview of recent advancements in Federated Learning watermarking, shedding light on the new challenges and opportunities that arise in this field.
翻訳日:2023-08-08 13:32:50 公開日:2023-08-07
# 部分観測可能なコンテキスト帯域における確率的学習

Provably Efficient Learning in Partially Observable Contextual Bandit ( http://arxiv.org/abs/2308.03572v1 )

ライセンス: Link先を確認
Xueping Gong and Jiheng Zhang(参考訳) 本稿では,エージェントが他のエージェントからの知識や隠れた共同設立者に関する情報を限定した,部分的に観察可能なコンテキストバンディットにおける転送学習について検討する。 まず、最適化問題を通じて、行動と報酬の間の因果効果を識別または部分的に識別する。 これらの最適化問題を解決するために、未知分布の本来の機能的制約を線形制約に分類し、線形プログラミングを逐次解き、推定誤差を考慮した因果境界を求める。 サンプリングアルゴリズムは適切なサンプリング分布に対して望ましい収束結果を与える。 次に,因果境界を古典的なバンディットアルゴリズムの改善に適用し,動作集合や関数空間の大きさに対する後悔に影響を与えることを示す。 特に,一般的な文脈分布を処理可能な関数近似のタスクでは,従来の文献と比較して関数空間サイズの順序依存性が改善される。 因果的に拡張されたアルゴリズムが古典的なバンディットアルゴリズムよりも優れており、収束率が桁違いに速いことを正式に証明する。 最後に,現在の最先端手法と比較して,戦略の効率性を示すシミュレーションを行う。 本研究は,データが少なく,取得に費用がかかる実世界のアプリケーションにおいて,文脈的盗聴エージェントの性能を向上させる可能性がある。

In this paper, we investigate transfer learning in partially observable contextual bandits, where agents have limited knowledge from other agents and partial information about hidden confounders. We first convert the problem to identifying or partially identifying causal effects between actions and rewards through optimization problems. To solve these optimization problems, we discretize the original functional constraints of unknown distributions into linear constraints, and sample compatible causal models via sequentially solving linear programmings to obtain causal bounds with the consideration of estimation error. Our sampling algorithms provide desirable convergence results for suitable sampling distributions. We then show how causal bounds can be applied to improving classical bandit algorithms and affect the regrets with respect to the size of action sets and function spaces. Notably, in the task with function approximation which allows us to handle general context distributions, our method improves the order dependence on function space size compared with previous literatures. We formally prove that our causally enhanced algorithms outperform classical bandit algorithms and achieve orders of magnitude faster convergence rates. Finally, we perform simulations that demonstrate the efficiency of our strategy compared to the current state-of-the-art methods. This research has the potential to enhance the performance of contextual bandit agents in real-world applications where data is scarce and costly to obtain.
翻訳日:2023-08-08 13:32:33 公開日:2023-08-07
# 共振器に結合した散逸量子ビットの量子同期と絡み合い

Quantum synchronization and entanglement of dissipative qubits coupled to a resonator ( http://arxiv.org/abs/2308.03617v1 )

ライセンス: Link先を確認
A.D.Chepelianskii and D.L.Shepelyansky(参考訳) 散逸型jaynes-cummingsモデルの枠組みにおける複数の量子ビットに結合した駆動キャビティの特性について検討した。 回転波近似(RWA)により、光子と量子ビットの強い結合を持つ有効なJaynes-Cummingsモデルへの原動力モデルの記述を低減できることを示す。 このシステムの定常状態を記述するための2つの半解析的手法が開発されている。 まず, 弱散逸限界を扱い, キャビティ共鳴以外の正確なrwa定常状態に収束する速度方程式の摂動列を導出する。 このアプローチはシステム内の多光子共鳴を正確に記述する。 次に、強い散逸限界において、平均スピン射影とキャビティ状態を再現できる半古典近似を導入する。 このアプローチはrwaを強い散逸限界で正確に再現するが、より多くの量子状態においても良い定性的傾向をもたらす。 次に,量子ビットのキャビティへの結合による量子同期に注目する。 本研究では,一対の量子ビットが,消散と脱コヒーレンスの存在下で駆動キャビティと相互作用して同期する様子を実証する。 最後に、より多くのキュービットの同期について論じる。

We study the properties of a driven cavity coupled to several qubits in the framework of a dissipative Jaynes-Cummings model. We show that the rotating wave approximation (RWA) allows to reduce the description of original driven model to an effective Jaynes-Cummings model with strong coupling between photons and qubits. Two semi-analytical approaches are developed to describe the steady state of this system. We first treat the weak dissipation limit where we derive perturbative series of rate equations that converge to the exact RWA steady-state except near the cavity resonance. This approach exactly describes the multi-photon resonances in the system. Then in the strong dissipation limit we introduce a semiclassical approximation which allows to reproduce the mean spin-projections and cavity state. This approach reproduces the RWA exactly in the strong dissipation limit but provides good qualitative trends even in more quantum regimes. We then focus on quantum synchronization of qubits through their coupling to the cavity. We demonstrate the entangled steady state of a pair of qubits synchronized through their interaction with a driven cavity in presence of dissipation and decoherence. Finally we discuss synchronization of a larger number of qubits.
翻訳日:2023-08-08 13:25:34 公開日:2023-08-07
# あいまいなラベルを用いた脳血管の適応的半監督セグメンテーション

Adaptive Semi-Supervised Segmentation of Brain Vessels with Ambiguous Labels ( http://arxiv.org/abs/2308.03613v1 )

ライセンス: Link先を確認
Fengming Lin, Yan Xia, Nishant Ravikumar, Qiongyao Liu, Michael MacRaild, Alejandro F Frangi(参考訳) 脳血管の正確なセグメンテーションは脳血管疾患の診断と治療に不可欠である。 しかし、既存の手法では、小さな容器を捕獲し、部分的または曖昧に注釈されたデータセットを扱うという課題に直面している。 本稿では,これらの課題に対処するための適応型半教師付きアプローチを提案する。 提案手法は,プログレッシブな半教師付き学習,適応的トレーニング戦略,境界強化などを含む革新的手法を取り入れている。 3DRAデータセットによる実験結果から,メッシュベースのセグメンテーション指標による手法の優位性を示す。 主血管のみにアノテートする部分的かつ曖昧なラベル付きデータを利用することにより,誤ラベル細血管における印象的なセグメント化性能を実現し,臨床応用の可能性を示す。

Accurate segmentation of brain vessels is crucial for cerebrovascular disease diagnosis and treatment. However, existing methods face challenges in capturing small vessels and handling datasets that are partially or ambiguously annotated. In this paper, we propose an adaptive semi-supervised approach to address these challenges. Our approach incorporates innovative techniques including progressive semi-supervised learning, adaptative training strategy, and boundary enhancement. Experimental results on 3DRA datasets demonstrate the superiority of our method in terms of mesh-based segmentation metrics. By leveraging the partially and ambiguously labeled data, which only annotates the main vessels, our method achieves impressive segmentation performance on mislabeled fine vessels, showcasing its potential for clinical applications.
翻訳日:2023-08-08 13:25:06 公開日:2023-08-07
# AvatarVerse:テキストと詩による高品質で安定な3Dアバター作成

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose ( http://arxiv.org/abs/2308.03610v1 )

ライセンス: Link先を確認
Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng(参考訳) 表現的で多様で高品質な3Dアバターを高度にカスタマイズされたテキスト記述から作成し、ガイダンスを付けることは、詳細と様々なスタイル(現実的、フィクション的など)を確実にする3Dのモデリングとテクスチャの複雑さのため、難しい作業である。 AvatarVerseは、テキスト記述とポーズガイダンスのみから、表現力のある高品質な3Dアバターを生成する安定なパイプラインである。 具体的には,2次元画像によるアバターの3次元ポーズ制御を確立するために,高密度信号に基づく2次元拡散モデルを導入する。 悪名高いヤヌス問題に対処し、生成過程を著しく停滞させる。 さらに, 生成した3Dアバターの品質を大幅に向上させる, プログレッシブ高分解能3D合成戦略を提案する。 この目的のために、提案するアバターバースパイプラインは、より表現力に富んだ3dアバターのゼロショット3dモデリングを実現するだけでなく、従来の作品よりも高品質で忠実な3dアバターのモデリングを実現する。 厳密な質的評価とユーザスタディは、高忠実度3Dアバターの合成におけるAvatarVerseの優位性を示し、高品質で安定した3Dアバター作成の新しい標準となった。 私たちのプロジェクトページは、https://avatarverse3d.github.io

Creating expressive, diverse and high-quality 3D avatars from highly customized text descriptions and pose guidance is a challenging task, due to the intricacy of modeling and texturing in 3D that ensure details and various styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline for generating expressive high-quality 3D avatars from nothing but text descriptions and pose guidance. In specific, we introduce a 2D diffusion model conditioned on DensePose signal to establish 3D pose control of avatars through 2D images, which enhances view consistency from partially observed scenarios. It addresses the infamous Janus Problem and significantly stablizes the generation process. Moreover, we propose a progressive high-resolution 3D synthesis strategy, which obtains substantial improvement over the quality of the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves zero-shot 3D modeling of 3D avatars that are not only more expressive, but also in higher quality and fidelity than previous works. Rigorous qualitative evaluations and user studies showcase AvatarVerse's superiority in synthesizing high-fidelity 3D avatars, leading to a new standard in high-quality and stable 3D avatar creation. Our project page is: https://avatarverse3d.github.io
翻訳日:2023-08-08 13:24:47 公開日:2023-08-07
# デンザー受容場による自己監督型映像の再生

Recurrent Self-Supervised Video Denoising with Denser Receptive Field ( http://arxiv.org/abs/2308.03608v1 )

ライセンス: Link先を確認
Zichun Wang, Yulun Zhang, Debing Zhang, Ying Fu(参考訳) 自己監督ビデオはブラインドスポットネットワークの利用によってかなり進歩している。 しかし,その盲点制約下では,従来の自己教師付き映像デノイジング手法は,レファレンスフレーム全体や隣接フレーム全体のテクスチャの破壊や情報損失が著しい。 さらに、従来手法で利用可能な隣接フレームの数が限られているため、遠隔時間情報を捨てることになる。 それにもかかわらず、既存のリカレントなフレームワークを採用するだけではうまくいきません。 本稿では,参照フレームと隣接フレームの両方を密接な受容場で完全に活用するだけでなく,局所的特徴と遠方的特徴の両方の時間的情報を有効活用する自己教師付き映像デノイジングのためのrdrfを提案する。 まず、参照フレームと隣接フレームの両方からの情報の包括的利用に向けて、rdrfは、空間的および時間的次元に沿ってより多くの隣接画素を取り込むことにより、より密な受容場を実現する。 第2に、遠隔および近距離の時間的特徴を同時に統合した、自己教師付きリカレントビデオデノイジングフレームワークが特徴だ。 これにより、プレーンなリカレントフレームワークにおけるエラーの蓄積を緩和しながら、長期的な双方向情報集約が可能になる。 本手法は合成データと実映像データの両方において優れた性能を示す。 コードはhttps://github.com/Wang-XIaoDingdd/RDRF.comで入手できる。

Self-supervised video denoising has seen decent progress through the use of blind spot networks. However, under their blind spot constraints, previous self-supervised video denoising methods suffer from significant information loss and texture destruction in either the whole reference frame or neighbor frames, due to their inadequate consideration of the receptive field. Moreover, the limited number of available neighbor frames in previous methods leads to the discarding of distant temporal information. Nonetheless, simply adopting existing recurrent frameworks does not work, since they easily break the constraints on the receptive field imposed by self-supervision. In this paper, we propose RDRF for self-supervised video denoising, which not only fully exploits both the reference and neighbor frames with a denser receptive field, but also better leverages the temporal information from both local and distant neighbor features. First, towards a comprehensive utilization of information from both reference and neighbor frames, RDRF realizes a denser receptive field by taking more neighbor pixels along the spatial and temporal dimensions. Second, it features a self-supervised recurrent video denoising framework, which concurrently integrates distant and near-neighbor temporal features. This enables long-term bidirectional information aggregation, while mitigating error accumulation in the plain recurrent framework. Our method exhibits superior performance on both synthetic and real video denoising datasets. Codes will be available at https://github.com/Wang-XIaoDingdd/RDRF.
翻訳日:2023-08-08 13:24:04 公開日:2023-08-07
# マルチ)2チャンネル近藤モデルの体系的コンパクト化 III。 拡張場理論再正規化群解析

Systematic compactification of the (multi) two-channel Kondo model. III. Extended field-theoretic renormalization group analysis ( http://arxiv.org/abs/2308.03606v1 )

ライセンス: Link先を確認
Aleksandar Ljepoja, C. J. Bolech, Nayana Shah(参考訳) 本研究では,キャラン・シマンジック方程式に基づく場理論的再正規化群手続きを行い,(複数)2チャンネル近藤モデルとそのコンパクト化バージョンの詳細な流れを計算する。 そうすることで、我々は、貧乏な男のスケーリングを使って得たベータ関数の普遍的な用語を超えて(コンパニオンペーパーiiを参照)、モデルのコンパクト化バージョンが元のものとどう比較したかについての分析を終える。 以上の結果から, 大チャネル数限界を探索し, 有限温度クロスオーバー領域についても考察した。 さらに,従来のボゾニゼーション・デボソニゼーション形式との矛盾について考察し,複数の面での理解を深める。 特に、前述した平行な近藤相互作用の一貫した参照化をさらに正当化するために、再正規化-フロー引数を利用する(コンパニオンペーパー i を参照)。

We carry out a field-theoretical renormalization group procedure based on the Callan-Symanzik equation to calculate the detailed flow for the (multi) two-channel Kondo model and its compactified versions. In doing so, we go beyond the universal terms in the beta function we obtained using poor man's scaling (see companion paper II) and culminate our analysis of how the compactified versions of the model fare against the original one. Among other results, we explore the large-channel-number limit and also extend our considerations to the finite temperature crossover region. Moreover, we gain insights into the contradistinction between the consistent vs. conventional bosonization-debosonization formalisms, thereby advancing our understanding on multiple fronts. In particular, we make use of renormalization-flow arguments to further justify the consistent refermionization of the parallel Kondo interaction we presented earlier (see companion paper I).
翻訳日:2023-08-08 13:23:22 公開日:2023-08-07
# 状態準備における多段階確率アルゴリズムの二次速度向上

Quadratic speedups of multi-step probabilistic algorithms in state preparation ( http://arxiv.org/abs/2308.03605v1 )

ライセンス: Link先を確認
Hirofumi Nishi and Taichi Kosugi and Yusuke Nishiya and Yu-ichiro Matsushita(参考訳) 量子状態の準備は、量子コンピュータにおける様々な問題の基本的な構築ブロックである。 非単体作用素は、アンシラ量子ビットを導入して初期状態に含まれる不要な状態を減衰するように設計され、初期状態に対して確率的に作用する。 本研究では,この確率的性質が量子的利点の引き金であることを明らかにした。確率的アルゴリズムは古典的アルゴリズムよりも計算速度を加速しない。 量子振幅増幅 (qaa) と多段階確率アルゴリズムを組み合わせることで, この欠点に対処し, 二次速度向上と量子アドバンテージをもたらす。 また,QAAを用いた多段階確率法により,不確実性の観点からの量子位相推定よりも有利であることがわかった。 また,確率的想像時間進化法(PITE)を例として,二次的スピードアップを実証した。

Quantum state preparation is a fundamental building block for various problems on a quantum computer. A non-unitary operator for that is designed to decay unwanted states contained in an initial state by introducing ancilla qubits, and it acts probabilistically on the initial state. In this study, we clarified that this probabilistic nature is a drag for quantum advantages: the probabilistic algorithms do not accelerate the computational speed over the classical ones. Combining quantum amplitude amplification (QAA) with multi-step probabilistic algorithms is proposed to address this drawback, leading to quadratic speedup and quantum advantages. We have also found that by the multi-step probabilistic method with QAA shows advantages than quantum phase estimation at the viewpoint of infidelity. We also demonstrated it to confirm the quadratic speedup, using a probabilistic imaginary-time evolution (PITE) method as an example.
翻訳日:2023-08-08 13:23:04 公開日:2023-08-07
# ニューラルマシン翻訳における負の語彙制約

Negative Lexical Constraints in Neural Machine Translation ( http://arxiv.org/abs/2308.03601v1 )

ライセンス: Link先を確認
Josef Jon, Du\v{s}an Vari\v{s}, Michal Nov\'ak, Jo\~ao Paulo Aires and Ond\v{r}ej Bojar(参考訳) 本稿では,チェコのニューラルマシン翻訳に対する英語の否定的語彙制約について検討する。 負の語彙制約は、神経翻訳モデルによって生成される翻訳における特定の単語や表現を禁止するために用いられる。 復号処理やトレーニングデータの変更に基づく様々な手法を比較した。 比較はパラフレーズとフィードバックに基づく翻訳の改良の2つのタスクで行われた。 また,与えられた制約の異なる表層形式を生成することによって,モデルに提示される制約(通常は辞書形式で)を「回避」する手法について検討し,制約をバイパスする可能性のある単語の表面形態を多種多様に誘導するモデルの能力に対抗するために,否定的な制約を組み込んだトレーニングによって問題を緩和する方法を提案する。 この手法が制約を改善することを実証するが,問題の多くは継続する。

This paper explores negative lexical constraining in English to Czech neural machine translation. Negative lexical constraining is used to prohibit certain words or expressions in the translation produced by the neural translation model. We compared various methods based on modifying either the decoding process or the training data. The comparison was performed on two tasks: paraphrasing and feedback-based translation refinement. We also studied to which extent these methods "evade" the constraints presented to the model (usually in the dictionary form) by generating a different surface form of a given constraint.We propose a way to mitigate the issue through training with stemmed negative constraints to counter the model's ability to induce a variety of the surface forms of a word that can result in bypassing the constraint. We demonstrate that our method improves the constraining, although the problem still persists in many cases.
翻訳日:2023-08-08 13:22:49 公開日:2023-08-07
# AGIをまだ持っていない理由

Why We Don't Have AGI Yet ( http://arxiv.org/abs/2308.03598v1 )

ライセンス: Link先を確認
Peter Voss and Mladjan Jovanovic(参考訳) 当初のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。 このビジョンは、人間と同じように、学習し、推論し、問題を解決することができる「シンキングマシン」コンピュータシステムを構築することである。これは、何十年もの間、この分野のほぼすべての人が実践してきた「ナローAI」アプローチとは対照的である。 いくつかの大規模取り組みが名目上AGI(特にDeepMind)に取り組んできたが、純粋に焦点を絞ったAGI開発分野は資金不足や宣伝が進んでいない。 真のAGIが人類に与えうる素晴らしい価値を考えると、これは驚きです。 この分野での努力の重大さに加えて、進歩を妨げる理論的および方法論的なミスステップもいくつかある。 我々は、純粋に統計的アプローチがAGIに結びつく可能性が低い理由を強調し、人間のような適応性と自律学習を達成するために必要ないくつかの重要な認知能力を特定する。 我々は、AGIの進展を確実に遅らせた社会技術的要因の調査を締めくくった。

The original vision of AI was re-articulated in 2002 via the term 'Artificial General Intelligence' or AGI. This vision is to build 'Thinking Machines' - computer systems that can learn, reason, and solve problems similar to the way humans do. This is in stark contrast to the 'Narrow AI' approach practiced by almost everyone in the field over the many decades. While several large-scale efforts have nominally been working on AGI (most notably DeepMind), the field of pure focused AGI development has not been well funded or promoted. This is surprising given the fantastic value that true AGI can bestow on humanity. In addition to the dearth of effort in this field, there are also several theoretical and methodical missteps that are hampering progress. We highlight why purely statistical approaches are unlikely to lead to AGI, and identify several crucial cognitive abilities required to achieve human-like adaptability and autonomous learning. We conclude with a survey of socio-technical factors that have undoubtedly slowed progress towards AGI.
翻訳日:2023-08-08 13:22:33 公開日:2023-08-07
# デコヒーレンス下における2量子超導体系の熱的局所量子不確かさ

Thermal local quantum uncertainty in a two-qubit-superconducting system under decoherence ( http://arxiv.org/abs/2308.03596v1 )

ライセンス: Link先を確認
M. R. Pourkarimi, S. Haddadi, M. Nashaat, K. V. Kulikov and Yu. M. Shukrinov(参考訳) 量子相関の尺度として局所量子不確実性(LQU)を考慮し、2量子超伝導系の熱的進化について検討した。 相互結合やジョセフソンエネルギーなどのハミルトンパラメータを操作することで熱LQUを増大させることができるが、特定の温度で突然遷移する。 特に,我々の理論的結果は熱絡みに関する実験データとよく一致している。 さらに, 熱LQUに及ぼすデコヒーリングチャネルの影響について詳細な解析を行った。 この工学的応用における制御可能なlquは、量子コンピュータや量子電池の設計における超伝導電荷量子ビットの利点を明らかにすることができる。

By considering the local quantum uncertainty (LQU) as a measure of quantum correlations, the thermal evolution of a two-qubit-superconducting system is investigated. We show that the thermal LQU can be increased by manipulating the Hamiltonian parameters such as the mutual coupling and Josephson energies, however, it undergoes sudden transitions at specific temperatures. Notably, our theoretical results are in good agreement with experimental data for thermal entanglement. Furthermore, a detailed analysis is presented regarding the impact of decohering channels on thermal LQU. This controllable LQU in engineering applications can disclose the advantage enabled in the superconducting charge qubits for designing quantum computers and quantum batteries.
翻訳日:2023-08-08 13:22:18 公開日:2023-08-07
# FeatEnHancer: オブジェクト検出のための階層的特徴の強化と低照度ビジョン

FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision ( http://arxiv.org/abs/2308.03594v1 )

ライセンス: Link先を確認
Khurram Azeem Hashmi, Goutham Kallempudi, Didier Stricker, Muhammamd Zeshan Afzal(参考訳) 下流タスクに有用な視覚的手がかりを抽出することは、特に低照度ビジョンでは困難である。 先行研究は、視覚品質と機械知覚を関連付けるか、合成データセットの事前学習を必要とする照明劣化変換法を設計することによって、強化された表現を作り出す。 ダウンストリームタスクの損失に関連する画像表現の最適化は、より表現力のある表現をもたらす可能性があると論じる。 そこで本研究では,タスク関連損失関数によって導かれる多元的注意を階層的に組み合わせ,適切な表現を作成する新しいモジュールであるfeatenhancerを提案する。 さらに,各尺度やレベルで抽出した特徴の質を向上させるとともに,課題の相対的重要性を反映した異なる尺度の特徴を組み合わせる。 FeatEnHancerは汎用的なプラグアンドプレイモジュールで、どんな低照度ビジョンパイプラインにも組み込める。 featenhancerで生成された拡張表現は、ダークオブジェクト検出(exdarkでは+5.7 map)、顔検出(+1.5 mapon dark face)、夜間意味セマンティクス分割(+5.1 miou on acdc)、ビデオオブジェクト検出(+1.8 map on darkvision)など、いくつかの低照度視覚タスクの結果を大幅に改善し、低照度視覚下での階層的機能向上の有効性を強調した。

Extracting useful visual cues for the downstream tasks is especially challenging under low-light vision. Prior works create enhanced representations by either correlating visual quality with machine perception or designing illumination-degrading transformation methods that require pre-training on synthetic datasets. We argue that optimizing enhanced image representation pertaining to the loss of the downstream task can result in more expressive representations. Therefore, in this work, we propose a novel module, FeatEnHancer, that hierarchically combines multiscale features using multiheaded attention guided by task-related loss function to create suitable representations. Furthermore, our intra-scale enhancement improves the quality of features extracted at each scale or level, as well as combines features from different scales in a way that reflects their relative importance for the task at hand. FeatEnHancer is a general-purpose plug-and-play module and can be incorporated into any low-light vision pipeline. We show with extensive experimentation that the enhanced representation produced with FeatEnHancer significantly and consistently improves results in several low-light vision tasks, including dark object detection (+5.7 mAP on ExDark), face detection (+1.5 mAPon DARK FACE), nighttime semantic segmentation (+5.1 mIoU on ACDC ), and video object detection (+1.8 mAP on DarkVision), highlighting the effectiveness of enhancing hierarchical features under low-light vision.
翻訳日:2023-08-08 13:22:08 公開日:2023-08-07
# warpem:emガイド法におけるカテーテル登録精度向上のためのダイナミックタイムワーピング

WarpEM: Dynamic Time Warping for Accurate Catheter Registration in EM-guided Procedures ( http://arxiv.org/abs/2308.03652v1 )

ライセンス: Link先を確認
Ardit Ramadani, Peter Ewert, Heribert Schunkert, Nassir Navab(参考訳) 微小侵襲的血管内手術(MIEP)では正確なカテーテル追跡が重要であり,電磁法(EM)追跡はこの目的のために広く用いられている技術である。 しかし,術前画像とEM追跡システムとの登録は困難であることが多い。 既存の登録方法は一般的に手動の対話を必要とするが、これは時間がかかり、エラーのリスクを増大させ、手続き的なワークフローを変更する。 マーカーベースやパスベースアプローチなどのカテーテル追跡にはいくつかの登録方法があるが、それらの制限は追跡ソリューションの精度に影響を与え、その結果、医療処置の結果に影響を及ぼす可能性がある。 本稿ではEM誘導MIEPのための新しい自動カテーテル登録方式を提案する。 動的時間ワープ(DTW)アルゴリズムなどの3次元信号時間解析を用いて,既存の手法と比較して,登録精度と信頼性を向上させる。 DTWは船の中心へのEM追跡経路を正確にワープし、一致させることができるため、特に登録に適している。 本発明の登録方法は, マーカーベース登録を基礎事実として, 血管ファントムの精度を評価する。 その結果、DTW法は、平均誤差が2.22$mmの正確で信頼性の高い登録結果が得られることが示された。 導入登録方式は,高度な登録精度,初期化不要,自動化の向上など,最先端手法よりもいくつかの利点がある。

Accurate catheter tracking is crucial during minimally invasive endovascular procedures (MIEP), and electromagnetic (EM) tracking is a widely used technology that serves this purpose. However, registration between preoperative images and the EM tracking system is often challenging. Existing registration methods typically require manual interactions, which can be time-consuming, increase the risk of errors and change the procedural workflow. Although several registration methods are available for catheter tracking, such as marker-based and path-based approaches, their limitations can impact the accuracy of the resulting tracking solution, consequently, the outcome of the medical procedure. This paper introduces a novel automated catheter registration method for EM-guided MIEP. The method utilizes 3D signal temporal analysis, such as Dynamic Time Warping (DTW) algorithms, to improve registration accuracy and reliability compared to existing methods. DTW can accurately warp and match EM-tracked paths to the vessel's centerline, making it particularly suitable for registration. The introduced registration method is evaluated for accuracy in a vascular phantom using a marker-based registration as the ground truth. The results indicate that the DTW method yields accurate and reliable registration outcomes, with a mean error of $2.22$mm. The introduced registration method presents several advantages over state-of-the-art methods, such as high registration accuracy, no initialization required, and increased automation.
翻訳日:2023-08-08 13:16:32 公開日:2023-08-07
# 生成林

Generative Forests ( http://arxiv.org/abs/2308.03648v1 )

ライセンス: Link先を確認
Richard Nock and Mathieu Guillame-Bert(参考訳) タブラルデータは最も一般的な形式のデータの一つである。 データ生成に関しては、多くのアプローチがデータ生成プロセスの密度を学習するが、必ずしもサンプラーになるとは限らない。 ニューラルネットに基づく複雑なモデリングは画像やテキスト生成(etc)で繁栄するが、表データによる強力な生成モデルではlessが知られている。 第3の問題は、顕著な特性(例えば、ブースティング)を持つ教師付き学習のためのトレーニングアルゴリズムと、データ生成に関する保証の欠如の間の、表データの可視性である。 本稿では,最近の提案のモデリング能力を向上させるために,密度モデリングや表データ生成に便利な新しい木ベース生成モデルを導入するとともに,先行手法のトレーニング設定を簡略化し,拡張対応収束を表示するトレーニングアルゴリズムを提案する。 このアルゴリズムは、2つのクラスによる決定木帰納法の最も一般的な誘導スキームに少し手を加えることで実装できる教師付きトレーニングスキームに依存するのに便利である。 不足したデータ計算と生成したデータを実データと比較し,提案手法による結果の品質,特に最先端技術に対する結果を示す実験を行った。

Tabular data represents one of the most prevalent form of data. When it comes to data generation, many approaches would learn a density for the data generation process, but would not necessarily end up with a sampler, even less so being exact with respect to the underlying density. A second issue is on models: while complex modeling based on neural nets thrives in image or text generation (etc.), less is known for powerful generative models on tabular data. A third problem is the visible chasm on tabular data between training algorithms for supervised learning with remarkable properties (e.g. boosting), and a comparative lack of guarantees when it comes to data generation. In this paper, we tackle the three problems, introducing new tree-based generative models convenient for density modeling and tabular data generation that improve on modeling capabilities of recent proposals, and a training algorithm which simplifies the training setting of previous approaches and displays boosting-compliant convergence. This algorithm has the convenient property to rely on a supervised training scheme that can be implemented by a few tweaks to the most popular induction scheme for decision tree induction with two classes. Experiments are provided on missing data imputation and comparing generated data to real data, displaying the quality of the results obtained by our approach, in particular against state of the art.
翻訳日:2023-08-08 13:16:08 公開日:2023-08-07
# KITLM: 質問応答のための言語モデルへのドメイン特化知識の取り込み

KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering ( http://arxiv.org/abs/2308.03638v1 )

ライセンス: Link先を確認
Ankush Agarwal, Sakharam Gawade, Amar Prakash Azad and Pushpak Bhattacharyya(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。 しかし、これらのモデルのサイズが大きくなるにつれて、計算コストの面で大きな課題に直面している。 加えて、llmにはドメイン固有の効率的な理解が欠如しており、航空や医療といった専門分野において特に重要である。 ドメイン固有の理解を促進するために、関連する情報注入を通じて言語モデルに新しい知識ベース統合アプローチであるkitlmを提案する。 関連する知識を統合することで、言語モデルの性能が大幅に向上するだけでなく、モデルサイズ要件も大幅に削減され、同等のパフォーマンスが達成される。 提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。 KITLMはAeroQAと航空部門で同様の性能向上を示した。 既存の手法に対するKITLMの劇的な性能向上は、ノイズを緩和しながら関連する知識の注入によるものである。 さらに,専門分野における知識注入研究を加速する2つのデータセットをリリースする。 a)AeroQAは、航空領域内でのマルチホップ質問応答用に設計された新しいベンチマークデータセットで、 b) 航空コーパスは,国家運輸安全委員会報告書から抽出された非構造化テキストから構築されたデータセットである。 本研究は,ドメイン固有言語理解分野の進展に寄与し,質問応答における言語モデルの性能向上における知識注入技術の可能性を示す。

Large language models (LLMs) have demonstrated remarkable performance in a wide range of natural language tasks. However, as these models continue to grow in size, they face significant challenges in terms of computational costs. Additionally, LLMs often lack efficient domain-specific understanding, which is particularly crucial in specialized fields such as aviation and healthcare. To boost the domain-specific understanding, we propose, KITLM, a novel knowledge base integration approach into language model through relevant information infusion. By integrating pertinent knowledge, not only the performance of the language model is greatly enhanced, but the model size requirement is also significantly reduced while achieving comparable performance. Our proposed knowledge-infused model surpasses the performance of both GPT-3.5-turbo and the state-of-the-art knowledge infusion method, SKILL, achieving over 1.5 times improvement in exact match scores on the MetaQA. KITLM showed a similar performance boost in the aviation domain with AeroQA. The drastic performance improvement of KITLM over the existing methods can be attributed to the infusion of relevant knowledge while mitigating noise. In addition, we release two curated datasets to accelerate knowledge infusion research in specialized fields: a) AeroQA, a new benchmark dataset designed for multi-hop question-answering within the aviation domain, and b) Aviation Corpus, a dataset constructed from unstructured text extracted from the National Transportation Safety Board reports. Our research contributes to advancing the field of domain-specific language understanding and showcases the potential of knowledge infusion techniques in improving the performance of language models on question-answering.
翻訳日:2023-08-08 13:15:36 公開日:2023-08-07
# 重み付き有限状態機械を用いた免疫レパートリーモデルの実装

Implementing Immune Repertoire Models Using Weighted Finite State Machines ( http://arxiv.org/abs/2308.03637v1 )

ライセンス: Link先を確認
Gijs Schr\"oder, Inge MN Wortel, Johannes Textor(参考訳) 適応免疫系のT細胞とB細胞は、単純で多様な分類器の集団と見なすことができる。 人工免疫システム (AIS) $\unicode{x2013}$ T または B 細胞レパートリーのアルゴリズムモデル $\unicode{x2013}$ は、免疫システムがその変化する環境にどのように適応するかを研究するために、計算生物学と自然コンピューティングの両方で使用される。 しかし、研究者はそのようなシステムを大規模に構築するのに苦労している。 文字列ベースのaissでは、有限状態機械(fsms)は、明示的に格納された受容体セットよりも桁違いに小さい圧縮表現に細胞レパートリーを格納することができる。 この戦略により、数十億の受容体を持つAISを数秒で生成することができる。 しかし、これまでこれらのFSMベースのAISは、入力データの多重性に対処できなかった。 本稿では、重み付きfsmを細胞レパートリーの表現や、負の選択や正の選択などの免疫学的過程のモデル化に利用し、入力データの多重性も考慮して示す。 本手法は, 異常検出における様々な玩具問題を解くための簡易免疫誘導型分類器システムの構築に利用し, パラメータに対する性能と堅牢性の両方に重みが重要であることを示す。 我々のアプローチは、学習分類システムのような他の人口ベースの機械学習アルゴリズムの規模を増やすために拡張できる可能性がある。

The adaptive immune system's T and B cells can be viewed as large populations of simple, diverse classifiers. Artificial immune systems (AIS) $\unicode{x2013}$ algorithmic models of T or B cell repertoires $\unicode{x2013}$ are used in both computational biology and natural computing to investigate how the immune system adapts to its changing environments. However, researchers have struggled to build such systems at scale. For string-based AISs, finite state machines (FSMs) can store cell repertoires in compressed representations that are orders of magnitude smaller than explicitly stored receptor sets. This strategy allows AISs with billions of receptors to be generated in a matter of seconds. However, to date, these FSM-based AISs have been unable to deal with multiplicity in input data. Here, we show how weighted FSMs can be used to represent cell repertoires and model immunological processes like negative and positive selection, while also taking into account the multiplicity of input data. We use our method to build simple immune-inspired classifier systems that solve various toy problems in anomaly detection, showing how weights can be crucial for both performance and robustness to parameters. Our approach can potentially be extended to increase the scale of other population-based machine learning algorithms such as learning classifier systems.
翻訳日:2023-08-08 13:15:06 公開日:2023-08-07
# 熱画像における熱損失同定のためのセグメンテーション・フレームワーク:スコットランドのリトロフィッティングとサーモグラフィー会社を活用

Segmentation Framework for Heat Loss Identification in Thermal Images: Empowering Scottish Retrofitting and Thermographic Survey Companies ( http://arxiv.org/abs/2308.03631v1 )

ライセンス: Link先を確認
Md Junayed Hasan, Eyad Elyan, Yijun Yan, Jinchang Ren, Md Mostafa Kamal Sarker(参考訳) スコットランドのリトロフィッティングとサーモグラフィー調査会社(TS)は、燃料の貧困に対処するため、社会住宅プロバイダーと協力している。 熱画像の収集には地上レベルの赤外線カメラベースTS(GIRTSs)を使用し、断熱性の低い熱損失源を識別する。 しかし、この特定化プロセスは労働集約的で時間を要するため、広範なデータ処理が必要である。 これを自動化するには、AI駆動のアプローチが必要である。 そこで本研究では,Mask Region Proposal Convolutional Neural Network (Mask RCNN) を用いた深層学習(DL)に基づくセグメンテーションフレームワークを提案する。 この枠組みの目的は、弱い絶縁による熱損失源をau-tomaticに同定し、それらの画像に存在する妨害対象を排除することである。 そうすることで、労働集約的なタスクを最小化し、自動化され、一貫性があり、信頼性の高いソリューションを提供する。 提案手法を検証するため,産業TSパートナーと共同で約2500個の熱画像を収集した。 そして、専門家の助けを借りて1800枚の再帰画像を慎重に選択し、ターゲットオブジェクト(TO)を強調して最終データセットを作成した。 その後、データセットのトレーニングにトランスファー学習戦略を採用し、トレーニングデータ量を徐々に増加させ、トレーニング済みベースラインであるMask RCNNを微調整した。 その結果、最終微調整モデルでは平均的な平均精度(mAP)が77.2%に達し、スコットランドの住宅におけるエネルギー損失を正確に定量化するための枠組みが提案された。

Retrofitting and thermographic survey (TS) companies in Scotland collaborate with social housing providers to tackle fuel poverty. They employ ground-level infrared (IR) camera-based-TSs (GIRTSs) for collecting thermal images to identi-fy the heat loss sources resulting from poor insulation. However, this identifica-tion process is labor-intensive and time-consuming, necessitating extensive data processing. To automate this, an AI-driven approach is necessary. Therefore, this study proposes a deep learning (DL)-based segmentation framework using the Mask Region Proposal Convolutional Neural Network (Mask RCNN) to validate its applicability to these thermal images. The objective of the framework is to au-tomatically identify, and crop heat loss sources caused by weak insulation, while also eliminating obstructive objects present in those images. By doing so, it min-imizes labor-intensive tasks and provides an automated, consistent, and reliable solution. To validate the proposed framework, approximately 2500 thermal imag-es were collected in collaboration with industrial TS partner. Then, 1800 repre-sentative images were carefully selected with the assistance of experts and anno-tated to highlight the target objects (TO) to form the final dataset. Subsequently, a transfer learning strategy was employed to train the dataset, progressively aug-menting the training data volume and fine-tuning the pre-trained baseline Mask RCNN. As a result, the final fine-tuned model achieved a mean average precision (mAP) score of 77.2% for segmenting the TO, demonstrating the significant po-tential of proposed framework in accurately quantifying energy loss in Scottish homes.
翻訳日:2023-08-08 13:14:38 公開日:2023-08-07
# MedMine: メディケイトマイニングにおける事前学習言語モデルの検討

MedMine: Examining Pre-trained Language Models on Medication Mining ( http://arxiv.org/abs/2308.03629v1 )

ライセンス: Link先を確認
Haifa Alrdahi, Lifeng Han, Hendrik \v{S}uvalov, Goran Nenadic(参考訳) 臨床およびバイオメディカルテキストからの薬剤の自動マイニングは、医療アプリケーションや最近の強力な言語モデル(lms)の開発に実際に影響するため、一般的な話題となっている。 しかし、完全自動抽出モデルは依然として克服すべき障害に直面しており、より優れた影響を得るために直接臨床実践にデプロイすることができる。 このような障害には、異なるエンティティタイプや臨床イベントに対する不均衡なパフォーマンスが含まれる。 本研究では,モノリンガルモデルMed7や多言語大言語モデル(LLM)XLM-RoBERTaなどの微調整により,現状のPLMについて検討する。 n2c2-2018課題の共有タスクデータセットを用いて,それらの利点と欠点を比較した。 これらの微調整実験から得られた知見を報告する。例えば、それらの出力を組み合わせたり、モデルをマージしたり、学習とデータ拡張によって全体的な精度を向上させることができる。 MedMineはM3 Initiative \url{https://github.com/HECTA-UoM/M3}の一部である。

Automatic medication mining from clinical and biomedical text has become a popular topic due to its real impact on healthcare applications and the recent development of powerful language models (LMs). However, fully-automatic extraction models still face obstacles to be overcome such that they can be deployed directly into clinical practice for better impacts. Such obstacles include their imbalanced performances on different entity types and clinical events. In this work, we examine current state-of-the-art pre-trained language models (PLMs) on such tasks, via fine-tuning including the monolingual model Med7 and multilingual large language model (LLM) XLM-RoBERTa. We compare their advantages and drawbacks using historical medication mining shared task data sets from n2c2-2018 challenges. We report the findings we get from these fine-tuning experiments such that they can facilitate future research on addressing them, for instance, how to combine their outputs, merge such models, or improve their overall accuracy by ensemble learning and data augmentation. MedMine is part of the M3 Initiative \url{https://github.com/HECTA-UoM/M3}
翻訳日:2023-08-08 13:14:07 公開日:2023-08-07
# MOMA-Force: 実世界のモバイル操作のためのビジュアルフォース模倣

MOMA-Force: Visual-Force Imitation for Real-World Mobile Manipulation ( http://arxiv.org/abs/2308.03624v1 )

ライセンス: Link先を確認
Taozheng Yang, Ya Jing, Hongtao Wu, Jiafeng Xu, Kuankuan Sima, Guangzeng Chen, Qie Sima, Tao Kong(参考訳) 本稿では,複数のコンタクトリッチな操作タスクを行う移動マニピュレータの新しい手法を提案する。 学習に基づく手法は、エンドツーエンドでアクションを生成する可能性を秘めているが、それらはしばしば、動作の正確さと雑音に対する頑健さに苦しむ。 一方で、古典的な制御ベースの手法はシステムのロバスト性を高めることができるが、広範囲なパラメータチューニングのコストがかかる。 そこで本研究では,知覚のための表現学習,複雑な運動生成のための模倣学習,システムのロバスト性と制御性のための全身制御をシームレスに結合した視覚力模倣法であるmoma-forceを提案する。 moma-forceにより、モバイルマニピュレータは、高い成功率と小さな接触力を持つ複数の複雑な接触リッチタスクを学習できる。 実家庭環境では,本手法はタスク成功率でベースラインメソッドを上回っている。 さらに, 接触力は小さく, 力のばらつきも小さく, 力の模倣を伴わないベースライン法と比較した。 全体としては,実世界で効率的かつ堅牢なモバイル操作を実現するための,有望なアプローチを提供しています。 ビデオや詳細は \url{https://visual-force-imitation.github.io} で見ることができる。

In this paper, we present a novel method for mobile manipulators to perform multiple contact-rich manipulation tasks. While learning-based methods have the potential to generate actions in an end-to-end manner, they often suffer from insufficient action accuracy and robustness against noise. On the other hand, classical control-based methods can enhance system robustness, but at the cost of extensive parameter tuning. To address these challenges, we present MOMA-Force, a visual-force imitation method that seamlessly combines representation learning for perception, imitation learning for complex motion generation, and admittance whole-body control for system robustness and controllability. MOMA-Force enables a mobile manipulator to learn multiple complex contact-rich tasks with high success rates and small contact forces. In a real household setting, our method outperforms baseline methods in terms of task success rates. Moreover, our method achieves smaller contact forces and smaller force variances compared to baseline methods without force imitation. Overall, we offer a promising approach for efficient and robust mobile manipulation in the real world. Videos and more details can be found on \url{https://visual-force-imitation.github.io}
翻訳日:2023-08-08 13:13:47 公開日:2023-08-07
# 周期的長距離スピン系における動的多体局在による位相交差

Phase Crossover induced by Dynamical Many Body Localization in Periodically Driven Long-Range Spin Systems ( http://arxiv.org/abs/2308.03622v1 )

ライセンス: Link先を確認
Mahbub Rahaman, Takashi Mori, Analabha Roy(参考訳) 動的多体凍結は周期的横磁場駆動型可積分量子スピン系において起こる。 共鳴条件下では、量子力学は駆動応答に実質的に無限のヒステリシスを引き起こし、開始値を維持する。 lipkin-meshkov-glick (lmg) モデルでは同様の共振が凍結している。 LMGにおいて、駆動場の共鳴条件は、動的多体局在(DMBL)を誘導することにより固有状態熱化仮説(ETH)によって仮定された加熱を抑制する。 これは、ETHを抑制するために障害を必要とする多体局在(MBL)とは対照的である。 DMBLは準定常フロケットモードの逆参加比(IPR)によって検証されている。 TFIMと同様に、LMGは共鳴でのみ高周波の局在を示す。 LMGにおけるIPPの局在は、低い周波数での逆系サイズの法則により悪化し、無限温度への加熱を示す。 さらに、低値からの周波数と振幅が断続的に増加すると、LCGのフロケ状態IPRがほぼゼロからユニティに上昇し、位相交差を示す。 これにより、将来の技術で、ドライブパラメータを調整するだけでサイクルできるクリーンシステムでMBLエンジンを構築することができる。

Dynamical many-body freezing occurs in periodic transverse field-driven integrable quantum spin systems. Under resonance conditions, quantum dynamics causes practically infinite hysteresis in the drive response, maintaining its starting value. We find similar resonant freezing in the Lipkin-Meshkov-Glick (LMG) model. In the LMG, the resonance conditions in the driving field suppresses the heating postulated by the Eigenstate Thermalization Hypothesis (ETH) by inducing Dynamical Many Body Localization, or DMBL. This is in contrast to Many Body Localization (MBL), which requires disorder to suppress ETH. DMBL has been validated by the Inverse Participation Ratio (IPR) of the quasi-stationary Floquet modes. Similarly to the TFIM, the LMG exhibits high-frequency localization only at the resonances. IPR localization in the LMG deteriorates with an inverse system size law at lower frequencies, which indicates heating to infinite temperature. Furthermore, adiabatically increasing frequency and amplitude from low values raises the Floquet state IPR in the LMG from nearly zero to unity, indicating a phase crossover. This occurrence enables a future technique to construct an MBL engine in clean systems that can be cycled by adjusting drive parameters only.
翻訳日:2023-08-08 13:13:27 公開日:2023-08-07
# ロボットマニピュレーションのための視覚前訓練:データセット,モデル,方法

Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods ( http://arxiv.org/abs/2308.03620v1 )

ライセンス: Link先を確認
Ya Jing, Xuelin Zhu, Xingbin Liu, Qie Sima, Taozheng Yang, Yunhai Feng, Tao Kong(参考訳) 近年,大規模な実世界のデータを用いた事前学習は大きな進歩を遂げており,画素観察によるロボット学習に大きな可能性を示している。 しかし、ロボット操作タスクの視覚的事前訓練のレシピはまだ作成されていない。 本稿では,ロボット操作タスクに対する視覚的事前学習戦略の効果を,事前学習データセット,モデルアーキテクチャ,トレーニング手法の3つの基本的視点から詳細に検討する。 ロボット学習に役立ついくつかの重要な実験結果が提供される。 さらに,自己教師型学習と教師型学習を組み合わせた視覚的事前学習手法であるVi-PRoMを提案する。 具体的には、前者は対照的な学習を用いて、大規模にラベル付けされていないデータから基礎となるパターンを取得する。 各種シミュレーション環境におけるロボット操作の大規模実験と実ロボットが提案手法の優位性を実証する。 ビデオや詳細は \url{https://explore-pretrain-robot.github.io} で見ることができる。

Visual pre-training with large-scale real-world data has made great progress in recent years, showing great potential in robot learning with pixel observations. However, the recipes of visual pre-training for robot manipulation tasks are yet to be built. In this paper, we thoroughly investigate the effects of visual pre-training strategies on robot manipulation tasks from three fundamental perspectives: pre-training datasets, model architectures and training methods. Several significant experimental findings are provided that are beneficial for robot learning. Further, we propose a visual pre-training scheme for robot manipulation termed Vi-PRoM, which combines self-supervised learning and supervised learning. Concretely, the former employs contrastive learning to acquire underlying patterns from large-scale unlabeled data, while the latter aims learning visual semantics and temporal dynamics. Extensive experiments on robot manipulations in various simulation environments and the real robot demonstrate the superiority of the proposed scheme. Videos and more details can be found on \url{https://explore-pretrain-robot.github.io}.
翻訳日:2023-08-08 13:13:09 公開日:2023-08-07
# 雑音対応変分固有解法:格子ゲージ理論の散逸経路

Noise-aware variational eigensolvers: a dissipative route for lattice gauge theories ( http://arxiv.org/abs/2308.03618v1 )

ライセンス: Link先を確認
J. Cobos, D. F. Locher, A. Bermudez, M. M\"uller, E. Rico(参考訳) 本稿では,量子シミュレータ (qss) における $\mathbb{z}_2$ 格子ゲージ理論 (lgt) の基底状態合成のための新しい変分アンサッツを提案する。 これは、完全に決定論的なスキームで散逸演算とユニタリ演算と、考慮された格子のサイズにスケールしない回路複雑性とを組み合わせる。 変動パラメータが非常に少ないので、ansatzが$>\!を実現できることが分かりました。 \mathbb{z}_2$ lgt の閉じた状態と解凍状態の両方において、真の基底状態との忠実性は 99\%$ である。 我々は、ハミルトン変分アンサッツ(HVA)に対して提案提案をベンチマークし、特に変分パラメータの少ない場合やシステムサイズが大きい場合において、我々のスキームの明確な利点を見出した。 有限サイズのスケーリング分析を行った結果、我々の散逸変動型アンサッツは、hvaの能力を超える精度で臨界指数を予測できることを示した。 さらに,回路レベルのノイズが存在する場合の基底状態生成アルゴリズムを調査し,誤差率$p_{L}$を決定する変動誤差しきい値を決定する。 これらの値を量子ゲートエラーと比較して、最先端量子プロセッサの$p$を比較し、短期デバイス上で$\mathbb{z}_2$ lgtを探索する計画の展望を詳細に評価する。

We propose a novel variational ansatz for the ground state preparation of the $\mathbb{Z}_2$ lattice gauge theory (LGT) in quantum simulators (QSs). It combines dissipative and unitary operations in a completely deterministic scheme with a circuit complexity that does not scale with the size of the considered lattice. We find that, with very few variational parameters, the ansatz is able to achieve $>\!99\%$ fidelity with the true ground state in both the confined and deconfined phase of the $\mathbb{Z}_2$ LGT. We benchmark our proposal against the unitary Hamiltonian variational ansatz (HVA), and find a clear advantage of our scheme, especially for few variational parameters as well as for large system sizes. After performing a finite-size scaling analysis, we show that our dissipative variational ansatz is able to predict critical exponents with accuracies that surpass the capabilities of the HVA. Furthermore, we investigate the ground-state preparation algorithm in the presence of circuit-level noise and determine variational error thresholds, which determine error rates $p_{L}$, below which it would be beneficial to increase the number of layers $L \mapsto L+1$. Comparing those values to quantum gate errors $p$ of state-of-the-art quantum processors, we provide a detailed assessment of the prospects of our scheme to explore the $\mathbb{Z}_2$ LGT on near-term devices.
翻訳日:2023-08-08 13:12:54 公開日:2023-08-07
# SemOpenAlex:26億RDFトリプルの科学的景観

SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples ( http://arxiv.org/abs/2308.03671v1 )

ライセンス: Link先を確認
Michael F\"arber, David Lamprecht, Johan Krause, Linn Aung, Peter Haase(参考訳) semopen alexは、科学出版物とその関連エンティティ(著者、機関、ジャーナル、コンセプトなど)に関する26億以上のトリプルを含む、広範なrdfナレッジグラフである。 semopen alexはcc0ライセンスで、データへの無料かつオープンなアクセスを提供する。 RDFダンプファイル、SPARQLエンドポイント、Linked Open Dataクラウド内のデータソースとして、解決可能なURIと他のデータソースへのリンクを備えた複数のチャネルを通じてデータを提供します。 さらに,高性能コンピューティングによる知識グラフエンティティへの組込みも提供する。 SemOpenAlexは、Webサイトによる探索的セマンティックサーチ、大規模科学的影響定量化、科学分野における学術的ビッグデータ分析などの、幅広いユースケースシナリオを可能にします。 さらに、協力者、出版物、会場の推薦など学術的な推薦システムも可能で、説明性も備えている。 最後に、SemOpenAlexはRDFクエリ最適化のベンチマーク、学術的知識に基づく言語モデルの作成、意味科学出版のハブとして機能する。

We present SemOpenAlex, an extensive RDF knowledge graph that contains over 26 billion triples about scientific publications and their associated entities, such as authors, institutions, journals, and concepts. SemOpenAlex is licensed under CC0, providing free and open access to the data. We offer the data through multiple channels, including RDF dump files, a SPARQL endpoint, and as a data source in the Linked Open Data cloud, complete with resolvable URIs and links to other data sources. Moreover, we provide embeddings for knowledge graph entities using high-performance computing. SemOpenAlex enables a broad range of use-case scenarios, such as exploratory semantic search via our website, large-scale scientific impact quantification, and other forms of scholarly big data analytics within and across scientific disciplines. Additionally, it enables academic recommender systems, such as recommending collaborators, publications, and venues, including explainability capabilities. Finally, SemOpenAlex can serve for RDF query optimization benchmarks, creating scholarly knowledge-guided language models, and as a hub for semantic scientific publishing.
翻訳日:2023-08-08 13:05:39 公開日:2023-08-07
# 効率的なトランスフォーマーモデルによるコムギ育種におけるfhbスクリーニングの改善

Improving FHB Screening in Wheat Breeding Using an Efficient Transformer Model ( http://arxiv.org/abs/2308.03670v1 )

ライセンス: Link先を確認
Babak Azad, Ahmed Abdalla, Kwanghee Won, Ali Mirzakhani Nafchi(参考訳) フサリウム・ヘッド・ブライト(Fusarium head blight)は、小さな穀物に毎年重大な経済的損失をもたらす壊滅的な病気である。 コムギおよび大麦の育種プログラムにおいて, 抵抗スクリーニングにおけるFHBの効率, 精度, タイムリーな検出が重要である。 近年,fhb早期検出のための教師付き機械学習アルゴリズムを用いて,様々な画像処理技術が開発されている。 u-netのような最先端の畳み込みニューラルネットワークベースの手法は、ローカル表現を作成するために一連のエンコーディングブロックと、意味関係をキャプチャする一連のデコーディングブロックを使用する。 しかし,これらの手法は入力データ内における長距離モデリングに依存しないことが多く,テクスチャや形状が著しく異なるマルチスケールオブジェクトをモデル化する能力は限られている。 視覚トランスフォーマーは、低レベルの詳細が不十分なため、シーケンスからシーケンスへの予測のための生来のグローバル自己照準機構を持つ代替アーキテクチャとして、ローカライズ能力を制限する可能性がある。 これらの制限を克服するため、新しいContext Bridgeが提案され、U-Netネットワークのローカル表現機能をトランスモデルに統合する。 さらに、原変圧器の標準的な注意機構を、他の最先端手法よりも複雑でない効率的な自己注意に置き換える。 提案したネットワークをトレーニングするために,ボルガのSDSU研究農場にあるFHB接種小麦畑の小麦12,000枚を捕獲した。 健康で不健康な植物に加えて、これらの画像は病気の様々な段階を含んでいる。 専門家の病理学者のチームが、開発したモデルのトレーニングと評価のために画像に注釈を付けました。 その結果, 植物イメージセグメンテーションの典型的な課題にまたがる広範囲な実験を通じて, 変圧器を用いたFHB放出検出の有効性が示された。

Fusarium head blight is a devastating disease that causes significant economic losses annually on small grains. Efficiency, accuracy, and timely detection of FHB in the resistance screening are critical for wheat and barley breeding programs. In recent years, various image processing techniques have been developed using supervised machine learning algorithms for the early detection of FHB. The state-of-the-art convolutional neural network-based methods, such as U-Net, employ a series of encoding blocks to create a local representation and a series of decoding blocks to capture the semantic relations. However, these methods are not often capable of long-range modeling dependencies inside the input data, and their ability to model multi-scale objects with significant variations in texture and shape is limited. Vision transformers as alternative architectures with innate global self-attention mechanisms for sequence-to-sequence prediction, due to insufficient low-level details, may also limit localization capabilities. To overcome these limitations, a new Context Bridge is proposed to integrate the local representation capability of the U-Net network in the transformer model. In addition, the standard attention mechanism of the original transformer is replaced with Efficient Self-attention, which is less complicated than other state-of-the-art methods. To train the proposed network, 12,000 wheat images from an FHB-inoculated wheat field at the SDSU research farm in Volga, SD, were captured. In addition to healthy and unhealthy plants, these images encompass various stages of the disease. A team of expert pathologists annotated the images for training and evaluating the developed model. As a result, the effectiveness of the transformer-based method for FHB-disease detection, through extensive experiments across typical tasks for plant image segmentation, is demonstrated.
翻訳日:2023-08-08 13:05:21 公開日:2023-08-07
# 非計測共同設立者の因果推論における拡散モデル

Diffusion Model in Causal Inference with Unmeasured Confounders ( http://arxiv.org/abs/2308.03669v1 )

ライセンス: Link先を確認
Tatsuhiro Shimizu(参考訳) 本研究では,未測定の共同設立者の存在下での観察データから因果的疑問に答えるための拡散モデルの適用方法を検討する。 因果的介入を捉えるためにDAG(Directed Acyclic Graph)を用いるパールの枠組みでは、すべての共同設立者が観察されることを前提に、拡散モデルを用いて因果的疑問により正確に答える手法が提案された。 しかし、実際には測定されていない共同設立者が存在し、DCMの適用を妨げている。 DCMのこの制限を軽減するために,バックドア基準に基づくDCM(Backdoor Criterion based DCM)と呼ばれる拡張モデルを提案する。 合成データ実験により, 提案モデルが, dcmよりも正確に反事実分布を捉えていることが証明された。

We study how to extend the use of the diffusion model to answer the causal question from the observational data under the existence of unmeasured confounders. In Pearl's framework of using a Directed Acyclic Graph (DAG) to capture the causal intervention, a Diffusion-based Causal Model (DCM) was proposed incorporating the diffusion model to answer the causal questions more accurately, assuming that all of the confounders are observed. However, unmeasured confounders in practice exist, which hinders DCM from being applicable. To alleviate this limitation of DCM, we propose an extended model called Backdoor Criterion based DCM (BDCM), whose idea is rooted in the Backdoor criterion to find the variables in DAG to be included in the decoding process of the diffusion model so that we can extend DCM to the case with unmeasured confounders. Synthetic data experiment demonstrates that our proposed model captures the counterfactual distribution more precisely than DCM under the unmeasured confounders.
翻訳日:2023-08-08 13:04:51 公開日:2023-08-07
# 信頼性とオープンワールド学習の橋渡し--解釈性、一般化、ロバスト性を高める探索的ニューラルアプローチ

Bridging Trustworthiness and Open-World Learning: An Exploratory Neural Approach for Enhancing Interpretability, Generalization, and Robustness ( http://arxiv.org/abs/2308.03666v1 )

ライセンス: Link先を確認
Shide Du, Zihan Fang, Shiyang Lan, Yanchao Tan, Manuel G\"unther, Shiping Wang, Wenzhong Guo(参考訳) 人工知能技術の発展を通じて、人工知能と人間のギャップを狭めようとしている研究者にとって、オープンワールドにおける信頼の重要さは、誰もが日々の生活のあらゆる面で普及していると認識することが不可欠である。 しかし、いくつかの課題は、橋渡しが必要な現在の人工知能システムに対する信頼の危機を引き起こす可能性がある。 1) 予測結果の不十分な説明 2)学習モデルに対する不適切な一般化 3)不確かな環境への適応性の低下。 その結果,信頼性とオープンワールド学習をブリッジするニューラルプログラムが,シングルモーダルからマルチモーダルシナリオへと拡張された。 1) 設計レベルの解釈性を高めるために,まず,特定の物理的意味を持つ信頼できるネットワークをカスタマイズする。 2) 信頼性のある学習の一般化を改善するために, フレキシブルラーニングレギュレータによる環境調和型タスクインタフェースを設計する。 3) オープンワールド認識損失をエージェント機構と統合することにより,信頼に値する学習の堅牢性を高めることを提案する。 最終的には, 設計レベルの説明可能性, 環境保全課題インターフェース, オープンワールド認識プログラムの確立を通じて, 信頼性を高める。 これらの設計されたオープンワールドプロトコルは、オープンワールドマルチメディア認識シナリオの下で、幅広い環境にまたがって適用され、大幅なパフォーマンス改善が観察されている。

As researchers strive to narrow the gap between machine intelligence and human through the development of artificial intelligence technologies, it is imperative that we recognize the critical importance of trustworthiness in open-world, which has become ubiquitous in all aspects of daily life for everyone. However, several challenges may create a crisis of trust in current artificial intelligence systems that need to be bridged: 1) Insufficient explanation of predictive results; 2) Inadequate generalization for learning models; 3) Poor adaptability to uncertain environments. Consequently, we explore a neural program to bridge trustworthiness and open-world learning, extending from single-modal to multi-modal scenarios for readers. 1) To enhance design-level interpretability, we first customize trustworthy networks with specific physical meanings; 2) We then design environmental well-being task-interfaces via flexible learning regularizers for improving the generalization of trustworthy learning; 3) We propose to increase the robustness of trustworthy learning by integrating open-world recognition losses with agent mechanisms. Eventually, we enhance various trustworthy properties through the establishment of design-level explainability, environmental well-being task-interfaces and open-world recognition programs. These designed open-world protocols are applicable across a wide range of surroundings, under open-world multimedia recognition scenarios with significant performance improvements observed.
翻訳日:2023-08-08 13:04:30 公開日:2023-08-07
# QDax: ハードウェアアクセラレーションによる品質多様性と人口ベースアルゴリズムのためのライブラリ

QDax: A Library for Quality-Diversity and Population-based Algorithms with Hardware Acceleration ( http://arxiv.org/abs/2308.03665v1 )

ライセンス: Link先を確認
Felix Chalumeau, Bryan Lim, Raphael Boige, Maxime Allard, Luca Grillotti, Manon Flageat, Valentin Mac\'e, Arthur Flajolet, Thomas Pierrot, Antoine Cully(参考訳) QDaxはオープンソースのライブラリで、JaxのQuality-Diversity (QD)最適化アルゴリズムの合理化とモジュラーAPIを備えている。 このライブラリは、ブラックボックス最適化から連続制御まで、最適化目的の汎用ツールとして機能する。 QDaxは、一般的なQD、Neuroevolution、Reinforcement Learning (RL)アルゴリズムの実装を提供し、様々な例でサポートされている。 すべての実装はjaxでジャスト・イン・タイムでコンパイルでき、gpuやtpusを含む複数のアクセラレータで効率的な実行が容易になる。 これらの実装は、フレームワークの柔軟性とユーザフレンドリを効果的に実証し、研究目的の実験を容易にする。 さらに、ライブラリはドキュメント化され、95%のカバレッジでテストされる。

QDax is an open-source library with a streamlined and modular API for Quality-Diversity (QD) optimization algorithms in Jax. The library serves as a versatile tool for optimization purposes, ranging from black-box optimization to continuous control. QDax offers implementations of popular QD, Neuroevolution, and Reinforcement Learning (RL) algorithms, supported by various examples. All the implementations can be just-in-time compiled with Jax, facilitating efficient execution across multiple accelerators, including GPUs and TPUs. These implementations effectively demonstrate the framework's flexibility and user-friendliness, easing experimentation for research purposes. Furthermore, the library is thoroughly documented and tested with 95\% coverage.
翻訳日:2023-08-08 13:04:08 公開日:2023-08-07
# リチウムイオン電池用余寿命の2段階早期予測フレームワーク

Two-stage Early Prediction Framework of Remaining Useful Life for Lithium-ion Batteries ( http://arxiv.org/abs/2308.03664v1 )

ライセンス: Link先を確認
Dhruv Mittal, Hymalai Bello, Bo Zhou, Mayank Shekhar Jha, Sungho Suh, Paul Lukowicz(参考訳) 家庭用家電から大規模アプリケーションまで, 各種産業における電池の効率的な管理には, rulの早期予測が不可欠である。 正確なRUL予測は、バッテリ技術の信頼性と保守性を向上させる。 しかし、既存の手法には、同一のセンサや分布からのデータの仮定、生命の終わりの予知(EOL)、不健康なステージの開始を特定するための最初の予測サイクル(FPC)を決定することなど、制限がある。 本稿では,リチウムイオン電池のRUL予測手法を提案する。 提案手法は,劣化データを個別の健康状態に分割するニューラルネットワークモデルを用いてfpcを判定し,fpc後の劣化パターンを予測し,残りの有用寿命をパーセンテージとして推定する2段階からなる。 実験の結果,提案手法は従来のRUL予測法よりも優れていた。 さらに,提案手法は実世界のシナリオを保証し,バッテリー管理の精度と適用性を向上させる。

Early prediction of remaining useful life (RUL) is crucial for effective battery management across various industries, ranging from household appliances to large-scale applications. Accurate RUL prediction improves the reliability and maintainability of battery technology. However, existing methods have limitations, including assumptions of data from the same sensors or distribution, foreknowledge of the end of life (EOL), and neglect to determine the first prediction cycle (FPC) to identify the start of the unhealthy stage. This paper proposes a novel method for RUL prediction of Lithium-ion batteries. The proposed framework comprises two stages: determining the FPC using a neural network-based model to divide the degradation data into distinct health states and predicting the degradation pattern after the FPC to estimate the remaining useful life as a percentage. Experimental results demonstrate that the proposed method outperforms conventional approaches in terms of RUL prediction. Furthermore, the proposed method shows promise for real-world scenarios, providing improved accuracy and applicability for battery management.
翻訳日:2023-08-08 13:03:57 公開日:2023-08-07
# ほぼ検証時間でのマトリックス補完

Matrix Completion in Almost-Verification Time ( http://arxiv.org/abs/2308.03661v1 )

ライセンス: Link先を確認
Jonathan A. Kelner, Jerry Li, Allen Liu, Aaron Sidford, Kevin Tian(参考訳) 低ランク行列完備化の基本的な問題を解決するための新しい枠組み、すなわち、ランダムな観測からランク-$r$行列 $\mathbf{M} \in \mathbb{R}^{m \times n}$ (ここでは$m \ge n$) を近似する。 まず、$\mathbf{m}$を$\approx mr$サンプルから$\approx mr^2$ timeで$\mathbf{m}$の仮定なしで$99\%$で行と列の$\mathbf{m}$を完了するアルゴリズムを提供する。 次に、$\mathbf{M}$の行と列が追加の正則性特性を満たすことを仮定し、この部分完備保証を、観測を含む回帰問題に対する解を集約することにより、完全な行列完備化アルゴリズムにどのように拡張するかを示す。 ここで、$\mathbf{m}$ の行と列のスパンが一致しないよく検討された設定では、アルゴリズムは$\mathbf{m}$ を$mr^{2+o(1)}$ から高い精度まで、$mr^{3 + o(1)}$ の観測時間(問題パラメータの対数係数を省略する)で満たし、$\approx mr^5$ サンプルと $\approx mr^7$ の以前の状態(jn15] を改善した。 我々が導入する$\mathbf{m}$(確率の高いランダムな部分空間によって満たされる)の行と列スパンの仮定の下で、サンプル複雑性は概情報理論上最適な$mr^{1 + o(1)}$に改善され、ランタイムは$mr^{2 + o(1)}$に改善されます。 我々のランタイムは、最もよく知られたランタイムとマッチングして、ランク-$r$分解 $\mathbf{U}\mathbf{V}^\top$がサンプル観測と一致することを検証する魅力的な特性を持っています。 また、アルゴリズムのロバストな変種も提供し、$\mathbf{m} + \mathbf{n}$ with $\|\mathbf{n}\|_{f} \le \delta$, complete $\mathbf{m}$ to frobeniusノルム距離$\approx r^{1.5}\delta$ が無ノイズ設定と同じランタイムで与えられる。 以前の騒がしい行列補完アルゴリズム [cp10] は、距離が$\approx \sqrt{n}\delta$ であった。

We give a new framework for solving the fundamental problem of low-rank matrix completion, i.e., approximating a rank-$r$ matrix $\mathbf{M} \in \mathbb{R}^{m \times n}$ (where $m \ge n$) from random observations. First, we provide an algorithm which completes $\mathbf{M}$ on $99\%$ of rows and columns under no further assumptions on $\mathbf{M}$ from $\approx mr$ samples and using $\approx mr^2$ time. Then, assuming the row and column spans of $\mathbf{M}$ satisfy additional regularity properties, we show how to boost this partial completion guarantee to a full matrix completion algorithm by aggregating solutions to regression problems involving the observations. In the well-studied setting where $\mathbf{M}$ has incoherent row and column spans, our algorithms complete $\mathbf{M}$ to high precision from $mr^{2+o(1)}$ observations in $mr^{3 + o(1)}$ time (omitting logarithmic factors in problem parameters), improving upon the prior state-of-the-art [JN15] which used $\approx mr^5$ samples and $\approx mr^7$ time. Under an assumption on the row and column spans of $\mathbf{M}$ we introduce (which is satisfied by random subspaces with high probability), our sample complexity improves to an almost information-theoretically optimal $mr^{1 + o(1)}$, and our runtime improves to $mr^{2 + o(1)}$. Our runtimes have the appealing property of matching the best known runtime to verify that a rank-$r$ decomposition $\mathbf{U}\mathbf{V}^\top$ agrees with the sampled observations. We also provide robust variants of our algorithms that, given random observations from $\mathbf{M} + \mathbf{N}$ with $\|\mathbf{N}\|_{F} \le \Delta$, complete $\mathbf{M}$ to Frobenius norm distance $\approx r^{1.5}\Delta$ in the same runtimes as the noiseless setting. Prior noisy matrix completion algorithms [CP10] only guaranteed a distance of $\approx \sqrt{n}\Delta$.
翻訳日:2023-08-08 13:03:40 公開日:2023-08-07
# トランスフォーマーを用いた人工知能によるファンタジー文学のスペル検出

Detecting Spells in Fantasy Literature with a Transformer Based Artificial Intelligence ( http://arxiv.org/abs/2308.03660v1 )

ライセンス: Link先を確認
Marcel Moravek, Alexander Zender, Andreas M\"uller(参考訳) トランスフォーマーアーキテクチャとモデルは言語ベースのタスクにおいて大きな進歩を遂げた。 この領域では、BERTは最も広く使われ、自由に利用できるトランスフォーマーアーキテクチャの1つである。 本研究では,ハリー・ポッター小説シリーズにおける呪文の文脈的認識にBERTを用いた。 呪文はファンタジー小説における能動魔法の共通部分である。 通常、呪文は超自然的な効果を達成するために特定の文脈で使われる。 ハリー・ポッター・サガ(Harry Potter saga)の文脈に基づいてトランスフォーマーアーキテクチャーがそのようなフレーズを認識できるかどうか、一連の調査が行われた。 本研究では,事前学習したBERTモデルを用いて,検索したコンテキストを識別するための異なるデータセットとトレーニング手法を用いた微調整を行った。 シーケンス分類とトークン分類の異なるアプローチを考えることにより、綴りの文脈を認識できることが示されている。 本研究は,モデルの微調整および検証のためのシーケンス長が文脈認識において重要な役割を担っていることを示す。 これに基づいて,ニューラルネットワークモデルの他のファンタジー宇宙への移動を可能にする呪文がオーバーアーキシング特性を持つかどうかについて検討した。 このモデルの適用は有望な結果を示し,今後の研究でさらに深めるべきである。

Transformer architectures and models have made significant progress in language-based tasks. In this area, is BERT one of the most widely used and freely available transformer architecture. In our work, we use BERT for context-based phrase recognition of magic spells in the Harry Potter novel series. Spells are a common part of active magic in fantasy novels. Typically, spells are used in a specific context to achieve a supernatural effect. A series of investigations were conducted to see if a Transformer architecture could recognize such phrases based on their context in the Harry Potter saga. For our studies a pre-trained BERT model was used and fine-tuned utilising different datasets and training methods to identify the searched context. By considering different approaches for sequence classification as well as token classification, it is shown that the context of spells can be recognised. According to our investigations, the examined sequence length for fine-tuning and validation of the model plays a significant role in context recognition. Based on this, we have investigated whether spells have overarching properties that allow a transfer of the neural network models to other fantasy universes as well. The application of our model showed promising results and is worth to be deepened in subsequent studies.
翻訳日:2023-08-08 13:02:41 公開日:2023-08-07
# 感情的なヌームか共感か? EmotionBench を用いた LLM の実用性評価

Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench ( http://arxiv.org/abs/2308.03656v1 )

ライセンス: Link先を確認
Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu(参考訳) 最近、コミュニティは大規模言語モデル(LLM)の進歩を目撃し、様々な下流タスクにおいて顕著なパフォーマンスを示した。 chatgptやclaudeのような強力なモデルに導かれ、llmは単なるツールではなくインテリジェントなアシスタントとして、ソフトウェアとの関わり方を革新している。 その結果、llmsの擬人化能力の評価は、現代の談話においてますます重要になっている。 感情評価理論を心理学から活用し, LLMの共感能力, すなわち, 特定の状況における感情の変化を評価することを提案する。 慎重に総合的な調査を行い、400以上の状況を含むデータセットを収集し、研究の中心となる8つの感情を解明した。 状況を36の要因に分類し,世界1200名以上の被験者を対象に,人間による評価を行った。 GPT-4 や LLaMA 2 のような最新のイテレーションを特徴とする,商用モデルとオープンソースモデルの両方をカバーする5つの LLM を参考として評価を行った。 結論は、いくつかの誤用にもかかわらず、llmは一般に特定の状況に適切に対応できるという結果から導き出される。 しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。 EmotionBenchという名前の私たちのテストフレームワークのデータセットは、https://github.com/CUHK-ARISE/EmotionBenchで公開されています。 我々は,人間の感情行動との整合性を向上し,知的アシスタントとしての有用性と適用性を高めることを目的としている。

Recently, the community has witnessed the advancement of Large Language Models (LLMs), which have shown remarkable performance on various downstream tasks. Led by powerful models like ChatGPT and Claude, LLMs are revolutionizing how users engage with software, assuming more than mere tools but intelligent assistants. Consequently, evaluating LLMs' anthropomorphic capabilities becomes increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes five LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4 and LLaMA 2. A conclusion can be drawn from the results that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, dubbed EmotionBench, is made publicly in https://github.com/CUHK-ARISE/EmotionBench. We aspire to contribute to the advancement of LLMs regarding better alignment with the emotional behaviors of human beings, thereby enhancing their utility and applicability as intelligent assistants.
翻訳日:2023-08-08 13:02:22 公開日:2023-08-07
# FFF:完全タンパク質構造構築のためのフラグメントガイド型フレキシブルフィッティング

FFF: Fragments-Guided Flexible Fitting for Building Complete Protein Structures ( http://arxiv.org/abs/2308.03654v1 )

ライセンス: Link先を確認
Weijie Chen, Xinyan Wang, Yuhang Wang(参考訳) クリオ電子顕微鏡(cryo-electron microscopy)は、生体分子(特に大きなタンパク質複合体と分子集合体)の3次元構造を再構築する技術である。 分解能が原子近傍のスケールに増加すると、cryo-emマップからnovoタンパク質構造を構築することが可能となる。 近年,認識に基づくde novo構築手法が,このプロセスの合理化の可能性を示している。 しかし、低信号対雑音比(SNR)問題のため、完全な構造を構築することはできない。 同時に、アルファフォールドはタンパク質の構造を予測する上で大きなブレークスルーをもたらした。 これにより、断片認識と構造予測を組み合わせ、完全な構造を構築することができます。 本稿では,タンパク質構造予測とタンパク質構造認識を柔軟フィッティングで橋渡しするFFFという新しい手法を提案する。 まず、入力された3次元Cryo-EMマップから様々な構造的特徴を捉えるために、マルチレベル認識ネットワークを使用する。 次に、これらの特徴に基づいて擬似ペプチドベクターとタンパク質配列アライメント法を用いてタンパク質構造断片を生成する。 最後に、フレキシブルフィッティングにより予測されたタンパク質断片を用いて完全な構造モデルを構築する。 ベンチマークテストに基づいて、FFFは完全なタンパク質構造を構築するためのベースライン法よりも優れている。

Cryo-electron microscopy (cryo-EM) is a technique for reconstructing the 3-dimensional (3D) structure of biomolecules (especially large protein complexes and molecular assemblies). As the resolution increases to the near-atomic scale, building protein structures de novo from cryo-EM maps becomes possible. Recently, recognition-based de novo building methods have shown the potential to streamline this process. However, it cannot build a complete structure due to the low signal-to-noise ratio (SNR) problem. At the same time, AlphaFold has led to a great breakthrough in predicting protein structures. This has inspired us to combine fragment recognition and structure prediction methods to build a complete structure. In this paper, we propose a new method named FFF that bridges protein structure prediction and protein structure recognition with flexible fitting. First, a multi-level recognition network is used to capture various structural features from the input 3D cryo-EM map. Next, protein structural fragments are generated using pseudo peptide vectors and a protein sequence alignment method based on these extracted features. Finally, a complete structural model is constructed using the predicted protein fragments via flexible fitting. Based on our benchmark tests, FFF outperforms the baseline methods for building complete protein structures.
翻訳日:2023-08-08 13:01:54 公開日:2023-08-07
# 長期短期表現学習による人物再同定

Video-based Person Re-identification with Long Short-Term Representation Learning ( http://arxiv.org/abs/2308.03703v1 )

ライセンス: Link先を確認
Xuehu Liu and Pingping Zhang and Huchuan Lu(参考訳) ビデオベースの人物再識別(v-reid)は、非オーバーラップカメラで撮影した生のビデオから特定の人物を検索することを目的としている。 基本的なタスクとして、多くのマルチメディアおよびコンピュータビジョンアプリケーションを広げる。 しかし、人や場面のバリエーションのため、ハイパフォーマンスのために克服しなければならない障害がまだたくさんある。 本研究では,人物の長期的・短期的情報の両方がロバストな映像表現に重要であることに気付く。 そこで我々はLong Short-Term Representation Learning (LSTRL) という新しいディープラーニングフレームワークを提案する。 より具体的には、長期的表現を抽出するために、複数のフレームに4つの粒度の外観を効果的にキャプチャするマルチグラニュラリティ・インフォーマンス・エクストラクタ(MAE)を提案する。 一方,短期表現を抽出するために,逐次フレームから相互運動情報を効率的に抽出する双方向運動推定器(bme)を提案する。 MAEとBMEはプラグアンドプレイであり、既存のネットワークに簡単に挿入して効率的な特徴学習を行うことができる。 その結果,V-ReIDの特徴表現能力は著しく向上した。 広く使用されている3つのベンチマークに関する広範囲な実験は、提案手法がほとんどの最先端ベンチマークよりも優れたパフォーマンスを提供できることを示している。

Video-based person Re-Identification (V-ReID) aims to retrieve specific persons from raw videos captured by non-overlapped cameras. As a fundamental task, it spreads many multimedia and computer vision applications. However, due to the variations of persons and scenes, there are still many obstacles that must be overcome for high performance. In this work, we notice that both the long-term and short-term information of persons are important for robust video representations. Thus, we propose a novel deep learning framework named Long Short-Term Representation Learning (LSTRL) for effective V-ReID. More specifically, to extract long-term representations, we propose a Multi-granularity Appearance Extractor (MAE), in which four granularity appearances are effectively captured across multiple frames. Meanwhile, to extract short-term representations, we propose a Bi-direction Motion Estimator (BME), in which reciprocal motion information is efficiently extracted from consecutive frames. The MAE and BME are plug-and-play and can be easily inserted into existing networks for efficient feature learning. As a result, they significantly improve the feature representation ability for V-ReID. Extensive experiments on three widely used benchmarks show that our proposed approach can deliver better performances than most state-of-the-arts.
翻訳日:2023-08-08 12:55:37 公開日:2023-08-07
# スクリーンベース3次元主観実験ソフトウェア

Screen-based 3D Subjective Experiment Software ( http://arxiv.org/abs/2308.03698v1 )

ライセンス: Link先を確認
Songlin Fan and Wei Gao(参考訳) 近年,多岐にわたる3dグラフィックス(ポイントクラウドやメッシュなど)が学界や産業から,主観的実験を行うことでその知覚的品質を評価するための多大な努力を集めている。 しかし、3Dの主観的実験のための便利なソフトウェアがないため、3Dグラフィック品質評価データセットの構築が複雑になり、関連する分野の繁栄を妨げる。 本稿では,ユーザが柔軟に3dの主観的方法論を設計でき,高品質なデータセットを構築することができる強力なプラットフォームを開発し,幅広い3dグラフィックの主観的品質研究を可能にした。 3d刺激の知覚的品質差を正確に示すために,本ソフトウェアは音源刺激と刺激障害を同時に描画し,両刺激が同時反応することを可能にする。 アマチュアの3d可視化ツールや画像/ビデオレンダリング方式と比較すると,主観実験時の認知的過負荷を最小限に抑えながら,典型的な3dアプリケーションを具現化する。 提案するソフトウェアの有効性を検証するために,40名を対象に主観実験を行った。 実験分析により,本ソフトウェアにおける主観的テストが3dモデルの合理的主観的品質スコアを生成できることが示されている。 この論文のすべてのリソースはhttps://openi.pcl.ac.cn/OpenDatasets/3DQAで見ることができる。

Recently, widespread 3D graphics (e.g., point clouds and meshes) have drawn considerable efforts from academia and industry to assess their perceptual quality by conducting subjective experiments. However, lacking a handy software for 3D subjective experiments complicates the construction of 3D graphics quality assessment datasets, thus hindering the prosperity of relevant fields. In this paper, we develop a powerful platform with which users can flexibly design their 3D subjective methodologies and build high-quality datasets, easing a broad spectrum of 3D graphics subjective quality study. To accurately illustrate the perceptual quality differences of 3D stimuli, our software can simultaneously render the source stimulus and impaired stimulus and allows both stimuli to respond synchronously to viewer interactions. Compared with amateur 3D visualization tool-based or image/video rendering-based schemes, our approach embodies typical 3D applications while minimizing cognitive overload during subjective experiments. We organized a subjective experiment involving 40 participants to verify the validity of the proposed software. Experimental analyses demonstrate that subjective tests on our software can produce reasonable subjective quality scores of 3D models. All resources in this paper can be found at https://openi.pcl.ac.cn/OpenDatasets/3DQA.
翻訳日:2023-08-08 12:55:17 公開日:2023-08-07
# 局所ハミルトニアンの量子論における普遍的ショットノイズ極限

Universal shot-noise limit for quantum metrology with local Hamiltonians ( http://arxiv.org/abs/2308.03696v1 )

ライセンス: Link先を確認
Hai-Long Shi, Xi-Wen Guan, and Jing Yang(参考訳) 量子多体相互作用は粒子間の量子絡み合いを誘発し、量子エンハンスセンシングの貴重な資源となる。 本研究は,量子フィッシャー情報の成長のための普遍的かつ基本的境界を導出する。 我々は分離可能な初期状態のみを必要とするメトロロジープロトコルにバウンドを適用し、実験で容易に準備できる。 局所的に相互作用する量子多体系における作用素成長を特徴付けるリーブ・ロビンソン境界と境界の関係を確立することにより、局所的に相互作用する量子系において常にショットノイズ限界を超える精度は証明できない。 この結論はまた、局所かつギャップ付きハミルトニアンの非退化基底状態である初期状態についても主張する。 これらの知見は、分離可能な初期状態しか準備できない場合、非局所的および長距離的相互作用がショットノイズ限界を超えるための必須資源であることを強く示唆している。 この観測は長距離イジングモデルの数値解析によって確認される。 本研究は,多体量子システムにおける多体量子センシングと演算子成長の場を橋渡し,量子センシングと制御,多体物理と情報スクランブルの相互作用を解明する可能性を開く。

Quantum many-body interactions can induce quantum entanglement among particles, rendering them valuable resources for quantum-enhanced sensing. In this work, we derive a universal and fundamental bound for the growth of the quantum Fisher information. We apply our bound to the metrological protocol requiring only separable initial states, which can be readily prepared in experiments. By establishing a link between our bound and the Lieb-Robinson bound, which characterizes the operator growth in locally interacting quantum many-body systems, we prove that the precision cannot surpass the shot noise limit at all times in locally interacting quantum systems. This conclusion also holds for an initial state that is the non-degenerate ground state of a local and gapped Hamiltonian. These findings strongly hint that when one can only prepare separable initial states, nonlocal and long-range interactions are essential resources for surpassing the shot noise limit. This observation is confirmed through numerical analysis on the long-range Ising model. Our results bridge the field of many-body quantum sensing and operator growth in many-body quantum systems and open the possibility to investigate the interplay between quantum sensing and control, many-body physics and information scrambling
翻訳日:2023-08-08 12:54:53 公開日:2023-08-07
# トロータ誤差のないノイズディジタル量子コンピュータの連続ハミルトンダイナミクス

Continuous Hamiltonian dynamics on noisy digital quantum computers without Trotter error ( http://arxiv.org/abs/2308.03694v1 )

ライセンス: Link先を確認
Etienne Granet and Henrik Dreyer(参考訳) ディジタル量子コンピュータ上でハミルトニアンダイナミクスを計算するアルゴリズムを導入し、任意の精度に達するのに有限回路深さのみを必要とするアルゴリズム、すなわち有限深さでゼロローター誤差を達成する。 この有限個のゲートは、既知の振幅で測定された期待値の減衰を犠牲にし、回路毎により多くのショットを必要とする。 このアルゴリズムは時間依存ハミルトニアン(例えば断熱状態準備)に一般化する。 これにより、中程度の深さの回路のみをサポートする現在の比較的ノイズの多いハードウェアに特に適している。

We introduce an algorithm to compute Hamiltonian dynamics on digital quantum computers that requires only a finite circuit depth to reach an arbitrary precision, i.e. achieves zero Trotter error with finite depth. This finite number of gates comes at the cost of an attenuation of the measured expectation value by a known amplitude, requiring more shots per circuit. The algorithm generalizes to time-dependent Hamiltonians, for example for adiabatic state preparation. This makes it particularly suitable for present-day relatively noisy hardware that supports only circuits with moderate depth.
翻訳日:2023-08-08 12:54:31 公開日:2023-08-07
# 人間-ロボットコラボレーションにおける安全なマルチモーダルコミュニケーション

Safe Multimodal Communication in Human-Robot Collaboration ( http://arxiv.org/abs/2308.03690v1 )

ライセンス: Link先を確認
Davide Ferrari, Andrea Pupa, Alberto Signoretti, Cristian Secchi(参考訳) 新しい産業環境は、人間とロボットが近くで働き、必要な仕事の遂行に協力することによって特徴づけられる。 しかし、このようなコラボレーションには多くの側面に注意を払う必要があります。 まず、自然で効率的な2つのアクター間のコミュニケーションを可能にすることが重要です。 第二に、ロボットの動作は常に安全規則に準拠していなければならない。 本稿では,安全規則を常に尊重しつつ,音声とジェスチャーのマルチモーダル融合を活用し,人間とロボットのマルチチャネル通信を可能にする枠組みを提案する。 このフレームワークは比較実験を通じて検証され、マルチモーダル通信により、ロボットは必要なタスクを実行するための貴重な情報を取り出すことができ、さらに安全層により、ロボットはその速度を拡大してオペレーターの安全を確保することができることを示した。

The new industrial settings are characterized by the presence of human and robots that work in close proximity, cooperating in performing the required job. Such a collaboration, however, requires to pay attention to many aspects. Firstly, it is crucial to enable a communication between this two actors that is natural and efficient. Secondly, the robot behavior must always be compliant with the safety regulations, ensuring always a safe collaboration. In this paper, we propose a framework that enables multi-channel communication between humans and robots by leveraging multimodal fusion of voice and gesture commands while always respecting safety regulations. The framework is validated through a comparative experiment, demonstrating that, thanks to multimodal communication, the robot can extract valuable information for performing the required task and additionally, with the safety layer, the robot can scale its speed to ensure the operator's safety.
翻訳日:2023-08-08 12:54:22 公開日:2023-08-07
# AgentBench: LLMをエージェントとして評価する

AgentBench: Evaluating LLMs as Agents ( http://arxiv.org/abs/2308.03688v1 )

ライセンス: Link先を確認
Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang(参考訳) 大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的なものになりつつある。 その結果,対話型環境における課題タスクのエージェントとしてLLMを評価する必要性が高まっている。 llm-as-agentの推論と意思決定能力を評価するために,現在8つの異なる環境から構成される多次元進化ベンチマークである agentbench を提案する。 当社の25 llm(apiとオープンソースモデルを含む)の広範なテストによると、商用llmのトップは複雑な環境でエージェントとして振る舞う能力が強いが、それらとオープンソース競合製品のパフォーマンスには大きな差がある。 また、進行中のプロジェクトのコンポーネントとして機能し、より広範なカバレッジと、体系的なLCM評価に対するより深い検討を行う。 AgentBenchのデータセット、環境、統合評価パッケージがhttps://github.com/THUDM/AgentBenchでリリースされている。

Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench
翻訳日:2023-08-08 12:54:08 公開日:2023-08-07
# 確率的逐次2次最適化におけるイテレートと乗数のほぼ確実収束

Almost-sure convergence of iterates and multipliers in stochastic sequential quadratic optimization ( http://arxiv.org/abs/2308.03687v1 )

ライセンス: Link先を確認
Frank E. Curtis, Xin Jiang, and Qi Wang(参考訳) 非線形等式制約による連続最適化問題の解法である確率逐次2次最適化法(SQP)は,非凸制約による大規模データ適合問題の解法など,近年注目されている。 しかし、制約のない設定から一般的な確率勾配法に基づいて構築された、最近提案されたそのような方法のサブクラスに対して、収束保証は、定常測度の期待値のゼロへの漸近収束に制限されている。 これは、(目的からゼロへの勾配の)ほとんど余剰収束を保証するような制約のない設定が確率的勾配に基づく手法で証明されるのとは対照的である。 本稿では,本サブクラスにおける確率的sqpアルゴリズムによって生成された主イテレート,ラグランジュ乗算器,定常測度に対する新たな近似収束保証を証明した。 ラグランジュ乗算器の誤差は、原始反復点から原始定常点までの距離と最新の確率勾配推定における誤差によって境界付けられることが示されている。 さらに、ある仮定に従うと、この後者の誤差はアルゴリズムの実行中に計算されるラグランジュ乗算器の実行平均を利用することで消滅させることができる。 理論的な保証を実証するために数値実験の結果が得られた。

Stochastic sequential quadratic optimization (SQP) methods for solving continuous optimization problems with nonlinear equality constraints have attracted attention recently, such as for solving large-scale data-fitting problems subject to nonconvex constraints. However, for a recently proposed subclass of such methods that is built on the popular stochastic-gradient methodology from the unconstrained setting, convergence guarantees have been limited to the asymptotic convergence of the expected value of a stationarity measure to zero. This is in contrast to the unconstrained setting in which almost-sure convergence guarantees (of the gradient of the objective to zero) can be proved for stochastic-gradient-based methods. In this paper, new almost-sure convergence guarantees for the primal iterates, Lagrange multipliers, and stationarity measures generated by a stochastic SQP algorithm in this subclass of methods are proved. It is shown that the error in the Lagrange multipliers can be bounded by the distance of the primal iterate to a primal stationary point plus the error in the latest stochastic gradient estimate. It is further shown that, subject to certain assumptions, this latter error can be made to vanish by employing a running average of the Lagrange multipliers that are computed during the run of the algorithm. The results of numerical experiments are provided to demonstrate the proved theoretical guarantees.
翻訳日:2023-08-08 12:53:50 公開日:2023-08-07
# 確率的局所化による拡散モデルの線形収束境界

Linear Convergence Bounds for Diffusion Models via Stochastic Localization ( http://arxiv.org/abs/2308.03686v1 )

ライセンス: Link先を確認
Joe Benton, Valentin De Bortoli, Arnaud Doucet, George Deligiannidis(参考訳) 拡散モデルは高次元データ分布から近似サンプルを生成する強力な方法である。 いくつかの最近の結果は、$L^2$-精度スコア推定器を仮定して、そのようなモデルの収束率に多項式境界を与えた。 しかしながら、これまで最もよく知られた境界は、データ次元における超線型あるいは強い滑らかさの仮定である。 データ分布の有限第二モーメントのみを仮定したデータ次元(対数係数まで)において線形な最初の収束境界を提供する。 拡散モデルには最大$\tilde o(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ステップが必要であり、kulback-leibler 発散において$\delta$ 内における分散のガウス雑音で崩壊した$\mathbb{r}^d$ 上の任意のデータ分布を近似する。 我々の証明は、Girsanovによる以前の研究の手法に基づいている。 本稿では,確率的局所化のツールに基づく逆sdeの離散化に起因する誤差の高精度な処理を提案する。

Diffusion models are a powerful method for generating approximate samples from high-dimensional data distributions. Several recent results have provided polynomial bounds on the convergence rate of such models, assuming $L^2$-accurate score estimators. However, up until now the best known such bounds were either superlinear in the data dimension or required strong smoothness assumptions. We provide the first convergence bounds which are linear in the data dimension (up to logarithmic factors) assuming only finite second moments of the data distribution. We show that diffusion models require at most $\tilde O(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ steps to approximate an arbitrary data distribution on $\mathbb{R}^d$ corrupted with Gaussian noise of variance $\delta$ to within $\varepsilon^2$ in Kullback--Leibler divergence. Our proof builds on the Girsanov-based methods of previous works. We introduce a refined treatment of the error arising from the discretization of the reverse SDE, which is based on tools from stochastic localization.
翻訳日:2023-08-08 12:53:28 公開日:2023-08-07
# 視覚認識のための簡潔さと記述属性の学習

Learning Concise and Descriptive Attributes for Visual Recognition ( http://arxiv.org/abs/2308.03685v1 )

ライセンス: Link先を確認
An Yan, Yu Wang, Yiwu Zhong, Chengyu Dong, Zexue He, Yujie Lu, William Wang, Jingbo Shang, Julian McAuley(参考訳) 基礎モデルの最近の進歩は、解釈可能な視覚認識の新しい機会を提示している。まず最初にLLM(Large Language Models)をクエリして、各クラスを記述する属性のセットを取得し、その属性を通じてイメージを分類するために視覚言語モデルを適用する。 先駆的な作業は、数千の属性をクエリすることで、画像機能と競合するパフォーマンスを達成できることを示しています。 しかし,8つのデータセットのさらなる調査により,LLM生成属性がランダムな単語とほぼ同等であることが明らかとなった。 この驚くべき発見は、これらの属性に重大なノイズが存在することを示唆している。 より小さいサイズで分類性能を維持できる属性のサブセットが存在すると仮定し,これらの属性の簡潔な集合を見つけるための新しい学習・探索法を提案する。 その結果, CUBデータセットでは, LLM生成属性(例えば, CUBの10k属性)に近い性能を達成できたが, 鳥200種を識別するために, 合計32の属性しか利用できなかった。 さらに,新たなパラダイムでは,人間に対する高い解釈可能性や対話性,認識タスクの知識を要約する能力など,いくつかのメリットが示された。

Recent advances in foundation models present new opportunities for interpretable visual recognition -- one can first query Large Language Models (LLMs) to obtain a set of attributes that describe each class, then apply vision-language models to classify images via these attributes. Pioneering work shows that querying thousands of attributes can achieve performance competitive with image features. However, our further investigation on 8 datasets reveals that LLM-generated attributes in a large quantity perform almost the same as random words. This surprising finding suggests that significant noise may be present in these attributes. We hypothesize that there exist subsets of attributes that can maintain the classification performance with much smaller sizes, and propose a novel learning-to-search method to discover those concise sets of attributes. As a result, on the CUB dataset, our method achieves performance close to that of massive LLM-generated attributes (e.g., 10k attributes for CUB), yet using only 32 attributes in total to distinguish 200 bird species. Furthermore, our new paradigm demonstrates several additional benefits: higher interpretability and interactivity for humans, and the ability to summarize knowledge for a recognition task.
翻訳日:2023-08-08 12:53:09 公開日:2023-08-07
# 前方および時間反転系における量子熱力学サイクル

Quantum thermodynamic cycles in the forward and time-reversed regimes ( http://arxiv.org/abs/2308.03675v1 )

ライセンス: Link先を確認
Debadrito Roy, Sudhir Ranjan Jain(参考訳) 2つの熱貯水池で熱力学サイクルを行うn量子ビットの量子エンジンについて述べる。 このような構成は多岐にわたるが、ここでは状態の進化を支配するスーパーオペレータの性質による純粋に量子的な記述レベルでの「リミットサイクル」と呼ばれるものの存在を示す。 限界サイクルは、サイクル操作の前方および逆のプロトコルで同じであることが示されている。 この極限サイクルは量子エンジンの基礎となる。 1次元イジングモデルはこれらのアイデアを説明するために使われてきた。

A quantum engine with n qubits performing thermodynamic cycles with two thermal reservoirs is presented. While such constructions have been aplenty, here we show the existence of what we term as "limit cycle" at a purely quantum level of description owing to the properties of superoperators governing the evolution of states. It is shown that the limit cycle is the same under forward and reverse protocol of cycle operations. This limit cycle becomes the basis of the quantum engine. One dimensional Ising model has been used to illustrate these ideas.
翻訳日:2023-08-08 12:52:47 公開日:2023-08-07
# Tiny LVLM-eHub: Bardによる初期のマルチモーダル実験

Tiny LVLM-eHub: Early Multimodal Experiments with Bard ( http://arxiv.org/abs/2308.03729v1 )

ライセンス: Link先を確認
Wenqi Shao, Yutao Hu, Peng Gao, Meng Lei, Kaipeng Zhang, Fanqing Meng, Peng Xu, Siyuan Huang, Hongsheng Li, Yu Qiao, Ping Luo(参考訳) LVLM(Large Vision-Language Models)の最近の進歩は、複雑なマルチモーダルタスクに対処する上で大きな進歩を示している。 これら最先端の開発の中で、GoogleのBardは目覚ましいマルチモーダル機能で、包括的な理解とさまざまなドメインでの推論を促進している。 この研究は、Tiny LVLM-eHubという名前の軽量なLVLM-eHubを提案し、特にBardに焦点を当てた、LVLMのマルチモーダル能力の早期かつ総合的な評価を示す。 バニラ版と比較して、Tiny LVLM-eHubはいくつかの魅力的な特性を持っている。 まず、標準的なテキスト関連ビジュアルベンチマークの42ドルを定量的に評価することで、視覚的知覚、視覚的知識獲得、視覚的推論、視覚的コモンセンス、オブジェクト幻覚、エンボディドインテリジェンスを含む6つのカテゴリのマルチモーダル能力を体系的に評価する。 第2に,ChatGPT Ensemble Evaluation (CEE) を用いてLVLMの予測を詳細に分析し,単語マッチング手法と比較して,頑健で正確な評価を行い,人間の評価との整合性の向上を示す。 3つ目は、わずか2.1ドルのイメージテキストペアで、実践者が自身のオフラインLVLMを評価するのを容易にする。 広範な実験分析によって、bardは、bardがまだ影響を受けやすいオブジェクト幻覚を除いて、ほとんどのマルチモーダル機能において、以前のlvlmよりも優れていることが示されている。 tiny lvlm-ehubは様々なlvlmのベースライン評価であり、マルチモーダル技術の進歩を目的とした革新的な戦略を奨励している。 我々のプロジェクトは、 \url{https://github.com/OpenGVLab/Multi-Modality-Arena}で公開されています。

Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated significant progress in tackling complex multimodal tasks. Among these cutting-edge developments, Google's Bard stands out for its remarkable multimodal capabilities, promoting comprehensive comprehension and reasoning across various domains. This work presents an early and holistic evaluation of LVLMs' multimodal abilities, with a particular focus on Bard, by proposing a lightweight variant of LVLM-eHub, named Tiny LVLM-eHub. In comparison to the vanilla version, Tiny LVLM-eHub possesses several appealing properties. Firstly, it provides a systematic assessment of six categories of multimodal capabilities, including visual perception, visual knowledge acquisition, visual reasoning, visual commonsense, object hallucination, and embodied intelligence, through quantitative evaluation of $42$ standard text-related visual benchmarks. Secondly, it conducts an in-depth analysis of LVLMs' predictions using the ChatGPT Ensemble Evaluation (CEE), which leads to a robust and accurate evaluation and exhibits improved alignment with human evaluation compared to the word matching approach. Thirdly, it comprises a mere $2.1$K image-text pairs, facilitating ease of use for practitioners to evaluate their own offline LVLMs. Through extensive experimental analysis, this study demonstrates that Bard outperforms previous LVLMs in most multimodal capabilities except object hallucination, to which Bard is still susceptible. Tiny LVLM-eHub serves as a baseline evaluation for various LVLMs and encourages innovative strategies aimed at advancing multimodal techniques. Our project is publicly available at \url{https://github.com/OpenGVLab/Multi-Modality-Arena}.
翻訳日:2023-08-08 12:45:45 公開日:2023-08-07
# AdaptiveSAM: 手術シーンセグメンテーションにおけるSAMの効率的なチューニングに向けて

AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation ( http://arxiv.org/abs/2308.03726v1 )

ライセンス: Link先を確認
Jay N. Paranjape, Nithin Gopalakrishnan Nair, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel(参考訳) セグメンテーションは、人工知能を用いた手術シーン解析における根本的な問題である。 しかし、この領域に固有のデータ不足は、このタスクに伝統的なセグメンテーション技術を適用することを困難にしている。 この問題に対処するために、現在の研究は事前訓練されたモデルを採用し、与えられたデータに基づいて微調整する。 それでも、新しいデータが利用可能になる度に数百万のパラメータを持つディープネットワークをトレーニングする必要がある。 最近公開された基盤モデルであるsegment-anything(sam)は、様々な自然画像にうまく一般化しているため、この課題をある程度解決している。 しかし、SAMは、タスク固有のプロンプトの微調整や使用のために大量の計算資源を使わずに、医学領域によく当てはまらない。 さらに、これらのプロンプトはバウンディングボックスや、すべてのイメージに対して明示的にアノテートする必要があるフォアグラウンド/バックグラウンドポイントの形式で実現されている。 本研究では,新しいデータセットに迅速かつ効率的に適応できるSAMを適応的に修正したAdaptiveSAMを提案する。 AdaptiveSAMを微調整するには、SAMよりも訓練可能なパラメータがかなり少ない(2\%未満)バイアスチューニングという手法を提案する。 同時にAdaptiveSAMは、フリーフォームテキストをプロンプトとして使用し、興味のあるオブジェクトを単にラベル名でプロンプトとしてセグメント化できるため、無視可能な専門家の介入を必要とする。 以上の結果から,adaptivesamは手術,超音波,x線などの医用画像データセットにおいて最先端の手法に勝ることが示された。 コードはhttps://github.com/JayParanjape/biastuningで入手できる。

Segmentation is a fundamental problem in surgical scene analysis using artificial intelligence. However, the inherent data scarcity in this domain makes it challenging to adapt traditional segmentation techniques for this task. To tackle this issue, current research employs pretrained models and finetunes them on the given data. Even so, these require training deep networks with millions of parameters every time new data becomes available. A recently published foundation model, Segment-Anything (SAM), generalizes well to a large variety of natural images, hence tackling this challenge to a reasonable extent. However, SAM does not generalize well to the medical domain as is without utilizing a large amount of compute resources for fine-tuning and using task-specific prompts. Moreover, these prompts are in the form of bounding-boxes or foreground/background points that need to be annotated explicitly for every image, making this solution increasingly tedious with higher data size. In this work, we propose AdaptiveSAM - an adaptive modification of SAM that can adjust to new datasets quickly and efficiently, while enabling text-prompted segmentation. For finetuning AdaptiveSAM, we propose an approach called bias-tuning that requires a significantly smaller number of trainable parameters than SAM (less than 2\%). At the same time, AdaptiveSAM requires negligible expert intervention since it uses free-form text as prompt and can segment the object of interest with just the label name as prompt. Our experiments show that AdaptiveSAM outperforms current state-of-the-art methods on various medical imaging datasets including surgery, ultrasound and X-ray. Code is available at https://github.com/JayParanjape/biastuning
翻訳日:2023-08-08 12:45:12 公開日:2023-08-07
# マルチ教師の知識蒸留によるビデオの時間文接地効果

Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation ( http://arxiv.org/abs/2308.03725v1 )

ライセンス: Link先を確認
Renjie Liang, Yiming Yang, Hui Lu, Li Li(参考訳) Temporal Sentence Grounding in Videos (TSGV)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。 本稿では,高性能を維持しつつtsgvモデルで効率的な計算を実現することの課題について述べる。 既存のアプローチのほとんどは、非効率性と重厚さに苦しむ余分なレイヤと損失で精度を向上させるために、非常に複雑なアーキテクチャを設計しています。 このことに気付いた研究はいくつかあるが、機能融合層の問題に過ぎず、ネットワーク全体の高速なメリットを享受することができない。 そこで本研究では,知識蒸留に基づく新しい多教師モデル(EMTM)を提案し,異種ネットワークと異型ネットワークの両方から多様な知識を伝達する。 具体的には、まず異種モデルの異なる出力を1つの形式にまとめる。 次に,複数の教師から高品質なソフトラベルを取得するために,知識集約ユニット(KAU)を構築した。 その後、KAUモジュールは、マルチスケールのビデオおよびグローバルクエリ情報を利用して、異なる教師の重みを適応的に決定する。 次に,生徒の浅い層が教師の利益を得られないという問題を解決するために,共有エンコーダ戦略を提案する。 3つの一般的なTSGVベンチマークによる大規模な実験結果から,ベルやホイッスルを使わずに本手法が有効かつ効果的であることが示された。

Temporal Sentence Grounding in Videos (TSGV) aims to detect the event timestamps described by the natural language query from untrimmed videos. This paper discusses the challenge of achieving efficient computation in TSGV models while maintaining high performance. Most existing approaches exquisitely design complex architectures to improve accuracy with extra layers and loss, suffering from inefficiency and heaviness. Although some works have noticed that, they only make an issue of feature fusion layers, which can hardly enjoy the highspeed merit in the whole clunky network. To tackle this problem, we propose a novel efficient multi-teacher model (EMTM) based on knowledge distillation to transfer diverse knowledge from both heterogeneous and isomorphic networks. Specifically, We first unify different outputs of the heterogeneous models into one single form. Next, a Knowledge Aggregation Unit (KAU) is built to acquire high-quality integrated soft labels from multiple teachers. After that, the KAU module leverages the multi-scale video and global query information to adaptively determine the weights of different teachers. A Shared Encoder strategy is then proposed to solve the problem that the student shallow layers hardly benefit from teachers, in which an isomorphic teacher is collaboratively trained with the student to align their hidden states. Extensive experimental results on three popular TSGV benchmarks demonstrate that our method is both effective and efficient without bells and whistles.
翻訳日:2023-08-08 12:44:42 公開日:2023-08-07
# 医用画像分割におけるアウトオブディストリビューション検出の改善のための次元縮小法

Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation ( http://arxiv.org/abs/2308.03723v1 )

ライセンス: Link先を確認
McKell Woodland, Nihil Patel, Mais Al Taie, Joshua P. Yung, Tucker J. Netherton, Ankit B. Patel, and Kristy K. Brock(参考訳) 臨床的にデプロイされたセグメンテーションモデルは、トレーニングディストリビューション外のデータで失敗することが知られている。 これらのモデルがほとんどのケースでうまく機能するため、自動化バイアスから保護するために推論時にout-of-distribution (ood)イメージを検出することが不可欠である。 本研究は,t1強調磁気共鳴画像で肝臓を分割するswin unetrモデルのボトルネック特性に,hoc後のマハラノビス距離を適用する。 主成分分析によりボトルネック特性の次元を小さくすることで,OOD画像は高速かつ最小の計算負荷で検出された。

Clinically deployed segmentation models are known to fail on data outside of their training distribution. As these models perform well on most cases, it is imperative to detect out-of-distribution (OOD) images at inference to protect against automation bias. This work applies the Mahalanobis distance post hoc to the bottleneck features of a Swin UNETR model that segments the liver on T1-weighted magnetic resonance imaging. By reducing the dimensions of the bottleneck features with principal component analysis, OOD images were detected with high performance and minimal computational load.
翻訳日:2023-08-08 12:44:17 公開日:2023-08-07
# sem-gat:学習グラフによる意味的ポーズ推定

SEM-GAT: Explainable Semantic Pose Estimation using Learned Graph Attention ( http://arxiv.org/abs/2308.03718v1 )

ライセンス: Link先を確認
Efimia Panagiotaki, Daniele De Martini, Georgi Pramatarov, Matthew Gadd, Lars Kunze(参考訳) 本稿では,GNNに基づく意味論と局所幾何学を利用して,信頼性の高いポイントクラウド登録候補の同定を導く手法を提案する。 環境の意味的および形態的特徴は、登録のための重要な基準点となり、lidarに基づく正確なポーズ推定を可能にする。 提案する軽量な静的グラフ構造は,意味的インスタンスに基づく関係を識別することにより,注意に基づくキーポイントノード集約GNNネットワークに通知し,ポイントクラウド登録の計算負担を大幅に軽減する。 候補ノードの接続とクロスグラフアテンションの活用により,すべての潜在的登録対応に対する信頼スコアを同定し,ポイントクラウドスキャン間の変位を推定する。 私たちのパイプラインは、環境内のローカルな構造の個々のコントリビューションと相関し、システムの振る舞いに関する貴重な洞察を提供することで、モデルのパフォーマンスのイントロスペクティブ分析を可能にします。 提案手法をkitti odometryデータセット上でテストし,ベンチマーク法と比較し,ネットワークパラメータをかなり少なくしつつ,高いトラックスムース性を実現する。

This paper proposes a GNN-based method for exploiting semantics and local geometry to guide the identification of reliable pointcloud registration candidates. Semantic and morphological features of the environment serve as key reference points for registration, enabling accurate lidar-based pose estimation. Our novel lightweight static graph structure informs our attention-based keypoint node aggregation GNN network by identifying semantic instance-based relationships, acting as inductive bias to significantly reduce the computational burden of pointcloud registration. By connecting candidate nodes and exploiting cross-graph attention, we identify confidence scores for all potential registration correspondences, estimating the displacement between pointcloud scans. Our pipeline enables introspective analysis of the model's performance by correlating it with the individual contributions of local structures in the environment, providing valuable insights into the system's behaviour. We test our method on the KITTI odometry dataset, achieving competitive accuracy compared to benchmark methods and a higher track smoothness while relying on significantly fewer network parameters.
翻訳日:2023-08-08 12:44:06 公開日:2023-08-07
# ネック超音波画像における上腕神経叢のリアルタイム自動記述 : 深層学習によるアプローチ

Automated Real Time Delineation of Supraclavicular Brachial Plexus in Neck Ultrasonography Videos: A Deep Learning Approach ( http://arxiv.org/abs/2308.03717v1 )

ライセンス: Link先を確認
Abhay Tyagi, Abhishek Tyagi, Manpreet Kaur, Jayanthi Sivaswami, Richa Aggarwal, Kapil Dev Soni, Anjan Trikha(参考訳) 末梢神経ブロックは術後痛の治療に不可欠であり,オピオイド周術期使用の減少と入院との関連がある。 生体解剖学の正確な解釈は超音波ガイド下末梢神経ブロックの成功に不可欠であり,新しい術者にとっては困難である。 この先進的な調査では、227人の被験者が3つの異なる米国機械を用いて、上腕骨・間腕神経叢を系統的にスキャンし、227のユニークなビデオのデータセットを作成しました。 経験豊富な麻酔科医は、オブジェクト追跡とアクティブ輪郭アルゴリズムによる部分的な自動化を使用して、合計41,000本のビデオフレームに注釈を付けている。 4つのベースラインニューラルネットワークモデルをデータセット上でトレーニングし、オブジェクトの検出とセグメンテーションタスクのパフォーマンスを評価した。 最適なモデルの一般化性は、細調整なしでUSスキャナーを別々に構築したデータセットでテストされた。 その結果, 頚部超音波画像における上腕神経叢のリアルタイムセグメンテーションに, 深層学習モデルを有効活用できることが示唆された。 モデルはまた、上鎖骨と隣り合う間腕神経叢を区別する能力を試験した。 データセット全体が公開され、研究コミュニティによるさらなる研究が進められている。

Peripheral nerve blocks are crucial to treatment of post-surgical pain and are associated with reduction in perioperative opioid use and hospital stay. Accurate interpretation of sono-anatomy is critical for the success of ultrasound (US) guided peripheral nerve blocks and can be challenging to the new operators. This prospective study enrolled 227 subjects who were systematically scanned for supraclavicular and interscalene brachial plexus in various settings using three different US machines to create a dataset of 227 unique videos. In total, 41,000 video frames were annotated by experienced anaesthesiologists using partial automation with object tracking and active contour algorithms. Four baseline neural network models were trained on the dataset and their performance was evaluated for object detection and segmentation tasks. Generalizability of the best suited model was then tested on the datasets constructed from separate US scanners with and without fine-tuning. The results demonstrate that deep learning models can be leveraged for real time segmentation of supraclavicular brachial plexus in neck ultrasonography videos with high accuracy and reliability. Model was also tested for its ability to differentiate between supraclavicular and adjoining interscalene brachial plexus. The entire dataset has been released publicly for further study by the research community.
翻訳日:2023-08-08 12:43:46 公開日:2023-08-07
# 分散画像セマンティクス無線伝送のための通信効率の高いフレームワーク

Communication-Efficient Framework for Distributed Image Semantic Wireless Transmission ( http://arxiv.org/abs/2308.03713v1 )

ライセンス: Link先を確認
Bingyan Xie, Yongpeng Wu, Yuxuan Shi, Derrick Wing Kwan Ng, Wenjun Zhang(参考訳) 複数のデバイス間の通信を指すマルチノード通信は、多くのIoT(Internet-of-Things)シナリオで注目を集めている。 しかし、その膨大なデータフローとタスク拡張の柔軟性は、通信効率のよい分散データ伝送フレームワークの緊急要求を引き起こした。 本稿では,帯域幅削減と意味コミュニケーションのタスク適応性に着想を得て,iotデバイスを用いたマルチタスク分散画像伝送のためのflsc(federated learning-based semantic communication)フレームワークを提案する。 フェデレートラーニングにより、各ユーザの独立したセマンティックコミュニケーションリンクの設計が可能となり、グローバルアグリゲーションによるセマンティック抽出とタスクパフォーマンスがさらに向上する。 FLSCの各リンクは、階層型視覚変換器(HVT)ベースの抽出器と、粗い意味抽出のためのタスク適応翻訳器と、特定のタスクに応じた意味翻訳からなる。 flscをより現実的な状態に拡張するために,チャネル状態情報に基づく複数入力多重出力伝送モジュールを設計し,チャネルフェーディングやノイズ対策を行う。 シミュレーションの結果,粗い意味情報が画像レベルのタスクを処理できることが判明した。 さらに、特に低信号対雑音比とチャネル帯域比の規則では、FLSCは従来の方式、例えば3dBチャネル条件で約10のピーク信号対雑音比利得よりも明らかに優れている。

Multi-node communication, which refers to the interaction among multiple devices, has attracted lots of attention in many Internet-of-Things (IoT) scenarios. However, its huge amounts of data flows and inflexibility for task extension have triggered the urgent requirement of communication-efficient distributed data transmission frameworks. In this paper, inspired by the great superiorities on bandwidth reduction and task adaptation of semantic communications, we propose a federated learning-based semantic communication (FLSC) framework for multi-task distributed image transmission with IoT devices. Federated learning enables the design of independent semantic communication link of each user while further improves the semantic extraction and task performance through global aggregation. Each link in FLSC is composed of a hierarchical vision transformer (HVT)-based extractor and a task-adaptive translator for coarse-to-fine semantic extraction and meaning translation according to specific tasks. In order to extend the FLSC into more realistic conditions, we design a channel state information-based multiple-input multiple-output transmission module to combat channel fading and noise. Simulation results show that the coarse semantic information can deal with a range of image-level tasks. Moreover, especially in low signal-to-noise ratio and channel bandwidth ratio regimes, FLSC evidently outperforms the traditional scheme, e.g. about 10 peak signal-to-noise ratio gain in the 3 dB channel condition.
翻訳日:2023-08-08 12:43:25 公開日:2023-08-07
# 人間のような視覚体験で人間レベルの物体認識能力を達成するために必要なスケーリング

Scaling may be all you need for achieving human-level object recognition capacity with human-like visual experience ( http://arxiv.org/abs/2308.03712v1 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 本稿では,現在の自己指導型学習手法が,十分にスケールアップすれば,人間が学習する視覚的体験の種類と量で,人間レベルの視覚的物体認識能力に到達できるかどうかを問う。 この質問に対する以前の研究は、データサイズのスケーリングのみを考慮していた。 本稿では,データサイズ,モデルサイズ,画像解像度の同時スケーリングについて考察する。 最大633mのパラメータサイズ(vit-h/14)の視覚トランスフォーマーを用いて、最大5k時間分の人間ライクなビデオデータ(長大で連続的でほとんどエゴセントリックなビデオ)を最大476×476ピクセルの解像度でトレーニングした。 自己教師付き学習アルゴリズムとしてのマスク付きオートエンコーダ(MAE)の効率は、このスケーリング実験を想定外の学術予算で実行可能にする。 モデルサイズ,データサイズ,画像サイズなどのサブヒューマンスケールで,これらの要因を同時にスケールアップすれば,人間レベルの物体認識能力に到達することが可能であることが判明した。 具体的には,20K時間(2.3年)でトレーニングした2.5BパラメータViTモデルと,952x952ピクセルの空間解像度で画像ネット上での人間レベルの精度に到達することを推定する。 したがって、人間レベルの能力は、人間のような知覚経験(量とタイプの両方において人間のような)から、極めて汎用的な学習アルゴリズムとアーキテクチャで、かつ従属的な帰納的バイアスのない基本的な知覚能力として実現可能である。

This paper asks whether current self-supervised learning methods, if sufficiently scaled up, would be able to reach human-level visual object recognition capabilities with the same type and amount of visual experience humans learn from. Previous work on this question only considered the scaling of data size. Here, we consider the simultaneous scaling of data size, model size, and image resolution. We perform a scaling experiment with vision transformers up to 633M parameters in size (ViT-H/14) trained with up to 5K hours of human-like video data (long, continuous, mostly egocentric videos) with image resolutions of up to 476x476 pixels. The efficiency of masked autoencoders (MAEs) as a self-supervised learning algorithm makes it possible to run this scaling experiment on an unassuming academic budget. We find that it is feasible to reach human-level object recognition capacity at sub-human scales of model size, data size, and image size, if these factors are scaled up simultaneously. To give a concrete example, we estimate that a 2.5B parameter ViT model trained with 20K hours (2.3 years) of human-like video data with a spatial resolution of 952x952 pixels should be able to reach human-level accuracy on ImageNet. Human-level competence is thus achievable for a fundamental perceptual capability from human-like perceptual experience (human-like in both amount and type) with extremely generic learning algorithms and architectures and without any substantive inductive biases.
翻訳日:2023-08-08 12:42:57 公開日:2023-08-07
# 分散ポリプセグメンテーションのためのプロトタイプ学習

Prototype Learning for Out-of-Distribution Polyp Segmentation ( http://arxiv.org/abs/2308.03709v1 )

ライセンス: Link先を確認
Nikhil Kumar Tomar, Debesh Jha, Ulas Bagci(参考訳) 大腸内視鏡画像からの既存のポリプセグメンテーションモデルは、しばしば異なる中心からのデータセットに対して信頼性の高いセグメンテーション結果を提供しず、適用性を制限する。 本研究の目的は,Polypセグメンテーションを支援する,PrototypeLabという,堅牢で汎用的なセグメンテーションモデルを構築することである。 これを実現するために,白色光イメージング (wli), 青色光イメージング (bli), リンクカラーイメージング (lci), フレキシブルスペクトル画像色強調 (fice) などの様々な照明モードを新しいセグメンテーションモデルに導入し, 画像に存在する各種類の物体のプロトタイプの作成を学習した。 これらのプロトタイプは、形状、テクスチャ、色などのオブジェクトの特徴を表している。 当社のモデルは,複数のセンタからのアウト・オブ・ディストリビューション(OOD)データセットを効果的に実行するように設計されている。 まず、メインオブジェクトクラスのプロトタイプを学ぶために使用される粗いマスクを生成し、その後、最終的なセグメンテーションマスクを生成するために使用します。 プロトタイプを使用してメインクラスを表現することにより,医療画像に存在する変動を処理し,prototypeが基礎となるデータの分布をキャプチャするので,新たなデータへの一般化を行う。 PrototypeLabは、ダイス係数が$\geq$90\%、mIoU$\geq$85\%、ポリプセグメンテーションのほぼリアルタイム処理速度の有望なソリューションを提供する。 OODデータセットでは16の最先端画像セグメンテーションアーキテクチャと比較して優れた性能を示し、臨床成績が向上する可能性がある。 コードはhttps://github.com/xxxxx/PrototypeLabで入手できる。

Existing polyp segmentation models from colonoscopy images often fail to provide reliable segmentation results on datasets from different centers, limiting their applicability. Our objective in this study is to create a robust and well-generalized segmentation model named PrototypeLab that can assist in polyp segmentation. To achieve this, we incorporate various lighting modes such as White light imaging (WLI), Blue light imaging (BLI), Linked color imaging (LCI), and Flexible spectral imaging color enhancement (FICE) into our new segmentation model, that learns to create prototypes for each class of object present in the images. These prototypes represent the characteristic features of the objects, such as their shape, texture, color. Our model is designed to perform effectively on out-of-distribution (OOD) datasets from multiple centers. We first generate a coarse mask that is used to learn prototypes for the main object class, which are then employed to generate the final segmentation mask. By using prototypes to represent the main class, our approach handles the variability present in the medical images and generalize well to new data since prototype capture the underlying distribution of the data. PrototypeLab offers a promising solution with a dice coefficient of $\geq$ 90\% and mIoU $\geq$ 85\% with a near real-time processing speed for polyp segmentation. It achieved superior performance on OOD datasets compared to 16 state-of-the-art image segmentation architectures, potentially improving clinical outcomes. Codes are available at https://github.com/xxxxx/PrototypeLab.
翻訳日:2023-08-08 12:42:28 公開日:2023-08-07
# DeRisk: 実世界の財務データに対する信用リスク予測のための効果的なディープラーニングフレームワーク

DeRisk: An Effective Deep Learning Framework for Credit Risk Prediction over Real-World Financial Data ( http://arxiv.org/abs/2308.03704v1 )

ライセンス: Link先を確認
Yancheng Liang, Jiajie Zhang, Hui Li, Xiaochen Liu, Yi Hu, Yong Wu, Jinyao Zhang, Yongyan Liu, Yi Wu(参考訳) 過去数年間のディープラーニング技術による大きな進歩にもかかわらず、最新の産業応用のリスク予測モデルは、勾配向上やランダム森林法といった高度に手作業による統計的学習ツールに依存している。 画像や言語と異なり、現実世界の金融データは高次元、スパース、ノイズ、非常に不均衡であり、ディープニューラルネットワークモデルは特にトレーニングが難しく、実際に脆弱である。 本研究では,現実の金融データに基づく信用リスク予測のための効果的なディープラーニングリスク予測フレームワークであるDeRiskを提案する。 deriskは、当社のプロダクションシステムにデプロイされた統計学習アプローチを上回った、最初の深層リスク予測モデルです。 また,deriskの実証的成功に最も重要な因子を示すため,本手法の広範なアブレーション実験を行った。

Despite the tremendous advances achieved over the past years by deep learning techniques, the latest risk prediction models for industrial applications still rely on highly handtuned stage-wised statistical learning tools, such as gradient boosting and random forest methods. Different from images or languages, real-world financial data are high-dimensional, sparse, noisy and extremely imbalanced, which makes deep neural network models particularly challenging to train and fragile in practice. In this work, we propose DeRisk, an effective deep learning risk prediction framework for credit risk prediction on real-world financial data. DeRisk is the first deep risk prediction model that outperforms statistical learning approaches deployed in our company's production system. We also perform extensive ablation studies on our method to present the most critical factors for the empirical success of DeRisk.
翻訳日:2023-08-08 12:41:57 公開日:2023-08-07
# 3次元運動拡大:時間変化放射場による微動の可視化

3D Motion Magnification: Visualizing Subtle Motions with Time Varying Radiance Fields ( http://arxiv.org/abs/2308.03757v1 )

ライセンス: Link先を確認
Brandon Y. Feng, Hadi Alzayer, Michael Rubinstein, William T. Freeman, Jia-Bin Huang(参考訳) 動き拡大は微妙で知覚できない動きを可視化するのに役立ちます。 しかし、以前の方法は固定カメラで撮影された2dビデオでのみ機能する。 移動カメラで撮影されたシーンの微妙な動きを、新しいビューレンダリングをサポートしながら拡大できる3次元モーション拡大手法を提案する。 我々は,時間変化ラミアンス場を用いてシーンを表現し,運動拡大のためのオイラー原理を活用し,不動点の時間的埋め込みの変動を抽出・増幅する。 3次元シーン表現の基盤として,暗黙的および三面的ラミアンス場を用いた3次元動き拡大の原理を検討,検証した。 我々は,様々なカメラで撮影した合成シーンと実世界のシーンの両方において,本手法の有効性を評価する。

Motion magnification helps us visualize subtle, imperceptible motion. However, prior methods only work for 2D videos captured with a fixed camera. We present a 3D motion magnification method that can magnify subtle motions from scenes captured by a moving camera, while supporting novel view rendering. We represent the scene with time-varying radiance fields and leverage the Eulerian principle for motion magnification to extract and amplify the variation of the embedding of a fixed point over time. We study and validate our proposed principle for 3D motion magnification using both implicit and tri-plane-based radiance fields as our underlying 3D scene representation. We evaluate the effectiveness of our method on both synthetic and real-world scenes captured under various camera setups.
翻訳日:2023-08-08 12:37:03 公開日:2023-08-07
# FSD V2:仮想ボクセルによる完全スパース3次元物体検出の改善

FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels ( http://arxiv.org/abs/2308.03755v1 )

ライセンス: Link先を確認
Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) LiDARベースの完全なスパースアーキテクチャは注目を集めている。 fsdv1は、複雑な構造や手作りのデザインにもかかわらず、優れた効果と効率を実現している。 本稿では,手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを解消しつつ,従来のFSDv1の単純化を目的とした進化であるFSDv2を提案する。 この目的のために、fsdv1のクラスタリングベースのインスタンスセグメンテーションを継承する \textbf{virtual voxels} の概念を導入する。 仮想ボクセルは、完全にスパースな検出器におけるセンター特徴欠落の問題の悪名高い問題に対処するだけでなく、よりエレガントで合理なアプローチでフレームワークを支持した。 そこで我々は,仮想voxelエンコーダ,仮想voxelミキサー,仮想voxel割り当て戦略など,仮想voxel概念を補完するコンポーネントスイートを開発した。 実験により,仮想ボクセル機構はFSDv1における手作りクラスタリングと機能的に類似しており,より汎用的であることを示す。 waymo open dataset,argoverse 2 dataset,nuscenes datasetの3つの大規模データセットについて実験を行った。 この結果から, 長距離シナリオにおけるFSDv2の優位性と, 多様なシナリオにおける競合性能を実現するための汎用性を明らかにすることができた。 さらに,FSDv2の動作を解明するための総合的な実験分析を行った。 再現性とさらなる研究を促進するため,我々はFSDv2をhttps://github.com/tusen-ai/SSTでオープンソース化した。

LiDAR-based fully sparse architecture has garnered increasing attention. FSDv1 stands out as a representative work, achieving impressive efficacy and efficiency, albeit with intricate structures and handcrafted designs. In this paper, we present FSDv2, an evolution that aims to simplify the previous FSDv1 while eliminating the inductive bias introduced by its handcrafted instance-level representation, thus promoting better general applicability. To this end, we introduce the concept of \textbf{virtual voxels}, which takes over the clustering-based instance segmentation in FSDv1. Virtual voxels not only address the notorious issue of the Center Feature Missing problem in fully sparse detectors but also endow the framework with a more elegant and streamlined approach. Consequently, we develop a suite of components to complement the virtual voxel concept, including a virtual voxel encoder, a virtual voxel mixer, and a virtual voxel assignment strategy. Through empirical validation, we demonstrate that the virtual voxel mechanism is functionally similar to the handcrafted clustering in FSDv1 while being more general. We conduct experiments on three large-scale datasets: Waymo Open Dataset, Argoverse 2 dataset, and nuScenes dataset. Our results showcase state-of-the-art performance on all three datasets, highlighting the superiority of FSDv2 in long-range scenarios and its general applicability to achieve competitive performance across diverse scenarios. Moreover, we provide comprehensive experimental analysis to elucidate the workings of FSDv2. To foster reproducibility and further research, we have open-sourced FSDv2 at https://github.com/tusen-ai/SST.
翻訳日:2023-08-08 12:36:51 公開日:2023-08-07
# 双曲および半双曲フロッケ符号の構成と性能

Constructions and performance of hyperbolic and semi-hyperbolic Floquet codes ( http://arxiv.org/abs/2308.03750v1 )

ライセンス: Link先を確認
Oscar Higgott and Nikolas P. Breuckmann(参考訳) 閉双曲曲面のカラーコードタイリングから派生したフロケ符号の族を構築する。 これらの符号は、ウェイト2チェック演算子、有限符号化率を持ち、最小ウェイト完全マッチングで効率的に復号することができる。 また,距離スケーリングを改善し,細粒化処理によって得られる半双曲フロッケ符号も構築した。 直接2量子ビット計測を仮定する回路ベースノイズモデルを用いて、半双曲型フロケット符号は平面ハニカム符号よりも48\times$効率が良いことを示し、従って100\times$は2量子ビット測定の代替コードよりも効率が良いことを示し、物理誤差レートが0.3\%から1\%である。 さらに, 半双曲フロッケ符号は, 論理量子ビットあたりのテラクロップフットプリントがわずか32キュビットで, ノイズ強度が0.1\%$であることを示す。 標準的な回路レベルの偏極ノイズが$p=0.1\%$の場合、平面ハニカム符号よりも30\times$の改善と表面符号より5.6\times$改善がある。 最後に,ボルザ面から導出された16ビットのフロケ符号を含む,短期実験に適する小さな事例を解析する。

We construct families of Floquet codes derived from colour code tilings of closed hyperbolic surfaces. These codes have weight-two check operators, a finite encoding rate and can be decoded efficiently with minimum-weight perfect matching. We also construct semi-hyperbolic Floquet codes, which have improved distance scaling, and are obtained via a fine-graining procedure. Using a circuit-based noise model that assumes direct two-qubit measurements, we show that semi-hyperbolic Floquet codes can be $48\times$ more efficient than planar honeycomb codes and therefore over $100\times$ more efficient than alternative compilations of the surface code to two-qubit measurements, even at physical error rates of $0.3\%$ to $1\%$. We further demonstrate that semi-hyperbolic Floquet codes can have a teraquop footprint of only 32 physical qubits per logical qubit at a noise strength of $0.1\%$. For standard circuit-level depolarising noise at $p=0.1\%$, we find a $30\times$ improvement over planar honeycomb codes and a $5.6\times$ improvement over surface codes. Finally, we analyse small instances that are amenable to near-term experiments, including a 16-qubit Floquet code derived from the Bolza surface.
翻訳日:2023-08-08 12:36:20 公開日:2023-08-07
# Mask Frozen-DETR: 1GPUによる高品質インスタンスセグメンテーション

Mask Frozen-DETR: High Quality Instance Segmentation with One GPU ( http://arxiv.org/abs/2308.03747v1 )

ライセンス: Link先を確認
Zhanhao Liang, Yuhui Yuan(参考訳) 本稿では、より高度なフレームワークを構築し、より長いトレーニング時間とより高いGPU要求を犠牲にして、より正確なインスタンスセグメンタを追求する現在のアプローチとは対照的に、最小限のトレーニング時間とGPUで強力なインスタンスセグメンタを構築する方法を検討することを目的とする。 これを実現するために,既存のDETRに基づくオブジェクト検出モデルを強力なインスタンスセグメンテーションモデルに変換する,Mask Frozen-DETRと呼ばれるシンプルで汎用的なフレームワークを導入する。 本手法では, 凍結したDETR型物体検出器によって与えられる拘束箱内のインスタンスマスクを予測する軽量マスクネットワークを訓練するのみである。 また,本手法は,COCOテストデブスプリット(55.3%対54.7%)の性能において,トレーニングの10倍以上の速度で,最先端のインスタンスセグメンテーション手法であるMask DINOよりも優れていた。 さらに、我々の実験はすべて、16GBのメモリを持つ1台のTesla V100 GPUでトレーニングすることができ、提案したフレームワークの大幅な効率性を示している。

In this paper, we aim to study how to build a strong instance segmenter with minimal training time and GPUs, as opposed to the majority of current approaches that pursue more accurate instance segmenter by building more advanced frameworks at the cost of longer training time and higher GPU requirements. To achieve this, we introduce a simple and general framework, termed Mask Frozen-DETR, which can convert any existing DETR-based object detection model into a powerful instance segmentation model. Our method only requires training an additional lightweight mask network that predicts instance masks within the bounding boxes given by a frozen DETR-based object detector. Remarkably, our method outperforms the state-of-the-art instance segmentation method Mask DINO in terms of performance on the COCO test-dev split (55.3% vs. 54.7%) while being over 10X times faster to train. Furthermore, all of our experiments can be trained using only one Tesla V100 GPU with 16 GB of memory, demonstrating the significant efficiency of our proposed framework.
翻訳日:2023-08-08 12:35:56 公開日:2023-08-07
# Copycatのパーセプトロン:集団学習でバリアを壊す

The Copycat Perceptron: Smashing Barriers Through Collective Learning ( http://arxiv.org/abs/2308.03743v1 )

ライセンス: Link先を確認
Giovanni Catania, Aur\'elien Decelle, and Beatriz Seoane(参考訳) 教師/学生のシナリオにおいて, 学生の重み間のハミング距離に比例した強磁性結合を, 適切な学習規則を条件として, $y$結合二元パーセプトロンのモデルの平衡特性を特徴づける。 最近の研究とは対照的に、各学生の一般化性能に影響を与える熱雑音が存在するというより一般的な設定を解析する。 Specifically, in the presence of a nonzero temperature, which assigns nonzero probability to configurations that misclassify samples with respect to the teacher's prescription, we find that the coupling of replicas leads to a shift of the phase diagram to smaller values of $\alpha$: This suggests that the free energy landscape gets smoother around the solution with good generalization (i.e., the teacher) at a fixed fraction of reviewed examples, which allows local update algorithms such as Simulated Annealing to reach the solution before the dynamics gets frozen. 最後に、学習の観点から、これらの結果は、より多くの学生(この場合、同じ量のデータを持つ)が、少量のデータと組み合わせることで、同じルールを学習できることを示唆している。

We characterize the equilibrium properties of a model of $y$ coupled binary perceptrons in the teacher-student scenario, subject to a suitable learning rule, with an explicit ferromagnetic coupling proportional to the Hamming distance between the students' weights. In contrast to recent works, we analyze a more general setting in which a thermal noise is present that affects the generalization performance of each student. Specifically, in the presence of a nonzero temperature, which assigns nonzero probability to configurations that misclassify samples with respect to the teacher's prescription, we find that the coupling of replicas leads to a shift of the phase diagram to smaller values of $\alpha$: This suggests that the free energy landscape gets smoother around the solution with good generalization (i.e., the teacher) at a fixed fraction of reviewed examples, which allows local update algorithms such as Simulated Annealing to reach the solution before the dynamics gets frozen. Finally, from a learning perspective, these results suggest that more students (in this case, with the same amount of data) are able to learn the same rule when coupled together with a smaller amount of data.
翻訳日:2023-08-08 12:35:10 公開日:2023-08-07
# 翻訳はどうですか。 アンバランスデータセットの分類問題としての1989年ハンガリーにおける政治変容に伴う文学翻訳の知覚に関するコンテンツ分析のための新しい符号化システム

What about translation? New coding system for content analysis on the perception of literary translation around the political transformation in 1989 in Hungary as a classification problem on an unbalanced dataset ( http://arxiv.org/abs/2308.03742v1 )

ライセンス: Link先を確認
Dalma Galambos and P\'al Zs\'amboki(参考訳) 1989年のハンガリーにおける政治変遷をめぐる文学翻訳の認識の傾向を追跡するため、1980-1999年の文芸雑誌「alf\"old」の段落に符号化システムを開発した。 本稿では,1980-1999年に発行された文学雑誌『Nagyvil\'ag』のコーディングシステムにBERTモデルを適用させる方法について述べる。 我々は,広範囲なハイパーパラメータチューニング,ラベル不均衡に頑健な損失関数,正確な評価のための10倍クロスバリデーション,予測のためのモデルアンサンブル,予測セットの手動検証,nagyvil\'agコーパスの区間のラベルカウントを精度良く予測する新しいキャリブレーション手法,ラベル間の関係を研究するためにラベル関連ネットワークを構築した。

To track trends in the perception of literary translation around the political transformation in 1989 in Hungary, a coding system was developed on the paragraphs of the 1980-1999 issues of the literary journal Alf\"old. This paper describes how we trained BERT models to carry over the coding system to the 1980-1999 issues of the literary journal Nagyvil\'ag. We use extensive hyperparameter tuning, loss functions robust to label unbalance, 10-fold cross-validation for precise evaluations and a model ensemble for prediction, manual validation on the predict set, a new calibration method to better predict label counts for sections of the Nagyvil\'ag corpus, and to study the relations between labels, we construct label relation networks.
翻訳日:2023-08-08 12:34:32 公開日:2023-08-07
# 生成言語モデルと影響操作のコスト分析

A Cost Analysis of Generative Language Models and Influence Operations ( http://arxiv.org/abs/2308.03740v1 )

ライセンス: Link先を確認
Micah Musser(参考訳) 近年の大規模言語モデル(LLM)は、影響操作の質や規模を改善するために悪質に使用される可能性が高いという憶測にもかかわらず、LLMがプロパガンディストを提供する経済的価値に関する不確実性は持続している。 本研究は, 大規模コンテンツ生成においてプロパガンダが直面するコストのモデルを構築し, 1) LLMがプロパガンダを提供する可能性, (2) API アクセス可能な LLM のモニタリング制御による潜在的抑止効果, 3) 影響操作を行う際に複数のプライベートおよび/またはオープンソース LLM を選択するための最適戦略について分析する。 第一の結果,LSMは比較的信頼性の低い出力(約25%)しか必要とせず,プロパガンダにコスト削減を提供する必要があること,コンテンツ生成コストの削減の可能性(信頼性の高いモデルでは最大70%)が極めて高いこと,また,代替オープンソースモデルが利用可能である場合には,モニタリング機能によるコスト低減効果が著しく制限されること,などが示唆された。 また,これらの結果から,年間に多数の大規模インフルエント運用を行う国であっても,インフルエント運用に特化したカスタムllmの訓練から経済的に利益を得る可能性は低いことが示唆された。

Despite speculation that recent large language models (LLMs) are likely to be used maliciously to improve the quality or scale of influence operations, uncertainty persists regarding the economic value that LLMs offer propagandists. This research constructs a model of costs facing propagandists for content generation at scale and analyzes (1) the potential savings that LLMs could offer propagandists, (2) the potential deterrent effect of monitoring controls on API-accessible LLMs, and (3) the optimal strategy for propagandists choosing between multiple private and/or open source LLMs when conducting influence operations. Primary results suggest that LLMs need only produce usable outputs with relatively low reliability (roughly 25%) to offer cost savings to propagandists, that the potential reduction in content generation costs can be quite high (up to 70% for a highly reliable model), and that monitoring capabilities have sharply limited cost imposition effects when alternative open source models are available. In addition, these results suggest that nation-states -- even those conducting many large-scale influence operations per year -- are unlikely to benefit economically from training custom LLMs specifically for use in influence operations.
翻訳日:2023-08-08 12:34:14 公開日:2023-08-07
# 偏微分プライベート・パーソナライズドレコメンデーションの高精度測定のためのランダム化アルゴリズム

Randomized algorithms for precise measurement of differentially-private, personalized recommendations ( http://arxiv.org/abs/2308.03735v1 )

ライセンス: Link先を確認
Allegra Laro, Yanqing Chen, Hao He, Babak Aghazadeh(参考訳) パーソナライズドレコメンデーションは、今日のインターネットエコシステムの重要な部分を形成し、アーティストやクリエーターが興味のあるユーザーにリーチすることを支援し、ユーザーが新しく魅力的なコンテンツを見つけるのを助ける。 しかし、今日の多くのユーザーは、歴史的に不注意な個人データの扱いとデータのプライバシーのために、推奨をパーソナライズするプラットフォームに懐疑的です。 現在、パーソナライズドレコメンデーションに依存している企業は、プライバシ優先のシステムの多くをオーバーホールしなければならない、新たなパラダイムに移行している。 本稿では,個人毎の個人別測定を容易にするためのアルゴリズムを提案する。 広告をサンプルアプリケーションとして検討し,提案したプライバシー保護アルゴリズムがユーザエクスペリエンス,広告主価値,プラットフォーム収益に関連する重要な指標にどのように影響するかを,非個人的かつ非個人的かつパーソナライズされた実装の極端な部分と比較して定量化する。

Personalized recommendations form an important part of today's internet ecosystem, helping artists and creators to reach interested users, and helping users to discover new and engaging content. However, many users today are skeptical of platforms that personalize recommendations, in part due to historically careless treatment of personal data and data privacy. Now, businesses that rely on personalized recommendations are entering a new paradigm, where many of their systems must be overhauled to be privacy-first. In this article, we propose an algorithm for personalized recommendations that facilitates both precise and differentially-private measurement. We consider advertising as an example application, and conduct offline experiments to quantify how the proposed privacy-preserving algorithm affects key metrics related to user experience, advertiser value, and platform revenue compared to the extremes of both (private) non-personalized and non-private, personalized implementations.
翻訳日:2023-08-08 12:33:49 公開日:2023-08-07
# エンド・ツー・エンド損失制御による量子鍵分布の増強

Boosting quantum key distribution via the end-to-end loss control ( http://arxiv.org/abs/2308.03733v1 )

ライセンス: Link先を確認
A. D. Kodukhov, V. A. Pastushenko, N. S. Kirsanov, D. A. Kronberg, M. Pflitsch, and V. M. Vinokur(参考訳) 量子技術の台頭により、データセキュリティはますます量子暗号とその最も注目すべき応用である量子鍵分布(QKD)に依存している。 しかし、現在の技術的制限、特に量子リピータの適用不可能は、実用的なQKD実装において比較的低い鍵分布率を引き起こす。 本稿では,多種多様なプロトコルを対象としたエンド・ツー・エンド線トモグラフィによるQKDの性能向上を示す。 提案手法は,伝送路内の介入をリアルタイムに検出し,qkd設定と処理後パラメータを修飾した適応応答を可能とし,鍵分布率の大幅な増加に導く。 我々の発見は、繰り返しの速度-距離制限を克服する可能性のある、絶え間なくセキュアな量子暗号の展開を提供する。

With the rise of quantum technologies, data security increasingly relies on quantum cryptography and its most notable application, quantum key distribution (QKD). Yet, current technological limitations, in particular, the unavailability of quantum repeaters, cause relatively low key distribution rates in practical QKD implementations. Here, we demonstrate a remarkable improvement in the QKD performance using end-to-end line tomography for the wide class of relevant protocols. Our approach is based on the real-time detection of interventions in the transmission channel, enabling an adaptive response that modifies the QKD setup and post-processing parameters, leading, thereby, to a substantial increase in the key distribution rates. Our findings provide everlastingly secure efficient quantum cryptography deployment potentially overcoming the repeaterless rate-distance limit.
翻訳日:2023-08-08 12:33:26 公開日:2023-08-07
# SurvBeX:ベラン推定器に基づく機械学習サバイバルモデルの説明方法

SurvBeX: An explanation method of the machine learning survival models based on the Beran estimator ( http://arxiv.org/abs/2308.03730v1 )

ライセンス: Link先を確認
Lev V. Utkin and Danila Y. Eremenko and Andrei V. Konstantinov(参考訳) 機械学習サバイバルブラックボックスモデルの予測を解釈するために、SurvBeXと呼ばれる説明法を提案する。 この手法の主な考え方は、修正されたベラン推定器を代理説明モデルとして使うことである。 beran estimatorに組み込まれた係数は、ブラックボックスモデル予測に影響を及ぼす特徴の値と見なすことができる。 有名なLIME法に従うと、多くの点が興味のある例の周囲の局所領域で生成される。 生成されたすべての例について、ブラックボックスモデルの生存関数を計算し、説明係数の関数としてサロゲートモデルの生存関数(ベラン推定器)を構築する。 説明係数を求めるために,ブラックボックスモデルの生存関数と生成例で生成したベランの推定値との間の平均距離を最小にすることが提案されている。 合成および実生存データを用いた多くの数値実験は、SurvBeX効率を示し、よく知られたSurvLIME法と比較する。 この方法はsurvshap法とも比較される。 SurvBeXを実装するコードは、https://github.com/DanilaEremenko/SurvBeXで入手できる。

An explanation method called SurvBeX is proposed to interpret predictions of the machine learning survival black-box models. The main idea behind the method is to use the modified Beran estimator as the surrogate explanation model. Coefficients, incorporated into Beran estimator, can be regarded as values of the feature impacts on the black-box model prediction. Following the well-known LIME method, many points are generated in a local area around an example of interest. For every generated example, the survival function of the black-box model is computed, and the survival function of the surrogate model (the Beran estimator) is constructed as a function of the explanation coefficients. In order to find the explanation coefficients, it is proposed to minimize the mean distance between the survival functions of the black-box model and the Beran estimator produced by the generated examples. Many numerical experiments with synthetic and real survival data demonstrate the SurvBeX efficiency and compare the method with the well-known method SurvLIME. The method is also compared with the method SurvSHAP. The code implementing SurvBeX is available at: https://github.com/DanilaEremenko/SurvBeX
翻訳日:2023-08-08 12:33:13 公開日:2023-08-07
# 文法進化を用いた意味的類似集合の自動設計

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution ( http://arxiv.org/abs/2307.00925v4 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 意味的類似度尺度は、自然言語処理において様々なコンピュータ関連タスクを触媒するために広く用いられている。 しかしながら、すべてのタスクに最も適している意味的類似性尺度は存在せず、研究者はしばしばパフォーマンスを確保するためにアンサンブル戦略を用いる。 本研究では,意味的類似性アンサンブルの自動設計手法を提案する。 実際,本提案手法は,人的判断の相関を最大化するアンサンブルを生成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。 この手法はいくつかのベンチマークデータセットで評価され、最先端のアンサンブルと比較され、類似性評価の精度を大幅に向上し、場合によっては既存手法よりも優れていることを示す。 そこで本研究では,文法的進化を用いてテキストを自動比較し,意味的類似性タスクにアンサンブルを用いることの利点を証明する。 私たちのアプローチを示すソースコードは、https://github.com/jorge-martinez-gil/sesigeからダウンロードできます。

Semantic similarity measures are widely used in natural language processing to catalyze various computer-related tasks. However, no single semantic similarity measure is the most appropriate for all tasks, and researchers often use ensemble strategies to ensure performance. This research work proposes a method for automatically designing semantic similarity ensembles. In fact, our proposed method uses grammatical evolution, for the first time, to automatically select and aggregate measures from a pool of candidates to create an ensemble that maximizes correlation to human judgment. The method is evaluated on several benchmark datasets and compared to state-of-the-art ensembles, showing that it can significantly improve similarity assessment accuracy and outperform existing methods in some cases. As a result, our research demonstrates the potential of using grammatical evolution to automatically compare text and prove the benefits of using ensembles for semantic similarity tasks. The source code that illustrates our approach can be downloaded from https://github.com/jorge-martinez-gil/sesige.
翻訳日:2023-08-08 10:47:47 公開日:2023-08-07
# マーク付き時間点過程のインテンシティフリー積分学習

Intensity-free Integral-based Learning of Marked Temporal Point Processes ( http://arxiv.org/abs/2308.02360v2 )

ライセンス: Link先を確認
Sishun Liu, Ke Deng, Xiuzhen Zhang, Yongli Ren(参考訳) mark temporal point process (mtpp) では、条件付きジョイント pdf (probability distribution function) $p^*(m,t)$ for-event time $t$ とマーク $m$ をパラメータ化する。 既存の研究の大半は強度関数を事前に定義している。 それらの効用は、表現性と処理効率のバランスをとるのに不可欠である強度関数の適切な形を特定することで挑戦される。 最近、強度関数の事前定義から脱却する研究がある -- 1つのモデル$p^*(t)$と$p^*(m)$を別々に、もう1つはマークを考慮しない時間点過程(TPP)に焦点を当てている。 本研究は,多次元連続空間における事象マークがカテゴリー的あるいは数値的である離散事象に対して,高忠実度$p^*(m,t)$を開発することを目的とする。 我々は,条件付きジョイント pdf $p^*(m,t)$ を直接インテンシティ関数なしでモデル化する解フレームワーク ifib (\underline{i}ntensity-\underline{f}ree \underline{i}ntegral-\underline{b}ased process) を提案する。 本質的な数学的制約を強制するプロセスを著しく単純化する。 IFIBの望ましい特性と実世界および合成データセットにおけるIFIBの優れた実験結果を示す。 コードは \url{https://github.com/stepinsilence/ifib} で入手できる。

In the marked temporal point processes (MTPP), a core problem is to parameterize the conditional joint PDF (probability distribution function) $p^*(m,t)$ for inter-event time $t$ and mark $m$, conditioned on the history. The majority of existing studies predefine intensity functions. Their utility is challenged by specifying the intensity function's proper form, which is critical to balance expressiveness and processing efficiency. Recently, there are studies moving away from predefining the intensity function -- one models $p^*(t)$ and $p^*(m)$ separately, while the other focuses on temporal point processes (TPPs), which do not consider marks. This study aims to develop high-fidelity $p^*(m,t)$ for discrete events where the event marks are either categorical or numeric in a multi-dimensional continuous space. We propose a solution framework IFIB (\underline{I}ntensity-\underline{f}ree \underline{I}ntegral-\underline{b}ased process) that models conditional joint PDF $p^*(m,t)$ directly without intensity functions. It remarkably simplifies the process to compel the essential mathematical restrictions. We show the desired properties of IFIB and the superior experimental results of IFIB on real-world and synthetic datasets. The code is available at \url{https://github.com/StepinSilence/IFIB}.
翻訳日:2023-08-08 10:46:11 公開日:2023-08-07
# 誰の回答がよいのか? ソフトウェア工学の質問に対するChatGPTとStack Overflowの回答の深さ分析

Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions ( http://arxiv.org/abs/2308.02312v2 )

ライセンス: Link先を確認
Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang(参考訳) Q&Aプラットフォームは、過去10年間のプログラマのWebヘルプ検索行動に不可欠な部分です。 しかし、最近のChatGPTの導入により、ウェブヘルプ検索行動のパラダイムが変化している。 ChatGPTの人気にもかかわらず、ChatGPTのソフトウェア工学的質問に対する回答の特徴やユーザビリティを評価するための総合的な研究は行われていない。 ギャップを埋めるため,517 Stack Overflow (SO)質問に対するChatGPTの回答の詳細な分析を行い,ChatGPTの回答の正確性,一貫性,包括性,簡潔性を検討した。 さらに, 大規模言語分析を行い, 言語的・人間的側面からchatgpt回答の特徴を理解するためのユーザ調査を行った。 分析の結果,chatgpt回答の52%が誤り,77%が冗長であった。 それでもChatGPTの回答は、その包括性と言語スタイルがよく理解されているため、当時の39.34%が好まれている。 以上の結果から,ChatGPTにおける誤りの綿密な検証と修正の必要性が示唆された。

Q&A platforms have been an integral part of the web-help-seeking behavior of programmers over the past decade. However, with the recent introduction of ChatGPT, the paradigm of web-help-seeking behavior is experiencing a shift. Despite the popularity of ChatGPT, no comprehensive study has been conducted to evaluate the characteristics or usability of ChatGPT's answers to software engineering questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT's answers to 517 Stack Overflow (SO) questions and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT's answers. Furthermore, we conducted a large-scale linguistic analysis, and a user study to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52% of ChatGPT answers are incorrect and 77% are verbose. Nonetheless, ChatGPT answers are still preferred 39.34% of the time due to their comprehensiveness and well-articulated language style. Our result implies the necessity of close examination and rectification of errors in ChatGPT, at the same time creating awareness among its users of the risks associated with seemingly correct ChatGPT answers.
翻訳日:2023-08-08 10:45:40 公開日:2023-08-07
# 大規模言語モデルを用いた臨床試験のスケーリング:オンコロジーを事例として

Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology ( http://arxiv.org/abs/2308.02180v2 )

ライセンス: Link先を確認
Cliff Wong, Sheng Zhang, Yu Gu, Christine Moung, Jacob Abel, Naoto Usuyama, Roshanthi Weerasinghe, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon(参考訳) 臨床試験マッチングは、医療提供と発見の重要なプロセスである。 実際には、非構造化データの圧倒的増加と手作業による処理に苦しめられている。 本稿では,大規模言語モデル(llm)を用いた臨床試験マッチングのスケールアップに関する体系的研究を行い,オンコロジーを焦点領域とした。 今回の研究は、米国の大規模健康ネットワークで現在テスト展開中の臨床試験マッチングシステムに基づいている。 gpt-4のような最先端のllmは、臨床試験の精巧な適性基準をすでに構築でき、複雑なマッチングロジック(例えばnestedや/または/not)を抽出することができる。 まだまだ完璧には程遠いが、LSMは以前の強いベースラインを大きく上回っており、患者と臨床の候補者をループに巻き込むための予備的な解決策として機能する可能性がある。 また, 長期医療記録から患者情報を構造化する際の文脈制限や精度など, LLMをエンドツーエンドの臨床試験マッチングに適用するための重要な成長領域も明らかにした。

Clinical trial matching is a key process in health delivery and discovery. In practice, it is plagued by overwhelming unstructured data and unscalable manual processing. In this paper, we conduct a systematic study on scaling clinical trial matching using large language models (LLMs), with oncology as the focus area. Our study is grounded in a clinical trial matching system currently in test deployment at a large U.S. health network. Initial findings are promising: out of box, cutting-edge LLMs, such as GPT-4, can already structure elaborate eligibility criteria of clinical trials and extract complex matching logic (e.g., nested AND/OR/NOT). While still far from perfect, LLMs substantially outperform prior strong baselines and may serve as a preliminary solution to help triage patient-trial candidates with humans in the loop. Our study also reveals a few significant growth areas for applying LLMs to end-to-end clinical trial matching, such as context limitation and accuracy, especially in structuring patient information from longitudinal medical records.
翻訳日:2023-08-08 10:45:19 公開日:2023-08-07
# ロバストな自己教師付きextrinsic self-calibration

Robust Self-Supervised Extrinsic Self-Calibration ( http://arxiv.org/abs/2308.02153v2 )

ライセンス: Link先を確認
Takayuki Kanai, Igor Vasiljevic, Vitor Guizilini, Adrien Gaidon, and Rares Ambrus(参考訳) 自動運転車とロボットは、効率的に安全にタスクを完了するために、さまざまなシナリオで運用する必要があります。 ビデオからのマルチカメラによる自己監督された単眼深度推定は、追加のセンサーを必要とせず、視覚データから測度的にスケールした幾何学的予測を生成するため、環境を判断するための有望な方法である。 しかし、ほとんどの作品は、精度と効率のよいキャリブレーションが依然として難しい問題であるにもかかわらず、このマルチカメラの設定を十分に活用するために、高度にキャリブレーションされたextrinsicsを仮定している。 本研究では,自己教師型単眼深度と自我運動学習の原理に基づく外因性キャリブレーションの新しい手法を提案する。 提案するカリキュラム学習戦略は, 単眼深度と速度監督を用いた推定器を用いて外在的キャリブレーションを推定し, 奥行きとともに外在的キャリブレーションを共同で学習し, 移動車に厳密に取り付けた重なり合うカメラセットの撮影を行う。 ベンチマーク・マルチカメラ・データセット(DDAD)を用いた実験では,従来の視覚に基づくポーズ推定パイプラインと比較して,様々な場面での自己校正が可能であった。 さらに,共同最適化による深度予測を改善する方法として,外部自己校正の利点を示す。

Autonomous vehicles and robots need to operate over a wide variety of scenarios in order to complete tasks efficiently and safely. Multi-camera self-supervised monocular depth estimation from videos is a promising way to reason about the environment, as it generates metrically scaled geometric predictions from visual data without requiring additional sensors. However, most works assume well-calibrated extrinsics to fully leverage this multi-camera setup, even though accurate and efficient calibration is still a challenging problem. In this work, we introduce a novel method for extrinsic calibration that builds upon the principles of self-supervised monocular depth and ego-motion learning. Our proposed curriculum learning strategy uses monocular depth and pose estimators with velocity supervision to estimate extrinsics, and then jointly learns extrinsic calibration along with depth and pose for a set of overlapping cameras rigidly attached to a moving vehicle. Experiments on a benchmark multi-camera dataset (DDAD) demonstrate that our method enables self-calibration in various scenes robustly and efficiently compared to a traditional vision-based pose estimation pipeline. Furthermore, we demonstrate the benefits of extrinsics self-calibration as a way to improve depth prediction via joint optimization.
翻訳日:2023-08-08 10:45:00 公開日:2023-08-07
# タラセミア検出のための伝達学習を可能にするDeep Maxout Network-based Feature Fusionと政治タンジェント検索最適化

Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection ( http://arxiv.org/abs/2308.02029v2 )

ライセンス: Link先を確認
Hemn Barzan Abdalla, Awder Ahmed, Guoquan Li, Nasser Mustafa, Abdur Rashid Sangi(参考訳) タラス血症は遺伝性血液疾患であり、ヘモグロビンポリペプチド鎖の産生不足を引き起こす遺伝子異常の結果である。 しかし、これらの領域における正確な周波数の理解や共有は少ない。 タラセミアの発生頻度や変異の信頼性を知ることは、予防、制御、治療計画において重要なステップである。 ここでは、タラセミア検出にPTSO_TL(Political Tangent Search Optimizer based Transfer Learning)を導入する。 当初、特定のデータセットから得られた入力データは、データ正規化段階で正規化される。 データ正規化段階では量子正規化を利用し、そのデータを特徴融合フェーズに渡して、Deep Maxout Network(DMN)を用いたWeighted Euclidean Distanceを利用する。 その後、オーバーサンプリング法を用いてデータ拡張を行い、データ次元を増加させる。 最後に、tlassemia検出はtlによって行われ、畳み込みニューラルネットワーク(cnn)はxceptionのような訓練されたモデルからのハイパーパラメータで利用される。 TLはPTSOで調整され、トレーニングアルゴリズムPTSOは政治最適化アルゴリズム(PO)とタンジェント探索アルゴリズム(TSA)を併用して提示される。 さらにptso_tlは最大精度,リコール,f-測定値が94.3%,96.1%,95.2%であった。

Thalassemia is a heritable blood disorder which is the outcome of a genetic defect causing lack of production of hemoglobin polypeptide chains. However, there is less understanding of the precise frequency as well as sharing in these areas. Knowing about the frequency of thalassemia occurrence and dependable mutations is thus a significant step in preventing, controlling, and treatment planning. Here, Political Tangent Search Optimizer based Transfer Learning (PTSO_TL) is introduced for thalassemia detection. Initially, input data obtained from a particular dataset is normalized in the data normalization stage. Quantile normalization is utilized in the data normalization stage, and the data are then passed to the feature fusion phase, in which Weighted Euclidean Distance with Deep Maxout Network (DMN) is utilized. Thereafter, data augmentation is performed using the oversampling method to increase data dimensionality. Lastly, thalassemia detection is carried out by TL, wherein a convolutional neural network (CNN) is utilized with hyperparameters from a trained model such as Xception. TL is tuned by PTSO, and the training algorithm PTSO is presented by merging of Political Optimizer (PO) and Tangent Search Algorithm (TSA). Furthermore, PTSO_TL obtained maximal precision, recall, and f-measure values of about 94.3%, 96.1%, and 95.2%, respectively.
翻訳日:2023-08-08 10:44:37 公開日:2023-08-07
# テンソルプログラムIVb:無限幅極限における適応最適化

Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit ( http://arxiv.org/abs/2308.01814v2 )

ライセンス: Link先を確認
Greg Yang, Etai Littwin(参考訳) 確率勾配降下(SGD)を超えて、Adamのような適応オプティマイザによってトレーニングされた広いニューラルネットワークに新しい現象が現れるのか? sgdのように)機能学習と(sgdのように)カーネルの振る舞いの2分法は同じで、adam氏を含む一般的なオプティマイザも保持しています。 我々は,任意のアーキテクチャに対して,対応する "神経的接点" と "最大更新" の制限を導出する。 2つの基礎的な進歩により、上記の結果が得られた。 1)新しいTensor Program言語であるNEXORTは、最適化言語が更新への勾配をいかに適応的に処理するかを表現することができる。 2)テンソルプログラムにおける表現と計算を大幅に単純化するブラケット表記の導入。 この研究は、Tensor Programsシリーズの論文で過去の結果をまとめ、一般化している。

Going beyond stochastic gradient descent (SGD), what new phenomena emerge in wide neural networks trained by adaptive optimizers like Adam? Here we show: The same dichotomy between feature learning and kernel behaviors (as in SGD) holds for general optimizers as well, including Adam -- albeit with a nonlinear notion of "kernel." We derive the corresponding "neural tangent" and "maximal update" limits for any architecture. Two foundational advances underlie the above results: 1) A new Tensor Program language, NEXORT, that can express how adaptive optimizers process gradients into updates. 2) The introduction of bra-ket notation to drastically simplify expressions and calculations in Tensor Programs. This work summarizes and generalizes all previous results in the Tensor Programs series of papers.
翻訳日:2023-08-08 10:44:13 公開日:2023-08-07
# BEVControl: BEVスケッチレイアウトによる多視点一貫性によるストリートビュー要素の正確な制御

BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout ( http://arxiv.org/abs/2308.01661v3 )

ライセンス: Link先を確認
Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, Kaicheng Yu(参考訳) 合成画像を用いて知覚モデルの性能を高めることは、コンピュータビジョンにおける長年の研究課題である。 ロングテールのシナリオは収集できないため、マルチビューカメラを備えた視覚中心の自動運転システムではより魅力的なものになる。 bevのセグメンテーションレイアウトに導かれた既存の生成ネットワークは、シーンレベルのメトリクスのみに基づいて評価すると、フォトリアリスティックなストリートビュー画像を合成するように見える。 しかし、ズームインすると、通常は正確な前景や、方向などの背景の詳細を生成できない。 そこで本研究では,前景と背景コンテンツを高精度に生成できる2段階生成法bevcontrolを提案する。 セグメンテーションのような入力とは対照的に、スケッチスタイルの入力もサポートしている。 さらに,生成シーン,フォアグラウンドオブジェクト,背景幾何の質を十分に比較するための総合的多レベル評価プロトコルを提案する。 我々のBEVControlは最先端の手法であるBEVGenを5.89から26.80の差で上回っている。 また,bevcontrol が生成した画像を用いて下流知覚モデルのトレーニングを行い,平均 1.29 の nds スコア向上を達成した。

Using synthesized images to boost the performance of perception models is a long-standing research challenge in computer vision. It becomes more eminent in visual-centric autonomous driving systems with multi-view cameras as some long-tail scenarios can never be collected. Guided by the BEV segmentation layouts, the existing generative networks seem to synthesize photo-realistic street-view images when evaluated solely on scene-level metrics. However, once zoom-in, they usually fail to produce accurate foreground and background details such as heading. To this end, we propose a two-stage generative method, dubbed BEVControl, that can generate accurate foreground and background contents. In contrast to segmentation-like input, it also supports sketch style input, which is more flexible for humans to edit. In addition, we propose a comprehensive multi-level evaluation protocol to fairly compare the quality of the generated scene, foreground object, and background geometry. Our extensive experiments show that our BEVControl surpasses the state-of-the-art method, BEVGen, by a significant margin, from 5.89 to 26.80 on foreground segmentation mIoU. In addition, we show that using images generated by BEVControl to train the downstream perception model, it achieves on average 1.29 improvement in NDS score.
翻訳日:2023-08-08 10:43:13 公開日:2023-08-07