このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240113となっている論文です。

PDF登録状況(公開日: 20240113)

TitleAuthorsAbstract論文公表日・翻訳日
# 流体力学シミュレーションのための量子コンピューティング

Quantum computing for simulation of fluid dynamics ( http://arxiv.org/abs/2404.01302v1 )

ライセンス: Link先を確認
Claudio Sanavio, Sauro Succi, (参考訳) 本稿では,古典流体シミュレーションのための一連の量子計算アルゴリズムについて,特にカールマン・格子・ボルツマン法に重点を置いて紹介する。

We present a pedagogical introduction to a series of quantum computing algorithms for the simulation of classical fluids, with special emphasis on the Carleman-Lattice Boltzmann method.
翻訳日:2024-07-01 12:18:29 公開日:2024-01-13
# CAC 2.0: 構造解析攻撃に耐性のある、破壊的で正確な論理ロック技術

CAC 2.0: A Corrupt and Correct Logic Locking Technique Resilient to Structural Analysis Attacks ( http://arxiv.org/abs/2401.07142v1 )

ライセンス: Link先を確認
Levent Aksoy, Muhammad Yasin, Samuel Pagliarini, (参考訳) ハードウェアの深刻な脅威から集積回路を保護するために提案された論理ロックは10年以上にわたって広く研究されてきた。 近年、多くの効率的な論理ロック技術が壊れていることが証明されている。 最先端の論理ロック技術である、顕著な腐敗と正解(CAC)技術は、SATベースおよび除去攻撃に耐性があるが、構造解析攻撃には弱い。 この欠点を克服するために, 難読化を用いた構造解析攻撃の探索空間を増大させる CAC 2.0 と呼ばれる改良版 CAC を提案する。 そのため、CAC 2.0は、元の保護された一次入力をデコイ一次入力の中に隠しながら、CACを使用して保護された一次入力の個数が異なる異なるノードに、元の回路を次々に2回ロックする。 本稿では,オープンソースの論理ロックツールHIIDについて紹介する。 実験の結果, CAC 2.0は既存のSATベース, 除去, 構造解析攻撃に耐性があることが判明した。 これを実現するために、CACに関して低複雑さの回路において、キー入力の最大4倍とゲートレベルの領域を30.2%から0.8%に増やす。

Logic locking proposed to protect integrated circuits from serious hardware threats has been studied extensively over a decade. In these years, many efficient logic locking techniques have been proven to be broken. The state-of-the-art logic locking techniques, including the prominent corrupt and correct (CAC) technique, are resilient to satisfiability (SAT)-based and removal attacks, but vulnerable to structural analysis attacks. To overcome this drawback, this paper introduces an improved version of CAC, called CAC 2.0, which increases the search space of structural analysis attacks using obfuscation. To do so, CAC 2.0 locks the original circuit twice, one after another, on different nodes with different number of protected primary inputs using CAC, while hiding original protected primary inputs among decoy primary inputs. This paper also introduces an open source logic locking tool, called HIID, equipped with well-known techniques including CAC 2.0. Our experiments show that CAC 2.0 is resilient to existing SAT-based, removal, and structural analysis attacks. To achieve this, it increases the number of key inputs at most 4x and the gate-level area between 30.2% and 0.8% on circuits with low and high complexity with respect to CAC.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-13
# 大規模言語モデルによるアイデアの系譜の追跡

Tracing the Genealogies of Ideas with Large Language Model Embeddings ( http://arxiv.org/abs/2402.01661v1 )

ライセンス: Link先を確認
Lucian Li(参考訳) 本稿では,大規模コーパス間の知的影響を検出する新しい手法を提案する。 意味的意味と構造的意味をエンコードする上で,大規模言語モデルの独特な余裕を生かして,実質的に類似したアイデアや,知的影響のヒントを計算的に効率的に検索することができる。 このような方法では、異なるレベルの信頼を運用することが可能です。私たちは各しきい値の制限についてオープンのままで、直接の引用、パラフレーズ、投機的類似性を許容できます。 一般的なテキスト埋め込み法と,意味コンテンツのキャプチャに最適化された最先端文埋め込み法と,議論スタイルにおける構造的類似性とメタファーの使用を捉えるように設計された抽象的意味表現グラフ表現法を組み合わせたアンサンブル手法を適用する。 この方法では、ダーウィンの出版物に現れるアイデアや議論の例として、約40万冊のノンフィクションや19世紀の学術出版物のコーパスから文章をベクトル化する。 これは初期の評価と概念実証として機能し、この手法はダーウィンのアイデアの検出に限らず、幅広いコーパスや文脈において大規模に類似性を検出することができる。

In this paper, I present a novel method to detect intellectual influence across a large corpus. Taking advantage of the unique affordances of large language models in encoding semantic and structural meaning while remaining robust to paraphrasing, we can search for substantively similar ideas and hints of intellectual influence in a computationally efficient manner. Such a method allows us to operationalize different levels of confidence: we can allow for direct quotation, paraphrase, or speculative similarity while remaining open about the limitations of each threshold. I apply an ensemble method combining General Text Embeddings, a state-of-the-art sentence embedding method optimized to capture semantic content and an Abstract Meaning Representation graph representation designed to capture structural similarities in argumentation style and the use of metaphor. I apply this method to vectorize sentences from a corpus of roughly 400,000 nonfiction books and academic publications from the 19th century for instances of ideas and arguments appearing in Darwin's publications. This functions as an initial evaluation and proof of concept; the method is not limited to detecting Darwinian ideas but is capable of detecting similarities on a large scale in a wide range of corpora and contexts.
翻訳日:2024-02-11 17:03:02 公開日:2024-01-13
# コンピュータによる学術的目的のテストアプリケーションにおけるLaTeX公式の統合

Integration of LaTeX formula in computer-based test application for academic purposes ( http://arxiv.org/abs/2402.01660v1 )

ライセンス: Link先を確認
Ikechukwu E. Onyenwe, Ebele Onyedinma, Onyedika O. Ikechukwu-Onyenwe, Obinna Agbata, and Faustinah N. Tubo(参考訳) LaTeXは、数学的表現の型付けをスムーズかつエレガントに処理する自由文書作成システムである。 数学や多くの科学分野の研究論文を作成・出版するための標準形式となっている。 近年,コンピュータベーステスト(CBT)が普及している。 現在ではほとんどの機関がペンペーパー方式の代わりに評価を行うのに使っている。 評価を行うために、試験者はまず新しい試験を追加するか、CBTエディタを使って既存の試験を編集する。 したがって、CBTの実装は、質問の設定と管理の両方をサポートするべきである。 学術分野で使用されている既存のcbtアプリケーションは、高度な式、プログラミングコード、テーブルを扱う能力が欠けているため、多くの時間とストレージ空間を必要とする画像に変換することができる。 本稿では,この問題をCBTアプリケーションにラテックス技術を統合することで解決する方法について論じる。 これにより、テーブル、プログラミングコード、方程式のシームレスな操作と正確なレンダリングが可能になり、質問プラットフォームの設定と管理の可読性と明確性を高めることができる。 さらに、この実装は、テーブル、コード、方程式を画像に変換するために割り当てられたシステムリソースのサイズを大幅に削減した。 数学、統計学、計算機科学、工学、化学などの分野では、この応用は有用である。

LaTeX is a free document preparation system that handles the typesetting of mathematical expressions smoothly and elegantly. It has become the standard format for creating and publishing research articles in mathematics and many scientific fields. Computer-based testing (CBT) has become widespread in recent years. Most establishments now use it to deliver assessments as an alternative to using the pen-paper method. To deliver an assessment, the examiner would first add a new exam or edit an existing exam using a CBT editor. Thus, the implementation of CBT should comprise both support for setting and administering questions. Existing CBT applications used in the academic space lacks the capacity to handle advanced formulas, programming codes, and tables, thereby resorting to converting them into images which takes a lot of time and storage space. In this paper, we discuss how we solvde this problem by integrating latex technology into our CBT applications. This enables seamless manipulation and accurate rendering of tables, programming codes, and equations to increase readability and clarity on both the setting and administering of questions platforms. Furthermore, this implementation has reduced drastically the sizes of system resources allocated to converting tables, codes, and equations to images. Those in mathematics, statistics, computer science, engineering, chemistry, etc. will find this application useful.
翻訳日:2024-02-11 17:02:40 公開日:2024-01-13
# ワークシステムモデリングの基礎

Foundations of Work-Systems Modeling ( http://arxiv.org/abs/2401.16221v1 )

ライセンス: Link先を確認
Henderik Alex Proper(参考訳) 2006年、「組織をモデル化する」のコースが3回目となる。 第3回は,DA VINCIシリーズの“Work Systems Modelling”という,新たな講義ノートを2回使用する予定です。 しかし、これらの講義ノートは、実際の講義の過程と密接に連携して進化する。 2005/2006年度には,これらの講義ノートを3段階に分けて配布することを目的として,第2回講義ノート作成を行う。 この学年において重要なステップは、ICIS Work Systems Modellingの講義ノートとNICIのOrganizational Dynamicsのコースを統合することである。 この統合の最初の結果は、第2と第3のトライミスターに現れ始めます。

In 2006, the course "Modeling of Organizations" is taught for the third time. This third time will be the second time we will use the new lecture notes "Work Systems Modelling" from the DA VINCI series. These lecture notes, however, will be evolved further hand-in-hand with the actual process of lecturing. In the academic year 2005/2006, a second incarnation of these lecture notes will be created, where the aim is to deliver these lecture notes in three increments. An important step that will be taken in this academic year is the integration of the ICIS Work Systems Modelling lecture notes with the NICI course on Organisational Dynamics. The first results of this integration will start to appear in the second and third trimester.
翻訳日:2024-02-04 05:35:51 公開日:2024-01-13
# 科学文献の体系的レビューを自動化する人工知能

Artificial intelligence to automate the systematic review of scientific literature ( http://arxiv.org/abs/2401.10917v1 )

ライセンス: Link先を確認
Jos\'e de la Torre-L\'opez and Aurora Ram\'irez and Jos\'e Ra\'ul Romero(参考訳) 人工知能(AI)は、人間が伝統的に行ってきた複雑なタスクを効果的に解決するため、現代コンピューティングにおける悪名高い関連性を獲得した。 aiは知識を表現し、推論し、テキストを効率的に操作し、膨大なデータから学ぶ方法を提供する。 これらの特徴は、科学的文献の分析と同様に、人間が熱心または繰り返しを見つける多くの活動に適用できる。 組織的文献レビュー(slr)の作成と作成には、戦略の立案、文献検索と分析の実施、発見の報告が必要となるため、かなりの時間と労力を要する。 研究対象の領域によっては、検索された論文の数は数百から数千になるため、関連する論文をフィルタリングしてキー情報を抽出することはコストがかかり、エラーが発生しやすいプロセスになる。 しかし、関連するタスクのいくつかは反復的であり、したがってAIによって自動化される。 本稿では,過去15年間に研究者が科学的文献を体系的に分析するためのai技術に関する調査を行う。 現在サポートされているタスク、適用されるアルゴリズムの種類、34の初等研究で提案されているツールについて説明する。 この調査はまた、フィールドの進化と、人間がますます自動化されたSLRプロセスで果たすことができる役割に関する歴史的見解を提供する。

Artificial intelligence (AI) has acquired notorious relevance in modern computing as it effectively solves complex tasks traditionally done by humans. AI provides methods to represent and infer knowledge, efficiently manipulate texts and learn from vast amount of data. These characteristics are applicable in many activities that human find laborious or repetitive, as is the case of the analysis of scientific literature. Manually preparing and writing a systematic literature review (SLR) takes considerable time and effort, since it requires planning a strategy, conducting the literature search and analysis, and reporting the findings. Depending on the area under study, the number of papers retrieved can be of hundreds or thousands, meaning that filtering those relevant ones and extracting the key information becomes a costly and error-prone process. However, some of the involved tasks are repetitive and, therefore, subject to automation by means of AI. In this paper, we present a survey of AI techniques proposed in the last 15 years to help researchers conduct systematic analyses of scientific literature. We describe the tasks currently supported, the types of algorithms applied, and available tools proposed in 34 primary studies. This survey also provides a historical perspective of the evolution of the field and the role that humans can play in an increasingly automated SLR process.
翻訳日:2024-01-28 16:09:51 公開日:2024-01-13
# 機械工学教育における大規模言語モデルの評価 : メカニクスに着目した概念理解に関する研究

Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding ( http://arxiv.org/abs/2401.12983v1 )

ライセンス: Link先を確認
Jie Tian, Jixin Hou, Zihao Wu, Peng Shu, Zhengliang Liu, Yujie Xiang, Beikang Gu, Nicholas Filla, Yiwei Li, Ning Liu, Xianyan Chen, Keke Tang, Tianming Liu, and Xianqiao Wang(参考訳) 本研究は,機械工学の領域における概念的問題に取り組む上で,大言語モデル(llm)の能力を検討するための先駆的な試みである。 実験は, 流体力学, 機械振動, 工学的静的と力学, 材料力学, 弾性理論, 連続力学など, 力学科の様々な側面にまたがる, 126問の多元性問題を含む手作業による試験である。 ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。 その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。 これは記号計算とテンソル解析を扱うgptモデルの将来的な改善を意味する。 LLMの性能は、直接応答する前の説明によって大幅に改善され、プロンプトエンジニアリングの重要な役割が強調された。 興味深いことに、GPT-3.5はより広い領域をカバーするプロンプトで、GPT-4は特定の対象に焦点を当てたプロンプトで優れている。 最後に、GPT-4は入力バイアスを緩和する顕著な進歩を示す。 この研究は、機械教育と科学研究の両方において、LLMが高度な知識を持つアシスタントとして有意義な可能性を明らかにしている。

This study is a pioneering endeavor to investigate the capabilities of Large Language Models (LLMs) in addressing conceptual questions within the domain of mechanical engineering with a focus on mechanics. Our examination involves a manually crafted exam encompassing 126 multiple-choice questions, spanning various aspects of mechanics courses, including Fluid Mechanics, Mechanical Vibration, Engineering Statics and Dynamics, Mechanics of Materials, Theory of Elasticity, and Continuum Mechanics. Three LLMs, including ChatGPT (GPT-3.5), ChatGPT (GPT-4), and Claude (Claude-2.1), were subjected to evaluation against engineering faculties and students with or without mechanical engineering background. The findings reveal GPT-4's superior performance over the other two LLMs and human cohorts in answering questions across various mechanics topics, except for Continuum Mechanics. This signals the potential future improvements for GPT models in handling symbolic calculations and tensor analyses. The performances of LLMs were all significantly improved with explanations prompted prior to direct responses, underscoring the crucial role of prompt engineering. Interestingly, GPT-3.5 demonstrates improved performance with prompts covering a broader domain, while GPT-4 excels with prompts focusing on specific subjects. Finally, GPT-4 exhibits notable advancements in mitigating input bias, as evidenced by guessing preferences for humans. This study unveils the substantial potential of LLMs as highly knowledgeable assistants in both mechanical pedagogy and scientific research.
翻訳日:2024-01-28 15:45:01 公開日:2024-01-13
# PVNet:数値気象予測による時空間太陽光発電用LRCNアーキテクチャ

PVNet: A LRCN Architecture for Spatio-Temporal Photovoltaic PowerForecasting from Numerical Weather Prediction ( http://arxiv.org/abs/1902.01453v4 )

ライセンス: Link先を確認
Johan Mathe, Nina Miolane, Nicolas Sebastien, Jeremie Lequeux(参考訳) 太陽光発電(PV)発電は再生可能エネルギーの主要源の1つである。 しかし、その生産は、太陽の照度や温度などの気象条件に依存する高い不確実性によって特徴づけられる。 24時間の予測でさえ、pv生産予測は依然として課題であり、エネルギー供給者はアイドリング工場(しばしば炭素放出プラント)を離れる。 本稿では,数値気象予測(NWP)を用いた長期反復畳み込みネットワークを導入し,24時間および48時間の予測地平線におけるPV生産の予測を行う。 このネットワークアーキテクチャは、地理的領域全体にわたってサンプリングされた時間的および空間的な気象データの両方を十分に活用している。 我々は,国立海洋大気庁(NOAA)のNWPデータセットを用いて,ドイツにおける空間集約型PV生産を予測する。 その性能を永続化モデルと最先端メソッドと比較する。

Photovoltaic (PV) power generation has emerged as one of the lead renewable energy sources. Yet, its production is characterized by high uncertainty, being dependent on weather conditions like solar irradiance and temperature. Predicting PV production, even in the 24-hour forecast, remains a challenge and leads energy providers to left idling - often carbon emitting - plants. In this paper, we introduce a Long-Term Recurrent Convolutional Network using Numerical Weather Predictions (NWP) to predict, in turn, PV production in the 24-hour and 48-hour forecast horizons. This network architecture fully leverages both temporal and spatial weather data, sampled over the whole geographical area of interest. We train our model on an NWP dataset from the National Oceanic and Atmospheric Administration (NOAA) to predict spatially aggregated PV production in Germany. We compare its performance to the persistence model and state-of-the-art methods.
翻訳日:2024-01-22 13:11:07 公開日:2024-01-13
# Triamese-ViT:MRIによるロバスト脳年齢推定のための3次元認識手法

Triamese-ViT: A 3D-Aware Method for Robust Brain Age Estimation from MRIs ( http://arxiv.org/abs/2401.09475v1 )

ライセンス: Link先を確認
Zhaonian Zhang and Richard Jiang(参考訳) 医学における機械学習の統合は、特に人間の脳のような複雑な構造の解釈において、診断精度を大幅に改善した。 アルツハイマー病などの困難な状態の診断は、脳年齢推定技術の発展を促している。 3d resnetのような3次元畳み込みニューラルネットワーク(cnns)の有効性を強調する最近の研究で、これらの手法はしばしば3次元磁気共鳴イメージング(mri)スキャンを利用する。 しかし、その精度と解釈可能性で知られるViT(Vision Transformers)の未完成のポテンシャルは、3Dバージョンの制限のためにこの領域に留まっている。 本稿では,脳年齢推定のためのViTモデルの革新的適応であるTriamese-ViTを紹介する。 我々のモデルは3つの異なる方向からのViTを組み合わせて3D情報をキャプチャし、精度と解釈可能性を大幅に向上させる。 1351のMRIスキャンでテストした結果、Triamese-ViTは平均絶対誤差(MAE)が3.84、スピアマン相関係数が0.9、スピアマン相関係数が-0.29、脳年齢差(BAG)と時間年齢(chronological age)の相関係数が-0.29である。 triamese-vitの重要な革新は、各方向特異的vitの2次元アテンションマップから合成された包括的3dライクなアテンションマップを生成する能力である。 この機能は、脳内の年齢分析と疾患の診断に特に有用であり、脳の健康や加齢に伴う神経変化のメカニズムについて深い洞察を提供する。

The integration of machine learning in medicine has significantly improved diagnostic precision, particularly in the interpretation of complex structures like the human brain. Diagnosing challenging conditions such as Alzheimer's disease has prompted the development of brain age estimation techniques. These methods often leverage three-dimensional Magnetic Resonance Imaging (MRI) scans, with recent studies emphasizing the efficacy of 3D convolutional neural networks (CNNs) like 3D ResNet. However, the untapped potential of Vision Transformers (ViTs), known for their accuracy and interpretability, persists in this domain due to limitations in their 3D versions. This paper introduces Triamese-ViT, an innovative adaptation of the ViT model for brain age estimation. Our model uniquely combines ViTs from three different orientations to capture 3D information, significantly enhancing accuracy and interpretability. Tested on a dataset of 1351 MRI scans, Triamese-ViT achieves a Mean Absolute Error (MAE) of 3.84, a 0.9 Spearman correlation coefficient with chronological age, and a -0.29 Spearman correlation coefficient between the brain age gap (BAG) and chronological age, significantly better than previous methods for brian age estimation. A key innovation of Triamese-ViT is its capacity to generate a comprehensive 3D-like attention map, synthesized from 2D attention maps of each orientation-specific ViT. This feature is particularly beneficial for in-depth brain age analysis and disease diagnosis, offering deeper insights into brain health and the mechanisms of age-related neural changes.
翻訳日:2024-01-22 09:16:22 公開日:2024-01-13
# 海洋除雪ベンチマークデータセット

Marine Snow Removal Benchmarking Dataset ( http://arxiv.org/abs/2103.14249v3 )

ライセンス: Link先を確認
Reina Kaneko, Yuya Sato, Takumi Ueda, Hiroshi Higashi, Yuichi Tanaka(参考訳) 本稿では,水中画像の海洋除雪のための新しいベンチマークデータセットを提案する。 海洋性雪は、水中のシーンと光センサーの間の小さな粒子、例えば有機物や砂によって引き起こされる水中画像の主要な劣化源の1つである。 実際の水中画像から2種類の海洋性雪を数学的にモデル化する。 モデル化されたアーティファクトを水中画像で合成し、大規模な地上真実と劣化画像を構築し、海洋性除雪の客観的特性を計算し、深層ニューラルネットワークを訓練する。 本研究では,このデータを用いて2つの海中除雪タスクを提案し,海中除雪のベンチマーク結果を示す。 Marine Snow removal Benchmarking Datasetはオンラインで公開されている。

This paper introduces a new benchmarking dataset for marine snow removal of underwater images. Marine snow is one of the main degradation sources of underwater images that are caused by small particles, e.g., organic matter and sand, between the underwater scene and photosensors. We mathematically model two typical types of marine snow from the observations of real underwater images. The modeled artifacts are synthesized with underwater images to construct large-scale pairs of ground truth and degraded images to calculate objective qualities for marine snow removal and to train a deep neural network. We propose two marine snow removal tasks using the dataset and show the first benchmarking results of marine snow removal. The Marine Snow Removal Benchmarking Dataset is publicly available online.
翻訳日:2024-01-18 22:23:06 公開日:2024-01-13
# DA-BEV:バードアイビュー知覚のための教師なしドメイン適応

DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception ( http://arxiv.org/abs/2401.08687v1 )

ライセンス: Link先を確認
Kai Jiang, Jiaxing Huang, Weiying Xie, Yunsong Li, Ling Shao, Shijian Lu(参考訳) カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。 しかし、既存の研究のほとんどは、様々な新しいデータを扱う際にうまくスケールできない教師付きセットアップの下で行われた。 非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。 本研究では、画像ビュー機能とBEV機能の相補的な性質を活用することで、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラ専用BEVフレームワークであるDA-BEVを設計する。 DA-BEVは、画像ビューとBEVの機能から有用な情報を引き出すために、ドメイン適応フレームワークにクエリというアイデアを導入する。 これは、クエリベースの逆学習(qal)とクエリベースの自己学習(qst)という2つのクエリベースの設計から成り、画像ビュー機能やbev機能を利用して、互いの適応を規則化する。 DA-BEVは、複数のデータセットや3Dオブジェクト検出や3Dシーンセグメンテーションといったタスクにおいて、優れたドメイン適応型BEV知覚性能を実現する。

Camera-only Bird's Eye View (BEV) has demonstrated great potential in environment perception in a 3D space. However, most existing studies were conducted under a supervised setup which cannot scale well while handling various new data. Unsupervised domain adaptive BEV, which effective learning from various unlabelled target data, is far under-explored. In this work, we design DA-BEV, the first domain adaptive camera-only BEV framework that addresses domain adaptive BEV challenges by exploiting the complementary nature of image-view features and BEV features. DA-BEV introduces the idea of query into the domain adaptation framework to derive useful information from image-view and BEV features. It consists of two query-based designs, namely, query-based adversarial learning (QAL) and query-based self-training (QST), which exploits image-view features or BEV features to regularize the adaptation of the other. Extensive experiments show that DA-BEV achieves superior domain adaptive BEV perception performance consistently across multiple datasets and tasks such as 3D object detection and 3D scene segmentation.
翻訳日:2024-01-18 18:42:05 公開日:2024-01-13
# 注意モジュールによる画像レベル異常検出の改善: DifferNet ケーススタディ

Attention Modules Improve Modern Image-Level Anomaly Detection: A DifferNet Case Study ( http://arxiv.org/abs/2401.08686v1 )

ライセンス: Link先を確認
Andr\'e Luiz B. Vieira e Silva, Francisco Sim\~oes, Danny Kowerko, Tobias Schlosser, Felipe Battisti, Veronica Teichrieb(参考訳) 半自動視覚検査の中で、ディープラーニングを含む視覚的欠陥を評価する学習ベースのアプローチは、高解像度画像上でピクセルサイズの小さな欠陥パターンを処理可能にする。 これらまれに発生する欠陥パターンの出現は、ラベル付きデータコーパスの一般的な必要性を説明する。 このコントリビューションは、この問題を緩和するだけでなく、教師なしビジュアルインスペクションにおける技術の現状をさらに前進させるため、SENetとCBAMをバックボーン - AttentDifferNetとして活用した注目モジュールを備えたDifferNetベースのソリューションを提案し、MVTec AD、InsPLAD-fault、Sciron Waferの3つの異なるビジュアルインスペクションおよび異常検出データセットにおける検出と分類機能を改善する。 AUCの94.34対92.46、96.67対94.69、90.20対88.74%の総合的な改善が示され、AttentDifferNetは我々の量的および質的評価において改善された結果を達成することが示されている。 attentdiffernetに対する我々の変異は、現在研究されているアプローチの文脈において大きな展望を示しており、ベースラインが定式化されており、異常検出における注意の重要性を強調している。

Within (semi-)automated visual inspection, learning-based approaches for assessing visual defects, including deep neural networks, enable the processing of otherwise small defect patterns in pixel size on high-resolution imagery. The emergence of these often rarely occurring defect patterns explains the general need for labeled data corpora. To not only alleviate this issue but to furthermore advance the current state of the art in unsupervised visual inspection, this contribution proposes a DifferNet-based solution enhanced with attention modules utilizing SENet and CBAM as backbone - AttentDifferNet - to improve the detection and classification capabilities on three different visual inspection and anomaly detection datasets: MVTec AD, InsPLAD-fault, and Semiconductor Wafer. In comparison to the current state of the art, it is shown that AttentDifferNet achieves improved results, which are, in turn, highlighted throughout our quantitative as well as qualitative evaluation, indicated by a general improvement in AUC of 94.34 vs. 92.46, 96.67 vs. 94.69, and 90.20 vs. 88.74%. As our variants to AttentDifferNet show great prospects in the context of currently investigated approaches, a baseline is formulated, emphasizing the importance of attention for anomaly detection.
翻訳日:2024-01-18 18:41:43 公開日:2024-01-13
# 不確実性定量化のための信頼緩和法とサンプル法の組み合わせ

Combining Confidence Elicitation and Sample-based Methods for Uncertainty Quantification in Misinformation Mitigation ( http://arxiv.org/abs/2401.08694v1 )

ライセンス: Link先を確認
Mauricio Rivera, Jean-Fran\c{c}ois Godbout, Reihaneh Rabbany, Kellin Pelrine(参考訳) 誤情報の緩和に取り組むための最有力候補として,大規模言語モデルが登場している。 しかし、既存のアプローチは幻覚や自信過剰な予測に苦しむ。 我々は,NLP誤情報軽減ソリューションのキャリブレーションを改善するために,直接信頼抽出とサンプルベース一貫性手法の両方を活用する不確実性定量化フレームワークを提案する。 まず,サンプルサイズと確率レベルの異なる一貫性特性を利用するサンプルベース一貫性手法の校正について検討する。 次に,単数と二段階の信頼導出手順における頑健な数値化プロンプトの性能と分布変化を評価する。 また、同じプロンプトの性能をGPTの異なるバージョンと異なる数値スケールと比較する。 最後に,サンプルベースの一貫性と動詞化手法を組み合わせることで,gptモデルに対する不確実性推定の精度を高めるハイブリッドフレームワークを提案する。 本研究は,誤情報低減アプリケーションにおいて,大規模言語モデルの信頼性を向上させる新たな不確実性定量化手法を提案する。

Large Language Models have emerged as prime candidates to tackle misinformation mitigation. However, existing approaches struggle with hallucinations and overconfident predictions. We propose an uncertainty quantification framework that leverages both direct confidence elicitation and sampled-based consistency methods to provide better calibration for NLP misinformation mitigation solutions. We first investigate the calibration of sample-based consistency methods that exploit distinct features of consistency across sample sizes and stochastic levels. Next, we evaluate the performance and distributional shift of a robust numeric verbalization prompt across single vs. two-step confidence elicitation procedure. We also compare the performance of the same prompt with different versions of GPT and different numerical scales. Finally, we combine the sample-based consistency and verbalized methods to propose a hybrid framework that yields a better uncertainty estimation for GPT models. Overall, our work proposes novel uncertainty quantification methods that will improve the reliability of Large Language Models in misinformation mitigation applications.
翻訳日:2024-01-18 18:24:59 公開日:2024-01-13
# 銀行における責任あるaiに向けて:公平な意思決定のためのバイアスに対処する

Towards Responsible AI in Banking: Addressing Bias for Fair Decision-Making ( http://arxiv.org/abs/2401.08691v1 )

ライセンス: Link先を確認
Alessandro Castelnovo(参考訳) 人工知能が様々な産業にまたがる意思決定プロセスに広範に統合されているのが特徴の時代には、信頼の要求は決して強調されなかった。 この論文はバイアスと公平性の包括的探究に着手し、特に銀行部門におけるai主導の決定が社会的な大きな結果をもたらすような彼らの影響を強調している。 この文脈では、公平さ、説明可能性、人間の監視のシームレスな統合が最も重要であり、一般的に「責任あるAI」と呼ばれるものの確立に繋がる。 これは、特に自動意思決定システムという領域において、AI規制と普遍的人権基準の両方とシームレスに整合する企業文化の発展におけるバイアスに対処する重要な性質を強調している。 現在、倫理的原則をAIモデルの開発、トレーニング、展開に組み込むことは、今後の欧州の規制に準拠し、社会的善を促進するために不可欠である。 この論文はバイアスの理解、バイアスの緩和、バイアスの会計という3つの基本的な柱を中心に構成されている。 これらの貢献は、実際のシナリオにおける実際の応用、intesa sanpaoloとのコラボレーションを通じて検証される。 この共同作業は、公正性の理解に貢献するだけでなく、AIベースの意思決定システムの責任ある実装のための実践的なツールも提供します。 オープンソースの原則に従って、私たちは、アクセス可能なpythonパッケージとして、bias on demandとfairviewをリリースしました。

In an era characterized by the pervasive integration of artificial intelligence into decision-making processes across diverse industries, the demand for trust has never been more pronounced. This thesis embarks on a comprehensive exploration of bias and fairness, with a particular emphasis on their ramifications within the banking sector, where AI-driven decisions bear substantial societal consequences. In this context, the seamless integration of fairness, explainability, and human oversight is of utmost importance, culminating in the establishment of what is commonly referred to as "Responsible AI". This emphasizes the critical nature of addressing biases within the development of a corporate culture that aligns seamlessly with both AI regulations and universal human rights standards, particularly in the realm of automated decision-making systems. Nowadays, embedding ethical principles into the development, training, and deployment of AI models is crucial for compliance with forthcoming European regulations and for promoting societal good. This thesis is structured around three fundamental pillars: understanding bias, mitigating bias, and accounting for bias. These contributions are validated through their practical application in real-world scenarios, in collaboration with Intesa Sanpaolo. This collaborative effort not only contributes to our understanding of fairness but also provides practical tools for the responsible implementation of AI-based decision-making systems. In line with open-source principles, we have released Bias On Demand and FairView as accessible Python packages, further promoting progress in the field of AI fairness.
翻訳日:2024-01-18 18:24:45 公開日:2024-01-13
# 負サンプリング補正によるコントラスト学習

Contrastive Learning with Negative Sampling Correction ( http://arxiv.org/abs/2401.08690v1 )

ライセンス: Link先を確認
Lu Wang, Chao Du, Pu Zhao, Chuan Luo, Zhangchi Zhu, Bo Qiao, Wei Zhang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) 最も効果的な自己教師付き表現学習方法の1つとして、コントラスト学習(cl)は、各正のペアと対比するために複数の負のペアに依存する。 対照的学習の標準的な実践では、正対と負対の両方を生成するためにデータ拡張法が使用される。 既存の研究は正のサンプリングを改善することに重点を置いているが、負のサンプリングプロセスはしばしば見過ごされている。 実際、生成された負のサンプルはしばしば正のサンプルによって汚染され、バイアスのある損失と性能の低下をもたらす。 正負のサンプリングバイアスを補正するために,正負のラベル付きコントラスト学習(PUCL)という新しいコントラスト学習手法を提案する。 puclは生成した負のサンプルをラベルなしのサンプルとして扱い、正のサンプルからの情報を対比損失のバイアスを補正する。 PUCLにおける補正損失は,非バイアスのコントラスト損失と比較して無視できるバイアスしか生じないことが証明された。 PUCLは一般的なコントラスト学習問題に適用でき、様々な画像およびグラフ分類タスクにおいて最先端の手法より優れている。 PUCLのコードは補足ファイルにある。

As one of the most effective self-supervised representation learning methods, contrastive learning (CL) relies on multiple negative pairs to contrast against each positive pair. In the standard practice of contrastive learning, data augmentation methods are utilized to generate both positive and negative pairs. While existing works have been focusing on improving the positive sampling, the negative sampling process is often overlooked. In fact, the generated negative samples are often polluted by positive samples, which leads to a biased loss and performance degradation. To correct the negative sampling bias, we propose a novel contrastive learning method named Positive-Unlabeled Contrastive Learning (PUCL). PUCL treats the generated negative samples as unlabeled samples and uses information from positive samples to correct bias in contrastive loss. We prove that the corrected loss used in PUCL only incurs a negligible bias compared to the unbiased contrastive loss. PUCL can be applied to general contrastive learning problems and outperforms state-of-the-art methods on various image and graph classification tasks. The code of PUCL is in the supplementary file.
翻訳日:2024-01-18 18:24:19 公開日:2024-01-13
# NODI:拡散音による外部分布検出

NODI: Out-Of-Distribution Detection with Noise from Diffusion ( http://arxiv.org/abs/2401.08689v1 )

ライセンス: Link先を確認
Jingqiu Zhou, Aojun Zou, Hongshen Li(参考訳) out-of-distribution (ood)検出は、機械学習モデルを安全にデプロイする上で重要な部分である。 文学で開発された多くの手法で広く研究されている。 この問題はOODスコア計算に対処するが、従来の方法ではOODスコアを分布内データセットの限られた使用量で計算する。 例えば、OODスコアは、分配データのごく一部からの情報で計算される。 さらに、これらの方法はニューラルイメージエンコーダで画像を符号化する。 これらの手法のロバスト性は、異なる訓練方法とアーキテクチャのイメージエンコーダに対してほとんど確認されない。 本稿では,OODタスクに拡散過程を導入する。 拡散モデルは、トレーニングセット全体の情報を予測されたノイズベクトルに統合する。 さらに、ノイズベクトル(安定点)の閉形式解を推定する。 次に、ノイズベクトルをOODスコアに変換し、OODベンチマークの深いモデル予測ノイズベクトルと閉形式ノイズベクトルの両方をテストする。 提案手法は, 従来のood法を, 画像エンコーダのすべてのタイプで上回っている。 \ref{main})。 MAEベースのイメージエンコーダで3.5$%のパフォーマンス向上が達成される。 さらに,異なる種類の画像エンコーダを適用し,OOD法の堅牢性を検討した。 画像エンコーダをResNetからVision Transformerに切り替える際には,OOD手法の一般化に失敗し,画像エンコーダ全体の堅牢性を示した。

Out-of-distribution (OOD) detection is a crucial part of deploying machine learning models safely. It has been extensively studied with a plethora of methods developed in the literature. This problem is tackled with an OOD score computation, however, previous methods compute the OOD scores with limited usage of the in-distribution dataset. For instance, the OOD scores are computed with information from a small portion of the in-distribution data. Furthermore, these methods encode images with a neural image encoder. The robustness of these methods is rarely checked with respect to image encoders of different training methods and architectures. In this work, we introduce the diffusion process into the OOD task. The diffusion model integrates information on the whole training set into the predicted noise vectors. What's more, we deduce a closed-form solution for the noise vector (stable point). Then the noise vector is converted into our OOD score, we test both the deep model predicted noise vector and the closed-form noise vector on the OOD benchmarks \cite{openood}. Our method outperforms previous OOD methods across all types of image encoders (Table. \ref{main}). A $3.5\%$ performance gain is achieved with the MAE-based image encoder. Moreover, we studied the robustness of OOD methods by applying different types of image encoders. Some OOD methods failed to generalize well when switching image encoders from ResNet to Vision Transformers, our method performs exhibits good robustness with all the image encoders.
翻訳日:2024-01-18 18:24:00 公開日:2024-01-13
# テキスト類似性を用いた自動回答検証

Automated Answer Validation using Text Similarity ( http://arxiv.org/abs/2401.08688v1 )

ライセンス: Link先を確認
Balaji Ganesan, Arjun Ravikumar, Lakshay Piplani, Rini Bhaumik, Dhivya Padmanaban, Shwetha Narasimhamurthy, Chetan Adhikary, Subhash Deshapogu(参考訳) 自動回答検証は、学習者に適切なフィードバックを提供し、質問応答システムとオンライン学習ソリューションをより広く利用することで、学習結果を改善するのに役立つ。 情報検索手法が神経学的手法よりも優れていることを示す科学質問応答の研究は、特にこの問題の複数選択バージョンにおいて行われている。 我々は,シームズニューラルネットワークモデルを実装し,この問題に対する一般化された解を生成する。 教師付きモデルと他のテキスト類似性に基づくソリューションを比較した。

Automated answer validation can help improve learning outcomes by providing appropriate feedback to learners, and by making question answering systems and online learning solutions more widely available. There have been some works in science question answering which show that information retrieval methods outperform neural methods, especially in the multiple choice version of this problem. We implement Siamese neural network models and produce a generalised solution to this problem. We compare our supervised model with other text similarity based solutions.
翻訳日:2024-01-18 18:23:41 公開日:2024-01-13
# 任意条件下での一般化直交確率問題

Generalized Orthogonal Procrustes Problem under Arbitrary Adversaries ( http://arxiv.org/abs/2106.15493v2 )

ライセンス: Link先を確認
Shuyang Ling(参考訳) 一般化直交プロクリスト問題(GOPP)は統計学、画像科学、コンピュータビジョンなどいくつかの科学分野において基本的な役割を果たす。 非常に実際的な重要性があるにもかかわらず、最小二乗推定器を見つけることは一般にNPハード問題である。 半定値緩和法(SDR)と一般化電力法(GPM)を用いて最小二乗推定器の探索を行い,信号+雑音モデルによる性能評価を行った。 信号対雑音比が大きい場合、SDRは最小二乗推定器を正確に復元し、適切な初期化を施した一般化電力法は大域最小化器に線形収束することを示した。 GPMに関わる非線形写像が本質的に局所縮約写像であることを示し、よく知られたバナッハの不動点定理を適用すると証明が終わる。 さらに,低ランク因数分解アルゴリズムを解析し,SDR手法を成功させるために,ほぼ同一条件下での局所最小化が不要であることを示す。 我々の研究のハイライトは、理論的な保証は純粋に代数的であり、加法的敵の統計的先行を前提とせず、様々な興味深い設定に当てはまることである。

The generalized orthogonal Procrustes problem (GOPP) plays a fundamental role in several scientific disciplines including statistics, imaging science and computer vision. Despite its tremendous practical importance, it is generally an NP-hard problem to find the least squares estimator. We study the semidefinite relaxation (SDR) and an iterative method named generalized power method (GPM) to find the least squares estimator, and investigate the performance under a signal-plus-noise model. We show that the SDR recovers the least squares estimator exactly and moreover the generalized power method with a proper initialization converges linearly to the global minimizer to the SDR, provided that the signal-to-noise ratio is large. The main technique follows from showing the nonlinear mapping involved in the GPM is essentially a local contraction mapping and then applying the well-known Banach fixed-point theorem finishes the proof. In addition, we analyze the low-rank factorization algorithm and show the corresponding optimization landscape is free of spurious local minimizers under nearly identical conditions that enables the success of SDR approach. The highlight of our work is that the theoretical guarantees are purely algebraic and do not assume any statistical priors of the additive adversaries, and thus it applies to various interesting settings.
翻訳日:2024-01-18 04:18:21 公開日:2024-01-13
# 確率機械学習を用いた変分量子固有解法における誤差緩和

Error mitigation in variational quantum eigensolvers using tailored probabilistic machine learning ( http://arxiv.org/abs/2111.08814v3 )

ライセンス: Link先を確認
Tao Jiang, John Rogers, Marius S. Frank, Ove Christiansen, Yong-Xin Yao and Nicola Lanat\`a(参考訳) 量子コンピューティング技術は、近い将来、物質や分子のシミュレーションに革命をもたらす可能性がある。 短期量子優位性を達成する上での最大の課題は、現在の量子処理ユニット(QPU)に固有のノイズ効果を効果的に緩和することである。 この課題は、近年大きな関心を集めている変分量子固有解法(VQE)を用いた量子古典ハイブリッドスキームの文脈においても決定的である。 本稿では,量子計算における雑音を軽減するためのアクティブ学習フレームワークにおいて,パラメトリックガウス過程回帰(gpr)を用いた新しい手法を提案する。 本手法は確率的機械学習に基礎を置き,vqe ansatzに基づくカスタムプリエントを活用し,変動パラメータの異なるvqe出力の相関関係を捉えることにより,精度と効率の両立を図る。 ibm の量子コンピューティングフレームワーク qiskit を用いて,2-site anderson の不純物モデルと 8-site heisenberg モデルに対する本手法の有効性を実証し,vqe 出力の精度を大幅に改善し,直接 qpu エネルギー評価の回数を削減した。 この研究は、量子エラー軽減と最適化の継続的な取り組みに貢献し、量子物質シミュレーションにおける量子コンピューティングの可能性の実現に一歩近づいた。

Quantum computing technology has the potential to revolutionize the simulation of materials and molecules in the near future. A primary challenge in achieving near-term quantum advantage is effectively mitigating the noise effects inherent in current quantum processing units (QPUs). This challenge is also decisive in the context of quantum-classical hybrid schemes employing variational quantum eigensolvers (VQEs) that have attracted significant interest in recent years. In this work, we present a novel method that employs parametric Gaussian process regression (GPR) within an active learning framework to mitigate noise in quantum computations, focusing on VQEs. Our approach, grounded in probabilistic machine learning, exploits a custom prior based on the VQE ansatz to capture the underlying correlations between VQE outputs for different variational parameters, thereby enhancing both accuracy and efficiency. We demonstrate the effectiveness of our method on a 2-site Anderson impurity model and a 8-site Heisenberg model, using the IBM open-source quantum computing framework, Qiskit, showcasing substantial improvements in the accuracy of VQE outputs while reducing the number of direct QPU energy evaluations. This work contributes to the ongoing efforts in quantum error mitigation and optimization, bringing us a step closer to realizing the potential of quantum computing in quantum matter simulations.
翻訳日:2024-01-18 04:08:14 公開日:2024-01-13
# 非正規化可能な高調波振動子の物理的解釈とパイロット波平衡緩和

Physical interpretation of non-normalizable harmonic oscillator states and relaxation to pilot-wave equilibrium ( http://arxiv.org/abs/2208.08945v4 )

ライセンス: Link先を確認
Indrajit Sen(参考訳) 非正規化可能な状態は正統的な量子形式論では解釈が難しいが、しばしば量子重力における物理的制約の解として起こる。 我々は、パイロット波理論は、統計的予測を生成するために構成の正規化密度のみを必要とするため、非正規化可能な量子状態の直接的な物理的解釈を与えると主張する。 このような状態をよりよく理解するために、パイロット波の観点から高調波発振器の非正規化解を初めて研究する。 直交量子力学の直観とは対照的に、非正規化可能な固有状態とその重畳は、速度場 $v_y \to 0$ at large $\pm y$ という意味で境界状態であることを示す。 このような状態に対して物理的に有意な平衡密度を定義するには、量子平衡の概念の一般化であるパイロット波平衡と呼ばれる新しい平衡の概念が必要であると論じる。 我々は、新しい$H$-function $H_{pw}$を定義し、パイロット波平衡の密度が$H_{pw}$を最小にし、時間とともに平衡であることを示す。 我々は、量子平衡への緩和の仮定と似た仮定の下で、粗粒度$h_{pw}$のh$理論を証明する。 我々は,摂動と環境相互作用による非正規化状態の不安定性の観点から,パイロット波理論における量子化の出現を説明する。 最後に、量子場理論と量子重力理論の応用と、パイロット波理論と一般の量子基礎への示唆について論じる。

Non-normalizable states are difficult to interpret in the orthodox quantum formalism but often occur as solutions to physical constraints in quantum gravity. We argue that pilot-wave theory gives a straightforward physical interpretation of non-normalizable quantum states, as the theory requires only a normalized density of configurations to generate statistical predictions. In order to better understand such states, we conduct the first study of non-normalizable solutions of the harmonic oscillator from a pilot-wave perspective. We show that, contrary to intuitions from orthodox quantum mechanics, the non-normalizable eigenstates and their superpositions are bound states in the sense that the velocity field $v_y \to 0$ at large $\pm y$. We argue that defining a physically meaningful equilibrium density for such states requires a new notion of equilibrium, named pilot-wave equilibrium, which is a generalisation of the notion of quantum equilibrium. We define a new $H$-function $H_{pw}$, and prove that a density in pilot-wave equilibrium minimises $H_{pw}$, is equivariant, and remains in equilibrium with time. We prove an $H$-theorem for the coarse-grained $H_{pw}$, under assumptions similar to those for relaxation to quantum equilibrium. We give an explanation of the emergence of quantization in pilot-wave theory in terms of instability of non-normalizable states due to perturbations and environmental interactions. Lastly, we discuss applications in quantum field theory and quantum gravity, and implications for pilot-wave theory and quantum foundations in general.
翻訳日:2024-01-18 04:00:44 公開日:2024-01-13
# NAPA:変分量子アルゴリズムのための中間レベル変分ネイティブパルスアンサッツ

NAPA: Intermediate-level Variational Native-pulse Ansatz for Variational Quantum Algorithms ( http://arxiv.org/abs/2208.01215v5 )

ライセンス: Link先を確認
Zhiding Liang, Jinglei Cheng, Hang Ren, Hanrui Wang, Fei Hua, Zhixin Song, Yongshan Ding, Fred Chong, Song Han, Xuehai Qian, Yiyu Shi(参考訳) 変分量子アルゴリズム(vqas)は、ノイズの多い中間スケール量子(nisq)時代に大きなポテンシャルを示した。 vqaのワークフローでは、ansatzのパラメータが繰り返し更新され、所望の量子状態が近似される。 より少ないゲートで ansatz をより良いものにするために、様々な努力をしてきました。 基礎となる回路の物理的意味を考察する研究もある一方で、アンザッツ発生器にニューラルネットワーク探索(NAS)の考え方を採用する研究もある。 しかしながら、これらの設計はVQAの完全な利点を生かしていない。 ほとんどのテクニックはゲートアンサッツをターゲットにしており、パラメータは通常ゲートの回転角である。 量子コンピュータでは、ゲートアンザッツは最終的に超伝導量子ビット上のマイクロ波パルスなどの制御信号に変換される。 これらの制御パルスは、オーバーローテーションやアンダーローテーションのような誤差を最小限に抑えるために精巧な校正を必要とする。 VQAの場合、この手順は冗長性を導入するが、VQAの変動特性は振幅と周波数パラメータを更新することで、自然に過回転と過回転の問題に対処できる。 そこで本研究では,VQAのためのネイティブパルスアンサッツ生成フレームワークであるNAPAを提案する。 振幅と周波数の訓練可能なパラメータを持つネイティブパルス ansatz を生成する。 提案したNAPAでは、NISQコンピュータでネイティブにサポートされているパラメトリックパルスをチューニングしている。 パルスレベルの量子プログラムに対する勾配に基づく最適化の可用性が限られているため、我々はフレームワークに非勾配オプティマイザをデプロイすることを選択した。 オプティマイザに送信されるパラメータの数を制限するために、ネイティブパルスアンサッツを生成するためのプログレッシブな方法を採用しています。 本手法を評価するために,変分量子固有解法(VQE)タスクのシミュレータと量子デバイスの両方で実験を行った。

Variational quantum algorithms (VQAs) have demonstrated great potentials in the Noisy Intermediate Scale Quantum (NISQ) era. In the workflow of VQA, the parameters of ansatz are iteratively updated to approximate the desired quantum states. We have seen various efforts to draft better ansatz with less gates. Some works consider the physical meaning of the underlying circuits, while others adopt the ideas of neural architecture search (NAS) for ansatz generator. However, these designs do not exploit the full advantages of VQAs. Because most techniques target gate ansatz, and the parameters are usually rotation angles of the gates. In quantum computers, the gate ansatz will eventually be transformed into control signals such as microwave pulses on superconducting qubits. These control pulses need elaborate calibrations to minimize the errors such as over-rotation and under-rotation. In the case of VQAs, this procedure will introduce redundancy, but the variational properties of VQAs can naturally handle problems of over-rotation and under-rotation by updating the amplitude and frequency parameters. Therefore, we propose NAPA, a native-pulse ansatz generator framework for VQAs. We generate native-pulse ansatz with trainable parameters for amplitudes and frequencies. In our proposed NAPA, we are tuning parametric pulses, which are natively supported on NISQ computers. Given the limited availability of gradient-based optimizers for pulse-level quantum programs, we choose to deploy non-gradient optimizers in our framework. To constrain the number of parameters sent to the optimizer, we adopt a progressive way to generate our native-pulse ansatz. Experiments are conducted on both simulators and quantum devices for Variational Quantum Eigensolver (VQE) tasks to evaluate our methods.
翻訳日:2024-01-18 04:00:17 公開日:2024-01-13
# 標準セルアプローチによる効率的な量子回路設計

Efficient Quantum Circuit Design with a Standard Cell Approach ( http://arxiv.org/abs/2206.04990v2 )

ライセンス: Link先を確認
Evan E. Dobbs, Joseph S. Friedman, Alexandru Paler(参考訳) 従来の回路設計から借用した標準セルアプローチを用いて量子回路を設計し,回路のレイアウトを正規構造で高速化する。 私たちの標準セルは一般的なもので、あらゆるタイプの量子回路で使用できます。 標準セルアプローチはレイアウト認識ルーティングアルゴリズムの定式化を可能にする。 ここで、私たちは toffoli ゲートに立方体標準セルを使用し、3d アーキテクチャから始め、乗算回路を設計します。 自動ルーティング方式と比較すると,レイアウト認識型ルータは大幅に高速化し,より浅い3d回路(少なくとも2.5倍)を実現し,ルーティングコストの低減が期待できる。 さらに,提案手法は,複雑なコンパイル手法を用いることなく,量子計算に必要なリソースを推定するために用いることができる。 我々は、レイアウト対応のルーティングをサポートする標準セルは、量子回路コンパイルのための非常に大規模なメソッドへの道を開くと結論づけた。

We design quantum circuits by using the standard cell approach borrowed from classical circuit design, which can speed-up the layout of circuits with a regular structure. Our standard cells are general and can be used for all types of quantum circuits: error-corrected or not. The standard cell approach enable the formulation of layout-aware routing algorithms. Herein, we use cubic standard cells for Toffoli gates and, starting from a 3D architecture, we design a multiplication circuit. We present evidence that, when compared with automatic routing methods, our layout-aware routers are significantly faster and achieve shallower 3D circuits (by at least 2.5x) and with a lower routing cost. Additionally, our co-design approach can be used to estimate the resources necessary for a quantum computation without using complex compilation methods. We conclude that standard cells, with the support of layout-aware routing, pave the way to very large scale methods for quantum circuit compilation.
翻訳日:2024-01-18 03:57:07 公開日:2024-01-13
# 胸部X線画像からの肺炎迅速診断のためのCNN多レベル注意変換器

Interpretable CNN-Multilevel Attention Transformer for Rapid Recognition of Pneumonia from Chest X-Ray Images ( http://arxiv.org/abs/2210.16584v2 )

ライセンス: Link先を確認
Shengchao Chen, Sufen Ren, Guanjun Wang, Mengxing Huang, and Chenyang Xue(参考訳) 胸部画像検査は、呼吸器状態の悪化を証拠として、covid-19患者の診断と予測に欠かせない役割を担っている。 深層学習に基づく多くの肺炎認識アプローチが、コンピュータ支援診断を可能にするために開発された。 しかし、長い訓練と推論時間は柔軟性を欠き、解釈能力の欠如は臨床医療における信頼性を低下させる。 本稿では,胸部x線画像における肺の特徴と関連疾患の複雑な関係を把握し,医療における高速解析支援を提供する肺炎認識フレームワークの開発を目的としている。 認識過程を高速化する計算複雑性を低減するため,Transformer内の新しい多段階自己認識機構が提案され,収束の促進とタスク関連特徴領域の強調がなされている。 さらに、医療画像データの不足に対処し、モデルの性能を高めるために、実用的なCXR画像データ拡張が採用されている。 提案手法の有効性は,肺炎cxr画像データセットを用いた古典的新型コロナウイルス認識課題において実証されている。 また, 豊富なアブレーション実験により, 提案手法の全成分の有効性と必要性が検証された。

Chest imaging plays an essential role in diagnosing and predicting patients with COVID-19 with evidence of worsening respiratory status. Many deep learning-based approaches for pneumonia recognition have been developed to enable computer-aided diagnosis. However, the long training and inference time makes them inflexible, and the lack of interpretability reduces their credibility in clinical medical practice. This paper aims to develop a pneumonia recognition framework with interpretability, which can understand the complex relationship between lung features and related diseases in chest X-ray (CXR) images to provide high-speed analytics support for medical practice. To reduce the computational complexity to accelerate the recognition process, a novel multi-level self-attention mechanism within Transformer has been proposed to accelerate convergence and emphasize the task-related feature regions. Moreover, a practical CXR image data augmentation has been adopted to address the scarcity of medical image data problems to boost the model's performance. The effectiveness of the proposed method has been demonstrated on the classic COVID-19 recognition task using the widespread pneumonia CXR image dataset. In addition, abundant ablation experiments validate the effectiveness and necessity of all of the components of the proposed method.
翻訳日:2024-01-18 03:49:07 公開日:2024-01-13
# 多様な誤報:ネットワーク上のディープフェイクの検出に対するヒトのバイアスの影響

Diverse Misinformation: Impacts of Human Biases on Detection of Deepfakes on Networks ( http://arxiv.org/abs/2210.10026v3 )

ライセンス: Link先を確認
Juniper Lovato, Laurent H\'ebert-Dufresne, Jonathan St-Onge, Randall Harp, Gabriela Salazar Lopez, Sean P. Rogers, Ijaz Ul Haq and Jeremiah Onaolapo(参考訳) ソーシャルメディアプラットフォームは、ユーザーが誤情報に対して自己修正できると仮定することが多い。 しかし、ソーシャルメディア利用者は、そのバイアスがどの種類の誤情報が繁栄し、誰が危険にさらされるかに影響を与えるため、全ての誤情報の影響を受けやすいわけではない。 異種偽情報(diverse misinformation)とは、人間の偏見と誤情報で表される人口統計の複雑な関係をいう。 ユーザのバイアスが感受性と相互修正能力にどのように影響するかを調べるために,ディープフェイクの分類を多様な誤情報の一種として分析する。 私たちは3つの理由から、ケーススタディとしてdeepfakesを選択しました。 1) 誤情報としての分類は,より客観的である。 2) 提示されたペルソナの人口動態を制御できる。 3)ディープフェイクは、関連する害がより深く理解されなければならない現実的な懸念である。 本報告では,参加者がビデオに曝露し,その属性について質問する観察調査(N=2,016)について述べる。 本研究では,ディープフェイク・パーソナラ(deepfake personas)の人口動態を誤認する傾向について検討した。 精度は人口統計によって異なり、参加者はそれらと一致するビデオの分類が得意だ。 これらの結果から,多様な誤情報と群衆の補正の相互作用の数学的モデルを用いて,これらのバイアスの潜在的人口レベルへの影響を推定する。 モデルでは,友人同士が相互に保護できる「ヘルド補正」が多様であることが示唆された。 他にも、人間の偏見や誤情報の特徴は大きいが、多様な社会集団を持つことは、誤情報に対する感受性を低下させる可能性がある。

Social media platforms often assume that users can self-correct against misinformation. However, social media users are not equally susceptible to all misinformation as their biases influence what types of misinformation might thrive and who might be at risk. We call "diverse misinformation" the complex relationships between human biases and demographics represented in misinformation. To investigate how users' biases impact their susceptibility and their ability to correct each other, we analyze classification of deepfakes as a type of diverse misinformation. We chose deepfakes as a case study for three reasons: 1) their classification as misinformation is more objective; 2) we can control the demographics of the personas presented; 3) deepfakes are a real-world concern with associated harms that must be better understood. Our paper presents an observational survey (N=2,016) where participants are exposed to videos and asked questions about their attributes, not knowing some might be deepfakes. Our analysis investigates the extent to which different users are duped and which perceived demographics of deepfake personas tend to mislead. We find that accuracy varies by demographics, and participants are generally better at classifying videos that match them. We extrapolate from these results to understand the potential population-level impacts of these biases using a mathematical model of the interplay between diverse misinformation and crowd correction. Our model suggests that diverse contacts might provide "herd correction" where friends can protect each other. Altogether, human biases and the attributes of misinformation matter greatly, but having a diverse social group may help reduce susceptibility to misinformation.
翻訳日:2024-01-18 03:48:24 公開日:2024-01-13
# normsage: オンザフライ会話からの多言語多文化標準発見

NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations On-the-Fly ( http://arxiv.org/abs/2210.08604v2 )

ライセンス: Link先を確認
Yi R. Fung, Tuhin Chakraborty, Hao Guo, Owen Rambow, Smaranda Muresan, Heng Ji(参考訳) 規範発見は、人間のコミュニケーションや相互作用において許容される行動や潜在的な侵害を理解し、推論するために重要である。 言語モデルと自己検証に基づく対話型多言語・多文化規範発見の新たな課題に対処するフレームワークであるNormSageを紹介した。 NormSAGEは、事前訓練されたGPT-3言語モデルのバックボーンの表現力と暗黙の知識を活用し、ノルム発見タスクと会話コンテキストを表す有向質問を通してノルムに関する知識を引き出す。 さらに、言語モデルの幻覚のリスクにも対処し、発見された規範が正し、ソースの会話に実質的に基づいていることを保証する自己検証機構を備える。 評価の結果,本手法はベースライン (>10+%) と比較して, 会話の質が有意に高く, 洞察力に富んでいることがわかった。 中国語の会話から発見された基準は、洞察力と正しさの点で英語の会話から発見された基準に匹敵する(3%差)。 さらに、文化固有の規範は品質に有望であり、文化のペアの人間の識別において80%の精度が得られる。 最後に、我々の標準発見自己検証の基盤化プロセスは、説明可能性と透明性を持って、与えられた会話の標準の遵守と違反をインスタンス化するために拡張することができる。 normsageのaucは95.4%で、自然言語による説明は人間が書いた品質に合致する。

Norm discovery is important for understanding and reasoning about the acceptable behaviors and potential violations in human communication and interactions. We introduce NormSage, a framework for addressing the novel task of conversation-grounded multi-lingual, multi-cultural norm discovery, based on language model prompting and self-verification. NormSAGE leverages the expressiveness and implicit knowledge of the pretrained GPT-3 language model backbone, to elicit knowledge about norms through directed questions representing the norm discovery task and conversation context. It further addresses the risk of language model hallucination with a self-verification mechanism ensuring that the norms discovered are correct and are substantially grounded to their source conversations. Evaluation results show that our approach discovers significantly more relevant and insightful norms for conversations on-the-fly compared to baselines (>10+% in Likert scale rating). The norms discovered from Chinese conversation are also comparable to the norms discovered from English conversation in terms of insightfulness and correctness (<3% difference). In addition, the culture-specific norms are promising quality, allowing for 80% accuracy in culture pair human identification. Finally, our grounding process in norm discovery self-verification can be extended for instantiating the adherence and violation of any norm for a given conversation on-the-fly, with explainability and transparency. NormSAGE achieves an AUC of 95.4% in grounding, with natural language explanation matching human-written quality.
翻訳日:2024-01-18 03:47:58 公開日:2024-01-13
# 変位ノイズフリー干渉計の量子精度限界

Quantum precision limits of displacement noise free interferometers ( http://arxiv.org/abs/2209.02998v2 )

ライセンス: Link先を確認
Tuvia Gefen, Rajashik Tarafder, Rana X. Adhikari, Yanbei Chen(参考訳) 現在のレーザー干渉型重力波検出器は、様々な光源による光学素子の変位ノイズのため、精度に根本的な限界がある。 変位ノイズフリー干渉計(DFI)のいくつかのスキームが提案されている。 これらのスキームの背景にある考え方は、量子センシングにおける非コヒーレンスな部分空間(英語版)に似ている。 本稿では, 最適測定基準と最適スクイージングスキームを含む一般dfiスキームの量子精度限界を導出する。 我々は、三角空洞dfiスキームを導入し、我々の一般境界を適用する。 異なるノイズモデルを用いたこのスキームの精度解析により, dfi特性は, ノイズ緩和とスクイーズによる利得の増加により, 興味深い感度プロファイルと精度向上をもたらすことがわかった。

Current laser-interferometric gravitational wave detectors suffer from a fundamental limit to their precision due to the displacement noise of optical elements contributed by various sources. Several schemes for Displacement-Noise Free Interferometers (DFI) have been proposed to mitigate their effects. The idea behind these schemes is similar to decoherence-free subspaces in quantum sensing i.e. certain modes contain information about the gravitational waves but are insensitive to the mirror motion (displacement noise). In this paper, we derive quantum precision limits for general DFI schemes, including optimal measurement basis and optimal squeezing schemes. We introduce a triangular cavity DFI scheme and apply our general bounds to it. Precision analysis of this scheme with different noise models shows that the DFI property leads to interesting sensitivity profiles and improved precision due to noise mitigation and larger gain from squeezing.
翻訳日:2024-01-18 03:44:55 公開日:2024-01-13
# 正規化クラスタリング精度:非対称外部クラスタ妥当性尺度

Normalised clustering accuracy: An asymmetric external cluster validity measure ( http://arxiv.org/abs/2209.02935v3 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能するメソッドと、体系的に劣るメソッドを区別したいと思っています。 クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。 内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。 しかし、それらの妥当性は疑わしい。なぜなら、彼らが宣伝するクラスタリングは、時々意味がない。 一方、外部測度は、アルゴリズムの出力を専門家によって提供される固定された真実グループと比較する。 本稿では,正規化相互情報やfowlkes-mallows,調整されたrand indexといった,一般的に使用される古典的分割類似度スコアが望ましい性質を欠いていることを論じる。 特に、最悪のシナリオを正しく特定したり、容易に解釈したりしない。 その結果、多様なベンチマークデータセット上でクラスタリングアルゴリズムを評価することは困難である。 これらの問題を解決するために, 最適セットマッチング精度のバージョンを, ある類似性関係に対して一調性, スケール不変性, クラスターサイズの不均衡性(しかし, 対称的でも、偶然に調整されたわけでもない)で正規化し, 修正する, という新しい尺度を提案し, 解析する。

There is no, nor will there ever be, single best clustering algorithm, but we would still like to be able to distinguish between methods which work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. Yet, their validity is questionable, because the clusterings they promote can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to the fixed ground truth groupings that are provided by experts. In this paper, we argue that the commonly-used classical partition similarity scores, such as the normalised mutual information, Fowlkes--Mallows, or adjusted Rand index, miss some desirable properties. In particular, they do not identify worst-case scenarios correctly nor are they easily interpretable. As a consequence, it can be difficult to evaluate clustering algorithms on diverse benchmark datasets. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic with respect to some similarity relation, scale invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).
翻訳日:2024-01-18 03:44:42 公開日:2024-01-13
# 正規化スパースオートエンコーダによる良い反応座標の予測とMD軌道の今後の発展:新しい深層学習手法

Prediction of good reaction coordinates and future evolution of MD trajectories using Regularized Sparse Autoencoders: A novel deep learning approach ( http://arxiv.org/abs/2208.10962v3 )

ライセンス: Link先を確認
Abhijit Gupta(参考訳) 化学反応の進行を決定する上でRCが果たす重要な役割を考えると、反応座標(RC)は研究の活発な領域である。 反応座標の選択は、しばしばヒューリスティックな知識に基づいている。 しかし、この選択に必須の基準は、座標が反応状態と生成状態の両方を不当に捉えなければならないことである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 我々は、エネルギーベースモデルである正規化スパースオートエンコーダを用いて、重要な反応座標を発見した。 反応座標の発見とともに、我々のモデルは分子動力学(MD)軌道の進化を予測する。 規則化を強制する疎性を含むことは、小さなが重要な反応座標の選択に役立ちます。 アラニンジペプチド系とプロフラビンおよびdna系という2つのモデルシステムを用いて,水環境下でプロフラビンのdna小溝へのインターカレーションを示した。 我々はmd軌道を多変量時系列としてモデル化し、潜在変数モデルは多段時系列予測のタスクを実行する。 このアイデアは、一般的なスパースコーディングアプローチにインスパイアされ、各入力サンプルを代表パターンの集合から取られた少数の要素の線形結合として表現する。

Identifying reaction coordinates(RCs) is an active area of research, given the crucial role RCs play in determining the progress of a chemical reaction. The choice of the reaction coordinate is often based on heuristic knowledge. However, an essential criterion for the choice is that the coordinate should capture both the reactant and product states unequivocally. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. We used a regularised sparse autoencoder, an energy-based model, to discover a crucial set of reaction coordinates. Along with discovering reaction coordinates, our model also predicts the evolution of a molecular dynamics(MD) trajectory. We showcased that including sparsity enforcing regularisation helps in choosing a small but important set of reaction coordinates. We used two model systems to demonstrate our approach: alanine dipeptide system and proflavine and DNA system, which exhibited intercalation of proflavine into DNA minor groove in an aqueous environment. We model MD trajectory as a multivariate time series, and our latent variable model performs the task of multi-step time series prediction. This idea is inspired by the popular sparse coding approach - to represent each input sample as a linear combination of few elements taken from a set of representative patterns.
翻訳日:2024-01-18 03:44:10 公開日:2024-01-13
# 拡散モデルを用いたオフラインモデルに基づく最適化のための検証指標の探索

Exploring validation metrics for offline model-based optimisation with diffusion models ( http://arxiv.org/abs/2211.10747v3 )

ライセンス: Link先を確認
Christopher Beckham, Alexandre Piche, David Vazquez, Christopher Pal(参考訳) モデルベース最適化(MBO)では、現実のプロセスを実行するため計算に費用がかかる、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を、機械学習を用いて設計することに興味があります。 オフラインのMBOでは、トレーニングやバリデーションの間、そのようなオラクルへのアクセスを仮定することなく、非直線的に評価したいと思っています。 oracleは、生成した候補に対する平均報酬を測定するために、モデル検証の間、その代わりにトレーニングおよび利用することができるが、評価は、敵の例に近似し、脆弱である。 この近似による生成候補の平均報酬の測定は、そのような「評価指標」の1つであるが、我々は、どの検証指標が基礎的真理と最も相関しているかというより基本的な問題に興味を持っている。 これには検証メトリクスの提案と、基盤となる真理が分かっている多くのデータセット、例えばシミュレーションされた環境上での定量化が含まれる。 提案手法は,MBOの生成モデルを活用する上での最終的な目標である外挿の測定も目的としている。 評価フレームワークはモデルに依存しないが,現状の性能から拡散モデルを評価するとともに,最も有効な評価指標のランク付けや,重要なハイパーパラメータの議論といった興味深い知見を導き出す。

In model-based optimisation (MBO) we are interested in using machine learning to design candidates that maximise some measure of reward with respect to a black box function called the (ground truth) oracle, which is expensive to compute since it involves executing a real world process. In offline MBO we wish to do so without assuming access to such an oracle during training or validation, with makes evaluation non-straightforward. While an approximation to the ground oracle can be trained and used in place of it during model validation to measure the mean reward over generated candidates, the evaluation is approximate and vulnerable to adversarial examples. Measuring the mean reward of generated candidates over this approximation is one such `validation metric', whereas we are interested in a more fundamental question which is finding which validation metrics correlate the most with the ground truth. This involves proposing validation metrics and quantifying them over many datasets for which the ground truth is known, for instance simulated environments. This is encapsulated under our proposed evaluation framework which is also designed to measure extrapolation, which is the ultimate goal behind leveraging generative models for MBO. While our evaluation framework is model agnostic we specifically evaluate denoising diffusion models due to their state-of-the-art performance, as well as derive interesting insights such as ranking the most effective validation metrics as well as discussing important hyperparameters.
翻訳日:2024-01-18 03:32:35 公開日:2024-01-13
# Castling-ViT:視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference ( http://arxiv.org/abs/2211.10526v4 )

ライセンス: Link先を確認
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Lin(参考訳) 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して高い計算コストを必要とする。 既存の効率的なViTは局所的な注意(Swinなど)や線形的な注意(Performerなど)を採用しており、これはViTがグローバルまたはローカルなコンテキストをキャプチャする能力を犠牲にする。 この研究において、vitsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか? そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。 当社のcastling-vitは角カーネルを利用して,クエリとキーの類似度をスペクトル角で測定します。 And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. 3つのタスクに関する広範な実験とアブレーションの研究は、提案するキャスティング・ヴィットの有効性を一貫して検証している。例えば、画像ネットの分類において最大1.8%の精度と40%のmacs削減を達成し、同等のフロップでcoco検出時の1.2倍のマップを、バニラソフトマックスに基づくvitsと比較した。

Vision Transformers (ViTs) have shown impressive performance but still require a high computation cost as compared to convolutional neural networks (CNNs), one reason is that ViTs' attention measures global similarities and thus has a quadratic complexity with the number of input tokens. Existing efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g., Performer), which sacrifice ViTs' capabilities of capturing either global or local context. In this work, we ask an important research question: Can ViTs learn both global and local context while being more efficient during inference? To this end, we propose a framework called Castling-ViT, which trains ViTs using both linear-angular attention and masked softmax-based quadratic attention, but then switches to having only linear angular attention during ViT inference. Our Castling-ViT leverages angular kernels to measure the similarities between queries and keys via spectral angles. And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. Extensive experiments and ablation studies on three tasks consistently validate the effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on COCO detection under comparable FLOPs, as compared to ViTs with vanilla softmax-based attentions.
翻訳日:2024-01-18 03:32:09 公開日:2024-01-13
# 純粋状態の絡み合いのリーマン真測度

A Riemannian Genuine Measure of Entanglement for Pure States ( http://arxiv.org/abs/2211.06309v4 )

ライセンス: Link先を確認
Dharmaraj Ramachandran and Radhika Vathsan(参考訳) 多重部分状態の絡み合いにはいくつかの測度が存在するが、混合状態の真の絡み合い測度は、まだ我々を誘惑している。 量子状態の幾何学に関するより深い研究は、この問題に対処する方法であり、どの文脈において、量子状態の空間上の測地線距離に基づいて純粋状態の測度を導き出すかである。 我々の測度は、'Genuine Measure of Entanglement'(GME)の望ましい性質をすべて満たしており、他の既存の測度と比較すると、より滑らかさと差別性を示している。

While several measures exist for entanglement of multipartite pure states, a true entanglement measure for mixed states still eludes us. A deeper study of the geometry of quantum states may be the way to address this issue, on which context we come up with a measure for pure states based on a geodesic distance on the space of quantum states. Our measure satisfies all the desirable properties of a ``Genuine Measure of Entanglement" (GME), and in comparison with some of the other existing measures, shows better smoothness and discriminance.
翻訳日:2024-01-18 03:31:35 公開日:2024-01-13
# 近所の人を信頼する: ペナルティに基づくモデル校正の制約

Trust your neighbours: Penalty-based constraints for model calibration ( http://arxiv.org/abs/2303.06268v2 )

ライセンス: Link先を確認
Balamurali Murugesan, Sukesh Adiga V, Bingyuan Liu, Herv\'e Lombaert, Ismail Ben Ayed, and Jose Dolz(参考訳) ディープネットワークによる信頼性の高い信頼性スコアの確保は、重要な意思決定システム、特に医療領域において重要な意味を持つ。 ディープセグメンテーションネットワークの校正に関する最近の文献は大きな進歩をもたらしたが、その不確実性は通常、興味の対象の局所構造を無視する個々のピクセルの情報を活用することによってモデル化される。 特に、最近のSVLS(Spatially Varying Label Smoothing)アプローチは、画素ラベル割り当てを離散空間ガウスカーネルで軟化することでこの問題に対処している。 本研究では,SVLSの制約付き最適化の視点をまず提示し,周辺画素のソフトクラス比に暗黙の制約を課すことを示した。 さらに,本解析の結果から,svlsには制約の寄与と目的のバランスをとるメカニズムが欠如しており,最適化プロセスに支障をきたす可能性がある。 そこで本研究では,ロジット値の等式制約に基づく原理的かつ簡単な解法を提案し,強制された制約とペナルティの重みを明示的に制御し,より柔軟性を提供する。 様々な有名なセグメンテーションベンチマークに関する包括的な実験は、提案手法の優れた性能を示している。

Ensuring reliable confidence scores from deep networks is of pivotal importance in critical decision-making systems, notably in the medical domain. While recent literature on calibrating deep segmentation networks has led to significant progress, their uncertainty is usually modeled by leveraging the information of individual pixels, which disregards the local structure of the object of interest. In particular, only the recent Spatially Varying Label Smoothing (SVLS) approach addresses this issue by softening the pixel label assignments with a discrete spatial Gaussian kernel. In this work, we first present a constrained optimization perspective of SVLS and demonstrate that it enforces an implicit constraint on soft class proportions of surrounding pixels. Furthermore, our analysis shows that SVLS lacks a mechanism to balance the contribution of the constraint with the primary objective, potentially hindering the optimization process. Based on these observations, we propose a principled and simple solution based on equality constraints on the logit values, which enables to control explicitly both the enforced constraint and the weight of the penalty, offering more flexibility. Comprehensive experiments on a variety of well-known segmentation benchmarks demonstrate the superior performance of the proposed approach.
翻訳日:2024-01-18 03:24:55 公開日:2024-01-13
# Covid-19ワクチン接種に関するペルシアのツイートの大規模分析

A Large-Scale Analysis of Persian Tweets Regarding Covid-19 Vaccination ( http://arxiv.org/abs/2302.04511v3 )

ライセンス: Link先を確認
Taha ShabaniMirzaei, Houmaan Chamani, Amirhossein Abaskohi, Zhivar Sourati Hassan Zadeh, Behnam Bahrak(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、私たちの生活、特に人々の相互作用に大きな影響を与えました。 Covid-19ワクチンの導入により、ワクチンの接種の有無に関して、肯定的、否定的な意見の両方が持ち上がった。 本稿では、ツイートやユーザープロフィールを含むTwitterから集めたデータを用いて、イランにおけるコロナウイルスワクチンに関する世論を包括的に分析する。 そこで本研究では,ワクチン関連ツイート抽出のためのトピックモデリング手法と組み合わせた検索クエリ手法を適用した。 トランスフォーマーモデルを用いて, ツイートの内容の分類と予防接種に関するテーマの抽出を行った。 また,この話題に関する世論の幸福感と怒りを評価するために感情分析を行った。 以上の結果から,コビッドウイルスワクチン接種は,政府の問題,安全性,過敏性,副作用など,さまざまな角度から注目されている。 さらに、ワクチン接種や感染率などのコロナウイルス関連現象は、公衆の感情状態やユーザーの相互作用に深く影響した。

The Covid-19 pandemic had an enormous effect on our lives, especially on people's interactions. By introducing Covid-19 vaccines, both positive and negative opinions were raised over the subject of taking vaccines or not. In this paper, using data gathered from Twitter, including tweets and user profiles, we offer a comprehensive analysis of public opinion in Iran about the Coronavirus vaccines. For this purpose, we applied a search query technique combined with a topic modeling approach to extract vaccine-related tweets. We utilized transformer-based models to classify the content of the tweets and extract themes revolving around vaccination. We also conducted an emotion analysis to evaluate the public happiness and anger around this topic. Our results demonstrate that Covid-19 vaccination has attracted considerable attention from different angles, such as governmental issues, safety or hesitancy, and side effects. Moreover, Coronavirus-relevant phenomena like public vaccination and the rate of infection deeply impacted public emotional status and users' interactions.
翻訳日:2024-01-18 03:23:16 公開日:2024-01-13
# ニューラルスケーリングの量子化モデル

The Quantization Model of Neural Scaling ( http://arxiv.org/abs/2303.13506v3 )

ライセンス: Link先を確認
Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark(参考訳) ニューラルスケーリング法則の量子化モデルを提案し、モデルとデータサイズによる損失の観測されたパワー則と、スケールによる新しい機能の突然の出現について説明する。 このモデルは、ネットワーク知識とスキルを離散的なチャンク(\textbf{quanta}$)に"量子化"する量子化仮説(Quantization hypothesis)と呼ばれています。 使用頻度を減少させるために量子が学習されると、使用頻度における電力法則が観測された損失のスケーリングを説明する。 この予測をおもちゃのデータセット上で検証し,大規模言語モデルにおけるスケーリング曲線の分解について検討する。 言語モデル勾配を用いて、モデルの振る舞いを様々なスキル(量子)に自動的に分解する。 トレーニング分布でこれらの量子が使用される周波数は、言語モデルに対する経験的スケーリング指数に対応する電力法則に従っており、我々の理論の予測である。

We propose the Quantization Model of neural scaling laws, explaining both the observed power law dropoff of loss with model and data size, and also the sudden emergence of new capabilities with scale. We derive this model from what we call the Quantization Hypothesis, where network knowledge and skills are "quantized" into discrete chunks ($\textbf{quanta}$). We show that when quanta are learned in order of decreasing use frequency, then a power law in use frequencies explains observed power law scaling of loss. We validate this prediction on toy datasets, then study how scaling curves decompose for large language models. Using language model gradients, we automatically decompose model behavior into a diverse set of skills (quanta). We tentatively find that the frequency at which these quanta are used in the training distribution roughly follows a power law corresponding with the empirical scaling exponent for language models, a prediction of our theory.
翻訳日:2024-01-18 03:08:45 公開日:2024-01-13
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v7 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所的なアフィン近似と、空間的および類似性の制約に基づくグローバルマッチングの間に位置し、プレーンが一般的なシーンに関して扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは画像を異なるスケールで重なり合う領域に分解し、ゆるい平面ホモグラフを計算する。 平面は一致するマッチによって相互に拡張され、画像は固定タイルに分割され、タイルのペアごとに最適なホモグラフのみが保持される。 安定マッチは、ペアワイズホモグラフによって提供される許容ステレオ構成のコンセンサスに従って識別される。 タイル内では、粗面はマッチの重なりに応じてマージされ、さらに一貫した対応が抽出される。 プロセス全体はホモグラフィの制約のみを含む。 その結果、シーン上の正しいマッチのカバレッジと安定性の両方が増幅され、困難なシーンでマッチを見つけられるようになり、従来のハイブリッドマッチングパイプラインが、最近のエンドツーエンドのディープマッチングメソッドに対して失われた基盤を構築できるようになった。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both spatial and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime decomposes the images into overlapping regions at different scales and computes loose planar homographies. Planes are mutually extended by compatible matches and the images are split into fixed tiles, with only the best homographies retained for each pair of tiles. Stable matches are identified according to the consensus of the admissible stereo configurations provided by pairwise homographies. Within tiles, the rough planes are then merged according to their overlap in terms of matches and further consistent correspondences are extracted. The whole process only involves homography constraints. As a result, both the coverage and the stability of correct matches over the scene are amplified, together with the ability to spot matches in challenging scenes, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2024-01-18 02:59:51 公開日:2024-01-13
# spade: スパースピラーベースの3dオブジェクト検出アクセラレーター

SPADE: Sparse Pillar-based 3D Object Detection Accelerator for Autonomous Driving ( http://arxiv.org/abs/2305.07522v3 )

ライセンス: Link先を確認
Minjae Lee, Seongmin Park, Hyungmin Kim, Minyong Yoon, Janghwan Lee, Jun Won Choi, Nam Sung Kim, Mingu Kang, Jungwook Choi(参考訳) ポイントクラウド(PC)データを用いた3Dオブジェクト検出は、効率的な符号化が厳しいリソースと遅延要求を満たすための鍵となる自動運転の知覚パイプラインに不可欠である。 広く採用されている鳥眼ビュー(BEV)エンコーディングであるPointPillarsは、高速で正確な3Dオブジェクト検出のために、3Dポイントクラウドデータを2Dピラーに集約する。 しかし、PointPillarsを用いた最先端の手法は、有効な柱だけがチャネル要素のベクトルで符号化されるような柱符号化の本質的にの空間性を見落としている。 一方、現在のスパース畳み込み加速器は、要素単位の活性化間隔のみを扱うように設計されており、柱符号化によって課されるベクトル間隔に効果的に対処しない。 本稿では,ピラー型3次元物体検出におけるベクトルスパースを最大化し,ベクトルスパース畳み込みを高速化するアルゴリズム・ハードウエア共同設計手法であるspadeを提案する。 SPADEは,(1)ベクトル空間の精度と計算コストのバランスをとる動的ベクトルプルーニングアルゴリズム,(2)2次元シストリックアレイをベクトルスパース畳み込み加速器に変換するスパース座標管理ハードウェア,(3)ハードウェア効率のためにスパース畳み込みスケジュールを調整する空間性対応データフロー最適化の3つのコンポーネントから構成される。 SPADEは商用技術により、一般的な3Dオブジェクト検出ネットワークとベンチマークの36.3--89.2\%の計算量を削減し、1.3--10.9$\times$スピードアップと1.5--12.6$\times$エネルギー節約に繋がった。 性能は4.1--28.8$\times$ Speedupと90.2--372.3$\times$ Energy savingsと同等である。

3D object detection using point cloud (PC) data is essential for perception pipelines of autonomous driving, where efficient encoding is key to meeting stringent resource and latency requirements. PointPillars, a widely adopted bird's-eye view (BEV) encoding, aggregates 3D point cloud data into 2D pillars for fast and accurate 3D object detection. However, the state-of-the-art methods employing PointPillars overlook the inherent sparsity of pillar encoding where only a valid pillar is encoded with a vector of channel elements, missing opportunities for significant computational reduction. Meanwhile, current sparse convolution accelerators are designed to handle only element-wise activation sparsity and do not effectively address the vector sparsity imposed by pillar encoding. In this paper, we propose SPADE, an algorithm-hardware co-design strategy to maximize vector sparsity in pillar-based 3D object detection and accelerate vector-sparse convolution commensurate with the improved sparsity. SPADE consists of three components: (1) a dynamic vector pruning algorithm balancing accuracy and computation savings from vector sparsity, (2) a sparse coordinate management hardware transforming 2D systolic array into a vector-sparse convolution accelerator, and (3) sparsity-aware dataflow optimization tailoring sparse convolution schedules for hardware efficiency. Taped-out with a commercial technology, SPADE saves the amount of computation by 36.3--89.2\% for representative 3D object detection networks and benchmarks, leading to 1.3--10.9$\times$ speedup and 1.5--12.6$\times$ energy savings compared to the ideal dense accelerator design. These sparsity-proportional performance gains equate to 4.1--28.8$\times$ speedup and 90.2--372.3$\times$ energy savings compared to the counterpart server and edge platforms.
翻訳日:2024-01-18 02:59:25 公開日:2024-01-13
# 疎密二層ニューラルネットワークにおけるミニバッチサイズの相転移

Phase transitions in the mini-batch size for sparse and dense two-layer neural networks ( http://arxiv.org/abs/2305.06435v3 )

ライセンス: Link先を確認
Raffaele Marino and Federico Ricci-Tersenghi(参考訳) ニューラルネットワークのトレーニングにおけるデータのミニバッチの使用は、現在非常に一般的である。 広く使われているにもかかわらず、最適なミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論は欠落している。 本研究は,二層ニューラルネットワークの学習におけるミニバッチサイズの役割を体系的に理解する試みである。 教師-学生のシナリオで、スパース教師と働き、異なる複雑さのタスクに焦点を当て、ミニバッチサイズを$m$で変更する効果を定量化する。 学生の一般化性能は、しばしば$m$に強く依存しており、臨界値$m_c$に対して$m<m_c$が失敗し、$m>m_c$が完全に学習するか、非常によく一般化されるような急激な位相遷移を行う可能性がある。 相転移は、最初に統計力学で発見され、後に科学の多くの分野で観測された集団現象によって引き起こされる。 異なるアーキテクチャにわたるミニバッチサイズの変更による相転移の観察は、ニューラルネットワーク学習プロセスにおけるこのハイパーパラメータの役割に関するいくつかの疑問を提起する。

The use of mini-batches of data in training artificial neural networks is nowadays very common. Despite its broad usage, theories explaining quantitatively how large or small the optimal mini-batch size should be are missing. This work presents a systematic attempt at understanding the role of the mini-batch size in training two-layer neural networks. Working in the teacher-student scenario, with a sparse teacher, and focusing on tasks of different complexity, we quantify the effects of changing the mini-batch size $m$. We find that often the generalization performances of the student strongly depend on $m$ and may undergo sharp phase transitions at a critical value $m_c$, such that for $m<m_c$ the training process fails, while for $m>m_c$ the student learns perfectly or generalizes very well the teacher. Phase transitions are induced by collective phenomena firstly discovered in statistical mechanics and later observed in many fields of science. Observing a phase transition by varying the mini-batch size across different architectures raises several questions about the role of this hyperparameter in the neural network learning process.
翻訳日:2024-01-18 02:58:21 公開日:2024-01-13
# 対称性、制約、長距離相互作用をまたいだ創発的流体力学とリンドブラッド低エネルギースペクトルの統一化

Unifying Emergent Hydrodynamics and Lindbladian Low Energy Spectra across Symmetries, Constraints, and Long-Range Interactions ( http://arxiv.org/abs/2304.13028v3 )

ライセンス: Link先を確認
Olumakinde Ogunnaike, Johannes Feldmeier, Jong Yeon Lee(参考訳) 種々の対称性,制約,相互作用範囲を有するブラウンランダム回路において電荷輸送を制御する創発的流体力学を同定する。 これは、二重ヒルベルト空間において有効ハミルトニアンとして作用するリンドブラッド作用素の平均動力学と低エネルギースペクトルの間の写像によって達成される。 単一モード近似を用いて、この有効ハミルトニアンの分散励起状態を明示的に構成することにより、保存された多極モーメントと可変相互作用範囲を持つ多体系における拡散的、劣微分的、超拡散的緩和の包括的理解を提供する。 我々はさらに,双極子保存が存在するにもかかわらず拡散緩和を示すエキゾチックなクリロフ空間分解流体力学を同定し,数値的に検証する。 このアプローチは、ランダムなユニタリ時間発展の下で保存された演算子のダイナミクスを定性的に理解するための汎用的で汎用的なフレームワークを提供する。

We identify emergent hydrodynamics governing charge transport in Brownian random circuits with various symmetries, constraints, and ranges of interactions. This is accomplished via a mapping between the averaged dynamics and the low energy spectrum of a Lindblad operator, which acts as an effective Hamiltonian in a doubled Hilbert space. By explicitly constructing dispersive excited states of this effective Hamiltonian using a single mode approximation, we provide a comprehensive understanding of diffusive, subdiffusive, and superdiffusive relaxation in many-body systems with conserved multipole moments and variable interaction ranges. Our approach further allows us to identify exotic Krylov-space-resolved hydrodynamics exhibiting diffusive relaxation despite the presence of dipole conservation, which we verify numerically. Our approach provides a general and versatile framework to qualitatively understand the dynamics of conserved operators under random unitary time evolution.
翻訳日:2024-01-18 02:57:36 公開日:2024-01-13
# デジタル中間社会における単純気泡問題とゼブラニティ

A simplicity bubble problem and zemblanity in digitally intermediated societies ( http://arxiv.org/abs/2304.10681v2 )

ライセンス: Link先を確認
Felipe S. Abrah\~ao, Ricardo P. Cavassane, Michael Winter, Mariana Vitti Rodrigues, Itala M. L. D'Ottaviano(参考訳) 本稿では,社会におけるビッグデータと機械学習の普遍性について論じ,その基本的な限界についてさらなる調査の必要性を示唆する。 我々は、「あまりにも多くの情報は、非常に小さな情報のように振る舞う傾向がある」現象を、法則的な宇宙や計算可能なデータセットの任意のコレクションに関する形式的知識に拡張する。 これは、データセットによって騙されることができる形式理論を備えた学習アルゴリズムを指して、それがグローバルなものであるとみなす局所最適モデルを見つけるという、単純さのバブル問題を引き起こす。 法則的(計算可能な)宇宙と形式的学習システムの文脈において、形式的知識が、形式的学習システムで利用可能なランダムに生成されたデータが、それらの結合複雑性と比較して十分に大きい場合、その確率をさらに減少させることができない天井が存在することを示す。 我々はまた、デジタル中間社会において予測不能な問題を引き起こす認識論的制限であると主張する。

In this article, we discuss the ubiquity of Big Data and machine learning in society and propose that it evinces the need of further investigation of their fundamental limitations. We extend the "too much information tends to behave like very little information" phenomenon to formal knowledge about lawlike universes and arbitrary collections of computably generated datasets. This gives rise to the simplicity bubble problem, which refers to a learning algorithm equipped with a formal theory that can be deceived by a dataset to find a locally optimal model which it deems to be the global one. In the context of lawlike (computable) universes and formal learning systems, we show that there is a ceiling above which formal knowledge cannot further decrease the probability of zemblanitous findings, should the randomly generated data made available to the formal learning system be sufficiently large in comparison to their joint complexity. We also argue that this is an epistemological limitation that may generate unpredictable problems in digitally intermediated societies.
翻訳日:2024-01-18 02:56:07 公開日:2024-01-13
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v4 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan Lin(参考訳) 視覚トランスフォーマー(vits)は印象的なパフォーマンスを示し、複数の視覚タスクのための統一バックボーンとなった。 しかし、ViTsの注意機構と多層パーセプトロン(MLPs)は、濃密な乗算のため、十分に効率が良くないため、コストのかかるトレーニングと推論に繋がる。 そこで本研究では,プリトレーニング済みのViTを,ビットワイズシフトや加算などの多重プリミティブの混合で再パラメータ化して,スクラッチからトレーニングを必要とせずにGPU上でのエンドツーエンドの推論高速化を実現することを目的とした,新たなタイプの乗算還元モデル($\textbf{ShiftAddViT}$)を提案する。 特に、クエリ、キー、値の$\texttt{matmuls}$は、クエリとキーをハミングスペースのバイナリコードにマッピングした後、加算カーネルを使って再パラメータ化されます。 残りのMLPまたは線形層はシフトカーネルで再パラメータ化される。 我々はTVMを利用して、GPU上でハードウェアを実際に展開するためのカスタマイズされたカーネルを実装し、最適化する。 このような注意再パラメータ化はモデル精度を維持しつつ,MDPに適用した場合の精度低下を必然的に招いた。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば乗算とシフト、新しい遅延対応ロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 様々な2D/3Dトランスフォーマーベースの視覚タスクの広範囲な実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ低減に$\textbf{5.18$\times$}および$\textbf{42.9}$%の省エネを実現し、オリジナルまたは効率的なViTと同等の精度を維持する。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. However, both the attention mechanism and multi-layer perceptrons (MLPs) in ViTs are not sufficiently efficient due to dense multiplications, leading to costly training and inference. To this end, we propose to reparameterize pre-trained ViTs with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims to achieve end-to-end inference speedups on GPUs without requiring training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized using additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized with shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. Extensive experiments on various 2D/3D Transformer-based vision tasks consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9}$% energy savings, while maintaining a comparable accuracy as original or efficient ViTs.
翻訳日:2024-01-18 02:33:26 公開日:2024-01-13
# ミスアライメントマイクロキャビティにおけるモード混合と損失

Mode mixing and losses in misaligned microcavities ( http://arxiv.org/abs/2306.05894v3 )

ライセンス: Link先を確認
William J. Hughes, Thomas H. Doherty, Jacob A. Blackmore, Peter Horak, Joseph F. Goodwin(参考訳) 本稿では,現実的な横ミラーの誤配を受けるFabry-P\'erot空洞の光学的損失について検討する。 我々は、理想化された球面の凹凸と、レーザーアブレーションによって生成されたガウスプロファイルの2つの最も一般的な表面形状の鏡を考える。 まず,球面ミラーの場合に見られるモード混合現象を説明し,よく使われるクリッピングモデルと比較し,予測回折損失の密な一致を観測した。 次に,ガウスミラーの場合について考察し,鏡面の曲率の変化がラウンドトリップ損失とモードプロファイルの複雑な変化にどのようにつながるかを説明した。 ガウス鏡を用いた場合, 重度のモード歪みや空洞長, 横方向のアライメントで予測される損失が強いことから, 空洞実験では鏡面形状の影響が慎重に検討されていることが示唆された。

We present a study on the optical losses of Fabry-P\'erot cavities subject to realistic transverse mirror misalignment. We consider mirrors of the two most prevalent surface forms: idealised spherical depressions, and Gaussian profiles generated by laser ablation. We first describe the mode mixing phenomena seen in the spherical mirror case and compare to the frequently-used clipping model, observing close agreement in the predicted diffraction loss, but with the addition of protective mode mixing at transverse degeneracies. We then discuss the Gaussian mirror case, detailing how the varying surface curvature across the mirror leads to complex variations in round trip loss and mode profile. In light of the severe mode distortion and strongly elevated loss predicted for many cavity lengths and transverse alignments when using Gaussian mirrors, we suggest that the consequences of mirror surface profile are carefully considered when designing cavity experiments.
翻訳日:2024-01-18 02:32:38 公開日:2024-01-13
# 制約なしデータによる半教師付き学習のスケールアップ

Scaling Up Semi-supervised Learning with Unconstrained Unlabelled Data ( http://arxiv.org/abs/2306.01222v2 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 本研究では,UnMixMatchを提案する。UnMixMatchは,制約のないデータから効率的な表現を学習し,性能を向上する。 既存の半教師付き手法の多くは、ラベル付きサンプルとラベルなしサンプルが同じ分布から引き出されるという仮定に依存しており、自由なラベル付きデータを使用することによる改善の可能性を制限する。 したがって、半教師付き学習の一般化性とスケーラビリティは、この仮定によってしばしば妨げられる。 本手法は,これらの制約を克服し,半教師付き学習において非制約データを有効に活用することを目的としている。 UnMixMatchは、強力な正規化を提供する教師付き学習者、非ラベルデータから基礎となる表現を学習するコントラスト整合正規化者、非ラベルデータから学習される表現を強化する自己教師付き損失の3つの主要コンポーネントから構成される。 4つの一般的なデータセットに対して広範な実験を行い、4.79%の性能向上を伴う既存の半教師付き手法よりも優れた性能を示した。 広汎なアブレーションおよび感度研究は,提案手法のそれぞれの成分の有効性と影響を示す。

We propose UnMixMatch, a semi-supervised learning framework which can learn effective representations from unconstrained unlabelled data in order to scale up performance. Most existing semi-supervised methods rely on the assumption that labelled and unlabelled samples are drawn from the same distribution, which limits the potential for improvement through the use of free-living unlabeled data. Consequently, the generalizability and scalability of semi-supervised learning are often hindered by this assumption. Our method aims to overcome these constraints and effectively utilize unconstrained unlabelled data in semi-supervised learning. UnMixMatch consists of three main components: a supervised learner with hard augmentations that provides strong regularization, a contrastive consistency regularizer to learn underlying representations from the unlabelled data, and a self-supervised loss to enhance the representations that are learnt from the unlabelled data. We perform extensive experiments on 4 commonly used datasets and demonstrate superior performance over existing semi-supervised methods with a performance boost of 4.79%. Extensive ablation and sensitivity studies show the effectiveness and impact of each of the proposed components of our method.
翻訳日:2024-01-18 02:30:55 公開日:2024-01-13
# CardiGraphormer:創薬革命における自己指導型学習の力

CardiGraphormer: Unveiling the Power of Self-Supervised Learning in Revolutionizing Drug Discovery ( http://arxiv.org/abs/2307.00859v4 )

ライセンス: Link先を確認
Abhijit Gupta(参考訳) 約15,000の既知の薬物と約4,200の承認がある薬発見の世界では、化学空間の組合せの性質は極めて困難である。 人工知能(AI)は強力な同盟国として登場したが、従来のAIフレームワークは大きなハードルに直面している。 この原稿では、自己教師付き学習(SSL)、グラフニューラルネットワーク(GNN)、薬物発見に革命を起こすためのカルディナリティ保存注意を相乗化するための画期的なアプローチであるCardiGraphormerを紹介している。 グラフマーと枢機卿の新たな組み合わせであるcardigraphormerはsslを利用して強力な分子表現を学習し、gnnを使って分子指紋を抽出し、計算時間を短縮しながら予測性能と解釈性を向上させる。 分子構造のような複雑なデータを処理し、ノード、ノードのペア、サブグラフ、グラフ構造全体に関連するタスクを実行する。 CardiGraphormerによる薬物発見と薬物相互作用の潜在的な応用は、新しい薬物標的の同定から薬物と薬物の相互作用の予測、新しい薬物発見の実現まで幅広い。 この革新的なアプローチは、薬物開発においてAIによって強化された方法論を提供し、SSLとGNNを組み合わせて既存の制限を克服し、薬物発見における膨大な組合せ化学空間をより深く探求する道を開く。

In the expansive realm of drug discovery, with approximately 15,000 known drugs and only around 4,200 approved, the combinatorial nature of the chemical space presents a formidable challenge. While Artificial Intelligence (AI) has emerged as a powerful ally, traditional AI frameworks face significant hurdles. This manuscript introduces CardiGraphormer, a groundbreaking approach that synergizes self-supervised learning (SSL), Graph Neural Networks (GNNs), and Cardinality Preserving Attention to revolutionize drug discovery. CardiGraphormer, a novel combination of Graphormer and Cardinality Preserving Attention, leverages SSL to learn potent molecular representations and employs GNNs to extract molecular fingerprints, enhancing predictive performance and interpretability while reducing computation time. It excels in handling complex data like molecular structures and performs tasks associated with nodes, pairs of nodes, subgraphs, or entire graph structures. CardiGraphormer's potential applications in drug discovery and drug interactions are vast, from identifying new drug targets to predicting drug-to-drug interactions and enabling novel drug discovery. This innovative approach provides an AI-enhanced methodology in drug development, utilizing SSL combined with GNNs to overcome existing limitations and pave the way for a richer exploration of the vast combinatorial chemical space in drug discovery.
翻訳日:2024-01-18 02:24:42 公開日:2024-01-13
# プロンプトクラス:弱教師付きセマンティックセグメンテーションにおけるプロンプトクラス学習の力を探る

Prompting classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2307.00097v3 )

ライセンス: Link先を確認
Balamurali Murugesan, Rukhshanda Hussain, Rajarshi Bhattacharya, Ismail Ben Ayed, and Jose Dolz(参考訳) 近年、CLIPベースのアプローチは、対照的な言語ビジョン事前学習の力によって、一般化と少数ショット学習タスクにおいて顕著なパフォーマンスを示した。 特に,タスク関連テキストトークンを用いることで,事前学習した言語ビジョンモデルを下流タスクに適応するための効果的な手法として,プロンプトチューニングが登場している。 この進展に動機づけられ、本研究では、wsss(weakly supervised semantic segmentation)のような他の基本的な問題に対して、迅速なチューニングの恩恵を受けるかどうかを疑問視する。 以上の結果から,WSSSにおける即時チューニングの影響について,興味深い2つの観察結果が得られた。 まず、テキストプロンプトのクラストークンのみを変更すると、コンテキストを最適化するより複雑な戦略に比べて、クラスアクティベーションマップ(cam)に大きな影響を与える。 第二に、画像基底真理に関連するクラストークンは、必ずしも最高のCAMをもたらすカテゴリに対応しない。 これらの観測を動機として,PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを導入する。 大規模な実験を通じて、我々のシンプルで効率的なアプローチは、よく知られたWSSSベンチマークでSOTAのパフォーマンスを達成することを実証した。 これらの結果は、WSSSにおける言語ビジョンモデルの利点だけでなく、この問題に対する迅速な学習の可能性も浮き彫りにしている。 コードはhttps://github.com/rB080/WSS_POLEで公開されている。

Recently, CLIP-based approaches have exhibited remarkable performance on generalization and few-shot learning tasks, fueled by the power of contrastive language-vision pre-training. In particular, prompt tuning has emerged as an effective strategy to adapt the pre-trained language-vision models to downstream tasks by employing task-related textual tokens. Motivated by this progress, in this work we question whether other fundamental problems, such as weakly supervised semantic segmentation (WSSS), can benefit from prompt tuning. Our findings reveal two interesting observations that shed light on the impact of prompt tuning on WSSS. First, modifying only the class token of the text prompt results in a greater impact on the Class Activation Map (CAM), compared to arguably more complex strategies that optimize the context. And second, the class token associated with the image ground truth does not necessarily correspond to the category that yields the best CAM. Motivated by these observations, we introduce a novel approach based on a PrOmpt cLass lEarning (POLE) strategy. Through extensive experiments we demonstrate that our simple, yet efficient approach achieves SOTA performance in a well-known WSSS benchmark. These results highlight not only the benefits of language-vision models in WSSS but also the potential of prompt learning for this problem. The code is available at https://github.com/rB080/WSS_POLE.
翻訳日:2024-01-18 02:23:55 公開日:2024-01-13
# 時空変動の電磁信号の抽出

Extracting electromagnetic signatures of spacetime fluctuations ( http://arxiv.org/abs/2306.17706v2 )

ライセンス: Link先を確認
B. Sharmila, Sander M. Vermeulen, and Animesh Datta(参考訳) 我々は、時空距離のゆらぎが電磁放射に与える影響を明らかにするフォーマリズムを示す。 フォーマリズムは電磁場相関の測定を通じて機能し、関連する仮定の明確な評価を可能にする。 形式論の応用として、真空の屈折率のランダムな揺らぎとして現れる時空揺らぎのモデルと、同一位置のミシェルソン干渉計の2つのモデルを提案する。 このモデルを用いて予測した干渉信号とホロメーターとアリゴの実験データを比較した。 干渉計が感度の高い周波数で信号が現れると、可能な時空変動の強さとスケールが制限される。 これにより得られた境界は、時空変動の強さとスケールにおいて、これまで光学周波数で観測された境界よりも厳密であることが示される。 この形式化により,量子時空のゆらぎを制約するクエストや新しい実験の設計などの提案実験を評価することができる。

We present a formalism to discern the effects of fluctuations of the spacetime metric on electromagnetic radiation. The formalism works via the measurement of electromagnetic field correlations, while allowing a clear assessment of the assumptions involved. As an application of the formalism, we present a model of spacetime fluctuations that appear as random fluctuations of the refractive index of the vacuum in single, and two co-located Michelson interferometers. We compare an interferometric signal predicted using this model to experimental data from the Holometer and aLIGO. We show that if the signal manifests at a frequency at which the interferometers are sensitive, the strength and scale of possible spacetime fluctuations can be constrained. The bounds, thus obtained, on the strength and scale of the spacetime fluctuations, are also shown to be more stringent than the bounds obtained previously using astronomical observation at optical frequencies. The formalism enables us to evaluate proposed experiments such as QUEST for constraining quantum spacetime fluctuations and to design new ones.
翻訳日:2024-01-18 02:23:30 公開日:2024-01-13
# 何百もの手術ビデオ講義を視聴したマルチモーダル表現の学習

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures ( http://arxiv.org/abs/2307.15220v2 )

ライセンス: Link先を確認
Kun Yuan, Vinkle Srivastav, Tong Yu, Joel L. Lavanchy, Pietro Mascagni, Nassir Navab, Nicolas Padoy(参考訳) 外科的コンピュータビジョン応用の最近の進歩は、主に視覚データのみを使用して、完全に監督された方法によって進められている。 これらの手法は、手動で注釈付けされた外科的ビデオを使って、固定された対象のカテゴリーを予測する。 本研究では,e-learningプラットフォームをオープンにすることで,手作業によるアノテーションを使わずに,マルチモーダル表現学習に効果的な監督信号を提供できる,という考え方を提示する。 本稿では,複数の補完的自動音声認識システムを用いてテキストの書き起こしを生成することで,外科的映像講義における手術特有の言語課題に対処する。 次に、多モーダル表現学習のための新しい方法、SurgVLP - Surgery Vision Language Pre-trainingを提案する。 SurgVLPは、ビデオクリップの埋め込みと対応する複数のテキストの埋め込みとを一致させるための、新しいコントラスト学習目標を構築する。 学習したジョイント潜在空間の表現能力を効果的に示すために,テキストベースのビデオ検索,時間的活動グラウンド,ビデオキャプションなど,手術のための視覚・言語タスクを評価ベンチマークとして導入した。 さらに,ラベル付き基底真理を用いなければ,手術器具,位相認識,三重項認識などの従来の視覚のみの手術下下流課題に応用できることを示した。 コードはhttps://github.com/CAMMA-public/SurgVLPで公開される。

Recent advancements in surgical computer vision applications have been driven by fully-supervised methods, primarily using only visual data. These methods rely on manually annotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseen surgical procedures and downstream tasks. In this work, we put forward the idea that the surgical video lectures available through open surgical e-learning platforms can provide effective supervisory signals for multi-modal representation learning without relying on manual annotations. We address the surgery-specific linguistic challenges present in surgical video lectures by employing multiple complementary automatic speech recognition systems to generate text transcriptions. We then present a novel method, SurgVLP - Surgical Vision Language Pre-training, for multi-modal representation learning. SurgVLP constructs a new contrastive learning objective to align video clip embeddings with the corresponding multiple text embeddings by bringing them together within a joint latent space. To effectively show the representation capability of the learned joint latent space, we introduce several vision-and-language tasks for surgery, such as text-based video retrieval, temporal activity grounding, and video captioning, as benchmarks for evaluation. We further demonstrate that without using any labeled ground truth, our approach can be employed for traditional vision-only surgical downstream tasks, such as surgical tool, phase, and triplet recognition. The code will be made available at https://github.com/CAMMA-public/SurgVLP
翻訳日:2024-01-18 02:12:45 公開日:2024-01-13
# 読み理解モデルのための相対位置ラベルを用いたヘテロジニアスグラフとエンティティ認識自己照合の統合

Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model ( http://arxiv.org/abs/2307.10443v3 )

ライセンス: Link先を確認
Shima Foolad and Kourosh Kiani(参考訳) 機械読解タスクにおけるトランスフォーマーモデルによる著しい進歩にもかかわらず、入力シーケンスに明示的な知識がないため、複雑な推論タスクの処理には不足している。 この制限に対処するため、最近の多くの研究がモデルに外部知識を注入することを提案した。 しかし、関連する外部知識の選択、可用性の確保、追加の処理ステップの要求は依然として困難である。 本稿では,異種グラフからの推論知識を外部知識に頼ることなくトランスフォーマーアーキテクチャに統合する新しい注意パターンを提案する。 提案する注目パターンは, 単語トークンに対するグローバルな注意, 未接続のトークンとは対照的に, グラフ内のトークンに対して強い関心を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。 この結果、関係が存在する場合、両者の間に最適な注意が向けられる。 このパターンは特別な相対的な位置ラベルと結合されており、LUKEのエンティティ対応の自己認識機構と統合することができる。 実験結果によると、我々のモデルは最先端のLUKE-GraphとベースラインのLUKEモデルの両方で、ReCoRD(コモンセンス推論の強調)とWikiHop(マルチホップ推論の課題)という2つの異なるデータセットで優れています。

Despite the significant progress made by transformer models in machine reading comprehension tasks, they still fall short in handling complex reasoning tasks due to the absence of explicit knowledge in the input sequence. To address this limitation, many recent works have proposed injecting external knowledge into the model. However, selecting relevant external knowledge, ensuring its availability, and requiring additional processing steps remain challenging. In this paper, we introduce a novel attention pattern that integrates reasoning knowledge derived from a heterogeneous graph into the transformer architecture without relying on external knowledge. The proposed attention pattern comprises three key elements: global-local attention for word tokens, graph attention for entity tokens that exhibit strong attention towards tokens connected in the graph as opposed to those unconnected, and the consideration of the type of relationship between each entity token and word token. This results in optimized attention between the two if a relationship exists. The pattern is coupled with special relative position labels, allowing it to integrate with LUKE's entity-aware self-attention mechanism. The experimental findings corroborate that our model outperforms both the cutting-edge LUKE-Graph and the baseline LUKE model across two distinct datasets: ReCoRD, emphasizing commonsense reasoning, and WikiHop, focusing on multi-hop reasoning challenges.
翻訳日:2024-01-18 02:10:16 公開日:2024-01-13
# 階層型模倣学習による多段ケーブルルーティング

Multi-Stage Cable Routing through Hierarchical Imitation Learning ( http://arxiv.org/abs/2307.08927v5 )

ライセンス: Link先を確認
Jianlan Luo, Charles Xu, Xinyang Geng, Gilbert Feng, Kuan Fang, Liam Tan, Stefan Schaal, Sergey Levine(参考訳) 本研究では,複数段階のロボット操作タスクを学習し,ケーブルルーティングに適用するために,ロボットが一連のクリップを通してケーブルをルーティングしなければならない問題について検討する。 この設定では、変形可能なオブジェクトの処理、視覚知覚のループのクローズ、タスク全体の完了に成功して実行しなければならない複数のステップからなる拡張動作の処理など、複雑な多段階ロボット操作シナリオを代表する課題が提示される。 このような状況下では、時間的に拡張されたタスクを実行するのに十分な割合で成功する各ステージの個々のプリミティブを学習することは、実用的ではない:もし各ステージが成功し、失敗の不可解な確率を持つなら、タスク全体の完了の可能性は無視できる。 したがって、このようなマルチステージタスクで成功したコントローラは、障害から回復し、低レベルのコントローラの欠陥を補うために、任意のタイミングでどのコントローラをトリガーするかをスマートに選択したり、リトライしたり、必要に応じて修正アクションを取るかを選択する必要がある。 そこで本研究では,下方(運動制御)と上方(シーケンス)の両方のレベルのデモンストレーションから訓練された視覚に基づくポリシーを用いた模倣学習システムについて述べるとともに,この手法をインスタンス化してケーブルルーティングタスクを学習するシステムを提案し,非常に困難なクリップ配置変動に一般化する上で,優れた性能を示す評価を行う。 補足ビデオ、データセット、コードはhttps://sites.google.com/view/cableroutingで見ることができる。

We study the problem of learning to perform multi-stage robotic manipulation tasks, with applications to cable routing, where the robot must route a cable through a series of clips. This setting presents challenges representative of complex multi-stage robotic manipulation scenarios: handling deformable objects, closing the loop on visual perception, and handling extended behaviors consisting of multiple steps that must be executed successfully to complete the entire task. In such settings, learning individual primitives for each stage that succeed with a high enough rate to perform a complete temporally extended task is impractical: if each stage must be completed successfully and has a non-negligible probability of failure, the likelihood of successful completion of the entire task becomes negligible. Therefore, successful controllers for such multi-stage tasks must be able to recover from failure and compensate for imperfections in low-level controllers by smartly choosing which controllers to trigger at any given time, retrying, or taking corrective action as needed. To this end, we describe an imitation learning system that uses vision-based policies trained from demonstrations at both the lower (motor control) and the upper (sequencing) level, present a system for instantiating this method to learn the cable routing task, and perform evaluations showing great performance in generalizing to very challenging clip placement variations. Supplementary videos, datasets, and code can be found at https://sites.google.com/view/cablerouting.
翻訳日:2024-01-18 02:09:47 公開日:2024-01-13
# 10^\mathrm{-22}$ $\mathrm{W/\sqrt{Hz}}$ sensitivity を用いた周期運転単一マイクロ波光子カウンタ

Cyclically operated Single Microwave Photon Counter with $10^\mathrm{-22}$ $\mathrm{W/\sqrt{Hz}}$ sensitivity ( http://arxiv.org/abs/2307.03614v3 )

ライセンス: Link先を確認
L\'eo Balembois, Jaime Travesedo, Louis Pallegoix, Alexandre May, Eric Billaud, Marius Villiers, Daniel Est\`eve, Denis Vion, Patrice Bertet, Emmanuel Flurin(参考訳) 単一光子検出は量子光学の発展に重要な役割を果たした。 マイクロ波領域におけるその実装は、光子エネルギーが5桁小さいため困難である。 近年、超伝導量子ビットまたはボロメーターに基づく単一マイクロ波光子検出器(SMPD)の開発において大きな進展が見られた。 本稿では,4波長混合プロセスによるトランモン量子ビットの励起状態への入射光子の可逆移動に基づく実用的なSMPDを提案する。 この装置は検出効率$\eta = 0.43$ と演算ダークカウントレート $\alpha = 85$$ $\mathrm{s^{-1}}$ を達成する。 対応する電力感度は$\mathcal{s} = 10^{-22}$ $\mathrm{w/\sqrt{hz}}$であり、これは芸術の状況よりも1桁低い。 この検出器は、義務サイクル$\eta_\mathrm{D}=0.84$で時間スケールで連続的に動作し、周波数チューナビリティは7GHzあたり50MHz以上である。

Single photon detection played an important role in the development of quantum optics. Its implementation in the microwave domain is challenging because the photon energy is 5 orders of magnitude smaller. In recent years, significant progress has been made in developing single microwave photon detectors (SMPDs) based on superconducting quantum bits or bolometers. In this paper we present a practical SMPD based on the irreversible transfer of an incoming photon to the excited state of a transmon qubit by a four-wave mixing process. This device achieves a detection efficiency $\eta = 0.43$ and an operational dark count rate $\alpha = 85$ $\mathrm{s^{-1}}$, mainly due to the out-of-equilibrium microwave photons in the input line. The corresponding power sensitivity is $\mathcal{S} = 10^{-22}$ $\mathrm{W/\sqrt{Hz}}$, one order of magnitude lower than the state of the art. The detector operates continuously over hour timescales with a duty cycle $\eta_\mathrm{D}=0.84$, and offers frequency tunability of at least 50 MHz around 7 GHz.
翻訳日:2024-01-18 02:09:10 公開日:2024-01-13
# ネルソン量子場理論のシミュレーション

Simulating Nelsonian Quantum Field Theory ( http://arxiv.org/abs/2307.03188v2 )

ライセンス: Link先を確認
Andrea Carosso(参考訳) 我々は、エドワード・ネルソンの確率力学が格子上に正則化された量子場理論に一般化した際に示唆される物理過程の全体像を、その理論を水素原子に適用した入門的考察の後に記述する。 関連する確率過程の数値シミュレーションを行うことで、ネルソンの理論は任意の量子状態に対して典型的な場構成を生成する手段を提供する。 特に、直観的な絵は「beable'」というフィールドから与えられ、ジョン・スチュワート・ベルのフレーズを使い、フォック真空に対応し、粒子のような特徴が励起状態によってどのように現れるかを説明する。 そして、相互作用するスカラー場理論に一般化すると、この図形は質的に似ていると論じる。 最後に、Nelsonian フレームワークと QFT の他の様々な提案されたオントロジーを比較し、実効場理論のパラダイムに照らしてそれらの相対的なメリットについて述べる。 対応する beable のアニメーションへのリンクが全会一致で提供される。

We describe the picture of physical processes suggested by Edward Nelson's stochastic mechanics when generalized to quantum field theory regularized on a lattice, after an introductory review of his theory applied to the hydrogen atom. By performing numerical simulations of the relevant stochastic processes, we observe that Nelson's theory provides a means of generating typical field configurations for any given quantum state. In particular, an intuitive picture is given of the field ``beable'' -- to use a phrase of John Stewart Bell -- corresponding to the Fock vacuum, and an explanation is suggested for how particle-like features can be exhibited by excited states. We then argue that the picture looks qualitatively similar when generalized to interacting scalar field theory. Lastly, we compare the Nelsonian framework to various other proposed ontologies for QFT, and remark upon their relative merits in light of the effective field theory paradigm. Links to animations of the corresponding beables are provided throughout.
翻訳日:2024-01-18 02:08:02 公開日:2024-01-13
# 深部補償展開ネットワークによる低照度光場画像の強調

Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network ( http://arxiv.org/abs/2308.05404v2 )

ライセンス: Link先を確認
Xianqiang Lyu, and Junhui Hou(参考訳) 本稿では,低光環境下での光場(LF)画像の復元を目的とした,DCUNet(Deep compensation Openfolding Network)と呼ばれる新しいエンドツーエンド学習フレームワークを提案する。 DCUNetは、データ駆動方式で逆イメージング問題を解決する最適化プロセスを模倣した多段階アーキテクチャで設計されている。 このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。 さらに、DCUNetは、ノイズと照明マップ推定誤差を抑制するために、各最適化段階でコンテンツ関連深い補償モジュールを含んでいる。 本稿では,LF画像の特徴を適切に掘り下げ,活用するために,LF画像の冗長情報を包括的に活用する擬似明示的特徴相互作用モジュールを提案する。 シミュレーションデータと実データによる実験結果から,dcunetは定性的および定量的に最先端の手法よりも優れていることが示された。 さらに、DCUNetは拡張LF画像の基本的幾何学構造をずっとよく保存する。 コードはhttps://github.com/lyuxianqiang/LFLL-DCUで公開されている。

This paper presents a novel and interpretable end-to-end learning framework, called the deep compensation unfolding network (DCUNet), for restoring light field (LF) images captured under low-light conditions. DCUNet is designed with a multi-stage architecture that mimics the optimization process of solving an inverse imaging problem in a data-driven fashion. The framework uses the intermediate enhanced result to estimate the illumination map, which is then employed in the unfolding process to produce a new enhanced result. Additionally, DCUNet includes a content-associated deep compensation module at each optimization stage to suppress noise and illumination map estimation errors. To properly mine and leverage the unique characteristics of LF images, this paper proposes a pseudo-explicit feature interaction module that comprehensively exploits redundant information in LF images. The experimental results on both simulated and real datasets demonstrate the superiority of our DCUNet over state-of-the-art methods, both qualitatively and quantitatively. Moreover, DCUNet preserves the essential geometric structure of enhanced LF images much better. The code will be publicly available at https://github.com/lyuxianqiang/LFLL-DCU.
翻訳日:2024-01-18 01:58:03 公開日:2024-01-13
# 深層ニューラルネットワークを用いたパラメタライズド音源を用いた対話型3次元シーンの音響伝搬

Sound propagation in realistic interactive 3D scenes with parameterized sources using deep neural operators ( http://arxiv.org/abs/2308.05141v2 )

ライセンス: Link先を確認
Nikolas Borrel-Jensen, Somdatta Goswami, Allan P. Engsig-Karup, George Em Karniadakis, Cheol-Ho Jeong(参考訳) 移動音源を用いた3次元仮想空間における音波伝搬シミュレーションの課題に対処し,仮想・拡張現実,ゲーム音声,空間計算に応用する。 波動方程式の解は回折や干渉といった波動現象を記述することができる。 しかし、数百の音源と受信位置を持つ従来の数値離散化法を用いてそれらをシミュレーションすることは困難であり、移動音源による音場刺激は非現実的である。 この制限を克服するため、線形波動方程式演算子を近似するディープ演算子ネットワークを提案する。 これにより、移動音源を持つ現実的な3次元音響シーンにおける音響伝搬の迅速な予測が可能となり、ミリ秒スケールの計算が可能となる。 コンパクトなサロゲートモデルを学ぶことにより、関連するすべてのソース/リスナーペアに対するインパルス応答のオフライン計算と格納を回避できる。 様々な複雑なシーンジオメトリを含む我々の実験は、0.02 Pa から 0.10 Pa までの根平均二乗誤差を持つ参照解と良好な一致を示した。 特に,本手法は,従来の機械学習手法が現実的な領域における完全波動場の正確な予測を達成していないため,パラダイムシフトを示す。 本研究は,仮想環境における没入型ユーザエクスペリエンスの研究を前進させ,深層ニューラルネットワークのさらなる探索を促進することを期待する。 $

We address the challenge of sound propagation simulations in 3D virtual rooms with moving sources, which have applications in virtual/augmented reality, game audio, and spatial computing. Solutions to the wave equation can describe wave phenomena such as diffraction and interference. However, simulating them using conventional numerical discretization methods with hundreds of source and receiver positions is intractable, making stimulating a sound field with moving sources impractical. To overcome this limitation, we propose using deep operator networks to approximate linear wave-equation operators. This enables the rapid prediction of sound propagation in realistic 3D acoustic scenes with moving sources, achieving millisecond-scale computations. By learning a compact surrogate model, we avoid the offline calculation and storage of impulse responses for all relevant source/listener pairs. Our experiments, including various complex scene geometries, show good agreement with reference solutions, with root mean squared errors ranging from 0.02 Pa to 0.10 Pa. Notably, our method signifies a paradigm shift as no prior machine learning approach has achieved precise predictions of complete wave fields within realistic domains. We anticipate that our findings will drive further exploration of deep neural operator methods, advancing research in immersive user experiences within virtual environments.$
翻訳日:2024-01-18 01:57:46 公開日:2024-01-13
# 混合フィールドイジング連鎖における局所保存量の欠如の証明

Proof of absence of local conserved quantities in the mixed-field Ising chain ( http://arxiv.org/abs/2307.16703v3 )

ライセンス: Link先を確認
Yuuya Chiba(参考訳) 局所保存量の存在は、熱化や応答理論の妥当性のためにしばしば必要とされる。 多くの研究は、長手および横手フィールドのイジング連鎖で熱化が起こるかどうかを論じているが、このモデルの局所保存量に関する厳密な結果はいまだに不足している。 ここでは、すべてのカップリング定数が 0 でない場合、このモデルは、自明なもの以外のシステムサイズの半分の支持サイズを持つ局所作用素、すなわちハミルトニアンとアイデンティティの線型結合を持つ保存量を持たないことを厳密に証明する。 この証明は周期境界条件だけでなく、開境界条件に対しても与えられる。 また、縦磁場がゼロに設定されるモデルの可積分性との関係についても論じる。 この結果は、不積分性が厳密に証明されたスピンモデルの第二の例である。

Absence of local conserved quantities is often required, such as for thermalization or for the validity of response theory. Although many studies have discussed whether thermalization occurs in the Ising chain with longitudinal and transverse fields, rigorous results on local conserved quantities of this model have still been lacking. Here, we rigorously prove that, if all coupling constants are nonzero, this model has no conserved quantity spanned by local operators with support size up to half of the system size other than a trivial one, i.e., a linear combination of the Hamiltonian and the identity. The proof is given not only for the periodic boundary condition but also for the open boundary condition. We also discuss relation to the integrability of the model where the longitudinal field is set to zero. Our results provide the second example of spin models whose nonintegrability is rigorously proved.
翻訳日:2024-01-18 01:56:05 公開日:2024-01-13
# スマートグリッドにおけるエネルギー盗難検出のためのddpmに基づく新しいアンサンブル手法

A Novel DDPM-based Ensemble Approach for Energy Theft Detection in Smart Grids ( http://arxiv.org/abs/2307.16149v3 )

ライセンス: Link先を確認
Xun Yuan and Yang Yang and Asif Iqbal and Prosanta Gope and Biplab Sikdar(参考訳) エネルギー盗難は、支払いを減らすためにエネルギー消費の読書を操作することが特徴で、グリッドオペレーターに二重の脅威をもたらす金融損失をもたらし、スマートグリッドのパフォーマンスを損なう。 有効エネルギー盗難検知(ETD)法は, 早期の不正行為を特定することにより, これらのリスクを軽減する上で重要である。 しかし、現在のETD手法の大半は教師あり学習に依存しており、データのラベル付けが困難であり、既知の攻撃に過度に適合するリスクがある。 これらの課題に対処するために、正直なユーザから通常のパターン、特に入力の再構築を学ぶことに焦点を当てた、教師なしETD手法がいくつか提案されている。 しかし,本研究では,通常のパターンを呈するユーザにおいて,異常な動作を検出することしかできないため,教師なしETD手法の限界を明らかにした。 高ばらつきの振る舞いを持つユーザは、これらの方法に挑戦する。 本稿では,離散拡散確率モデル(ddpm)に基づくetd手法を提案する。 この革新的なアプローチは、エネルギー消費に相関した付加属性を組み込むことで、高分散のスマートグリッドデータ上でのETD性能を示す。 提案手法は,高分散スマートグリッドデータの平均etd性能を0.5から0.9 w.r.t. auc以上向上させる。 一方,本研究では,リコンストラクションエラーに基づく最先端のetd手法は,大部分のユーザに対してetd攻撃を識別できるが,特定のユーザに対する攻撃検出には有効ではないことを示す。 そこで本研究では,再構成誤差と予測誤差の両方を考慮した新しいアンサンブル手法を提案し,ETD手法の堅牢性を高める。 提案手法は,最もステルスな攻撃における平均etd性能を0から0.5 w.r.t. 5%-tprに向上させる。

Energy theft, characterized by manipulating energy consumption readings to reduce payments, poses a dual threat-causing financial losses for grid operators and undermining the performance of smart grids. Effective Energy Theft Detection (ETD) methods become crucial in mitigating these risks by identifying such fraudulent activities in their early stages. However, the majority of current ETD methods rely on supervised learning, which is hindered by the difficulty of labelling data and the risk of overfitting known attacks. To address these challenges, several unsupervised ETD methods have been proposed, focusing on learning the normal patterns from honest users, specifically the reconstruction of input. However, our investigation reveals a limitation in current unsupervised ETD methods, as they can only detect anomalous behaviours in users exhibiting regular patterns. Users with high-variance behaviours pose a challenge to these methods. In response, this paper introduces a Denoising Diffusion Probabilistic Model (DDPM)-based ETD approach. This innovative approach demonstrates impressive ETD performance on high-variance smart grid data by incorporating additional attributes correlated with energy consumption. The proposed methods improve the average ETD performance on high-variance smart grid data from below 0.5 to over 0.9 w.r.t. AUC. On the other hand, our experimental findings indicate that while the state-of-the-art ETD methods based on reconstruction error can identify ETD attacks for the majority of users, they prove ineffective in detecting attacks for certain users. To address this, we propose a novel ensemble approach that considers both reconstruction error and forecasting error, enhancing the robustness of the ETD methodology. The proposed ensemble method improves the average ETD performance on the stealthiest attacks from nearly 0 to 0.5 w.r.t. 5%-TPR.
翻訳日:2024-01-18 01:55:51 公開日:2024-01-13
# 大規模視覚言語モデルにおける意味的接地の評価と強化

Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models ( http://arxiv.org/abs/2309.04041v2 )

ライセンス: Link先を確認
Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Baochen Sun, Carl Yang and Jie Yang(参考訳) LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。 しかし、特に安全性、堅牢性、信頼性に関する現実のシナリオにおける彼らの応用を妨げる課題は、言語を物理的世界の実体やイメージに参照される概念に結びつけることに関連する制約付きセマンティック基盤能力である。 したがって、広く使用されているLVLMのセマンティックグラウンドディング能力を評価するための総合的な研究において、重要なニーズが生じる。 その重要性にもかかわらず、この方向の十分な調査は現在不足している。 我々の研究は、色、数、材料などの詳細な意味情報を含む大規模評価データセットを生成するパイプラインを設計し、7つの人気のあるlvlmのセマンティクス接地能力の徹底的な評価を行うことで、このギャップを埋める。 結果は、さまざまな側面や程度にまたがる一般的な誤解を浮き彫りにする。 本稿では,きめ細かな会話に対するマルチモーダル命令チューニングにより,lvlmsの意味的接地能力を向上させることを目的とした,データ中心の強化手法を提案する。 改良型LVLM実験は, 誤動作問題に対する顕著な改善を示した。

Large Vision-Language Models (LVLMs) offer remarkable benefits for a variety of vision-language tasks. However, a challenge hindering their application in real-world scenarios, particularly regarding safety, robustness, and reliability, is their constrained semantic grounding ability, which pertains to connecting language to the physical-world entities or concepts referenced in images. Therefore, a crucial need arises for a comprehensive study to assess the semantic grounding ability of widely used LVLMs. Despite the significance, sufficient investigation in this direction is currently lacking. Our work bridges this gap by designing a pipeline for generating large-scale evaluation datasets covering fine-grained semantic information, such as color, number, material, etc., along with a thorough assessment of seven popular LVLMs' semantic grounding ability. Results highlight prevalent misgrounding across various aspects and degrees. To address this issue, we propose a data-centric enhancement method that aims to improve LVLMs' semantic grounding ability through multimodal instruction tuning on fine-grained conversations. Experiments on enhanced LVLMs demonstrate notable improvements in addressing misgrounding issues.
翻訳日:2024-01-18 01:47:57 公開日:2024-01-13
# Dual-GSE:資源効率の良い一般化量子サブスペース拡張

Dual-GSE: Resource-efficient Generalized Quantum Subspace Expansion ( http://arxiv.org/abs/2309.14171v2 )

ライセンス: Link先を確認
Bo Yang, Nobuyuki Yoshioka, Hiroyuki Harada, Shigeo Hakkaku, Yuuki Tokunaga, Hideaki Hakoshima, Kaoru Yamamoto, Suguru Endo(参考訳) 実用的な量子コンピューティングを実現するには、かなりの量の計算エラーと制限された量子ビット数という大きな障害がある。 ノイズ非依存型量子誤り軽減法(QEM)の統一手法として、量子部分空間展開と仮想的浄化法、一般化量子部分空間展開法(GSE)が最近提案され、確率的およびコヒーレントな誤差に対してかなり堅牢である。 しかし、gseでは量子状態のコピー間の絡み合いの測定が必要であり、量子ビット数と接続性が制限されている現状では大きな欠点となっている。 本研究では,二重状態浄化による誤り緩和量子状態のアンサッツを構築することにより,状態複製の大幅なオーバーヘッドを回避し,gseを資源効率良く実装することを提案する。 驚くべきことに、dual-gseは、古典的に絡み合う方法に触発された適切なアンサッツ構成を持つ、利用可能な量子ハードウェアのサイズを超えて、より大きな量子システムをさらにシミュレートすることができる。 これはサブシステムのパウリ演算子のみを測定する必要があるため、測定オーバーヘッドを大幅に削減する。 提案手法は,8量子ビット横場イジングモデルの数値シミュレーションにより,ゲート雑音下での地盤状態エネルギーを高精度に推定し,低緩和オーバヘッドと実用的なサンプリングコストを算出した。

There are considerable obstacles against realizing practical quantum computing: a significant amount of computation errors and the restricted qubit count. As a unified method of noise-agnostic quantum error mitigation (QEM) methods, i.e., the quantum subspace expansion and virtual purification, a generalized quantum subspace expansion (GSE) has recently been proposed that is significantly robust against stochastic and coherent errors. However, GSE requires entangled measurements between copies of the quantum states, which is a significant drawback under the current situation of the restricted number of qubits and their connectivity. In this work, we propose a resource-efficient implementation of GSE, which we name "Dual-GSE", circumventing significant overheads of state copies by constructing an ansatz of error-mitigated quantum states via dual-state purification. Remarkably, Dual-GSE can further simulate larger quantum systems beyond the size of available quantum hardware with a suitable ansatz construction inspired by divide-and-conquer methods that forge entanglement classically. This also significantly reduces the measurement overhead because we only need to measure subsystems' Pauli operators. The proposed method is demonstrated by a numerical simulation of the eight-qubit transverse-field Ising model, showing that our method estimates the ground state energy with high precision under gate noise with low mitigation overhead and practical sampling cost.
翻訳日:2024-01-18 01:37:21 公開日:2024-01-13
# マルチモーダルマニピュレーション検出と接地のための爆発的モダリティ特性

Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding ( http://arxiv.org/abs/2309.12657v2 )

ライセンス: Link先を確認
Jiazhen Wang, Bin Liu, Changtao Miao, Zhiwei Zhao, Wanyi Zhuang, Qi Chu, Nenghai Yu(参考訳) ai合成テキストと画像は、特にインターネット上でマルチモーダル操作が広く普及し、社会に多くのネガティブな影響を与えたために、注目を集めている。 既存のマルチモーダルな操作検出とグラウンドディングの方法は、主に視覚言語の特徴を融合させて予測することに焦点を当て、モダリティ固有の特徴の重要性を見越して、準最適結果をもたらす。 本稿では,マルチモーダル操作検出と接地タスクを行うための,単純で新しいトランスフォーマーベースのフレームワークを構築する。 本フレームワークは,マルチモーダルアライメント機能を維持しつつ,モダリティ特有の特徴を同時に探索する。 これを実現するために、視覚/言語事前学習エンコーダとデュアルブランチ・クロスアテンション(DCA)を導入し、モダリティ・ユニクティックな特徴を抽出し、融合する。 さらに,非結合型細粒度分類器(DFC)を設計し,モダリティ固有の特徴マイニングとモダリティ競争を緩和する。 さらに,学習可能なクエリを用いて各モーダリティ内のグローバルコンテキストの手がかりを適応的に集約する,暗黙的操作クエリ(imq)を提案する。 dgm^4$データセットの広範囲な実験は、最先端のアプローチと比較して提案モデルの優れた性能を示している。

AI-synthesized text and images have gained significant attention, particularly due to the widespread dissemination of multi-modal manipulations on the internet, which has resulted in numerous negative impacts on society. Existing methods for multi-modal manipulation detection and grounding primarily focus on fusing vision-language features to make predictions, while overlooking the importance of modality-specific features, leading to sub-optimal results. In this paper, we construct a simple and novel transformer-based framework for multi-modal manipulation detection and grounding tasks. Our framework simultaneously explores modality-specific features while preserving the capability for multi-modal alignment. To achieve this, we introduce visual/language pre-trained encoders and dual-branch cross-attention (DCA) to extract and fuse modality-unique features. Furthermore, we design decoupled fine-grained classifiers (DFC) to enhance modality-specific feature mining and mitigate modality competition. Moreover, we propose an implicit manipulation query (IMQ) that adaptively aggregates global contextual cues within each modality using learnable queries, thereby improving the discovery of forged details. Extensive experiments on the $\rm DGM^4$ dataset demonstrate the superior performance of our proposed model compared to state-of-the-art approaches.
翻訳日:2024-01-18 01:35:35 公開日:2024-01-13
# 純化量子状態における幾何学的タンパリング動的絡み合い成長

Geometrically Taming Dynamical Entanglement Growth in Purified Quantum States ( http://arxiv.org/abs/2309.07961v2 )

ライセンス: Link先を確認
Tim Pokart, Carl Lehmann, Jan Carl Budich(参考訳) 純化量子状態の絡み合い特性は2つの理由から重要な関心事である。 まず、量子情報理論において、最小の絡み合った清浄状態は、精製の絡み合いを対応する物理的混合状態の複雑性の基本的な尺度として定義する。 第二に、純化状態における動的絡み合い成長は、テンソルネットワーク状態の枠組みにおける古典的コンピュータの動的物理的性質を計算するための主要なボトルネックである。 本稿では,並列輸送を含む幾何学的手法を用いて,そのような動的エンタングルメント成長を低減し,(局所的に)最適エンタングルメントエントロピーを維持(維持)するための一般的な処方法を得ることを実証する。 高次スキューによる適応と拡張は、uhlmann幾何位相の概念を補正し、動的絡み合い成長とヒルベルト・シュミット束の幾何学との関係を清浄状態の数学的基礎として明らかにする。 非可積分スピンチェーンモデルにおけるベンチマークを用いて,本手法に基づく行列積状態アルゴリズムの計算性能を,純化状態における絡み合い成長をめざす以前の手法と比較する。 以上の結果から, 幾何学的異方性は, 拡張物理パラメータ法において, 清浄状態の解消に強力なアプローチであることが示唆された。 また,アルゴリズムの不完全性の影響を排除し,中程度のシステムに対して数値的精度で解析を行う。

Entanglement properties of purified quantum states are of key interest for two reasons. First, in quantum information theory, minimally entangled purified states define the Entanglement of Purification as a fundamental measure for the complexity of the corresponding physical mixed state. Second, dynamical entanglement growth in purified states represents the main bottleneck for calculating dynamical physical properties on classical computers in the framework of tensor network states. Here, we demonstrate how geometric methods including parallel transport may be harnessed to reduce such dynamical entanglement growth, and to obtain a general prescription for maintaining (locally) optimal entanglement entropy when time-evolving a purified state. Adapting and extending by higher order skew corrections the notion of Uhlmann geometric phases, we reveal the relation between dynamical entanglement growth and the geometry of the Hilbert-Schmidt bundle as the mathematical foundation of purified states. With benchmarks on a non-integrable spin chain model, we compare the computational performance of matrix product state algorithms based on our present geometric disentangling method to previous approaches for taming entanglement growth in purified states. Our findings provide numerical evidence that geometric disentanglers are a powerful approach for disentangling purified states in an extended physical parameter regime. To exclude the effect of algorithmic imperfections, we also provide a numerically exact analysis for systems of moderate size.
翻訳日:2024-01-18 01:33:37 公開日:2024-01-13
# 対話型実世界シミュレータの学習

Learning Interactive Real-World Simulators ( http://arxiv.org/abs/2310.06114v2 )

ライセンス: Link先を確認
Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel(参考訳) インターネットデータで訓練された生成モデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらした。 生成モデルの次のマイルストーンは、人間、ロボット、その他の対話的エージェントによるアクションに反応して、現実的な体験をシミュレートすることだ。 実世界のシミュレータの応用は、ゲームや映画における制御可能なコンテンツ作成から、実世界に直接デプロイできる純粋にシミュレーションで具体化されたエージェントの訓練まで幅広い。 生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。 まず、実世界のシミュレータを学習するための自然データセットが、異なる次元(画像データに豊富なオブジェクト、ロボットデータに濃密にサンプリングされたアクション、ナビゲーションデータの多様な動きなど)に富んでいることを重要視する。 多様なデータセットを慎重にオーケストレーションすることで、それぞれが経験の異なる側面を提供することで、''open the drawer'のようなハイレベルな命令と、静的なシーンやオブジェクトから"move by x, y"のような低レベルなコントロールの両方の視覚的結果をシミュレートすることができます。 我々はシミュレータを用いて高レベル視覚言語ポリシーと低レベル強化学習ポリシーの両方を訓練し、それぞれがシミュレーションで純粋に訓練した後、ゼロショットで現実世界に展開できる。 また,ビデオキャプションモデルなど他のタイプの知性が,シミュレーション体験によるトレーニングのメリットを享受し,より広範なアプリケーションを開放できることも示す。 ビデオデモはhttps://universal-simulator.github.ioで見ることができる。

Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different dimensions (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, we can simulate the visual outcome of both high-level instructions such as ``open the drawer'' and low-level controls such as "move by x, y" from otherwise static scenes and objects. We use the simulator to train both high-level vision-language policies and low-level reinforcement learning policies, each of which can be deployed in the real world in zero shot after training purely in simulation. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io.
翻訳日:2024-01-18 01:24:01 公開日:2024-01-13
# ベイズ的アプローチによる人選好言語モデルの調整

Aligning Language Models with Human Preferences via a Bayesian Approach ( http://arxiv.org/abs/2310.05782v3 )

ライセンス: Link先を確認
Jiashuo Wang, Haozhao Wang, Shichao Sun, Wenjie Li(参考訳) 人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。 このアライメントのために、現在の一般的な方法は、人間からのフィードバックに基づいて訓練された報酬モデルで強化学習(RL)アプローチを利用する。 しかし,人間の嗜好の主観的性質による内在的な不一致は,報酬モデルの訓練において大きな課題となり,nlgパフォーマンスの低下を招いた。 この問題に対処するため、従来のアプローチは通常、複数の一貫性のない選好をマージしたものに集約するために、多数決または平均化に依存していた。 理解と実行は容易であるが、このような手法は人間の不合理さを捉えることができず、個人の特別なサブセットのみを表現できるため、人間の嗜好の普遍性を定量的に開示する能力が欠如している。 この課題に対処するために, ベイズ的枠組みを用いて, 選好モデルのトレーニングとして, 人選好間の不一致の分布を考慮し, d-PMと命名する手法を提案する。 さらに,学習効率よりもRL戦略の非効率で複雑な訓練プロセスを考えると,NLGモデルをd-PMモデルから導出した選好スコアで学習するためのコントラスト学習戦略も提案する。 感情的支援会話と整合性(Rule-of-Thumb)生成という2つの人間中心型NLGタスクに対する広範囲な実験により,本手法が従来のSOTAモデルを上回る結果が得られた。

In the quest to advance human-centric natural language generation (NLG) systems, ensuring alignment between NLG models and human preferences is crucial. For this alignment, current popular methods leverage a reinforcement learning (RL) approach with a reward model trained on feedback from humans. However, inherent disagreements due to the subjective nature of human preferences pose a significant challenge for training the reward model, resulting in a deterioration of the NLG performance. To tackle this issue, previous approaches typically rely on majority voting or averaging to consolidate multiple inconsistent preferences into a merged one. Although straightforward to understand and execute, such methods suffer from an inability to capture the nuanced degrees of disaggregation among humans and may only represent a specialized subset of individuals, thereby lacking the ability to quantitatively disclose the universality of human preferences. To address this challenge, this paper proposes a novel approach, which employs a Bayesian framework to account for the distribution of disagreements among human preferences as training a preference model, and names it as d-PM. Besides, considering the RL strategy's inefficient and complex training process over the training efficiency, we further propose utilizing the contrastive learning strategy to train the NLG model with the preference scores derived from the d-PM model. Extensive experiments on two human-centric NLG tasks, i.e., emotional support conversation and integrity "Rule-of-Thumb" generation, show that our method consistently exceeds previous SOTA models in both automatic and human evaluations.
翻訳日:2024-01-18 01:23:34 公開日:2024-01-13
# 回路量子電磁力学における共鳴schr\"odinger cat状態

Resonant Schr\"odinger Cat States in Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2310.03854v2 )

ライセンス: Link先を確認
M. Ayyash, X. Xu, M. Mariantoni(参考訳) 本研究では、分散機構や2光子駆動、あるいは2光子散逸を必要とせず、連続駆動の量子ビットを用いた超伝導共振器におけるschr\"odinger cat状態を生成する高速方式を提案する。 我々は、クビットが駆動からオン/オフ共振しているときの分析を行う。 我々は、弱いアンハーモニッククォートにおける第3のレベルを考慮に入れた分析を拡張した。 また,強いアンハーモニックなクトリットの事例についても考察する。 本稿では, 実測実験パラメータを用いて, 量子ビットと共振器のエネルギー緩和と劣化の有無を数値シミュレーションで解析した結果と相関する。

We propose a fast scheme to generate Schr\"odinger cat states in a superconducting resonator using a continuously driven qubit without resorting to the dispersive regime, two-photon drives, or engineered two-photon dissipation. We provide analysis for when the qubit is on and off resonance from the drive. We extend our analysis to account for a third level in a weakly-anharmonic qutrit. We also discuss the case of a strongly-anharmonic qutrit. Throughout the paper, we corroborate our analytical results with numerical simulations in the presence of energy relaxation and dephasing of the qubit and resonator using realistic experimental parameters.
翻訳日:2024-01-18 01:22:31 公開日:2024-01-13
# 放射線医学レポートのための多言語自然言語処理モデル -要約は必要なすべてです!

Multilingual Natural Language Processing Model for Radiology Reports -- The Summary is all you need! ( http://arxiv.org/abs/2310.00100v4 )

ライセンス: Link先を確認
Mariana Lindo, Ana Sofia Santos, Andr\'e Ferreira, Jianning Li, Gijs Luijten, Gustavo Correia, Moon Kim, Benedikt Michael Schaarschmidt, Cornelius Deuschl, Johannes Haubold, Jens Kleesiek, Jan Egger and Victor Alves(参考訳) 放射線医学レポートのインプレッションセクションは重要なx線学的所見を要約し、これらの発見を医師に伝える上で重要な役割を担っている。 しかし,これらのサマリーの調製には時間がかかり,放射線技師のミスが生じる。 近年,放射線学報告要約モデルが多数開発されている。 それでも、これらのレポートを複数の言語で要約できるモデルは存在しない。 このようなモデルは、異なる民族的背景を持つ患者のデータを含むディープラーニングモデルの開発と将来の研究を大幅に改善する可能性がある。 本研究では,英語,ポルトガル語,ドイツ語の放射線学レポートを要約した多言語テキスト・トゥ・テキスト・トランスフォーマーを用いて,様々な言語における放射線学印象の生成を微調整して自動化した。 ブラインドテストでは、2人のボード認定放射線科医が、システムで生成されたサマリーの少なくとも70%において、品質は対応するサマリーと一致または上回っており、実質的な臨床信頼性が示唆された。 さらに,多言語モデルでは1つの言語でのみ放射線報告書を要約する他のモデルや,chatgptのような放射線報告書を要約するために特別に設計されたモデルよりも優れていた。

The impression section of a radiology report summarizes important radiology findings and plays a critical role in communicating these findings to physicians. However, the preparation of these summaries is time-consuming and error-prone for radiologists. Recently, numerous models for radiology report summarization have been developed. Nevertheless, there is currently no model that can summarize these reports in multiple languages. Such a model could greatly improve future research and the development of Deep Learning models that incorporate data from patients with different ethnic backgrounds. In this study, the generation of radiology impressions in different languages was automated by fine-tuning a model, publicly available, based on a multilingual text-to-text Transformer to summarize findings available in English, Portuguese, and German radiology reports. In a blind test, two board-certified radiologists indicated that for at least 70% of the system-generated summaries, the quality matched or exceeded the corresponding human-written summaries, suggesting substantial clinical reliability. Furthermore, this study showed that the multilingual model outperformed other models that specialized in summarizing radiology reports in only one language, as well as models that were not specifically designed for summarizing radiology reports, such as ChatGPT.
翻訳日:2024-01-18 01:21:45 公開日:2024-01-13
# 運動中の量子ウォーク探索

Quantum-walk search in motion ( http://arxiv.org/abs/2310.14345v2 )

ライセンス: Link先を確認
Himanshu Sahu and Kallol Sen(参考訳) 量子ウォーク探索アルゴリズム(quantum walk search algorithm)は、グラフ内の固定されたノードを探索するために設計された。 しかし、複数のマークノードが存在する場合、従来の検索アルゴリズムでは、マークノードを同時に増幅する能力や、マークノード間の正しい時系列順序を特定する能力が欠けている。 この制限に対処するために、マークされたノードに付加的な量子状態を導入することにより、アルゴリズムの拡張の可能性を探る。 ラベルはマークされたノードの同時増幅の曖昧さを解消する。 さらに、ラベル状態と時系列順序を関連付けることで、2次元表面上で動く粒子を追跡するアルゴリズムを拡張することができる。 本アルゴリズムは粒子の軌道を効率的に探索し,提案する量子回路によって支援される。 このコンセプトは、リアルタイムオブジェクトトラッキングからネットワーク管理やルーティングまで、さまざまなアプリケーションに対して約束されている。

In quantum computing, the quantum walk search algorithm is designed for locating fixed marked nodes within a graph. However, when multiple marked nodes exist, the conventional search algorithm lacks the capacity to simultaneously amplify the marked nodes as well as identify the correct chronological ordering between the marked nodes, if any. To address this limitation, we explore a potential extension of the algorithm by introducing additional quantum states to label the marked nodes. The labels resolve the ambiguity of simultaneous amplification of the marked nodes. Additionally, by associating the label states with a chronological ordering, we can extend the algorithm to track a moving particle on a two-dimensional surface. Our algorithm efficiently searches for the trajectory of the particle and is supported by a proposed quantum circuit. This concept holds promise for a range of applications, from real-time object tracking to network management and routing.
翻訳日:2024-01-18 01:12:28 公開日:2024-01-13
# ディープニューラルネットワークを用いた高雑音状態における量子誤差緩和:トロタライズドダイナミクス

Quantum error mitigation in the regime of high noise using deep neural network: Trotterized dynamics ( http://arxiv.org/abs/2310.13382v2 )

ライセンス: Link先を確認
A. A. Zhukov, W. V. Pogosov(参考訳) 本稿では,後処理段階に適用されたディープニューラルネットワークを用いた学習に基づく量子誤り軽減手法について検討し,その性能について検討する。 高雑音下での2次元スピン格子のトロタライズドダイナミクスのシミュレーションに着目し、有界なトレースレス観測器の期待値を強く抑制した。 数値シミュレーションを用いて,偏極・不均一なパウリ流路における局所重み1および重み2オブザーバブルのデータ品質を劇的に改善した。 同時に、コヒーレント$ZZ$クロストークの効果は緩和されないので、練習時にクロストークをランダム化されたコンパイルによってまず非コヒーレントエラーに変換する必要がある。

We address a learning-based quantum error mitigation method, which utilizes deep neural network applied at the postprocessing stage, and study its performance in presence of different types of quantum noises. We concentrate on the simulation of Trotterized dynamics of 2D spin lattice in the regime of high noise, when expectation values of bounded traceless observables are strongly suppressed. By using numerical simulations, we demonstrate a dramatic improvement of data quality for both local weight-1 and weight-2 observables for the depolarizing and inhomogeneous Pauli channels. At the same time, the effect of coherent $ZZ$ crosstalks is not mitigated, so that in practise crosstalks should be at first converted into incoherent errors by randomized compiling.
翻訳日:2024-01-18 01:12:17 公開日:2024-01-13
# penetrative ai: llmを物理的世界を理解する

Penetrative AI: Making LLMs Comprehend the Physical World ( http://arxiv.org/abs/2310.09605v2 )

ライセンス: Link先を確認
Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava(参考訳) 近年のLLM(Large Language Models)は,様々なタスクにまたがってその顕著な能力を実証している。 しかし、LLMの性質と、現実世界に関する情報を含むタスクを実行する際に、常識的な人間の知識を統合する可能性について疑問が残る。 本稿では,iotセンサとアクチュエータによる物理世界とのインタラクションと推論のために,llmをいかに拡張できるかを検討することで,これらの疑問を考察する。 本稿では,知覚信号の処理によって物理世界へ浸透するLLMの2つのレベルにおける拡張について検討する。 我々の予備的な知見は、ChatGPTが我々の探索の代表的な例であるLCMは、IoTセンサデータの解釈と物理領域におけるタスクの推論に組込み世界の知識を活用するのに、相当かつユニークな習熟度を持っていることを示唆している。 これは、従来のテキストベースのタスクを超えて、llmの新しいアプリケーションを開くだけでなく、サイバー物理システムに人間の知識を組み込む新しい方法を可能にする。

Recent developments in Large Language Models (LLMs) have demonstrated their remarkable capabilities across a range of tasks. Questions, however, persist about the nature of LLMs and their potential to integrate common-sense human knowledge when performing tasks involving information about the real physical world. This paper delves into these questions by exploring how LLMs can be extended to interact with and reason about the physical world through IoT sensors and actuators, a concept that we term "Penetrative AI". The paper explores such an extension at two levels of LLMs' ability to penetrate into the physical world via the processing of sensory signals. Our preliminary findings indicate that LLMs, with ChatGPT being the representative example in our exploration, have considerable and unique proficiency in employing the embedded world knowledge for interpreting IoT sensor data and reasoning over them about tasks in the physical realm. Not only this opens up new applications for LLMs beyond traditional text-based tasks, but also enables new ways of incorporating human knowledge in cyber-physical systems.
翻訳日:2024-01-18 01:09:45 公開日:2024-01-13
# 重デコーダを用いたニューラルコンビネーション最適化:大規模一般化に向けて

Neural Combinatorial Optimization with Heavy Decoder: Toward Large Scale Generalization ( http://arxiv.org/abs/2310.07985v2 )

ライセンス: Link先を確認
Fu Luo, Xi Lin, Fei Liu, Qingfu Zhang, Zhenkun Wang(参考訳) neural combinatorial optimization (nco) は、専門的なアルゴリズム設計を伴わずに組合せ最適化問題を解くための、有望な学習ベースのアプローチである。 しかし、ほとんどの構成的 NCO 法は、大規模なインスタンスサイズの問題では解決できないため、現実のアプリケーションにおいてその有用性を著しく低下させる。 本稿では,この問題に対処するための強力な一般化能力を有する,新しい光エンコーダと重デコーダ(lehd)モデルを提案する。 LEHDモデルは、様々な大きさの全ての利用可能なノード間の関係を動的に捉えることができるが、これは様々なスケールの問題に対するモデル一般化に有用である。 さらに,提案したLEHDモデルに対して,データ効率のトレーニング手法とフレキシブルなソリューション構築機構を開発する。 小規模問題インスタンスのトレーニングにより、lehdモデルは、走行セールスマン問題(tsp)と最大1000ノードの容量車両ルーティング問題(cvrp)のほぼ最適解を生成でき、また、実世界のtsplib問題やcvrplib問題の解法を一般化することができる。 これらの結果から,提案したLEHDモデルにより,建設的NCOの最先端性能が向上することを確認した。 コードはhttps://github.com/CIAM-Group/NCO_code/tree/main/single_objective/LEHDで公開されている。

Neural combinatorial optimization (NCO) is a promising learning-based approach for solving challenging combinatorial optimization problems without specialized algorithm design by experts. However, most constructive NCO methods cannot solve problems with large-scale instance sizes, which significantly diminishes their usefulness for real-world applications. In this work, we propose a novel Light Encoder and Heavy Decoder (LEHD) model with a strong generalization ability to address this critical issue. The LEHD model can learn to dynamically capture the relationships between all available nodes of varying sizes, which is beneficial for model generalization to problems of various scales. Moreover, we develop a data-efficient training scheme and a flexible solution construction mechanism for the proposed LEHD model. By training on small-scale problem instances, the LEHD model can generate nearly optimal solutions for the Travelling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) with up to 1000 nodes, and also generalizes well to solve real-world TSPLib and CVRPLib problems. These results confirm our proposed LEHD model can significantly improve the state-of-the-art performance for constructive NCO. The code is available at https://github.com/CIAM-Group/NCO_code/tree/main/single_objective/LEHD.
翻訳日:2024-01-18 01:08:54 公開日:2024-01-13
# householder量子化によるディープハッシュ

Deep Hashing via Householder Quantization ( http://arxiv.org/abs/2311.04207v3 )

ライセンス: Link先を確認
Lucas R. Schwengber, Lucas Resende, Paulo Orenstein, Roberto I. Oliveira(参考訳) ハッシュ化は大規模画像類似性探索の核心であり,最近の手法はディープラーニング技術によって大幅に改善されている。 このようなアルゴリズムは通常、データの連続的な埋め込みを学習する。 その後のコスト二項化のステップを避けるため、共通解として、類似性学習項(類似画像が近傍の埋め込みにグループ化されることを保証する)と量子化ペナルティ項(埋め込みエントリが例えば-1 や 1)に近いことを保証する)を組み合わせた損失関数を用いる。 しかし、これらの2つの用語間の相互作用は学習を難しくし、埋め込みを悪化させる可能性がある。 まず、量子化のない埋め込み空間上で類似性学習を行い、次に埋め込みの座標がその符号に近いように埋め込みの最適直交変換を見つけ、次に符号関数を通して変換された埋め込みを量子化する。 第2段階では, 家計行列を用いて直交変換をパラメトリズして, 確率勾配降下を効率的に活用する。 類似度測度は通常直交変換の下で不変であるため、この量子化戦略は性能面ではコストがかからない。 結果として得られるアルゴリズムは教師なし、高速、ハイパーパラメータフリーであり、既存のディープハッシュやメトリック学習アルゴリズム上で実行できる。 我々は、この手法が広く使われている画像データセットの最先端のパフォーマンスにつながることを示し、他の量子化戦略とは異なり、既存のディープハッシュアルゴリズムに一貫した性能改善をもたらすことを示す。

Hashing is at the heart of large-scale image similarity search, and recent methods have been substantially improved through deep learning techniques. Such algorithms typically learn continuous embeddings of the data. To avoid a subsequent costly binarization step, a common solution is to employ loss functions that combine a similarity learning term (to ensure similar images are grouped to nearby embeddings) and a quantization penalty term (to ensure that the embedding entries are close to binarized entries, e.g., -1 or 1). Still, the interaction between these two terms can make learning harder and the embeddings worse. We propose an alternative quantization strategy that decomposes the learning problem in two stages: first, perform similarity learning over the embedding space with no quantization; second, find an optimal orthogonal transformation of the embeddings so each coordinate of the embedding is close to its sign, and then quantize the transformed embedding through the sign function. In the second step, we parametrize orthogonal transformations using Householder matrices to efficiently leverage stochastic gradient descent. Since similarity measures are usually invariant under orthogonal transformations, this quantization strategy comes at no cost in terms of performance. The resulting algorithm is unsupervised, fast, hyperparameter-free and can be run on top of any existing deep hashing or metric learning algorithm. We provide extensive experimental results showing that this approach leads to state-of-the-art performance on widely used image datasets, and, unlike other quantization strategies, brings consistent improvements in performance to existing deep hashing algorithms.
翻訳日:2024-01-18 01:02:46 公開日:2024-01-13
# Uni-O4: マルチステップオンライン最適化によるオンラインとオフラインの深層強化学習の統合

Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization ( http://arxiv.org/abs/2311.03351v3 )

ライセンス: Link先を確認
Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, Huazhe Xu(参考訳) オフラインとオンライン強化学習(RL)を組み合わせることは、効率的かつ安全な学習に不可欠である。 しかし、従来の手法はオフラインとオンラインの学習を個別の手順として扱い、冗長な設計と限られた性能をもたらす。 余分な保守主義や正規化を導入することなく、簡単かつ効果的なオフラインおよびオンライン学習を実現できますか? 本研究では,オンライン学習とオフライン学習の両面において,政治目的のUni-o4を提案する。 目的のアライメントを2つのフェーズで保持することで、RLエージェントはオフラインとオンラインの学習をシームレスに転送することができる。 この特性は学習パラダイムの柔軟性を高め、事前学習、微調整、オフライン、オンライン学習の任意の組み合わせを可能にする。 特にオフラインフェーズでは、uni-o4はさまざまなアンサンブルポリシを活用して、推定された動作ポリシとオフラインデータセットのミスマッチ問題に対処する。 単純なオフラインポリシー評価(OPE)アプローチにより、Uni-o4はマルチステップポリシーを安全に改善することができる。 以上の手法を用いることで、これらの2つのパラダイムの融合により、より優れたオフライン初期化と、安定かつ迅速なオンライン微調整能力が得られることを示す。 現実のロボットタスクを通じて、このパラダイムの利点を、挑戦的で以前は目に見えない現実の環境に迅速に展開する上で強調する。 さらに,多数のシミュレーションベンチマークを用いた総合評価により,本手法がオフラインとオフラインのファインチューニング学習の両方で最先端の性能を実現することを実証した。 私たちのウェブサイト:https://lei-kun.github.io/uni-o4/

Combining offline and online reinforcement learning (RL) is crucial for efficient and safe learning. However, previous approaches treat offline and online learning as separate procedures, resulting in redundant designs and limited performance. We ask: Can we achieve straightforward yet effective offline and online learning without introducing extra conservatism or regularization? In this study, we propose Uni-o4, which utilizes an on-policy objective for both offline and online learning. Owning to the alignment of objectives in two phases, the RL agent can transfer between offline and online learning seamlessly. This property enhances the flexibility of the learning paradigm, allowing for arbitrary combinations of pretraining, fine-tuning, offline, and online learning. In the offline phase, specifically, Uni-o4 leverages diverse ensemble policies to address the mismatch issues between the estimated behavior policy and the offline dataset. Through a simple offline policy evaluation (OPE) approach, Uni-o4 can achieve multi-step policy improvement safely. We demonstrate that by employing the method above, the fusion of these two paradigms can yield superior offline initialization as well as stable and rapid online fine-tuning capabilities. Through real-world robot tasks, we highlight the benefits of this paradigm for rapid deployment in challenging, previously unseen real-world environments. Additionally, through comprehensive evaluations using numerous simulated benchmarks, we substantiate that our method achieves state-of-the-art performance in both offline and offline-to-online fine-tuning learning. Our website: https://lei-kun.github.io/uni-o4/ .
翻訳日:2024-01-18 01:01:00 公開日:2024-01-13
# 切り替えコストによるオンライン変換:ロバストと学習強化アルゴリズム

Online Conversion with Switching Costs: Robust and Learning-Augmented Algorithms ( http://arxiv.org/abs/2310.20598v2 )

ライセンス: Link先を確認
Adam Lechowicz, Nicolas Christianson, Bo Sun, Noman Bashir, Mohammad Hajiesmaili, Adam Wierman, Prashant Shenoy(参考訳) エネルギーと持続可能性の交点における新興問題を捉えるオンライン問題の一群である,スイッチングコストによるオンライン変換の導入と研究を行う。 この問題では、オンラインプレイヤーが一定時間内に資産の分権株をt$で購入(代替的に売る)しようとする。 各タイムステップにおいて、コスト関数(代替価格関数)が明らかにされ、プレイヤーは変換する資産の量を不当に決定しなければならない。 プレイヤーはまた、決定が連続する時間ステップ、すなわち購入量を増加または減少させるときに、スイッチングコストを発生させる。 本稿では,この問題の最小化と最大化の両面での競合性(ロバスト)しきい値に基づくアルゴリズムを導入し,決定論的オンラインアルゴリズムの最適性を示す。 次に,信頼できないブラックボックスのアドバイス(機械学習モデルからの予測など)を活用して,最悪の競合保証を犠牲にすることなく,平均ケース性能を大幅に向上させる学習型アルゴリズムを提案する。 最後に,提案手法をカーボンアウェア型ev充電ケーススタディを用いて実証的に評価し,本アルゴリズムがこの問題に対するベースライン法を大幅に改善することを示した。

We introduce and study online conversion with switching costs, a family of online problems that capture emerging problems at the intersection of energy and sustainability. In this problem, an online player attempts to purchase (alternatively, sell) fractional shares of an asset during a fixed time horizon with length $T$. At each time step, a cost function (alternatively, price function) is revealed, and the player must irrevocably decide an amount of asset to convert. The player also incurs a switching cost whenever their decision changes in consecutive time steps, i.e., when they increase or decrease their purchasing amount. We introduce competitive (robust) threshold-based algorithms for both the minimization and maximization variants of this problem, and show they are optimal among deterministic online algorithms. We then propose learning-augmented algorithms that take advantage of untrusted black-box advice (such as predictions from a machine learning model) to achieve significantly better average-case performance without sacrificing worst-case competitive guarantees. Finally, we empirically evaluate our proposed algorithms using a carbon-aware EV charging case study, showing that our algorithms substantially improve on baseline methods for this problem.
翻訳日:2024-01-18 00:57:56 公開日:2024-01-13
# GWP-ASan:生産中のメモリセーフなバグのサンプリングに基づく検出

GWP-ASan: Sampling-Based Detection of Memory-Safety Bugs in Production ( http://arxiv.org/abs/2311.09394v2 )

ライセンス: Link先を確認
Kostya Serebryany, Chris Kennelly, Mitch Phillips, Matt Denton, Marco Elver, Alexander Potapenko, Matt Morehouse, Vlad Tsyrklevich, Christian Holler, Julian Lettner, David Kilzer, Lander Brandt(参考訳) 最近の本番前のバグ検出の進歩にもかかわらず、ヒープ-use-after-freeとヒープ-buffer-overflowのバグは、cやc++で書かれたアプリケーションのセキュリティ、信頼性、開発者の生産性に関する主要な問題であり続けている。 メモリセーフな言語は使用時にこの問題を解決するが、CとC++の数十億行からなる既存のコードベースは成長を続けており、さらなるバグ検出機構が必要である。 本稿では,この2種類のメモリセーフなバグを実運用環境でほぼゼロのオーバーヘッドで検出するツール群について述べる。 これらのツールはページグラニュラーガードと低レートサンプリングを組み合わせたものだ。 言い換えれば、36歳のアイデアに“if”ステートメントを追加して、大規模に動作させたのです。 本稿では,基本的なアルゴリズム,いくつかの変種と実装,モバイル,デスクトップ,サーバアプリケーション間の複数年展開の結果について述べる。

Despite the recent advances in pre-production bug detection, heap-use-after-free and heap-buffer-overflow bugs remain the primary problem for security, reliability, and developer productivity for applications written in C or C++, across all major software ecosystems. Memory-safe languages solve this problem when they are used, but the existing code bases consisting of billions of lines of C and C++ continue to grow, and we need additional bug detection mechanisms. This paper describes a family of tools that detect these two classes of memory-safety bugs, while running in production, at near-zero overhead. These tools combine page-granular guarded allocation and low-rate sampling. In other words, we added an "if" statement to a 36-year-old idea and made it work at scale. We describe the basic algorithm, several of its variants and implementations, and the results of multi-year deployments across mobile, desktop, and server applications.
翻訳日:2024-01-18 00:48:03 公開日:2024-01-13
# 進化最適化を用いたマルチエージェント量子強化学習

Multi-Agent Quantum Reinforcement Learning using Evolutionary Optimization ( http://arxiv.org/abs/2311.05546v2 )

ライセンス: Link先を確認
Michael K\"olle, Felix Topp, Thomy Phan, Philipp Altmann, Jonas N\"u{\ss}lein, Claudia Linnhoff-Popien(参考訳) 自動運転やその他のスマート産業アプリケーションにおいて、マルチエージェント強化学習はますます重要になりつつある。 同時に、強化学習に対する有望な新しいアプローチは、量子力学の固有の性質を使い、モデルのトレーニング可能なパラメータを著しく削減する。 しかし、勾配に基づくマルチエージェント量子強化学習法はしばしば不毛高原に苦しむことがあり、古典的アプローチのパフォーマンスと一致しない。 グラデーションフリー量子強化学習のための既存のアプローチを構築し,進化最適化を用いたマルチエージェント強化学習のための変分量子回路を用いた3つの遺伝的変異を提案する。 我々は,コインゲーム環境における遺伝的変異を評価し,古典的アプローチと比較する。 その結果,同量の学習可能なパラメータを持つニューラルネットワークと比較して,変動量子回路アプローチが有意に優れていることがわかった。 より大きなニューラルネットワークと比較すると、同様の結果を97.88\%より少ないパラメータでアーカイブする手法がある。

Multi-Agent Reinforcement Learning is becoming increasingly more important in times of autonomous driving and other smart industrial applications. Simultaneously a promising new approach to Reinforcement Learning arises using the inherent properties of quantum mechanics, reducing the trainable parameters of a model significantly. However, gradient-based Multi-Agent Quantum Reinforcement Learning methods often have to struggle with barren plateaus, holding them back from matching the performance of classical approaches. We build upon an existing approach for gradient free Quantum Reinforcement Learning and propose three genetic variations with Variational Quantum Circuits for Multi-Agent Reinforcement Learning using evolutionary optimization. We evaluate our genetic variations in the Coin Game environment and also compare them to classical approaches. We showed that our Variational Quantum Circuit approaches perform significantly better compared to a neural network with a similar amount of trainable parameters. Compared to the larger neural network, our approaches archive similar results using $97.88\%$ less parameters.
翻訳日:2024-01-18 00:45:16 公開日:2024-01-13
# ブロッホ点近傍の普遍的スケールフリー非エルミート皮膚効果

Universal scalefree non-Hermitian skin effect near the Bloch point ( http://arxiv.org/abs/2311.14302v2 )

ライセンス: Link先を確認
Wei Li, Zhoujian Sun, Ze Yang and Fuxiang Li(参考訳) スケールフリー非エルミート皮膚効果(NHSE)は、非エルミート系における皮膚モードの局在長がシステムサイズに比例する現象である。 最近の研究の著者は、スケールフリーなnhseは臨界nhse、局所的非ヘルミティシティ、境界不純物効果など様々なメカニズムによって誘導できることを示した。 それでもこれらの手法には、慎重にモデリングと正確なパラメータチューニングが必要である。 対照的に,本論文では,スケールフリー nhse が普遍現象であり,熱力学的極限におけるエネルギースペクトルの非ブロッホバンド理論とホストブロッホ点によって記述できる場合,広範な系で観測可能であることを示唆する。 さらに, 一般化ブリルアンゾーンの幾何構造は, システムサイズと線形あるいは二次的にスケールできる局在長のスケーリング則を決定できることを見出した。 本稿では,スケールフリーのNHSE現象を濃縮する。

The scalefree non-Hermitian skin effect (NHSE) refers to the phenomenon that the localization length of skin modes scales proportionally with system size in non-Hermitian systems. Authors of recent studies have demonstrated that the scalefree NHSE can be induced through various mechanisms, including the critical NHSE, local non-Hermiticity, and the boundary impurity effect. Nevertheless, these methods require careful modeling and precise parameter tuning. In contrast, in this paper, we suggest that the scalefree NHSE is a universal phenomenon, observable in extensive systems if these systems can be described by non-Bloch band theory and host Bloch points on the energy spectrum in the thermodynamic limit. Crucially, we discover that the geometry of the generalized Brillouin zone determines the scaling rule of the localization length, which can scale either linearly or quadratically with the system size. In this paper, we enriches the phenomenon of the scalefree NHSE.
翻訳日:2024-01-18 00:36:47 公開日:2024-01-13
# 金融時系列のモデルフリー制御のためのカリキュラム学習と模倣学習

Curriculum Learning and Imitation Learning for Model-free Control on Financial Time-series ( http://arxiv.org/abs/2311.13326v4 )

ライセンス: Link先を確認
Woosung Koh, Insu Choi, Yuntae Jang, Gimin Kang, Woo Chang Kim(参考訳) カリキュラム学習と模倣学習はロボティクスの分野で広く活用されている。 しかし、これらの概念を高度に確率的な時系列データ上の制御タスクに活用する研究は最小限である。 本稿では,複雑な時系列データに対する代表制御タスクにおいて,これらのアプローチを理論的かつ実証的に検討する。 データ拡張によるカリキュラム学習の基本的な考え方を実装し、一方、模倣学習はオラクルからのポリシー蒸留を通じて実施する。 この結果から,カリキュラム学習は複雑な時系列よりも制御タスク性能を向上させるための新しい方向性であると考えられた。 我々の無作為なアウトサンプル経験とアブレーション研究は、時系列制御のためのカリキュラム学習を強く奨励している。 これらの発見は特に、ベースライン上で重なり合うハイパーパラメータをすべてチューニングすることで、ベースラインの利点を生かしている。 一方,模倣学習には注意が必要である。

Curriculum learning and imitation learning have been leveraged extensively in the robotics domain. However, minimal research has been done on leveraging these ideas on control tasks over highly stochastic time-series data. Here, we theoretically and empirically explore these approaches in a representative control task over complex time-series data. We implement the fundamental ideas of curriculum learning via data augmentation, while imitation learning is implemented via policy distillation from an oracle. Our findings reveal that curriculum learning should be considered a novel direction in improving control-task performance over complex time-series. Our ample random-seed out-sample empirics and ablation studies are highly encouraging for curriculum learning for time-series control. These findings are especially encouraging as we tune all overlapping hyperparameters on the baseline -- giving an advantage to the baseline. On the other hand, we find that imitation learning should be used with caution.
翻訳日:2024-01-18 00:34:38 公開日:2024-01-13
# 異常点におけるセンサ感度のパラメトリック向上

Parametrically enhancing sensor sensitivity at an exceptional point ( http://arxiv.org/abs/2312.05057v3 )

ライセンス: Link先を確認
P. Djorw\'e, M. Asjad, Y. Pennec, D. Dutykh, and B. Djafari-Rouhani(参考訳) 本研究では,非エルミート光学質量センサの感度を高める手法を提案する。 ベンチマークシステムは、メカニカル共振器が機械的に結合された2つの結合光メカニカルシステムで構成されている。 光キャビティは青色または赤色のデチューンレーザーによって駆動され、それぞれ利得と損失を生成する。 さらに、メカニカル共振器はバネ定数の変調によりパラメトリック駆動される。 光駆動場の特定の強度とパラメトリック駆動がなければ、システムは例外点(EP)を特徴とする。 機械的周波数への摂動(散逸)はepの分割(シフト)を誘発し、摂動強度の平方根としてスケールし、従来の光機械センサと比較して感度-因子の強化をもたらす。 シフトシナリオによって引き起こされる感度向上は、分裂現象に基づくものに比べて弱い。 パラメトリック駆動を切り替えることで、両方のセンシング方式の感度が大幅に向上し、センサの性能が向上する。 また,光共振器の出力スペクトルと透過特性の解析により,これらの結果を確認した。 また,EP感度の向上に加えて,スケナリの分割・シフトによるセンシングに対する非線形効果も明らかにした。 この研究は、非エルミート質量センサの感度を高める新しいメカニズムに光を当て、ナノ粒子や汚染物質の検出や水処理のセンサー性能を向上させる方法に光を当てている。

We propose a scheme to enhance the sensitivity of Non-Hermitian optomechanical mass-sensors. The benchmark system consists of two coupled optomechanical systems where the mechanical resonators are mechanically coupled. The optical cavities are driven either by a blue or red detuned laser to produce gain and loss, respectively. Moreover, the mechanical resonators are parametrically driven through the modulation of their spring constant. For a specific strength of the optical driving field and without parametric driving, the system features an Exceptional Point (EP). Any perturbation to the mechanical frequency (dissipation) induces a splitting (shifting) of the EP, which scales as the square root of the perturbation strength, resulting in a sensitivity-factor enhancement compared with conventional optomechanical sensors. The sensitivity enhancement induced by the shifting scenario is weak as compared to the one based on the splitting phenomenon. By switching on parametric driving, the sensitivity of both sensing schemes is greatly improved, yielding to a better performance of the sensor. We have also confirmed these results through an analysis of the output spectra and the transmissions of the optical cavities. In addition to enhancing EP sensitivity, our scheme also reveals nonlinear effects on sensing under splitting and shifting scenarii. This work sheds light on new mechanisms of enhancing the sensitivity of Non-Hermitian mass sensors, paving a way to improve sensors performance for better nanoparticles or pollutants detection, and for water treatment.
翻訳日:2024-01-18 00:25:59 公開日:2024-01-13
# グラフ畳み込みはトランスフォーマーの自己意識を豊かにする!

Graph Convolutions Enrich the Self-Attention in Transformers! ( http://arxiv.org/abs/2312.04234v2 )

ライセンス: Link先を確認
Jeongwhan Choi, Hyowon Wi, Jayoung Kim, Yehjin Shin, Kookjin Lee, Nathaniel Trask, Noseong Park(参考訳) トランスフォーマーは自己認識機構で知られており、自然言語処理、コンピュータビジョン、時系列モデリングなど様々なタスクで最先端のパフォーマンスを実現している。 しかし、Deep Transformerモデルの課題の1つは、レイヤ間の表現が区別できない値に収束し、パフォーマンスが著しく低下するという過度な問題である。 従来の自己着脱を単純なグラフフィルタとして解釈し,グラフ信号処理(gsp)の観点から再設計する。 本稿では,グラフフィルタに基づく自己注意(GFSA)を用いて,従来の自己注意機構よりも複雑性が若干大きい汎用的かつ効果的な自己意識学習法を提案する。 GFSAは,コンピュータビジョン,自然言語処理,グラフパターン分類,音声認識,コード分類など,様々な分野におけるトランスフォーマーの性能向上を実証する。

Transformers, renowned for their self-attention mechanism, have achieved state-of-the-art performance across various tasks in natural language processing, computer vision, time-series modeling, etc. However, one of the challenges with deep Transformer models is the oversmoothing problem, where representations across layers converge to indistinguishable values, leading to significant performance degradation. We interpret the original self-attention as a simple graph filter and redesign it from a graph signal processing (GSP) perspective. We propose graph-filter-based self-attention (GFSA) to learn a general yet effective one, whose complexity, however, is slightly larger than that of the original self-attention mechanism. We demonstrate that GFSA improves the performance of Transformers in various fields, including computer vision, natural language processing, graph pattern classification, speech recognition, and code classification.
翻訳日:2024-01-18 00:25:11 公開日:2024-01-13
# シーングラフ知識による手術用VQAの改善

Advancing Surgical VQA with Scene Graph Knowledge ( http://arxiv.org/abs/2312.10251v2 )

ライセンス: Link先を確認
Kun Yuan, Manasi Kattel, Joel L. Lavanchy, Nassir Navab, Vinkle Srivastav, Nicolas Padoy(参考訳) 現代の手術室はますます複雑化しており、革新的な手術内支援システムを必要としている。 外科的データサイエンスの焦点は主にビデオ解析に向けられているが、外科的コンピュータビジョンと言語能力の統合が求められている。 本研究の目的は,手術用VQAデータセットにおける質問条件バイアスの除去と,手術用VQAモデル設計におけるシーン認識推論の導入という,現在の手術用VQAシステムにおける2つの課題に対処することである。 まず,公開データセットにセグメンテーションと検出モデルを用いた手術シーングラフベースのデータセットSSG-QAを提案する。 楽器や解剖の空間的・行動的情報を用いて手術シーングラフを構築する。 これらのグラフは質問エンジンに入力され、多様なQAペアを生成する。 我々のSSG-QAデータセットは、既存の外科的VQAデータセットと比較して、より複雑で、多様で、幾何学的基盤があり、偏見がなく、外科的アクション指向のデータセットを提供する。 次にssg-qa-netを提案する。ssg-qa-netは、テキスト特徴とシーン特徴の相互接続を用いて、vqaモデル設計に幾何学的シーン知識を統合する軽量なシーン埋め込みインタラクションモジュール(sim)を組み込んだ、新しい手術用vqaモデルである。 SSG-QAデータセットの包括的分析により、SSG-QA-Netは、様々な質問タイプや複雑さで既存のメソッドよりも優れていることが示された。 現在の外科的vqaシステムにおける主要な制限は、複雑なクエリに答えるためのシーン知識の欠如である。 本稿では,新しい外科的VQAデータセットとモデルを提案し,VQAモデル設計に幾何学的シーン特徴を取り入れることで,その結果を著しく改善できることを示す。 ソースコードとデータセットは、https://github.com/CAMMA-public/SSG-QAで公開されます。

Modern operating room is becoming increasingly complex, requiring innovative intra-operative support systems. While the focus of surgical data science has largely been on video analysis, integrating surgical computer vision with language capabilities is emerging as a necessity. Our work aims to advance Visual Question Answering (VQA) in the surgical context with scene graph knowledge, addressing two main challenges in the current surgical VQA systems: removing question-condition bias in the surgical VQA dataset and incorporating scene-aware reasoning in the surgical VQA model design. First, we propose a Surgical Scene Graph-based dataset, SSG-QA, generated by employing segmentation and detection models on publicly available datasets. We build surgical scene graphs using spatial and action information of instruments and anatomies. These graphs are fed into a question engine, generating diverse QA pairs. Our SSG-QA dataset provides a more complex, diverse, geometrically grounded, unbiased, and surgical action-oriented dataset compared to existing surgical VQA datasets. We then propose SSG-QA-Net, a novel surgical VQA model incorporating a lightweight Scene-embedded Interaction Module (SIM), which integrates geometric scene knowledge in the VQA model design by employing cross-attention between the textual and the scene features. Our comprehensive analysis of the SSG-QA dataset shows that SSG-QA-Net outperforms existing methods across different question types and complexities. We highlight that the primary limitation in the current surgical VQA systems is the lack of scene knowledge to answer complex queries. We present a novel surgical VQA dataset and model and show that results can be significantly improved by incorporating geometric scene features in the VQA model design. The source code and the dataset will be made publicly available at: https://github.com/CAMMA-public/SSG-QA
翻訳日:2024-01-18 00:13:04 公開日:2024-01-13
# CARAT:マルチモードマルチラベル感情認識のためのコントラスト特徴再構成と集約

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition ( http://arxiv.org/abs/2312.10201v3 )

ライセンス: Link先を確認
Cheng Peng, Ke Chen, Lidan Shou, Gang Chen(参考訳) マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を特定することを目的としている。 mmerの課題は、異種データから複数のラベルの識別的特徴を効果的に捉える方法である。 最近の研究は主に、マルチモーダル情報を全てのラベルの統一表現に統合するための様々な融合戦略の探求に費やされている。 しかし、このような学習スキームは、各モダリティの特異性を見逃すだけでなく、異なるラベルに対する個々の識別的特徴を捉えることに失敗する。 さらに、ラベルやモダリティの依存関係を効果的にモデル化することはできない。 これらの課題に対処するために,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。 具体的には,モーダル分離とラベル特有の特徴を対比的に学習することにより,細粒度モダリティとラベル間の依存性をよりよくモデル化するための再構成ベースの融合機構を考案する。 モータリティの相補性をさらに活用するために,ラベル間の共起コラボレーションを充実させるシャッフルベースのアグリゲーション戦略を導入する。 CMU-MOSEIとM3EDの2つのベンチマークデータセットの実験は、最先端手法に対するCARATの有効性を示した。 コードはhttps://github.com/chengzju/CARAT.comで入手できる。

Multi-modal multi-label emotion recognition (MMER) aims to identify relevant emotions from multiple modalities. The challenge of MMER is how to effectively capture discriminative features for multiple labels from heterogeneous data. Recent studies are mainly devoted to exploring various fusion strategies to integrate multi-modal information into a unified representation for all labels. However, such a learning scheme not only overlooks the specificity of each modality but also fails to capture individual discriminative features for different labels. Moreover, dependencies of labels and modalities cannot be effectively modeled. To address these issues, this paper presents ContrAstive feature Reconstruction and AggregaTion (CARAT) for the MMER task. Specifically, we devise a reconstruction-based fusion mechanism to better model fine-grained modality-to-label dependencies by contrastively learning modal-separated and label-specific features. To further exploit the modality complementarity, we introduce a shuffle-based aggregation strategy to enrich co-occurrence collaboration among labels. Experiments on two benchmark datasets CMU-MOSEI and M3ED demonstrate the effectiveness of CARAT over state-of-the-art methods. Code is available at https://github.com/chengzju/CARAT.
翻訳日:2024-01-18 00:12:32 公開日:2024-01-13
# 言語モデルの低精度微調整における外部アクティベーションの緩和

Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models ( http://arxiv.org/abs/2312.09211v3 )

ライセンス: Link先を確認
Alireza Ghaffari, Justin Yu, Mahsa Ghazvini Nejad, Masoud Asgharian, Boxing Chen, Vahid Partovi Nia(参考訳) 大規模モデルを様々なアプリケーションに展開するためのコスト効率とエネルギー効率のアプローチとして,低精度な言語モデルの微調整が注目されている。 しかし、このアプローチはアクティベーションにおける外れ値の存在に影響を受けやすい。 アクティベーションにおける外れ値が、スケーリング係数に影響を及ぼすため、低精度システムにおける微調整言語モデルの性能に悪影響を及ぼし、より小さな値を表現することが難しくなる。 本稿では,言語モデルの低精度整数微調整において,外れ値の活性化を緩和する手法について検討する。 提案手法により,浮動小数点値 (fp16) の代わりに8ビット整数の外れ値を表すことができる。 外れ値に整数を用いる利点は、演算子タイリングを使って16ビット整数行列の乗算を回避し、この問題を効果的に解決できる点である。 我々は,低精度の微調整言語モデルの堅牢性と性能を向上させるための手法の有効性を理論的解析および支援実験で実証する。

Low-precision fine-tuning of language models has gained prominence as a cost-effective and energy-efficient approach to deploying large-scale models in various applications. However, this approach is susceptible to the existence of outlier values in activation. The outlier values in the activation can negatively affect the performance of fine-tuning language models in the low-precision regime since they affect the scaling factor and thus make representing smaller values harder. This paper investigates techniques for mitigating outlier activation in low-precision integer fine-tuning of the language models. Our proposed novel approach enables us to represent the outlier activation values in 8-bit integers instead of floating-point (FP16) values. The benefit of using integers for outlier values is that it enables us to use operator tiling to avoid performing 16-bit integer matrix multiplication to address this problem effectively. We provide theoretical analysis and supporting experiments to demonstrate the effectiveness of our approach in improving the robustness and performance of low-precision fine-tuned language models.
翻訳日:2024-01-18 00:12:03 公開日:2024-01-13
# 量子複雑性が古典的複雑さを

Where Quantum Complexity Helps Classical Complexity ( http://arxiv.org/abs/2312.14075v3 )

ライセンス: Link先を確認
Arash Vaezi, Seyed Mohammad Hussein Kazemi, Negin Bagheri Noghrehy, Seyed Mohsen Kazemi, Ali Movaghar, Mohammad Ghodsi(参考訳) 科学者は、量子コンピューティングが計算課題に対処するための新しいアプローチを提示したことを実証している。 量子コンピューティングの潜在能力を最大限活用するためには、問題解決戦略の適応が不可欠である。 それでも、量子コンピューティングの能力には境界が定義されている。 本稿では,量子コンピューティングによる複雑な古典的計算問題を解くための先行研究の集約に着目する。 目的は、これらのソリューションの徹底したインベントリを体系的にコンパイルし、さらなる探索を待つ要求される問題のコレクションを分類することである。

Scientists have demonstrated that quantum computing has presented novel approaches to address computational challenges, each varying in complexity. Adapting problem-solving strategies is crucial to harness the full potential of quantum computing. Nonetheless, there are defined boundaries to the capabilities of quantum computing. This paper concentrates on aggregating prior research efforts dedicated to solving intricate classical computational problems through quantum computing. The objective is to systematically compile an exhaustive inventory of these solutions and categorize a collection of demanding problems that await further exploration.
翻訳日:2024-01-17 23:58:02 公開日:2024-01-13
# 特徴空間の微調整による移動性の向上

Enhancing targeted transferability via feature space fine-tuning ( http://arxiv.org/abs/2401.02727v2 )

ライセンス: Link先を確認
Hui Zeng, Biwei Chen, and Anjie Peng(参考訳) aes(adversarial examples)は、プライバシ保護と堅牢なニューラルネットワークを刺激する可能性から、広く研究されている。 しかし、ターゲットのAEを未知のモデル間で転送することは依然として難しい。 本稿では,既存の単純な反復攻撃によるAEの過度なジレンマを軽減するため,特徴空間における微調整を提案する。 具体的には、ベースラインアタックによって生成されたaeから始め、ターゲットクラスに導かれる特徴を奨励し、ソースモデルの中間層にある元のクラスへの機能を妨げます。 広範囲な実験により、微調整のほんの数回のイテレーションで、既存の攻撃対象の転送能力が非自明かつ普遍的に向上できることが示されている。 我々の結果は、単純な反復攻撃がリソース集約的な手法と同等あるいはそれ以上の転送可能性をもたらすことを検証する。 コードはgithub.com/zengh5/ta_feature_ftで入手できる。

Adversarial examples (AEs) have been extensively studied due to their potential for privacy protection and inspiring robust neural networks. Yet, making a targeted AE transferable across unknown models remains challenging. In this paper, to alleviate the overfitting dilemma common in an AE crafted by existing simple iterative attacks, we propose fine-tuning it in the feature space. Specifically, starting with an AE generated by a baseline attack, we encourage the features conducive to the target class and discourage the features to the original class in a middle layer of the source model. Extensive experiments demonstrate that only a few iterations of fine-tuning can boost existing attacks' targeted transferability nontrivially and universally. Our results also verify that the simple iterative attacks can yield comparable or even better transferability than the resource-intensive methods, which rest on training target-specific classifiers or generators with additional data. The code is available at: github.com/zengh5/TA_feature_FT.
翻訳日:2024-01-17 23:51:01 公開日:2024-01-13
# ニューラルネットワークを用いた量子場理論のマルチ格子サンプリング

Multi-Lattice Sampling of Quantum Field Theories via Neural Operator-based Flows ( http://arxiv.org/abs/2401.00828v2 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 我々は、ボルツマン分布から離散体構成をサンプリングする問題を$\phi$, $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theoryとする。 そのような密度は、基礎となる汎函数密度 $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$ の近似として生じるので、演算子学習の例としてタスクをフレーム化する。 特に、時間積分が自由理論 $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]} の函数分布と対象理論 $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]} の写像を与える時間依存作用素 $\mathcal V_t$ を近似することを提案する。 特定の格子が選択されると、作用素 $\mathcal v_t$ は有限次元の時間依存ベクトル場 $v_t$ に離散化され、これは選択された格子上の有限次元分布の間の連続正規化フローを誘導する。 この流れは、離散化された自由理論と対象理論である $[d\phi] z_0^{-1} e^{-s_{0}[\phi]}$, $[d\phi] z^{-1}e^{-s[\phi]}$ の間の二相化として訓練することができる。 このような演算子ベースのフローアーキテクチャが、トレーニングされていない格子サイズにどの程度一般化するかを探索するために、$\phi^4$-theoryで実験を行い、より小さな格子に対する事前トレーニングが、ターゲット格子サイズのみのトレーニングよりも高速になることを示す。

We consider the problem of sampling discrete field configurations $\phi$ from the Boltzmann distribution $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theory. Since such densities arise as the approximation of the underlying functional density $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$, we frame the task as an instance of operator learning. In particular, we propose to approximate a time-dependent operator $\mathcal V_t$ whose time integral provides a mapping between the functional distributions of the free theory $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]}$ and of the target theory $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]}$. Whenever a particular lattice is chosen, the operator $\mathcal V_t$ can be discretized to a finite dimensional, time-dependent vector field $V_t$ which in turn induces a continuous normalizing flow between finite dimensional distributions over the chosen lattice. This flow can then be trained to be a diffeormorphism between the discretized free and target theories $[d\phi] Z_0^{-1} e^{-S_{0}[\phi]}$, $[d\phi] Z^{-1}e^{-S[\phi]}$. We run experiments on the $\phi^4$-theory to explore to what extent such operator-based flow architectures generalize to lattice sizes they were not trained on and show that pretraining on smaller lattices can lead to speedup over training only a target lattice size.
翻訳日:2024-01-17 23:48:38 公開日:2024-01-13
# ${\cal PT}$対称量子力学の特別なWKB解析:Ai-Bender-Sarkar予想の研究

Exact WKB analysis for ${\cal PT}$ symmetric quantum mechanics: Study of the Ai-Bender-Sarkar conjecture ( http://arxiv.org/abs/2401.00574v3 )

ライセンス: Link先を確認
Syo Kamata(参考訳) V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R} _{> 0}$である。 特に、エネルギースペクトルやユークリッド分割関数に関するエルミート理論の$D$-次元${\cal PT}$-対称理論と解析的連続(AC)の関係に関するAi-Bender-Sarkar (ABS) の予想を検証することを目的としている。 本研究の目的は,WKB解析によりエネルギー量子化条件を構築し,その条件を解くことで,その半減期解を記述することである。 エネルギー解に対する異質な計算を行うことにより、abs予想の妥当性を検証し、違反した場合はボレル再推定理論によってその代替形式の可能性を求める。 その結果、abs予想の妥当性は、$\omega > 0$ または $\omega = 0$: if ${\omega}>0$ のいずれかによって大きく変化し、abs予想は半古典レベルを超えると破られるが、その代替形式はボレル推定理論によって構成可能である。 ${\cal PT}$ と AC のエネルギーは、1パラメータストークス自己同型(英語版)と、AC エネルギーの正式な正確な解(resp)に対応する中央再帰形式(英語版)によって互いに関連付けられる。 ${\cal pt}$ energy) は、${\cal pt}$ energy (resp. ac energy) の変換解にボレル再開を作用させることによって直接得られる。 もし$\omega = 0$なら、逆エネルギー準位展開に関して、${\cal PT}$とACエネルギーの摂動的/非摂動的構造だけでなく、それらの摂動的部分も互いに一致しない。 これらのエネルギーは独立解であり、ABS予想の代替形はボレル再仮定理論によって再構成できない。

We consider exact WKB analysis to a ${\cal PT}$ symmetric quantum mechanics defined by the potential, $V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R} _{> 0}$. We in particular aim to verify a conjecture proposed by Ai-Bender-Sarkar (ABS), that pertains to a relation between $D$-dimensional ${\cal PT}$-symmetric theories and analytic continuation (AC) of Hermitian theories concerning the energy spectrum or Euclidean partition function. For the purpose, we construct energy quantization conditions by exact WKB analysis and write down their transseries solution by solving the conditions. By performing alien calculus to the energy solutions, we verify validity of the ABS conjecture and seek a possibility of its alternative form by Borel resummation theory if it is violated. Our results claim that the validity of the ABS conjecture drastically changes depending on whether $\omega > 0$ or $\omega = 0$: If ${\omega}>0$, then the ABS conjecture is violated when exceeding the semi-classical level, but its alternative form is constructable by Borel resummation theory. The ${\cal PT}$ and the AC energies are related to each other by a one-parameter Stokes automorphism, and a median resummed form, which corresponds to a formal exact solution, of the AC energy (resp. ${\cal PT}$ energy) is directly obtained by acting Borel resummation to a transseries solution of the ${\cal PT}$ energy (resp. AC energy). If $\omega = 0$, then, with respect to the inverse energy level-expansion, not only perturbative/non-perturbative structures of the ${\cal PT}$ and the AC energies but also their perturbative parts do not match with each other. These energies are independent solutions, and no alternative form of the ABS conjecture can be reformulated by Borel resummation theory.
翻訳日:2024-01-17 23:46:59 公開日:2024-01-13
# コントラスト信頼正規化による密検索における偽陰性の影響の軽減

Mitigating the Impact of False Negatives in Dense Retrieval with Contrastive Confidence Regularization ( http://arxiv.org/abs/2401.00165v2 )

ライセンス: Link先を確認
Shiqi Wang, Yeqin Zhang and Cam-Tu Nguyen(参考訳) オープンドメイン質問回答(QA)では,回答生成のための関連する経路を見つけるために,密集検索が重要である。 通常、コントラスト学習は、パスとクエリを同じ意味空間にマッピングする検索モデルを訓練するために使用される。 目的は、同様のものをより近づき、差別化させることである。 しかしながら、このようなシステムのトレーニングは、データアノテーション中に関連する節を見逃す可能性がある、誤った否定的な問題のために難しい。 対照的な学習を改善するために一般的に使用されるハードネガティブサンプリングは、トレーニングにおいてより多くのノイズをもたらす可能性がある。 これは、ハードネガティブが与えられたクエリに近いものであり、従って偽陰性である可能性が高いためである。 この問題に対処するために,ノイズコントラスト推定(nce)損失に対する新しいコントラスト信頼度正規化器を提案する。 解析の結果, 正規化器は, 密検索モデルが理論的に保証された偽負に対してより頑健になることを示す。 さらに,データセット内のノイズのある負の通路をフィルタするモデル非依存手法を提案し,下流の密集した検索モデルを改善した。 本手法は, 3つのデータセットを用いた実験により, 既存の高密度検索システムと比較して, 検索性能が向上することを示す。

In open-domain Question Answering (QA), dense retrieval is crucial for finding relevant passages for answer generation. Typically, contrastive learning is used to train a retrieval model that maps passages and queries to the same semantic space. The objective is to make similar ones closer and dissimilar ones further apart. However, training such a system is challenging due to the false negative issue, where relevant passages may be missed during data annotation. Hard negative sampling, which is commonly used to improve contrastive learning, can introduce more noise in training. This is because hard negatives are those closer to a given query, and thus more likely to be false negatives. To address this issue, we propose a novel contrastive confidence regularizer for Noise Contrastive Estimation (NCE) loss, a commonly used loss for dense retrieval. Our analysis shows that the regularizer helps dense retrieval models be more robust against false negatives with a theoretical guarantee. Additionally, we propose a model-agnostic method to filter out noisy negative passages in the dataset, improving any downstream dense retrieval models. Through experiments on three datasets, we demonstrate that our method achieves better retrieval performance in comparison to existing state-of-the-art dense retrieval systems.
翻訳日:2024-01-17 23:44:48 公開日:2024-01-13
# 解剖学的多視点データを用いた非画像型予測のためのディープネットワーク

A Deep Network for Explainable Prediction of Non-Imaging Phenotypes using Anatomical Multi-View Data ( http://arxiv.org/abs/2401.04579v2 )

ライセンス: Link先を確認
Yuxiang Wei, Yuqian Chen, Tengfei Xue, Leo Zekelman, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O' Donnell(参考訳) 大規模なデータセットには、結果を改善するためにマルチビュー学習方法によって活用できる補完的な情報を提供する複数の特徴セットやビューが含まれていることが多い。 各脳の解剖構造を複数の特徴セットで記述した解剖学的多視点データについて検討する。 特に、拡散MRIによる白色物質の微細構造と接続特性のセットと、構造MRIによるグレー物質領域と厚さ特徴のセットに焦点を当てる。 本研究では,多視点アプローチを適用した機械学習手法を用いて,年齢層(年齢),運動(強度),認知(画像語彙)を含む非画像表現型予測を改善する。 本稿では,異なる解剖学的ビューを用いて予測性能を向上させるための説明可能なマルチビューネットワーク(EMV-Net)を提案する。 このネットワークでは、個々の解剖学的ビューをビュー固有の特徴抽出器で処理し、各ビューから抽出された情報を学習可能な重みで融合する。 この後、ウェーブレット変換ベースのモジュールがビューをまたいだ補完情報を取得し、ビュー固有の情報を校正する。 さらに、キャリブレータは、解剖学的構造の解釈の重要性を示すために注意に基づくキャリブレーションスコアを生成する。

Large datasets often contain multiple distinct feature sets, or views, that offer complementary information that can be exploited by multi-view learning methods to improve results. We investigate anatomical multi-view data, where each brain anatomical structure is described with multiple feature sets. In particular, we focus on sets of white matter microstructure and connectivity features from diffusion MRI, as well as sets of gray matter area and thickness features from structural MRI. We investigate machine learning methodology that applies multi-view approaches to improve the prediction of non-imaging phenotypes, including demographics (age), motor (strength), and cognition (picture vocabulary). We present an explainable multi-view network (EMV-Net) that can use different anatomical views to improve prediction performance. In this network, each individual anatomical view is processed by a view-specific feature extractor and the extracted information from each view is fused using a learnable weight. This is followed by a wavelet transform-based module to obtain complementary information across views which is then applied to calibrate the view-specific information. Additionally, the calibrator produces an attention-based calibration score to indicate anatomical structures' importance for interpretation.
翻訳日:2024-01-17 23:37:06 公開日:2024-01-13
# 説明可能な人工知能(XAI):データマイニングの展望

Towards Explainable Artificial Intelligence (XAI): A Data Mining Perspective ( http://arxiv.org/abs/2401.04374v2 )

ライセンス: Link先を確認
Haoyi Xiong and Xuhong Li and Xiaofei Zhang and Jiamin Chen and Xinhao Sun and Yuchen Li and Zeyi Sun and Mengnan Du(参考訳) ディープニューラルネットワーク(DNN)の複雑さと透明性の欠如を考えると、これらのシステムをより解釈しやすくしたり、アクセス可能な言葉でそれらの振る舞いを説明するために、広範囲な努力がなされている。 アルゴリズムとモデル中心の視点に焦点を当てたほとんどのレビューとは異なり、この研究は、データ収集、処理、分析が説明可能なAI(XAI)にどのように貢献するかを「データ中心」の視点で検証する。 We categorize existing work into three categories subject to their purposes: interpretations of deep models, referring to feature attributions and reasoning processes that correlate data points with model outputs; influences of training data, examining the impact of training data nuances, such as data valuation and sample anomalies, on decision-making processes; and insights of domain knowledge, discovering latent patterns and fostering new knowledge from data and models to advance social values and scientific discovery. 具体的には、トレーニングログ、チェックポイント、モデル、その他のdnn行動記述子だけでなく、画像、テキスト、表データなどのモダリティをまたいだデータのトレーニングとテストに関するデータマイニング操作にxai方法論を蒸留します。 このようにして,本研究では,データマイニング手法と応用の観点から,xaiを包括的かつデータ中心に検討する。

Given the complexity and lack of transparency in deep neural networks (DNNs), extensive efforts have been made to make these systems more interpretable or explain their behaviors in accessible terms. Unlike most reviews, which focus on algorithmic and model-centric perspectives, this work takes a "data-centric" view, examining how data collection, processing, and analysis contribute to explainable AI (XAI). We categorize existing work into three categories subject to their purposes: interpretations of deep models, referring to feature attributions and reasoning processes that correlate data points with model outputs; influences of training data, examining the impact of training data nuances, such as data valuation and sample anomalies, on decision-making processes; and insights of domain knowledge, discovering latent patterns and fostering new knowledge from data and models to advance social values and scientific discovery. Specifically, we distill XAI methodologies into data mining operations on training and testing data across modalities, such as images, text, and tabular data, as well as on training logs, checkpoints, models and other DNN behavior descriptors. In this way, our study offers a comprehensive, data-centric examination of XAI from a lens of data mining methods and applications.
翻訳日:2024-01-17 23:36:01 公開日:2024-01-13
# マルチモーダル大言語モデルにおける視覚的エキスパートによる情報損失の解消

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models ( http://arxiv.org/abs/2401.03105v2 )

ライセンス: Link先を確認
Xin He and Longhui Wei and Lingxi Xie and Qi Tian(参考訳) MLLM(Multimodal Large Language Models)は急激な成長を遂げており、ここ数ヶ月で注目すべき貢献が数多く得られている。 一般的なトレンドは、さまざまな命令追従データセットを収集するデータ駆動手法の採用である。 しかし、CLIPのようなエンコーダが入力から視覚情報を抽出するために使用されるように、これらのアプローチでは、特に視覚知覚能力の制限に関連して、一般的な課題が続いている。 これらのエンコーダは数十億のイメージテキストペアで事前トレーニングされているが、テキストによるキャプションは画像に描かれたコンテンツの一部しかキャプチャしないため、情報損失のジレンマに苦しめられている。 そこで本研究では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。 具体的には,マルチタスクエンコーダとビジュアルツールを既存のMLLMのトレーニングと推論パイプラインに組み込むことによって,視覚入力のより包括的で正確な要約を実現する手法を提案する。 広汎な実験は、視覚専門家の統合によって達成された視覚的知覚の向上を示すMLLMの進歩の有効性を評価してきた。

Multimodal Large Language Models (MLLMs) are experiencing rapid growth, yielding a plethora of noteworthy contributions in recent months. The prevailing trend involves adopting data-driven methodologies, wherein diverse instruction-following datasets are collected. However, a prevailing challenge persists in these approaches, specifically in relation to the limited visual perception ability, as CLIP-like encoders employed for extracting visual information from inputs. Though these encoders are pre-trained on billions of image-text pairs, they still grapple with the information loss dilemma, given that textual captions only partially capture the contents depicted in images. To address this limitation, this paper proposes to improve the visual perception ability of MLLMs through a mixture-of-experts knowledge enhancement mechanism. Specifically, we introduce a novel method that incorporates multi-task encoders and visual tools into the existing MLLMs training and inference pipeline, aiming to provide a more comprehensive and accurate summarization of visual inputs. Extensive experiments have evaluated its effectiveness of advancing MLLMs, showcasing improved visual perception achieved through the integration of visual experts.
翻訳日:2024-01-17 23:33:24 公開日:2024-01-13
# 量子場理論におけるソーシャルエコーチャンバー--ファデエフ-ポポフゴースト現象、ループダイアグラム、カットオフエネルギー理論の探求

Social Echo Chambers in Quantum Field Theory: Exploring Faddeev-Popov Ghosts Phenomena, Loop Diagrams, and Cut-off Energy Theory ( http://arxiv.org/abs/2401.03067v2 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 本稿では, 量子場理論の概念を応用し, 社会現象, 特にディジタル環境, オフライン環境におけるフィルタ気泡の出現と影響を分析するための学際的アプローチを提案する。 フィルターバブルは、デジタルおよびオフライン環境で発生しがちで、メディアリテラシーと情報免疫が極めて低いデジタルネイティブをターゲットにしている。 さらに、ステルスマーケティングの余波、偽ニュース、"インスピレーションマーケティング(inspirational marketing)"など、存在しないステルスマーケティングの形式は急増しており、大きな社会的破壊と搾取につながる可能性がある。 これらは情報リテラシーの低下や知識水準の低下、学術的成果など、様々な社会的リスクの原因である。 遠隔インタラクション,近接インタラクション,ファインマン図,ループ図などの量子力学的原理を探索することにより,社会文脈における情報拡散と意見形成の理解を深めることを目指す。 本モデルでは, エージェントの意見, 相互作用確率, 柔軟性などの重要なパラメータを, さまざまな条件下での意見分布, クラスタ形成, 偏極の観察を容易にする。 本研究の目的は,量子場理論の概念を用いてフィルタ気泡現象を数学的にモデル化し,その社会的影響を分析することである。 本論は議論論文であり,提案手法は社会現象を理解するための革新的な視点を提供するが,その解釈と適用には注意を要する。

This paper presents an interdisciplinary approach to analyze the emergence and impact of filter bubbles in social phenomena, especially in both digital and offline environments, by applying the concepts of quantum field theory. Filter bubbles tend to occur in digital and offline environments, targeting digital natives with extremely low media literacy and information immunity. In addition, in the aftermath of stealth marketing, fake news, "inspirational marketing," and other forms of stealth marketing that never exist are rampant and can lead to major social disruption and exploitation. These are the causes of various social risks, including declining information literacy and knowledge levels and academic achievement. By exploring quantum mechanical principles such as remote interaction, proximity interaction, Feynman diagrams, and loop diagrams, we aim to gain a better understanding of information dissemination and opinion formation in social contexts. Our model incorporates key parameters such as agents' opinions, interaction probabilities, and flexibility in changing opinions, facilitating the observation of opinion distributions, cluster formation, and polarization under a variety of conditions. The purpose of this paper is to mathematically model the filter bubble phenomenon using the concepts of quantum field theory and to analyze its social consequences. This is a discussion paper and the proposed approach offers an innovative perspective for understanding social phenomena, but its interpretation and application require careful consideration.
翻訳日:2024-01-17 23:33:04 公開日:2024-01-13
# 大規模言語モデルを用いたメッセージ生成 : 予備的検討

Using Large Language Models for Commit Message Generation: A Preliminary Study ( http://arxiv.org/abs/2401.05926v2 )

ライセンス: Link先を確認
Linghao Zhang, Jingshu Zhao, Chong Wang, Peng Liang(参考訳) コミットメッセージ(commit message)は、gitバージョン管理システム(vcs)の重要な部分であるコミットのコード変更のテキスト記述である。 ソフトウェアアップデートの本質を捉えています。 したがって、コードの進化を理解し、開発者間の効率的なコラボレーションを促進するのに役立つ。 しかし、善良で価値のあるコミットメッセージを書くのは時間と労力がかかります。 一部の研究者はコミットメッセージの自動生成に関する広範囲な研究を行い、生成ベースや検索ベースモデルなど、この目的のためにいくつかの方法を提案した。 しかし、大規模言語モデル(LLM)がコミットメッセージを自動かつ効果的に生成できるかどうかを調査することはめったにない。 そこで本稿は,Llama 2 と ChatGPT のコミットメッセージ生成におけるオープンソースおよびクローズドソース LLM の性能を総合的に評価するための一連の実験を設計・実施した。 その結果,BLEU と Rouge-L の指標を考慮すれば,LLM は既存の指標の手法を超越するが,他の指標に遅れが生じることが示唆された。 しかし、人間による評価の後、LLMはこれらの既存の手法に対して明確な優位性を示している。 特に, 366サンプルの78%では, LLMが生成するコミットメッセージが人間によって最も優れていると評価された。 この作業は、llmsを使用してコミットメッセージを生成する有望な可能性を明らかにするだけでなく、自動生成コミットメッセージの品質評価において一般的に使用されるメトリクスの制限を探求するものだ。

A commit message is a textual description of the code changes in a commit, which is a key part of the Git version control system (VCS). It captures the essence of software updating. Therefore, it can help developers understand code evolution and facilitate efficient collaboration between developers. However, it is time-consuming and labor-intensive to write good and valuable commit messages. Some researchers have conducted extensive studies on the automatic generation of commit messages and proposed several methods for this purpose, such as generationbased and retrieval-based models. However, seldom studies explored whether large language models (LLMs) can be used to generate commit messages automatically and effectively. To this end, this paper designed and conducted a series of experiments to comprehensively evaluate the performance of popular open-source and closed-source LLMs, i.e., Llama 2 and ChatGPT, in commit message generation. The results indicate that considering the BLEU and Rouge-L metrics, LLMs surpass the existing methods in certain indicators but lag behind in others. After human evaluations, however, LLMs show a distinct advantage over all these existing methods. Especially, in 78% of the 366 samples, the commit messages generated by LLMs were evaluated by humans as the best. This work not only reveals the promising potential of using LLMs to generate commit messages, but also explores the limitations of commonly used metrics in evaluating the quality of auto-generated commit messages.
翻訳日:2024-01-17 23:26:08 公開日:2024-01-13
# trustllm: 大きな言語モデルの信頼性

TrustLLM: Trustworthiness in Large Language Models ( http://arxiv.org/abs/2401.05561v2 )

ライセンス: Link先を確認
Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong Chen, Yue Zhao(参考訳) ChatGPTによって実証された大規模言語モデル (LLM) は、その優れた自然言語処理能力でかなりの注目を集めている。 しかしながら、これらのLSMは、特に信頼性の領域において、多くの課題を提示している。 したがって、LSMの信頼性を確保することが重要なトピックである。 本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 信頼性の評価と分析, オープンチャレンジと今後の方向性について議論する。 具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。 次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。 まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることを示す。 第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。 しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。 第3に、一部のllmは信頼性を示すために過度に調整される可能性があり、不正なプロンプトを有害として扱い、その結果、応答しないことによって、有用性を損なう可能性がある点に注意が必要である。 最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。 採用されている特定の信頼に値する技術を知ることは、その効果を分析する上で重要である。

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.
翻訳日:2024-01-17 23:24:46 公開日:2024-01-13
# リモート・近接相互作用を考慮した久保・松原形状グリーン関数に基づくフィルタ気泡の量子モデリング:無期限ゴーストの紫外偏差, 切削面の考察

Quantum Modeling of Filter Bubbles Based on Kubo-Matsubara Form Green's Functions Considering Remote and Proximity Interactions:Ultraviolet Divergence to Indefinite Ghosting, Consideration of Cut Surfaces ( http://arxiv.org/abs/2401.05266v2 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) This research aims to model tracks the evolution of opinions among agents and their collective dynamics, and mathematically represents the resonance of opinions and echo chamber effects within the filter bubble by including non-physical factors such as misinformation and confirmation bias, known as FP ghosting phenomena.The indeterminate ghost phenomenon, a social science concept similar to the uncertainty principle, depicts the variability of social opinion by incorporating information uncertainty and nonlinearities in opinion formation into the model. さらに,グリーン関数の久保公式と松原形式を導入することで,時間的効果を数学的に表現し,過去,現在,未来的意見の相互作用をモデル化し,意見のばらつきと集約のメカニズムを明らかにする。 本モデルでは, フィルタ気泡の形成と成長と, 紫外拡散現象の進行をシミュレートするために, ランダムな数に基づく集団密度と極端な意見量を含む複数のパラメータを用いる。 このプロセスでは,社会内の意見の共鳴や解離が,解離関数 (type la, lb, ll, lll) を介してどのように起こるかを観察する。 しかし, 結果の解釈には慎重な検討が必要であり, 実証的検証は今後の課題であり, 本論文では, メディアの地域的差異と, 災害発生国である日本特有の地域的差異について, より深く考察した仮説と考察を述べる。

This research aims to model tracks the evolution of opinions among agents and their collective dynamics, and mathematically represents the resonance of opinions and echo chamber effects within the filter bubble by including non-physical factors such as misinformation and confirmation bias, known as FP ghosting phenomena.The indeterminate ghost phenomenon, a social science concept similar to the uncertainty principle, depicts the variability of social opinion by incorporating information uncertainty and nonlinearities in opinion formation into the model. Furthermore, by introducing the Kubo formula and the Matsubara form of the Green's function, we mathematically express temporal effects and model how past, present, and future opinions interact to reveal the mechanisms of opinion divergence and aggregation. Our model uses multiple parameters, including population density and extremes of opinion generated on a random number basis, to simulate the formation and growth of filter bubbles and their progression to ultraviolet divergence phenomena. In this process, we observe how resonance or disconnection of opinions within a society occurs via a disconnection function (type la, lb, ll, lll). However, the interpretation of the results requires careful consideration, and empirical verification is a future challenge.Finally, we will share our hypotheses and considerations for the model case of this paper, which is a close examination of regional differences in media coverage and its effectiveness and considerations unique to Japan, a disaster-prone country.
翻訳日:2024-01-17 23:23:53 公開日:2024-01-13
# CrossDiff: クロス予測拡散モデルによる自己監督型パンシャーペン表現の探索

CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion Model ( http://arxiv.org/abs/2401.05153v2 )

ライセンス: Link先を確認
Yinghui Xing, Litao Qu, Shizhou Zhang, Kai Zhang, Yanning Zhang(参考訳) パンクロマティック(PAN)画像とそれに対応するマルチスペクトル(MS)画像の融合は、PANの空間的詳細とMSのスペクトル情報とを融合することを目的としたパンシャーペン(pansharpening)とも呼ばれる。 元のMSとPANの画像を入力として取ると、スケールの変動により常に準最適結果が得られる。 本稿では,クロスディフ(CrossDiff)と呼ばれる相互予測拡散モデルの設計により,パンシャルペンの自己制御表現を提案する。 2段階の訓練がある。 第1段階では条件付きDDPMに基づいてUNet構造を事前訓練するクロス予測プレテキストタスクを導入し,第2段階ではUNetsのエンコーダを凍結してPANとMSから直接空間的・スペクトル的特徴を抽出し,融合ヘッドのみがパンシャーピングタスクに適応するように訓練する。 広範な実験により,提案手法の有効性と優越性が,教師なし法と教師なし法と比較された。 さらに、クロスセンサ実験は、他の衛星のデータセットに対する自己教師付き表現学習者の一般化能力を検証する。 再現性のためにコードをリリースします。

Fusion of a panchromatic (PAN) image and corresponding multispectral (MS) image is also known as pansharpening, which aims to combine abundant spatial details of PAN and spectral information of MS. Due to the absence of high-resolution MS images, available deep-learning-based methods usually follow the paradigm of training at reduced resolution and testing at both reduced and full resolution. When taking original MS and PAN images as inputs, they always obtain sub-optimal results due to the scale variation. In this paper, we propose to explore the self-supervised representation of pansharpening by designing a cross-predictive diffusion model, named CrossDiff. It has two-stage training. In the first stage, we introduce a cross-predictive pretext task to pre-train the UNet structure based on conditional DDPM, while in the second stage, the encoders of the UNets are frozen to directly extract spatial and spectral features from PAN and MS, and only the fusion head is trained to adapt for pansharpening task. Extensive experiments show the effectiveness and superiority of the proposed model compared with state-of-the-art supervised and unsupervised methods. Besides, the cross-sensor experiments also verify the generalization ability of proposed self-supervised representation learners for other satellite's datasets. We will release our code for reproducibility.
翻訳日:2024-01-17 23:23:09 公開日:2024-01-13
# 非凸最適化のためのサンプル・アンド・バウンド

Sample-and-Bound for Non-Convex Optimization ( http://arxiv.org/abs/2401.04812v2 )

ライセンス: Link先を確認
Yaoguang Zhai, Zhizhen Qin, Sicun Gao(参考訳) ブランチとバウンドのような非凸関数のグローバルな最適化のための標準的なアプローチは、ドメインを体系的にプルーするためにパーティションツリーを維持する。 木の大きさは次元数で指数関数的に増加する。 モンテカルロ木探索(mcts)を効率良く適用した非凸最適化のためのサンプリングベース手法を提案する。 高信頼度境界における訪問カウントの標準的な使用の代わりに、目的の数値的近似を不確実性計量として利用し、一階情報と二階情報のサンプル推定を考慮に入れる。 我々のアプローチにおけるモンテカルロ木は、木の成長における通常の固定組合せパターンを避け、探索と利用のバランスを保ちながら、積極的に将来性のある領域に拡大する。 提案アルゴリズムは,高次元非凸最適化ベンチマークにおいて,競合するベースラインに対して評価し,ハイパーパラメータの効果を解析する。

Standard approaches for global optimization of non-convex functions, such as branch-and-bound, maintain partition trees to systematically prune the domain. The tree size grows exponentially in the number of dimensions. We propose new sampling-based methods for non-convex optimization that adapts Monte Carlo Tree Search (MCTS) to improve efficiency. Instead of the standard use of visitation count in Upper Confidence Bounds, we utilize numerical overapproximations of the objective as an uncertainty metric, and also take into account of sampled estimates of first-order and second-order information. The Monte Carlo tree in our approach avoids the usual fixed combinatorial patterns in growing the tree, and aggressively zooms into the promising regions, while still balancing exploration and exploitation. We evaluate the proposed algorithms on high-dimensional non-convex optimization benchmarks against competitive baselines and analyze the effects of the hyper parameters.
翻訳日:2024-01-17 23:21:04 公開日:2024-01-13
# ハイブリッド量子機械学習アーキテクチャにおける量子と古典的貢献の相違

Disentangling Quantum and Classical Contributions in Hybrid Quantum Machine Learning Architectures ( http://arxiv.org/abs/2311.05559v2 )

ライセンス: Link先を確認
Michael K\"olle, Jonas Maurer, Philipp Altmann, Leo S\"unkel, Jonas Stein, Claudia Linnhoff-Popien(参考訳) 量子コンピューティングは優れた計算能力、特にデータ集約的なタスクの可能性を秘めている。 しかし、量子ハードウェアの現状は、入力サイズに厳しい制限を与えている。 これに対処するために、雑多な入力を扱うことができる事前学習された古典モデルと変分量子回路を融合したハイブリッド転送学習ソリューションが開発されている。 しかし、各コンポーネント -- 古典的および量子的 -- がモデルの結果にどの程度貢献しているかは、いまだに不明である。 本稿では,プレトレーニングされたネットワークを圧縮に利用する代わりに,オートエンコーダを用いて,圧縮したデータから圧縮したデータを導出するハイブリッドアーキテクチャを提案する。 この圧縮されたデータは、オートエンコーダのエンコーダ部から量子成分にチャネルされる。 2つの最先端ハイブリッド転送学習アーキテクチャ、2つの純粋古典的アーキテクチャ、1つの量子アーキテクチャに対して、モデルの分類能力を評価する。 その精度は、バンクノート認証、乳がんウィスコンシン、MNIST桁、オーディオMNISTの4つのデータセットで比較される。 我々の研究は、古典的成分がハイブリッドトランスファーラーニングにおける分類に大きな影響を与えることを示唆している。 我々のモデルの性能は振幅埋め込みを用いた変分量子回路の性能と一致し、実現可能な代替品として位置づける。

Quantum computing offers the potential for superior computational capabilities, particularly for data-intensive tasks. However, the current state of quantum hardware puts heavy restrictions on input size. To address this, hybrid transfer learning solutions have been developed, merging pre-trained classical models, capable of handling extensive inputs, with variational quantum circuits. Yet, it remains unclear how much each component -- classical and quantum -- contributes to the model's results. We propose a novel hybrid architecture: instead of utilizing a pre-trained network for compression, we employ an autoencoder to derive a compressed version of the input data. This compressed data is then channeled through the encoder part of the autoencoder to the quantum component. We assess our model's classification capabilities against two state-of-the-art hybrid transfer learning architectures, two purely classical architectures and one quantum architecture. Their accuracy is compared across four datasets: Banknote Authentication, Breast Cancer Wisconsin, MNIST digits, and AudioMNIST. Our research suggests that classical components significantly influence classification in hybrid transfer learning, a contribution often mistakenly ascribed to the quantum element. The performance of our model aligns with that of a variational quantum circuit using amplitude embedding, positioning it as a feasible alternative.
翻訳日:2024-01-17 21:36:02 公開日:2024-01-13
# 変圧器におけるクロスタスクシーケンス継続回路の同定

Locating Cross-Task Sequence Continuation Circuits in Transformers ( http://arxiv.org/abs/2311.04131v2 )

ライセンス: Link先を確認
Michael Lan, Fazl Barez(参考訳) トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にする。 最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる可読表現にリバースエンジニアリングすることを目的としている。 この研究は、桁数、数語数、月数の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。 回路解析手法の適用により、シーケンス部材の検出と次の配列部材の予測に責任を負うキーサブ回路を同定する。 解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存することが明らかとなった。 全体として、共有計算構造の文書化は、モデルの振る舞いのより良い予測、エラーの識別、より安全な編集手順を可能にする。 トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of digits, number words, and months. Through the application of circuit analysis techniques, we identify key sub-circuits responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Overall, documenting shared computational structures enables better prediction of model behaviors, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.
翻訳日:2024-01-17 21:35:40 公開日:2024-01-13
# 事前学習型言語モデルをニューラルネットワーク翻訳に統合する

Integrating Pre-trained Language Model into Neural Machine Translation ( http://arxiv.org/abs/2310.19680v4 )

ライセンス: Link先を確認
Soon-Jae Hwang, Chang-Sung Jeong(参考訳) ニューラルネットワーク翻訳(NMT)は、広範囲の研究・開発を通じて自然言語処理において重要な技術となっている。 しかし、高品質なバイリンガル言語ペアデータの不足は、NMTの性能向上に依然として大きな課題をもたらしている。 近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用が検討されている。 しかし, PLM モデルと NMT モデルの不整合性の問題は未解決のままである。 本研究では PLM 統合 NMT (PiNMT) モデルを提案する。 PiNMTモデルは、PLM Multi Layer Converter、Embedding Fusion、Cosine Alignmentの3つの重要なコンポーネントで構成され、それぞれがNMTに効果的なPLM情報を提供する上で重要な役割を果たす。 さらに,本論文では,個別学習率と2段階学習という2つのトレーニング戦略についても紹介する。 提案したPiNMTモデルとトレーニング戦略を実装することで,IWSLT'14 En$\leftrightarrow$Deデータセット上で最先端のパフォーマンスを実現する。 本研究の結果は,非互換性を克服し,性能を向上させるため,PLMとNMTを効率的に統合する新たなアプローチを示すものである。

Neural Machine Translation (NMT) has become a significant technology in natural language processing through extensive research and development. However, the deficiency of high-quality bilingual language pair data still poses a major challenge to improving NMT performance. Recent studies have been exploring the use of contextual information from pre-trained language model (PLM) to address this problem. Yet, the issue of incompatibility between PLM and NMT model remains unresolved. This study proposes PLM-integrated NMT (PiNMT) model to overcome the identified problems. PiNMT model consists of three critical components, PLM Multi Layer Converter, Embedding Fusion, and Cosine Alignment, each playing a vital role in providing effective PLM information to NMT. Furthermore, two training strategies, Separate Learning Rates and Dual Step Training, are also introduced in this paper. By implementing the proposed PiNMT model and training strategy, we achieve state-of-the-art performance on the IWSLT'14 En$\leftrightarrow$De dataset. This study's outcomes are noteworthy as they demonstrate a novel approach for efficiently integrating PLM with NMT to overcome incompatibility and enhance performance.
翻訳日:2024-01-17 21:34:11 公開日:2024-01-13
# 二次ニューロンからなるフィードフォワードネットワークの効率的なベクトル化バックプロパゲーションアルゴリズム

Efficient Vectorized Backpropagation Algorithms for Training Feedforward Networks Composed of Quadratic Neurons ( http://arxiv.org/abs/2310.02901v2 )

ライセンス: Link先を確認
Mathew Mithra Noel and Venkataraman Muthiah-Nakarajan(参考訳) 入力の高次多重項関数に活性化関数を適用して出力を計算する高次人工ニューロンはこれまで検討されてきたが、余分なパラメータや計算コストのために受け入れられなかった。 しかし、高次ニューロンの決定境界は超平面ではなく複雑な表面になるため、高次ニューロンは学習能力が大幅に向上する。 単一の二次ニューロンの境界は、多くの非線形分離可能なデータセットを学習できる一般的な超量子曲面である。 二次形式は対称行列で表現できるので、追加のパラメータは$n^2$ではなく$\frac{n(n+1)}{2}$である。 二次ロジスティック回帰モデルが最初に提示される。 単一二次ニューロンによるXOR問題の解について考察する。 二次ニューロンからなるフィードフォワードネットワークにおける前方および後方伝播の完全ベクトル化方程式を導出する。 学習能力と計算コストの妥協を提供するニューロン1つにつき1ドル追加のパラメータしか持たない縮小パラメータ2次ニューラルネットワークモデルが提示される。 ベンチマーク分類データセットの比較により、二次ニューロンの最終層が、隠れた層ニューロンを著しく少ない精度でネットワークを高い精度で達成できることを示した。 具体的には、$\mathcal{C}$有界クラスタからなる任意のデータセットは、$\mathcal{C}$2次ニューロンの単一の層でのみ分離可能であることを示す。

Higher order artificial neurons whose outputs are computed by applying an activation function to a higher order multinomial function of the inputs have been considered in the past, but did not gain acceptance due to the extra parameters and computational cost. However, higher order neurons have significantly greater learning capabilities since the decision boundaries of higher order neurons can be complex surfaces instead of just hyperplanes. The boundary of a single quadratic neuron can be a general hyper-quadric surface allowing it to learn many nonlinearly separable datasets. Since quadratic forms can be represented by symmetric matrices, only $\frac{n(n+1)}{2}$ additional parameters are needed instead of $n^2$. A quadratic Logistic regression model is first presented. Solutions to the XOR problem with a single quadratic neuron are considered. The complete vectorized equations for both forward and backward propagation in feedforward networks composed of quadratic neurons are derived. A reduced parameter quadratic neural network model with just $ n $ additional parameters per neuron that provides a compromise between learning ability and computational cost is presented. Comparison on benchmark classification datasets are used to demonstrate that a final layer of quadratic neurons enables networks to achieve higher accuracy with significantly fewer hidden layer neurons. In particular this paper shows that any dataset composed of $\mathcal{C}$ bounded clusters can be separated with only a single layer of $\mathcal{C}$ quadratic neurons.
翻訳日:2024-01-17 21:32:15 公開日:2024-01-13
# iSCAN:非線形付加雑音モデルにおける因果メカニズムのシフト

iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive Noise Models ( http://arxiv.org/abs/2306.17361v2 )

ライセンス: Link先を確認
Tianyu Chen, Kevin Bello, Bryon Aragam, Pradeep Ravikumar(参考訳) 構造因果モデル(scms)は複雑なシステムにおける変数間の因果関係を表現するために様々な分野において広く使われている。 残念ながら、根底にある因果構造はしばしば不明であり、データからそれを推定することは難しい課題である。 しかし、多くの状況において、最終的なゴールは、個々のデータセットの完全な因果構造を学ぶ代わりに、関連するデータセット間の因果メカニズムにおける変化(シフト)をローカライズすることである。 いくつかの応用には、根本原因分析、健康とがんの個体間の遺伝子制御ネットワーク構造の変化の分析、分布の変化の説明などが含まれる。 本稿では,各SCMのDAG構造全体を推定することなく,同一変数集合上の2つ以上の関連するデータセットの因果メカニズムシフトを特定することに焦点を当てる。 この設定の下での先行研究は、ガウスノイズを持つ線形モデルを仮定し、代わりに、この研究では、各scmはより一般的な非線形付加ノイズモデル (anms) に属すると仮定する。 この研究の重要な技術的貢献は、混合分布に対するスコア関数のヤコビアンが、一般的な非パラメトリック関数機構の下でのシフトの同定を可能にすることを示すことである。 シフト変数が特定されると、シフト変数の構造的差異を見積もるために、最近の研究を活用しています。 このアプローチの適用性を示すために,合成データと実世界のデータの実験を行った。 提案手法を実装したコードは、https://github.com/kevinsbello/iSCAN.comで公開されている。

Structural causal models (SCMs) are widely used in various disciplines to represent causal relationships among variables in complex systems. Unfortunately, the underlying causal structure is often unknown, and estimating it from data remains a challenging task. In many situations, however, the end goal is to localize the changes (shifts) in the causal mechanisms between related datasets instead of learning the full causal structure of the individual datasets. Some applications include root cause analysis, analyzing gene regulatory network structure changes between healthy and cancerous individuals, or explaining distribution shifts. This paper focuses on identifying the causal mechanism shifts in two or more related datasets over the same set of variables -- without estimating the entire DAG structure of each SCM. Prior work under this setting assumed linear models with Gaussian noises; instead, in this work we assume that each SCM belongs to the more general class of nonlinear additive noise models (ANMs). A key technical contribution of this work is to show that the Jacobian of the score function for the mixture distribution allows for the identification of shifts under general non-parametric functional mechanisms. Once the shifted variables are identified, we leverage recent work to estimate the structural differences, if any, for the shifted variables. Experiments on synthetic and real-world data are provided to showcase the applicability of this approach. Code implementing the proposed method is open-source and publicly available at https://github.com/kevinsbello/iSCAN.
翻訳日:2024-01-17 21:30:16 公開日:2024-01-13
# 生涯自己適応を用いた学習型自己適応システムにおける適応空間のドリフト処理

Dealing with Drift of Adaptation Spaces in Learning-based Self-Adaptive Systems using Lifelong Self-Adaptation ( http://arxiv.org/abs/2211.02658v4 )

ライセンス: Link先を確認
Omid Gheibi and Danny Weyns(参考訳) 近年、機械学習(ML)は自己適応をサポートする一般的なアプローチとなっている。 MLは、不確実性とスケーラブルな意思決定の下での最新のランタイムモデルを維持するなど、自己適応におけるいくつかの問題に対処するために使用されてきた。 しかし、MLの利用には固有の課題が伴う。 本稿では,学習型自己適応システムにおいて特に重要な課題である適応空間のドリフトに着目した。 適応空間では、適応オプションの集合を参照し、自己適応システムは、適応オプションの推定品質特性に基づいて、所定のタイミングで適応を選択することができる。 適応空間のドリフトは不確実性から始まり、適応オプションの品質特性に影響を及ぼす。 このようなドリフトは、最終的に適応オプションが適応目標の初期セットを満たすことができず、システムの品質を劣化させたり、適応オプションが出現して適応目標が拡張されることを示唆する。 MLでは、そのようなシフトは、一般的なML技術が扱う問題のあるターゲットデータにおいて、新しいクラスの出現に対応する。 この問題に対処するために,生涯ML層を用いた学習に基づく自己適応システムを強化する,新たな自己適応手法を提案する。 このアプローチを生涯の自己適応と呼んでいる。 生涯ml層は、システムとその環境を追跡し、その知識と現在のタスクを関連付け、違いに基づいて新しいタスクを特定し、それに応じて自己適応システムの学習モデルを更新する。 人間の利害関係者は学習プロセスを支援し、学習と目標モデルを調整するために関与する。 本稿では、生涯の自己適応のための一般的なアーキテクチャを提案し、自己適応の意思決定に影響を与える適応空間の漂流の場合に適用する。 DeltaIoTの例を使って,一連のシナリオに対するアプローチを検証する。

Recently, machine learning (ML) has become a popular approach to support self-adaptation. ML has been used to deal with several problems in self-adaptation, such as maintaining an up-to-date runtime model under uncertainty and scalable decision-making. Yet, exploiting ML comes with inherent challenges. In this paper, we focus on a particularly important challenge for learning-based self-adaptive systems: drift in adaptation spaces. With adaptation space we refer to the set of adaptation options a self-adaptive system can select from at a given time to adapt based on the estimated quality properties of the adaptation options. Drift of adaptation spaces originates from uncertainties, affecting the quality properties of the adaptation options. Such drift may imply that eventually no adaptation option can satisfy the initial set of the adaptation goals, deteriorating the quality of the system, or adaptation options may emerge that allow enhancing the adaptation goals. In ML, such shift corresponds to novel class appearance, a type of concept drift in target data that common ML techniques have problems dealing with. To tackle this problem, we present a novel approach to self-adaptation that enhances learning-based self-adaptive systems with a lifelong ML layer. We refer to this approach as lifelong self-adaptation. The lifelong ML layer tracks the system and its environment, associates this knowledge with the current tasks, identifies new tasks based on differences, and updates the learning models of the self-adaptive system accordingly. A human stakeholder may be involved to support the learning process and adjust the learning and goal models. We present a general architecture for lifelong self-adaptation and apply it to the case of drift of adaptation spaces that affects the decision-making in self-adaptation. We validate the approach for a series of scenarios using the DeltaIoT exemplar.
翻訳日:2024-01-17 21:28:44 公開日:2024-01-13
# ランダム部分空間とディリクレ過程のサブサンプリングアンサンブルを用いた教師なし外乱検出

Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures ( http://arxiv.org/abs/2401.00773v2 )

ライセンス: Link先を確認
Dongwook Kim, Juyeon Park, Hee Cheol Chung, Seonghyun Jeong(参考訳) 確率的混合モデルは、その解釈可能性と統計的原理の直感的根拠のために教師なしの異常検出のための貴重なツールとして認識される。 このフレームワークでは、dirichletプロセス混合モデルが、クラスタリングと異常検出タスクの両方において、従来の有限混合モデルの魅力的な代替として現れる。 しかしながら、その明らかな利点にもかかわらず、教師なしの異常検出におけるディリクレ過程混合モデルの普及は、検出器構築時の計算の非効率性や異常値に対する感度に関する課題によって妨げられている。 これらの課題に対処するために, ジリクレ過程ガウス混合系のアンサンブルに基づく新しい異常検出法を提案する。 提案手法は, ランダムな部分空間とサブサンプリングアンサンブルに乗じて, 効率的な計算を行うだけでなく, 出力器の堅牢性を向上する, 完全教師なしのアルゴリズムである。 さらに,提案手法はディリクレプロセス混合系の変分推論を活用し,効率的な高速計算を実現する。 ベンチマークデータセットを用いた実証研究により,本手法は教師なし外乱検出の既存手法よりも優れていることが示された。

Probabilistic mixture models are acknowledged as a valuable tool for unsupervised outlier detection owing to their interpretability and intuitive grounding in statistical principles. Within this framework, Dirichlet process mixture models emerge as a compelling alternative to conventional finite mixture models for both clustering and outlier detection tasks. However, despite their evident advantages, the widespread adoption of Dirichlet process mixture models in unsupervised outlier detection has been hampered by challenges related to computational inefficiency and sensitivity to outliers during the construction of detectors. To tackle these challenges, we propose a novel outlier detection method based on ensembles of Dirichlet process Gaussian mixtures. The proposed method is a fully unsupervised algorithm that capitalizes on random subspace and subsampling ensembles, not only ensuring efficient computation but also enhancing the robustness of the resulting outlier detector. Moreover, the proposed method leverages variational inference for Dirichlet process mixtures to ensure efficient and fast computation. Empirical studies with benchmark datasets demonstrate that our method outperforms existing approaches for unsupervised outlier detection.
翻訳日:2024-01-17 21:19:29 公開日:2024-01-13
# AI生成テキストの識別におけるハイブリッドディープラーニングモデルの有効性の評価

Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text ( http://arxiv.org/abs/2311.15565v3 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji(参考訳) 私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。 さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。 高度な自然言語処理技術は、テキストの特徴の分析を容易にする。 高度なニューラルネットワークを組み合わせることで、aiと人間のコンテンツのニュアンスの違いを検出することができる。

My research investigates the use of cutting-edge hybrid deep learning models to accurately differentiate between AI-generated text and human writing. I applied a robust methodology, utilising a carefully selected dataset comprising AI and human texts from various sources, each tagged with instructions. Advanced natural language processing techniques facilitated the analysis of textual features. Combining sophisticated neural networks, the custom model enabled it to detect nuanced differences between AI and human content.
翻訳日:2024-01-17 21:16:48 公開日:2024-01-13
# MiTTenS: 翻訳における誤認識を評価するデータセット

MiTTenS: A Dataset for Evaluating Misgendering in Translation ( http://arxiv.org/abs/2401.06935v1 )

ライセンス: Link先を確認
Kevin Robinson, Sneha Kudugunta, Romina Stella, Sunipa Dev, Jasmijn Bastings(参考訳) ミスジェンダー(英: missgendering)とは、性同一性を反映しない方法で誰かを指す行為である。 翻訳可能な基礎モデルを含む翻訳システムは、誤訳の被害をもたらすエラーを発生させることができる。 英語の翻訳や翻訳を行う際の潜在的な害の程度を測定するために,従来デジタルリソースに不足していたものを含む,さまざまな言語ファミリーやスクリプトから26の言語をカバーしたデータセットMiTTenSを導入する。 データセットは、既知の障害パターン、より長い合成された通路、複数のドメインから派生した自然通路をターゲットにした手作りの通路で構築されている。 我々は、ニューラルネットワーク翻訳システムと基礎モデルの両方を評価し、データセットの有用性を実証し、高いリソース言語であっても、すべてのシステムが誤りを犯すことを示す。

Misgendering is the act of referring to someone in a way that does not reflect their gender identity. Translation systems, including foundation models capable of translation, can produce errors that result in misgendering harms. To measure the extent of such potential harms when translating into and out of English, we introduce a dataset, MiTTenS, covering 26 languages from a variety of language families and scripts, including several traditionally underpresented in digital resources. The dataset is constructed with handcrafted passages that target known failure patterns, longer synthetically generated passages, and natural passages sourced from multiple domains. We demonstrate the usefulness of the dataset by evaluating both dedicated neural machine translation systems and foundation models, and show that all systems exhibit errors resulting in misgendering harms, even in high resource languages.
翻訳日:2024-01-17 20:57:40 公開日:2024-01-13
# nhanes-gcp:national health and nutrition examination surveyのデータを用いた再現可能な機械学習にgoogle cloud platformとbigquery mlを活用する

NHANES-GCP: Leveraging the Google Cloud Platform and BigQuery ML for reproducible machine learning with data from the National Health and Nutrition Examination Survey ( http://arxiv.org/abs/2401.06967v1 )

ライセンス: Link先を確認
B. Ross Katz, Abdul Khan, James York-Winegar, and Alexander J. Titus(参考訳) NHANES(National Health and Nutrition Examination Survey, NHANES)は、アメリカにおける成人および子供の健康状態と栄養状態を評価するためのCDC(Centers for Disease Control and Prevention)が主導する研究プログラムである。 NHANESデータは、バイオ統計学者や臨床科学者によって米国中の健康動向を研究するために頻繁に使用されるが、あらゆる分析には使用前に広範囲なデータ管理とクリーニングが必要である。 ここでは、Google Cloud Platform(GCP)上に構築されたCloud Development Kit for Terraform (CDKTF) Infrastructure-as-Code (IaC)およびData Build Tool (dbt)リソースであるNHANES-GCPを紹介します。 GCPの現在の価格設定では、NHANES-GCPは実行に2ドル未満、NHANESデータをホストするために必要なコストは15ドル未満である。 我々は、BigQuery MLを活用して、データの選択、データの統合、機械学習と統計モデルのトレーニング、そして単一のSQLのようなクエリから結果を生成するプロセスを実行する。 NHANES-GCPは、分析の再現性を高め、統計、機械学習、微調整された大規模言語モデル(LLM)のための、よく設計されたNHANESデータリソースを作成するように設計されている。 NHANES-GCPはhttps://github.com/In-Vivo-Group/NHANES-GCPで利用可能である。

Summary: NHANES, the National Health and Nutrition Examination Survey, is a program of studies led by the Centers for Disease Control and Prevention (CDC) designed to assess the health and nutritional status of adults and children in the United States (U.S.). NHANES data is frequently used by biostatisticians and clinical scientists to study health trends across the U.S., but every analysis requires extensive data management and cleaning before use and this repetitive data engineering collectively costs valuable research time and decreases the reproducibility of analyses. Here, we introduce NHANES-GCP, a Cloud Development Kit for Terraform (CDKTF) Infrastructure-as-Code (IaC) and Data Build Tool (dbt) resources built on the Google Cloud Platform (GCP) that automates the data engineering and management aspects of working with NHANES data. With current GCP pricing, NHANES-GCP costs less than $2 to run and less than $15/yr of ongoing costs for hosting the NHANES data, all while providing researchers with clean data tables that can readily be integrated for large-scale analyses. We provide examples of leveraging BigQuery ML to carry out the process of selecting data, integrating data, training machine learning and statistical models, and generating results all from a single SQL-like query. NHANES-GCP is designed to enhance the reproducibility of analyses and create a well-engineered NHANES data resource for statistics, machine learning, and fine-tuning Large Language Models (LLMs). Availability and implementation" NHANES-GCP is available at https://github.com/In-Vivo-Group/NHANES-GCP
翻訳日:2024-01-17 20:46:28 公開日:2024-01-13
# 低分解LiDARデータを用いた3次元物体検出と高分解能トラフィックパラメータ抽出

3D Object Detection and High-Resolution Traffic Parameters Extraction Using Low-Resolution LiDAR Data ( http://arxiv.org/abs/2401.06946v1 )

ライセンス: Link先を確認
Linlin Zhang, Xiang Yu, Armstrong Aboah, Yaw Adu-Gyamfi(参考訳) 交通量データ収集は交通工学と都市計画において重要な側面であり、交通パターン、渋滞、インフラの効率に関する重要な洞察を提供する。 従来の手動のトラフィックデータ収集手法は、時間とコストの両方がかかる。 しかし、現代の技術の出現、特に光検出・追跡(LiDAR)は、効率的かつ正確なデータ収集を可能にして、プロセスに革命をもたらした。 トラフィックデータ収集にLiDARを使用することの利点にもかかわらず、以前の研究では、その普及を妨げる2つの大きな制限が特定されている。 対象物の全点クラウド情報を取得するために複数のLiDARシステムが必要であり、オブジェクト検出タスクに3Dバウンディングボックスをアノテートする作業が集中的に行われる。 これらの課題に対応するため、本研究では、複数のLiDARシステムの必要性を軽減し、3Dアノテーションプロセスを簡素化する革新的なフレームワークを提案する。 この目的を達成するために,データ取得コストの削減を目的とした単一のLiDARシステムを採用し,点密度を用いて点クラウド情報を埋める点クラウドコンプリート(PCC)フレームワークを開発することにより,欠落点クラウド情報の制限に対処した。 さらに,ゼロショット学習による車両や歩行者の検出や,高さや加速度,速度といった対象物から低~高機能な特徴を抽出するためのユニークな枠組みを提案した。 2次元境界箱検出と抽出された高さ情報を用いて,人間の介入なしに自動的に3次元境界箱を生成することができる。

Traffic volume data collection is a crucial aspect of transportation engineering and urban planning, as it provides vital insights into traffic patterns, congestion, and infrastructure efficiency. Traditional manual methods of traffic data collection are both time-consuming and costly. However, the emergence of modern technologies, particularly Light Detection and Ranging (LiDAR), has revolutionized the process by enabling efficient and accurate data collection. Despite the benefits of using LiDAR for traffic data collection, previous studies have identified two major limitations that have impeded its widespread adoption. These are the need for multiple LiDAR systems to obtain complete point cloud information of objects of interest, as well as the labor-intensive process of annotating 3D bounding boxes for object detection tasks. In response to these challenges, the current study proposes an innovative framework that alleviates the need for multiple LiDAR systems and simplifies the laborious 3D annotation process. To achieve this goal, the study employed a single LiDAR system, that aims at reducing the data acquisition cost and addressed its accompanying limitation of missing point cloud information by developing a Point Cloud Completion (PCC) framework to fill in missing point cloud information using point density. Furthermore, we also used zero-shot learning techniques to detect vehicles and pedestrians, as well as proposed a unique framework for extracting low to high features from the object of interest, such as height, acceleration, and speed. Using the 2D bounding box detection and extracted height information, this study is able to generate 3D bounding boxes automatically without human intervention.
翻訳日:2024-01-17 20:45:57 公開日:2024-01-13
# 知識中心の文書のテンポラティックな見方

Knowledge-Centric Templatic Views of Documents ( http://arxiv.org/abs/2401.06945v1 )

ライセンス: Link先を確認
Isabel Cachola, Silviu Cucerzan, Allen Herring, Vuksan Mijovic, Erik Oveson, Sujay Kumar Jauhar(参考訳) 幅広いオーディエンスとコミュニケーションしたい著者は、異なるドキュメントやフォーマット(例えば、スライドデッキ、ニュースレター、レポート、パンフレットなど)で、同じ基礎となる知識についてアイデアを構成することが多い。 文書生成における先行研究は、タスクごとに異なるフォーマットの作成を考慮し、生成と評価のための独立した手法を開発してきた。 このアプローチは、断片化された学習プロセス、モデルとメソッドの冗長性、そして解離した評価につながるため、研究とアプリケーションの両方の観点からAIが支援するコンテンツの進行に最適である。 そこで本研究では,これらの文書を同一知識のテンポラティクス的視点とみなし,これらの文書のテンポラティクス的視点の生成と評価を統一することを目的としている。 まず,入力文書から最も重要な情報を抽出し,その情報を構造化形式で表現するためのllm方式を導入する。 この統一表現は、監督がなく、ガイダンスもほとんどなく、強力なベースラインよりも改善された複数のテンポラティックビューを生成するために使用できることを示す。 さらに,テンプレートに依存しない統一評価手法を導入し,異種下流アプリケーションのための文書生成器の構築に適用する。 最後に,人間による評価を行い,提案手法で生成された下流文書の82%を人間が好むことを示した。 さらに,新たに提案した評価基準は,従来の評価基準よりも人間の判断と相関し,統一評価手法を提供する。

Authors seeking to communicate with broader audiences often compose their ideas about the same underlying knowledge in different documents and formats -- for example, as slide decks, newsletters, reports, brochures, etc. Prior work in document generation has generally considered the creation of each separate format to be different a task, developing independent methods for generation and evaluation. This approach is suboptimal for the advancement of AI-supported content authoring from both research and application perspectives because it leads to fragmented learning processes, redundancy in models and methods, and disjointed evaluation. Thus, in our work, we consider each of these documents to be templatic views of the same underlying knowledge, and we aim to unify the generation and evaluation of these templatic views of documents. We begin by introducing an LLM-powered method to extract the most important information from an input document and represent this information in a structured format. We show that this unified representation can be used to generate multiple templatic views with no supervision and with very little guidance, improving over strong baselines. We additionally introduce a unified evaluation method that is template agnostic, and can be adapted to building document generators for heterogeneous downstream applications. Finally, we conduct a human evaluation, which shows that humans prefer 82% of the downstream documents generated with our method. Furthermore, the newly proposed evaluation metric correlates more highly with human judgement than prior metrics, while providing a unified evaluation method.
翻訳日:2024-01-17 20:45:32 公開日:2024-01-13
# ダイヤモンド-真空界面におけるレーザー誘起汚染における酸素の役割

Role of Oxygen in Laser Induced Contamination at Diamond-Vacuum Interfaces ( http://arxiv.org/abs/2401.06942v1 )

ライセンス: Link先を確認
Shreyas Parthasarathy, Maxime Joos, Lillian B. Hughes, Simon A. Meynell, Taylor A. Morrison, J. D. Risner-Jamtgaard, David M. Weld, Kunal Mukherjee, Ania C. Bleszynski Jayich(参考訳) 現代の量子科学実験の多くは、研究中の量子システムから放出される蛍光信号の高忠実度測定に依存している。 真空中における材料界面付近でこのような実験を行う際に発生する悪質な問題は「レーザー誘起汚染(英語版)」であり、レーザーが集結した表面における蛍光汚染物質の段階的な蓄積である。 これらの汚染物質からの蛍光は、例えば固体中の光学的に生成した色中心からの信号を完全に取り除くことができる。 重要なことに、この文脈ではlicがしばしば現れるが、体系的に研究されていない。 本研究では, 真空中でのダイヤモンド窒素空孔中心実験におけるlicの開始と成長速度を調査し, 汚染誘起蛍光強度とダイヤモンド表面の微量汚染物質蓄積量との関連性について検討した。 宇宙光学コミュニティで以前に研究された同様の現象に基づいて,光触媒による汚染物質の酸化を緩和戦略として用いた。 残留酸素圧はマグニチュード9次で変化し, 大気近傍の酸素部分圧ではリン酸成長が阻害されるが, 低い酸素圧力では成長速度は非単調である。 最後に, 酸素含量に対するlic成長速度の観測値依存性に関するモデルについて検討し, licのin situ緩和をより広い範囲の運転圧力に拡張する方法を提案する。

Many modern-day quantum science experiments rely on high-fidelity measurement of fluorescent signals emitted by the quantum system under study. A pernicious issue encountered when such experiments are conducted near a material interface in vacuum is "laser-induced contamination" (LIC): the gradual accretion of fluorescent contaminants on the surface where a laser is focused. Fluorescence from these contaminants can entirely drown out any signal from e.g. optically-probed color centers in the solid-state. Crucially, while LIC appears often in this context, it has not been systematically studied. In this work, we probe the onset and growth rate of LIC for a diamond nitrogen-vacancy center experiment in vacuum, and we correlate the contamination-induced fluorescence intensities to micron-scale physical build-up of contaminant on the diamond surface. Drawing upon similar phenomena previously studied in the space optics community, we use photo-catalyzed oxidation of contaminants as a mitigation strategy. We vary the residual oxygen pressure over 9 orders of magnitude and find that LIC growth is inhibited at near-atmospheric oxygen partial pressures, but the growth rate at lower oxygen pressure is non-monotonic. Finally, we discuss a model for the observed dependence of LIC growth rate on oxygen content and propose methods to extend in situ mitigation of LIC to a wider range of operating pressures.
翻訳日:2024-01-17 20:45:05 公開日:2024-01-13
# ニューラルネットワークバイアスポテンシャルを用いた希少事象の高速化サンプリング

Accelerated Sampling of Rare Events using a Neural Network Bias Potential ( http://arxiv.org/abs/2401.06936v1 )

ライセンス: Link先を確認
Xinru Hua, Rasool Ahmad, Jose Blanchet, Wei Cai(参考訳) 計算物理学および物質科学の分野では、原子スケールで発生する希少事象の効率的なサンプリングが重要である。 タンパク質の折りたたみ、構造変化、化学反応、物質拡散と変形など、幅広い重要な現象の背後にある理解メカニズムを支援する。 分子動力学やモンテカルロのような伝統的なシミュレーション手法は、これらの稀な事象の時間スケールをブルート力で捉えるのに非効率であることがしばしば証明される。 本稿では,これらの稀な事象のサンプリングを促進するために,重要サンプリングと深層ニューラルネットワーク(DNN)を組み合わせた実践的アプローチを提案する。 特に,DNNの偏差のないバイアスポテンシャル関数を近似し,重要電位関数の下での希少事象遷移の確率を最大化するよう訓練する。 この手法は高次元問題に容易に拡張でき、稀な事象遷移の推定確率の正確性に関するロバストな統計的保証を提供する。 さらに,本アルゴリズムは,既存の手法よりも新しい改良点である,任意のサンプルを積極的に生成し,学習することができる。 実験ベッドとして2次元システムを用いて, 異なるトレーニング戦略, 従来のモンテカルロサンプリング, および異なる温度下での最適バイアスポテンシャル関数の比較を行った。 数値実験の結果,dnnによる希少事象のサンプリングの有効性が示された。

In the field of computational physics and material science, the efficient sampling of rare events occurring at atomic scale is crucial. It aids in understanding mechanisms behind a wide range of important phenomena, including protein folding, conformal changes, chemical reactions and materials diffusion and deformation. Traditional simulation methods, such as Molecular Dynamics and Monte Carlo, often prove inefficient in capturing the timescale of these rare events by brute force. In this paper, we introduce a practical approach by combining the idea of importance sampling with deep neural networks (DNNs) that enhance the sampling of these rare events. In particular, we approximate the variance-free bias potential function with DNNs which is trained to maximize the probability of rare event transition under the importance potential function. This method is easily scalable to high-dimensional problems and provides robust statistical guarantees on the accuracy of the estimated probability of rare event transition. Furthermore, our algorithm can actively generate and learn from any successful samples, which is a novel improvement over existing methods. Using a 2D system as a test bed, we provide comparisons between results obtained from different training strategies, traditional Monte Carlo sampling and numerically solved optimal bias potential function under different temperatures. Our numerical results demonstrate the efficacy of the DNN-based importance sampling of rare events.
翻訳日:2024-01-17 20:44:42 公開日:2024-01-13
# ented:参照ベースブラインドフェース修復のための拡張された神経テクスチャ抽出と分布

ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face Restoration ( http://arxiv.org/abs/2401.06978v1 )

ライセンス: Link先を確認
Yuen-Fui Lau, Tianjia Zhang, Zhefan Rao, Qifeng Chen(参考訳) 本稿では,高品質かつリアルなポートレート画像の復元を目的とした,ブラインドフェイス復元のための新たなフレームワークであるentedを提案する。 提案手法では,高品質な参照画像を用いて1つの劣化した入力画像を修復する。 テクスチャ抽出・配信フレームワークを用いて,劣化した入力と参照画像の間で高品質なテクスチャ特徴を伝達する。 しかし、我々のフレームワークのStyleGANライクなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。 劣化した入力画像から抽出された潜在コードは、しばしば劣化した特徴を含んでおり、入力からのセマンティック情報と参照からの高品質なテクスチャとの整合が困難である。 この課題を克服するために、我々は2つの特別な技術を用いる。 最初のテクニックはベクトル量子化に触発され、腐敗したセマンティック機能を高品質のコード単語に置き換える。 第2の技術は、参照画像の多様体の高品質な特徴を用いて開発されたより有意義な潜在空間から、フォトリアリスティックなテクスチャ情報を運ぶスタイルコードを生成する。 合成および実世界のデータセット上で行った広範囲な実験により,本手法はよりリアルな文脈的詳細と最先端の手法を上回る結果が得られることが示された。 徹底的なアブレーション研究により,各モジュールの有効性が確認された。

We present ENTED, a new framework for blind face restoration that aims to restore high-quality and realistic portrait images. Our method involves repairing a single degraded input image using a high-quality reference image. We utilize a texture extraction and distribution framework to transfer high-quality texture features between the degraded input and reference image. However, the StyleGAN-like architecture in our framework requires high-quality latent codes to generate realistic images. The latent code extracted from the degraded input image often contains corrupted features, making it difficult to align the semantic information from the input with the high-quality textures from the reference. To overcome this challenge, we employ two special techniques. The first technique, inspired by vector quantization, replaces corrupted semantic features with high-quality code words. The second technique generates style codes that carry photorealistic texture information from a more informative latent space developed using the high-quality features in the reference image's manifold. Extensive experiments conducted on synthetic and real-world datasets demonstrate that our method produces results with more realistic contextual details and outperforms state-of-the-art methods. A thorough ablation study confirms the effectiveness of each proposed module.
翻訳日:2024-01-17 20:34:02 公開日:2024-01-13
# 体電を鳴らす:ロボットの身体がユーザの期待に及ぼす影響

Singing the Body Electric: The Impact of Robot Embodiment on User Expectations ( http://arxiv.org/abs/2401.06977v1 )

ライセンス: Link先を確認
Nathaniel Dennler, Stefanos Nikolaidis, Maja Matari\'c(参考訳) ユーザーはロボットのメンタルモデルを開発し、ロボットとどのような相互作用ができるかを概念化する。 概念化はしばしばロボットとの相互作用の前に形成され、ロボットの物理的デザインを観察することのみに基づいている。 その結果、物理的設計から形成される概念化を理解することは、ユーザーがロボットとどう対話するかを理解するために必要となる。 本稿では,ロボットの社会的・身体的能力にどのような期待が持てるかを予測するために,ロボットの具体化のマルチモーダルな特徴を用いることを提案する。 このような機能を利用することで、社会的にインタラクティブなロボットにまたがるロボットの一般的なメンタルモデルに関する情報が得られることを示す。 対話型ロボットを扱う研究者のためのインタラクションデザインと物理デザインにこれらのモデルを組み込む方法について述べる。

Users develop mental models of robots to conceptualize what kind of interactions they can have with those robots. The conceptualizations are often formed before interactions with the robot and are based only on observing the robot's physical design. As a result, understanding conceptualizations formed from physical design is necessary to understand how users intend to interact with the robot. We propose to use multimodal features of robot embodiments to predict what kinds of expectations users will have about a given robot's social and physical capabilities. We show that using such features provides information about general mental models of the robots that generalize across socially interactive robots. We describe how these models can be incorporated into interaction design and physical design for researchers working with socially interactive robots.
翻訳日:2024-01-17 20:33:42 公開日:2024-01-13
# デカップリング最適化による大規模ポイントクラウド意味セグメンテーションのためのクラス不均衡半教師付き学習

Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud Semantic Segmentation via Decoupling Optimization ( http://arxiv.org/abs/2401.06975v1 )

ライセンス: Link先を確認
Mengtian Li, Shaohui Lin, Zihan Wang, Yunhang Shen, Baochang Zhang, Lizhuang Ma(参考訳) データアノテーションコストの大幅な削減による半教師付き学習(SSL)は、大規模な3Dシーン理解において活発な研究課題となっている。 しかし、既存のSSLベースの手法は、主にクラス不均衡とポイントクラウドデータのロングテール分布のために、厳しいトレーニングバイアスに悩まされている。 その結果、テールクラスセグメンテーションに対するバイアス付き予測が導かれる。 本稿では,特徴表現学習と分類器を別の最適化方法で切り離して,バイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。 特に、まず2ラウンド擬似ラベル生成を用いて、先頭から尾へのクラスにまたがるラベルのない点を選択する。 さらに,マルチクラスの非バランスな焦点損失を導入し,特徴学習に適応的に注目する。 特徴学習後、バックボーンパラメータを修正し、グラウンドトルースポイントを用いて分類器を再訓練し、パラメータを更新する。 S3DIS, ScanNet-V2, Semantic3D, Semantic3D, SemanticKITTIを1%, 1ptで評価し, 室内および屋外の3Dポイントクラウドデータセットにおいて, 従来の最先端手法よりも優れていることを示す。

Semi-supervised learning (SSL), thanks to the significant reduction of data annotation costs, has been an active research topic for large-scale 3D scene understanding. However, the existing SSL-based methods suffer from severe training bias, mainly due to class imbalance and long-tail distributions of the point cloud data. As a result, they lead to a biased prediction for the tail class segmentation. In this paper, we introduce a new decoupling optimization framework, which disentangles feature representation learning and classifier in an alternative optimization manner to shift the bias decision boundary effectively. In particular, we first employ two-round pseudo-label generation to select unlabeled points across head-to-tail classes. We further introduce multi-class imbalanced focus loss to adaptively pay more attention to feature learning across head-to-tail classes. We fix the backbone parameters after feature learning and retrain the classifier using ground-truth points to update its parameters. Extensive experiments demonstrate the effectiveness of our method outperforming previous state-of-the-art methods on both indoor and outdoor 3D point cloud datasets (i.e., S3DIS, ScanNet-V2, Semantic3D, and SemanticKITTI) using 1% and 1pt evaluation.
翻訳日:2024-01-17 20:33:31 公開日:2024-01-13
# temporalaugmenter:信号分類のためのアンサンブルリカレントに基づくディープラーニングアプローチ

TemporalAugmenter: An Ensemble Recurrent Based Deep Learning Approach for Signal Classification ( http://arxiv.org/abs/2401.06970v1 )

ライセンス: Link先を確認
Nelly Elsayed, Constantinos L. Zekios, Navid Asadizanjani, Zag ElSayed(参考訳) アンサンブルモデリングは、全体的な性能と一般化を改善するのに役立つため、複雑な問題を解決するために広く用いられている。 本稿では,2つの学習ストリームにおける2種類の繰り返しニューラルネットワークのデータ統合において,長期的および短期的依存を考慮した時間的情報収集のためのアンサンブル・モデリングに基づく新しい時間的拡張手法を提案する。 したがって,提案モデルでは時間依存の抽出が強化される。 さらに、提案手法は、機能抽出の前処理と前処理を削減し、提案するテンポラルオーグメンタアプローチに基づくモデルを処理するために必要なエネルギーを削減し、グリーンAIに寄与する。 さらに、提案モデルは、産業、医療、人-コンピュータインタラクションアプリケーションを含む様々な領域に簡単に統合できる。 提案手法では, 音声の感情認識, 心電図信号, 信号品質検査のタスクを, 複雑度, 時間依存性の異なる3つの異なる信号として評価した。

Ensemble modeling has been widely used to solve complex problems as it helps to improve overall performance and generalization. In this paper, we propose a novel TemporalAugmenter approach based on ensemble modeling for augmenting the temporal information capturing for long-term and short-term dependencies in data integration of two variations of recurrent neural networks in two learning streams to obtain the maximum possible temporal extraction. Thus, the proposed model augments the extraction of temporal dependencies. In addition, the proposed approach reduces the preprocessing and prior stages of feature extraction, which reduces the required energy to process the models built upon the proposed TemporalAugmenter approach, contributing towards green AI. Moreover, the proposed model can be simply integrated into various domains including industrial, medical, and human-computer interaction applications. Our proposed approach empirically evaluated the speech emotion recognition, electrocardiogram signal, and signal quality examination tasks as three different signals with varying complexity and different temporal dependency features.
翻訳日:2024-01-17 20:33:04 公開日:2024-01-13
# 大語彙物体検出器の領域適応

Domain Adaptation for Large-Vocabulary Object Detectors ( http://arxiv.org/abs/2401.06969v1 )

ライセンス: Link先を確認
Kai Jiang, Jiaxing Huang, Weiying Xie, Yunsong Li, Ling Shao, Shijian Lu(参考訳) 大語彙オブジェクト検出器(LVD)は、多くのカテゴリのオブジェクトを検出し、スーパーオブジェクト性の特徴を学習し、さまざまな下流データに適用しながらオブジェクトを正確に検出する。 しかし、LVDは、データ分散とオブジェクト語彙におけるドメインの相違により、位置するオブジェクトを認識するのに苦労することが多い。 一方、CLIPのような近年のビジョン言語基盤モデルは、優れたオープン語彙認識能力を示している。 本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。 KGDは2つの段階からなる。 1) 下流ドメインデータをノードとしてエンコードし、特徴距離をエッジとして、CLIPのリッチなセマンティック関係を明示的に継承するKGを構築するためにCLIPを使用するKG抽出。 2) 抽出したKGをLVDに変換して正確なクロスドメインオブジェクト分類を可能にするKGカプセル化。 さらに、kgdは視覚とテキストの両方のkgを独立に抽出でき、様々な下流領域における検出タスクにおいて、オブジェクトのローカライゼーションとオブジェクト分類のための補完的な視覚と言語知識を提供する。 複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。

Large-vocabulary object detectors (LVDs) aim to detect objects of many categories, which learn super objectness features and can locate objects accurately while applied to various downstream data. However, LVDs often struggle in recognizing the located objects due to domain discrepancy in data distribution and object vocabulary. At the other end, recent vision-language foundation models such as CLIP demonstrate superior open-vocabulary recognition capability. This paper presents KGD, a Knowledge Graph Distillation technique that exploits the implicit knowledge graphs (KG) in CLIP for effectively adapting LVDs to various downstream domains. KGD consists of two consecutive stages: 1) KG extraction that employs CLIP to encode downstream domain data as nodes and their feature distances as edges, constructing KG that inherits the rich semantic relations in CLIP explicitly; and 2) KG encapsulation that transfers the extracted KG into LVDs to enable accurate cross-domain object classification. In addition, KGD can extract both visual and textual KG independently, providing complementary vision and language knowledge for object localization and object classification in detection tasks over various downstream domains. Experiments over multiple widely adopted detection benchmarks show that KGD outperforms the state-of-the-art consistently by large margins.
翻訳日:2024-01-17 20:32:45 公開日:2024-01-13
# CHAMP:LLMの数学的推論能力の微粒化分析のための競合レベルデータセット

CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities ( http://arxiv.org/abs/2401.06961v1 )

ライセンス: Link先を確認
Yujun Mao, Yoon Kim, Yilun Zhou(参考訳) 最近の大規模言語モデル(LLM)は、数学的推論能力を示す。 しかし、彼らがより困難な競争レベルの問題にどう対処するかは明らかではない。 また,中間的推論ステップ(チェーン・オブ・マインド・プロンプト)の自己生成型言語化が有効であることが示されているが,llmが問題特定ヒントなどの有用なサイド情報を利用できるかどうかについては,これまで検討されていない。 本稿では,このような解析を可能にするための挑戦的なベンチマークデータセットを提案する。 概念とヒント数学問題(英: Concept and Hint-Annotated Math Problems、CHAMP)は、概念や一般的な数学の事実、ヒント、問題固有のトリックを含む、高校数学の競争問題である。 これらのアノテーションにより、関連するヒントや誤解を招く概念、関連する問題など、追加情報の影響を探求することができます。 このベンチマークは困難であり、最良のモデルは標準設定で58.1%しか得点しない。 概念とヒントによって、パフォーマンスは時として改善され、一部のモデルはそのようなサイド情報を利用することができる。 さらに、モデル生成ソリューションの正しさについてアノテートする。 このコーパスを用いて、間違った推論ステップを通じて、モデルが正しい最終回答に達することがよくあります。 さらに、モデルがこれらのソリューションを検証できるかどうかをテストし、ほとんどのモデルが苦労していることを確認します。 データセットとコードはプロジェクトのwebサイトから入手できる。

Recent large language models (LLMs) have shown indications of mathematical reasoning ability. However it has not been clear how they would fare on more challenging competition-level problems. And while self-generated verbalizations of intermediate reasoning steps (i.e., chain-of-thought prompting) have been shown to be helpful, whether LLMs can make use of helpful side information such as problem-specific hints has not been investigated before. In this paper, we propose a challenging benchmark dataset for enabling such analyses. The Concept and Hint-Annotated Math Problems (CHAMP) consists of high school math competition problems, annotated with concepts, or general math facts, and hints, or problem-specific tricks. These annotations allow us to explore the effects of additional information, such as relevant hints, misleading concepts, or related problems. This benchmark is difficult, with the best model only scoring 58.1% in standard settings. With concepts and hints, performance sometimes improves, indicating that some models can make use of such side information. We further annotate model-generated solutions for their correctness. Using this corpus, we find that models often arrive at the correct final answer through wrong reasoning steps. In addition, we test whether models are able to verify these solutions, and find that most models struggle. The dataset and code are available on the project website.
翻訳日:2024-01-17 20:32:20 公開日:2024-01-13
# 物体再同定用変圧器:調査

Transformer for Object Re-Identification: A Survey ( http://arxiv.org/abs/2401.06960v1 )

ライセンス: Link先を確認
Mang Ye, Shuoyi Chen, Chenyue Li, Wei-Shi Zheng, David Crandall, Bo Du(参考訳) オブジェクト再識別(Re-ID)は、さまざまな視点から特定のオブジェクトを特定し、検索することを目的としている。 長期にわたって、この領域は主に深い畳み込みニューラルネットワークによって駆動されてきた。 近年、トランスフォーマーはコンピュータビジョンの著しい進歩を目の当たりにしており、Re-IDにおけるトランスフォーマーの応用について研究が進められている。 本稿では、TransformerベースのRe-IDの総合的なレビューと詳細な分析を行う。 Image/Video-based Re-ID, Re-ID with limited data/annotations, Cross-Modal Re-ID, Special Re-ID Scenarios に分類する際には, Transformer がこれらの領域にまたがるさまざまな課題に対処する上でのメリットを徹底的に解明する。 教師なしRe-IDの傾向を考慮し、シングル/クロスモードのタスクで最先端のパフォーマンスを実現するために、新しいトランスフォーマーベースラインUntransReIDを提案する。 この調査は、動物Re-IDの進歩を含む幅広いRe-ID研究対象もカバーしている。 動物リidの種多様性を考えると,標準化された実験ベンチマークを考案し,今後の研究を促進するためにトランスフォーマーの適用性を検討するために広範な実験を行う。 最後に、大きな基盤モデル時代において、重要かつ未解明のオープンな問題について議論し、この分野の研究者のための新しいハンドブックとして役立つと信じている。

Object Re-Identification (Re-ID) aims to identify and retrieve specific objects from varying viewpoints. For a prolonged period, this field has been predominantly driven by deep convolutional neural networks. In recent years, the Transformer has witnessed remarkable advancements in computer vision, prompting an increasing body of research to delve into the application of Transformer in Re-ID. This paper provides a comprehensive review and in-depth analysis of the Transformer-based Re-ID. In categorizing existing works into Image/Video-Based Re-ID, Re-ID with limited data/annotations, Cross-Modal Re-ID, and Special Re-ID Scenarios, we thoroughly elucidate the advantages demonstrated by the Transformer in addressing a multitude of challenges across these domains. Considering the trending unsupervised Re-ID, we propose a new Transformer baseline, UntransReID, achieving state-of-the-art performance on both single-/cross modal tasks. Besides, this survey also covers a wide range of Re-ID research objects, including progress in animal Re-ID. Given the diversity of species in animal Re-ID, we devise a standardized experimental benchmark and conduct extensive experiments to explore the applicability of Transformer for this task to facilitate future research. Finally, we discuss some important yet under-investigated open issues in the big foundation model era, we believe it will serve as a new handbook for researchers in this field.
翻訳日:2024-01-17 20:31:56 公開日:2024-01-13
# EVOKE:最適化知識蒸留を用いた仮想アバターマッピング

EVOKE: Emotion Enabled Virtual Avatar Mapping Using Optimized Knowledge Distillation ( http://arxiv.org/abs/2401.06957v1 )

ライセンス: Link先を確認
Maryam Nadeem, Raza Imam, Rouqaiah Al-Refai, Meriem Chkir, Mohamad Hoda, Abdulmotaleb El Saddik(参考訳) 仮想環境が進むにつれ、没入的で感情的な体験への需要が高まっている。 仮想環境内の3dアバターへの感情認識のシームレスな統合を目的とした軽量な感情認識フレームワークである、optimized knowledge distillation(evoke)を用いた感情対応仮想アバターマッピングを提案する。 提案手法は,公に入手可能なdeapデータセット上でのマルチラベル分類を含む知識蒸留を主観的感情クラスとして活用する。 注目すべきは、我々の蒸留モデルであるCNNは、2つの畳み込み層だけで、教師モデルより18倍少ないパラメータを持ち、計算資源をはるかに少なく要求しながら87%の精度で競合する結果が得られることである。 この性能とデプロイ可能性の均衡は、私たちのフレームワークを仮想環境システムにとって理想的な選択肢と位置づけています。 さらに,複数ラベルの分類結果を用いて,感情をカスタムデザインした3dアバターにマッピングする。

As virtual environments continue to advance, the demand for immersive and emotionally engaging experiences has grown. Addressing this demand, we introduce Emotion enabled Virtual avatar mapping using Optimized KnowledgE distillation (EVOKE), a lightweight emotion recognition framework designed for the seamless integration of emotion recognition into 3D avatars within virtual environments. Our approach leverages knowledge distillation involving multi-label classification on the publicly available DEAP dataset, which covers valence, arousal, and dominance as primary emotional classes. Remarkably, our distilled model, a CNN with only two convolutional layers and 18 times fewer parameters than the teacher model, achieves competitive results, boasting an accuracy of 87% while demanding far less computational resources. This equilibrium between performance and deployability positions our framework as an ideal choice for virtual environment systems. Furthermore, the multi-label classification outcomes are utilized to map emotions onto custom-designed 3D avatars.
翻訳日:2024-01-17 20:31:30 公開日:2024-01-13
# レトリバーとllm間の選好ギャップの橋渡し

Bridging the Preference Gap between Retrievers and LLMs ( http://arxiv.org/abs/2401.06954v1 )

ライセンス: Link先を確認
Zixuan Ke, Weize Kong, Cheng Li, Mingyang Zhang, Qiaozhu Mei and Michael Bendersky(参考訳) 大規模言語モデル (LLM) は幅広いタスクにおいて優れた結果を示してきたが, 人間のタスク関連情報を得る効果的な手段として検索が確立されてきた。 Retrieval-augmented Generation (RAG)は、知識集約的なタスクにおいて、関連する情報を見つけ出し、LLMのコンテキストウィンドウに配置することで、その効果が知られている。 しかし、レトリバーとLLMの関係はまだ解明されていない。 既存のほとんどの研究は、レトリバーとLLMを独立したコンポーネントとして扱い、人間フレンドリーな情報の検索とLLMフレンドリーなコンテキストの組み立ての間にギャップを残している。 本研究では,新しい橋梁モデルについて検討し,RAGの文脈で検索者のランク付けと選択の仮定を検証するとともに,教師付き学習と強化学習を連携させてブリッジモデルを学習するトレーニングフレームワークを提案する。 実験の結果,質問応答とパーソナライズされた生成タスクの両方において,提案手法の有効性が示された。

Large Language Models (LLMs) have demonstrated superior results across a wide range of tasks, while retrieval has long been established as an effective means of obtaining task-relevant information for humans. Retrieval-augmented Generation (RAG) are known for their effectiveness in knowledge-intensive tasks by locating relevant information and placing it within the context window of the LLM. However, the relationship between retrievers and LLMs is still under-investigated. Most existing work treats the retriever and the LLM as independent components and leaves a gap between retrieving human-friendly information and assembling a LLM-friendly context. In this work, we examine a novel bridge model, validate the ranking and selection assumptions in retrievers in the context of RAG, and propose a training framework that chains together supervised and reinforcement learning to learn a bridge model. Empirical results demonstrate the effectiveness of our method in both question-answering and personalized generation tasks.
翻訳日:2024-01-17 20:31:12 公開日:2024-01-13
# FedDriveScore: メトリクス分布の混合によるフェデレーションスコーリング運転行動

FedDriveScore: Federated Scoring Driving Behavior with a Mixture of Metric Distributions ( http://arxiv.org/abs/2401.06953v1 )

ライセンス: Link先を確認
Lin Lu(参考訳) 様々なドライバーの運転性能を統一的なスケールでスコア付けすることは、日々の走行でどれだけ安全か経済的かに基づいて、ドライバープロファイルタスクに不可欠である。 コネクテッドカーは実世界の運転データを収集する機会を提供し、スコアリングモデルを構築するのに有利である。 しかし、事前にラベルされたスコアの欠如は、教師付き回帰モデルの使用を妨げ、データプライバシの問題は、モデルトレーニングのためにクラウド側で従来のデータ集中型学習の方法を妨げる。 ラベルを必要とせず、客観的なスコアリング戦略よりも公平さと客観的性を保ちながら、教師なしスコアリング手法を提示する。 その後,集中型学習に代わるプライバシフレンドリな選択肢として,車とクラウドのコラボレーションに基づく連合学習フレームワークが提案されている。 このフレームワークは、局所データの統計的不均一なチャレンジに起因するグローバルスコアリングモデルの性能劣化を低減するために、一貫したスコアリング手法のフェデレーションバージョンを含む。 理論的および実験的分析により,我々のフェデレーションスコアリングモデルが中央学習モデルの実用性と一致し,運転性能の評価に有効であることが示された。

Scoring the driving performance of various drivers on a unified scale, based on how safe or economical they drive on their daily trips, is essential for the driver profile task. Connected vehicles provide the opportunity to collect real-world driving data, which is advantageous for constructing scoring models. However, the lack of pre-labeled scores impede the use of supervised regression models and the data privacy issues hinder the way of traditionally data-centralized learning on the cloud side for model training. To address them, an unsupervised scoring method is presented without the need for labels while still preserving fairness and objectiveness compared to subjective scoring strategies. Subsequently, a federated learning framework based on vehicle-cloud collaboration is proposed as a privacy-friendly alternative to centralized learning. This framework includes a consistently federated version of the scoring method to reduce the performance degradation of the global scoring model caused by the statistical heterogeneous challenge of local data. Theoretical and experimental analysis demonstrate that our federated scoring model is consistent with the utility of the centrally learned counterpart and is effective in evaluating driving performance.
翻訳日:2024-01-17 20:30:55 公開日:2024-01-13
# グラフ表現を用いたスケーラブルトレインタイムテーブルスケジューリングのための強化学習

Reinforcement Learning for Scalable Train Timetable Rescheduling with Graph Representation ( http://arxiv.org/abs/2401.06952v1 )

ライセンス: Link先を確認
Peng Yue, Yaochu Jin, Xuewu Dai, Zhenhua Feng, Dongliang Cui(参考訳) 列車の時刻表再スケジュール(TTR)は、予期せぬ混乱や混乱の後、列車の当初の運行を迅速に復旧することを目的としている。 現在、この作業はトレインディスパッチによって手作業で行われており、様々な問題インスタンスでパフォーマンスを維持するのは難しい。 この問題を軽減するため,本研究ではttrに対する強化学習に基づくアプローチを提案する。 まず,ttr問題を表す単純な有向グラフを設計し,グラフニューラルネットワークによる情報状態の自動抽出を可能にする。 第2に,ttrの解の構成プロセスを再構成し,決定モデルを問題サイズから分離するだけでなく,生成するスキームの実現可能性を確保する。 第3に、異なるレベルの遅延でシナリオを処理するために、モデルのための学習カリキュラムを設計する。 最後に, 簡単な局所探索手法を提案し, 計算コストを抑えて解の質を大幅に向上させ, 提案手法の実用的価値を高める。 本手法の有効性を実験的に検証した。 学習した決定モデルは、手作りのルールや最先端の解法と比較して、列車遅延の程度やスケールの異なる様々な問題に対してより良い性能を達成することができる。

Train timetable rescheduling (TTR) aims to promptly restore the original operation of trains after unexpected disturbances or disruptions. Currently, this work is still done manually by train dispatchers, which is challenging to maintain performance under various problem instances. To mitigate this issue, this study proposes a reinforcement learning-based approach to TTR, which makes the following contributions compared to existing work. First, we design a simple directed graph to represent the TTR problem, enabling the automatic extraction of informative states through graph neural networks. Second, we reformulate the construction process of TTR's solution, not only decoupling the decision model from the problem size but also ensuring the generated scheme's feasibility. Third, we design a learning curriculum for our model to handle the scenarios with different levels of delay. Finally, a simple local search method is proposed to assist the learned decision model, which can significantly improve solution quality with little additional computation cost, further enhancing the practical value of our method. Extensive experimental results demonstrate the effectiveness of our method. The learned decision model can achieve better performance for various problems with varying degrees of train delay and different scales when compared to handcrafted rules and state-of-the-art solvers.
翻訳日:2024-01-17 20:30:34 公開日:2024-01-13
# E^2-LLM:大規模言語モデルの効率的・極長拡張

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models ( http://arxiv.org/abs/2401.06951v1 )

ライセンス: Link先を確認
Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng(参考訳) 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。 既存のロングコンテキスト拡張手法は、通常、対応するロングコンテキストウィンドウをサポートするために追加のトレーニング手順を必要とし、ロングコンテキストトレーニングデータ(例えば32k)が必要であり、GPUトレーニングコストが高いと仮定する。 上記の問題に対処するため,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と計算コストを大幅に削減した効率的な拡張手法を提案する。 具体的には、E2-LLMのトレーニングデータは短い長さ(例:4k)しか必要とせず、チューニングコストを大幅に削減する。 第2に、短いトレーニングコンテキストウィンドウ上のトレーニング手順は一度だけ実行され、推論時に異なる評価コンテキストウィンドウをサポートすることができる。 第3に,RoPE 位置埋め込みに基づく E2 - LLM において,異なるサンプルに対するスケールと位置指数パラメータに関する2つの異なる拡張手法を導入する。 推論時に任意のコンテキスト長を直接補間する場合、モデルは異なる相対差に対してより堅牢になる。 複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。

Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks.
翻訳日:2024-01-17 20:30:14 公開日:2024-01-13
# ORGANA: 自動化学実験と評価のためのロボットアシスタント

ORGANA: A Robotic Assistant for Automated Chemistry Experimentation and Characterization ( http://arxiv.org/abs/2401.06949v1 )

ライセンス: Link先を確認
Kourosh Darvish, Marta Skreta, Yuchi Zhao, Naruki Yoshikawa, Sagnik Som, Miroslav Bogdanovic, Yang Cao, Han Hao, Haoping Xu, Al\'an Aspuru-Guzik, Animesh Garg, Florian Shkurti(参考訳) 化学実験はしばしば資源と労働集約である。 先進的な実験装置と特殊目的の実験装置の統合によって得られる多くの利点にもかかわらず、実験の多くの側面は化学者が手動で行う。 従来のラボ自動化インフラストラクチャは、新しい化学実験に柔軟に対応しようとすると、課題に直面している。 この問題に対処するため、我々は、多様な化学実験を自動化する人間フレンドリーで柔軟なロボットシステムORGANAを提案する。 これは、Large Language Models (LLMs)を使用して、自然言語を介して研究室の化学者と対話することができる。 ORGANAは、統計分析を取り入れたタイムリーなレポートを提供することで、科学者に情報を提供する。 さらに、曖昧さやトラブルシューティングが必要な場合には、ユーザと積極的に連携する。 organaは、ユーザの入力を推論して実験目標を導出し、環境の視覚知覚からのフィードバックを使いながら、ハイレベルタスクと低レベルロボットアクションの両方の長いシーケンスを計画できる。 また、複数のロボットと実験ステーション間のリソース割り当てと調整を必要とする実験のスケジューリングと並列実行もサポートする。 ORGANAは溶解度評価,pH測定,再結晶,電気化学実験など,様々な化学実験の実施に成功した。 後者の場合, ORGANAは, キノン誘導体の電気化学的特性を特徴付けるために, 並列に実行される19個のステップからなる長い水平計画を実行している。 ユーザ調査の結果, organaは作業負荷を低減しつつ,ユーザエクスペリエンスの多くの面を著しく改善していることがわかった。 ORGANAの詳細はhttps://ac-rad.github.io/organa/.com/で確認できる。

Chemistry experimentation is often resource- and labor-intensive. Despite the many benefits incurred by the integration of advanced and special-purpose lab equipment, many aspects of experimentation are still manually conducted by chemists, for example, polishing an electrode in electrochemistry experiments. Traditional lab automation infrastructure faces challenges when it comes to flexibly adapting to new chemistry experiments. To address this issue, we propose a human-friendly and flexible robotic system, ORGANA, that automates a diverse set of chemistry experiments. It is capable of interacting with chemists in the lab through natural language, using Large Language Models (LLMs). ORGANA keeps scientists informed by providing timely reports that incorporate statistical analyses. Additionally, it actively engages with users when necessary for disambiguation or troubleshooting. ORGANA can reason over user input to derive experiment goals, and plan long sequences of both high-level tasks and low-level robot actions while using feedback from the visual perception of the environment. It also supports scheduling and parallel execution for experiments that require resource allocation and coordination between multiple robots and experiment stations. We show that ORGANA successfully conducts a diverse set of chemistry experiments, including solubility assessment, pH measurement, recrystallization, and electrochemistry experiments. For the latter, we show that ORGANA robustly executes a long-horizon plan, comprising 19 steps executed in parallel, to characterize the electrochemical properties of quinone derivatives, a class of molecules used in rechargeable flow batteries. Our user study indicates that ORGANA significantly improves many aspects of user experience while reducing their physical workload. More details about ORGANA can be found at https://ac-rad.github.io/organa/.
翻訳日:2024-01-17 20:29:49 公開日:2024-01-13
# コントラスト復号を用いたパラメータ効率の高いデトキシフィケーション

Parameter-Efficient Detoxification with Contrastive Decoding ( http://arxiv.org/abs/2401.06947v1 )

ライセンス: Link先を確認
Tong Niu, Caiming Xiong, Semih Yavuz, Yingbo Zhou(参考訳) 自然言語生成の分野は近年、制御可能なテキスト生成技術の開発など、かなりの進歩を遂げている。 しかし、特に毒性などの望ましくない行動を避けようとする場合、生成したテキストの属性を制御することは依然として困難である。 本研究では,不要なスタイルから生成を制御する推論時間アルゴリズムであるdetoxification generator (detoxigen)を提案する。 DETOXIGENは、事前訓練された言語モデル(ジェネレータ)とデトキシファイターのアンサンブルである。 detoxifierは、望ましくない属性の有毒なデータ代表者に基づいて故意に訓練され、そのスタイルでテキストを生成するように促される。 実際の生成では、トレーニングされたデトキシレータを使用して、各デコードステップで対照的に生成する望ましくないトークンを生成します。 このアプローチは、デトキシファイアが高い確率で考えるトークンの生成を避けるために、ジェネレータに直接通知する。 我々は,REALTOXICITYPROMPTSベンチマーク(Gehman et al., 2020)を用いて,様々な言語モデルをジェネレータとして評価した。 生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。 また、このデトキシファイタは、ジェネレータと同じバックボーン言語モデルを用いてソフトプロンプトチューニングにより得られる。 したがって、DTOXIGENはデコード中にGPUメモリにロードされるデトキシファイアの仮想トークンから少量の余剰重量しか必要とせず、軽量で実用的でパラメータ効率の良いデトキシファイア戦略である。

The field of natural language generation has witnessed significant advancements in recent years, including the development of controllable text generation techniques. However, controlling the attributes of the generated text remains a challenge, especially when aiming to avoid undesirable behavior such as toxicity. In this work, we introduce Detoxification Generator (DETOXIGEN), an inference-time algorithm that steers the generation away from unwanted styles. DETOXIGEN is an ensemble of a pre-trained language model (generator) and a detoxifier. The detoxifier is trained intentionally on the toxic data representative of the undesirable attribute, encouraging it to generate text in that style exclusively. During the actual generation, we use the trained detoxifier to produce undesirable tokens for the generator to contrast against at each decoding step. This approach directly informs the generator to avoid generating tokens that the detoxifier considers highly likely. We evaluate DETOXIGEN on the commonly used REALTOXICITYPROMPTS benchmark (Gehman et al., 2020) with various language models as generators. We find that it significantly outperforms previous approaches in detoxification metrics while not compromising on the generation quality. Moreover, the detoxifier is obtained by soft prompt-tuning using the same backbone language model as the generator. Hence, DETOXIGEN requires only a tiny amount of extra weights from the virtual tokens of the detoxifier to be loaded into GPU memory while decoding, making it a promising lightweight, practical, and parameter-efficient detoxification strategy.
翻訳日:2024-01-17 20:29:19 公開日:2024-01-13
# 量子生成拡散モデル

Quantum Generative Diffusion Model ( http://arxiv.org/abs/2401.07039v1 )

ライセンス: Link先を確認
Chuangtao Chen and Qinglin Zhao(参考訳) 本稿では,量子状態アンサンブルを生成するための完全量子力学的モデルである量子生成拡散モデル(QGDM)を紹介する。 QGDMは、時間に依存したノイズを量子状態に導入する拡散過程を特徴としている。 このモデルは、完全に混合した状態を標的量子状態に効率よく進化させる。 量子生成型adversarial networkとの比較分析により,qgdmは最大4量子ビットを含む数値シミュレーションにおいて0.99以上の忠実度で優れていることが示された。 さらに,最大8量子ビットを含むタスクに対して,優れた生成能力を保ちながら,補助量子ビットの必要性を最小限に抑えるQGDM(Resource-Efficient Version of QGDM)を提案する。 これらの結果は、量子生成問題に挑戦するモデルの可能性を示している。

This paper introduces the Quantum Generative Diffusion Model (QGDM), a fully quantum-mechanical model for generating quantum state ensembles, inspired by Denoising Diffusion Probabilistic Models. QGDM features a diffusion process that introduces timestep-dependent noise into quantum states, paired with a denoising mechanism trained to reverse this contamination. This model efficiently evolves a completely mixed state into a target quantum state post-training. Our comparative analysis with Quantum Generative Adversarial Networks demonstrates QGDM's superiority, with fidelity metrics exceeding 0.99 in numerical simulations involving up to 4 qubits. Additionally, we present a Resource-Efficient version of QGDM (RE-QGDM), which minimizes the need for auxiliary qubits while maintaining impressive generative capabilities for tasks involving up to 8 qubits. These results showcase the proposed models' potential for tackling challenging quantum generation problems.
翻訳日:2024-01-17 20:22:01 公開日:2024-01-13
# 潜在因子分析のためのadrc組み込み確率勾配降下アルゴリズム

An ADRC-Incorporated Stochastic Gradient Descent Algorithm for Latent Factor Analysis ( http://arxiv.org/abs/2401.07012v1 )

ライセンス: Link先を確認
Jinli Li and Ye Yuan(参考訳) 高次元および不完全行列(HDI)は多くのノード間の多くの複雑な相互作用を含む。 確率勾配勾配(SGD)に基づく潜在因子分析(LFA)モデルは,HDI行列から貴重な情報を抽出するのに極めて有効である。 しかし、標準sgdアルゴリズムは現在の学習誤差のみを考慮し、学習誤差の歴史的・将来の状態を考慮せずに確率的勾配を計算するため、このモデルは通常、収束の遅い問題に遭遇する。 本論文は,ADRCコントローラの原理に従うことで,歴史的および将来の状態を考慮したインスタンス学習誤差を補正し,ADRCを組み込んだSGD(ADS)アルゴリズムを革新的に提案する。 これにより、HDI行列上での高速かつ正確な潜在因子分析のために、ADSに基づくLFAモデルがさらに達成される。 2つのHDIデータセットに関する実証研究により、提案モデルは、HDI行列の欠落データを予測するための計算効率と精度の観点から、最先端のLFAモデルよりも優れていることを示した。

High-dimensional and incomplete (HDI) matrix contains many complex interactions between numerous nodes. A stochastic gradient descent (SGD)-based latent factor analysis (LFA) model is remarkably effective in extracting valuable information from an HDI matrix. However, such a model commonly encounters the problem of slow convergence because a standard SGD algorithm only considers the current learning error to compute the stochastic gradient without considering the historical and future state of the learning error. To address this critical issue, this paper innovatively proposes an ADRC-incorporated SGD (ADS) algorithm by refining the instance learning error by considering the historical and future state by following the principle of an ADRC controller. With it, an ADS-based LFA model is further achieved for fast and accurate latent factor analysis on an HDI matrix. Empirical studies on two HDI datasets demonstrate that the proposed model outperforms the state-of-the-art LFA models in terms of computational efficiency and accuracy for predicting the missing data of an HDI matrix.
翻訳日:2024-01-17 20:21:46 公開日:2024-01-13
# エッジコンピューティングによるウイグル医学知識の同時抽出

Joint Extraction of Uyghur Medicine Knowledge with Edge Computing ( http://arxiv.org/abs/2401.07009v1 )

ライセンス: Link先を確認
Fan Lu, Quan Qi, Huaibin Qin(参考訳) エッジコンピューティングに基づく医療知識抽出手法は,エッジデバイス上で深層学習モデルを展開し,局所的な実体と関係抽出を実現する。 このアプローチは、重要な機密データをクラウドデータセンタに転送することを避け、医療サービスのプライバシを効果的に保護する。 しかし、既存の関係抽出法は主に、エンティティ認識後に決定されたエンティティ間の関係を分類するシーケンシャルパイプラインアプローチを採用している。 このモードは、タスク間のエラー伝搬、二つのサブタスク間の依存関係の考慮不足、文内の異なる関係間の相互関係の無視といった課題に直面している。 これらの課題に対処するために、エッジコンピューティングにおけるパラメータ共有を伴う結合抽出モデルCoEx-Bertを提案する。 このモデルは2つのモデル間の共通パラメータ化を利用して、実体と関係を共同で抽出する。 具体的には、coex-bertは2つのモデルを採用し、それぞれが隠れた層パラメータを共有し、これら2つの損失関数を組み合わせて、モデルパラメータを最適化する。 さらに、文脈関係を考慮し、非構造化ウイグル医学テキストから知識を抽出する際のエンティティ重複の問題を効果的に解決する。 最後に、このモデルはエッジデバイス上にデプロイされ、uyghur医療知識のリアルタイム抽出と推論を行う。 実験結果から,CoEx-Bertはユグル伝統医学文献データセットにおいて,既存の最先端手法より優れ,精度,リコール,F1スコアが90.65\%,92.45\%,91.54\%であった。 これらの改善は精度が6.45\%、リコールが9.45\%、F1スコアがベースラインに比べて7.95\%向上したことを示している。

Medical knowledge extraction methods based on edge computing deploy deep learning models on edge devices to achieve localized entity and relation extraction. This approach avoids transferring substantial sensitive data to cloud data centers, effectively safeguarding the privacy of healthcare services. However, existing relation extraction methods mainly employ a sequential pipeline approach, which classifies relations between determined entities after entity recognition. This mode faces challenges such as error propagation between tasks, insufficient consideration of dependencies between the two subtasks, and the neglect of interrelations between different relations within a sentence. To address these challenges, a joint extraction model with parameter sharing in edge computing is proposed, named CoEx-Bert. This model leverages shared parameterization between two models to jointly extract entities and relations. Specifically, CoEx-Bert employs two models, each separately sharing hidden layer parameters, and combines these two loss functions for joint backpropagation to optimize the model parameters. Additionally, it effectively resolves the issue of entity overlapping when extracting knowledge from unstructured Uyghur medical texts by considering contextual relations. Finally, this model is deployed on edge devices for real-time extraction and inference of Uyghur medical knowledge. Experimental results demonstrate that CoEx-Bert outperforms existing state-of-the-art methods, achieving accuracy, recall, and F1 scores of 90.65\%, 92.45\%, and 91.54\%, respectively, in the Uyghur traditional medical literature dataset. These improvements represent a 6.45\% increase in accuracy, a 9.45\% increase in recall, and a 7.95\% increase in F1 score compared to the baseline.
翻訳日:2024-01-17 20:21:30 公開日:2024-01-13
# LLMのコンテキストウィンドウを100サンプルで拡張する

Extending LLMs' Context Window with 100 Samples ( http://arxiv.org/abs/2401.07004v1 )

ライセンス: Link先を確認
Yikai Zhang, Junlong Li, Pengfei Liu(参考訳) 大規模言語モデル(llm)は、事前学習されたコンテキストウィンドウを超えて補間能力に制限があり、長い入力を持つ下流タスクでアプリケーションを制限することが知られている。 近年,LLaMA, PaLM, GPT-NeoXなどの有名なLLMが採用している回転位置埋め込み(RoPE)を改良し, LLMのコンテキストウインドウを拡張しようと試みている。 しかし、位置補間(PI)やYarnといった以前の作業はリソース集約的であり、適用性を評価するための比較実験が欠如している。 本研究では,LLMのアテンションエントロピー(すなわち,アテンションスコアの情報エントロピー)による安定性維持の必要性を明らかにし,RoPEのベース周波数の調整とアテンションロジットのスケーリングを組み合わせたRoPEの拡張を導入し,LLMのコンテキストウィンドウへの適応を支援する。 各種コンテキスト要求タスクにおいて,異なるコンテキストウィンドウサイズにわたる微調整性能とロバスト性の両方において,本手法の優位性を検証した。 特に,LLaMA-2-7B-Chatのコンテキストウィンドウを,100個のサンプルと6個のトレーニングステップで16,384まで拡張し,超効率性を示した。 最後に、データ構成と訓練カリキュラムが特定の下流タスクのコンテキストウィンドウ拡張にどのように影響するかについても検討し、長い会話を伴う微調整LDMを良い出発点として提案する。 コードとSFTデータはhttps://github.com/GAIR-NLP/Entropy-ABF.orgで公開しています。

Large Language Models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have sought to extend LLMs' context window by modifying rotary position embedding (RoPE), a popular position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are resource-intensive and lack comparative experiments to assess their applicability. In this work, we identify the inherent need for LLMs' attention entropy (i.e. the information entropy of attention scores) to maintain stability and introduce a novel extension to RoPE which combines adjusting RoPE's base frequency and scaling the attention logits to help LLMs efficiently adapt to a larger context window. We validate the superiority of our method in both fine-tuning performance and robustness across different context window sizes on various context-demanding tasks. Notably, our method extends the context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6 training steps, showcasing extraordinary efficiency. Finally, we also explore how data compositions and training curricula affect context window extension for specific downstream tasks, suggesting fine-tuning LLMs with lengthy conversations as a good starting point. We release our code and SFT data at https://github.com/GAIR-NLP/Entropy-ABF.
翻訳日:2024-01-17 20:20:59 公開日:2024-01-13
# 振動フレドホルム積分方程式に対するディープニューラルネットワーク解

Deep Neural Network Solutions for Oscillatory Fredholm Integral Equations ( http://arxiv.org/abs/2401.07003v1 )

ライセンス: Link先を確認
Jie Jiang and Yuesheng Xu(参考訳) 第2種類の振動型フレドホルム積分方程式の数値解におけるディープニューラルネットワーク(dnn)の利用について検討した。 方程式の解は、核の振動による特定の振動挙動を示すことが知られている。 近年、標準DNNは低周波関数を好んでいることが指摘され、その結果、高周波成分を含む関数に対する近似が低くなることがしばしばあった。 我々はこの問題に本研究で取り組んだ。 まず, DNN を含む振動積分を計算可能な数値的二次方程式を設計し, 近似解として DNN を用いて方程式を解く数値解法を開発した。 方程式のDNN近似解の誤差は、トレーニング損失と二次誤差によって制限されることを示した。 次に,ニューラルネットワークのスペクトルバイアス問題を克服するために,多段階ディープラーニング(mgdl)モデルを提案する。 MGDLモデルは,振動解のマルチスケール情報を抽出し,標準DNNモデルが抱えるスペクトルバイアス問題を克服するのに有効であることを示す。

We studied the use of deep neural networks (DNNs) in the numerical solution of the oscillatory Fredholm integral equation of the second kind. It is known that the solution of the equation exhibits certain oscillatory behaviors due to the oscillation of the kernel. It was pointed out recently that standard DNNs favour low frequency functions, and as a result, they often produce poor approximation for functions containing high frequency components. We addressed this issue in this study. We first developed a numerical method for solving the equation with DNNs as an approximate solution by designing a numerical quadrature that tailors to computing oscillatory integrals involving DNNs. We proved that the error of the DNN approximate solution of the equation is bounded by the training loss and the quadrature error. We then proposed a multi-grade deep learning (MGDL) model to overcome the spectral bias issue of neural networks. Numerical experiments demonstrate that the MGDL model is effective in extracting multiscale information of the oscillatory solution and overcoming the spectral bias issue from which a standard DNN model suffers.
翻訳日:2024-01-17 20:20:27 公開日:2024-01-13
# マルチメディア鑑識のためのデータセット,手掛かり,最先端技術

Datasets, Clues and State-of-the-Arts for Multimedia Forensics: An Extensive Review ( http://arxiv.org/abs/2401.06999v1 )

ライセンス: Link先を確認
Ankit Yadav, Dinesh Kumar Vishwakarma(参考訳) 毎日大量のソーシャルメディアデータが作成され、現実的なマルチメディア改ざん手法が並行して普及する中、画像や動画の改ざんの検出とローカライズが重要になっている。 本調査は,ディープラーニングモデルを用いたマルチメディアデータの改ざん手法に着目した。 具体的には、悪質な操作検出のためのベンチマークデータセットの詳細な分析を公開している。 さらに、改ざんするヒントや、一般的に使用されるディープラーニングアーキテクチャの包括的なリストも提供している。 次に, 最先端の改ざん検出手法について論じ, ディープフェイク検出方法, スプライス改ざん検出方法, コピーモーブ改ざん検出方法などの有意義なタイプに分類し, それらの長所と短所を論じる。 ベンチマークデータセットで得られた上位結果、従来の手法に対するディープラーニングアプローチの比較、および最近の改ざん検出手法からの批判的洞察についても論じる。 最後に, 改ざん検出研究の場を深く理解するために, 研究ギャップ, 今後の方向性, 結論について論じる。

With the large chunks of social media data being created daily and the parallel rise of realistic multimedia tampering methods, detecting and localising tampering in images and videos has become essential. This survey focusses on approaches for tampering detection in multimedia data using deep learning models. Specifically, it presents a detailed analysis of benchmark datasets for malicious manipulation detection that are publicly available. It also offers a comprehensive list of tampering clues and commonly used deep learning architectures. Next, it discusses the current state-of-the-art tampering detection methods, categorizing them into meaningful types such as deepfake detection methods, splice tampering detection methods, copy-move tampering detection methods, etc. and discussing their strengths and weaknesses. Top results achieved on benchmark datasets, comparison of deep learning approaches against traditional methods and critical insights from the recent tampering detection methods are also discussed. Lastly, the research gaps, future direction and conclusion are discussed to provide an in-depth understanding of the tampering detection research arena.
翻訳日:2024-01-17 20:20:12 公開日:2024-01-13
# 計算効率の良い新しいフレームワークと新しい画像スプライスデータセットによる画像鑑定の効率化に向けて

Towards Effective Image Forensics via A Novel Computationally Efficient Framework and A New Image Splice Dataset ( http://arxiv.org/abs/2401.06998v1 )

ライセンス: Link先を確認
Ankit Yadav, Dinesh Kumar Vishwakarma(参考訳) スプライス検出モデルは、スプライス操作を誤解し、噂を広め、社会に不和をもたらすために使用できるため、時間を必要とする。 しかし、画像スプライシングデータセットがひどく欠如しており、ディープラーニングモデルが過剰に適合することなく識別的特徴を抽出する能力が制限されている。 本書はスプライス検出への2つの貢献を示す。 まず、2つの変種を持つ新しいスプリス検出データセットを提案する。 2つのバリエーションには、コードから生成されたスプライシングサンプルと手動編集が含まれる。 両方の変種におけるスプリケート画像は、ローカライゼーションアプローチを支援するために対応するバイナリマスクを持つ。 次に, 計算コストを最小とした高精度スプライス検出のための新しい空間圧縮軽量スプライス検出フレームワークを提案する。 提案手法は,軽量な空間枝から識別的空間特徴を抽出する。 オリジナルの解像度圧縮データを用いて第2分枝から二重圧縮アーティファクトを抽出し、「情報保存」する。 いくつかのcnnは、提案されたデータセットとcasia v2.0データセットからのイメージの複合データセットで提案されたフレームワークと組み合わせてテストされる。 最良モデルの精度は 0.9382 で、同様の最先端の手法と比較され、提案されたフレームワークの優位性を示している。

Splice detection models are the need of the hour since splice manipulations can be used to mislead, spread rumors and create disharmony in society. However, there is a severe lack of image splicing datasets, which restricts the capabilities of deep learning models to extract discriminative features without overfitting. This manuscript presents two-fold contributions toward splice detection. Firstly, a novel splice detection dataset is proposed having two variants. The two variants include spliced samples generated from code and through manual editing. Spliced images in both variants have corresponding binary masks to aid localization approaches. Secondly, a novel Spatio-Compression Lightweight Splice Detection Framework is proposed for accurate splice detection with minimum computational cost. The proposed dual-branch framework extracts discriminative spatial features from a lightweight spatial branch. It uses original resolution compression data to extract double compression artifacts from the second branch, thereby making it 'information preserving.' Several CNNs are tested in combination with the proposed framework on a composite dataset of images from the proposed dataset and the CASIA v2.0 dataset. The best model accuracy of 0.9382 is achieved and compared with similar state-of-the-art methods, demonstrating the superiority of the proposed framework.
翻訳日:2024-01-17 20:19:51 公開日:2024-01-13
# 単一光子非線形性が複数の量子エミッタでどのように焼成されるか:$\Lambda$レベル原子との相互作用における量子ゼノ効果

How single-photon nonlinearity is quenched with multiple quantum emitters: Quantum Zeno effect in collective interactions with $\Lambda$-level atoms ( http://arxiv.org/abs/2401.06997v1 )

ライセンス: Link先を確認
Alexander N. Poddubny, Serge Rosenblum and Barak Dayan(参考訳) 単一光子非線形性、すなわち単一の光子との相互作用の結果系の反応の変化は、一般に単一の量子放出子の固有の性質であると考えられている。 励起子数に対する非線形性の依存性を理解することは、単一励起子よりも集団相互作用により強い光-物質結合がより容易に実現できるため、基本的かつ実用的に重要である。 ここでは,1つのエミッタから複数のエミッタへの移行を$\Lambda$-levelスキームで探索するシステムを理論的に検討する。 単一光子非線形性は、エミッタ数によって実際に消失する。 興味深いことに、この挙動の背後にあるメカニズムは、光子制御力学の減速に現れる量子ゼノ効果である。

Single-photon nonlinearity, namely the change in the response of the system as the result of the interaction with a single photon, is generally considered an inherent property of a single quantum emitter. Understanding the dependence of the nonlinearity on the number of emitters is important both fundamentally and practically, as strong light-matter coupling is more readily achieved through collective interactions than with a single emitter. Here, we theoretically consider a system that explores the transition from a single to multiple emitters with a $\Lambda$-level scheme. We show that the single-photon nonlinearity indeed vanishes with the number of emitters. Interestingly, the mechanism behind this behavior is the quantum Zeno effect, manifested in the slowdown of the photon-controlled dynamics.
翻訳日:2024-01-17 20:19:33 公開日:2024-01-13
# マルチドメイン特徴抽出器とマルチレセプティブフィールドアップサンプラーを用いた視覚注意スプライス定位ネットワーク

A Visually Attentive Splice Localization Network with Multi-Domain Feature Extractor and Multi-Receptive Field Upsampler ( http://arxiv.org/abs/2401.06995v1 )

ライセンス: Link先を確認
Ankit Yadav, Dinesh Kumar Vishwakarma(参考訳) イメージスプライス操作は、今日の社会で深刻な課題を呈している。 画像操作ツールに簡単にアクセスできるので、個人や組織、社会を誤解させるようなイメージを修正するのは、これまで以上に簡単です。 本研究では,マルチドメイン特徴抽出器とマルチ受信フィールドアップサンプラーを用いた視覚的スプライス局所化ネットワークを提案する。 視覚的に注意深いマルチドメイン特徴抽出器(va-mdfe)は、rgb、エッジ、深さ領域から注意深い特徴を抽出する。 次に、"視覚的に注意深いダウンサンプラー"(va-ds)がマルチドメイン機能の融合とダウンサンプリングを担当します。 最後に,新しいva-mrfu(visually attentive multi-receptive field upsampler)モジュールでは,複数の受容場に基づく畳み込みを用いて,異なる情報尺度に着目して注意特性を推定する。 CASIA v2.0で行った実験結果から,提案モデルの有効性が確認された。 IoUスコア0.851、画素F1スコア0.9195、画素AUCスコア0.8989を達成して、既存の最先端技術を快適に打ち負かす。

Image splice manipulation presents a severe challenge in today's society. With easy access to image manipulation tools, it is easier than ever to modify images that can mislead individuals, organizations or society. In this work, a novel, "Visually Attentive Splice Localization Network with Multi-Domain Feature Extractor and Multi-Receptive Field Upsampler" has been proposed. It contains a unique "visually attentive multi-domain feature extractor" (VA-MDFE) that extracts attentional features from the RGB, edge and depth domains. Next, a "visually attentive downsampler" (VA-DS) is responsible for fusing and downsampling the multi-domain features. Finally, a novel "visually attentive multi-receptive field upsampler" (VA-MRFU) module employs multiple receptive field-based convolutions to upsample attentional features by focussing on different information scales. Experimental results conducted on the public benchmark dataset CASIA v2.0 prove the potency of the proposed model. It comfortably beats the existing state-of-the-arts by achieving an IoU score of 0.851, pixel F1 score of 0.9195 and pixel AUC score of 0.8989.
翻訳日:2024-01-17 20:19:18 公開日:2024-01-13
# UniVision: ビジョン中心の3D知覚のための統一フレームワーク

UniVision: A Unified Framework for Vision-Centric 3D Perception ( http://arxiv.org/abs/2401.06994v1 )

ライセンス: Link先を確認
Yu Hong, Qian Liu, Huayuan Cheng, Danjiao Ma, Hang Dai, Yu Wang, Guangzhi Cao, Yong Ding(参考訳) 過去数年間、自動運転における視覚中心の3D知覚の急速な発展を目撃してきた。 3D知覚モデルは、多くの構造的および概念的類似性を共有しているが、その特徴表現、データフォーマット、目的にはまだギャップがあり、統一的で効率的な3D知覚フレームワーク設計の課題を提起している。 本稿では、視覚中心の3D知覚における2つの主要なタスクを統一する、シンプルで効率的なフレームワークであるUniVisionについて述べる。 具体的には,相補的な2d-3d特徴変換のための明示的簡易ビュー変換モジュールを提案する。 本稿では, 効率よく適応可能なボクセルとBEV特徴抽出, 強化, 相互作用のための局所的特徴抽出・融合モジュールを提案する。 さらに,マルチタスク・フレームワーク・トレーニングの効率と安定性を実現するために,共同占有検知データ拡張戦略と漸進的損失重み調整戦略を提案する。 我々は、nuScenes LiDARセグメンテーション、nuScenes Detection、OpenOccupancy、Occ3Dを含む4つの公開ベンチマークで異なる知覚タスクの広範な実験を行う。 UniVisionは、それぞれのベンチマークで、+1.5 mIoU、+1.8 NDS、+1.5 mIoU、+1.8 mIoUで、最先端の結果を達成する。 私たちは、ユニビジョンフレームワークは、統一視覚中心の3d知覚タスクの高性能ベースラインとして機能できると信じています。 コードは \url{https://github.com/Cc-Hy/UniVision} で入手できる。

The past few years have witnessed the rapid development of vision-centric 3D perception in autonomous driving. Although the 3D perception models share many structural and conceptual similarities, there still exist gaps in their feature representations, data formats, and objectives, posing challenges for unified and efficient 3D perception framework design. In this paper, we present UniVision, a simple and efficient framework that unifies two major tasks in vision-centric 3D perception, \ie, occupancy prediction and object detection. Specifically, we propose an explicit-implicit view transform module for complementary 2D-3D feature transformation. We propose a local-global feature extraction and fusion module for efficient and adaptive voxel and BEV feature extraction, enhancement, and interaction. Further, we propose a joint occupancy-detection data augmentation strategy and a progressive loss weight adjustment strategy which enables the efficiency and stability of the multi-task framework training. We conduct extensive experiments for different perception tasks on four public benchmarks, including nuScenes LiDAR segmentation, nuScenes detection, OpenOccupancy, and Occ3D. UniVision achieves state-of-the-art results with +1.5 mIoU, +1.8 NDS, +1.5 mIoU, and +1.8 mIoU gains on each benchmark, respectively. We believe that the UniVision framework can serve as a high-performance baseline for the unified vision-centric 3D perception task. The code will be available at \url{https://github.com/Cc-Hy/UniVision}.
翻訳日:2024-01-17 20:18:55 公開日:2024-01-13
# 画像品質評価を支援するプログレッシブ・フィーチャーフュージョンネットワーク

Progressive Feature Fusion Network for Enhancing Image Quality Assessment ( http://arxiv.org/abs/2401.06992v1 )

ライセンス: Link先を確認
Kaiqun Wu, Xiaoling Jiang, Rui Yu, Yonggang Luo, Tian Jiang, Xi Wu, Peng Wei(参考訳) 画像圧縮は、画像ストレージやビデオ放送の分野で応用されている。 しかし、異なるアルゴリズムで生成された歪んだ画像の微妙な画質の違いを区別するのは、非常に難しいです。 本稿では,画像群においてどの画像が良いかを決定するための画像品質評価フレームワークを提案する。 微妙な違いを捉えるため、マルチスケールな特徴を得るためにきめ細かいネットワークを採用する。 その後、正と負のイメージペア内の情報を分離して収集するクロスサブトラクションブロックを設計する。 特徴空間における画像の比較 その後、プログレッシブ機能融合ブロックが設計され、新しいプログレッシブな方法でマルチスケール機能を融合する。 これにより、階層的な空間2次元特徴を徐々に処理することができる。 実験の結果,従来の主流画像品質評価手法と比較して,提案ネットワークはより正確な画像品質評価を達成でき,画像知覚モデルトラックにおけるCLICのベンチマークでは2位であることがわかった。

Image compression has been applied in the fields of image storage and video broadcasting. However, it's formidably tough to distinguish the subtle quality differences between those distorted images generated by different algorithms. In this paper, we propose a new image quality assessment framework to decide which image is better in an image group. To capture the subtle differences, a fine-grained network is adopted to acquire multi-scale features. Subsequently, we design a cross subtract block for separating and gathering the information within positive and negative image pairs. Enabling image comparison in feature space. After that, a progressive feature fusion block is designed, which fuses multi-scale features in a novel progressive way. Hierarchical spatial 2D features can thus be processed gradually. Experimental results show that compared with the current mainstream image quality assessment methods, the proposed network can achieve more accurate image quality assessment and ranks second in the benchmark of CLIC in the image perceptual model track.
翻訳日:2024-01-17 20:18:29 公開日:2024-01-13
# フェデレーション学習のための勾配コアセット

Gradient Coreset for Federated Learning ( http://arxiv.org/abs/2401.06989v1 )

ライセンス: Link先を確認
Durga Sivasubramanian, Lokesh Nagalapatti, Rishabh Iyer, Ganesh Ramakrishnan(参考訳) フェデレートラーニング(FL)は、リソース制約のあるエッジデバイスを含む複数のクライアント間でパーティショニングされたデータで機械学習モデルを学習するために使用される。 したがって、FLフレームワークのプライバシ要件に準拠しつつ、計算、通信、エネルギー消費の面で効率的なソリューションを考案することが重要である。 これらの問題に対する従来のアプローチでは、トレーニングデータセットの重み付きサブセット(coreset)を選択し、モデルに適合させることで学習する。 このようなコアセット選択アプローチは、データノイズに対して堅牢であることも知られている。 しかし、これらのアプローチはトレーニングデータの全体的な統計に依存しており、FL設定に容易に拡張できない。 本稿では,各クライアントでコアセットを選択し,サーバでの小さな検証データセットの可用性を前提として,各K$通信ラウンド毎に更新のみを導出する,Gradient based Coreset for Robust and Efficient Federated Learning (GCFL) というアルゴリズムを提案する。 コアセット選択手法は,クライアントのデータノイズの計算に非常に有効であることを実証する。 実世界の4つのデータセットを用いて実験を行い,(1) FLよりも計算とエネルギー効率がよいこと,(2) 特徴空間とラベルの双方で様々なノイズに頑健であること,(3) 検証データセットのプライバシを維持すること,(4) 通信オーバヘッドが小さいこと,(4) クライアントのデータがノイズの多い場合に,パフォーマンスが著しく向上することを示す。

Federated Learning (FL) is used to learn machine learning models with data that is partitioned across multiple clients, including resource-constrained edge devices. It is therefore important to devise solutions that are efficient in terms of compute, communication, and energy consumption, while ensuring compliance with the FL framework's privacy requirements. Conventional approaches to these problems select a weighted subset of the training dataset, known as coreset, and learn by fitting models on it. Such coreset selection approaches are also known to be robust to data noise. However, these approaches rely on the overall statistics of the training data and are not easily extendable to the FL setup. In this paper, we propose an algorithm called Gradient based Coreset for Robust and Efficient Federated Learning (GCFL) that selects a coreset at each client, only every $K$ communication rounds and derives updates only from it, assuming the availability of a small validation dataset at the server. We demonstrate that our coreset selection technique is highly effective in accounting for noise in clients' data. We conduct experiments using four real-world datasets and show that GCFL is (1) more compute and energy efficient than FL, (2) robust to various kinds of noise in both the feature space and labels, (3) preserves the privacy of the validation dataset, and (4) introduces a small communication overhead but achieves significant gains in performance, particularly in cases when the clients' data is noisy.
翻訳日:2024-01-17 20:18:12 公開日:2024-01-13
# 物質シミュレーションのための摂動変分量子アルゴリズム

Perturbative variational quantum algorithms for material simulations ( http://arxiv.org/abs/2401.06984v1 )

ライセンス: Link先を確認
Jie Liu and Zhenyu Li and Jinlong Yang(参考訳) 回路深さの低減は、短期量子デバイス上での電子構造の量子シミュレーションの実装に不可欠である。 本研究では, ゆるい収束条件を用いて, 適応微分集合疑似トロッタあるいは量子ビット励起に基づくvqe計算から生成する浅層アンサッツ回路と周期材料の電子相関を正確にシミュレートする, 変分量子固有解法(vqe)に基づく摂動理論アルゴリズムを提案する。 ここで、電子相関の主な部分はVQEアンザッツ回路を用いて記述され、残りの相関エネルギーは多重参照または類似性変換に基づく摂動理論によって記述される。 数値計算の結果,適応vqeで要求される約30パラメータとは対照的に,lih結晶の電子相関を1つの回路パラメータで正確に記述できることがわかった。 一方,ユニタリ結合クラスタなど,一定の深さのアンサtzeでは,vqeベース摂動理論が精度向上のための魅力的なスキームを提供することを示す。

Reducing circuit depth is essential for implementing quantum simulations of electronic structure on near-term quantum devices. In this work, we propose a variational quantum eigensolver (VQE) based perturbation theory algorithm to accurately simulate electron correlation of periodic materials with shallow ansatz circuits, which are generated from Adaptive Derivative-Assembled Pseudo-Trotter or Qubit-Excitation-based VQE calculations using a loose convergence criteria. Here, the major part of the electron correlation is described using the VQE ansatz circuit and the remaining correlation energy is described by either multireference or similarity transformation-based perturbation theory. Numerical results demonstrate that the new algorithms are able to accurately describe electron correlation of the LiH crystal with only one circuit parameter, in contrast with ~30 parameters required in the adaptive VQE to achieve the same accuracy. Meanwhile, for fixed-depth Ansatze, e.g. unitary coupled cluster, we demonstrate that the VQE-base perturbation theory provides an appealing scheme to improve their accuracy.
翻訳日:2024-01-17 20:17:43 公開日:2024-01-13
# バイレベル最適化による自動音声認識のための教師なし・教師なし合同学習

Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization ( http://arxiv.org/abs/2401.06980v1 )

ライセンス: Link先を確認
A F M Saif, Xiaodong Cui, Han Shen, Songtao Lu, Brian Kingsbury, Tianyi Chen(参考訳) 本稿では,bi-level joint unsupervised and supervised training(bl-just)と呼ぶ,自動音声認識(asr)タスクのための音響モデルを訓練するための,新しい2レベル最適化に基づくトレーニング手法を提案する。 bl-justは、教師なし損失と教師なし損失を伴う下位レベルと上位レベルの最適化をそれぞれ採用し、近年のペナルティベースの2レベル最適化の進歩を利用して、手頃な複雑さと厳密な収束保証でこの困難なasr問題を解決する。 BL-JUSTを評価するために,LibriSpeechおよびTED-Lium v2データセットに関する広範な実験を行った。 BL-JUSTは、一般的に使用される事前訓練と微調整戦略よりも優れた性能を達成する。

In this paper, we present a novel bilevel optimization-based training approach to training acoustic models for automatic speech recognition (ASR) tasks that we term {bi-level joint unsupervised and supervised training (BL-JUST)}. {BL-JUST employs a lower and upper level optimization with an unsupervised loss and a supervised loss respectively, leveraging recent advances in penalty-based bilevel optimization to solve this challenging ASR problem with affordable complexity and rigorous convergence guarantees.} To evaluate BL-JUST, extensive experiments on the LibriSpeech and TED-LIUM v2 datasets have been conducted. BL-JUST achieves superior performance over the commonly used pre-training followed by fine-tuning strategy.
翻訳日:2024-01-17 20:17:22 公開日:2024-01-13
# 距離認識注意リシェーピング:大規模車両経路問題に対するニューラルネットワークの一般化

Distance-aware Attention Reshaping: Enhance Generalization of Neural Solver for Large-scale Vehicle Routing Problems ( http://arxiv.org/abs/2401.06979v1 )

ライセンス: Link先を確認
Yang Wang and Ya-Hui Jia and Wei-Neng Chen and Yi Mei(参考訳) 注意機構に基づくニューラルソルバは,車両経路問題の解法において顕著な効果を示した。 しかし,小型から大規模への一般化過程において,既存のニューラルネットワークにおいて注意点の分散現象がみられ,性能が低下する。 この問題に対処するため,本論文では,大規模車両経路問題の解法において,ニューラルソルバを支援する距離認識型注意再構成法を提案する。 具体的には、追加のトレーニングを必要とせず、現在のノード間のユークリッド距離情報を利用して注意スコアを調整する。 これにより、小規模インスタンスでトレーニングされたニューラルネットワークソルバは、大規模問題を解決する際に合理的な選択が可能になる。 実験の結果,提案手法は大規模CVRPLibデータセットにおいて,既存の最先端のニューラルソルバを著しく上回ることがわかった。

Neural solvers based on attention mechanism have demonstrated remarkable effectiveness in solving vehicle routing problems. However, in the generalization process from small scale to large scale, we find a phenomenon of the dispersion of attention scores in existing neural solvers, which leads to poor performance. To address this issue, this paper proposes a distance-aware attention reshaping method, assisting neural solvers in solving large-scale vehicle routing problems. Specifically, without the need for additional training, we utilize the Euclidean distance information between current nodes to adjust attention scores. This enables a neural solver trained on small-scale instances to make rational choices when solving a large-scale problem. Experimental results show that the proposed method significantly outperforms existing state-of-the-art neural solvers on the large-scale CVRPLib dataset.
翻訳日:2024-01-17 20:17:07 公開日:2024-01-13
# 量子デノイング拡散モデル

Quantum Denoising Diffusion Models ( http://arxiv.org/abs/2401.07049v1 )

ライセンス: Link先を確認
Michael K\"olle, Gerhard Stenzel, Jonas Stein, Sebastian Zielinski, Bj\"orn Ommer, Claudia Linnhoff-Popien(参考訳) 近年,dall-e,craiyon,stable diffusionなどの機械学習モデルが,簡潔な記述から高解像度画像を生成する能力で注目されている。 同時に、量子コンピューティングは、特に量子力学に乗じて従来の機械学習アルゴリズムの計算要件を満たす量子機械学習において、有望な進歩を見せている。 本稿では,拡散に基づく画像生成モデルの有効性を高めるため,量子機械学習と変分量子回路の統合について検討する。 具体的には,従来の拡散モデルの低サンプリング速度と広範なパラメータ要求の2つの課題に対処する。 2つの量子拡散モデルを導入し,その性能をmnist桁,ファッションmnist,cifar-10を用いて評価する。 我々のモデルは、FID、SSIM、PSNRのパフォーマンス指標の点で、類似したパラメータ数を持つ古典モデルを上回る。 さらに,拡散手順を単一ステップに結合し,高速なワンステップ画像生成を実現する,一貫性モデルユニタリ単一サンプリングアーキテクチャを提案する。

In recent years, machine learning models like DALL-E, Craiyon, and Stable Diffusion have gained significant attention for their ability to generate high-resolution images from concise descriptions. Concurrently, quantum computing is showing promising advances, especially with quantum machine learning which capitalizes on quantum mechanics to meet the increasing computational requirements of traditional machine learning algorithms. This paper explores the integration of quantum machine learning and variational quantum circuits to augment the efficacy of diffusion-based image generation models. Specifically, we address two challenges of classical diffusion models: their low sampling speed and the extensive parameter requirements. We introduce two quantum diffusion models and benchmark their capabilities against their classical counterparts using MNIST digits, Fashion MNIST, and CIFAR-10. Our models surpass the classical models with similar parameter counts in terms of performance metrics FID, SSIM, and PSNR. Moreover, we introduce a consistency model unitary single sampling architecture that combines the diffusion procedure into a single step, enabling a fast one-step image generation.
翻訳日:2024-01-17 20:10:03 公開日:2024-01-13
# BP(\lambda): 合成勾配によるオンライン学習

BP(\lambda): Online Learning via Synthetic Gradients ( http://arxiv.org/abs/2401.07044v1 )

ライセンス: Link先を確認
Joseph Pemberton and Rui Ponte Costa(参考訳) リカレントニューラルネットワークのトレーニングは通常、時間によるバックプロパゲーション(BPTT)に依存する。 BPTTは前方と後方のパスを完了させ、損失勾配が利用可能になる前にネットワークをこれらの計算にロックする。 最近、Jaderbergらは完全なBPTTの必要性を軽減するための合成勾配を提案した。 それらの実装において、合成勾配は、強化学習(RL)における時間差(TD)アルゴリズムに類似した、バックプロパゲート勾配とブートストラップ付き合成勾配の混合によって学習される。 しかし、TD学習と同様に、ブートストラップを多用するとバイアスが発生し、合成勾配推定が低下する。 RL における $\mathrm{TD}(\lambda)$ の蓄積に着想を得て,BPTT の利用を完全に回避した完全オンラインな合成勾配学習法を提案する。 accumulate $\mathrm{td}(\lambda)$のように、解析的に、accumulate $\mathrm{bp}(\lambda)$は時間差エラーと再帰的に定義された帰納可能性トレースの混合を用いてバイアスのレベルを制御することができる。 次に,我々のモデルが様々なタスクで合成勾配を学習する最初の実装よりも優れており,より長い時間スケールを捉えるのに特に適していることを示す。 最後に、最近の研究に基づいて、生体回路の学習の原則として蓄積された$\mathrm{BP}(\lambda)$を反映する。 要約すると、rlの原理に触発されて、合成勾配によるバイアスフリーオンライン学習が可能なアルゴリズムを紹介する。

Training recurrent neural networks typically relies on backpropagation through time (BPTT). BPTT depends on forward and backward passes to be completed, rendering the network locked to these computations before loss gradients are available. Recently, Jaderberg et al. proposed synthetic gradients to alleviate the need for full BPTT. In their implementation synthetic gradients are learned through a mixture of backpropagated gradients and bootstrapped synthetic gradients, analogous to the temporal difference (TD) algorithm in Reinforcement Learning (RL). However, as in TD learning, heavy use of bootstrapping can result in bias which leads to poor synthetic gradient estimates. Inspired by the accumulate $\mathrm{TD}(\lambda)$ in RL, we propose a fully online method for learning synthetic gradients which avoids the use of BPTT altogether: accumulate $BP(\lambda)$. As in accumulate $\mathrm{TD}(\lambda)$, we show analytically that accumulate $\mathrm{BP}(\lambda)$ can control the level of bias by using a mixture of temporal difference errors and recursively defined eligibility traces. We next demonstrate empirically that our model outperforms the original implementation for learning synthetic gradients in a variety of tasks, and is particularly suited for capturing longer timescales. Finally, building on recent work we reflect on accumulate $\mathrm{BP}(\lambda)$ as a principle for learning in biological circuits. In summary, inspired by RL principles we introduce an algorithm capable of bias-free online learning via synthetic gradients.
翻訳日:2024-01-17 20:09:18 公開日:2024-01-13
# 強化学習のための量子アドバンテージアクタークリティカル

Quantum Advantage Actor-Critic for Reinforcement Learning ( http://arxiv.org/abs/2401.07043v1 )

ライセンス: Link先を確認
Michael K\"olle, Mohamad Hgog, Fabian Ritz, Philipp Altmann, Maximilian Zorn, Jonas Stein, Claudia Linnhoff-Popien(参考訳) 量子コンピューティングは高次元状態の効率的なカプセル化を提供する。 本研究では,古典的成分の一部を置換することにより,アドバンテージ・アクター・クライトアルゴリズムと変分量子回路を組み合わせた量子強化学習手法を提案する。 このアプローチは、ハイパフォーマンスを維持しながら強化学習のスケーラビリティに関する懸念に対処する。 複数の量子アドバンテージ・アクター・クリティカル構成をよく知られたカートポール環境で実証的にテストし、連続状態空間を持つ制御タスクにおける我々のアプローチを評価する。 以上の結果から,古典的ポストプロセッシングを用いた量子アクタや量子評論家のハイブリッド戦略は,パラメータ数に類似した純粋古典的および純粋量子的変種と比較して,大幅な性能向上をもたらすことが示唆された。 彼らはさらに、ノイズの多い中間スケール量子コンピュータのハードウェア制約による現在の量子アプローチの限界を明らかにし、より大きく複雑な制御タスクのためにハイブリッドアプローチをスケールするためのさらなる研究を提案する。

Quantum computing offers efficient encapsulation of high-dimensional states. In this work, we propose a novel quantum reinforcement learning approach that combines the Advantage Actor-Critic algorithm with variational quantum circuits by substituting parts of the classical components. This approach addresses reinforcement learning's scalability concerns while maintaining high performance. We empirically test multiple quantum Advantage Actor-Critic configurations with the well known Cart Pole environment to evaluate our approach in control tasks with continuous state spaces. Our results indicate that the hybrid strategy of using either a quantum actor or quantum critic with classical post-processing yields a substantial performance increase compared to pure classical and pure quantum variants with similar parameter counts. They further reveal the limits of current quantum approaches due to the hardware constraints of noisy intermediate-scale quantum computers, suggesting further research to scale hybrid approaches for larger and more complex control tasks.
翻訳日:2024-01-17 20:08:49 公開日:2024-01-13
# geml: 文法に基づく進化的機械学習によるデザインパターン検出

GEML: A Grammar-based Evolutionary Machine Learning Approach for Design-Pattern Detection ( http://arxiv.org/abs/2401.07042v1 )

ライセンス: Link先を確認
Rafael Barbudo and Aurora Ram\'irez and Francisco Servant and Jos\'e Ra\'ul Romero(参考訳) デザインパターン(DP)はソフトウェア開発における良いプラクティスとして認識されています。 しかし、適切なドキュメントの欠如がトレーサビリティを阻害することが多く、そのメリットは数千行のコードでぼやけている。 DP検出のための自動手法が重要になっているが、通常はソフトウェアメトリクスまたはソースコードの特定の特性の厳密な分析に基づいている。 本稿では,多様な性質のソフトウェア特性を用いた進化的機械学習に基づく新しい検出手法GEMLを提案する。 第一に、GEMLは進化的アルゴリズムを用いて、文脈自由文法に適合する構文を持つ可読性規則で定式化されたDPをよりよく記述する特徴を抽出する。 第二に、新しいコードが隠されたDP実装を含むかどうかを予測するためにルールベースの分類器が構築される。 GEMLは5つ以上のDPがパブリックリポジトリから取得され、機械学習研究によって再採用されている。 そして,この数値を15種類のDPまで増加させ,検出能力の面での有効性と堅牢性を示す。 最初のパラメータスタディでは、特定のパターンに複雑なパラメータを調整することなく、このアプローチの一般的な適用性を保証するパラメータ設定をチューニングした。 最後に、デモツールも提供される。

Design patterns (DPs) are recognised as a good practice in software development. However, the lack of appropriate documentation often hampers traceability, and their benefits are blurred among thousands of lines of code. Automatic methods for DP detection have become relevant but are usually based on the rigid analysis of either software metrics or specific properties of the source code. We propose GEML, a novel detection approach based on evolutionary machine learning using software properties of diverse nature. Firstly, GEML makes use of an evolutionary algorithm to extract those characteristics that better describe the DP, formulated in terms of human-readable rules, whose syntax is conformant with a context-free grammar. Secondly, a rule-based classifier is built to predict whether new code contains a hidden DP implementation. GEML has been validated over five DPs taken from a public repository recurrently adopted by machine learning studies. Then, we increase this number up to 15 diverse DPs, showing its effectiveness and robustness in terms of detection capability. An initial parameter study served to tune a parameter setup whose performance guarantees the general applicability of this approach without the need to adjust complex parameters to a specific pattern. Finally, a demonstration tool is also provided.
翻訳日:2024-01-17 20:08:33 公開日:2024-01-13
# CTA画像からの脳血管中心線抽出のための自動フレームワーク

An automated framework for brain vessel centerline extraction from CTA images ( http://arxiv.org/abs/2401.07041v1 )

ライセンス: Link先を確認
Sijie Liu, Ruisheng Su, Jianghang Su, Jingmin Xin, Jiayi Wu, Wim van Zwam, Pieter Jan van Doormaal, Aad van der Lugt, Wiro J. Niessen, Nanning Zheng, Theo van Walsum(参考訳) 脳卒中などの脳血管疾患の診断と治療においてCTA画像から脳血管中心の正確な自動抽出が重要である。 しかし, 複雑な脳血管構造, 画像品質の変化, 血管病理学的な影響により, この課題は依然として困難なままである。 本稿では,医師による付加的なアノテーションを伴わない自動ルーメンセグメンテーション生成と,中心線抽出性能を向上させるために生成されたルーメンセグメンテーションをより効果的に活用することを検討する。 CTA画像から脳血管中心を抽出する自動フレームワークを提案する。 The framework consists of four major components: (1) pre-processing approaches that register CTA images with a CT atlas and divide these images into input patches, (2) lumen segmentation generation from annotated vessel centerlines using graph cuts and robust kernel regression, (3) a dual-branch topology-aware UNet (DTUNet) that can effectively utilize the annotated vessel centerlines and the generated lumen segmentation through a topology-aware loss (TAL) and its dual-branch design, and (4) post-processing approaches that skeletonize the predicted lumen segmentation. マルチセンタデータセットの大規模な実験により、提案手法は平均対称中心線距離(ASCD)と重なり(OV)で最先端の手法より優れていることが示された。 サブグループ分析により,脳卒中治療における臨床応用の可能性を示唆する。 コードはhttps://github.com/Liusj-gh/DTUNetで公開されている。

Accurate automated extraction of brain vessel centerlines from CTA images plays an important role in diagnosis and therapy of cerebrovascular diseases, such as stroke. However, this task remains challenging due to the complex cerebrovascular structure, the varying imaging quality, and vessel pathology effects. In this paper, we consider automatic lumen segmentation generation without additional annotation effort by physicians and more effective use of the generated lumen segmentation for improved centerline extraction performance. We propose an automated framework for brain vessel centerline extraction from CTA images. The framework consists of four major components: (1) pre-processing approaches that register CTA images with a CT atlas and divide these images into input patches, (2) lumen segmentation generation from annotated vessel centerlines using graph cuts and robust kernel regression, (3) a dual-branch topology-aware UNet (DTUNet) that can effectively utilize the annotated vessel centerlines and the generated lumen segmentation through a topology-aware loss (TAL) and its dual-branch design, and (4) post-processing approaches that skeletonize the predicted lumen segmentation. Extensive experiments on a multi-center dataset demonstrate that the proposed framework outperforms state-of-the-art methods in terms of average symmetric centerline distance (ASCD) and overlap (OV). Subgroup analyses further suggest that the proposed framework holds promise in clinical applications for stroke treatment. Code is publicly available at https://github.com/Liusj-gh/DTUNet.
翻訳日:2024-01-17 20:08:13 公開日:2024-01-13
# xCoT: 言語間連鎖推論のための言語間インストラクションチューニング

xCoT: Cross-lingual Instruction Tuning for Cross-lingual Chain-of-Thought Reasoning ( http://arxiv.org/abs/2401.07037v1 )

ライセンス: Link先を確認
Linzheng Chai, Jian Yang, Tao Sun, Hongcheng Guo, Jiaheng Liu, Bing Wang, Xiannian Liang, Jiaqi Bai, Tongliang Li, Qiyao Peng, Zhoujun Li(参考訳) CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発し、さまざまな下流タスクを改善する強力な手法として登場した。 CoTは主に英語で優れた性能を示すが、低リソース言語での使用は言語一般化が不十分なため制限されている。 異なる言語間のギャップを埋めるため,高リソース言語から低リソース言語に知識を転送するクロス言語命令微調整フレームワーク (xcot) を提案する。 具体的には、複数の言語のセマンティックアライメントを促進するために、多言語指導訓練データ(xCOT-INSTRUCT)を作成する。 そこで本研究では,言語間言語間数ショット学習(xICL)を導入し,命令チューニングにおける多言語合意の促進を図る。 多言語命令チューニングでは,まずクエリを他の言語に翻訳し,その後英語で回答することで,大規模言語モデルの多言語推論能力を高めるために,ランダムにオンラインcot戦略を採用する。 言語伝達をさらに促進するため,我々は高リソースcotを利用して,言語間蒸留による低リソース言語の訓練を監督する。 過去のベンチマーク実験の結果、xCoTは言語間のギャップを減らし、言語間ギャップを減らす可能性を示している。

Chain-of-thought (CoT) has emerged as a powerful technique to elicit reasoning in large language models and improve a variety of downstream tasks. CoT mainly demonstrates excellent performance in English, but its usage in low-resource languages is constrained due to poor language generalization. To bridge the gap among different languages, we propose a cross-lingual instruction fine-tuning framework (xCOT) to transfer knowledge from high-resource languages to low-resource languages. Specifically, the multilingual instruction training data (xCOT-INSTRUCT) is created to encourage the semantic alignment of multiple languages. We introduce cross-lingual in-context few-shot learning (xICL)) to accelerate multilingual agreement in instruction tuning, where some fragments of source languages in examples are randomly substituted by their counterpart translations of target languages. During multilingual instruction tuning, we adopt the randomly online CoT strategy to enhance the multilingual reasoning ability of the large language model by first translating the query to another language and then answering in English. To further facilitate the language transfer, we leverage the high-resource CoT to supervise the training of low-resource languages with cross-lingual distillation. Experimental results on previous benchmarks demonstrate the superior performance of xCoT in reducing the gap among different languages, highlighting its potential to reduce the cross-lingual gap.
翻訳日:2024-01-17 20:07:48 公開日:2024-01-13
# 大規模言語コード埋め込みとセマンティック脆弱性グラフを用いたオープンソースソフトウェアセキュリティの因果的洞察

Causative Insights into Open Source Software Security using Large Language Code Embeddings and Semantic Vulnerability Graph ( http://arxiv.org/abs/2401.07035v1 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Gonzalo De La Torre Parra, Dylan Manual, Murtuza Jadliwala, Peyman Najafirad(参考訳) オープンソースソフトウェア(OSS)のセキュリティとレジリエンスは、世界規模で経済と技術革新を妨げる現象である。 OSSの脆弱性は、不正アクセス、データ漏洩、ネットワークの障害、プライバシ違反を引き起こし、価値のない利益をもたらす可能性がある。 最近のディープラーニング技術は、ソースコードの脆弱性を特定し、ローカライズする上で大きな可能性を秘めているが、適切な方法論分析が欠如していることから、これらの研究手法がユーザビリティの観点からどれほど有効であるかは明らかではない。 通常、これらのメソッドは、脆弱性のあるコードの分類とローカライズという開発者のタスクをオフロードする。 従来の方法からの適切な開発者トレーニングの課題に対処するために,脆弱性を根本原因にリンクするシステムを提案する。 さらに,脆弱性の修正におけるシステムの有効性と,よりセキュアなコードを書くことを支援する機能をテストするための総合的なユーザビリティスタディを提供する。 脆弱性のあるソースコードの修正を支援することで,システムの有効性を実証する。 これまでの方法と比較して,コード修復能力は24%向上している。 また、システムによってトレーニングされた場合、平均して約9%の開発者が、脆弱性が少なくよりセキュアなコードを書く傾向にあることも示しています。

Open Source Software (OSS) security and resilience are worldwide phenomena hampering economic and technological innovation. OSS vulnerabilities can cause unauthorized access, data breaches, network disruptions, and privacy violations, rendering any benefits worthless. While recent deep-learning techniques have shown great promise in identifying and localizing vulnerabilities in source code, it is unclear how effective these research techniques are from a usability perspective due to a lack of proper methodological analysis. Usually, these methods offload a developer's task of classifying and localizing vulnerable code; still, a reasonable study to measure the actual effectiveness of these systems to the end user has yet to be conducted. To address the challenge of proper developer training from the prior methods, we propose a system to link vulnerabilities to their root cause, thereby intuitively educating the developers to code more securely. Furthermore, we provide a comprehensive usability study to test the effectiveness of our system in fixing vulnerabilities and its capability to assist developers in writing more secure code. We demonstrate the effectiveness of our system by showing its efficacy in helping developers fix source code with vulnerabilities. Our study shows a 24% improvement in code repair capabilities compared to previous methods. We also show that, when trained by our system, on average, approximately 9% of the developers naturally tend to write more secure code with fewer vulnerabilities.
翻訳日:2024-01-17 20:07:24 公開日:2024-01-13
# 大規模言語モデルを用いた強化学習を用いたコードセキュリティ脆弱性修復

Code Security Vulnerability Repair Using Reinforcement Learning with Large Language Models ( http://arxiv.org/abs/2401.07031v1 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Peyman Najafirad(参考訳) 最近のLarge Language Models (LLMs) の進歩により、幅広い開発者にとって機能的に正しいコードの生成はより複雑になってきている。 LLMを使用すると、機能開発プロセスが加速する一方で、コードのセキュリティに大きなリスクが生じる。 LLMを使った適切なセキュリティ対策によるコード生成は、機能コード生成よりもはるかに難しい作業である。 セキュリティ対策には、SQLインジェクション防止のためのnullポインタチェックまたは準備されたステートメントで構成される、元のコードに一対のコードを追加することが含まれる。 現在、利用可能なコード修復 LLM は、教師付き微調整によってコード修復を生成する。 しかし、元のコードと修復されたコードは、セキュリティ対策として機能する (1-2) 行を除いて、機能と構文的にほとんど似ている。 このセキュリティ対策に必要なラインと機能的コードとの間の不均衡は、適切なセキュリティ対策を加えることなく機能的コードを生成する優先順位付けを教師付き微調整モデルに強制する。 そこで本研究では,LLMから生成したコードのセキュリティ強化と強化のために,コードにセキュリティと機能的対策を加えることに集中する意味的報酬機構と構文的報酬機構を組み合わせた,プログラム固有の修復のための強化学習手法を提案する。

With the recent advancement of Large Language Models (LLMs), generating functionally correct code has become less complicated for a wide array of developers. While using LLMs has sped up the functional development process, it poses a heavy risk to code security. Code generation with proper security measures using LLM is a significantly more challenging task than functional code generation. Security measures may include adding a pair of lines of code with the original code, consisting of null pointer checking or prepared statements for SQL injection prevention. Currently, available code repair LLMs generate code repair by supervised fine-tuning, where the model looks at cross-entropy loss. However, the original and repaired codes are mostly similar in functionality and syntactically, except for a few (1-2) lines, which act as security measures. This imbalance between the lines needed for security measures and the functional code enforces the supervised fine-tuned model to prioritize generating functional code without adding proper security measures, which also benefits the model by resulting in minimal loss. Therefore, in this work, for security hardening and strengthening of generated code from LLMs, we propose a reinforcement learning-based method for program-specific repair with the combination of semantic and syntactic reward mechanisms that focus heavily on adding security and functional measures in the code, respectively.
翻訳日:2024-01-17 20:07:01 公開日:2024-01-13
# 効率的な画像分類のためのエッジ強調

Image edge enhancement for effective image classification ( http://arxiv.org/abs/2401.07028v1 )

ライセンス: Link先を確認
Tianhao Bu, Michalis Lazarou, Tania Stathaki(参考訳) 画像分類は、現実のアプリケーションで実現可能なため、一般的な課題である。 RGBイメージをフィードすることでニューラルネットワークのトレーニングが成功している。 それでも、このプロセスの分類精度と計算効率の改善は、研究者が積極的に取り組んでいる課題を示し続けている。 ニューラルネットワークの分類性能を改善するための広く普及している手法は、トレーニングプロセス中にデータ拡張を統合することである。 データ拡張は、トレーニングデータのわずかに修正されたバージョンを生成する単純な変換であり、オーバーフィッティングの軽減と精度の向上のためにニューラルネットワークのトレーニングに非常に効果的である。 本研究では,ハイブースト画像フィルタリングから着想を得て,ニューラルネットワークの精度とトレーニング速度の両立を目的としたエッジ強調方式を提案する。 具体的には,利用可能なデータセット内の画像からエッジなどの高周波特徴を抽出し,元の画像と融合することで,新たなエンリッチな画像を生成する。 2つの異なるデータセットであるcifar10とcaltech101と3つの異なるネットワークアーキテクチャであるresnet-18,lenet-5,cnn-9を用いて包括的な実験を行い,提案手法の有効性を実証した。

Image classification has been a popular task due to its feasibility in real-world applications. Training neural networks by feeding them RGB images has demonstrated success over it. Nevertheless, improving the classification accuracy and computational efficiency of this process continues to present challenges that researchers are actively addressing. A widely popular embraced method to improve the classification performance of neural networks is to incorporate data augmentations during the training process. Data augmentations are simple transformations that create slightly modified versions of the training data and can be very effective in training neural networks to mitigate overfitting and improve their accuracy performance. In this study, we draw inspiration from high-boost image filtering and propose an edge enhancement-based method as means to enhance both accuracy and training speed of neural networks. Specifically, our approach involves extracting high frequency features, such as edges, from images within the available dataset and fusing them with the original images, to generate new, enriched images. Our comprehensive experiments, conducted on two distinct datasets CIFAR10 and CALTECH101, and three different network architectures ResNet-18, LeNet-5 and CNN-9 demonstrates the effectiveness of our proposed method.
翻訳日:2024-01-17 20:06:38 公開日:2024-01-13
# 高速局所ユニタリ制御をもつ2部量子系の絡み合い

Entanglement in Bipartite Quantum Systems with Fast Local Unitary Control ( http://arxiv.org/abs/2401.07024v1 )

ライセンス: Link先を確認
Emanuel Malvetti(参考訳) 有名なシュミット分解(schmidt decomposition)、あるいは複素特異値分解(complex singular value decomposition)は、二成分系の純粋な量子状態は常に局所ユニタリ変換を用いて「対角」形式にすることができることを述べる。 本研究では,高速な局所ユニタリ制御を持つ有限次元閉二成分系を考える。 この設定では、元の制御系と等価な状態の特異値に対して縮小制御系を定義することができる。 我々は、この縮小制御系を明示的に記述し、元のシステムと等価性を証明する。 さらに,抑制制御システムを用いて,元のシステムは制御可能で安定化可能であり,量子速度限界を推定する。 また, それぞれオートン・タカギとフアの分解に関連し, フェミオンとボソニックの同時処理を行った。

The well-known Schmidt decomposition, or equivalently, the complex singular value decomposition, states that a pure quantum state of a bipartite system can always be brought into a "diagonal" form using local unitary transformations. In this work we consider a finite-dimensional closed bipartite system with fast local unitary control. In this setting one can define a reduced control system on the singular values of the state which is equivalent to the original control system. We explicitly describe this reduced control system and prove equivalence to the original system. Moreover, using the reduced control system, we prove that the original system is controllable and stabilizable and we deduce quantum speed limits. We also treat the fermionic and bosonic cases in parallel, which are related to the Autonne-Takagi and Hua factorization respectively.
翻訳日:2024-01-17 20:06:18 公開日:2024-01-13
# ソーシャルネットワーク知識グラフにおけるエッジ対応異常検出と情報補完

Edge-Enabled Anomaly Detection and Information Completion for Social Network Knowledge Graphs ( http://arxiv.org/abs/2401.07022v1 )

ライセンス: Link先を確認
Fan Lu, Quan Qi, Huaibin Qin(参考訳) 急速に発展する情報時代において、身元情報、犯罪記録、通信データなど、様々な人間の行動がデータの形で正確に記録されている。 法執行機関は、上記データを解析することにより、社会保障を効果的に維持し、犯罪行為を正確に対処することができる。 従来のデータ分析手法と比較して、クラウドセンタの強固な計算能力に依存するディープラーニングモデルは、データ特徴抽出やデータ推測において高い精度を示している。 しかし、クラウドセンタのアーキテクチャでは、エンドデバイスからのデータの送信は大きな遅延をもたらし、データのリアルタイム推論を妨げる。 さらに、低レイテンシエッジコンピューティングアーキテクチャは、ノードの比較的弱い計算能力とストレージ容量のために、直接デプロイの制限に直面している。 これらの課題に対処するために,軽量な分散知識グラフ補完アーキテクチャを提案する。 まず,データ解析に知識グラフ埋め込みを利用する軽量な分散知識グラフ補完アーキテクチャを提案する。 その後、サブスタンダードデータのフィルタリングを行うために、PDQAという人事データ品質評価手法を提案する。 最後に,性能を最大化しつつモデルサイズを大幅に削減し,軽量なデプロイメントを実現するモデルプルーニングアルゴリズムを提案する。 実験では,11種類の先進モデルが公安員情報の知識グラフの完成に及ぼす影響を比較した。 その結果、RotatEモデルは知識グラフの完成度において他のモデルよりも大幅に優れており、prunedモデルのサイズは70\%減少し、 hit@10 は86.97\%に達した。 }

In the rapidly advancing information era, various human behaviors are being precisely recorded in the form of data, including identity information, criminal records, and communication data. Law enforcement agencies can effectively maintain social security and precisely combat criminal activities by analyzing the aforementioned data. In comparison to traditional data analysis methods, deep learning models, relying on the robust computational power in cloud centers, exhibit higher accuracy in extracting data features and inferring data. However, within the architecture of cloud centers, the transmission of data from end devices introduces significant latency, hindering real-time inference of data. Furthermore, low-latency edge computing architectures face limitations in direct deployment due to relatively weak computing and storage capacities of nodes. To address these challenges, a lightweight distributed knowledge graph completion architecture is proposed. Firstly, we introduce a lightweight distributed knowledge graph completion architecture that utilizes knowledge graph embedding for data analysis. Subsequently, to filter out substandard data, a personnel data quality assessment method named PDQA is proposed. Lastly, we present a model pruning algorithm that significantly reduces the model size while maximizing performance, enabling lightweight deployment. In experiments, we compare the effects of 11 advanced models on completing the knowledge graph of public security personnel information. The results indicate that the RotatE model outperforms other models significantly in knowledge graph completion, with the pruned model size reduced by 70\%, and hits@10 reaching 86.97\%.}
翻訳日:2024-01-17 20:06:04 公開日:2024-01-13
# 人工知能を用いた医用画像のエンパワーメント:放射線画像と断層画像を用いたcovid-19の検出とセグメンテーションのための機械学習アプローチのレビュー

Empowering Medical Imaging with Artificial Intelligence: A Review of Machine Learning Approaches for the Detection, and Segmentation of COVID-19 Using Radiographic and Tomographic Images ( http://arxiv.org/abs/2401.07020v1 )

ライセンス: Link先を確認
Sayed Amir Mousavi Mobarakeh, Kamran Kazemi, Ardalan Aarabi, Habibollah Danyal(参考訳) 2019年以降、コロナウイルスとその新規株の世界的な普及により、新たな感染が急増している。 X線およびCTイメージング技術の使用は、新型コロナウイルスの診断と管理に重要である。 Incorporating artificial intelligence (AI) into the field of medical imaging is a powerful combination that can provide valuable support to healthcare professionals.This paper focuses on the methodological approach of using machine learning (ML) to enhance medical imaging for COVID-19 diagnosis.For example, deep learning can accurately distinguish lesions from other parts of the lung without human intervention in a matter of minutes.Moreover, ML can enhance performance efficiency by assisting radiologists in making more precise clinical decisions, such as detecting and distinguishing Covid-19 from different respiratory infections and segmenting infections in CT and X-ray images, even when the lesions have varying sizes and shapes.This article critically assesses machine learning methodologies utilized for the segmentation, classification, and detection of Covid-19 within CT and X-ray images, which are commonly employed tools in clinical and hospital settings to represent the lung in various aspects and extensive detail.There is a widespread expectation that this technology will continue to hold a central position within the healthcare sector, driving further progress in the management of the pandemic.

Since 2019, the global dissemination of the Coronavirus and its novel strains has resulted in a surge of new infections. The use of X-ray and computed tomography (CT) imaging techniques is critical in diagnosing and managing COVID-19. Incorporating artificial intelligence (AI) into the field of medical imaging is a powerful combination that can provide valuable support to healthcare professionals.This paper focuses on the methodological approach of using machine learning (ML) to enhance medical imaging for COVID-19 diagnosis.For example, deep learning can accurately distinguish lesions from other parts of the lung without human intervention in a matter of minutes.Moreover, ML can enhance performance efficiency by assisting radiologists in making more precise clinical decisions, such as detecting and distinguishing Covid-19 from different respiratory infections and segmenting infections in CT and X-ray images, even when the lesions have varying sizes and shapes.This article critically assesses machine learning methodologies utilized for the segmentation, classification, and detection of Covid-19 within CT and X-ray images, which are commonly employed tools in clinical and hospital settings to represent the lung in various aspects and extensive detail.There is a widespread expectation that this technology will continue to hold a central position within the healthcare sector, driving further progress in the management of the pandemic.
翻訳日:2024-01-17 20:05:42 公開日:2024-01-13
# アフリカにおける作物マッピングのための弱ラベル化

Weak Labeling for Cropland Mapping in Africa ( http://arxiv.org/abs/2401.07014v1 )

ライセンス: Link先を確認
Gilles Quentin Hacheme, Akram Zaytar, Girmaw Abebe Tadesse, Caleb Robinson, Rahul Dodhia, Juan M. Lavista Ferres, Stephen Wood(参考訳) 作物マッピングは、環境、農業、食料安全保障の課題に取り組む上で重要な役割を果たす。 しかし、アフリカの文脈では、高分解能農耕地図の入手が制限されるため、実用的な応用がしばしば妨げられる。 このようなマップは通常、人間のラベル付けを必要とするため、スケーラビリティのボトルネックが生じる。 そこで本研究では, 教師なしオブジェクトクラスタリングを用いて, 地球規模の作物地図から得られたような, 既存の弱いラベルを改良する手法を提案する。 改良されたラベルは、希少な人間のアノテーションとともに、農地の特定のために設計されたセグメンテーションネットワークのトレーニングデータとして機能する。 提案手法により得られた弱ラベルの改善効果を実証するために実験を行った。 33個のラベルでモデルをトレーニングするシナリオでは、作物カテゴリーのF_1スコアがマイナスラベルを追加すると0.53から0.84に増加する。

Cropland mapping can play a vital role in addressing environmental, agricultural, and food security challenges. However, in the context of Africa, practical applications are often hindered by the limited availability of high-resolution cropland maps. Such maps typically require extensive human labeling, thereby creating a scalability bottleneck. To address this, we propose an approach that utilizes unsupervised object clustering to refine existing weak labels, such as those obtained from global cropland maps. The refined labels, in conjunction with sparse human annotations, serve as training data for a semantic segmentation network designed to identify cropland areas. We conduct experiments to demonstrate the benefits of the improved weak labels generated by our method. In a scenario where we train our model with only 33 human-annotated labels, the F_1 score for the cropland category increases from 0.53 to 0.84 when we add the mined negative labels.
翻訳日:2024-01-17 20:05:26 公開日:2024-01-13
# クローズドソース言語モデルのための知識蒸留

Knowledge Distillation for Closed-Source Language Models ( http://arxiv.org/abs/2401.07013v1 )

ライセンス: Link先を確認
Hongzhan Chen, Xiaojun Quan, Hehong Chen, Ming Yan and Ji Zhang(参考訳) gpt-4のようなクローズドソース言語モデルは素晴らしいパフォーマンスを達成している。 近年の多くの研究は、クローズドソース言語モデルからの知識蒸留による小型モデルの能力向上に焦点を当てている。 しかし、これらの閉ソースモデルの重みや隠れ状態、出力分布に直接アクセスできないため、この蒸留は、知識蒸留の有効性を制限するクローズドソース言語モデルによって生成されたデータサンプルを用いて、小さなモデルを微調整することでのみ行うことができる。 本稿では,ベイズ推定フレームワークにおけるクローズドソース言語モデルの出力分布を,事前推定と後続推定の両方を用いて推定する。 先行推定は、クローズドソース言語モデルによって生成されたコーパスを利用して、先行分布を導出することを目的としており、後続推定は、先行分布を更新し、後続分布を導出するプロキシモデルを用いる。 クローズドソース言語モデルの推定出力分布を利用することで、従来の知識蒸留を行うことができる。 実験の結果,クローズドソース言語モデルが生成するデータに基づいて,現在のモデルの性能を直接微調整した。

Closed-source language models such as GPT-4 have achieved remarkable performance. Many recent studies focus on enhancing the capabilities of smaller models through knowledge distillation from closed-source language models. However, due to the incapability to directly access the weights, hidden states, and output distributions of these closed-source models, the distillation can only be performed by fine-tuning smaller models with data samples generated by closed-source language models, which constrains the effectiveness of knowledge distillation. In this paper, we propose to estimate the output distributions of closed-source language models within a Bayesian estimation framework, involving both prior and posterior estimation. The prior estimation aims to derive a prior distribution by utilizing the corpus generated by closed-source language models, while the posterior estimation employs a proxy model to update the prior distribution and derive a posterior distribution. By leveraging the estimated output distribution of closed-source language models, traditional knowledge distillation can be executed. Experimental results demonstrate that our method surpasses the performance of current models directly fine-tuned on data generated by closed-source language models.
翻訳日:2024-01-17 20:05:11 公開日:2024-01-13
# 幾何推定問題に対するサムプソン近似の再検討

Revisiting Sampson Approximations for Geometric Estimation Problems ( http://arxiv.org/abs/2401.07114v1 )

ライセンス: Link先を確認
Felix Rydell, Ang\'elica Torres, Viktor Larsson(参考訳) コンピュータビジョンにおける多くの問題は、幾何学的推定問題として定式化することができる。例えば、観測と一致するモデル(例えば本質行列)に適合したい測定値の集合(例えば点対応)が与えられたときである。 これは、あるモデルに対する観測の ‘agrees’ の程度を測る必要がある。 自然な選択は、観測が制約を完全に満たす最小の摂動を考えることである。 しかし、多くの問題では、このメトリクスは高価であるか、計算が難しい。 いわゆるサンプソン誤差は、線形化スキームを通じてこの幾何学的誤差を近似する。 エピポーラ幾何学では、サンプソン誤差は一般的な選択であり、実際には対応する幾何学的残差(再射誤差)の非常に厳密な近似をもたらすことが知られている。 本稿では,サンプソン近似を再検討し,この近似がなぜ,いつ動作するのかという新たな理論的知見を与えるとともに,いくつかの軽微な仮定の下でのタイツネスの明確な境界を与える。 理論結果は実データおよび異なる幾何推定タスクの文脈におけるいくつかの実験で検証される。

Many problems in computer vision can be formulated as geometric estimation problems, i.e. given a collection of measurements (e.g. point correspondences) we wish to fit a model (e.g. an essential matrix) that agrees with our observations. This necessitates some measure of how much an observation ``agrees" with a given model. A natural choice is to consider the smallest perturbation that makes the observation exactly satisfy the constraints. However, for many problems, this metric is expensive or otherwise intractable to compute. The so-called Sampson error approximates this geometric error through a linearization scheme. For epipolar geometry, the Sampson error is a popular choice and in practice known to yield very tight approximations of the corresponding geometric residual (the reprojection error). In this paper we revisit the Sampson approximation and provide new theoretical insights as to why and when this approximation works, as well as provide explicit bounds on the tightness under some mild assumptions. Our theoretical results are validated in several experiments on real data and in the context of different geometric estimation tasks.
翻訳日:2024-01-17 19:57:57 公開日:2024-01-13
# GoMatching: 長期および短期マッチングによるビデオテキストスポッティングのためのシンプルなベースライン

GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching ( http://arxiv.org/abs/2401.07080v1 )

ライセンス: Link先を確認
Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Dacheng Tao(参考訳) 画像テキストスポッティングにおけるテキスト検出および認識タスク以外にも、ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を呈している。 高度なエンド・ツー・エンドのトレーニング可能な手法は高い性能を示してきたが、マルチタスク最適化の追求は、個々のタスクに最適な結果をもたらすリスクをもたらす可能性がある。 本稿では,最先端のビデオテキストスポッターの主なボトルネックとして,認識能力の制限について述べる。 この問題に対処するため,市販の問合せベースの画像テキストスポッターをビデオのスペシャリストに効率よく変換し,強力な認識性能を維持しつつ,トラッキングに重点を置いたGoMatchingというシンプルなベースラインを提案する。 画像テキストスポッターをビデオデータセットに適応させるために、検出された各インスタンスの信頼度を効率的なチューニングによって再スコアするリスコリングヘッドを追加し、よりよいトラッキング候補プールを実現する。 さらに,LST-Matcherと呼ばれる長短のマッチングモジュールを設計し,Transformerを介して長短のマッチング結果を統合することにより,スポッターのトラッキング能力を向上させる。 上記の単純な設計に基づいて、GoMatchingは2つの公開ベンチマークで印象的なパフォーマンスを実現している。例えば、ICDAR15ビデオデータセットに新しい記録を樹立し、任意の形のテキストで新しいテストセットをセットし、かなりのトレーニング予算を節約している。 コードはhttps://github.com/hxyz-123/gomatchingでリリースされる。

Beyond the text detection and recognition tasks in image text spotting, video text spotting presents an augmented challenge with the inclusion of tracking. While advanced end-to-end trainable methods have shown commendable performance, the pursuit of multi-task optimization may pose the risk of producing sub-optimal outcomes for individual tasks. In this paper, we highlight a main bottleneck in the state-of-the-art video text spotter: the limited recognition capability. In response to this issue, we propose to efficiently turn an off-the-shelf query-based image text spotter into a specialist on video and present a simple baseline termed GoMatching, which focuses the training efforts on tracking while maintaining strong recognition performance. To adapt the image text spotter to video datasets, we add a rescoring head to rescore each detected instance's confidence via efficient tuning, leading to a better tracking candidate pool. Additionally, we design a long-short term matching module, termed LST-Matcher, to enhance the spotter's tracking capability by integrating both long- and short-term matching results via Transformer. Based on the above simple designs, GoMatching achieves impressive performance on two public benchmarks, e.g., setting a new record on the ICDAR15-video dataset, and one novel test set with arbitrary-shaped text, while saving considerable training budgets. The code will be released at https://github.com/Hxyz-123/GoMatching.
翻訳日:2024-01-17 19:57:38 公開日:2024-01-13
# PUB: LLMのプラグマティクス能力を評価するためのベンチマーク

PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities ( http://arxiv.org/abs/2401.07078v1 )

ライセンス: Link先を確認
Settaluri Lakshmi Sravanthi, Meet Doshi, Tankala Pavan Kalyan, Rudra Murthy, Pushpak Bhattacharyya, Raj Dabre(参考訳) LLMは意味論を理解するのに顕著な能力を示してきたが、しばしば実用論を理解するのに苦労している。 この事実を実証するために,4つのプラグマティクス現象(implicature, presupposition, reference, deixis)における14のタスクからなるpragmatics understanding benchmark(pub)データセットをリリースする。 複数質問応答(MCQA)からなるタスクごとに高品質なテストセットをキュレートした。 PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。 パラメータ数やトレーニングの種類によって異なる9つのモデルを評価した。 本研究は,インストラクションフォローとチャットの微調整により,小型言語モデルの実用性が大幅に向上することを示す。 しかし、より大きなモデルでは、ベースバージョンはチャット対応モデルと互換性がある。 さらに、人間の能力とモデル能力には明らかなパフォーマンスギャップがある。 さらに、さまざまなタスクにわたる人間の一貫したパフォーマンスとは異なり、モデルは、異なるヒントと同じデータセット内のタスクの複雑さによって、パフォーマンスレベルが変動して、その習熟度の変化を示す。 全体として、このベンチマークは、実用的推論を必要とする実世界の言語タスクを扱うLLMの能力を総合的に評価することを目的としている。

LLMs have demonstrated remarkable capability for understanding semantics, but they often struggle with understanding pragmatics. To demonstrate this fact, we release a Pragmatics Understanding Benchmark (PUB) dataset consisting of fourteen tasks in four pragmatics phenomena, namely, Implicature, Presupposition, Reference, and Deixis. We curated high-quality test sets for each task, consisting of Multiple Choice Question Answers (MCQA). PUB includes a total of 28k data points, 6.1k of which have been created by us, and the rest are adapted from existing datasets. We evaluated nine models varying in the number of parameters and type of training. Our study indicates that fine-tuning for instruction-following and chat significantly enhances the pragmatics capabilities of smaller language models. However, for larger models, the base versions perform comparably with their chat-adapted counterparts. Additionally, there is a noticeable performance gap between human capabilities and model capabilities. Furthermore, unlike the consistent performance of humans across various tasks, the models demonstrate variability in their proficiency, with performance levels fluctuating due to different hints and the complexities of tasks within the same dataset. Overall, the benchmark aims to provide a comprehensive evaluation of LLM's ability to handle real-world language tasks that require pragmatic reasoning.
翻訳日:2024-01-17 19:57:10 公開日:2024-01-13
# InterEvo-TR: 可読性評価を備えたインタラクティブ進化テスト生成

InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment ( http://arxiv.org/abs/2401.07072v1 )

ライセンス: Link先を確認
Pedro Delgado-P\'erez and Aurora Ram\'irez and Kevin J. Valle-G\'omez and Inmaculada Medina-Bulo and Jos\'e Ra\'ul Romero(参考訳) 自動テストケース生成は、ソフトウェアテストの通常高いコストを削減するのに有用であることが証明されている。 しかし、いくつかの研究は、手動で設計したテストスイートと比較して、生成されたテストスイートの理解に関してテスターが懐疑的であることを指摘している。 この事実は、テスト生成プロセスにテスターを巻き込むことが、自動生成テストスイートの受け入れを増やすのに役立つことを示唆している。 本稿では,テスタが作成したインタラクティブな可読性評価を,広く知られている進化的テスト生成ツールであるevosuiteに組み込む。 提案手法であるinterevo-trは,検索時に異なるタイミングでテスターと対話し,主観的評価のために同じカバレッジターゲットをカバーする異なるテストケースを示す。 このようなインタラクティブなアプローチの設計には、インタラクションのスケジュール、選択されたターゲットの多様化方法、可読性値の保存と処理の計画、リビジョンにおけるエンゲージメントのレベルをカスタマイズするメカニズムなどが含まれる。 本提案の可能性と実用性を分析するために,学術者,プロの開発者,学生の協力者を含む39名の参加者がinterevo-trと対話する制御実験を行った。 その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。 さらに,参加者の行動と質問票に対する反応から,テストコード可読性に影響を与える側面と,テストケース生成の文脈における対話的アプローチのメリットと限界を分析し,対話性に基づく今後の発展への道を開くことができた。

Automated test case generation has proven to be useful to reduce the usually high expenses of software testing. However, several studies have also noted the skepticism of testers regarding the comprehension of generated test suites when compared to manually designed ones. This fact suggests that involving testers in the test generation process could be helpful to increase their acceptance of automatically-produced test suites. In this paper, we propose incorporating interactive readability assessments made by a tester into EvoSuite, a widely-known evolutionary test generation tool. Our approach, InterEvo-TR, interacts with the tester at different moments during the search and shows different test cases covering the same coverage target for their subjective evaluation. The design of such an interactive approach involves a schedule of interaction, a method to diversify the selected targets, a plan to save and handle the readability values, and some mechanisms to customize the level of engagement in the revision, among other aspects. To analyze the potential and practicability of our proposal, we conduct a controlled experiment in which 39 participants, including academics, professional developers, and student collaborators, interact with InterEvo-TR. Our results show that the strategy to select and present intermediate results is effective for the purpose of readability assessment. Furthermore, the participants' actions and responses to a questionnaire allowed us to analyze the aspects influencing test code readability and the benefits and limitations of an interactive approach in the context of test case generation, paving the way for future developments based on interactivity.
翻訳日:2024-01-17 19:56:47 公開日:2024-01-13
# アルファ曲線の連続性に基づく微分モビリティ分光法による揮発性有機化合物の分類

Classification of Volatile Organic Compounds by Differential Mobility Spectrometry Based on Continuity of Alpha Curves ( http://arxiv.org/abs/2401.07066v1 )

ライセンス: Link先を確認
Anton Rauhameri, Angelo Robi\~nos, Osmo Anttalainen, Timo Salpavaara, Jussi Rantala, Veikko Surakka, Pasi Kallio, Antti Vehkaoja, Philipp M\"uller(参考訳) 背景: 揮発性有機化合物(VOC)の分類は多くの分野において興味深い。 例としては、薬品、爆発物の検出、食品の品質管理などが挙げられる。 電子鼻による測定はVOCの分類と分析に利用できる。 近年でかなりの発展を遂げた電子鼻の一つに、微分モビリティスペクトロメトリー(DMS)がある。 DMSは、アルファ曲線としても知られるトレースを含む分散プロットとして可視化される測定値を得る。 DMS分散プロットの解析に使われている現在の手法は、通常はこれらのトレースの連続性に格納された情報を利用していない。 結果: 本研究において, 分散プロットは連続的に進行する一連の測定結果として初めて解釈された。 したがって,時系列分類アルゴリズムは分散プロットの分類と解析に有効であると仮定した。 5つの流量と2つの濃度で測定された5つの化学物質に対する900の分散プロットの広範なデータセットを収集した。 データを用いて6つのアルゴリズムの分類性能を解析した。 この仮説によれば、最上位の分類精度は88\%であり、この仮説を裏付ける短期記憶ニューラルネットワークによって達成された。 意味: 分散プロットの分類タスクに近付く新しい概念を提示し、他のよく知られた分類アルゴリズムと比較する。 これにより、分散プロットの分析と分類のための新しい視点が作られる。 さらに、分散プロットの新しいデータセットを公開して公開する。

Background: Classification of volatile organic compounds (VOCs) is of interest in many fields. Examples include but are not limited to medicine, detection of explosives, and food quality control. Measurements collected with electronic noses can be used for classification and analysis of VOCs. One type of electronic noses that has seen considerable development in recent years is Differential Mobility Spectrometry (DMS). DMS yields measurements that are visualized as dispersion plots that contain traces, also known as alpha curves. Current methods used for analyzing DMS dispersion plots do not usually utilize the information stored in the continuity of these traces, which suggests that alternative approaches should be investigated. Results: In this work, for the first time, dispersion plots were interpreted as a series of measurements evolving sequentially. Thus, it was hypothesized that time-series classification algorithms can be effective for classification and analysis of dispersion plots. An extensive dataset of 900 dispersion plots for five chemicals measured at five flow rates and two concentrations was collected. The data was used to analyze the classification performance of six algorithms. According to our hypothesis, the highest classification accuracy of 88\% was achieved by a Long-Short Term Memory neural network, which supports our hypothesis. Significance: A new concept for approaching classification tasks of dispersion plots is presented and compared with other well-known classification algorithms. This creates a new angle of view for analysis and classification of the dispersion plots. In addition, a new dataset of dispersion plots is openly shared to public.
翻訳日:2024-01-17 19:56:20 公開日:2024-01-13
# 動的グラフ表現学習のためのテンソルグラフ畳み込みネットワーク

Tensor Graph Convolutional Network for Dynamic Graph Representation Learning ( http://arxiv.org/abs/2401.07065v1 )

ライセンス: Link先を確認
Ling Wang, Ye Yuan(参考訳) 動的グラフ(DG)は、多くの実践シナリオにおいてエンティティ間の動的相互作用を記述する。 既存のdg表現学習モデルのほとんどは、グラフ畳み込みネットワークとシーケンスニューラルネットワークを組み合わせたもので、2つの異なるタイプのニューラルネットワークを通して空間-時間依存をモデル化する。 しかし、このハイブリッド設計は、DGの空間的時間的連続性をうまく捉えられない。 本稿では,テンソル積に基づく一つの畳み込みフレームワークでdg表現を学習するためのテンソルグラフ畳み込みネットワークを提案する。 a) DGの情報をテンソル形式で表現すること b)空間-時間的特徴を同時にモデル化するテンソルグラフ畳み込みネットワークを設計するためにテンソル積を採用すること。 実世界のDGデータセットの実験により、我々のモデルが最先端の性能を得ることを示す。

Dynamic graphs (DG) describe dynamic interactions between entities in many practical scenarios. Most existing DG representation learning models combine graph convolutional network and sequence neural network, which model spatial-temporal dependencies through two different types of neural networks. However, this hybrid design cannot well capture the spatial-temporal continuity of a DG. In this paper, we propose a tensor graph convolutional network to learn DG representations in one convolution framework based on the tensor product with the following two-fold ideas: a) representing the information of DG by tensor form; b) adopting tensor product to design a tensor graph convolutional network modeling spatial-temporal feature simultaneously. Experiments on real-world DG datasets demonstrate that our model obtains state-of-the-art performance.
翻訳日:2024-01-17 19:55:58 公開日:2024-01-13
# ACAV: 自動運転車事故記録の自動因果解析のためのフレームワーク

ACAV: A Framework for Automatic Causality Analysis in Autonomous Vehicle Accident Recordings ( http://arxiv.org/abs/2401.07063v1 )

ライセンス: Link先を確認
Huijia Sun, Christopher M. Poskitt, Yang Sun, Jun Sun, Yuqi Chen(参考訳) 自動運転車(AV)の急速な進歩により、ドライバーレスの未来はこれまでになく近づきつつある。 しかし、近年の死亡例は、大規模な検査による安全性検証の重要性を強調している。 複数のアプローチは、多種多様な運転シナリオを生成し、異なるテストオラクルに対して自律運転システム~(ADS)を評価することで、高忠実度シミュレータを使ってこれを完全に自動的に実現している。 違反を見つけるのに効果的であるが、これらのアプローチは、ADSの安全性を向上させる上で重要な情報である「emph{ becaused}」の決定と行動を特定するものではない。 この課題に対処するために,AV事故記録の因果解析を2段階で行うための自動フレームワークであるACAVを提案する。 まず,adsモジュール間で交換されたメッセージに基づいて特徴抽出スキーマを適用し,重み付き投票法を用いて,事故とは無関係な記録のフレームを破棄する。 第二に、安全仕様を用いて安全クリティカルなフレームを特定し、私たちの因果解析ツールであるCATをステーションタイムグラフに適用することで因果事象を推論します。 acav は av 試験エンジンによって生成された110 件の事故記録のうち、93.64% で5つの異なる因果事象を識別できることがわかった。 さらに,特定の故障を注入したアポロ計画のバージョンから収集された1206件の事故記録を評価し,予測誤差による事故の96.44%,計画誤差による事故の85.73%を正しく識別できることを確認した。

The rapid progress of autonomous vehicles~(AVs) has brought the prospect of a driverless future closer than ever. Recent fatalities, however, have emphasized the importance of safety validation through large-scale testing. Multiple approaches achieve this fully automatically using high-fidelity simulators, i.e., by generating diverse driving scenarios and evaluating autonomous driving systems~(ADSs) against different test oracles. While effective at finding violations, these approaches do not identify the decisions and actions that \emph{caused} them -- information that is critical for improving the safety of ADSs. To address this challenge, we propose ACAV, an automated framework designed to conduct causality analysis for AV accident recordings in two stages. First, we apply feature extraction schemas based on the messages exchanged between ADS modules, and use a weighted voting method to discard frames of the recording unrelated to the accident. Second, we use safety specifications to identify safety-critical frames and deduce causal events by applying CAT -- our causal analysis tool -- to a station-time graph. We evaluate ACAV on the Apollo ADS, finding that it can identify five distinct types of causal events in 93.64% of 110 accident recordings generated by an AV testing engine. We further evaluated ACAV on 1206 accident recordings collected from versions of Apollo injected with specific faults, finding that it can correctly identify causal events in 96.44% of the accidents triggered by prediction errors, and 85.73% of the accidents triggered by planning errors.
翻訳日:2024-01-17 19:55:49 公開日:2024-01-13
# 雑音ラベル学習のためのディリクレに基づく予測校正

Dirichlet-Based Prediction Calibration for Learning with Noisy Labels ( http://arxiv.org/abs/2401.07062v1 )

ライセンス: Link先を確認
Chen-Chen Zong, Ye-Wen Wang, Ming-Kun Xie, Sheng-Jun Huang(参考訳) ノイズラベルによる学習は、ディープニューラルネットワーク(DNN)の一般化性能を著しく損なう可能性がある。 既存のアプローチでは、損失補正やサンプル選択メソッドを通じてこの問題に対処している。 しかし、これらの手法はソフトマックス関数から得られるモデルの予測に依存することが多い。 本研究では,この問題の根本原因としてソフトマックス関数の翻訳不変性を同定し,解としてtextit{Dirichlet-based Prediction Calibration} (DPC)法を提案する。 提案手法では,適切な定数を指数項に組み込むことで翻訳不変性を壊し,より信頼性の高いモデル予測を可能にするソフトマックス関数を導入する。 安定したモデルトレーニングを確保するために,ディリクレ分布を利用して予測ラベルに確率を割り当て,新たなエビデンス深層学習(EDL)損失を導入する。 提案する損失関数は他のラベルに対して負のロジットと小さいロジットを罰し、より明確なロジットを導き、大きなマージン基準に基づくより良いサンプル選択を促進する。 多様なベンチマークデータセットに関する広範な実験を通じて、DPCが最先端のパフォーマンスを達成することを示す。 コードはhttps://github.com/chenchenzong/DPCで入手できる。

Learning with noisy labels can significantly hinder the generalization performance of deep neural networks (DNNs). Existing approaches address this issue through loss correction or example selection methods. However, these methods often rely on the model's predictions obtained from the softmax function, which can be over-confident and unreliable. In this study, we identify the translation invariance of the softmax function as the underlying cause of this problem and propose the \textit{Dirichlet-based Prediction Calibration} (DPC) method as a solution. Our method introduces a calibrated softmax function that breaks the translation invariance by incorporating a suitable constant in the exponent term, enabling more reliable model predictions. To ensure stable model training, we leverage a Dirichlet distribution to assign probabilities to predicted labels and introduce a novel evidence deep learning (EDL) loss. The proposed loss function encourages positive and sufficiently large logits for the given label, while penalizing negative and small logits for other labels, leading to more distinct logits and facilitating better example selection based on a large-margin criterion. Through extensive experiments on diverse benchmark datasets, we demonstrate that DPC achieves state-of-the-art performance. The code is available at https://github.com/chenchenzong/DPC.
翻訳日:2024-01-17 19:55:26 公開日:2024-01-13
# 少数撮影画像認識のための意味関係ガイダンスを用いたデュアルビューデータ幻覚

Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition ( http://arxiv.org/abs/2401.07061v1 )

ライセンス: Link先を確認
Hefeng Wu, Guangzhi Ye, Ziyang Zhou, Ling Tian, Qing Wang, Liang Lin(参考訳) 少数の画像サンプルから新しい概念を認識することは、学習されたモデルが少数のデータに簡単に過度に適合し、結果として一般化しにくいため、非常に難しい。 有望だが未熟な解決策の1つは、可能なサンプルを生成して新しいクラスを補うことである。 しかし、このラインの既存の作業の多くは視覚情報のみを利用しており、生成したデータを数少ないサンプルに含まれるいくつかの困難な要因によって簡単に注意をそらすことができる。 人間の概念を反映したテキストモダリティのセマンティック情報を意識した本研究は、セマンティックな関係を利用して、画像認識のためのデュアルビューデータ幻覚を導く新しいフレームワークを提案する。 提案フレームワークは,新しいクラスに対して,より多様で合理的なデータサンプルを,ベースクラスからの効果的な情報伝達によって生成することができる。 具体的には、インスタンスビューデータ幻覚モジュールが、新規クラスの各サンプルを幻覚し、局所的な意味相関注意とベースクラスから派生したグローバル意味特徴融合を用いて、新しいデータを生成する。 一方、プロトタイプビューデータ幻覚モジュールは、セマンティックアウェアメントを利用して、新しいクラスのプロトタイプと関連する分布を少数のサンプルから推定し、より安定したサンプルとして抽出し、多数のサンプルを再サンプリングすることができる。 提案手法の有効性を検証するため,いくつかの人気のある数点ベンチマークにおいて,最先端手法との比較実験を行った。

Learning to recognize novel concepts from just a few image samples is very challenging as the learned model is easily overfitted on the few data and results in poor generalizability. One promising but underexplored solution is to compensate the novel classes by generating plausible samples. However, most existing works of this line exploit visual information only, rendering the generated data easy to be distracted by some challenging factors contained in the few available samples. Being aware of the semantic information in the textual modality that reflects human concepts, this work proposes a novel framework that exploits semantic relations to guide dual-view data hallucination for few-shot image recognition. The proposed framework enables generating more diverse and reasonable data samples for novel classes through effective information transfer from base classes. Specifically, an instance-view data hallucination module hallucinates each sample of a novel class to generate new data by employing local semantic correlated attention and global semantic feature fusion derived from base classes. Meanwhile, a prototype-view data hallucination module exploits semantic-aware measure to estimate the prototype of a novel class and the associated distribution from the few samples, which thereby harvests the prototype as a more stable sample and enables resampling a large number of samples. We conduct extensive experiments and comparisons with state-of-the-art methods on several popular few-shot benchmarks to verify the effectiveness of the proposed framework.
翻訳日:2024-01-17 19:55:02 公開日:2024-01-13
# 大規模言語モデルを用いた分散型自治組織の提案分類

Classifying Proposals of Decentralized Autonomous Organizations Using Large Language Models ( http://arxiv.org/abs/2401.07059v1 )

ライセンス: Link先を確認
Christian Ziegler, Marcos Miranda, Guangye Cao, Gustav Arentoft, Doo Wan Nam(参考訳) 本研究では,複雑なデータセットの分類を自動化するための大規模言語モデル(llms)の有効性を示す。 このデータの分類にはコンテキストの理解が必要であり、そのため、人間の専門知識に依存するため、タスクに関連するコストが高くなるため、特にDAO(Decentralized Autonomous Organizations)の提案をターゲットとしています。 この研究では、カテゴリを特定し、各イテレーションでそれらとプロンプトをさらに洗練する反復的アプローチを適用することで、100のプロポーザルのセットを分類する精度が95%に向上した。 これにより、テキストコンテキストに依存したデータラベリングタスクを自動化するLLMの可能性を実証する。

Our study demonstrates the effective use of Large Language Models (LLMs) for automating the classification of complex datasets. We specifically target proposals of Decentralized Autonomous Organizations (DAOs), as the classification of this data requires the understanding of context and, therefore, depends on human expertise, leading to high costs associated with the task. The study applies an iterative approach to specify categories and further refine them and the prompt in each iteration, which led to an accuracy rate of 95% in classifying a set of 100 proposals. With this, we demonstrate the potential of LLMs to automate data labeling tasks that depend on textual context effectively.
翻訳日:2024-01-17 19:54:35 公開日:2024-01-13
# アドバイスは役に立つか? AIによる意思決定における第2の意見の効果

Does More Advice Help? The Effects of Second Opinions in AI-Assisted Decision Making ( http://arxiv.org/abs/2401.07058v1 )

ライセンス: Link先を確認
Zhuoran Lu, Dakuo Wang, Ming Yin(参考訳) 意思決定におけるAIアシストは人気があるが、AIへの不適切な依存はしばしば、満足のいく人間とAIのコラボレーションのパフォーマンスにつながる。 本稿では,事前登録された3つのランダム化人体実験を通して,AIによる意思決定における意思決定者の行動とパフォーマンスに与える影響について検討する。 AIモデルの推奨事項と第2の意見が常に一致している場合、意思決定者は、ピアまたは他のAIモデルによって第2の意見が生成されるかどうかに関わらず、AIに対する過度な信頼度を高めながら、AIへの信頼度を低下させる。 しかし、もし意思決定者がピアの第二意見の提出をいつ行うかを決めることができるならば、第二意見の積極的な勧誘は、一部のケースでは過度な信頼を増すことなくAIへの過度な依存を軽減する可能性がある。 意思決定における人間とAIの効果的なコラボレーションを促進するために,本研究の意義を論じる。

AI assistance in decision-making has become popular, yet people's inappropriate reliance on AI often leads to unsatisfactory human-AI collaboration performance. In this paper, through three pre-registered, randomized human subject experiments, we explore whether and how the provision of {second opinions} may affect decision-makers' behavior and performance in AI-assisted decision-making. We find that if both the AI model's decision recommendation and a second opinion are always presented together, decision-makers reduce their over-reliance on AI while increase their under-reliance on AI, regardless whether the second opinion is generated by a peer or another AI model. However, if decision-makers have the control to decide when to solicit a peer's second opinion, we find that their active solicitations of second opinions have the potential to mitigate over-reliance on AI without inducing increased under-reliance in some cases. We conclude by discussing the implications of our findings for promoting effective human-AI collaborations in decision-making.
翻訳日:2024-01-17 19:54:24 公開日:2024-01-13
# Aquarium:マルチエージェント強化学習アルゴリズムによる捕食者・捕食者のダイナミクスを総合的に探索するフレームワーク

Aquarium: A Comprehensive Framework for Exploring Predator-Prey Dynamics through Multi-Agent Reinforcement Learning Algorithms ( http://arxiv.org/abs/2401.07056v1 )

ライセンス: Link先を確認
Michael K\"olle, Yannick Erpelding, Fabian Ritz, Thomy Phan, Steffen Illium and Claudia Linnhoff-Popien(参考訳) マルチエージェント強化学習の最近の進歩は、シミュレーション環境におけるエージェント間の複雑な相互作用のモデル化を促している。 特に捕食者-捕食者の動力学はかなりの関心を集めており、様々なシミュレーションはユニークな要求に合わせたものである。 捕食者-捕食者間相互作用のための総合的マルチエージェント強化学習環境であるアクアリウムを導入し,創発的行動の研究を可能にする。 aquariumはオープンソースであり、pettingzooフレームワークのシームレスな統合を提供する。 2次元のエッジラッピング平面上での物理ベースのエージェント移動を特徴とする。 エージェントと環境の相互作用(観察、行動、報酬)と環境設定(エージェントの速度、獲物の繁殖、捕食者の飢餓など)は完全にカスタマイズ可能である。 リソース効率の可視化に加えて、Aquariumはビデオファイルの記録をサポートし、エージェントの振る舞いの視覚的理解を提供する。 本研究は,PPOを用いて捕食者を避けるために,複数の捕食者を訓練する予備的研究を行う。 文献に従えば,個々の学習はパラメータ共有よりもパフォーマンスが悪く,コーディネーションとサンプル効率が著しく向上することがわかった。

Recent advances in Multi-Agent Reinforcement Learning have prompted the modeling of intricate interactions between agents in simulated environments. In particular, the predator-prey dynamics have captured substantial interest and various simulations been tailored to unique requirements. To prevent further time-intensive developments, we introduce Aquarium, a comprehensive Multi-Agent Reinforcement Learning environment for predator-prey interaction, enabling the study of emergent behavior. Aquarium is open source and offers a seamless integration of the PettingZoo framework, allowing a quick start with proven algorithm implementations. It features physics-based agent movement on a two-dimensional, edge-wrapping plane. The agent-environment interaction (observations, actions, rewards) and the environment settings (agent speed, prey reproduction, predator starvation, and others) are fully customizable. Besides a resource-efficient visualization, Aquarium supports to record video files, providing a visual comprehension of agent behavior. To demonstrate the environment's capabilities, we conduct preliminary studies which use PPO to train multiple prey agents to evade a predator. In accordance to the literature, we find Individual Learning to result in worse performance than Parameter Sharing, which significantly improves coordination and sample-efficiency.
翻訳日:2024-01-17 19:54:04 公開日:2024-01-13
# 直接量子回路合成のための強化学習環境

A Reinforcement Learning Environment for Directed Quantum Circuit Synthesis ( http://arxiv.org/abs/2401.07054v1 )

ライセンス: Link先を確認
Michael K\"olle, Tom Schubert, Philipp Altmann, Maximilian Zorn, Jonas Stein, Claudia Linnhoff-Popien(参考訳) 近年の量子コンピューティング技術の進歩により、量子回路の最適化と信頼性の高い量子状態の確保がますます重要になっている。 従来の手法では、量子回路が量子ビット数とゲート数で成長するにつれて、幅広い専門知識と手作業による計算が要求される。 したがって、さまざまなゲートとキュービットの組み合わせを扱うために機械学習技術を活用することは有望なアプローチである。 そこで本研究では,clifford+tゲートセットからのゲートを利用して回路を構成する量子回路合成のための包括的強化学習環境を提案する。 本実験では,合成量子回路の深さとターゲット初期化に用いる回路深さ,および量子ビット数との関係について検討した。 環境構成を複数の評価レベルに整理し、ベンチマーク目的でよく知られた量子状態を含む。 また, 環境評価の基準として, 最適政策最適化を用いた。 トレーニングされたエージェントをベンチマークテストに適用することにより、2量子状態の選択のために最小限の量子回路を確実に設計できることを実証した。

With recent advancements in quantum computing technology, optimizing quantum circuits and ensuring reliable quantum state preparation have become increasingly vital. Traditional methods often demand extensive expertise and manual calculations, posing challenges as quantum circuits grow in qubit- and gate-count. Therefore, harnessing machine learning techniques to handle the growing variety of gate-to-qubit combinations is a promising approach. In this work, we introduce a comprehensive reinforcement learning environment for quantum circuit synthesis, where circuits are constructed utilizing gates from the the Clifford+T gate set to prepare specific target states. Our experiments focus on exploring the relationship between the depth of synthesized quantum circuits and the circuit depths used for target initialization, as well as qubit count. We organize the environment configurations into multiple evaluation levels and include a range of well-known quantum states for benchmarking purposes. We also lay baselines for evaluating the environment using Proximal Policy Optimization. By applying the trained agents to benchmark tests, we demonstrated their ability to reliably design minimal quantum circuits for a selection of 2-qubit Bell states.
翻訳日:2024-01-17 19:53:43 公開日:2024-01-13
# Adaptoring: ライブラリの代替APIを提供するアダプタ生成

Adaptoring: Adapter Generation to Provide an Alternative API for a Library ( http://arxiv.org/abs/2401.07053v1 )

ライセンス: Link先を確認
Lars Reimann, G\"unter Kniesel-W\"unsche(参考訳) サードパーティのライブラリは、高速アプリケーション開発の基盤である。 効率的な使用を可能にするために、ライブラリはよく設計されたAPIを提供する必要がある。 あいまいなAPIは学習プロセスを遅くし、誤用につながる可能性がある。 ライブラリのAPIを改善するための一般的なアプローチは、そのコードを直接編集し、古いAPIを維持しながら非推奨にする(APIサイズを一時的に増やす)か、あるいは削除する(破壊的な変更の導入)のいずれかである。 メンテナがそのような変更を望まない場合は、リファクタリング可能なハードフォークを作成する必要がある。 しかし、バグフィックスやパフォーマンス改善など、オリジナルのライブラリに変更を組み込むことは困難である。 そこで本論文では,本ライブラリを内部的に呼び出す新しいライブラリとして,新しいapiを提供するためのアダプタパターンの利用について検討する。 これにより、新しいライブラリは、追加コストなしで、元のライブラリへのすべての実装変更を活用できる。 私たちはこのアプローチを適応と呼ぶ。 アプローチを現実的にするために,アダプタコードの自動生成が可能なAPI変換を特定し,元のライブラリのドキュメンテーションと使用パターンに基づいて,どの変換を自動的に推論できるかを検討する。 自動推論が不可能な場合には、開発者が手動でAPI変換を指定できるツールを提示します。 最後に、オリジナルのライブラリが破壊的変更を導入した場合、生成されたアダプタを移行する問題について検討する。 私たちはpythonのアプローチを実装し、大きなライブラリでも代替apiを迅速に提供する効果を示しました。

Third-party libraries are a cornerstone of fast application development. To enable efficient use, libraries must provide a well-designed API. An obscure API instead slows down the learning process and can lead to erroneous use. The usual approach to improve the API of a library is to edit its code directly, either keeping the old API but deprecating it (temporarily increasing the API size) or dropping it (introducing breaking changes). If maintainers are unwilling to make such changes, others need to create a hard fork, which they can refactor. But then it is difficult to incorporate changes to the original library, such as bug fixes or performance improvements. In this paper, we instead explore the use of the adapter pattern to provide a new API as a new library that calls the original library internally. This allows the new library to leverage all implementation changes to the original library, at no additional cost. We call this approach adaptoring. To make the approach practical, we identify API transformations for which adapter code can be generated automatically, and investigate which transformations can be inferred automatically, based on the documentation and usage patterns of the original library. For cases where automated inference is not possible, we present a tool that lets developers manually specify API transformations. Finally, we consider the issue of migrating the generated adapters if the original library introduces breaking changes. We implemented our approach for Python, demonstrating its effectiveness to quickly provide an alternative API even for large libraries.
翻訳日:2024-01-17 19:53:27 公開日:2024-01-13
# COIN:不確かさを意識した適応的リソースオーバーサブスクライブ政策のためのチャンス制約型模倣学習

COIN: Chance-Constrained Imitation Learning for Uncertainty-aware Adaptive Resource Oversubscription Policy ( http://arxiv.org/abs/2401.07051v1 )

ライセンス: Link先を確認
Lu Wang, Mayukh Das, Fangkai Yang, Chao Duo, Bo Qiao, Hang Dong, Si Qin, Chetan Bansal, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) 我々は,資源混雑リスクに対する安全性を確保しつつ,資源効率を高めるため,適応的資源過多の真の科学的問題の観点から,不確実性のある安全かつ堅牢な意思決定政策を学習することの課題に対処する。 従来の教師付き予測や予測モデルは適応ポリシーの学習には効果がないが、標準的なオンライン最適化や強化学習は実際のシステムに展開することが難しい。 歴史的なリソース利用テレメトリを直接活用できるため、il(imitation learning)のようなオフラインメソッドは理想的です。 しかし、このようなテレメトリーにおけるアレータリックな不確実性は重要なボトルネックである。 本稿では,資源混雑リスクに対する確率的制約とアンサンブル値関数の組み合わせにより,不確実性に対する暗黙の安全性を原則的に保証する,機会拘束型模倣学習フレームワークを提案する。 これにより、クラウドサービスのリソース管理を含む多くのオーバーサブスクライブシナリオにおいて、リソース効率と安全性が大幅に改善されます。

We address the challenge of learning safe and robust decision policies in presence of uncertainty in context of the real scientific problem of adaptive resource oversubscription to enhance resource efficiency while ensuring safety against resource congestion risk. Traditional supervised prediction or forecasting models are ineffective in learning adaptive policies whereas standard online optimization or reinforcement learning is difficult to deploy on real systems. Offline methods such as imitation learning (IL) are ideal since we can directly leverage historical resource usage telemetry. But, the underlying aleatoric uncertainty in such telemetry is a critical bottleneck. We solve this with our proposed novel chance-constrained imitation learning framework, which ensures implicit safety against uncertainty in a principled manner via a combination of stochastic (chance) constraints on resource congestion risk and ensemble value functions. This leads to substantial ($\approx 3-4\times$) improvement in resource efficiency and safety in many oversubscription scenarios, including resource management in cloud services.
翻訳日:2024-01-17 19:53:04 公開日:2024-01-13
# エージェントが多すぎる:マルチエージェント会話型AIへのアプローチに関するユーザ視点

One Agent Too Many: User Perspectives on Approaches to Multi-agent Conversational AI ( http://arxiv.org/abs/2401.07123v1 )

ライセンス: Link先を確認
Christopher Clarke, Karthik Krishnamurthy, Walter Talamonti, Yiping Kang, Lingjia Tang, Jason Mars(参考訳) 近年,会話エージェントの人気が高まっている。 Apple SiriやAmazon Alexaといったタスク指向エージェントの普及の影響を受け、これらのエージェントはユーザエクスペリエンスを向上させるためにさまざまなアプリケーションにデプロイされている。 これらのエージェントは "Ask me anything" 機能を促進するが、通常は単一のまたは有限の専門知識にフォーカスするために構築される。 複雑なタスクは複数の専門知識を必要とすることが多いため、複数のエージェントを学び、採用する必要がある。 これを軽減する1つのアプローチは、バックグラウンドでエージェントのオーケストレーションを抽象化することだ。 しかし、これは選択と柔軟性の選択肢を取り除き、タスクを完了させる能力を損なう可能性がある。 本稿では、対話型AIにおけるこれらの異なるインタラクション体験(一人のエージェント)対(エージェントの選択)について検討する。 タスク完了を促進する能力を体系的に評価し,それぞれのプロトタイプを設計する。 一連のユーザ調査の結果,システムユーザビリティとシステムパフォーマンスの両方において,エージェントオーケストレーションを抽象化する傾向が見られた。 さらに,このインタラクションは,人間の選択した回答の1%以内に評価される品質応答を提供できることを実証する。

Conversational agents have been gaining increasing popularity in recent years. Influenced by the widespread adoption of task-oriented agents such as Apple Siri and Amazon Alexa, these agents are being deployed into various applications to enhance user experience. Although these agents promote "ask me anything" functionality, they are typically built to focus on a single or finite set of expertise. Given that complex tasks often require more than one expertise, this results in the users needing to learn and adopt multiple agents. One approach to alleviate this is to abstract the orchestration of agents in the background. However, this removes the option of choice and flexibility, potentially harming the ability to complete tasks. In this paper, we explore these different interaction experiences (one agent for all) vs (user choice of agents) for conversational AI. We design prototypes for each, systematically evaluating their ability to facilitate task completion. Through a series of conducted user studies, we show that users have a significant preference for abstracting agent orchestration in both system usability and system performance. Additionally, we demonstrate that this mode of interaction is able to provide quality responses that are rated within 1% of human-selected answers.
翻訳日:2024-01-17 19:47:38 公開日:2024-01-13
# 生成型AI対応量子コンピューティングネットワークとインテリジェントリソース割り当て

Generative AI-enabled Quantum Computing Networks and Intelligent Resource Allocation ( http://arxiv.org/abs/2401.07120v1 )

ライセンス: Link先を確認
Minrui Xu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Yuan Cao, Yulan Gao, Chao Ren, Han Yu(参考訳) 量子コンピューティングネットワークは、大規模生成AI計算タスクと高度な量子アルゴリズムを実行しながら、複数の古典的および量子コンピューティングノード間のスケーラブルなコラボレーションとセキュアな情報交換を可能にする。 量子コンピューティングネットワークは量子ビット数や絡み合ったペアのコヒーレンス時間といった制限を克服し、分散処理によるノイズ低減や複数の量子デバイス接続によるスケーラビリティ向上など、生成型aiインフラストラクチャの利点を提供する。 しかし、量子コンピューティングネットワークにおける効率的なリソース割り当ては、量子ビットの可変性やネットワークの複雑さなどの要因により重要な課題である。 本稿では,資源コストを最小限に抑えてネットワークのスケーラビリティを向上させるために,量子コンピューティングネットワークのためのインテリジェントなリソース割り当てフレームワークを提案する。 量子コンピューティングネットワークのスケーラビリティを実現するために,量子ビットと絡み合ったペアの不確かさを考慮し,資源割当問題を確率的プログラミングとして定式化する。 さらに,提案した確率的資源割り当て問題を効率的に解くために,生成学習から量子機械学習まで,最先端強化学習(RL)アルゴリズムを導入する。 最後に、量子生成学習アプリケーションをサポートする異種量子コンピューティングネットワークにおけるリソース割り当てを最適化し、事前知識のない最適なリソース割り当てポリシーを学習するためのマルチエージェントRLベースのアルゴリズムを提案する。

Quantum computing networks enable scalable collaboration and secure information exchange among multiple classical and quantum computing nodes while executing large-scale generative AI computation tasks and advanced quantum algorithms. Quantum computing networks overcome limitations such as the number of qubits and coherence time of entangled pairs and offer advantages for generative AI infrastructure, including enhanced noise reduction through distributed processing and improved scalability by connecting multiple quantum devices. However, efficient resource allocation in quantum computing networks is a critical challenge due to factors including qubit variability and network complexity. In this article, we propose an intelligent resource allocation framework for quantum computing networks to improve network scalability with minimized resource costs. To achieve scalability in quantum computing networks, we formulate the resource allocation problem as stochastic programming, accounting for the uncertain fidelities of qubits and entangled pairs. Furthermore, we introduce state-of-the-art reinforcement learning (RL) algorithms, from generative learning to quantum machine learning for optimal quantum resource allocation to resolve the proposed stochastic resource allocation problem efficiently. Finally, we optimize the resource allocation in heterogeneous quantum computing networks supporting quantum generative learning applications and propose a multi-agent RL-based algorithm to learn the optimal resource allocation policies without prior knowledge.
翻訳日:2024-01-17 19:47:19 公開日:2024-01-13
# curator:マルチテナントベクターデータベースの効率的なインデックス化

Curator: Efficient Indexing for Multi-Tenant Vector Databases ( http://arxiv.org/abs/2401.07119v1 )

ライセンス: Link先を確認
Yicheng Jin, Yongji Wu, Wenjun Hu, Bruce M. Maggs, Xiao Zhang, Danyang Zhuo(参考訳) ベクターデータベースは、非構造化データでインテリジェントなアプリケーションを橋渡しするためのキーイネーブラとして登場し、生の非構造化データから抽出された埋め込みベクターの汎用検索と管理のサポートを提供する。 複数のデータユーザが同じデータベースインフラストラクチャを共有できるため、ベクトルデータベースに対するマルチテナンシのサポートがますます望ましい。 これは効率的なフィルタ付き検索操作、すなわち特定のテナントにアクセス可能なベクターのみを問い合わせることにかかっている。 ベクトルデータベースのマルチテナントは現在、すべてのテナント間で単一の共有インデックスを構築するか、テナント毎にインデックスを構築することで実現されている。 前者は検索性能を犠牲にしてメモリ効率を最適化するが、後者は逆を行う。 そこで本研究では,メモリオーバーヘッドの低減,クエリの高速化,ベクトル挿入,削除という2つの相反する目標を同時に達成する,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。 curatorはテナントのベクトルをテナント固有のクラスタリングツリーにインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。 各テナントのクラスタリングツリーは、テナント毎のメモリフットプリントを低く保ちながら、ユニークなベクトル分布に動的に適応する。 評価の結果,Curatorは,1つの共有インデックス上でのメタデータフィルタリングと同程度のメモリ消費を維持しながら,テナント単位のインデックスと同等の検索性能を提供することを確認した。

Vector databases have emerged as key enablers for bridging intelligent applications with unstructured data, providing generic search and management support for embedding vectors extracted from the raw unstructured data. As multiple data users can share the same database infrastructure, multi-tenancy support for vector databases is increasingly desirable. This hinges on an efficient filtered search operation, i.e., only querying the vectors accessible to a particular tenant. Multi-tenancy in vector databases is currently achieved by building either a single, shared index among all tenants, or a per-tenant index. The former optimizes for memory efficiency at the expense of search performance, while the latter does the opposite. Instead, this paper presents Curator, an in-memory vector index design tailored for multi-tenant queries that simultaneously achieves the two conflicting goals, low memory overhead and high performance for queries, vector insertion, and deletion. Curator indexes each tenant's vectors with a tenant-specific clustering tree and encodes these trees compactly as sub-trees of a shared clustering tree. Each tenant's clustering tree adapts dynamically to its unique vector distribution, while maintaining a low per-tenant memory footprint. Our evaluation, based on two widely used data sets, confirms that Curator delivers search performance on par with per-tenant indexing, while maintaining memory consumption at the same level as metadata filtering on a single, shared index.
翻訳日:2024-01-17 19:46:56 公開日:2024-01-13
# AI強化ロボットアームの離散・連続入力制御の探索

Exploring of Discrete and Continuous Input Control for AI-enhanced Assistive Robotic Arms ( http://arxiv.org/abs/2401.07118v1 )

ライセンス: Link先を確認
Max Pascher and Kevin Zinta and Jens Gerken(参考訳) 運動障害者の在宅ケアに不可欠なロボットアームは、自立して日常生活活動(adl)を行うことができ、介護者への依存度を低減できる。 これらの共同作業ロボットは、オブジェクトの把握や操作といったタスクのために、複数の自由度(DoF)を管理する必要がある。 通常2つのDoFに制限される通常の入力デバイスは、個々のDoFを制御するために頻繁に複雑なモードスイッチを必要とする。 フィードフォワードマルチモーダルフィードバックによる現代的な適応制御は、タスク全体の完了時間、モードスイッチの数、認知負荷を低減する。 様々な入力デバイスが利用可能であるにもかかわらず、補助ロボットによる適応的な設定の有効性はまだ十分に評価されていない。 本研究は, ロボット工学の確立したXRフレームワークに組み込んだ3種類の入力デバイスについて検討し, 今後の発展に向けた予備研究を通じて, 実験的な知見を提供する。

Robotic arms, integral in domestic care for individuals with motor impairments, enable them to perform Activities of Daily Living (ADLs) independently, reducing dependence on human caregivers. These collaborative robots require users to manage multiple Degrees-of-Freedom (DoFs) for tasks like grasping and manipulating objects. Conventional input devices, typically limited to two DoFs, necessitate frequent and complex mode switches to control individual DoFs. Modern adaptive controls with feed-forward multi-modal feedback reduce the overall task completion time, number of mode switches, and cognitive load. Despite the variety of input devices available, their effectiveness in adaptive settings with assistive robotics has yet to be thoroughly assessed. This study explores three different input devices by integrating them into an established XR framework for assistive robotics, evaluating them and providing empirical insights through a preliminary study for future developments.
翻訳日:2024-01-17 19:46:28 公開日:2024-01-13
# オープンモデル、クローズドマインド? オープン・大型言語モデルによる個人性を模倣するエージェント能力について

Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models ( http://arxiv.org/abs/2401.07115v1 )

ライセンス: Link先を確認
Lucio La Cava, Davide Costa, Andrea Tagarelli(参考訳) LLM(Large Language Models)における人間に似た行動の出現は、NLPと人間の心理学との密接な関係をもたらし、計算エージェントの増殖につながった。 研究者は、llmエージェントが示す固有の個性を研究し、人間の特性や行動を取り込もうとしてきた。 しかし、これらの取り組みは主に商用ライセンスのLLMに焦点を合わせており、Open LLMで見られる広く使われていることや顕著な進歩を無視している。 本研究の目的は,オープンLLMを用いて人格をエミュレートするエージェントの能力を包括的に検証することで,このギャップに対処することである。 これを実現するために、最も代表的なオープンモデルに基づいて10個のLLMエージェントを生成し、マイアーズ・ブリッグス型指標(MBTI)テストに関する一連の評価を行う。 このアプローチでは,オープンllmエージェントの性格特性を評価し,特定の個性や役割によって条件づけられた場合の人格を模倣できる程度を判断する。 われわれの調査結果はそれを明らかにしている。 (i)各Open LLMエージェントは、異なる人間の個性を示す$ (ii)$パーソナリティ条件付プロンプトはエージェントに様々な効果をもたらすが、課せられるパーソナリティを反映させるのに成功している人はほとんどおらず、そのほとんどは「クローズド・マインドド」である(すなわち、内在的な特性を保持する)。 (iii)$ ロールとパーソナリティ・コンディショニングの組み合わせは、エージェントの人格を模倣する能力を高め、$ (四)典型的には教師の役割にまつわる人格は、より正確でエミュレートされる傾向にある。 我々の研究は、オープンLLMのレンズを通して、NLPと人間の心理学の密接な関係を理解するための一歩である。

The emergence of unveiling human-like behaviors in Large Language Models (LLMs) has led to a closer connection between NLP and human psychology, leading to a proliferation of computational agents. Scholars have been studying the inherent personalities displayed by LLM agents and attempting to incorporate human traits and behaviors into them. However, these efforts have primarily focused on commercially-licensed LLMs, neglecting the widespread use and notable advancements seen in Open LLMs. This work aims to address this gap by conducting a comprehensive examination of the ability of agents to emulate human personalities using Open LLMs. To achieve this, we generate a set of ten LLM Agents based on the most representative Open models and subject them to a series of assessments concerning the Myers-Briggs Type Indicator (MBTI) test. Our approach involves evaluating the intrinsic personality traits of Open LLM agents and determining the extent to which these agents can mimic human personalities when conditioned by specific personalities and roles. Our findings unveil that: $(i)$ each Open LLM agent showcases distinct human personalities; $(ii)$ personality-conditioned prompting produces varying effects on the agents, with only few successfully mirroring the imposed personality, while most of them being ``closed-minded'' (i.e., they retain their intrinsic traits); $(iii)$ combining role and personality conditioning can enhance the agents' ability to mimic human personalities; and $(iv)$ personalities typically associated with the role of teacher tend to be emulated with greater accuracy. Our work represents a step up in understanding the dense relationship between NLP and human psychology through the lens of Open LLMs.
翻訳日:2024-01-17 19:46:11 公開日:2024-01-13
# 第一原理から学ぶヘビアン

Hebbian Learning from First Principles ( http://arxiv.org/abs/2401.07110v1 )

ライセンス: Link先を確認
Linda Albanese, Adriano Barra, Pierluigi Bianco, Fabrizio Durante, Diego Pallara(参考訳) 近年、ニューラルネットワークのホップフィールドモデルと密集した一般化のためのオリジナルの記憶処方は、教師なしプロトコルと教師なしプロトコルの両方に対してハミルトニアン表現を仮定することで、真のヘビー学習規則に変わった。 これらのノートでは、まず、最大エントロピー極限化 \`a la Jaynes を頼りにこれらの明示表現を得る。 ヘビー学習のためのこれらのレシピを形式的に導出するだけでなく、この構成は、エントロピーの極値化におけるラグランジアン制約が、ニューラルネットワークの神経相関に対する結果にどのように影響するかを強調する。 次に、ビッグデータの限界において、教師の存在(またはその欠如)が如何にせよ、これらのヘビアン学習規則はホップフィールドモデルの元の記憶則に収束するだけでなく、関連する自由エネルギーにも収束する(したがって、Amit, Gutfreund, Sompolinskyによって提供される統計力学図は、完全に回復される)。 副次的に,統計的機械用語で好まれる標準コスト関数(Hamiltonian)と,機械学習用語で好まれる2次ロス関数の数学的等価性を示す。 指数的ホップフィールドモデル(分散密度を持つ高密度ネットワークの限界として)や半教師付きプロトコルについても言及する。

Recently, the original storage prescription for the Hopfield model of neural networks -- as well as for its dense generalizations -- has been turned into a genuine Hebbian learning rule by postulating the expression of its Hamiltonian for both the supervised and unsupervised protocols. In these notes, first, we obtain these explicit expressions by relying upon maximum entropy extremization \`a la Jaynes. Beyond providing a formal derivation of these recipes for Hebbian learning, this construction also highlights how Lagrangian constraints within entropy extremization force network's outcomes on neural correlations: these try to mimic the empirical counterparts hidden in the datasets provided to the network for its training and, the denser the network, the longer the correlations that it is able to capture. Next, we prove that, in the big data limit, whatever the presence of a teacher (or its lacking), not only these Hebbian learning rules converge to the original storage prescription of the Hopfield model but also their related free energies (and, thus, the statistical mechanical picture provided by Amit, Gutfreund and Sompolinsky is fully recovered). As a sideline, we show mathematical equivalence among standard Cost functions (Hamiltonian), preferred in Statistical Mechanical jargon, and quadratic Loss Functions, preferred in Machine Learning terminology. Remarks on the exponential Hopfield model (as the limit of dense networks with diverging density) and semi-supervised protocols are also provided.
翻訳日:2024-01-17 19:45:19 公開日:2024-01-13
# 有向正規言語と文脈自由言語

Directed Regular and Context-Free Languages ( http://arxiv.org/abs/2401.07106v1 )

ライセンス: Link先を確認
Moses Ganardi, Irmak Saglam, Georg Zetzsche(参考訳) 我々は、ある言語が指示されているかどうかを決定する問題について研究する。 言語 $L$ が \emph{directed} であるとき、$L$ のすべての単語が$L$ の共通(散在)スーパーワードを持つ。 有向性の決定は、下向き閉集合の理想的な分解に関する根本的な問題である。 もう一つの動機は、2つの \emph{directed} 文脈自由言語が同じ下向き閉包を持つかどうかを多項式時間で決定できることである。 nfas として与えられる正規言語の有向性問題は$ac^1$ であり、したがって多項式時間である。 さらに、固定されたアルファベットサイズに対してNL完全である。 さらに、文脈自由言語では、有向性問題はPSPACE完全であることを示す。

We study the problem of deciding whether a given language is directed. A language $L$ is \emph{directed} if every pair of words in $L$ have a common (scattered) superword in $L$. Deciding directedness is a fundamental problem in connection with ideal decompositions of downward closed sets. Another motivation is that deciding whether two \emph{directed} context-free languages have the same downward closures can be decided in polynomial time, whereas for general context-free languages, this problem is known to be coNEXP-complete. We show that the directedness problem for regular languages, given as NFAs, belongs to $AC^1$, and thus polynomial time. Moreover, it is NL-complete for fixed alphabet sizes. Furthermore, we show that for context-free languages, the directedness problem is PSPACE-complete.
翻訳日:2024-01-17 19:44:31 公開日:2024-01-13
# グラフ言語モデル

Graph Language Models ( http://arxiv.org/abs/2401.07105v1 )

ライセンス: Link先を確認
Moritz Plenz, Anette Frank(参考訳) 言語モデルはnlpのワークホースとなっているが、テキスト知識グラフ(kgs)との相互作用(一般またはドメイン知識の構造化記憶)は積極的に研究されている。 このようなグラフに対する現在の埋め込み方法論は、典型的にはどちらかである 一 構造情報を活用しない逐次言語モデル(LM)を用いてそれらを埋め込むためのグラフを線形化する、又は (i)グラフ構造を保存するためにグラフニューラルネットワーク(GNN)を用いる一方、GNNは事前訓練されたLMと同様にテキストの特徴を表現できない。 本稿では,両アプローチの強みを統合しつつ,その弱点を緩和する新しい言語モデルであるグラフ言語モデル(GLM)を紹介する。 GLMパラメータは、事前訓練されたLMから初期化され、個々の概念や三重項の微妙な理解を容易にする。 同時に、そのアーキテクチャ設計はグラフバイアスを取り入れ、グラフ内の効果的な知識分布を促進する。 ConceptNet サブグラフにおける関係分類タスクの実証評価により,GLM の埋め込みが LM- および GNN ベースのベースラインを教師付きおよびゼロショット設定で超越していることが判明した。

While Language Models have become workhorses for NLP, their interplay with textual knowledge graphs (KGs) - structured memories of general or domain knowledge - is actively researched. Current embedding methodologies for such graphs typically either (i) linearize graphs for embedding them using sequential Language Models (LMs), which underutilize structural information, or (ii) use Graph Neural Networks (GNNs) to preserve graph structure, while GNNs cannot represent textual features as well as a pre-trained LM could. In this work we introduce a novel language model, the Graph Language Model (GLM), that integrates the strengths of both approaches, while mitigating their weaknesses. The GLM parameters are initialized from a pretrained LM, to facilitate nuanced understanding of individual concepts and triplets. Simultaneously, its architectural design incorporates graph biases, thereby promoting effective knowledge distribution within the graph. Empirical evaluations on relation classification tasks on ConceptNet subgraphs reveal that GLM embeddings surpass both LM- and GNN-based baselines in supervised and zero-shot settings.
翻訳日:2024-01-17 19:44:07 公開日:2024-01-13
# NLG評価のための大規模言語モデルの活用:調査

Leveraging Large Language Models for NLG Evaluation: A Survey ( http://arxiv.org/abs/2401.07103v1 )

ライセンス: Link先を確認
Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Chongyang Tao(参考訳) 急速に発展している自然言語生成(NLG)評価分野において、Large Language Models (LLMs)を導入し、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。 本調査は, 系統解析に欠ける新興地域であるNLG評価におけるLCMの活用について, 概観することを目的とする。 既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。 我々の詳細な調査には、様々なLCMベースの方法論を批判的に評価することや、NLG出力の評価における強度と限界を比較することが含まれる。 バイアス、堅牢性、ドメイン固有性、統一評価などの未解決課題を議論することで、この調査は研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目指している。

In the rapidly evolving domain of Natural Language Generation (NLG) evaluation, introducing Large Language Models (LLMs) has opened new avenues for assessing generated content quality, e.g., coherence, creativity, and context relevance. This survey aims to provide a thorough overview of leveraging LLMs for NLG evaluation, a burgeoning area that lacks a systematic analysis. We propose a coherent taxonomy for organizing existing LLM-based evaluation metrics, offering a structured framework to understand and compare these methods. Our detailed exploration includes critically assessing various LLM-based methodologies, as well as comparing their strengths and limitations in evaluating NLG outputs. By discussing unresolved challenges, including bias, robustness, domain-specificity, and unified evaluation, this survey seeks to offer insights to researchers and advocate for fairer and more advanced NLG evaluation techniques.
翻訳日:2024-01-17 19:43:18 公開日:2024-01-13
# 大規模言語モデルによるコードの進化

Evolving Code with A Large Language Model ( http://arxiv.org/abs/2401.07102v1 )

ライセンス: Link先を確認
Erik Hemberg, Stephen Moskal, Una-May O'Reilly(参考訳) LLM(Large Language Models)を使ってコードを進化させるアルゴリズムは、最近GP(Genematic Programming)のシーンに登場した。 本稿では,LLMをベースとした進化アルゴリズムであるLLM GPを提案する。 GPと同様に、進化的演算子を用いるが、それらの演算子の設計と実装は、プロンプトとLLMの事前訓練されたパターンマッチングとシーケンス補完機能を用いて、GPがLLMを登録しているため、GPと根本的に異なる。 また,llm gpのデモンストレーションレベルのバージョンを示し,そのコードを共有する。 フォーマルなアルゴリズムからハンズオンまで幅広いアルゴリズムに対処することで、LLMを遺伝的プログラミングに使用する際に生じる科学的課題だけでなく、設計やLLM利用の考慮事項についても取り上げる。

Algorithms that use Large Language Models (LLMs) to evolve code arrived on the Genetic Programming (GP) scene very recently. We present LLM GP, a formalized LLM-based evolutionary algorithm designed to evolve code. Like GP, it uses evolutionary operators, but its designs and implementations of those operators radically differ from GP's because they enlist an LLM, using prompting and the LLM's pre-trained pattern matching and sequence completion capability. We also present a demonstration-level variant of LLM GP and share its code. By addressing algorithms that range from the formal to hands-on, we cover design and LLM-usage considerations as well as the scientific challenges that arise when using an LLM for genetic programming.
翻訳日:2024-01-17 19:42:56 公開日:2024-01-13
# GPTを用いた言語非依存MCQ生成のための新しいマルチステージプロンプト手法

A Novel Multi-Stage Prompting Approach for Language Agnostic MCQ Generation using GPT ( http://arxiv.org/abs/2401.07098v1 )

ライセンス: Link先を確認
Subhankar Maity, Aniket Deroy, Sudeshna Sarkar(参考訳) 我々は,複数選択質問(MCQ)を生成するためのマルチステージプロンプト手法(MSP)を導入し,テキストダヴィンチ003やGPT-4などのGPTモデルの能力を活用した。 提案手法は,GPTモデルにMCQ生成過程を導出する一連の相互接続的手がかりを付与するプログレッシブ手法であるチェーン・オブ・シークレット・プロンプトの革新的な概念を取り入れたものである。 自動評価は従来の単段プロンプト(SSP)ベースラインよりもMSP法の方が優れていることを一貫して示し、高品質なイントラクタを生産する結果となった。 さらに、ワンショットMSP技術は自動評価結果を向上し、英語、ドイツ語、ベンガル語、ヒンディー語を含む複数の言語におけるイントラクタ生成の改善に寄与する。 人的評価において,本手法を用いて生成した質問は,文法性,応答性,難易度に優れ,各言語における有効性を強調した。

We introduce a multi-stage prompting approach (MSP) for the generation of multiple choice questions (MCQs), harnessing the capabilities of GPT models such as text-davinci-003 and GPT-4, renowned for their excellence across various NLP tasks. Our approach incorporates the innovative concept of chain-of-thought prompting, a progressive technique in which the GPT model is provided with a series of interconnected cues to guide the MCQ generation process. Automated evaluations consistently demonstrate the superiority of our proposed MSP method over the traditional single-stage prompting (SSP) baseline, resulting in the production of high-quality distractors. Furthermore, the one-shot MSP technique enhances automatic evaluation results, contributing to improved distractor generation in multiple languages, including English, German, Bengali, and Hindi. In human evaluations, questions generated using our approach exhibit superior levels of grammaticality, answerability, and difficulty, highlighting its efficacy in various languages.
翻訳日:2024-01-17 19:42:22 公開日:2024-01-13
# 最小サイズ制約付きクラスタリングのためのグループ間基準の最適化

Optimization of Inter-group Criteria for Clustering with Minimum Size Constraints ( http://arxiv.org/abs/2401.07091v1 )

ライセンス: Link先を確認
Eduardo S. Laber and Lucas Murtinho(参考訳) クラスタリングの品質を評価するために使用される内部尺度は、通常、グループ内および/またはグループ間基準を考慮している。 前者を最適化するための証明可能な近似保証付きアルゴリズムを提案する論文は文献に多い。 しかし、グループ間基準の最適化はあまり理解されていない。 本稿では,2つの自然群間基準,すなわち最小間隔と最小スパンディングツリー間隔の最大化を保証可能なアルゴリズムを考案し,本論文の最先端に寄与する。 前者は異なるグループの点間の最小距離であり、後者は全ての群をつなぐ最小のスパンディングツリーのコストで分離性を獲得する。 クラスタに制約が課されない非制限ケースと、各グループに最小数のポイントが要求される制約ケースの両方について結果を得る。 我々の制約は、制約のないケースで両方の基準を最適化する人気のあるシングルリンクが、多数の小さなグループでクラスタリングを生成するという事実に動機づけられています。 本研究を補完するために,10個の実データを用いた経験的研究を行い,本手法が実用的環境で非常にうまく機能することを示す。

Internal measures that are used to assess the quality of a clustering usually take into account intra-group and/or inter-group criteria. There are many papers in the literature that propose algorithms with provable approximation guarantees for optimizing the former. However, the optimization of inter-group criteria is much less understood. Here, we contribute to the state-of-the-art of this literature by devising algorithms with provable guarantees for the maximization of two natural inter-group criteria, namely the minimum spacing and the minimum spanning tree spacing. The former is the minimum distance between points in different groups while the latter captures separability through the cost of the minimum spanning tree that connects all groups. We obtain results for both the unrestricted case, in which no constraint on the clusters is imposed, and for the constrained case where each group is required to have a minimum number of points. Our constraint is motivated by the fact that the popular Single Linkage, which optimizes both criteria in the unrestricted case, produces clusterings with many tiny groups. To complement our work, we present an empirical study with 10 real datasets, providing evidence that our methods work very well in practical settings.
翻訳日:2024-01-17 19:42:01 公開日:2024-01-13
# 対向移動性の観点からの潜在拡散モデルに対する対向攻撃の探索

Exploring Adversarial Attacks against Latent Diffusion Model from the Perspective of Adversarial Transferability ( http://arxiv.org/abs/2401.07087v1 )

ライセンス: Link先を確認
Junxi Chen, Junhao Dong, Xiaohua Xie(参考訳) 近年,悪意ある画像編集と遅延拡散モデル(LDM)による著作権侵害のコストを高めるために,敵対例(AE)を利用した研究が数多く行われている。 その成功にもかかわらず、数人がaesの生成に使用したサロゲートモデルを研究している。 本稿では,逆伝達可能性の観点から,サロゲートモデルの性質がldmsにおけるaesの性能に与える影響について検討する。 具体的には,モンテカルロ(mcベース)攻撃における時間ステップサンプリングを,サロゲートモデルの選択として捉えた。 異なる時間ステップでのサロゲートモデルの滑らかさは異なり、よりスムースなサロゲートモデルを選択することで、mcベースのaesの性能が大幅に向上することがわかった。 画像分類における逆転写可能性の理論的枠組みから、スムーズなサロゲートモデルがLCMのAEを促進できる理由を説明する理論的解析を行う。

Recently, many studies utilized adversarial examples (AEs) to raise the cost of malicious image editing and copyright violation powered by latent diffusion models (LDMs). Despite their successes, a few have studied the surrogate model they used to generate AEs. In this paper, from the perspective of adversarial transferability, we investigate how the surrogate model's property influences the performance of AEs for LDMs. Specifically, we view the time-step sampling in the Monte-Carlo-based (MC-based) adversarial attack as selecting surrogate models. We find that the smoothness of surrogate models at different time steps differs, and we substantially improve the performance of the MC-based AEs by selecting smoother surrogate models. In the light of the theoretical framework on adversarial transferability in image classification, we also conduct a theoretical analysis to explain why smooth surrogate models can also boost AEs for LDMs.
翻訳日:2024-01-17 19:41:41 公開日:2024-01-13
# 機能学習はいつ起こるのか? 解析可解モデルからの展望

When Does Feature Learning Happen? Perspective from an Analytically Solvable Model ( http://arxiv.org/abs/2401.07085v1 )

ライセンス: Link先を確認
Yizhou Xu and Liu Ziyin(参考訳) 我々は,任意の有限幅で解析可能で,カーネル位相と特徴学習位相の両方を示す隠れ層モデルを特定し,解く。 我々は、このモデルの位相図を、幅、層毎学習率、出力スケール、初期化のスケールなど、一般的なハイパーパラメータのあらゆる限界で解析する。 本研究では,無限幅モデルと有限幅モデルの両方で特徴学習がいつ起こるかを分析する。 1)アライメントによる学習,(2)不一致による学習,(3)再スケーリングによる学習の3つの試作メカニズムが同定された。 対照的に、モデルがカーネルレジーム内にある場合、これらのメカニズムは存在しません。 この発見は、大規模な初期化がパフォーマンスを悪化させる理由を説明する。 最後に、この解析モデルで行った発見が実際のタスクで非線形ネットワークにも現れることを実証的に示す。

We identify and solve a hidden-layer model that is analytically tractable at any finite width and whose limits exhibit both the kernel phase and the feature learning phase. We analyze the phase diagram of this model in all possible limits of common hyperparameters including width, layer-wise learning rates, scale of output, and scale of initialization. We apply our result to analyze how and when feature learning happens in both infinite and finite-width models. Three prototype mechanisms of feature learning are identified: (1) learning by alignment, (2) learning by disalignment, and (3) learning by rescaling. In sharp contrast, neither of these mechanisms is present when the model is in the kernel regime. This discovery explains why large initialization often leads to worse performance. Lastly, we empirically demonstrate that discoveries we made for this analytical model also appear in nonlinear networks in real tasks.
翻訳日:2024-01-17 19:41:26 公開日:2024-01-13
# 因果・制約最小化による持続可能な土壌管理のためのドメイン適応

Domain Adaptation for Sustainable Soil Management using Causal and Contrastive Constraint Minimization ( http://arxiv.org/abs/2401.07175v1 )

ライセンス: Link先を確認
Somya Sharma, Swati Sharma, Rafael Padilha, Emre Kiciman, Ranveer Chandra(参考訳) 有機物のモニタリングは土壌の健全性を維持する上で重要であり、持続可能な土壌管理に役立ちます。 センサベースの土壌情報は,有機物の変化に対する高忠実で信頼性の高い洞察を提供するが,センサデータのサンプリングと測定はコストを抑える。 本研究では,リモートセンシングデータから有機物を推定できるマルチモーダルでスケーラブルなフレームワークを提案する。 センサデータを用いて,センサ属性と有機物間の因果関係を保存する。 同時に、データに固有の構造を利用し、コントラスト学習を用いてモデルを訓練し、ドメイン間を判別する。 この因果的かつ対照的な制約最小化は、他の領域への一般化と適応を改善する。 また、一般化を改善する上で重要な属性を識別することで、フレームワークの解釈可能性に光を当てた。 有機物に影響を及ぼすこれらの重要な土壌特性を特定することは、データ収集の標準化に役立ちます。

Monitoring organic matter is pivotal for maintaining soil health and can help inform sustainable soil management practices. While sensor-based soil information offers higher-fidelity and reliable insights into organic matter changes, sampling and measuring sensor data is cost-prohibitive. We propose a multi-modal, scalable framework that can estimate organic matter from remote sensing data, a more readily available data source while leveraging sparse soil information for improving generalization. Using the sensor data, we preserve underlying causal relations among sensor attributes and organic matter. Simultaneously we leverage inherent structure in the data and train the model to discriminate among domains using contrastive learning. This causal and contrastive constraint minimization ensures improved generalization and adaptation to other domains. We also shed light on the interpretability of the framework by identifying attributes that are important for improving generalization. Identifying these key soil attributes that affect organic matter will aid in efforts to standardize data collection efforts.
翻訳日:2024-01-17 19:34:10 公開日:2024-01-13
# 集団フェアネスと個人フェアネスの(in)相性について

On the (In)Compatibility between Group Fairness and Individual Fairness ( http://arxiv.org/abs/2401.07174v1 )

ライセンス: Link先を確認
Shizhou Xu and Thomas Strohmer(参考訳) 最適統計パリティ解と個別公平性の両立について検討する。 個人フェアネスは類似した個人を同じように扱うことを目指しているが、最適な統計パリティは、それぞれの敏感なグループで相対的類似性を共有する個人に対して同様の治療を提供することを目標としている。 2つのフェアネスの観点はどちらもフェアネスの観点から望ましいが、アプリケーションでしばしば衝突する。 この研究の目標は、この衝突とその潜在的な解決策の存在を分析することです。 特に、最適 (後処理) 統計パリティ $l^2$ 学習と (k$-lipschitz または $(\epsilon,\delta)$) 個別公平性要求との互換性のために十分な (シャープな) 条件を確立する。 さらに、両者の間に紛争が発生した場合、まず、前者をパレート・フロンティア(あるいは同じ意味での最適トレードオフ)へリラックスさせ、l^2$の誤差と統計的不一致から、フロンティアと個別のフェアネス要件の互換性を分析する。 本分析では,個別の公正要件を満たすパレートフロンティア沿いの地域を特定する。 (最後に、訓練されたモデルの構成と最適な後処理ステップについて個別の公平性を保証することにより、後処理されたモデルの互換性を決定できる。) これは、個々の公平性の制約に固執しながら、統計的パリティに対してパレート最適性を達成するための貴重なアプローチを提供する。

We study the compatibility between the optimal statistical parity solutions and individual fairness. While individual fairness seeks to treat similar individuals similarly, optimal statistical parity aims to provide similar treatment to individuals who share relative similarity within their respective sensitive groups. The two fairness perspectives, while both desirable from a fairness perspective, often come into conflict in applications. Our goal in this work is to analyze the existence of this conflict and its potential solution. In particular, we establish sufficient (sharp) conditions for the compatibility between the optimal (post-processing) statistical parity $L^2$ learning and the ($K$-Lipschitz or $(\epsilon,\delta)$) individual fairness requirements. Furthermore, when there exists a conflict between the two, we first relax the former to the Pareto frontier (or equivalently the optimal trade-off) between $L^2$ error and statistical disparity, and then analyze the compatibility between the frontier and the individual fairness requirements. Our analysis identifies regions along the Pareto frontier that satisfy individual fairness requirements. (Lastly, we provide individual fairness guarantees for the composition of a trained model and the optimal post-processing step so that one can determine the compatibility of the post-processed model.) This provides practitioners with a valuable approach to attain Pareto optimality for statistical parity while adhering to the constraints of individual fairness.
翻訳日:2024-01-17 19:33:54 公開日:2024-01-13
# 赤外線サーモグラフィによる建物エンベロープの画素レベルインsitu u値測定法

A New Method of Pixel-level In-situ U-value Measurement for Building Envelopes Based on Infrared Thermography ( http://arxiv.org/abs/2401.07163v1 )

ライセンス: Link先を確認
Zihao Wang, Yu Hou, Lucio Soibelman(参考訳) 老朽化した建物の潜在的エネルギー損失は、建物の所有者の資金不足とメンテナンスコストの過払いのサイクルを妨げている。 建物エンベロープのU値を計算する際に温度の空間分布が考慮されないため, 性能評価のための目標建物のエネルギーモデルを作成するためのエネルギー監査者は, 正確な結果を得ることができない。 本稿では,赤外線サーモグラフィ(IRT)に基づく画素レベルの手法を提案し,壁面の屋外および屋内面の2次元(2次元)空間温度分布を考察し,壁面の2次元U値マップを生成する。 その結果,提案手法は単一点室温度を入力として使用するIRT方式と比較して,目標壁の実際の断熱性能をよく反映できることがわかった。

The potential energy loss of aging buildings traps building owners in a cycle of underfunding operations and overpaying maintenance costs. Energy auditors intending to generate an energy model of a target building for performance assessment may struggle to obtain accurate results as the spatial distribution of temperatures is not considered when calculating the U-value of the building envelope. This paper proposes a pixel-level method based on infrared thermography (IRT) that considers two-dimensional (2D) spatial temperature distributions of the outdoor and indoor surfaces of the target wall to generate a 2D U-value map of the wall. The result supports that the proposed method can better reflect the actual thermal insulation performance of the target wall compared to the current IRT-based methods that use a single-point room temperature as input.
翻訳日:2024-01-17 19:33:28 公開日:2024-01-13
# 量子化サイドチューニング:量子化大言語モデルの高速かつメモリ効率の高いチューニング

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models ( http://arxiv.org/abs/2401.07159v1 )

ライセンス: Link先を確認
Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Qing Li, Yong Jiang, and Zhihao Jia(参考訳) 大規模言語モデル(LLM)の微調整は、様々な下流タスクに実験的に有効である。 LLMを微調整するための既存のアプローチは、少数のトレーニング可能なパラメータだけを更新するパラメータ効率の高い微調整にフォーカスするか、あるいは微調整のトレーニングフェーズ中にメモリフットプリントを減らそうとする。 通常、微調整中のメモリフットプリントは、モデルウェイト、オプティマイザ状態、中間活性化の3つのコントリビュータに由来する。 しかし、既存の作品は依然としてかなりのメモリを必要とするため、3つのソースのメモリフットプリントを軽減できるものはない。 本稿では,2段プロセスを介して動作することで,メモリ効率と高速なLCMの微調整を可能にするQuantized Side Tuing (QST)を提案する。 まず、QSTはLLMのモデルの重みを4ビットに量子化し、LLMの元々の重みのメモリフットプリントを削減する。 別々のサイドネットワークを使用することで、LCMによるバックプロパゲーションが回避され、中間アクティベーションのメモリ要求が低減される。 さらに、QSTはいくつかの低ランク適応器と勾配のないダウンサンプルモジュールを活用し、トレーニング可能なパラメータを大幅に削減し、オプティマイザ状態のメモリフットプリントを節約する。 実験の結果、QSTはメモリ全体のフットプリントを最大2.3$\times$に減らし、ファインタニングプロセスを最大3$\times$に高速化し、最先端技術と比較して有能なパフォーマンスを達成することができる。 完全な微調整に関しては、QSTはメモリ全体のフットプリントを最大7$\times$まで削減できる。

Finetuning large language models (LLMs) has been empirically effective on a variety of downstream tasks. Existing approaches to finetuning an LLM either focus on parameter-efficient finetuning, which only updates a small number of trainable parameters, or attempt to reduce the memory footprint during the training phase of the finetuning. Typically, the memory footprint during finetuning stems from three contributors: model weights, optimizer states, and intermediate activations. However, existing works still require considerable memory and none can simultaneously mitigate memory footprint for all three sources. In this paper, we present Quantized Side Tuing (QST), which enables memory-efficient and fast finetuning of LLMs by operating through a dual-stage process. First, QST quantizes an LLM's model weights into 4-bit to reduce the memory footprint of the LLM's original weights; QST also introduces a side network separated from the LLM, which utilizes the hidden states of the LLM to make task-specific predictions. Using a separate side network avoids performing backpropagation through the LLM, thus reducing the memory requirement of the intermediate activations. Furthermore, QST leverages several low-rank adaptors and gradient-free downsample modules to significantly reduce the trainable parameters, so as to save the memory footprint of the optimizer states. Experiments show that QST can reduce the total memory footprint by up to 2.3 $\times$ and speed up the finetuning process by up to 3 $\times$ while achieving competent performance compared with the state-of-the-art. When it comes to full finetuning, QST can reduce the total memory footprint up to 7 $\times$.
翻訳日:2024-01-17 19:33:13 公開日:2024-01-13
# 強化学習を用いた指揮制御チャネルの探索

Discovering Command and Control Channels Using Reinforcement Learning ( http://arxiv.org/abs/2401.07154v1 )

ライセンス: Link先を確認
Cheng Wang, Akshay Kakkar, Christopher Redino, Abdul Rahman, Ajinsyam S, Ryan Clark, Daniel Radke, Tyler Cody, Lanxiao Huang, Edward Bowen(参考訳) マルウェアにコマンドを発行するコマンド・アンド・コントロール(C2)パスは、ネットワーク内に存在する唯一の指標である。 潜在的なC2チャネルを特定することは、しばしば、サイバー取引の深い理解を伴う手作業によるプロセスである。 大規模ネットワーク上でC2攻撃を自動実行することを学ぶ強化学習(RL)ベースのアプローチを用いることで、これらのチャネルの発見を改善する努力は、ネットワークオペレーターの効率を高めるのに役立つ。 本稿では,c2トラヒックフローを3段階のプロセスとしてモデル化し,データを流出する価値のあるホスト数を最大化するためにマルコフ決定プロセス(mdp)として定式化する。 このアプローチは、新しい貢献であるファイアウォールのようなペイロードと防御メカニズムを特にモデル化する。 RLエージェントが学んだアタックパスは、ブルーチームが高優先度の脆弱性を特定し、改善された防御戦略を開発するのに役立つ。 この手法は,1000以上のホストを持つ大規模ネットワーク上で評価され,ファイアウォールを回避しながら攻撃経路を効果的に学習できることを示す。

Command and control (C2) paths for issuing commands to malware are sometimes the only indicators of its existence within networks. Identifying potential C2 channels is often a manually driven process that involves a deep understanding of cyber tradecraft. Efforts to improve discovery of these channels through using a reinforcement learning (RL) based approach that learns to automatically carry out C2 attack campaigns on large networks, where multiple defense layers are in place serves to drive efficiency for network operators. In this paper, we model C2 traffic flow as a three-stage process and formulate it as a Markov decision process (MDP) with the objective to maximize the number of valuable hosts whose data is exfiltrated. The approach also specifically models payload and defense mechanisms such as firewalls which is a novel contribution. The attack paths learned by the RL agent can in turn help the blue team identify high-priority vulnerabilities and develop improved defense strategies. The method is evaluated on a large network with more than a thousand hosts and the results demonstrate that the agent can effectively learn attack paths while avoiding firewalls.
翻訳日:2024-01-17 19:32:42 公開日:2024-01-13
# 自由フェルミオン系の絡み合い、信号処理および代数的コンビネータ

Entanglement of free-fermion systems, signal processing and algebraic combinatorics ( http://arxiv.org/abs/2401.07150v1 )

ライセンス: Link先を確認
Pierre-Antoine Bernard, Nicolas Cramp\'e, Rafael Nepomechie, Gilles Parez, Luc Vinet(参考訳) 本稿では,信号処理や代数的組合せに関する手法を活かしたグラフ上の自由フェルミオン系の絡み合いに関する最近の研究を概観する。 一方、時間と帯域制限の問題と平行して、双スペクトル状態において切断された相関行列と交換する三角行列を求め、他方では、$P$-ポリノミカルなアソシエーションスキームの文脈で生じるテルウィガー代数の既約分解は、単純化された枠組みをもたらす。

This paper offers a review of recent studies on the entanglement of free-fermion systems on graphs that take advantage of methods pertaining to signal processing and algebraic combinatorics. On the one hand, a parallel with time and band limiting problems is used to obtain a tridiagonal matrix commuting with the chopped correlation matrix in bispectral situations and on the other, the irreducible decomposition of the Terwilliger algebra arising in the context of $P$-polynomial association schemes is seen to yield a simplifying framework.
翻訳日:2024-01-17 19:32:23 公開日:2024-01-13
# バイナリレベルCFI技術の有効性評価

Assessing the Effectiveness of Binary-Level CFI Techniques ( http://arxiv.org/abs/2401.07148v1 )

ライセンス: Link先を確認
Ruturaj K. Vaidya, Prasad A. Kulkarni(参考訳) メモリの破損は、クラフトコントロールフローのハイジャック攻撃に活用できる重要な種類の脆弱性である。 制御フロー統合(CFI)はそのような攻撃に対して保護を提供する。 型ベースのCFIポリシーの適用には、関数引数の数と型に関する情報が必要である。 バイナリレベルの型リカバリは本質的に投機的であり,バイナリレベルのCFI技術の有効性を評価するための評価フレームワークの必要性を動機としている。 本研究では,最先端のバイナリ解析ツールから得られるプログラム解析情報が,型ベースのcfi手法の有効性にどのように影響するかを評価するための,新規で一般化された拡張可能なフレームワークを開発した。 我々は、情報源独立のcfiポリシーと彼らの根拠となる情報源を意識したポリシーを定量的に比較するために、新しい洞察に富んだメトリクスを導入する。 我々は、ida proバイナリアナライザから抽出したプログラム解析情報を用いて実装されたバイナリレベルのcfiポリシーを評価し、llvmコンパイラから得られた基礎的真理情報と比較し、観察する。

Memory corruption is an important class of vulnerability that can be leveraged to craft control flow hijacking attacks. Control Flow Integrity (CFI) provides protection against such attacks. Application of type-based CFI policies requires information regarding the number and type of function arguments. Binary-level type recovery is inherently speculative, which motivates the need for an evaluation framework to assess the effectiveness of binary-level CFI techniques compared with their source-level counterparts, where such type information is fully and accurately accessible. In this work, we develop a novel, generalized and extensible framework to assess how the program analysis information we get from state-of-the-art binary analysis tools affects the efficacy of type-based CFI techniques. We introduce new and insightful metrics to quantitatively compare source independent CFI policies with their ground truth source aware counterparts. We leverage our framework to evaluate binary-level CFI policies implemented using program analysis information extracted from the IDA Pro binary analyzer and compared with the ground truth information obtained from the LLVM compiler, and present our observations.
翻訳日:2024-01-17 19:32:10 公開日:2024-01-13
# 深層学習における不確かさ推定と削減のためのスケーラブルで効率的な手法

Scalable and Efficient Methods for Uncertainty Estimation and Reduction in Deep Learning ( http://arxiv.org/abs/2401.07145v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed(参考訳) ニューラルネットワーク(NN)は、コンピュータビジョンや自然言語処理といった様々な分野で高いパフォーマンスを達成することができる。 しかしながら、資源に制約のある安全クリティカルなシステムへのnnのデプロイは、アウトオブディストリビューションデータによる予測の不確実性や、ハードウェアの非理想性によって困難である。 本稿では,資源拘束型安全クリティカルシステムにおけるnns導入の課題を解決するため,不確実性推定と深層学習の削減のためのスケーラブルで効率的な手法を検討する4年目の博士論文を,新たに出現する抵抗性不揮発性メモリを用いた計算・イン・メモリ(cim)に着目して要約する。 我々は,自動意思決定システムにおける機能的安全性の維持に不可欠である,分配外入力とハードウェア非理想から生じる本質的不確実性に取り組む。 我々のアプローチは、スピントロニクスデバイスと変分推論技術を活用したドロップアウトベース \emph{binary} Bayesian Neural Networks を含む、問題認識トレーニングアルゴリズム、新しいNNトポロジ、ハードウェア共同設計ソリューションを含む。 これらのイノベーションはOODデータの検出、推測精度、エネルギー効率を大幅に向上させ、NN実装の信頼性と堅牢性に寄与する。

Neural networks (NNs) can achieved high performance in various fields such as computer vision, and natural language processing. However, deploying NNs in resource-constrained safety-critical systems has challenges due to uncertainty in the prediction caused by out-of-distribution data, and hardware non-idealities. To address the challenges of deploying NNs in resource-constrained safety-critical systems, this paper summarizes the (4th year) PhD thesis work that explores scalable and efficient methods for uncertainty estimation and reduction in deep learning, with a focus on Computation-in-Memory (CIM) using emerging resistive non-volatile memories. We tackle the inherent uncertainties arising from out-of-distribution inputs and hardware non-idealities, crucial in maintaining functional safety in automated decision-making systems. Our approach encompasses problem-aware training algorithms, novel NN topologies, and hardware co-design solutions, including dropout-based \emph{binary} Bayesian Neural Networks leveraging spintronic devices and variational inference techniques. These innovations significantly enhance OOD data detection, inference accuracy, and energy efficiency, thereby contributing to the reliability and robustness of NN implementations.
翻訳日:2024-01-17 19:31:52 公開日:2024-01-13
# 衛星映像の深部ブラインド超解像

Deep Blind Super-Resolution for Satellite Video ( http://arxiv.org/abs/2401.07139v1 )

ライセンス: Link先を確認
Yi Xiao and Qiangqiang Yuan and Qiang Zhang and Liangpei Zhang(参考訳) 近年の努力は、衛星ビデオ超解法(SVSR)の顕著な進歩を目撃している。 しかし、ほとんどのSVSRメソッドは、分解が固定され、例えばバイコビック・ダウンサンプリング(英語版)のような既知のものであると仮定する。 この問題を緩和するため、ブラインドSRは研究ホットスポットとなっている。 しかしながら、既存のアプローチは主に、時間的補償、特に高度に劣化した衛星ビデオから重要なシャープネスを持つぼやけた滑らかなピクセルを補うという、VSRタスクのもう一つの重要な側面を見失いながら、ぼやけたカーネル推定に携わっている。 そこで,本研究では,ピクセル単位のぼかしレベルを粗い方法で考慮し,よりシャープな手がかりを探索する実用的なブラインドSVSRアルゴリズムを提案する。 具体的には,ウィンドウスライドプログレッシブ・フュージョンによる時間的冗長性を隣接フレームに粗く集約するために,マルチスケール変形可能な畳み込みを用いた。 次に、隣接する特徴を変形可能な注意で中機能に微細にマージし、画素のぼやけレベルを測定し、より多くの重みを情報画素に割り当て、シャープネスの表現を刺激する。 さらに,ピラミッド型空間変換モジュールを考案し,鋭い中機能の解空間を調整し,マルチレベル領域における柔軟な機能適応を実現する。 シミュレーションおよび実世界の衛星ビデオにおける定量的および定性的評価は、我々のBSVSRが最先端の非盲点SRモデルと盲点SRモデルに対して好適に機能することを示す。 コードはhttps://github.com/XY-boy/Blind-Satellite-VSRで入手できる。

Recent efforts have witnessed remarkable progress in Satellite Video Super-Resolution (SVSR). However, most SVSR methods usually assume the degradation is fixed and known, e.g., bicubic downsampling, which makes them vulnerable in real-world scenes with multiple and unknown degradations. To alleviate this issue, blind SR has thus become a research hotspot. Nevertheless, existing approaches are mainly engaged in blur kernel estimation while losing sight of another critical aspect for VSR tasks: temporal compensation, especially compensating for blurry and smooth pixels with vital sharpness from severely degraded satellite videos. Therefore, this paper proposes a practical Blind SVSR algorithm (BSVSR) to explore more sharp cues by considering the pixel-wise blur levels in a coarse-to-fine manner. Specifically, we employed multi-scale deformable convolution to coarsely aggregate the temporal redundancy into adjacent frames by window-slid progressive fusion. Then the adjacent features are finely merged into mid-feature using deformable attention, which measures the blur levels of pixels and assigns more weights to the informative pixels, thus inspiring the representation of sharpness. Moreover, we devise a pyramid spatial transformation module to adjust the solution space of sharp mid-feature, resulting in flexible feature adaptation in multi-level domains. Quantitative and qualitative evaluations on both simulated and real-world satellite videos demonstrate that our BSVSR performs favorably against state-of-the-art non-blind and blind SR models. Code will be available at https://github.com/XY-boy/Blind-Satellite-VSR
翻訳日:2024-01-17 19:31:26 公開日:2024-01-13
# 等角写像と準調和振動子の基底状態エネルギーを用いたボレル再推定法

Borel Resummation Method with Conformal Mapping and the Ground State Energy of the Quartic Anharmonic Oscillator ( http://arxiv.org/abs/2401.07131v1 )

ライセンス: Link先を確認
Wajdi A. Gaddah and Ibrahim S. Jwan(参考訳) 本稿では,1次元の定性的無調波発振器の基底状態エネルギーに対する発散レイリー・シュローディンガー摂動膨張の再開について考察する。 本稿では,ボレル平面の等角写像と組み合わせたボレル・ペイド再推定法を適用し,その精度を向上し,摂動膨張の収束領域を拡大する。 この手法は摂動qcdにおいて、ボレル平均グリーン関数の収束を加速するために最近用いられた。 本研究では, 種々の結合定数に対する四次アンハーモニック振動子の基底状態エネルギーを計算し, 対角形パデ近似と標準ボレル平均法で求めた値と比較した。 結果は、弱い結合定数と強い結合定数に対して利用可能ないくつかの正確な数値解についても検証される。 計算の一部として, ダルガーノとスチュワート法を用いて, レイリー・スロディンガー摂動展開における最初の50個の補正項の係数を計算した。 ボレル平面の等角写像は、特に摂動論が適用できない強結合領域においてボレルの和可能性法(英語版)のパワーを高めることが示されている。

In this paper, we consider the resummation of the divergent Rayleigh-Shrodinger perturbation expansion for the ground state energy of the quartic anharmonic oscillator in one dimension. We apply the Borel-Pade resummation method combined with a conformal mapping of the Borel plane to improve the accuracy and to enlarge the convergence domain of the perturbative expansion. This technique was recently used in perturbative QCD to accelerate the convergence of Borel-summed Green's functions. In this framework, we calculated the ground state energy of the quartic anharmonic oscillator for various coupling constants and compared our results with the ones we obtained from the diagonal Pade approximation and the standard Borel resummation technique. The results are also tested on a number of exact numerical solutions available for weak and strong coupling constants. As a part of our calculations, we computed the coefficients of the first 50 correction terms in the Rayleigh-Shrodinger perturbation expansion using the method of Dalgarno and Stewart. The conformal mapping of the Borel plane is shown to enhance the power of Borel's method of summability, especially in the strong coupling domain where perturbation theory is not applicable.
翻訳日:2024-01-17 19:30:54 公開日:2024-01-13
# EHRAgent: 電子健康記録に基づく複雑な語彙推論のための大規模言語モデル

EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records ( http://arxiv.org/abs/2401.07128v1 )

ライセンス: Link先を確認
Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Jieyu Zhang, Hang Wu, Yuanda Zhu, Joyce Ho, Carl Yang, May D. Wang(参考訳) 大規模言語モデル(LLM)は、自律的なエージェントとしての計画とツール利用において例外的な能力を示したが、医療的問題解決のために開発されたものはほとんどない。 電子健康記録(EHR)内の複雑な臨床タスクのためのコードを自律的に生成・実行するために,コードインターフェースを付与したLDMエージェントであるEHRAgent1を提案する。 まず、EHR質問応答タスクをツール利用計画プロセスに定式化し、複雑なタスクを管理可能な一連のアクションに効率的に分解する。 インタラクティブなコーディングと実行フィードバックを統合することで、EHRAgentはエラーメッセージから学び、イテレーションを通じて生成されたコードを改善する。 さらに,EHRAgentが過去の経験から最も有効な事例を効果的に選択・構築できるように,長期記憶を組み込むことによりLLMエージェントを強化した。 2つの実世界の EHR データセットの実験では、EHRAgent が最強の LLM エージェントのベースラインを 36.48% と 12.41% で上回っている。 EHRAgentは、LLMの新たな数発の学習機能を活用し、最小限のデモで、自律的なコード生成と実行によって複雑な臨床タスクに取り組むことができる。

Large language models (LLMs) have demonstrated exceptional capabilities in planning and tool utilization as autonomous agents, but few have been developed for medical problem-solving. We propose EHRAgent1, an LLM agent empowered with a code interface, to autonomously generate and execute code for complex clinical tasks within electronic health records (EHRs). First, we formulate an EHR question-answering task into a tool-use planning process, efficiently decomposing a complicated task into a sequence of manageable actions. By integrating interactive coding and execution feedback, EHRAgent learns from error messages and improves the originally generated code through iterations. Furthermore, we enhance the LLM agent by incorporating long-term memory, which allows EHRAgent to effectively select and build upon the most relevant successful cases from past experiences. Experiments on two real-world EHR datasets show that EHRAgent outperforms the strongest LLM agent baseline by 36.48% and 12.41%, respectively. EHRAgent leverages the emerging few-shot learning capabilities of LLMs, enabling autonomous code generation and execution to tackle complex clinical tasks with minimal demonstrations.
翻訳日:2024-01-17 19:30:33 公開日:2024-01-13
# 動的コヒーレンス測度

Dynamical Coherence Measures ( http://arxiv.org/abs/2401.07127v1 )

ライセンス: Link先を確認
Anna Vershynina(参考訳) チャネルの動的コヒーレンスに関するいくつかの測度を示し,その特性について検討する。

We present several measures of the dynamic coherence of channels and investigate their properties.
翻訳日:2024-01-17 19:30:09 公開日:2024-01-13
# IVIM-Morph: 拡散強調MRIによる機能的胎児肺成熟度評価のための運動補償定量ボクセル内不整脈運動(IVIM)解析

IVIM-Morph: Motion-compensated quantitative Intra-voxel Incoherent Motion (IVIM) analysis for functional fetal lung maturity assessment from diffusion-weighted MRI data ( http://arxiv.org/abs/2401.07126v1 )

ライセンス: Link先を確認
Noga Kertes, Yael Zaffrani-Reznikov, Onur Afacan, Sila Kurugol, Simon K. Warfield, Moti Freiman(参考訳) 拡散強調MRI(DWI)データにおける擬似拡散の定量的解析は、胎児の肺成熟度を評価し、貴重な画像バイオマーカーを生成する可能性を示している。 しかし、DWIデータの臨床的有用性は、取得時に避けられない胎児の動きによって妨げられる。 本稿では,IVIMモデルを用いたDWIデータの動作補正定量分析のための自己教師型ディープニューラルネットワークモデルIVIM-morphを提案する。 IVIM-morphは2つのサブネットワーク、登録サブネットワーク、IVIMモデル適合サブネットワークを組み合わせ、IVIMモデルパラメータと動きの同時推定を可能にする。 物理的に妥当な画像登録を促進するために,登録とモデルフィッティング品質を効果的にバランスさせる生体情報損失関数を導入する。 肺のIVIMモデルパラメータと妊娠年齢(GA)との相関を39例の胎児DWIデータを用いて確立し,IVIM形態の有効性を検証した。 ivim-morphは, 胎児肺dwiデータの経時的定量分析により, 妊娠年齢 (ga) との相関が著明に改善した。 IVIM-morphは、DWIデータによる胎児肺成熟度を非侵襲的に評価するための貴重なバイオマーカーの開発の可能性を示している。 さらに、その適応性は、定量的DWI分析に運動補償が不可欠である他の臨床文脈における潜在的な応用への扉を開く。 IVIM-morphのコードは、https://github.com/TechnionComputationalMRILab/qDWI-Morphで入手できる。

Quantitative analysis of pseudo-diffusion in diffusion-weighted magnetic resonance imaging (DWI) data shows potential for assessing fetal lung maturation and generating valuable imaging biomarkers. Yet, the clinical utility of DWI data is hindered by unavoidable fetal motion during acquisition. We present IVIM-morph, a self-supervised deep neural network model for motion-corrected quantitative analysis of DWI data using the Intra-voxel Incoherent Motion (IVIM) model. IVIM-morph combines two sub-networks, a registration sub-network, and an IVIM model fitting sub-network, enabling simultaneous estimation of IVIM model parameters and motion. To promote physically plausible image registration, we introduce a biophysically informed loss function that effectively balances registration and model-fitting quality. We validated the efficacy of IVIM-morph by establishing a correlation between the predicted IVIM model parameters of the lung and gestational age (GA) using fetal DWI data of 39 subjects. IVIM-morph exhibited a notably improved correlation with gestational age (GA) when performing in-vivo quantitative analysis of fetal lung DWI data during the canalicular phase. IVIM-morph shows potential in developing valuable biomarkers for non-invasive assessment of fetal lung maturity with DWI data. Moreover, its adaptability opens the door to potential applications in other clinical contexts where motion compensation is essential for quantitative DWI analysis. The IVIM-morph code is readily available at: https://github.com/TechnionComputationalMRILab/qDWI-Morph.
翻訳日:2024-01-17 19:30:07 公開日:2024-01-13
# 畳み込み型深層学習モデルによるコンクリート表面き裂検出

Concrete Surface Crack Detection with Convolutional-based Deep Learning Models ( http://arxiv.org/abs/2401.07124v1 )

ライセンス: Link先を確認
Sara Shomal Zadeh, Sina Aalipour birgani, Meisam Khorshidi, Farhad Kooban(参考訳) 効果的ひび割れ検出は,建物の構造的健康モニタリングと検査に不可欠である。 この課題は、クラックの本質的に微妙な性質から、背景のテクスチャや異物、建設における不規則さと容易に結合できる低レベルの特徴をしばしば示しているため、コンピュータビジョン技術に深刻な課題をもたらす。 さらに、不均一な照明や建築の不規則性といった問題の存在は、建物の検査や監視において自律的な亀裂検出に重大な障害をもたらす。 畳み込みニューラルネットワーク(cnns)は、クラック検出の有望なフレームワークとして登場し、高いレベルの精度と精度を提供する。 さらに、トランスファーラーニングを通じて事前トレーニングされたネットワークを適用する能力は、アルゴリズムの複雑さを深く理解する必要をなくし、ユーザに貴重なツールを提供する。 それにもかかわらず、CNNの展開時の限界や考慮事項、特に建物内の亀裂検出などの結果が大きな意味を持つ状況において、認識することが不可欠である。 本稿では,様々なディープラーニングモデルを用いた表面き裂検出手法について述べる。 具体的には,事前トレーニングされたディープラーニングアーキテクチャ – vgg19,resnet50,inception v3, efficientnetv2 – では,微調整技術を採用しています。 これらのモデルは、画像解析タスクにおける確立された性能と汎用性のために選択される。 精度,リコール,f1スコアを用いて,ディープラーニングモデルを比較する。

Effective crack detection is pivotal for the structural health monitoring and inspection of buildings. This task presents a formidable challenge to computer vision techniques due to the inherently subtle nature of cracks, which often exhibit low-level features that can be easily confounded with background textures, foreign objects, or irregularities in construction. Furthermore, the presence of issues like non-uniform lighting and construction irregularities poses significant hurdles for autonomous crack detection during building inspection and monitoring. Convolutional neural networks (CNNs) have emerged as a promising framework for crack detection, offering high levels of accuracy and precision. Additionally, the ability to adapt pre-trained networks through transfer learning provides a valuable tool for users, eliminating the need for an in-depth understanding of algorithm intricacies. Nevertheless, it is imperative to acknowledge the limitations and considerations when deploying CNNs, particularly in contexts where the outcomes carry immense significance, such as crack detection in buildings. In this paper, our approach to surface crack detection involves the utilization of various deep-learning models. Specifically, we employ fine-tuning techniques on pre-trained deep learning architectures: VGG19, ResNet50, Inception V3, and EfficientNetV2. These models are chosen for their established performance and versatility in image analysis tasks. We compare deep learning models using precision, recall, and F1 scores.
翻訳日:2024-01-17 19:29:41 公開日:2024-01-13