このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240614となっている論文です。

PDF登録状況(公開日: 20240614)

TitleAuthorsAbstract論文公表日・翻訳日
# 搭載人工知能システムのための古典的・量子的物理貯留層計算の展望

Classical and Quantum Physical Reservoir Computing for Onboard Artificial Intelligence Systems: A Perspective ( http://arxiv.org/abs/2407.04717v1 )

ライセンス: Link先を確認
A. H. Abbas, Hend Abdel-Ghani, Ivan S. Maksymov, (参考訳) ドローン、ロボット、自動運転車などの自律システムの人工知能(AI)システムは、搭載可能な全電力の最大50%を消費し、車の機能範囲を制限し、車両が1回の充電で走行できる距離を大幅に削減することができる。 次世代の搭載AIシステムは、さらに大量のデータをリアルタイムで収集、処理するため、さらに高いパワーを必要とする。 この問題は、より電力消費が増えるため、従来のコンピューティングデバイスでは解決できない。 本稿では,自律走行車を取り巻く自然環境の非線形力学特性を用いて,生体脳の動作を模倣する,搭載型ニューロモルフィックコンピュータの開発を論じる。 以前の研究では、量子ニューロモルフィックプロセッサ(QNP)が標準コンピュータの効率で計算を行えながら、搭載されているバッテリー電力の1%未満を消費することを示した。 QNPは半古典的技術であるため、その技術的単純さは量子コンピュータと比較して低く、コストは自律型AIシステムに最適である。 本稿では, 物理, 工学, 量子技術, 計算分野の専門家を含む,200以上の学際的な研究成果の今後の動向と今後の展望について考察する。

Artificial intelligence (AI) systems of autonomous systems such as drones, robots and self-driving cars may consume up to 50% of total power available onboard, thereby limiting the vehicle's range of functions and considerably reducing the distance the vehicle can travel on a single charge. Next-generation onboard AI systems need an even higher power since they collect and process even larger amounts of data in real time. This problem cannot be solved using the traditional computing devices since they become more and more power-consuming. In this review article, we discuss the perspectives of development of onboard neuromorphic computers that mimic the operation of a biological brain using nonlinear-dynamical properties of natural physical environments surrounding autonomous vehicles. Previous research also demonstrated that quantum neuromorphic processors (QNPs) can conduct computations with the efficiency of a standard computer while consuming less than 1% of the onboard battery power. Since QNPs is a semi-classical technology, their technical simplicity and low, compared with quantum computers, cost make them ideally suitable for application in autonomous AI system. Providing a perspective view on the future progress in unconventional physical reservoir computing and surveying the outcomes of more than 200 interdisciplinary research works, this article will be of interest to a broad readership, including both students and experts in the fields of physics, engineering, quantum technologies and computing.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-14
# ニューロモルフィックコンピューティングのための確率的機械装置のイベントベースシミュレーション

Event-Based Simulation of Stochastic Memristive Devices for Neuromorphic Computing ( http://arxiv.org/abs/2407.04718v1 )

ライセンス: Link先を確認
Waleed El-Geresy, Christos Papavassiliou, Deniz Gündüz, (参考訳) 本稿では,ハードウェアスパイクニューラルネットワークなどのイベントベースシステムのシミュレーションに適したメムリスタの汎用モデルを構築し,より一般的にはニューロモルフィックコンピューティングシステムを構築する。 我々は、既存の一般化メタスタブルスイッチモデル(Generalized Metastable Switch Model)をイベント駆動設定に拡張し、離散時間近似に伴う誤差を排除し、シミュレーションの計算効率の面で潜在的な改善を提供する。 本研究では,メモリ依存および動的スイッチング動作をモデル化し,状態緩和,構造破壊,ジュール加熱,ドリフト加速度現象など,記憶装置に存在する様々な揮発現象を簡潔に捉え,一元化するために,ボラティリティ状態変数の概念を導入する。 我々は二酸化チタンメムリスタのドリフトデータセットを提供し、フィラメント成長の物理モデルによって動機付けられたドリフト特性をシミュレートする線形コンダクタンスモデルを導入する。 次に、イベントベースモデルのパラメータをドリフトモデルに適合させる方法を示す。

In this paper, we build a general model of memristors suitable for the simulation of event-based systems, such as hardware spiking neural networks, and more generally, neuromorphic computing systems. We extend an existing general model of memristors - the Generalised Metastable Switch Model - to an event-driven setting, eliminating errors associated discrete time approximation, as well as offering potential improvements in terms of computational efficiency for simulation. We introduce the notion of a volatility state variable, to allow for the modelling of memory-dependent and dynamic switching behaviour, succinctly capturing and unifying a variety of volatile phenomena present in memristive devices, including state relaxation, structural disruption, Joule heating, and drift acceleration phenomena. We supply a drift dataset for titanium dioxide memristors and introduce a linear conductance model to simulate the drift characteristics, motivated by a proposed physical model of filament growth. We then demonstrate an approach for fitting the parameters of the event-based model to the drift model.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-14
# テキストから人生へ:人工生命と大規模言語モデルとの相互関係について

From Text to Life: On the Reciprocal Relationship between Artificial Life and Large Language Models ( http://arxiv.org/abs/2407.09502v1 )

ライセンス: Link先を確認
Eleni Nisioti, Claire Glanois, Elias Najarro, Andrew Dai, Elliot Meyerson, Joachim Winther Pedersen, Laetitia Teodorescu, Conor F. Hayes, Shyam Sudhakaran, Sebastian Risi, (参考訳) 大規模言語モデル(LLM)は、AIの分野を嵐によって捉えてきたが、ALife(Artificial Life)分野への採用は、これまでは比較的限定的だった。 本研究では,LLMとALifeのシナジーの可能性について検討する。 例えば、進化計算の演算子やオープンエンド環境の生成など、ALife研究のツールとしてのLLMの可能性を探る。 相互に、自己組織化、集団知性、進化可能性といったALifeの原則は、LSMの開発と機能を形成する機会を与え、より適応的で応答性の高いモデルをもたらす。 このダイナミックな相互作用を調査することにより,ALife と LLM の両研究において,革新的なクロスオーバーアプローチを実現することを目的としている。 その過程で、LLMが出現や集団知能などの特性を増し、テキスト生成という当初の目標を超えて拡張し、人工システムにおける生命のような知性に対する認識を再定義する可能性について検討する。

Large Language Models (LLMs) have taken the field of AI by storm, but their adoption in the field of Artificial Life (ALife) has been, so far, relatively reserved. In this work we investigate the potential synergies between LLMs and ALife, drawing on a large body of research in the two fields. We explore the potential of LLMs as tools for ALife research, for example, as operators for evolutionary computation or the generation of open-ended environments. Reciprocally, principles of ALife, such as self-organization, collective intelligence and evolvability can provide an opportunity for shaping the development and functionalities of LLMs, leading to more adaptive and responsive models. By investigating this dynamic interplay, the paper aims to inspire innovative crossover approaches for both ALife and LLM research. Along the way, we examine the extent to which LLMs appear to increasingly exhibit properties such as emergence or collective intelligence, expanding beyond their original goal of generating text, and potentially redefining our perception of lifelike intelligence in artificial systems.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-14
# PARSE-Ego4D:エゴセントリックビデオのためのパーソナライズ・アクション・レコメンデーション

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos ( http://arxiv.org/abs/2407.09503v1 )

ライセンス: Link先を確認
Steven Abreu, Tiffany D. Do, Karan Ahuja, Eric J. Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco, (参考訳) 知的援助は理解だけでなく行動も含む。 既存のエゴ中心のビデオデータセットには、ビデオの豊富なアノテーションが含まれているが、現時点ではインテリジェントアシスタントが実行可能なアクションは含まれていない。 このギャップに対処するため、私たちは、Ego4Dデータセット用の新しい個人的なアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースします。 これらのアノテーションの生成と評価には,多段階的なアプローチを採用しています。 まず、プロンプトエンジニアリングされた大規模言語モデル(LLM)を用いて、コンテキスト認識されたアクション提案を生成し、18,000以上のアクション提案を特定した。 これらの合成作用提案は有用であるが、LLMの本質的な制限は人間の評価を必要とする。 高品質でユーザ中心のレコメンデーションを確保するため, PARSE-Ego4Dの全嗜好の基盤となる大規模な人文アノテーション研究を行った。 我々は,レイター間の合意を分析し,参加者の主観的嗜好を評価する。 合成データセットと完全な人間のアノテーションに基づいて、エゴ中心のビデオに基づくアクション提案のための新しいタスクをいくつか提案する。 レイテンシとエネルギー要求を改善する新しいソリューションを推奨します。 PARSE-Ego4Dのアノテーションは、拡張現実および仮想現実システムのためのアクションレコメンデーションシステムの構築に取り組んでいる研究者や開発者をサポートする。

Intelligent assistance involves not only understanding but also action. Existing ego-centric video datasets contain rich annotations of the videos, but not of actions that an intelligent assistant could perform in the moment. To address this gap, we release PARSE-Ego4D, a new set of personal action recommendation annotations for the Ego4D dataset. We take a multi-stage approach to generating and evaluating these annotations. First, we used a prompt-engineered large language model (LLM) to generate context-aware action suggestions and identified over 18,000 action suggestions. While these synthetic action suggestions are valuable, the inherent limitations of LLMs necessitate human evaluation. To ensure high-quality and user-centered recommendations, we conducted a large-scale human annotation study that provides grounding in human preferences for all of PARSE-Ego4D. We analyze the inter-rater agreement and evaluate subjective preferences of participants. Based on our synthetic dataset and complete human annotations, we propose several new tasks for action suggestions based on ego-centric videos. We encourage novel solutions that improve latency and energy requirements. The annotations in PARSE-Ego4D will support researchers and developers who are working on building action recommendation systems for augmented and virtual reality systems.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-14
# 類似度と画像ハッシュの度合いを利用したAIによる画像の著作権検出

AI-Based Copyright Detection Of An Image In a Video Using Degree Of Similarity And Image Hashing ( http://arxiv.org/abs/2407.09504v1 )

ライセンス: Link先を確認
Ashutosh, Rahul Jashvantbhai Pandya, (参考訳) インターネット上で利用可能な情報の拡大は、特に視覚的な表現について語る場合、特定の作品が複製なのか、保護された作品の複製なのかを特定するのを難しくする。 報告では、著作権のある画像の利用を識別する戦略が計画されている。 それでも私たちは、ビデオに著作権付き画像を取り込むという問題と、ビデオで使われている著作権付き画像の類似度を認識できる計算を解決したいと考えています。 機械学習(ML)と人工知能(AI)は、この問題に対処するために不可欠である。 多くの協会が著作権のある作品の識別を検査するために異なる計算を作成している。 この作業は、これらの計算に集中し、情報の内部のデザインを認識し、著作権のある画像分類と検出のためのより合理的なモデルを作成することを意味する。 私たちは、画像処理、畳み込みニューラルネットワーク(CNN)、画像ハッシュなど、さまざまなアルゴリズムを使用しています。 キーワード-著作権、人工知能(AI)、著作権付きイメージ、畳み込みニューラルネットワーク(CNN)、画像処理、類似性の度合い、画像ハッシュ。

The expanse of information available over the internet makes it difficult to identify whether a specific work is a replica or a duplication of a protected work, especially if we talk about visual representations. Strategies are planned to identify the utilization of the copyrighted image in a report. Still, we want to resolve the issue of involving a copyrighted image in a video and a calculation that could recognize the degree of similarity of the copyrighted picture utilized in the video, even for the pieces of the video that are not featured a lot and in the end perform characterization errands on those edges. Machine learning (ML) and artificial intelligence (AI) are vital to address this problem. Numerous associations have been creating different calculations to screen the identification of copyrighted work. This work means concentrating on those calculations, recognizing designs inside the information, and fabricating a more reasonable model for copyrighted image classification and detection. We have used different algorithms like- Image Processing, Convolutional Neural Networks (CNN), Image hashing, etc. Keywords- Copyright, Artificial Intelligence(AI), Copyrighted Image, Convolutional Neural Network(CNN), Image processing, Degree of similarity, Image Hashing.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-14
# 1-Lipschitzニューラル距離場

1-Lipschitz Neural Distance Fields ( http://arxiv.org/abs/2407.09505v1 )

ライセンス: Link先を確認
Guillaume Coiffier, Louis Bethune, (参考訳) ニューラルネットワークのゼロレベルセットとして固形物体を表す幾何学処理のための有望なツールである。 これらの手法は、通常、観測対象の符号付き距離関数を近似するために訓練され、表面近傍の視覚的忠実度と品質を示すが、それらの性質は距離で劣化する傾向にあり、複雑な範囲解析技術の助けなしに幾何的クエリの実行が困難になる。 リプシッツニューラルネットワークの最近の進歩に基づき、与えられた物体の符号付き距離関数を近似する新しい手法を提案する。 我々の神経機能は構築によって1-リプシッツとなるので、その距離を過大評価することはできない。 さらに、1-Lipschitz制約は、ヒンジ・カントロヴィッチ・ルビンシュタイン損失と呼ばれる別の損失関数を使用することで、勾配をできるだけ単位ノルムに近づけることで、反復的なクエリの計算コストを削減できる。 この損失関数は、最適化するために占有率を大まかに見積もるだけでよいので、真の距離関数は知る必要がなくなる。 したがって、ノイズのある点雲や三角形のスープのような、品質の悪い幾何学の神経暗黙表現を計算できる。 本手法は, 平面内あるいは空間内における任意の閉曲面あるいは開曲線の距離関数を近似できる一方で, 球追跡や最近点投影を頑健に行うことができることを示す。

Neural implicit surfaces are a promising tool for geometry processing that represent a solid object as the zero level set of a neural network. Usually trained to approximate a signed distance function of the considered object, these methods exhibit great visual fidelity and quality near the surface, yet their properties tend to degrade with distance, making geometrical queries hard to perform without the help of complex range analysis techniques. Based on recent advancements in Lipschitz neural networks, we introduce a new method for approximating the signed distance function of a given object. As our neural function is made 1- Lipschitz by construction, it cannot overestimate the distance, which guarantees robustness even far from the surface. Moreover, the 1-Lipschitz constraint allows us to use a different loss function, called the hinge-Kantorovitch-Rubinstein loss, which pushes the gradient as close to unit-norm as possible, thus reducing computation costs in iterative queries. As this loss function only needs a rough estimate of occupancy to be optimized, this means that the true distance function need not to be known. We are therefore able to compute neural implicit representations of even bad quality geometry such as noisy point clouds or triangle soups. We demonstrate that our methods is able to approximate the distance function of any closed or open surfaces or curves in the plane or in space, while still allowing sphere tracing or closest point projections to be performed robustly.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-14
# 対話型質問応答のためのグラフベース推論を用いた大規模言語モデルの統合

Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering ( http://arxiv.org/abs/2407.09506v1 )

ライセンス: Link先を確認
Parag Jain, Mirella Lapata, (参考訳) 我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。 提案手法では,質問とその文脈に関する情報(これまでの会話と回答を見つけるための証拠)をグラフ構造化表現を用いて収集し,また,大規模言語モデル(LLM)の推論とテキスト生成機能を利用する。 グラフ埋め込みは LLM に直接注入され、トークン埋め込み層をバイパスし、クロスエントロピーを最小化してエンドツーエンドを学習する。 我々のモデルは過去の証拠を追跡・更新するためのメモリモジュールを維持しており、それによって会話が進化するにつれてグラフの構造に影響を与える。 ConvMixベンチマーク(Christmann et al , 2022a)の実験結果によると、グラフ埋め込みはLCMの推論能力を高め、メモリモジュールはノイズや検索エラーに対して堅牢性を提供する。

We focus on a conversational question answering task which combines the challenges of understanding questions in context and reasoning over evidence gathered from heterogeneous sources like text, knowledge graphs, tables, and infoboxes. Our method utilizes a graph structured representation to aggregate information about a question and its context (i.e., the conversation so far and evidence retrieved to find an answer), while also harnessing the reasoning and text generation capabilities of large language models (LLMs). Graph embeddings are directly injected into the LLM, bypassing the token embedding layers, and learned end-to-end by minimizing cross-entropy. Our model maintains a memory module to track and update past evidence, thus influencing the graph's structure, as the conversation evolves. Experimental results on the ConvMix benchmark(Christmann et al., 2022a) show that graph embeddings enhance the LLM's ability to reason, while the memory module provides robustness against noise and retrieval errors.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-14
# アイルランド伝統舞踊音楽のコルモゴロフ複合性

The Kolmogorov Complexity of Irish traditional dance music ( http://arxiv.org/abs/2407.12000v1 )

ライセンス: Link先を確認
Michael McGettrick, Paul McGettrick, (参考訳) アイルランドの伝統舞踊音楽における旋律のコンモゴロフ複雑性をLempel-Ziv圧縮を用いて推定する。 音楽の「トゥーン」は、単にアルファベットからの文字の列として「ABC表記」と呼ばれる形で提示される。 アルゴリズムの複雑さを推定することで、(より繰り返しの)「単純」あるいは「簡単」の曲と(より繰り返しの少ない)「難易度」の曲を区別することができる。 さらに、それらの複雑さの観点から、2つの音節圏(リールとジーグ)の比較を示す。

We estimate the Kolmogorov complexity of melodies in Irish traditional dance music using Lempel-Ziv compression. The "tunes" of the music are presented in so-called "ABC notation" as simply a sequence of letters from an alphabet: We have no rhythmic variation, with all notes being of equal length. Our estimation of algorithmic complexity can be used to distinguish "simple" or "easy" tunes (with more repetition) from "difficult" ones (with less repetition) which should prove useful for students learning tunes. We further present a comparison of two tune categories (reels and jigs) in terms of their complexity.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-14
# The Elephant in the Room: ポータブルシークエンシングデバイスのソフトウェアとハードウェアセキュリティ脆弱性

The Elephant in the Room: Software and Hardware Security Vulnerabilities of Portable Sequencing Devices ( http://arxiv.org/abs/2407.12001v1 )

ライセンス: Link先を確認
Carson Stillman, Jonathan E. Bravo, Christina Boucher, Sara Rampazzi, (参考訳) ポータブルゲノムシークエンシング技術は、より高速で柔軟なDNAとRNAのシークエンシング方法を提供することによってゲノム研究に革命をもたらしている[1, 2]。 実験室に収容された巨大なベンチトップ機器から、実験室ネットワークの外で簡単に持ち運び、信頼できない外部コンピュータに接続してシーケンシングを行う小さな携帯機器への前例のないシフトは、これまで考えられていなかった新たなセキュリティとプライバシの脅威を引き起こす。 現在の研究は、主にオンラインデータベースにおけるDNA/RNAデータのプライバシーと、Illumina[4]のようなスタンドアロンのシークエンシングデバイスのセキュリティに対処しています。 しかし、図1に示すように、ポータブルシーケンサに直接接続するコンピュータデバイスの妥協によるセキュリティリスクを見落としている。 ヒトゲノムのような高感度なデータは配列が簡単になっているが、これらの小さなデバイスと接続するネットワークとベースコールを実行するハードウェアはもはや暗黙的に信頼されず、それによって処理されるゲノムデータの機密性と整合性が低下する可能性がある。 ここでは、ポータブルシークエンシング技術の新たなセキュリティとプライバシの脅威と、シークエンシングデータのプライベートかつセキュアな保持を支援するための推奨事項を紹介する。 第一に、シークエンシングデバイスへの不正アクセスを防ぐために、IPアドレスは十分な認証機構とはみなしてはならない。 第二に、データ操作を避けるためにシーケンサから外部コンピュータに渡されるすべてのデータに対して整合性チェックが必要である。 最後に、暗号化はシーケンサからそのような外部コンピュータに渡され、送信され保存されるデータの盗聴を防止するものとして考慮すべきである。 デバイスや技術が急速に変化していくにつれ、セキュリティ要件の再評価や、最も機密性の高いデータを露出させるリスクが最重要になる。

Portable genome sequencing technology is revolutionizing genomic research by providing a faster, more flexible method of sequencing DNA and RNA [1, 2]. The unprecedented shift from bulky stand-alone benchtop equipment confined in a laboratory setting to small portable devices which can be easily carried anywhere outside the laboratory network and connected to untrusted external computers to perform sequencing raises new security and privacy threats not considered before. Current research primarily addresses the privacy of DNA/RNA data in online databases [3] and the security of stand-alone sequencing devices such as Illumina [4]. However, it overlooks the security risks arising from compromises of computer devices directly connected to portable sequencers as illustrated in Fig. 1. While highly sensitive data, such as the human genome, has become easier to sequence, the networks connecting to these smaller devices and the hardware running basecalling can no longer implicitly be trusted, and doing so can deteriorate the confidentiality and integrity of the genomic data being processed. Here, we present new security and privacy threats of portable sequencing technology and recommendations to aid in ensuring sequencing data is kept private and secure. First, to prevent unauthorized access to sequencing devices, IP addresses should not be considered a sufficient authentication mechanism. Second, integrity checks are necessary for all data passed from the sequencer to external computers to avoid data manipulation. Finally, encryption should be considered as data is passed from the sequencer to such external computers to prevent eavesdropping on data as it is sent and stored. As devices and technology rapidly change, it becomes paramount to reevaluate security requirements alongside them or risk leaving some of our most sensitive data exposed.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-14
# 双対構造勾配勾配勾配アルゴリズムの解析とニューラルネットワークへの応用

The duality structure gradient descent algorithm: analysis and applications to neural networks ( http://arxiv.org/abs/1708.00523v8 )

ライセンス: Link先を確認
Thomas Flynn, (参考訳) 機械学習モデルのトレーニングは通常、ある種の勾配降下を用いて行われ、しばしば大きな成功を収める。 しかし、一階最適化アルゴリズムの漸近的でない解析は、ディープニューラルネットワークでは適用できないほど強い勾配滑らか性仮定(正式には勾配のリプシッツ連続性)を用いるのが一般的である。 これを解決するために,トレーニングセットとネットワークアーキテクチャの軽度な仮定の下で,非漸近的性能解析に適する双対構造勾配勾配(DSGD)というアルゴリズムを提案する。 アルゴリズムはレイヤワイド座標降下の一形態として見ることができ、各イテレーションでアルゴリズムは更新するネットワークの1つのレイヤを選択する。 どのレイヤを更新するかという決定は、各レイヤの選択に対する目的関数の改善に関する厳密な下限に基づいて、悲惨な方法で行われます。 解析において、決定論的および確率的設定の両方において、近似定常点に到達するのに必要な時間を制限した。 この収束度は、ネットワークアーキテクチャから導出され、トレーニング損失関数の勾配における滑らかさのような特性を確認するために設計されたパラメータ依存のノルムの族で測定される。 いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。

The training of machine learning models is typically carried out using some form of gradient descent, often with great success. However, non-asymptotic analyses of first-order optimization algorithms typically employ a gradient smoothness assumption (formally, Lipschitz continuity of the gradient) that is too strong to be applicable in the case of deep neural networks. To address this, we propose an algorithm named duality structure gradient descent (DSGD) that is amenable to non-asymptotic performance analysis, under mild assumptions on the training set and network architecture. The algorithm can be viewed as a form of layer-wise coordinate descent, where at each iteration the algorithm chooses one layer of the network to update. The decision of what layer to update is done in a greedy fashion, based on a rigorous lower bound on the improvement of the objective function for each choice of layer. In the analysis, we bound the time required to reach approximate stationary points, in both the deterministic and stochastic settings. The convergence is measured in terms of a parameter-dependent family of norms that is derived from the network architecture and designed to confirm a smoothness-like property on the gradient of the training loss function. We empirically demonstrate the behavior of DSGD in several neural network training scenarios.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-14
# LLMによる合成データ生成, キュレーション, 評価について

On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey ( http://arxiv.org/abs/2406.15126v1 )

ライセンス: Link先を確認
Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang, (参考訳) 深層学習の進化する展望の中で、データ量と品質のジレンマは長年の問題だった。 最近のLLM(Large Language Models)の出現は、合成データ生成による実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。 しかし、この分野での最近の研究は統一的な枠組みが欠如しており、ほとんどは表面上にとどまっている。 そこで本研究では,合成データ生成の一般的なワークフローに基づく,関連する研究の組織を提供する。 これにより、既存の研究のギャップを浮き彫りにし、今後の研究の道筋を概観する。 この研究は、LLMによる合成データ生成の能力と応用について、より深く、より体系的な調査に向けて、学術的および工業的コミュニティをシェパードすることを目的としている。

Within the evolving landscape of deep learning, the dilemma of data quantity and quality has been a long-standing problem. The recent advent of Large Language Models (LLMs) offers a data-centric solution to alleviate the limitations of real-world data with synthetic data generation. However, current investigations into this field lack a unified framework and mostly stay on the surface. Therefore, this paper provides an organization of relevant studies based on a generic workflow of synthetic data generation. By doing so, we highlight the gaps within existing research and outline prospective avenues for future study. This work aims to shepherd the academic and industrial communities towards deeper, more methodical inquiries into the capabilities and applications of LLMs-driven synthetic data generation.
翻訳日:2024-07-01 07:21:04 公開日:2024-06-14
# PID:潜伏拡散モデルに対するプロンプト非依存データ保護

PID: Prompt-Independent Data Protection Against Latent Diffusion Models ( http://arxiv.org/abs/2406.15305v1 )

ライセンス: Link先を確認
Ang Li, Yichuan Mo, Mingjie Li, Yisen Wang, (参考訳) LDM(Latent Diffusion Models)の微調整により、限られた数の画像から新しい概念を把握できるようになった。 しかし、大量の個人画像がオンラインでアクセス可能であることを考えると、この機能は市民のプライバシーに対する重大な懸念を引き起こす。 このようなLCDの誤用を防ぐために、いくつかの従来の防衛手法が開発されているが、データプロテクターが使用するテキストプロンプトは、データエクスプローラーが使用するものと正確に一致していると想定されている。 本稿では,この仮定を破ること,すなわちプロテクターとエクスプローラーが使用するテクスト条件の相違が,これらの防御効果を著しく低下させることを実証的に実証する。 さらに、テキストプロンプトからの視覚エンコーダの独立性を考慮して、視覚エンコーダを探索し、視覚エンコーダを操作することがLCDの微調整過程にどう影響するかを徹底的に検討する。 これらの知見に基づいて, LDMに対するプライバシー保護を目的とした, 簡易かつ効果的な方法である「textbf{Prompt-Independent Defense (PID)」を提案する。 PIDは、計算能力を大幅に低下させながら、自分自身で強力なプライバシシールドとして振る舞うことができることを示す。 我々の研究は、総合的な理解と新しい防衛手法と共に、LCDに対する信頼性のあるデータ保護に向けた顕著な進歩をもたらすと信じている。

The few-shot fine-tuning of Latent Diffusion Models (LDMs) has enabled them to grasp new concepts from a limited number of images. However, given the vast amount of personal images accessible online, this capability raises critical concerns about civil privacy. While several previous defense methods have been developed to prevent such misuse of LDMs, they typically assume that the textual prompts used by data protectors exactly match those employed by data exploiters. In this paper, we first empirically demonstrate that breaking this assumption, i.e., in cases where discrepancies exist between the textual conditions used by protectors and exploiters, could substantially reduce the effectiveness of these defenses. Furthermore, considering the visual encoder's independence from textual prompts, we delve into the visual encoder and thoroughly investigate how manipulating the visual encoder affects the few-shot fine-tuning process of LDMs. Drawing on these insights, we propose a simple yet effective method called \textbf{Prompt-Independent Defense (PID)} to safeguard privacy against LDMs. We show that PID can act as a strong privacy shield on its own while requiring significantly less computational power. We believe our studies, along with the comprehensive understanding and new defense method, provide a notable advance toward reliable data protection against LDMs.
翻訳日:2024-07-01 07:21:03 公開日:2024-06-14
# RadEx: 大規模言語モデルに基づく放射線学レポートからの構造化情報抽出フレームワーク

RadEx: A Framework for Structured Information Extraction from Radiology Reports based on Large Language Models ( http://arxiv.org/abs/2406.15465v1 )

ライセンス: Link先を確認
Daniel Reichenpfader, Jonas Knupp, André Sander, Kerstin Denecke, (参考訳) 毎年、世界中で、30億回以上の放射線検査とコンピュータ断層撮影が行われ、その大部分は無料テキストを含む非構造化の放射線学レポートである。 構造化レポートの潜在的な利点にもかかわらず、その採用は確立されたプロセス、リソースの制約、潜在的な情報の喪失といった要因によって制限されている。 しかし、自動分析、臨床試験のマッチング、健康状態の予測など、さまざまなユースケースにおいて構造化情報が必要である。 本研究では,15のソフトウェアコンポーネントと10のアーティファクトからなるエンドツーエンドフレームワークであるRadExを紹介し,放射線学レポートから自動情報抽出を行うシステムを開発した。 トレーニングデータの注釈付けから、一貫性のある汎用情報モデルとモデル開発のためのバウンダリ設定を提供することで、情報抽出まで、完全なプロセスをカバーする。 具体的には、RadExは臨床医が臨床領域(例えばマンモグラフィー)に関連する情報を定義し、報告テンプレートを作成することを可能にする。 このフレームワークは、生成モデルとエンコーダのみのモデルの両方をサポートし、テンプレートフィリングから情報抽出を分離することで、独立したモデルの改善を可能にする。 RadExフレームワークによる情報抽出システムの開発は、コンポーネント間の相互運用性を保証する一方、コンポーネントの交換が容易であるため、実装とメンテナンスを容易にする。

Annually and globally, over three billion radiography examinations and computer tomography scans result in mostly unstructured radiology reports containing free text. Despite the potential benefits of structured reporting, its adoption is limited by factors such as established processes, resource constraints and potential loss of information. However, structured information would be necessary for various use cases, including automatic analysis, clinical trial matching, and prediction of health outcomes. This study introduces RadEx, an end-to-end framework comprising 15 software components and ten artifacts to develop systems that perform automated information extraction from radiology reports. It covers the complete process from annotating training data to extracting information by offering a consistent generic information model and setting boundaries for model development. Specifically, RadEx allows clinicians to define relevant information for clinical domains (e.g., mammography) and to create report templates. The framework supports both generative and encoder-only models and the decoupling of information extraction from template filling enables independent model improvements. Developing information extraction systems according to the RadEx framework facilitates implementation and maintenance as components are easily exchangeable, while standardized artifacts ensure interoperability between components.
翻訳日:2024-07-01 07:01:19 公開日:2024-06-14
# 仮想光子の励起放出:光によるエネルギー移動

Stimulated emission of virtual photons: Energy transfer by light ( http://arxiv.org/abs/2406.16931v1 )

ライセンス: Link先を確認
Lorenz S. Cederbaum, Alexander I. Kuleff, (参考訳) エネルギー移動過程は、仮想光子の放出によるものと見なすことができる。 仮想光子の放出とエネルギー移動は、光子の密接な存在によって促進されることを示した。 ここでは原子間/分子間クーロン崩壊(ICD)に集中し、励起系はその余剰エネルギーを隣のイオン化器に移すことで緩和する。 ICDは、この過剰エネルギーが不十分な場合、不活性である。 しかし、光子の存在下では、システムと隣人の長距離相互作用は光子場を利用してICDをアクティブにすることができる。 この刺激ICD機構の特性について論じる。 この概念は他のシナリオに移行することができる。 2つの励起分子が相まって過剰エネルギーを伝達する集合ICDについて論じる。 ここでは、過剰エネルギーの和が不十分な場合、光子の存在によってその過程が活発になる。 典型的な分子や原子の例は、これらの刺激されたプロセスが役割を果たすことを示すために提示される。

Energy-transfer processes can be viewed as being due to the emission of a virtual photon. It is demonstrated that the emission of virtual photons and thus of energy transfer is stimulated by the sheer presence of photons. We concentrate here on interatomic/intermolecular Coulombic decay (ICD) where an excited system relaxes by transferring its excess energy to a neighbor ionizing it. ICD is inactive if this excess energy is insufficiently large. However, in the presence of photons, the long-range interaction between the system and its neighbor can utilize the photon field making ICD active. The properties of this stimulated-ICD mechanism are discussed. The concept can be transferred to other scenarios. We discuss collective-ICD where two excited molecules concertedly transfer their excess energy. Also here, the presence of photons can make the process active if the sum of excess energies were insufficient to do so. Examples with typical molecules and atoms are presented to demonstrate that these stimulated processes can play a role.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-14
# Xi-Net: 変圧器を用いた地震波形再構成装置

Xi-Net: Transformer Based Seismic Waveform Reconstructor ( http://arxiv.org/abs/2406.16932v1 )

ライセンス: Link先を確認
Anshuman Gaharwar, Parth Parag Kulkarni, Joshua Dickey, Mubarak Shah, (参考訳) ミス/誤データは今日の世界で大きな問題です。 収集された地震データには、干渉やセンサーの故障など、さまざまな理由によるギャップがある。 地震波形のギャップは、さらなる信号処理を妨げ、貴重な情報を得る。 画像、ビデオ、音声などの他の領域のデータ再構成には多くの技術が使われており、地震波形に対処するためには、実際に複雑である長いシーケンス入力に適応するよう要求する。 それが達成されたとしても、高い計算コストと非効率性は、これらの主に畳み込みに基づく再構成モデルで維持される。 本稿では,複数面時間と周波数領域入力を用いた変換器を用いた深層学習モデルXi-Netを提案する。 Xi-Netは入力波形を周波数領域に変換し、時間と周波数領域に別個のエンコーダと、融合した特徴から出力波形を再構成するための1つのデコーダを用いる。 1Dシフトウインドウ変圧器ブロックは、モデルのすべての部分の基本単位を形成する。 我々の知る限りでは、これは地震波形再構成のためのトランスフォーマーに基づく最初のディープラーニングモデルである。 本稿では,120s波形に0.5-1sのランダムギャップを埋めることにより,このモデルの有効性を実証する。 コード、モデルについては、https://github.com/Anshuman04/waveformReconstructorを参照してください。

Missing/erroneous data is a major problem in today's world. Collected seismic data sometimes contain gaps due to multitude of reasons like interference and sensor malfunction. Gaps in seismic waveforms hamper further signal processing to gain valuable information. Plethora of techniques are used for data reconstruction in other domains like image, video, audio, but translation of those methods to address seismic waveforms demands adapting them to lengthy sequence inputs, which is practically complex. Even if that is accomplished, high computational costs and inefficiency would still persist in these predominantly convolution-based reconstruction models. In this paper, we present a transformer-based deep learning model, Xi-Net, which utilizes multi-faceted time and frequency domain inputs for accurate waveform reconstruction. Xi-Net converts the input waveform to frequency domain, employs separate encoders for time and frequency domains, and one decoder for getting reconstructed output waveform from the fused features. 1D shifted-window transformer blocks form the elementary units of all parts of the model. To the best of our knowledge, this is the first transformer-based deep learning model for seismic waveform reconstruction. We demonstrate this model's prowess by filling 0.5-1s random gaps in 120s waveforms, resembling the original waveform quite closely. The code, models can be found at: https://github.com/Anshuman04/waveformReconstructor.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-14
# 航空機エンジンの知的故障予測のための脳誘発スパイクエコー状態ネットワークダイナミクス

Brain-Inspired Spike Echo State Network Dynamics for Aero-Engine Intelligent Fault Prediction ( http://arxiv.org/abs/2406.12918v1 )

ライセンス: Link先を確認
Mo-Ran Liu, Tao Sun, Xi-Ming Sun, (参考訳) エアロエンジン故障予測は, 航空エンジンの今後の動向を正確に予測し, 事前に故障を診断することを目的としている。 従来の航空エンジンパラメータ予測法は主に時系列データの非線形マッピング関係を用いるが、一般に航空エンジンデータに含まれる適切な時空間的特徴を無視する。 そこで本研究では, 時空間力学の枠組みを用いて, 航空エンジンの時系列データの進化過程を効果的に捉えるために, 航空エンジンの知的故障予測のための脳内スパイクエコー状態ネットワーク(Spike-ESN)モデルを提案する。 提案手法では,生体ニューロンのスパイクニューラルエンコーディング機構にインスパイアされたポアソン分布に基づくスパイク入力層を設計し,航空エンジンのシーケンスデータにおいて有用な時間特性を抽出する。 次に、ニューロンのスパイク蓄積の現在の計算方法でスパイク貯留層に時間特性を入力し、そのデータを高次元スパース空間に投影する。 さらに,尾根回帰法を用いてスパイク貯留層の内部状態を読み取る。 最後に, 航空エンジン状態予測実験の結果, 提案手法の優位性と可能性を示した。

Aero-engine fault prediction aims to accurately predict the development trend of the future state of aero-engines, so as to diagnose faults in advance. Traditional aero-engine parameter prediction methods mainly use the nonlinear mapping relationship of time series data but generally ignore the adequate spatiotemporal features contained in aero-engine data. To this end, we propose a brain-inspired spike echo state network (Spike-ESN) model for aero-engine intelligent fault prediction, which is used to effectively capture the evolution process of aero-engine time series data in the framework of spatiotemporal dynamics. In the proposed approach, we design a spike input layer based on Poisson distribution inspired by the spike neural encoding mechanism of biological neurons, which can extract the useful temporal characteristics in aero-engine sequence data. Then, the temporal characteristics are input into a spike reservoir through the current calculation method of spike accumulation in neurons, which projects the data into a high-dimensional sparse space. In addition, we use the ridge regression method to read out the internal state of the spike reservoir. Finally, the experimental results of aero-engine states prediction demonstrate the superiority and potential of the proposed method.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# 分子ドッキングの能動的学習の理解とその応用

Understanding active learning of molecular docking and its applications ( http://arxiv.org/abs/2406.12919v1 )

ライセンス: Link先を確認
Jeonghyeon Kim, Juno Nam, Seongok Ryu, (参考訳) 計算方法論と資源の進歩により、分子ドッキングによる超大規模仮想スクリーニングが、シリカヒット発見の顕著な戦略として登場した。 超大規模仮想スクリーニングの徹底的な性質を踏まえ、アクティブラーニング手法は、反復的な小規模ドッキングと機械学習モデルトレーニングを通じて計算コストを軽減する手段として注目されている。 アクティブラーニング手法の有効性は、現存する文献で実証的に検証されているが、サロゲートモデルがどのようにドッキングスコアを予測できるかは、レセプターコンフォーメーションやバインドポーズといった3次元構造的特徴を考慮せずに検討されている。 本論文では,2次元構造のみを用いてドッキングスコアを効果的に予測する能動的学習手法について検討する。 以上の結果から, サロゲートモデルでは, 高ドッキング量化合物の獲得過程で得られた構造パターンを記憶する傾向が示唆された。 このような傾向にもかかわらず、サロゲートモデルは仮想スクリーニングにおいて有用であり、DUD-EデータセットとEnamineRealライブラリの高ドッキング性化合物の同定に例えるように、初期スクリーニングプールよりもはるかに大きなセットである。 我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。

With the advancing capabilities of computational methodologies and resources, ultra-large-scale virtual screening via molecular docking has emerged as a prominent strategy for in silico hit discovery. Given the exhaustive nature of ultra-large-scale virtual screening, active learning methodologies have garnered attention as a means to mitigate computational cost through iterative small-scale docking and machine learning model training. While the efficacy of active learning methodologies has been empirically validated in extant literature, a critical investigation remains in how surrogate models can predict docking score without considering three-dimensional structural features, such as receptor conformation and binding poses. In this paper, we thus investigate how active learning methodologies effectively predict docking scores using only 2D structures and under what circumstances they may work particularly well through benchmark studies encompassing six receptor targets. Our findings suggest that surrogate models tend to memorize structural patterns prevalent in high docking scored compounds obtained during acquisition steps. Despite this tendency, surrogate models demonstrate utility in virtual screening, as exemplified in the identification of actives from DUD-E dataset and high docking-scored compounds from EnamineReal library, a significantly larger set than the initial screening pool. Our comprehensive analysis underscores the reliability and potential applicability of active learning methodologies in virtual screening campaigns.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# WindowMixer: 時系列予測のためのWindow内およびWindow間モデリング

WindowMixer: Intra-Window and Inter-Window Modeling for Time Series Forecasting ( http://arxiv.org/abs/2406.12921v1 )

ライセンス: Link先を確認
Quangao Liu, Ruiqi Li, Maowei Jiang, Wei Yang, Chen Liang, LongLong Pang, Zhuozhang Zou, (参考訳) 時系列予測(TSF)は、経済予測、天気予報、交通流分析、公衆衛生監視などの分野で重要である。 実世界の時系列データには、しばしばノイズ、外れ値、欠落値が含まれており、正確な予測は困難である。 従来の手法では、複雑な時間パターンをキャプチャし、ノイズに対する感受性を高める能力を制限するポイント・ツー・ポイント関係をモデル化しており、これらの問題に対処するため、全MLPフレームワーク上に構築された WindowMixer モデルを導入している。 WindowMixerは、時間的変動をウィンドウベースの観点から調べることで、時系列の連続的な性質を活用する。 時系列をトレンドと季節的なコンポーネントに分解し、個別に扱う。 トレンドでは、完全に接続された(FC)層が予測を行う。 季節的なコンポーネントについては、ウィンドウトークンを生成するために時間ウィンドウが投影され、Window-MixerとInter-Window-Mixerモジュールによって処理される。 Window-Mixerはウィンドウ内の関係をモデル化し、Inter-Window-Mixerはウィンドウ間の関係をモデル化する。 実験により、WindowMixerは長期的な予測タスクと短期予測タスクの両方において、既存のメソッドを一貫して上回ります。

Time series forecasting (TSF) is crucial in fields like economic forecasting, weather prediction, traffic flow analysis, and public health surveillance. Real-world time series data often include noise, outliers, and missing values, making accurate forecasting challenging. Traditional methods model point-to-point relationships, which limits their ability to capture complex temporal patterns and increases their susceptibility to noise.To address these issues, we introduce the WindowMixer model, built on an all-MLP framework. WindowMixer leverages the continuous nature of time series by examining temporal variations from a window-based perspective. It decomposes time series into trend and seasonal components, handling them individually. For trends, a fully connected (FC) layer makes predictions. For seasonal components, time windows are projected to produce window tokens, processed by Intra-Window-Mixer and Inter-Window-Mixer modules. The Intra-Window-Mixer models relationships within each window, while the Inter-Window-Mixer models relationships between windows. This approach captures intricate patterns and long-range dependencies in the data.Experiments show WindowMixer consistently outperforms existing methods in both long-term and short-term forecasting tasks.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# 都市交通渋滞予測のための解釈可能なカスケード・オブ・エクササイズ

Interpretable Cascading Mixture-of-Experts for Urban Traffic Congestion Prediction ( http://arxiv.org/abs/2406.12923v1 )

ライセンス: Link先を確認
Wenzhao Jiang, Jindong Han, Hao Liu, Tao Tao, Naiqiang Tan, Hui Xiong, (参考訳) 急速な都市化は交通渋滞を著しくエスカレートさせ、インテリジェント交通システムを強化するための高度な渋滞予測サービスの必要性を浮き彫りにした。 世界最大の配車プラットフォームの一つとして、DiDiは渋滞予測の精度に重点を置いており、旅行時間推定やルート計画といったリアルタイムサービスの有効性と信頼性を高めている。 渋滞予測には多くの取り組みがなされているが、そのほとんどが不均一性や動的時空間依存性(周期的・非周期的混雑など)、特にノイズや不完全な交通データの存在において不足している。 本稿では、上記の課題に対処するため、CP-MoE(Congestion Prediction Mixture-of-Experts)を提案する。 まず,交通シナリオの複雑な時空間依存性を効率的に把握するためのモデルキャパシティを改善するために,渋滞を考慮した帰納的バイアスを伴う適応グラフ学習者混合(MAGL)を提案する。 次に,トラフィックデータ内の安定傾向と周期パターンの同定を支援するために,2つの専門専門家を考案した。 これらの専門家をMAGLでカスケードすることで、CP-MoEはより堅牢で解釈可能な方法で混雑予測を行う。 さらに、多様な専門家の効果的な協力を促進するために、順序回帰戦略が採用されている。 実世界のデータセットに対する大規模な実験は、最先端の時空間予測モデルと比較して提案手法の優位性を示している。 さらに重要なことに、CP-MoEは旅行時間推定システムの精度と信頼性を向上させるためにDiDiに展開されている。

Rapid urbanization has significantly escalated traffic congestion, underscoring the need for advanced congestion prediction services to bolster intelligent transportation systems. As one of the world's largest ride-hailing platforms, DiDi places great emphasis on the accuracy of congestion prediction to enhance the effectiveness and reliability of their real-time services, such as travel time estimation and route planning. Despite numerous efforts have been made on congestion prediction, most of them fall short in handling heterogeneous and dynamic spatio-temporal dependencies (e.g., periodic and non-periodic congestions), particularly in the presence of noisy and incomplete traffic data. In this paper, we introduce a Congestion Prediction Mixture-of-Experts, CP-MoE, to address the above challenges. We first propose a sparsely-gated Mixture of Adaptive Graph Learners (MAGLs) with congestion-aware inductive biases to improve the model capacity for efficiently capturing complex spatio-temporal dependencies in varying traffic scenarios. Then, we devise two specialized experts to help identify stable trends and periodic patterns within the traffic data, respectively. By cascading these experts with MAGLs, CP-MoE delivers congestion predictions in a more robust and interpretable manner. Furthermore, an ordinal regression strategy is adopted to facilitate effective collaboration among diverse experts. Extensive experiments on real-world datasets demonstrate the superiority of our proposed method compared with state-of-the-art spatio-temporal prediction models. More importantly, CP-MoE has been deployed in DiDi to improve the accuracy and reliability of the travel time estimation system.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# ノイズなしの量子コンピュータは存在しない

The Noiseless Quantum Computer Does Not Exist ( http://arxiv.org/abs/2406.12924v1 )

ライセンス: Link先を確認
Valentin Vankov Iliev, (参考訳) 本稿では,量子コンピュータの論理ゲートが他の論理ゲートに依存していることを示す。

In this note we show that any logic gates in a quantum computer is informationally dependent on another quantum logic gate.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# GLiNERマルチタスク:様々な情報抽出タスクのための汎用軽量モデル

GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks ( http://arxiv.org/abs/2406.12925v1 )

ライセンス: Link先を確認
Ihor Stepanov, Mykhailo Shtopko, (参考訳) 情報抽出タスクは正確、効率的、一般化可能なモデルの両方を必要とする。 古典的な教師付きディープラーニングアプローチは、必要なパフォーマンスを達成することができるが、大きなデータセットが必要であり、異なるタスクに適応する能力に制限がある。 一方,大規模言語モデル(LLM)は優れた一般化を示し,ユーザ要求に基づいて様々なタスクに適応できる。 しかし、LLMは計算コストが高く、構造化出力の生成に失敗する傾向がある。 本稿では,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しいタイプのGLiNERモデルを紹介する。 我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。 また、本稿では、GLiNERモデルを用いた名前付きエンティティ認識のための自己学習手法の実験結果について述べる。

Information extraction tasks require both accurate, efficient, and generalisable models. Classical supervised deep learning approaches can achieve the required performance, but they need large datasets and are limited in their ability to adapt to different tasks. On the other hand, large language models (LLMs) demonstrate good generalization, meaning that they can adapt to many different tasks based on user requests. However, LLMs are computationally expensive and tend to fail to generate structured outputs. In this article, we will introduce a new kind of GLiNER model that can be used for various information extraction tasks while being a small encoder model. Our model achieved SoTA performance on zero-shot NER benchmarks and leading performance on question-answering, summarization and relation extraction tasks. Additionally, in this article, we will cover experimental results on self-learning approaches for named entity recognition using GLiNER models.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# 特異振動子の自己随伴拡張手順

Self-adjoint extension procedure for a singular oscillator ( http://arxiv.org/abs/2406.12927v1 )

ライセンス: Link先を確認
Anzor Khelashvili, Teimuraz Nadareishvili, (参考訳) 特異振動子に対して、シュロディンガー方程式は固有値の方程式を求め、自己随伴拡張パラメータへのエネルギーの依存を確立する。 自己随伴拡大は、量子力学でよく知られる振動ポテンシャルに対するエネルギー準位の不等式(英語版)のよく知られた性質に反するものであることが示されている。 量子欠陥の概念は一般に導入され、問題の波動関数は単一関数として記述される。

For a singular oscillator, the Schrodinger equation is obtained an equation of eigenvalues, and the dependence of energy on the self-adjoint extension parameter is established. It is shown that the self-adjoint extension violates the well-known property of equidistance of energy levels for the oscillatory potential, well-known in quantum mechanics. The concept of quantum defect is generally introduced, and the wave function of the problem is written as a single function.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-14
# 学習しきい値が安定言語共存につながる

Learning thresholds lead to stable language coexistence ( http://arxiv.org/abs/2406.14522v1 )

ライセンス: Link先を確認
Mikhail V. Tamm, Els Heinsalu, Stefano Scialla, Marco Patriarca, (参考訳) 本稿では,Abrams-Strogatzモデルを出発点として,メモリと学習が言語シフトダイナミクスに与える影響を組み込んだ言語競合モデルを提案する。 粗い粒度の時間スケールでは、記憶と学習の影響を話者分数に対する閾値として表すことができる。 最も単純な形式では、得られるモデルは正確に解ける。 2つの言語のうちの1つのコンセンサスに加えて、このモデルは、Abrams-Strogatzモデルに存在しない追加の平衡状態を記述している: 2つの言語の安定な共存は、両方のしきい値が十分に低く、両方の反対方向の言語シフトプロセスが互いに補い合うようにし、両方のしきい値が言語シフトを起こすには高すぎる場合、初期状態と一致するフリーズ状態である。 これらの結果は, より一般的な形状のしきい値関数として保存されていることを数値的に示す。

We introduce a language competition model that incorporates the effects of memory and learning on the language shift dynamics, using the Abrams-Strogatz model as a starting point. On a coarse grained time scale, the effects of memory and learning can be expressed as thresholds on the speakers fractions. In its simplest form, the resulting model is exactly solvable. Besides the consensus on one of the two languages, the model describes additional equilibrium states that are not present in the Abrams-Strogatz model: a stable coexistence of the two languages, if both thresholds are low enough, so that the language shift processes in the two opposite directions compensate each other, and a frozen state coinciding with the initial state, when both thresholds are too high for any language shift to take place. We show numerically that these results are preserved for threshold functions of a more general shape.
翻訳日:2024-06-21 17:27:03 公開日:2024-06-14
# インテクスト学習における学習ベースデモ選択のメカニズムの解明

Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context Learning ( http://arxiv.org/abs/2406.11890v1 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Hao Sun, Chris Xing Tian, Chenqi Kong, Xin Dong, Haoliang Li, (参考訳) LLM(Large Language Models)は、数発のデモ例から、印象的なインコンテキスト学習(ICL)機能を示したものだ。 最近の学習に基づく実証選択法は、より有用な例を選択することで、ICLにとって有益であることが証明されているが、その基盤となるメカニズムは不透明であり、高いトレーニングコストやタスク間の一般化の欠如といった制限に対処する努力を妨げる。 これらの方法は一般的に、選択プロセスが模範と対象のインスタンスの類似性を捉えていると仮定するが、どのような類似性を捕捉し、ICLの実行に不可欠であるかは分かっていない。 本研究では,学習に基づく実演選択手法の動作メカニズムを分析し,類似度測定に関連する2つの重要な要因を実証的に同定する。 1)模範語とテストケースの入力におけるタスク非依存のテキスト類似性の異なるレベルを統合することで,タスク間の一般化能力が向上する。 2) 類似度を測定する際に, タスク固有のラベルを組み込むことにより, タスク毎のパフォーマンスが著しく向上する。 これら2つの知見は,10個のデータセットおよび各種LLMの定量的および定性的な分析を通じて検証した。 そこで本研究では,LLM推論のオーバーヘッドを低減し,タスク非依存とタスク固有の要求に対応する,効果的かつ簡易な2つの例選択手法を提案する。

Large Language Models (LLMs) have demonstrated impressive in-context learning (ICL) capabilities from few-shot demonstration exemplars. While recent learning-based demonstration selection methods have proven beneficial to ICL by choosing more useful exemplars, their underlying mechanisms are opaque, hindering efforts to address limitations such as high training costs and poor generalization across tasks. These methods generally assume the selection process captures similarities between the exemplar and the target instance, however, it remains unknown what kinds of similarities are captured and vital to performing ICL. To dive into this question, we analyze the working mechanisms of the learning-based demonstration selection methods and empirically identify two important factors related to similarity measurement: 1) The ability to integrate different levels of task-agnostic text similarities between the input of exemplars and test cases enhances generalization power across different tasks. 2) Incorporating task-specific labels when measuring the similarities significantly improves the performance on each specific task. We validate these two findings through extensive quantitative and qualitative analyses across ten datasets and various LLMs. Based on our findings, we introduce two effective yet simplified exemplar selection methods catering to task-agnostic and task-specific demands, eliminating the costly LLM inference overhead.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# 時間的相互作用グラフモデリングの促進のための適応的周辺に向けて

Towards Adaptive Neighborhood for Advancing Temporal Interaction Graph Modeling ( http://arxiv.org/abs/2406.11891v1 )

ライセンス: Link先を確認
Siwei Zhang, Xi Chen, Yun Xiong, Xixi Wu, Yao Zhang, Yongrui Fu, Yinglong Zhao, Jiawei Zhang, (参考訳) テンポラルグラフネットワーク(TGN)は、テンポラル相互作用グラフのモデル化において、その顕著な性能を実証している。 これらの作業は、ターゲットノードの周辺領域を符号化することで、時間ノード表現を生成することができる。 しかし、既存のTGNの固有の制限は、様々なタイムスタンプをまたいでパーソナライズと時間的進化を両立できる適応的で学習可能な地区の必要性を見越して、近所のエンコーディングのための固定的で手作りの規則に依存していることである。 本稿では,適応型近傍符号化機構を導入し,既存のTGNの強化を目指す。 既存のTGNとシームレスに統合できるフレキシブルなプラグアンドプレイモデルSEANを提案する。 これを実現するために、適応的な近傍符号化処理を2つのフェーズに分割する。 (i)隣人選抜の代表者、及び (II)時間的地域情報収集 具体的には、ターゲットノードの最も重要な隣人を自動的に特定する、代表的隣人セレクタコンポーネントを提案する。 それぞれのノードのユニークな周囲コンテキストをカスタマイズした理解を提供し、パーソナライズを容易にする。 次に,集約経路の活用を選択的に決定し,古くなった情報を減衰させることで,近隣のアグリゲータを合成する時間認識アグリゲータを提案し,アグリゲーション中の文脈的に重要な情報と現在の情報の両方を適応的に利用できるようにする。 本稿では,SEANを3つの代表的なTGNに統合し,そのパフォーマンスを4つの公開データセットと1つのファイナンシャルベンチマークデータセットで評価する。 結果は、SEANが一貫して全モデルのパフォーマンス改善をもたらし、SOTA性能と例外的堅牢性を実現していることを示している。

Temporal Graph Networks (TGNs) have demonstrated their remarkable performance in modeling temporal interaction graphs. These works can generate temporal node representations by encoding the surrounding neighborhoods for the target node. However, an inherent limitation of existing TGNs is their reliance on fixed, hand-crafted rules for neighborhood encoding, overlooking the necessity for an adaptive and learnable neighborhood that can accommodate both personalization and temporal evolution across different timestamps. In this paper, we aim to enhance existing TGNs by introducing an adaptive neighborhood encoding mechanism. We present SEAN, a flexible plug-and-play model that can be seamlessly integrated with existing TGNs, effectively boosting their performance. To achieve this, we decompose the adaptive neighborhood encoding process into two phases: (i) representative neighbor selection, and (ii) temporal-aware neighborhood information aggregation. Specifically, we propose the Representative Neighbor Selector component, which automatically pinpoints the most important neighbors for the target node. It offers a tailored understanding of each node's unique surrounding context, facilitating personalization. Subsequently, we propose a Temporal-aware Aggregator, which synthesizes neighborhood aggregation by selectively determining the utilization of aggregation routes and decaying the outdated information, allowing our model to adaptively leverage both the contextually significant and current information during aggregation. We conduct extensive experiments by integrating SEAN into three representative TGNs, evaluating their performance on four public datasets and one financial benchmark dataset introduced in this paper. The results demonstrate that SEAN consistently leads to performance improvements across all models, achieving SOTA performance and exceptional robustness.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# EMTP-ATP外部モデルを用いたリレー試験用リアルタイムシミュレータの開発

Development of a Real-Time Simulator Using EMTP-ATP Foreign models for Testing Relays ( http://arxiv.org/abs/2406.11893v1 )

ライセンス: Link先を確認
Renzo Fabian, Rommel Romero, (参考訳) 本稿では,広く使用されているEMTP-ATPソフトウェアをベースとした保護リレーテスト用リアルタイムシミュレータのPC実装について報告する。 提案するシミュレータは,GNU/Linux OSとリアルタイムカーネルを用いて実装した。 シミュレーション電圧と電流に対応する波形を生成するために、PCIカードが使用された。 このカードにはデジタルI/Oインタフェースも含まれている。 標準Cでプログラムされた外部モデルにより、ATPは、各シミュレーション時間ステップで波形生成とデジタルI/Oを含むように再コンパイルされた。 さらに、Sampred ValuesとGOOSEプロトコルを使用するために、IEC-61850オープンソースライブラリが使用された。 このツールはリアルタイムのシミュレーターで、HiLテストによって保護リレーと対話できる。 シミュレータの性能は、実際のリレーとの相互作用を通して分析された。

This paper reports the PC implementation of a real-time simulator for testing protective relays, based on the widely used EMTP-ATP software. The proposed simulator was implemented using the GNU/Linux OS with a real-time kernel. In order to generate the waveforms corresponding to simulated voltages and currents, a PCI card was used. This card also includes digital I/O interface. Via foreign models programmed in standard C, ATP was recompiled to include waveform generation at each simulation time step and digital I/O. Additionally, an IEC-61850 open source library was used, in order to use Sampled Values and GOOSE protocols. The resulting tool is a real-time simulator that can interact with protective relays by means of HiL tests. The performance of the simulator was analyzed via an interaction with an actual relay.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# チーズにおける移動ブリリアンスのユーザ知覚の予測

Predicting User Perception of Move Brilliance in Chess ( http://arxiv.org/abs/2406.11895v1 )

ライセンス: Link先を確認
Kamron Zaidi, Michael Guerzhoy, (参考訳) チェスにおけるAI研究は主に、勝利の確率を最大化できる強力なエージェントを作り出すことに焦点を当てている。 しかし、チェスには別の側面があり、ほとんど検討されていない。 具体的には、「ブリリアント」の動きと呼ばれるチェスの動きのカテゴリが存在する。これらの動きは、高い知的な美学のためにプレイヤーによって評価され、賞賛されている。我々は、チェスの動きを分類する最初のシステムを示す。このシステムは、チェスエンジンの出力とゲームツリーの形状を記述する機能を用いて、ニューラルネットワークを使用する。システムは、精度が79%(ベースレート50%)、PVが83%、NPVが75%である。我々は、人間が「ブリリアント」として知覚する動きは、単に「ブリリアント」と呼ばれる動きが最善ではないことを実証する。 より弱いエンジンが低品質(より強力なエンジンによる同等の格付けの場合)を考えると、この動きは、すべて同じである、輝かしいと予測される傾向が示されます。 我々のシステムは、コンピュータチェスエンジンが人間のような輝きを見せる(現れる)ための道を開く。

AI research in chess has been primarily focused on producing stronger agents that can maximize the probability of winning. However, there is another aspect to chess that has largely gone unexamined: its aesthetic appeal. Specifically, there exists a category of chess moves called ``brilliant" moves. These moves are appreciated and admired by players for their high intellectual aesthetics. We demonstrate the first system for classifying chess moves as brilliant. The system uses a neural network, using the output of a chess engine as well as features that describe the shape of the game tree. The system achieves an accuracy of 79% (with 50% base-rate), a PPV of 83%, and an NPV of 75%. We demonstrate that what humans perceive as ``brilliant" moves is not merely the best possible move. We show that a move is more likely to be predicted as brilliant, all things being equal, if a weaker engine considers it lower-quality (for the same rating by a stronger engine). Our system opens the avenues for computer chess engines to (appear to) display human-like brilliance, and, hence, creativity.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# DigiRL: 自律強化学習によるWildデバイス制御エージェントのトレーニング

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning ( http://arxiv.org/abs/2406.11896v1 )

ライセンス: Link先を確認
Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar, (参考訳) ビジョン言語モデル(VLM)のトレーニングコーパスは、一般的に十分な量の意思決定中心のデータを欠いている。 これは、グラフィカルユーザインタフェース(GUI)を介して、Wildデバイス制御のような意思決定タスクに対して、既製のVLMのサブ最適化をレンダリングする。 静的な実演によるトレーニングはいくつかの可能性を示しているが、静的な観測データでは捉えられない実世界の確率性や非定常性に対処できないため、実際のGUIを制御できないことを示す。 本稿では、DigiRLと呼ばれる新しい自律型RLアプローチを導入し、トレーニング済みのVLMを2段階、オフラインで初期化し、続いてオフラインからオフラインのRLで微調整することで、Wildデバイス制御エージェントを訓練する。 これを実現するために,VLMベースの評価器を備えたスケーラブルで並列化可能なAndroid学習環境を構築し,この領域で学習する上で,シンプルで効果的なRLアプローチを開発した。 提案手法は,確率性を考慮した利点推定器と,最大学習信号の導出のための自動カリキュラムを併用して,優位重み付きRLを実行する。 我々はAndroid-in-the-Wild(AitW)データセットを使用してDigiRLの有効性を実証する。このデータセットでは、静的な人間のデモデータによる教師付き微調整よりも、RLでトレーニングされた1.3B VLMが、絶対的な改善(17.7から67.2%の成功率)を49.5%達成している。 これらの結果は、GPT-4VのAppAgent(8.3%の成功率)や、AITWのデータで訓練された17B CogAgent(38.5%)、フィルターされた行動クローニング(57.8%)に基づく事前の自律的RLアプローチ(57.8%)など、従来のベストエージェントをはるかに上回っている。

Training corpuses for vision language models (VLMs) typically lack sufficient amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal for decision-making tasks such as in-the-wild device control through graphical user interfaces (GUIs). While training with static demonstrations has shown some promise, we show that such methods fall short for controlling real GUIs due to their failure to deal with real-world stochasticity and non-stationarity not captured in static observational data. This paper introduces a novel autonomous RL approach, called DigiRL, for training in-the-wild device control agents through fine-tuning a pre-trained VLM in two stages: offline RL to initialize the model, followed by offline-to-online RL. To do this, we build a scalable and parallelizable Android learning environment equipped with a VLM-based evaluator and develop a simple yet effective RL approach for learning in this domain. Our approach runs advantage-weighted RL with advantage estimators enhanced to account for stochasticity along with an automatic curriculum for deriving maximal learning signal. We demonstrate the effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our 1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to 67.2% success rate -- over supervised fine-tuning with static human demonstration data. These results significantly surpass not only the prior best agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent trained with AitW data (38.5%), but also the prior best autonomous RL approach based on filtered behavior cloning (57.8%), thereby establishing a new state-of-the-art for digital agents for in-the-wild device control.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# 最大カットのためのベンチマーク:組合せ最適化のための学習的ヒューリスティック評価の標準化に向けて

A Benchmark for Maximum Cut: Towards Standardization of the Evaluation of Learned Heuristics for Combinatorial Optimization ( http://arxiv.org/abs/2406.11897v1 )

ライセンス: Link先を確認
Ankur Nath, Alan Kuhnle, (参考訳) 近年,グラフニューラルネットワーク(GNN)を組み込んで分布固有の解構造を学習することで,グラフに基づく組合せ最適化問題に対する一般ヒューリスティックスの設計が盛んに行われているが,基本点と選択されたインスタンスの観点からは,これらのヒューリスティックスの評価に一貫性が欠如しているため,アルゴリズムの相対的な性能を評価することは困難である。 本稿では,NP-hard Maximum Cut問題に特化したオープンソースのベンチマークスイートMaxCut-Benchを提案する。 このスイートは、伝統的および機械学習ベースのさまざまなヒューリスティックに統一されたインターフェースを提供する。 次に,S2V-DQN [31] や ECO-DQN [4] など,ポピュラーな学習ベースアプローチの成果を,客観的な価値,一般化,拡張性の3次元の観点から体系的に相関付け,再現する試みとして,このベンチマークを用いた。 実験の結果,学習したヒューリスティックのいくつかは,単純な局所探索に基づく一般ヒューリスティックであるタブサーチを一貫して上回っている。 さらに,GNN が Tabu Search に関連する特徴のサブセット上の単純な線形回帰に置き換えられた場合,ECO-DQN の性能が変わらず改善されることが判明した。 コード、データ、事前訓練されたモデルは、以下の通りである。

Recently, there has been much work on the design of general heuristics for graph-based, combinatorial optimization problems via the incorporation of Graph Neural Networks (GNNs) to learn distribution-specific solution structures.However, there is a lack of consistency in the evaluation of these heuristics, in terms of the baselines and instances chosen, which makes it difficult to assess the relative performance of the algorithms. In this paper, we propose an open-source benchmark suite MaxCut-Bench dedicated to the NP-hard Maximum Cut problem in both its weighted and unweighted variants, based on a careful selection of instances curated from diverse graph datasets. The suite offers a unified interface to various heuristics, both traditional and machine learning-based. Next, we use the benchmark in an attempt to systematically corroborate or reproduce the results of several, popular learning-based approaches, including S2V-DQN [31], ECO-DQN [4], among others, in terms of three dimensions: objective value, generalization, and scalability. Our empirical results show that several of the learned heuristics fail to outperform a naive greedy algorithm, and that only one of them consistently outperforms Tabu Search, a simple, general heuristic based upon local search. Furthermore, we find that the performance of ECO-DQN remains the same or is improved if the GNN is replaced by a simple linear regression on a subset of the features that are related to Tabu Search. Code, data, and pretrained models are available at: \url{https://github.com/ankurnath/MaxCut-Bench}.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# インダクティブ知識グラフ補完のためのベンチマークデータセットの改善に向けて

Towards Better Benchmark Datasets for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2406.11898v1 )

ライセンス: Link先を確認
Harry Shomer, Jay Revolinsky, Jiliang Tang, (参考訳) 知識グラフ補完(KGC)は、知識グラフ(KG)における行方不明な事実を予測しようとする。 最近では、推論で見られるエンティティや関係の一部または全部が、トレーニング中に観察されないような、直接帰納的設定で排他的なKGCメソッドの設計に焦点が当てられている。 インダクティブKGCには多数のベンチマークデータセットが提案されており、これらはすべて、トランスダクティブKGCに使用される既存のKGのサブセットである。 しかし, インダクティブなKGCデータセットを構築するための現在の手順は, 関係情報を無視しながらも利用可能なショートカットを不注意に生成していることがわかった。 具体的には、PPR(Personalized PageRank)スコアが、ほとんどのインダクティブデータセットにおいて、SOTAの性能を強く、あるいは近く達成できることを観察する。 本稿では,この問題の根本原因について考察する。 これらの知見を用いて,PPRショートカットを緩和する帰納的KGCデータセット構築のための代替戦略を提案する。 次に、新たに構築されたデータセットを用いて、複数の一般的なメソッドをベンチマークし、そのパフォーマンスを分析する。 新しいベンチマークデータセットは、パフォーマンスを損なうショートカットを取り除くことによって、インダクティブKGCの能力と課題をよりよく理解する上で役立ちます。

Knowledge Graph Completion (KGC) attempts to predict missing facts in a Knowledge Graph (KG). Recently, there's been an increased focus on designing KGC methods that can excel in the {\it inductive setting}, where a portion or all of the entities and relations seen in inference are unobserved during training. Numerous benchmark datasets have been proposed for inductive KGC, all of which are subsets of existing KGs used for transductive KGC. However, we find that the current procedure for constructing inductive KGC datasets inadvertently creates a shortcut that can be exploited even while disregarding the relational information. Specifically, we observe that the Personalized PageRank (PPR) score can achieve strong or near SOTA performance on most inductive datasets. In this paper, we study the root cause of this problem. Using these insights, we propose an alternative strategy for constructing inductive KGC datasets that helps mitigate the PPR shortcut. We then benchmark multiple popular methods using the newly constructed datasets and analyze their performance. The new benchmark datasets help promote a better understanding of the capabilities and challenges of inductive KGC by removing any shortcuts that obfuscate performance.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-14
# ED-sKWS:迅速かつエネルギー効率の良いキーワードスポッティングのための早期決定スパイクニューラルネットワーク

ED-sKWS: Early-Decision Spiking Neural Networks for Rapid,and Energy-Efficient Keyword Spotting ( http://arxiv.org/abs/2406.12726v1 )

ライセンス: Link先を確認
Zeyang Song, Qianhui Liu, Qu Yang, Yizhou Peng, Haizhou Li, (参考訳) キーワードスポッティング(KWS)は、高速でエネルギー効率の良い応答を必要とするエッジコンピューティングにおいて不可欠である。 スパイキングニューラルネットワーク(SNN)は、KWSの効率性と発話の時間的能力に適している。 そこで本研究では,SNNに基づくKWSモデルであるED-sKWSを導入する。 さらに,中間段階と最終段階の両方で予測精度を向上させるための累積時間損失(CT)を導入する。 早期判定性能を評価するため,開始時刻と終了時刻のアノテーションを付加した100の音声コマンドを含むSC-100データセットを提案する。 Google Speech Commands v2とSC-100データセットの実験では、ED-sKWSは早期判定機構のないSNNモデルと比較して61%のタイムステップと52%のエネルギー消費で競合精度を維持し、迅速な応答とエネルギー効率を保証している。

Keyword Spotting (KWS) is essential in edge computing requiring rapid and energy-efficient responses. Spiking Neural Networks (SNNs) are well-suited for KWS for their efficiency and temporal capacity for speech. To further reduce the latency and energy consumption, this study introduces ED-sKWS, an SNN-based KWS model with an early-decision mechanism that can stop speech processing and output the result before the end of speech utterance. Furthermore, we introduce a Cumulative Temporal (CT) loss that can enhance prediction accuracy at both the intermediate and final timesteps. To evaluate early-decision performance, we present the SC-100 dataset including 100 speech commands with beginning and end timestamp annotation. Experiments on the Google Speech Commands v2 and our SC-100 datasets show that ED-sKWS maintains competitive accuracy with 61% timesteps and 52% energy consumption compared to SNN models without early-decision mechanism, ensuring rapid response and energy efficiency.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-14
# 話者認識システムのバージョン制御

Version Control of Speaker Recognition Systems ( http://arxiv.org/abs/2007.12069v8 )

ライセンス: Link先を確認
Quan Wang, Ignacio Lopez Moreno, (参考訳) 本稿では,話者認識システムにおける最も困難な実践的工学的問題の1つとして,モデルとユーザプロファイルのバージョン管理について論じる。 典型的な話者認識システムは、ユーザが提供する登録音声からプロファイルを生成する登録ステージと、格納されたプロファイルに対してランタイムオーディオの音声アイデンティティを比較するランタイムステージの2段階からなる。 技術が進歩するにつれて、より良い性能を得るために話者認識システムが更新される必要がある。 しかし、保存されたユーザープロファイルがそれに従って更新されない場合、バージョンミスマッチは意味のない認識結果をもたらす。 本稿では,Googleにおいて長年の工学的実践から慎重に研究されてきた話者認識システムのバージョン管理戦略について述べる。 これらの戦略は、デバイス側デプロイメント、サーバ側デプロイメント、ハイブリッドデプロイメントという3つのグループに分類される。 様々なネットワーク構成下で異なる戦略と定量的なメトリクスを比較するために,話者認識システムの異なるサーバ側展開戦略のための,容易に拡張可能なPythonベースのシミュレーションフレームワークであるSpeakerVerSimを提案する。

This paper discusses one of the most challenging practical engineering problems in speaker recognition systems - the version control of models and user profiles. A typical speaker recognition system consists of two stages: the enrollment stage, where a profile is generated from user-provided enrollment audio; and the runtime stage, where the voice identity of the runtime audio is compared against the stored profiles. As technology advances, the speaker recognition system needs to be updated for better performance. However, if the stored user profiles are not updated accordingly, version mismatch will result in meaningless recognition results. In this paper, we describe different version control strategies for speaker recognition systems that had been carefully studied at Google from years of engineering practice. These strategies are categorized into three groups according to how they are deployed in the production environment: device-side deployment, server-side deployment, and hybrid deployment. To compare different strategies with quantitative metrics under various network configurations, we present SpeakerVerSim, an easily-extensible Python-based simulation framework for different server-side deployment strategies of speaker recognition systems.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-14
# 隠れ層化と多群学習のための単純・近最適アルゴリズム

Simple and near-optimal algorithms for hidden stratification and multi-group learning ( http://arxiv.org/abs/2112.12181v2 )

ライセンス: Link先を確認
Christopher Tosh, Daniel Hsu, (参考訳) マルチグループ非依存学習は、集団のサブグループ内の予測者の条件付きリスクに関連する形式的な学習基準である。 この基準は、サブグループフェアネスや隠れ層化といった最近の実践的な懸念に対処している。 本稿では,多群学習問題に対する解の構造を考察し,学習問題に対する単純で近似的なアルゴリズムを提案する。

Multi-group agnostic learning is a formal learning criterion that is concerned with the conditional risks of predictors within subgroups of a population. The criterion addresses recent practical concerns such as subgroup fairness and hidden stratification. This paper studies the structure of solutions to the multi-group learning problem, and provides simple and near-optimal algorithms for the learning problem.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-14
# PointSCNet:空間充填曲線サンプリングに基づく点雲構造と相関学習

PointSCNet: Point Cloud Structure and Correlation Learning Based on Space Filling Curve-Guided Sampling ( http://arxiv.org/abs/2202.10251v2 )

ライセンス: Link先を確認
Xingye Chen, Yiqi Wu, Wenjie Xu, Jin Li, Huaiyi Dong, Yilin Chen, (参考訳) 幾何学的構造と対称性、正則配列、ジャンクションなどの内部局所領域関係は、3次元形状を理解するために不可欠である。 本稿では,点雲の幾何構造情報と局所領域相関情報を取得するために,ポイントSCNetと呼ばれる点雲特徴抽出ネットワークを提案する。 PointSCNetは、空間充填曲線誘導サンプリングモジュール、情報融合モジュール、チャネル空間注意モジュールの3つの主要なモジュールで構成されている。 空間充填曲線誘導サンプリングモジュールは、幾何相関を含むサンプル点にZ次曲線符号化を用いる。 情報融合モジュールは、相関テンソルと一連のスキップ接続を用いて構造と相関情報を融合する。 チャネル空間アテンションモジュールは、キーポイントと重要な特徴チャネルの表現を強化し、ネットワークを洗練させる。 提案するPointSCNetは形状分類と部分分割タスクに基づいて評価する。 実験の結果,PointSCNetは点雲の構造と相関を効果的に学習し,最先端の手法と同等あるいは同等であることがわかった。

Geometrical structures and the internal local region relationship, such as symmetry, regular array, junction, etc., are essential for understanding a 3D shape. This paper proposes a point cloud feature extraction network named PointSCNet, to capture the geometrical structure information and local region correlation information of a point cloud. The PointSCNet consists of three main modules: the space-filling curve-guided sampling module, the information fusion module, and the channel-spatial attention module. The space-filling curve-guided sampling module uses Z-order curve coding to sample points that contain geometrical correlation. The information fusion module uses a correlation tensor and a set of skip connections to fuse the structure and correlation information. The channel-spatial attention module enhances the representation of key points and crucial feature channels to refine the network. The proposed PointSCNet is evaluated on shape classification and part segmentation tasks. The experimental results demonstrate that the PointSCNet outperforms or is on par with state-of-the-art methods by learning the structure and correlation of point clouds effectively.
翻訳日:2024-06-19 13:36:52 公開日:2024-06-14
# SE(3)-等価な動脈壁の血行動態推定のためのメッシュニューラルネットワーク

Mesh Neural Networks for SE(3)-Equivariant Hemodynamics Estimation on the Artery Wall ( http://arxiv.org/abs/2212.05023v2 )

ライセンス: Link先を確認
Julian Suk, Pim de Haan, Phillip Lippe, Christoph Brune, Jelmer M. Wolterink, (参考訳) 計算流体力学(CFD)は、患者固有の心血管疾患の診断と予後に有用であるが、その高い計算要求は実際は導入を妨げている。 個々の患者の血流を推定する機械学習手法は、これらの制限を克服するためにCFDシミュレーションを加速または置き換える可能性がある。 本研究では,三次元幾何学的動脈モデルの壁面におけるベクトル値量の推定について検討する。 グループ同変グラフ畳み込みを、三角形のメッシュ上で直接動作し、トレーニングデータを効率的に活用するエンドツーエンドSE(3)同変ニューラルネットワークに適用する。 冠状動脈の大規模データセットを用いて実験を行い, 壁面せん断応力(WSS)を7.6%の近似誤差で推定し, 平均絶対誤差(NMAE)は0.4%, CFDより2桁高速であることを確認した。 さらに, 本手法は, 種々の流入境界条件を条件に, 心臓循環の過渡的, ベクトル値のWSSを正確に予測できるほど強力であることを示す。 これらの結果は,血行動態ベクトルとスカラー場の個人化予測において,CFDのプラグイン代替として提案手法の可能性を示している。

Computational fluid dynamics (CFD) is a valuable asset for patient-specific cardiovascular-disease diagnosis and prognosis, but its high computational demands hamper its adoption in practice. Machine-learning methods that estimate blood flow in individual patients could accelerate or replace CFD simulation to overcome these limitations. In this work, we consider the estimation of vector-valued quantities on the wall of three-dimensional geometric artery models. We employ group equivariant graph convolution in an end-to-end SE(3)-equivariant neural network that operates directly on triangular surface meshes and makes efficient use of training data. We run experiments on a large dataset of synthetic coronary arteries and find that our method estimates directional wall shear stress (WSS) with an approximation error of 7.6% and normalised mean absolute error (NMAE) of 0.4% while up to two orders of magnitude faster than CFD. Furthermore, we show that our method is powerful enough to accurately predict transient, vector-valued WSS over the cardiac cycle while conditioned on a range of different inflow boundary conditions. These results demonstrate the potential of our proposed method as a plugin replacement for CFD in the personalised prediction of hemodynamic vector and scalar fields.
翻訳日:2024-06-19 13:20:03 公開日:2024-06-14
# $\text{H}^2\text{TNE}$: 双曲空間に埋め込まれた時間的不均一情報ネットワーク

$\text{H}^2\text{TNE}$: Temporal Heterogeneous Information Network Embedding in Hyperbolic Spaces ( http://arxiv.org/abs/2304.06970v3 )

ライセンス: Link先を確認
Qijie Bai, Jiawen Guo, Haiwei Zhang, Changli Nie, Lin Zhang, Xiaojie Yuan, (参考訳) 低次元空間に異なるタイムスタンプの様々な種類のノードを表現し、構造的および意味的な情報を保存することを目的とした時間的異種情報ネットワーク(時間的HIN)の埋め込みは、多様な現実的なタスクにおいて極めて重要である。 研究者はユークリッド空間に時間的HINを埋め込むことに多大な努力を払っており、かなりの成果を上げている。 しかし、多くの実世界のネットワークが階層性やパワー・ロー分布を示しており、ユークリッド空間の等尺性ではないという根本的な矛盾は常にある。 近年、双曲空間における表現学習は階層構造とパワー・ロー構造を持つデータに対して有効であることが証明されている。 この特徴に着想を得て、時間的HINに対して(\text{H}^2\text{TNE}$)モデルを組み込んだ双曲的ヘテロジニアス時間ネットワークを提案する。 具体的には、時間的・不均質に制約されたランダムウォーク戦略を利用して、構造的・意味的な情報を捕捉し、近接測定における双曲的距離を利用して埋め込みを計算する。 実験の結果,本手法はSOTAモデルと比較して時間的リンク予測とノード分類に優れていた。

Temporal heterogeneous information network (temporal HIN) embedding, aiming to represent various types of nodes of different timestamps into low dimensional spaces while preserving structural and semantic information, is of vital importance in diverse real-life tasks. Researchers have made great efforts on temporal HIN embedding in Euclidean spaces and got some considerable achievements. However, there is always a fundamental conflict that many real-world networks show hierarchical property and power-law distribution, and are not isometric of Euclidean spaces. Recently, representation learning in hyperbolic spaces has been proved to be valid for data with hierarchical and power-law structure. Inspired by this character, we propose a hyperbolic heterogeneous temporal network embedding ($\text{H}^2\text{TNE}$) model for temporal HINs. Specifically, we leverage a temporally and heterogeneously double-constrained random walk strategy to capture the structural and semantic information, and then calculate the embedding by exploiting hyperbolic distance in proximity measurement. Experimental results show that our method has superior performance on temporal link prediction and node classification compared with SOTA models.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-14
# 多成分複合アダマールマトリクス

Multi-Unitary Complex Hadamard Matrices ( http://arxiv.org/abs/2306.00999v2 )

ライセンス: Link先を確認
Wojciech Bruzda, Grzegorz Rajchel-Mieldzioć, Karol Życzkowski, (参考訳) 実および複素アダマール行列の集合を追加の対称性制約で解析する。 特に、次数$N=d^k$の複素アダマール行列の集合にそれぞれ$d$レベルを持つ2k$サブシステムの最大絡み合わされた多部状態の存在の問題を関連付ける。 この目的のために、そのような行列の可能な部分集合、すなわち双対、強双対(H=H^{\rm R}$または$H=H^{\rm\Gamma}$)、二単位(H^R$および$H^{\Gamma}$はユニタリ)、あるいは$k$ユニタリ(英語版)($k$unitary)について調べる。 ここで、$X^{\rm R}$は二部体系を記述する行列$X$の再シャッフルを表し、$X^{\rm \Gamma}$はその部分変換を表す。 そのような行列は、量子多体理論、テンソルネットワーク、多部量子絡み合いの分類、および1+1$次元で解析的に解ける量子モデルの幅広いクラスにおいていくつかの応用を見出した。

We analyze the set of real and complex Hadamard matrices with additional symmetry constrains. In particular, we link the problem of existence of maximally entangled multipartite states of $2k$ subsystems with $d$ levels each to the set of complex Hadamard matrices of order $N=d^k$. To this end, we investigate possible subsets of such matrices which are, dual, strongly dual ($H=H^{\rm R}$ or $H=H^{\rm\Gamma}$), two-unitary ($H^R$ and $H^{\Gamma}$ are unitary), or $k$-unitary. Here $X^{\rm R}$ denotes reshuffling of a matrix $X$ describing a bipartite system, and $X^{\rm \Gamma}$ its partial transpose. Such matrices find several applications in quantum many-body theory, tensor networks and classification of multipartite quantum entanglement and imply a broad class of analytically solvable quantum models in $1+1$ dimensions.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-14
# 動的知識ネットワークとマルチモーダルデータ融合を用いたオンライン健康プラットフォームにおけるコンサルテーション成功予測

Predicting Consultation Success in Online Health Platforms Using Dynamic Knowledge Networks and Multimodal Data Fusion ( http://arxiv.org/abs/2306.03833v4 )

ライセンス: Link先を確認
Shuang Geng, Wenli Zhang, Jiaheng Xie, Gemin Liang, Ben Niu, Sudha Ram, (参考訳) バーチャルヘルスにおけるオンライン医療相談は、イノベーションと激しい競争を特徴とする新興産業である。 医療相談の成功の正確なタイムリーな予測は、オンラインプラットフォームが患者の懸念に積極的に対処し、保持率を向上させるのに役立つ。 しかし, 患者全体の医療ジャーニーにおける仮想相談の役割の一部と, オンラインと対人医療ITシステムとの切り離しにより, オンライン相談の成功を予測することは困難である。 オンライン相談における患者データは、しばしばスパースで不完全であり、重要な技術的課題と研究のギャップを提示する。 これらの課題に対処するために,オンライン医療相談の予測力を高める動的知識ネットワークとマルチモーダルデータフュージョン(DyKoNeM)フレームワークを提案する。 我々の研究は、特定の詳細なオンラインコミュニケーションプロセスがITデータベースに格納されている新しいビジネスモデルに重要な意味を持ち、同時に、ステークホルダーのデジタルトレースによって形成されたネットワークに予測力を持つ潜伏情報が埋め込まれている。 仮想またはハイブリッドモデル(例えば、オンラインおよびオフラインサービスの統合)が主流のトレンドとして現れている、さまざまな産業やドメインに拡張することができる。

Online healthcare consultation in virtual health is an emerging industry marked by innovation and fierce competition. Accurate and timely prediction of healthcare consultation success can proactively help online platforms address patient concerns and improve retention rates. However, predicting online consultation success is challenging due to the partial role of virtual consultations in patients' overall healthcare journey and the disconnect between online and in-person healthcare IT systems. Patient data in online consultations is often sparse and incomplete, presenting significant technical challenges and a research gap. To address these issues, we propose the Dynamic Knowledge Network and Multimodal Data Fusion (DyKoNeM) framework, which enhances the predictive power of online healthcare consultations. Our work has important implications for new business models where specific and detailed online communication processes are stored in the IT database, and at the same time, latent information with predictive power is embedded in the network formed by stakeholders' digital traces. It can be extended to diverse industries and domains, where the virtual or hybrid model (e.g., integration of online and offline services) is emerging as a prevailing trend.
翻訳日:2024-06-19 13:00:14 公開日:2024-06-14
# 超伝導量子ビット上のマルチ時間量子プロセストモグラフィ

Multi-time quantum process tomography on a superconducting qubit ( http://arxiv.org/abs/2308.00750v2 )

ライセンス: Link先を確認
Christina Giarmatzi, Tyler Jones, Alexei Gilchrist, Prasanna Pakkiam, Arkady Fedorov, Fabio Costa, (参考訳) 現在の量子技術は有用になりつつありますが、ノイズのような恐ろしい障害に直面しています。 ノイズは量子デバイスをスケールする能力を大幅に制限し、従来のデバイスよりも有利になる。 ノイズの源を理解するためには、多くの時間ステップで発生する量子過程を完全に特徴づける必要がある。 これまでの努力はそのような特性化を試みたが、そのようなマルチタイムプロセスの限定的な再構築しか得られなかった。 本研究では、社内およびクラウドベースの量子プロセッサを用いて、超伝導ハードウェア上でのマルチタイム量子プロセスを完全に特徴付ける。 これを後処理と組み合わせたシーケンシャルな測度・前処理によって実現します。 マルチタイムプロセスに最近開発されたフォーマリズムを用いて、一般的なマルチタイム相関ノイズを検出する。 また、量子相関ノイズを検出し、チップ上の物理的に近接する量子ビットなど、ノイズの一部は量子源に由来することを示す。 我々の発見と技術は、現在の量子ハードウェアにおけるエラー軽減技術、すなわち、その技術をスケールアップし、その真の可能性を達成するために必要なコンポーネントを進歩させることが期待されている。

Current quantum technologies are at the cusp of becoming useful, but still face formidable obstacles such as noise. Noise severely limits the ability to scale quantum devices to the point that they would offer an advantage over classical devices. To understand the sources of noise it is necessary to fully characterise the quantum processes occurring across many time steps; only this would reveal any time-correlated noise called non-Markovian. Previous efforts have attempted such a characterisation but obtained only a limited reconstruction of such multi-time processes. In this work, we fully characterise a multi-time quantum process on superconducting hardware using in-house and cloud-based quantum processors. We achieve this by employing sequential measure-and-prepare operations combined with post-processing. Employing a recently developed formalism for multi-time processes, we detect general multi-time correlated noise. We also detect quantum correlated noise which demonstrates that part of the noise originates from quantum sources, such as physically nearby qubits on the chip. Our findings and techniques are expected to advance error-mitigation techniques in current quantum hardware, a necessary component to scale up the technology and achieve its true potential.
翻訳日:2024-06-19 12:50:30 公開日:2024-06-14
# 教師なしフェデレーション学習の理論に向けて:フェデレーションEMアルゴリズムの非漸近解析

Towards the Theory of Unsupervised Federated Learning: Non-asymptotic Analysis of Federated EM Algorithms ( http://arxiv.org/abs/2310.15330v3 )

ライセンス: Link先を確認
Ye Tian, Haolei Weng, Yang Feng, (参考訳) 教師なし連合学習アプローチは大きな成功を収めてきたが、教師なし連合学習の領域はいまだに未発見のままである。 いくつかの連合EMアルゴリズムが実際に人気を博しているが、理論上の基礎はしばしば欠落している。 本稿では,まず,混合モデルの教師なし学習を目的としたFedGrEMアルゴリズムを提案する。 一般混合モデルに対する包括的有限サンプル理論を提案し、この一般理論を特定の統計モデルに適用し、モデルパラメータと混合比率の明示的な推定誤差を特徴づける。 我々の理論は、FedGrEMが、既存のフェデレーションEMアルゴリズムに拡張された洞察で、ローカルなシングルタスク学習をいつ、どのように改善するかを解明する。 このことは、実践的な成功と理論的理解のギャップを埋めるものである。 提案手法を検証し,FedGrEMが既存の教師なしフェデレート学習ベンチマークよりも優れていることを示す。

While supervised federated learning approaches have enjoyed significant success, the domain of unsupervised federated learning remains relatively underexplored. Several federated EM algorithms have gained popularity in practice, however, their theoretical foundations are often lacking. In this paper, we first introduce a federated gradient EM algorithm (FedGrEM) designed for the unsupervised learning of mixture models, which supplements the existing federated EM algorithms by considering task heterogeneity and potential adversarial attacks. We present a comprehensive finite-sample theory that holds for general mixture models, then apply this general theory on specific statistical models to characterize the explicit estimation error of model parameters and mixture proportions. Our theory elucidates when and how FedGrEM outperforms local single-task learning with insights extending to existing federated EM algorithms. This bridges the gap between their practical success and theoretical understanding. Our numerical results validate our theory, and demonstrate FedGrEM's superiority over existing unsupervised federated learning benchmarks.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-14
# 汎用多対象追跡のためのシームズDETR

Siamese-DETR for Generic Multi-Object Tracking ( http://arxiv.org/abs/2310.17875v2 )

ライセンス: Link先を確認
Qiankun Liu, Yichen Li, Yuqi Jiang, Ying Fu, (参考訳) 異なるシーンにおける動的な物体を検出し、追跡する能力は、例えば自律運転やロボットナビゲーションといった現実世界の応用に不可欠である。 しかし、従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。 近年,Open-Vocabulary MOT (OVMOT) とGeneric MOT (GMOT) が提案されている。 しかし、OVMOTモデルのトレーニングには、高価で事前訓練された(ビジョン-)言語モデルと詳細なカテゴリアノテーションが必要である。 本稿では,GMOTに焦点をあて,シンプルな手法であるSiamese-DETRを提案する。 トレーニングには一般的に使用される検出データセット(例えばCOCO)のみが必要である。 既存のGMOT法とは違って、Single Object Tracking(SOT)ベースの検出器を訓練し、興味のあるオブジェクトを検出し、データアソシエーションベースのMOTトラッカーを適用してトラジェクトリを得る。 具体的には 1) マルチスケールオブジェクトクエリはテンプレート画像に基づいて設計され, テンプレート画像と同じカテゴリのオブジェクトの異なるスケールを検出するのに有効である。 2) 提供するアノテーションを最大限に活用した,一般的に使用されている検出データセット上で,Siamese-DETRをトレーニングするための動的マッチングトレーニング戦略を導入する。 3) オンライントラッキングパイプラインは,前フレームのトラッキングボックスを追加のクエリボックスとして組み込むことで,トラッキング・バイ・クエリにより単純化される。 複雑なデータアソシエーションは、はるかに単純なNMS(Non-Maximum Suppression)に置き換えられる。 Siamese-DETRはGMOT-40データセット上の既存のMOT法を大きなマージンで上回っている。

The ability to detect and track the dynamic objects in different scenes is fundamental to real-world applications, e.g., autonomous driving and robot navigation. However, traditional Multi-Object Tracking (MOT) is limited to tracking objects belonging to the pre-defined closed-set categories. Recently, Open-Vocabulary MOT (OVMOT) and Generic MOT (GMOT) are proposed to track interested objects beyond pre-defined categories with the given text prompt and template image. However, the expensive well pre-trained (vision-)language model and fine-grained category annotations are required to train OVMOT models. In this paper, we focus on GMOT and propose a simple but effective method, Siamese-DETR, for GMOT. Only the commonly used detection datasets (e.g., COCO) are required for training. Different from existing GMOT methods, which train a Single Object Tracking (SOT) based detector to detect interested objects and then apply a data association based MOT tracker to get the trajectories, we leverage the inherent object queries in DETR variants. Specifically: 1) The multi-scale object queries are designed based on the given template image, which are effective for detecting different scales of objects with the same category as the template image; 2) A dynamic matching training strategy is introduced to train Siamese-DETR on commonly used detection datasets, which takes full advantage of provided annotations; 3) The online tracking pipeline is simplified through a tracking-by-query manner by incorporating the tracked boxes in previous frame as additional query boxes. The complex data association is replaced with the much simpler Non-Maximum Suppression (NMS). Extensive experimental results show that Siamese-DETR surpasses existing MOT methods on GMOT-40 dataset by a large margin.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-14
# 変圧器はおそらく無線通信のための最適インコンテキスト推定器である

Transformers are Provably Optimal In-context Estimators for Wireless Communications ( http://arxiv.org/abs/2311.00226v3 )

ライセンス: Link先を確認
Vishnu Teja Kunde, Vicram Rajagopalan, Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Srinivas Shakkottai, Dileep Kalathil, Jean-Francois Chamberland, (参考訳) 事前学習されたトランスフォーマーは、コンテキスト内学習(ICL)を通じて新しいタスクに適応する能力を示し、モデル最適化を明示することなく、限られたプロンプトの集合を効率的に活用する。 受信された観測から送信されたシンボルを推定する標準的な通信問題は、コンテキスト内学習問題としてモデル化することができる: 受信された観測は、送信されたシンボルのノイズ関数であり、この関数は、統計が(未知の)潜在文脈に依存する未知のパラメータで表すことができる。 この問題は、インコンテキスト推定(ICE)と呼ばれ、広く研究された線形回帰問題よりもはるかに複雑である。 ICE問題の最適解は、基礎となる文脈の非線形関数である。 本稿では,このような問題のサブクラスに対して,単層ソフトマックスアテンショントランスフォーマー(SAT)が,上述した推定問題の最適解を大きなプロンプト長の極限で計算することを証明する。 また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。 さらに,より広いコンテキスト内推定問題を効率的に解くために,多層トランスフォーマーの有効性を実証的に示す。 大規模なシミュレーションにより, 変圧器を用いたICE問題の解法は, 標準手法よりも大幅に優れていることを示す。 さらに、いくつかのコンテキストの例と同様に、潜在コンテキストの完全な知識を持つ推定器と同じパフォーマンスを達成する。

Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modelled as an in-context learning problem: Received observations are essentially a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an (also unknown) latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context.
翻訳日:2024-06-19 12:20:53 公開日:2024-06-14
# RoboGen: 生成シミュレーションによる自動学習のための無限データ公開を目指して

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation ( http://arxiv.org/abs/2311.01455v3 )

ライセンス: Link先を確認
Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan, (参考訳) 生成型ロボットエージェントであるRoboGenは、生成型シミュレーションにより、さまざまなロボットスキルを大規模に学習する。 RoboGenは、基礎と生成モデルの最新の進歩を活用している。 これらのモデルを直接使用したり、低レベルのアクションを生成する代わりに、我々は、これらのモデルを使用して、多種多様なタスク、シーン、トレーニングの監督を自動的に生成し、人間の監督を最小限に抑えてロボットスキル学習をスケールアップする生成スキームを提唱する。 提案手法は,ロボットエージェントに自己誘導型提案-生成-学習サイクルを付与する。エージェントはまず,開発する興味深いタスクとスキルを提案し,適切な空間構成で関連するオブジェクトやアセットを投入することにより,対応するシミュレーション環境を生成する。 その後、提案したハイレベルタスクをサブタスクに分解し、最適な学習アプローチ(強化学習、運動計画、軌道最適化)を選択し、必要なトレーニング監督を生成し、その後、提案したスキルを取得するためのポリシーを学ぶ。 我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。 私たちの完全な生成パイプラインは繰り返しクエリすることができ、さまざまなタスクや環境に関連する、無限のスキルデモストリームを生成します。

We present RoboGen, a generative robotic agent that automatically learns diverse robotic skills at scale via generative simulation. RoboGen leverages the latest advancements in foundation and generative models. Instead of directly using or adapting these models to produce policies or low-level actions, we advocate for a generative scheme, which uses these models to automatically generate diversified tasks, scenes, and training supervisions, thereby scaling up robotic skill learning with minimal human supervision. Our approach equips a robotic agent with a self-guided propose-generate-learn cycle: the agent first proposes interesting tasks and skills to develop, and then generates corresponding simulation environments by populating pertinent objects and assets with proper spatial configurations. Afterwards, the agent decomposes the proposed high-level task into sub-tasks, selects the optimal learning approach (reinforcement learning, motion planning, or trajectory optimization), generates required training supervision, and then learns policies to acquire the proposed skill. Our work attempts to extract the extensive and versatile knowledge embedded in large-scale models and transfer them to the field of robotics. Our fully generative pipeline can be queried repeatedly, producing an endless stream of skill demonstrations associated with diverse tasks and environments.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-14
# 摂動例は言語モデルで共有される不変性を明らかにする

Perturbed examples reveal invariances shared by language models ( http://arxiv.org/abs/2311.04166v2 )

ライセンス: Link先を確認
Ruchit Rawal, Mariya Toneva, (参考訳) 自然言語処理(NLP)の研究が急速に成長し、新しいモデルが多数登場し、それらが確立したモデルと比較する際の理解がより深まった。 この難しさの大きな理由は、ベンチマークの飽和である。 本研究では,2つのNLPモデルを比較するための新しいフレームワークを提案する。 このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変更(例えば、蒸留、サイズの増加)が言語機能にどのように影響するかについての洞察を提供する。 さらに,本フレームワークは,商用ブラックボックスモデル(例えば,インストラクションGPTファミリー)と,よりよく理解されたモデル(例えば,GPT-2)との不変性の評価を可能にする。 実験全体を通して、大きな言語モデルは様々なサイズのモデルによって符号化された多くの不変性を共有するのに対し、大きなモデルによる不変性は他の大きなモデルによってのみ共有される。 多様な不変性を評価することは、近年の大規模言語モデルの成功の鍵であり、我々のフレームワークは、新しいモデルに保持または出現する不変性の種類に光を当てることができる。 コードを公開しています。

The rapid growth in natural language processing (NLP) research has led to numerous new models, outpacing our understanding of how they compare to established ones. One major reason for this difficulty is saturating benchmarks, which may not well reflect differences in model performance in the wild. In this work, we introduce a novel framework to compare two NLP models by revealing their shared invariance to interpretable input perturbations targeting a specific linguistic capability. Via experiments on models from the same and different architecture families, this framework offers insights about how changes in models (e.g., distillation, size increase) affect linguistic capabilities. Furthermore, our framework enables evaluation of invariances between commercial black-box models (e.g., InstructGPT family) and models that are better understood (e.g., GPT-2). Across experiments, we observe that large language models share many invariances encoded by models of various sizes, whereas the invariances by large models are only shared by other large models. Possessing a wide variety of invariances may be key to the recent successes of large language models, and our framework can shed light on the types of invariances retained or emerging in new models. We make the code publicly available.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-14
# マルチアーマッド帯域における任意のValid因果推論のための実験設計

An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits ( http://arxiv.org/abs/2311.05794v3 )

ライセンス: Link先を確認
Biyonka Liang, Iavor Bojinov, (参考訳) マネージャにとって実験は、変化の価値を厳格に定量化し、それが現状に対する統計的に重要な改善につながるかどうかを判断し、意思決定を強化するために不可欠である。 現在では、下級治療に割り当てられた顧客の比率を最小にすることで、実験のリスク・コストを低減し、結果が統計的に有意となると、管理者が実験を早期に停止させることで、実験速度を高めるという2つの課題を提起する企業が多い。 本稿では,Mixture Adaptive Design(MAD)という,MABアルゴリズムに対する平均処理効果(ATE)を任意の時間で推定できるマルチアームバンディット(MAB)アルゴリズムの実験設計を提案する。 直感的には、MABは任意のバンディットアルゴリズムをベルヌーイの設計と「混合」し、各段階において、顧客がベルヌーイの設計を介して割り当てられる確率は、ゼロに収束できるユーザ特定決定論的シーケンスによって制御される。 このシーケンスにより、マネージャは、後悔の最小化と推論精度の間のトレードオフを直接的かつ解釈的に制御できる。 列が 0 に収束する速度に関する穏やかな条件下では、漸近的に有効である信頼シーケンスを提供し、真非零ATE の存在下では MAD が有限停止時間を持つことを保証している。 したがって、MADにより、マネージャは有効な推論を確保しつつ、重要なATEが検出された時点で実験を早期に停止することができ、適応実験の効率性と信頼性を向上することができる。 実験により,MADは,標準バンディット設計に比べて報酬に大きな損失を与えることなく,精度よく精度良くATEを推定しながら有限サンプル値を達成することを示した。

Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo, thus augmenting their decision-making. Many companies now mandate that all changes undergo experimentation, presenting two challenges: (1) reducing the risk/cost of experimentation by minimizing the proportion of customers assigned to the inferior treatment and (2) increasing the experimentation velocity by enabling managers to stop experiments as soon as results are statistically significant. This paper simultaneously addresses both challenges by proposing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime valid inference on the Average Treatment Effect (ATE) for any MAB algorithm. Intuitively, the MAB "mixes" any bandit algorithm with a Bernoulli design such that at each time step, the probability that a customer is assigned via the Bernoulli design is controlled by a user-specified deterministic sequence that can converge to zero. The sequence enables managers to directly and interpretably control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime valid and demonstrate that the MAD is guaranteed to have a finite stopping time in the presence of a true non-zero ATE. Hence, the MAD allows managers to stop experiments early when a significant ATE is detected while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.
翻訳日:2024-06-19 11:31:28 公開日:2024-06-14
# ラクール! : 欧州人権裁判所聴聞における調停研究の展開

LaCour!: Enabling Research on Argumentation in Hearings of the European Court of Human Rights ( http://arxiv.org/abs/2312.05061v2 )

ライセンス: Link先を確認
Lena Held, Ivan Habernal, (参考訳) なぜ最終判決で議論が終わるのか。 口頭聴聞中に意図的だったのか、それとも疑問だったのか? 聴聞会で特定の裁判官が不当な意見を書くきっかけになったものはありますか。 欧州人権裁判所(ECHR, European Court of Human Rights, ECHR)の最終判決が発効したにもかかわらず、ECHRの多言語口頭審問は転写、構造化、あるいは話者対応のものではないため、これらの法的研究の問題は今のところ答えられていない。 この基本的なギャップは、ECHRの最初の口頭弁論コーパスであるLaCour!を英語、フランス語、その他の裁判所語で154件の完全な聴聞(267時間以上のビデオ映像から210万件のトークン)で解決し、それぞれが対応する最終判決文書にリンクしている。 ビデオから書き起こされ、部分的に修正されたテキストに加えて、文レベルのタイムスタンプと手動のアノテートロールと言語ラベルを提供する。 また、質問と意見の相違を調査する予備的な実験でLaCour!を紹介します。 法的なNLPのユースケースとは別に、法学生や他の関係者もLaCourを学習リソースとして使用して、https://huggingface.co/datasets/TrustHLT/LaCourで自由に利用できるようにしたいと考えています。

Why does an argument end up in the final court decision? Was it deliberated or questioned during the oral hearings? Was there something in the hearings that triggered a particular judge to write a dissenting opinion? Despite the availability of the final judgments of the European Court of Human Rights (ECHR), none of these legal research questions can currently be answered as the ECHR's multilingual oral hearings are not transcribed, structured, or speaker-attributed. We address this fundamental gap by presenting LaCour!, the first corpus of textual oral arguments of the ECHR, consisting of 154 full hearings (2.1 million tokens from over 267 hours of video footage) in English, French, and other court languages, each linked to the corresponding final judgment documents. In addition to the transcribed and partially manually corrected text from the video, we provide sentence-level timestamps and manually annotated role and language labels. We also showcase LaCour! in a set of preliminary experiments that explore the interplay between questions and dissenting opinions. Apart from the use cases in legal NLP, we hope that law students or other interested parties will also use LaCour! as a learning resource, as it is freely available in various formats at https://huggingface.co/datasets/TrustHLT/LaCour.
翻訳日:2024-06-19 09:12:15 公開日:2024-06-14
# Qスコアマッチングによるリワードからの拡散モデルポリシーの学習

Learning a Diffusion Model Policy from Rewards via Q-Score Matching ( http://arxiv.org/abs/2312.11752v2 )

ライセンス: Link先を確認
Michael Psenka, Alejandro Escontrela, Pieter Abbeel, Yi Ma, (参考訳) 拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。 これは、連続空間上の表現的分布のクラスを最適化する自然な能力のためである。 しかし、以前の作品では楽譜に基づく拡散モデルの構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練し、アクター批判的な設定におけるそれらの能力を制限する。 本稿では,拡散モデルポリシの構造を学習されたQ-関数にリンクする理論的枠組みを提案する。 本稿では, 外部強化学習に着目し, この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。 特に、このアルゴリズムは拡散モデル全体の評価よりもデノナイジングモデルを通してしか区別する必要がなく、Qスコアマッチングによる収束ポリシーは、連続的なドメインにおいて暗黙的に多重モーダルかつ爆発的である。 シミュレーション環境で実験を行い,提案手法の有効性を実証し,一般的なベースラインと比較した。 ソースコードはプロジェクトのWebサイト(https://scorematchingrl.com)から入手できる。

Diffusion models have become a popular choice for representing actor policies in behavior cloning and offline reinforcement learning. This is due to their natural ability to optimize an expressive class of distributions over a continuous space. However, previous works fail to exploit the score-based structure of diffusion models, and instead utilize a simple behavior cloning term to train the actor, limiting their ability in the actor-critic setting. In this paper, we present a theoretical framework linking the structure of diffusion model policies to a learned Q-function, by linking the structure between the score of the policy to the action gradient of the Q-function. We focus on off-policy reinforcement learning and propose a new policy update method from this theory, which we denote Q-score matching. Notably, this algorithm only needs to differentiate through the denoising model rather than the entire diffusion model evaluation, and converged policies through Q-score matching are implicitly multi-modal and explorative in continuous domains. We conduct experiments in simulated environments to demonstrate the viability of our proposed method and compare to popular baselines. Source code is available from the project website: https://scorematchingrl.com.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-14
# グラフニューラルネットワークの因果関係:機会、方法論、展望

When Graph Neural Network Meets Causality: Opportunities, Methodologies and An Outlook ( http://arxiv.org/abs/2312.12477v2 )

ライセンス: Link先を確認
Wenzhao Jiang, Hao Liu, Hui Xiong, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造化データ内の複雑な依存関係をキャプチャする強力な表現学習ツールとして登場した。 幅広いグラフマイニングタスクの成功にもかかわらず、GNNは、分布シフトへの感受性、特定の人口への偏見、説明可能性の欠如など、彼らの信頼性に関する深刻な懸念を提起している。 近年、因果学習技術をGNNに組み込むことで、表面的相関ではなく基礎となるデータ因果関係を捉えることで、多くのGNNの信頼性の問題が軽減されるため、多くの基礎研究が引き起こされている。 本稿では,CIGNN(Causality-Inspired GNNs)に関する最近の研究成果を概観する。 具体的には、まず、既存のGNNの主要な信頼性リスクを分析するために因果的ツールを使用し、グラフデータ内の因果的メカニズムを理解するために、GNNが必要であることを示す。 さらに,CIGNNが備える因果的学習能力,すなわち因果的推論と因果的表現学習に基づいて,CIGNNの分類を導入する。 さらに,各カテゴリの典型的な手法を体系的に導入し,信頼性リスクを軽減する方法について論じる。 最後に、この新興分野における新たな研究の機会に光を当てて、有用なリソースを要約し、今後の方向性を議論する。 代表論文は、オープンソースデータとコードとともに、https://github.com/usail-hkust/Causality-Inspired-GNNsで公開されている。

Graph Neural Networks (GNNs) have emerged as powerful representation learning tools for capturing complex dependencies within diverse graph-structured data. Despite their success in a wide range of graph mining tasks, GNNs have raised serious concerns regarding their trustworthiness, including susceptibility to distribution shift, biases towards certain populations, and lack of explainability. Recently, integrating causal learning techniques into GNNs has sparked numerous ground-breaking studies since many GNN trustworthiness issues can be alleviated by capturing the underlying data causality rather than superficial correlations. In this survey, we comprehensively review recent research efforts on Causality-Inspired GNNs (CIGNNs). Specifically, we first employ causal tools to analyze the primary trustworthiness risks of existing GNNs, underscoring the necessity for GNNs to comprehend the causal mechanisms within graph data. Moreover, we introduce a taxonomy of CIGNNs based on the type of causal learning capability they are equipped with, i.e., causal reasoning and causal representation learning. Besides, we systematically introduce typical methods within each category and discuss how they mitigate trustworthiness risks. Finally, we summarize useful resources and discuss several future directions, hoping to shed light on new research opportunities in this emerging field. The representative papers, along with open-source data and codes, are available in https://github.com/usail-hkust/Causality-Inspired-GNNs.
翻訳日:2024-06-19 07:14:24 公開日:2024-06-14
# 自己再生ファインチューニングによる弱言語モデルから強言語モデルへの変換

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models ( http://arxiv.org/abs/2401.01335v3 )

ライセンス: Link先を確認
Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu, (参考訳) Supervised Fine-Tuning (SFT) を通じて人間の注釈付きデータのパワーを損なうことは、Large Language Models (LLMs) の進展に重要である。 本稿では,人手による付加的なデータを取得することなく,弱いものから強力なLSMを成長させる可能性を探る。 教師付き微調整モデルから始まる自己再生fIne-tuNing (SPIN) と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。 より具体的には、LSMは以前のイテレーションから独自のトレーニングデータを生成し、人間の注釈付きデータから得られたものから、これらの自己生成応答を識別することでポリシーを精査する。 提案手法は,LSMを生来のモデルから強大なモデルへと段階的に上昇させ,SFTのための人手による実演データの完全な可能性を解き放つ。 理論的には,LLMポリシが目標データ分布と一致した場合のみ,本手法の訓練対象関数に対する大域的最適化が達成される。 実験により,HuggingFace Open LLM LeaderboardやMT-Bench,Big-Benchのデータセットなど,いくつかのベンチマークデータセットについて評価を行った。 以上の結果から,SPINはGPT-4の嗜好データを補足した直接選好最適化(DPO)によりトレーニングしたモデルよりも優れた性能が得られることが示唆された。 このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。 コードはhttps://github.com/uclaml/SPIN.comで入手できる。

Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents. Codes are available at https://github.com/uclaml/SPIN.
翻訳日:2024-06-19 07:04:39 公開日:2024-06-14
# HAIM-DRL:安全かつ効率的な自律運転のための強化されたループ内強化学習

HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving ( http://arxiv.org/abs/2401.03160v5 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen, (参考訳) 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。 本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop Regressed Learning(Human-in-the-loop Regressed Learning)を提案する。 人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。 このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。 エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。 一方, エージェントを誘導することで, 交通流の乱れを最小限に抑え, 交通流効率を最適化することができる。 HAIM-DRLは、自由な探査と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。 我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。 さらに、人間のメンターの認知負荷を軽減するために、最小限の介入手法を用いる。 その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。 この論文のコードとデモビデオは、https://zilin-huang.github.io/HAIM-DRL-website/でアクセスできます。

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/
翻訳日:2024-06-19 07:04:39 公開日:2024-06-14
# Medusa: 複数のデコードヘッドを備えたシンプルなLCM推論高速化フレームワーク

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads ( http://arxiv.org/abs/2401.10774v3 )

ライセンス: Link先を確認
Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao, (参考訳) 大規模言語モデル(LLM)は、逐次計算を必要とする自動回帰デコーディングを採用し、各ステップは前のステップの出力に依存する。 これにより、各ステップが完全なモデルパラメータをHigh-Bandwidth Memory (HBM)からアクセラレータのキャッシュに移行する必要があるため、ボトルネックが発生する。 投機的復号法のような手法はこの問題に対処するために提案されているが、それらの実装は独立したドラフトモデルの取得と維持に関わる課題によって妨げられている。 本稿では,複数のトークンを並列に予測するために,余分なデコードヘッドを追加することで,LCM推論を効率化するMedusaを提案する。 ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。 並列処理を活用することで、Medusaはデコードステップの数を大幅に削減する。 Medusa-1: Medusa は凍結した背骨 LLM 上に直接微調整され,無害な推論の加速を可能にする。 Medusa-2: MedusaはバックボーンLLMと共に微調整され、Medusaヘッドの予測精度が向上し、スピードアップが向上するが、バックボーンモデルの能力を保持する特別なトレーニングレシピが必要である。 また、トレーニングデータがない状況に対処する自己蒸留や、生成品質を維持しつつ受け入れ率を高める典型的な受入方式など、Medusaの有用性を向上または拡張するいくつかの拡張を提案する。 様々な大きさのモデルと訓練手順を用いてメデューサを評価する。 実験により,Medusa-1は生成品質を損なうことなく2.2倍以上の高速化が可能であり,Medusa-2は2.3~3.6倍の高速化を実現している。

Large Language Models (LLMs) employ auto-regressive decoding that requires sequential computation, with each step reliant on the previous one's output. This creates a bottleneck as each step necessitates moving the full model parameters from High-Bandwidth Memory (HBM) to the accelerator's cache. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa substantially reduces the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.
翻訳日:2024-06-19 06:54:55 公開日:2024-06-14
# RL-VLM-F:ビジョン言語基礎モデルからの強化学習

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback ( http://arxiv.org/abs/2402.03681v4 )

ライセンス: Link先を確認
Yufei Wang, Zhanyi Sun, Jesse Zhang, Zhou Xian, Erdem Biyik, David Held, Zackory Erickson, (参考訳) 強化学習(Reinforcement Learning, RL)研究では、効果的な報酬関数を設計するために、大規模な人的努力と試行錯誤の反復的なプロセスを必要とすることが多いため、リワードエンジニアリングは長年、課題となっている。 本稿では,視覚言語基礎モデル(VLM)からのフィードバックを利用して,タスク目標のテキスト記述とエージェントの視覚観察のみを用いて,エージェントが新しいタスクを学習するための報酬関数を自動的に生成する手法であるRL-VLM-Fを提案する。 提案手法の鍵となるのは,タスクゴールのテキスト記述に基づいて,エージェントのイメージ観察のペアよりも好みを与えるためにこれらのモデルをクエリし,そのモデルに生の報酬スコアを出力させるのではなく,好みラベルから報酬関数を学習することである。 我々は、RL-VLM-Fが、古典的な制御や、厳密で明瞭で変形可能な物体の操作など、様々な領域にわたる効果的な報酬とポリシーを、人間の監督を必要とせず、同じ仮定の下で、大きな事前訓練されたモデルを用いて報酬を生成する先行手法よりも優れていることを実証した。 ビデオはプロジェクトのWebサイト(https://rlvlmf2024.github.io/)で見ることができる。

Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent's visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent's image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains - including classic control, as well as manipulation of rigid, articulated, and deformable objects - without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions. Videos can be found on our project website: https://rlvlmf2024.github.io/
翻訳日:2024-06-19 06:35:20 公開日:2024-06-14
# 大規模言語モデルにおけるサンプリング温度が問題解決に及ぼす影響

The Effect of Sampling Temperature on Problem Solving in Large Language Models ( http://arxiv.org/abs/2402.05201v2 )

ライセンス: Link先を確認
Matthew Renze, Erhan Guven, (参考訳) 本研究では,大規模言語モデル(LLM)の性能に及ぼすサンプリング温度の影響を実験的に検討した。 我々は,標準LLMベンチマークからランダムに問題をサンプリングし,MCQA(Multi-choice Question-and-Awer)試験を作成した。 次に,9つの一般的なLCMと5つのプロンプトエンジニアリング技術を用いて,サンプリング温度を0.0から1.6に高めながらMCQA問題を解く。 その結果, 0.0から1.0の温度変化は, LLMの性能に統計的に有意な影響を及ぼさないことが明らかとなった。 さらに、これらの結果はLSM、プロンプトエンジニアリング技術、問題領域にまたがって一般化しているように見える。 コード、データ、補足材料はすべてGitHubで入手できる。

In this research study, we empirically investigate the effect of sampling temperature on the performance of Large Language Models (LLMs) on various problem-solving tasks. We created a multiple-choice question-and-answer (MCQA) exam by randomly sampling problems from standard LLM benchmarks. Then, we used nine popular LLMs with five prompt-engineering techniques to solve the MCQA problems while increasing the sampling temperature from 0.0 to 1.6. Despite anecdotal reports to the contrary, our empirical results indicate that changes in temperature from 0.0 to 1.0 do not have a statistically significant impact on LLM performance for problem-solving tasks. In addition, these results appear to generalize across LLMs, prompt-engineering techniques, and problem domains. All code, data, and supplemental materials are available on GitHub at: https://github.com/matthewrenze/jhu-llm-temperature
翻訳日:2024-06-19 06:25:35 公開日:2024-06-14
# 平均場レジームにおけるグラフニューラルネットワークの一般化誤差

Generalization Error of Graph Neural Networks in the Mean-field Regime ( http://arxiv.org/abs/2402.07025v2 )

ライセンス: Link先を確認
Gholamali Aminian, Yixuan He, Gesine Reinert, Łukasz Szpruch, Samuel N. Cohen, (参考訳) この研究は、パラメータの数がデータポイントの量を超える過パラメータ化状態におけるグラフニューラルネットワークの一般化誤差を評価する理論的枠組みを提供する。 グラフ畳み込みニューラルネットワークとメッセージパッシンググラフニューラルネットワークという,広く利用されている2種類のグラフニューラルネットワークについて検討する。 本研究以前には、過度パラメータ化方式における一般化誤差に関する既存の境界は非形式的であり、過度パラメータ化ネットワーク性能の理解を制限していた。 我々の新しいアプローチは、これらのグラフニューラルネットワークの一般化誤差を評価する平均場内上限を導出することである。 我々は収束率$O(1/n)$で上限を確立し、$n$はグラフサンプルの数である。 これらの上限は、挑戦的な過度パラメータ化体制における未確認データに対するネットワークの性能を理論的に保証し、その性能に対する我々の理解に貢献する。

This work provides a theoretical framework for assessing the generalization error of graph neural networks in the over-parameterized regime, where the number of parameters surpasses the quantity of data points. We explore two widely utilized types of graph neural networks: graph convolutional neural networks and message passing graph neural networks. Prior to this study, existing bounds on the generalization error in the over-parametrized regime were uninformative, limiting our understanding of over-parameterized network performance. Our novel approach involves deriving upper bounds within the mean-field regime for evaluating the generalization error of these graph neural networks. We establish upper bounds with a convergence rate of $O(1/n)$, where $n$ is the number of graph samples. These upper bounds offer a theoretical assurance of the networks' performance on unseen data in the challenging over-parameterized regime and overall contribute to our understanding of their performance.
翻訳日:2024-06-19 06:25:35 公開日:2024-06-14
# 連続結晶から離散結晶への相転移の観察

Observation of a phase transition from a continuous to a discrete time crystal ( http://arxiv.org/abs/2402.12378v2 )

ライセンス: Link先を確認
Phatthamon Kongkhambut, Jayson G. Cosme, Jim Skulte, Michelle A. Moreno Armijos, Ludwig Mathey, Andreas Hemmerich, Hans Keßler, (参考訳) 離散時間結晶(DTCs)と連続時間結晶(CTCs)は、離散的あるいは連続的な時間変換対称性の自発的な破れによって生じる、頑健な自己持続振動によって特徴づけられる新しい動的多体状態である。 DTCは外部駆動のサブハーモニックで発振する周期駆動系であり、CTCは連続的に駆動され、系固有の周波数で発振する。 ここでは、連続時間結晶から離散時間結晶への相転移について検討する。 連続励起原子空洞系において、特性発振周波数$\omega_\mathrm{CTC}$のCTCを作成する。 CTCのポンプ強度を周波数$\omega_{\mathrm{dr}}$に近づくと、$\omega_\mathrm{CTC}$が$\omega_\mathrm{CTC}$から$\omega_{\mathrm{dr}}/2$に変化するので、DTCが発生する。 量子多体系におけるこの相転移は、非線形機械および電子発振器またはレーザーのサブハーモニック・インジェクション・ロックと関連している。

Discrete (DTCs) and continuous time crystals (CTCs) are novel dynamical many-body states, that are characterized by robust self-sustained oscillations, emerging via spontaneous breaking of discrete or continuous time translation symmetry. DTCs are periodically driven systems that oscillate with a subharmonic of the external drive, while CTCs are continuously driven and oscillate with a frequency intrinsic to the system. Here, we explore a phase transition from a continuous time crystal to a discrete time crystal. A CTC with a characteristic oscillation frequency $\omega_\mathrm{CTC}$ is prepared in a continuously pumped atom-cavity system. Modulating the pump intensity of the CTC with a frequency $\omega_{\mathrm{dr}}$ close to $2\,\omega_\mathrm{CTC}$ leads to robust locking of $\omega_\mathrm{CTC}$ to $\omega_{\mathrm{dr}}/2$, and hence a DTC arises. This phase transition in a quantum many-body system is related to subharmonic injection locking of non-linear mechanical and electronic oscillators or lasers.
翻訳日:2024-06-19 06:06:06 公開日:2024-06-14
# WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力

WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? ( http://arxiv.org/abs/2403.07718v3 )

ライセンス: Link先を確認
Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji, Manuel Del Verme, Tom Marty, Léo Boisvert, Megh Thakkar, Quentin Cappart, David Vazquez, Nicolas Chapados, Alexandre Lacoste, (参考訳) 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。 この目的のために,広く使用されているServiceNowプラットフォームに基づく33タスクのリモートホスト型ベンチマークであるWorkArenaを提案する。 また,このようなエージェントの設計と評価のための環境であるBrowserGymを紹介する。 私たちの経験的評価は、現在のエージェントがWorkArenaを約束している一方で、完全なタスク自動化を達成するための大きなギャップがまだ残っていることを示している。 特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差が明らかとなり,今後の研究・開発における重要な領域が浮かび上がっている。

We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents' ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 33 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-14
# 言語モデルはオーバートレーニングと下流タスクで確実にスケールする

Language models scale reliably with over-training and on downstream tasks ( http://arxiv.org/abs/2403.08540v2 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Luca Soldaini, Alexandros G. Dimakis, Gabriel Ilharco, Pang Wei Koh, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt, (参考訳) スケール法則は、より安価で小規模な実験で大規模なモデルの性能を予測するため、高価なトレーニング実行を引き出す上で有用なガイドである。 しかしながら、現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法との間には、依然としてギャップがある。 例えば、スケーリングは通常、計算最適トレーニングレギュレーション("Chinchilla optimal"レギュレーション)で研究される。 対照的に、モデルはしばしば推論コストを減らすために過度に訓練される。 さらに、スケーリング法則は、主に次のトーケン予測における損失を予測するが、モデルは通常、下流タスクのパフォーマンスで比較される。 両方の欠点に対処するため、3つのデータ分布に様々なトークンで訓練された0.011Bから6.9Bパラメータを持つ104モデルのテストベッドを作成します。 まず、オーバートレーニングの量とモデルパラメータの数の両方を外挿するスケーリング法則に適合する。 これにより,11.4Bパラメータ,900Bトークン実行(32$\times$オーバートレーニング),6.9Bパラメータ,138Bトークン実行(計算最適化実行)の検証損失を予測することができる。 第二に、言語モデルの難易度と、その下流タスク性能を、電力法則を提案することによって関連付ける。 この法則を用いて、上記の2つのモデルに対する下流タスクで平均化されたトップ1エラーを予測し、20$\times$少ない計算を必要とする実験を使用する。 実験はhttps://github.com/mlfoundations/scaling.comで公開しています。

Scaling laws are useful guides for derisking expensive training runs, as they predict performance of large models using cheaper, small-scale experiments. However, there remain gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime). In contrast, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but models are usually compared on downstream task performance. To address both shortcomings, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we fit scaling laws that extrapolate in both the amount of over-training and the number of model parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32$\times$ over-trained) and a 6.9B parameter, 138B token run (i.e., a compute-optimal run)$\unicode{x2014}$each from experiments that take 300$\times$ less compute. Second, we relate the perplexity of a language model to its downstream task performance by proposing a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models, using experiments that take 20$\times$ less compute. Our experiments are available at https://github.com/mlfoundations/scaling.
翻訳日:2024-06-19 05:27:06 公開日:2024-06-14
# Sim2Real in Reconstructive Spectroscopy: Augmented Device-Informed Data Simulationによるディープラーニング

Sim2Real in Reconstructive Spectroscopy: Deep Learning with Augmented Device-Informed Data Simulation ( http://arxiv.org/abs/2403.12354v2 )

ライセンス: Link先を確認
Jiyi Chen, Pengyu Li, Yutong Wang, Pei-Cheng Ku, Qing Qu, (参考訳) 本研究は,効率的なデータサンプリングと高速推論時間に着目し,再構成分光におけるスペクトル信号再構成のための深層学習(DL)ベースのフレームワークであるSim2Realを提案する。 この研究は、デバイスインフォームド・シミュレートされたデータのみをトレーニングに利用できる極端な設定の下で、現実世界のスペクトル信号を再構築するという課題に焦点を当てている。 このようなデバイスインフォームド・シミュレートされたデータは、実際のデータよりもはるかに容易に収集できるが、実際のデータから大きな分散シフトを示す。 このようなシミュレーションデータを効果的に活用するために、このドメインシフトの悪影響を軽減するために階層的なデータ拡張戦略を導入し、我々の拡張データによるスペクトル信号再構成のための対応するニューラルネットワークを設計する。 我々の分光計装置から測定した実データを用いて実験したところ、Sim2Realは、最先端の最適化手法でオンパー性能を達成しつつ、推論中にかなりのスピードアップを達成することがわかった。

This work proposes a deep learning (DL)-based framework, namely Sim2Real, for spectral signal reconstruction in reconstructive spectroscopy, focusing on efficient data sampling and fast inference time. The work focuses on the challenge of reconstructing real-world spectral signals under the extreme setting where only device-informed simulated data are available for training. Such device-informed simulated data are much easier to collect than real-world data but exhibit large distribution shifts from their real-world counterparts. To leverage such simulated data effectively, a hierarchical data augmentation strategy is introduced to mitigate the adverse effects of this domain shift, and a corresponding neural network for the spectral signal reconstruction with our augmented data is designed. Experiments using a real dataset measured from our spectrometer device demonstrate that Sim2Real achieves significant speed-up during the inference while attaining on-par performance with the state-of-the-art optimization-based methods.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-14
# 強化された人間-ロボット協調のための拡張現実性:人間-ロボット間アプローチ

Extended Reality for Enhanced Human-Robot Collaboration: a Human-in-the-Loop Approach ( http://arxiv.org/abs/2403.14597v2 )

ライセンス: Link先を確認
Yehor Karpichev, Todd Charter, Jayden Hong, Amir M. Soufi Enayati, Homayoun Honari, Mehran Ghafarian Tamizi, Homayoun Najjaran, (参考訳) 自動化の台頭は、製造プロセスにおいてより高い効率を達成する機会を提供してきたが、市場のニーズに迅速に対応し、カスタマイズの需要を満たすのに必要な柔軟性を損なうことがしばしばある。 人間とロボットのコラボレーションは、機械の強さと精度と人間の創造性と知覚的理解を組み合わせることで、これらの課題に取り組みます。 本稿では,人間とロボット間の直感的なコミュニケーションとプログラミングを容易にするために,人間とループの原理を取り入れ,拡張現実性(XR)を活用する自律型機械学習ベースのマニピュレータの実装フレームワークを概念化し,提案する。 さらに、この概念はロボット学習プロセスに直接人間の関与を予測し、より高い適応性とタスクの一般化をもたらす。 本稿は,提案するフレームワークを実現する上で重要な技術を強調し,デジタルエコシステム全体を発展させることの重要性を強調した。 さらに,人間とロボットのコラボレーションにおけるXRの既存の実装手法を概観し,多様な視点と方法論を示す。 課題と今後の展望を議論し、より自然な人間とロボットの相互作用と産業の景観の統合のために、XRの大きな障害と潜在的研究の道のりを掘り下げる。

The rise of automation has provided an opportunity to achieve higher efficiency in manufacturing processes, yet it often compromises the flexibility required to promptly respond to evolving market needs and meet the demand for customization. Human-robot collaboration attempts to tackle these challenges by combining the strength and precision of machines with human ingenuity and perceptual understanding. In this paper, we conceptualize and propose an implementation framework for an autonomous, machine learning-based manipulator that incorporates human-in-the-loop principles and leverages Extended Reality (XR) to facilitate intuitive communication and programming between humans and robots. Furthermore, the conceptual framework foresees human involvement directly in the robot learning process, resulting in higher adaptability and task generalization. The paper highlights key technologies enabling the proposed framework, emphasizing the importance of developing the digital ecosystem as a whole. Additionally, we review the existent implementation approaches of XR in human-robot collaboration, showcasing diverse perspectives and methodologies. The challenges and future outlooks are discussed, delving into the major obstacles and potential research avenues of XR for more natural human-robot interaction and integration in the industrial landscape.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-14
# 零アンシラによる高速量子整数乗算

Fast quantum integer multiplication with zero ancillas ( http://arxiv.org/abs/2403.18006v3 )

ライセンス: Link先を確認
Gregory D. Kahanamoku-Meyer, Norman Y. Yao, (参考訳) 数値の重ね合わせの乗法は、多くの量子アルゴリズムのコア演算である。 乗算の標準的な方法(古典と量子の両方)は、入力のサイズが2次である。 漸近的に少ないゲートを持つ量子回路が開発されたが、一般的には大きなオーバーヘッド、特にアンシラ量子ビットの数を示す。 本研究では,0個のアンシラ量子ビットを持つ準四進時間量子乗算のための新しいパラダイムを導入する。 我々のアルゴリズムは、任意の$\epsilon > 0$に対して$\mathcal{O}(n^{1+\epsilon})$の漸近ゲート数を達成する。 Shorのアルゴリズムのサブルーチンとして使われ、我々の手法は直ちに$\mathcal{O}(n^{2+\epsilon})$ Gatesと$2n + \mathcal{O}(\log n)$ qubitsのファクタリング回路を得る。 Regevの最近のファクタリングアルゴリズムで使用されるゲートカウントは$\mathcal{O}(n^{1.5+\epsilon})$である。 最後に、我々のアルゴリズムは、古典的に検証可能な量子上の優位性のために、我々が知っている最小の回路を含む、実際に関連する問題のサイズで以前の提案を上回る可能性を実証する。

The multiplication of superpositions of numbers is a core operation in many quantum algorithms. The standard method for multiplication (both classical and quantum) has a runtime quadratic in the size of the inputs. Quantum circuits with asymptotically fewer gates have been developed, but generally exhibit large overheads, especially in the number of ancilla qubits. In this work, we introduce a new paradigm for sub-quadratic-time quantum multiplication with zero ancilla qubits -- the only qubits involved are the input and output registers themselves. Our algorithm achieves an asymptotic gate count of $\mathcal{O}(n^{1+\epsilon})$ for any $\epsilon > 0$; with practical choices of parameters, we expect scalings as low as $\mathcal{O}(n^{1.3})$. Used as a subroutine in Shor's algorithm, our technique immediately yields a factoring circuit with $\mathcal{O}(n^{2+\epsilon})$ gates and only $2n + \mathcal{O}(\log n)$ qubits; to our knowledge, this is by far the best qubit count of any factoring circuit with a sub-cubic number of gates. Used in Regev's recent factoring algorithm, the gate count is $\mathcal{O}(n^{1.5+\epsilon})$. Finally, we demonstrate that our algorithm has the potential to outperform previous proposals at problem sizes relevant in practice, including yielding the smallest circuits we know of for classically-verifiable quantum advantage.
翻訳日:2024-06-19 05:17:19 公開日:2024-06-14
# CtRL-Sim:オフライン強化学習による反応性・制御可能な運転エージェント

CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning ( http://arxiv.org/abs/2403.19918v2 )

ライセンス: Link先を確認
Luke Rowe, Roger Girgis, Anthony Gosselin, Bruno Carrez, Florian Golemo, Felix Heide, Liam Paull, Christopher Pal, (参考訳) シミュレーションにおける自律走行車スタック(AV)の評価は、通常、実世界の記録されたトラフィックからログを再生する。 しかし、オフラインデータからリプレイされたエージェントは、リアクティブではなく、直感的に制御するのが難しい。 既存のアプローチは、実世界のデータのヒューリスティックや生成モデルに依存する手法を提案することによってこれらの課題に対処するが、これらのアプローチは現実主義を欠いているか、生成された振る舞いを制御するためにコストのかかる反復的なサンプリング手順を必要とするかのいずれかである。 本研究では、リターン条件付きオフライン強化学習を利用して、リアクティブかつ制御可能なトラヒックエージェントを効率的に生成する手法であるCtRL-Simを提案する。 具体的には、物理学的なNocturneシミュレータを通して実世界の運転データを処理し、様々な報酬項を付加した多様なオフライン強化学習データセットを生成する。 このデータセットを用いて、返却条件付きマルチエージェント動作モデルをトレーニングし、様々な報酬成分に対して所望の戻り値を変更することでエージェント動作のきめ細かい操作を可能にする。 この機能は、敵の振る舞いを含む初期データセットの範囲を超えて、幅広い駆動行動を生成することができる。 我々は,CtRL-Simがエージェント動作のきめ細かい制御を提供しながら,多様かつ現実的な安全性クリティカルなシナリオを生成できることを実証した。

Evaluating autonomous vehicle stacks (AVs) in simulation typically involves replaying driving logs from real-world recorded traffic. However, agents replayed from offline data are not reactive and hard to intuitively control. Existing approaches address these challenges by proposing methods that rely on heuristics or generative models of real-world data but these approaches either lack realism or necessitate costly iterative sampling procedures to control the generated behaviours. In this work, we take an alternative approach and propose CtRL-Sim, a method that leverages return-conditioned offline reinforcement learning to efficiently generate reactive and controllable traffic agents. Specifically, we process real-world driving data through a physics-enhanced Nocturne simulator to generate a diverse offline reinforcement learning dataset, annotated with various reward terms. With this dataset, we train a return-conditioned multi-agent behaviour model that allows for fine-grained manipulation of agent behaviours by modifying the desired returns for the various reward components. This capability enables the generation of a wide range of driving behaviours beyond the scope of the initial dataset, including adversarial behaviours. We demonstrate that CtRL-Sim can generate diverse and realistic safety-critical scenarios while providing fine-grained control over agent behaviours.
翻訳日:2024-06-19 05:07:35 公開日:2024-06-14
# インパルスパターン定式化を用いた都市計画と市民参加のための非線形動的社会的・政治的予測アルゴリズム

Nonlinear dynamical social and political prediction algorithm for city planning and public participation using the Impulse Pattern Formulation ( http://arxiv.org/abs/2404.00977v2 )

ライセンス: Link先を確認
Rolf Bader, Simon Linke, Stefanie Gernert, (参考訳) 都市計画のための非線形力学アルゴリズムは、健康、芸術的自由、あるいは様々な社会的、政治的利害関係者の経済的発展などの関連するパラメータを予測するためのインパルスパターン定式化(IPF)として提案される。 IPFはすでに、楽器シミュレーション、脳力学、人間と人間の相互作用において、低い計算コストで高い予測精度を示している。 社会的・政治的IPFは、システム状態発達の基本的な3つの方程式、利害関係者の自己適応、2つの適応的相互作用、およびそれぞれの計画状況に適した外部影響条件からなる。 ステークホルダーのインタラクションと開発の典型的なシナリオは、一連のシステムパラメータを調整することによってモデル化されます。 これには、外部からの入力に対する利害関係者の反応、自己適応によるシステムの安定性の向上、適応的相互作用による利害関係者の収束、固定的利害関係者の影響の観点からの複雑なダイナミクスが含まれる。 実際の都市計画シナリオでアルゴリズムを実装するためのワークフローを概説する。 このワークフローには、計画プロセスとその出力の望ましい開発を目指すためのベストプラクティスプランニングを提案する、適切なパラメータセットの機械学習が含まれている。

A nonlinear-dynamical algorithm for city planning is proposed as an Impulse Pattern Formulation (IPF) for predicting relevant parameters like health, artistic freedom, or financial developments of different social or political stakeholders over the cause of a planning process. The IPF has already shown high predictive precision at low computational cost in musical instrument simulations, brain dynamics, and human-human interactions. The social and political IPF consists of three basic equations of system state developments, self-adaptation of stakeholders, two adaptive interactions, and external impact terms suitable for respective planning situations. Typical scenarios of stakeholder interactions and developments are modeled by adjusting a set of system parameters. These include stakeholder reaction to external input, enhanced system stability through self-adaptation, stakeholder convergence due to adaptive interaction, as well as complex dynamics in terms of fixed stakeholder impacts. A workflow for implementing the algorithm in real city planning scenarios is outlined. This workflow includes machine learning of a suitable set of parameters suggesting best-practice planning to aim at the desired development of the planning process and its output.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-14
# Google検索結果におけるアルゴリズムの誤用:米国オンライン選挙情報環境監査の証拠

Algorithmic Misjudgement in Google Search Results: Evidence from Auditing the US Online Electoral Information Environment ( http://arxiv.org/abs/2404.04684v2 )

ライセンス: Link先を確認
Brooke Perreault, Johanna Lee, Ropafadzo Shava, Eni Mustafaraj, (参考訳) Google検索は、人々が政治に関する情報を求める重要な方法であり、Googleは、有権者が民主的プロセスを理解し、ナビゲートし、参加するのを助けるために、Google検索にタイムリーで権威のある情報を提供することが推奨されている、と述べている。 本稿は,2022年アメリカ合衆国中間選挙で収集された3.45件のGoogle検索の結果から,政府系ウェブドメインがオンライン選挙情報環境においてどの程度表現されているかについて考察する。 地域特化情報を提供する州、郡、地方自治体のドメインに着目し、これらのソースが有機的な検索結果に現れる範囲だけでなく、これらのソースがそれぞれの構成要素に対して正しくターゲットされている範囲についても検討する。 我々は,非フェデラルドメインが機能する地理的領域と,検索結果に現れる場所とを,検索アルゴリズムが異なる(正しくない)場所のユーザに対して局所性固有の情報をターゲットとするアルゴリズム的誤判断のサブタイプであるアルゴリズム的誤認としてラベル付けする。 2022年アメリカ合衆国中間選挙の文脈では、州、郡、地方自治体のソースの71%が不正に標的にされており、一部のドメインは、全ての有権者に関係のない地域固有の情報を提供しているにもかかわらず、オーガニックな結果に相応しいようにみえる。 しかし、下級階級では誤射がしばしば起こることも判明した。 我々は、非連邦政府ソースの大規模な不正なターゲット化による潜在的影響を考慮し、これらのソースをそれぞれの構成員に適切なターゲティングを提供することは、権威的かつ地方に関連のある選挙情報へのアクセスを促進するGoogleの役割の重要な部分である、と論じる。

Google Search is an important way that people seek information about politics, and Google states that it is ``committed to providing timely and authoritative information on Google Search to help voters understand, navigate, and participate in democratic processes.'' This paper studies the extent to which government-maintained web domains are represented in the online electoral information environment, as captured through 3.45 Google Search result pages collected during the 2022 US midterm elections for 786 locations across the United States. Focusing on state, county, and local government domains that provide locality-specific information, we study not only the extent to which these sources appear in organic search results, but also the extent to which these sources are correctly targeted to their respective constituents. We label misalignment between the geographic area that non-federal domains serve and the locations for which they appear in search results as algorithmic mistargeting, a subtype of algorithmic misjudgement in which the search algorithm targets locality-specific information to users in different (incorrect) locations. In the context of the 2022 US midterm elections, we find that 71% of all occurrences of state, county, and local government sources were mistargeted, with some domains appearing disproportionately often among organic results despite providing locality-specific information that may not be relevant to all voters. However, we also find that mistargeting often occurs in low ranks. We conclude by considering the potential consequences of extensive mistargeting of non-federal government sources and argue that ensuring the correct targeting of these sources to their respective constituents is a critical part of Google's role in facilitating access to authoritative and locally-relevant electoral information.
翻訳日:2024-06-19 05:07:34 公開日:2024-06-14
# 電子カルテ生成のためのガイド付き離散拡散

Guided Discrete Diffusion for Electronic Health Record Generation ( http://arxiv.org/abs/2404.12314v2 )

ライセンス: Link先を確認
Jun Han, Zixiang Chen, Yongqian Li, Yiwen Kou, Eran Halperin, Robert E. Tillman, Quanquan Gu, (参考訳) EHR(Electronic Health Record)は、計算医学、病気の進行予測、臨床試験設計、健康経済学と成果研究など、多くの応用を可能にする中心的なデータソースである。 幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。 これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。 拡散法は近年,他のデータモダリティの生成や,従来のGANベースのアプローチを悩ませるトレーニング不安定性やモード崩壊問題に克服する上で,最先端のパフォーマンスを実証している。 EHRにおける表型医療コードデータの離散的性質は、特に連続拡散モデルにおいて、高品質なデータ生成に課題をもたらす。 そこで本研究では, 離散拡散モデルを用いた非条件および条件付き生成が可能な新しい表付きEHR生成手法であるEHR-D3PMを提案する。 EHR-D3PMは、属性やメンバーシップの脆弱性のリスクを低く抑えつつ、包括的忠実度と実用性の測定基準において、既存の生成基準を著しく上回っていることを実証した。 さらに,EHR-D3PMはデータ拡張手法として有効であり,実データと組み合わせることで下流タスクの性能を向上させることを示す。

Electronic health records (EHRs) are a pivotal data source that enables numerous applications in computational medicine, e.g., disease progression prediction, clinical trial design, and health economics and outcomes research. Despite wide usability, their sensitive nature raises privacy and confidentially concerns, which limit potential use cases. To tackle these challenges, we explore the use of generative models to synthesize artificial, yet realistic EHRs. While diffusion-based methods have recently demonstrated state-of-the-art performance in generating other data modalities and overcome the training instability and mode collapse issues that plague previous GAN-based approaches, their applications in EHR generation remain underexplored. The discrete nature of tabular medical code data in EHRs poses challenges for high-quality data generation, especially for continuous diffusion models. To this end, we introduce a novel tabular EHR generation method, EHR-D3PM, which enables both unconditional and conditional generation using the discrete diffusion model. Our experiments demonstrate that EHR-D3PM significantly outperforms existing generative baselines on comprehensive fidelity and utility metrics while maintaining less attribute and membership vulnerability risks. Furthermore, we show EHR-D3PM is effective as a data augmentation method and enhances performance on downstream tasks when combined with real data.
翻訳日:2024-06-19 04:57:50 公開日:2024-06-14
# COPAL: 大規模言語生成モデルにおける連続的なプルーニング

COPAL: Continual Pruning in Large Language Generative Models ( http://arxiv.org/abs/2405.02347v2 )

ライセンス: Link先を確認
Srikanth Malla, Joon Hee Choi, Chiho Choi, (参考訳) 自然言語処理において、訓練済みの大規模言語モデルを異なる領域に適応させるには、高い計算要求と連続的な適応ができないモデルの2つの重要な考慮が必要である。 両課題を同時に解決するために,大規模言語生成モデルを連続モデル適応条件下で解析するために開発されたCOPAL(Continual Pruning in Adaptive Language settings)を提案する。 資源量の多い微調整や再訓練を回避しながら,提案した感度解析によって刈り取りプロセスが導かれる。 この感度は、新しいデータセットによって導入された摂動に耐えるモデルの能力を効果的に測定し、遭遇したすべてのデータセットに関連するモデルの重みを見つける。 その結果、COPALはリソース効率を高めつつ、新しいドメインへのシームレスなモデル適応を可能にする。 LLMの様々なサイズに関する実証実験により,COPALはベースラインモデルより優れ,効率と適応性において有効であることが示された。

Adapting pre-trained large language models to different domains in natural language processing requires two key considerations: high computational demands and model's inability to continual adaptation. To simultaneously address both issues, this paper presents COPAL (COntinual Pruning in Adaptive Language settings), an algorithm developed for pruning large language generative models under a continual model adaptation setting. While avoiding resource-heavy finetuning or retraining, our pruning process is guided by the proposed sensitivity analysis. The sensitivity effectively measures model's ability to withstand perturbations introduced by the new dataset and finds model's weights that are relevant for all encountered datasets. As a result, COPAL allows seamless model adaptation to new domains while enhancing the resource efficiency. Our empirical evaluation on a various size of LLMs show that COPAL outperforms baseline models, demonstrating its efficacy in efficiency and adaptability.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-14
# 特殊化ニューラル加速器を用いた一般ニューラルサロゲート解法に向けて

Towards General Neural Surrogate Solvers with Specialized Neural Accelerators ( http://arxiv.org/abs/2405.02351v2 )

ライセンス: Link先を確認
Chenkai Mao, Robert Lupoiu, Tianxiang Dai, Mingkun Chen, Jonathan A. Fan, (参考訳) サーロゲートニューラルネットワークに基づく偏微分方程式(PDE)は、PDEを加速的に解くことができるが、それらは、固定された領域サイズ、幾何学的レイアウト、境界条件を含むシステムに限られる。 本稿では、任意の境界条件と幾何パラメータを含むサブドメイン問題を、特別なニューラル演算子のアンサンブルを用いて正確に解決する、DDMに基づくPDE解法であるSNAP-DDM(Federized Neural Accelerator-Powered Domain Decomposition Methods)を提案する。 SNAP-DDMを2次元電磁および流体流問題に調整し、ネットワークアーキテクチャと損失関数工学の革新によって、サブドメインの特殊サロゲートをほぼ一元的精度で生成できることを示す。 我々は、これらの解法を標準DDMアルゴリズムを用いて、幅広い領域サイズを特徴とする自由形電磁・流体問題を正確に解く。

Surrogate neural network-based partial differential equation (PDE) solvers have the potential to solve PDEs in an accelerated manner, but they are largely limited to systems featuring fixed domain sizes, geometric layouts, and boundary conditions. We propose Specialized Neural Accelerator-Powered Domain Decomposition Methods (SNAP-DDM), a DDM-based approach to PDE solving in which subdomain problems containing arbitrary boundary conditions and geometric parameters are accurately solved using an ensemble of specialized neural operators. We tailor SNAP-DDM to 2D electromagnetics and fluidic flow problems and show how innovations in network architecture and loss function engineering can produce specialized surrogate subdomain solvers with near unity accuracy. We utilize these solvers with standard DDM algorithms to accurately solve freeform electromagnetics and fluids problems featuring a wide range of domain sizes.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-14
# パルス場に有限時間生成した対の縦モーメントスペクトル:振動は「リアル」である

Longitudinal Momentum Spectra of pair created in a pulsed field at finite times: Are Oscillations "Real" ( http://arxiv.org/abs/2405.02947v3 )

ライセンス: Link先を確認
Deepak Sah, Manoranjan P. Singh, (参考訳) 本稿では,真空中からの電子-陽電子対の生成機構について考察する。 運動量空間における$(e^+ e^-)$pair生成の確率を1粒子時間依存のディラック方程式の正確な解を用いて解析的に計算し、量子力学理論(QKT)と比較する。 どちらのアプローチも、任意の瞬間に粒子運動量スペクトルを研究することができ、量子非平衡物理学に関する貴重な情報を明らかにすることができる。 生成粒子の運動量スペクトルを瞬時に解析する。 我々はLMSの多面的な構造を観察する。 この多面体構造は、ペア生成に関連する量子干渉効果をはっきりと示している。 どちらの手法も、LMSで観測された振動として、有限時間で量子干渉パターンを示すことに注意する必要がある。 この量子シグネチャは、電場がほぼゼロである有限時間における運動量スペクトルで見られる普遍的な振舞いである。

We discuss the mechanism of production of electron-positron pairs from the vacuum in a time-varying, spatially uniform pulsed electric field. We analytically compute the probability of $(e^+ e^-) $pair production in momentum space using the exact solution of the one-particle time-dependent Dirac equation and compare the result with quantum kinetic theory (QKT). Both approaches allow us to study the particle momentum spectrum at any instant in time and can potentially unveil valuable information regarding quantum non-equilibrium physics. We analyze both approaches' momentum spectra of the created particles at any instant. We observe a multi-profile structure in the LMS. This multi-profile structure clearly illustrates the quantum interference effects associated with pair production. It is worth noting that both approaches exhibit quantum interference patterns at finite times, manifested as oscillations observed in the LMS. We highlight that this quantum signature is a universal behavior seen in the momentum spectra at finite times, where the electric field is nearly zero.
翻訳日:2024-06-19 04:38:09 公開日:2024-06-14
# クイディット系におけるWigner Negativityからのベル非局在性

Bell Nonlocality from Wigner Negativity in Qudit Systems ( http://arxiv.org/abs/2405.14367v2 )

ライセンス: Link先を確認
Uta Isabella Meyer, Ivan Šupić, Damian Markham, Frédéric Grosshans, (参考訳) 非局所性は古典的なモデルと量子を区別する重要な概念であり、量子ビットのシステムで広く研究されている。 高次元系の場合、ベルが安定化状態に違反するような2階系の特定の結果やクリフォード作用素は一般化しない。 一方、連続変数系と同様に、ウィグナー負性性(英語版)(Wigner negativity)はシュート系における非局所性に対して必要である。 本稿では,安定化状態のウィグナー負性(Wigner negativity)に関する相関関係を求めるベル不等式(Bell inequality)を,二部式の場合においてCHSH不等式(CHSH inequality)の抽象化であるqubit $\pi/8$ gate(英語版)の一般化の随伴作用により提案する。 古典的境界は計算が簡単であり、指定された安定化状態はウィグナー負性度と1ノルムと最大ノルムの間の不等式に基づいて全てのキュウディ状態の不等式を極大に違反する。 ベル作用素は、一重項分数の測度として機能するだけでなく、ウィグナー負性率の体積を定量化する。 さらに、ベル状態は、手元にあるキュディよりも高次元のシステムに本質的に依存しているため、決定論的ベル違反に加えて、一定数の測定値に違反する。

Nonlocality is an essential concept that distinguishes quantum from classical models and has been extensively studied in systems of qubits. For higher-dimensional systems, certain results for their two-level counterpart, like Bell violations with stabilizer states and Clifford operators, do not generalize. On the other hand, similar to continuous variable systems, Wigner negativity is necessary for nonlocality in qudit systems. We propose a family of Bell inequalities that inquire correlations related to the Wigner negativity of stabilizer states under the adjoint action of a generalization of the qubit $\pi/8$ gate, which, in the bipartite case, is an abstraction of the CHSH inequality. The classical bound is simple to compute, and a specified stabilizer state maximally violates the inequality among all qudit states based on the Wigner negativity and an inequality between the 1-norm and the maximum norm. The Bell operator not only serves as a measure for the singlet fraction but also quantifies the volume of Wigner negativity. Furthermore, we give deterministic Bell violations, as well as violations with a constant number of measurements, for the Bell state relying on operators innate to higher-dimensional systems than the qudit at hand.
翻訳日:2024-06-19 04:28:22 公開日:2024-06-14
# 拡散モデルにおけるロバスト概念消去のための逆学習による防御的アンラーニング

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models ( http://arxiv.org/abs/2405.15234v2 )

ライセンス: Link先を確認
Yimeng Zhang, Xin Chen, Jinghan Jia, Yihua Zhang, Chongyu Fan, Jiancheng Liu, Mingyi Hong, Ke Ding, Sijia Liu, (参考訳) 拡散モデル(DM)は、テキスト・画像生成において顕著な成功を収めてきたが、有害なコンテンツの発生や著作権侵害など、安全性のリスクも生じている。 マシン・アンラーニングのテクニックは、概念消去としても知られ、これらのリスクに対処するために開発されている。 しかし、これらの手法は敵の迅速な攻撃に弱いままであり、DMが学習後に、削除を意図した概念(ヌードなど)を含む望ましくないイメージを再生するように促すことができる。 この研究は、敵対的トレーニング(AT)の原則を機械学習に統合することにより、概念消去の堅牢性を高めることを目的としており、その結果、AdvUnlearnと呼ばれる堅牢なアンラーニングフレームワークが実現される。 しかし、これを効果的に効果的に達成することは、非常に非自明である。 まず,ATの簡単な実装によって,画像生成の質を損なうことが判明した。 そこで我々は,AdvUnlearnにおける概念消去ロバスト性とモデルユーティリティとのトレードオフを最適化し,余剰集合に対する実用性保持型正規化を開発する。 さらに,テキストエンコーダをUNetよりも堅牢化に適したモジュールとして同定し,未学習の有効性を保証する。 また、取得したテキストエンコーダは、様々なDMタイプに対して、プラグアンドプレイの堅牢なアンラーナーとして機能する。 経験的に、我々は様々なDM未学習シナリオにおけるAdvUnlearnの堅牢性優位性を示すために、ヌード、オブジェクト、スタイルの概念の消去を含む広範な実験を行った。 堅牢性に加えて、AdvUnlearnはモデルユーティリティとのバランスの取れたトレードオフも達成している。 我々の知る限りでは、これはATを通して堅牢なDMアンラーニングを体系的に探求する最初の試みであり、概念消去の堅牢性を見落としている既存の方法とは別物である。 https://github.com/OPTML-Group/AdvUnlearn

Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs' image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn
翻訳日:2024-06-19 04:28:22 公開日:2024-06-14
# 極低リソースプログラミング言語におけるテキストからコードへの合成プログラミングの励磁と補修

Synthetic Programming Elicitation and Repair for Text-to-Code in Very Low-Resource Programming Languages ( http://arxiv.org/abs/2406.03636v2 )

ライセンス: Link先を確認
Federico Mora, Justin Wong, Haley Lepe, Sahil Bhatia, Karim Elmaaroufi, George Varghese, Joseph E. Gonzalez, Elizabeth Polgreen, Sanjit A. Seshia, (参考訳) コードアプリケーションのための大規模言語モデル(LLM)の最近の進歩は、テストケース生成から自己修復まで、コードに関連する課題に追従する、目覚ましいゼロショットの流速と命令を実証している。 しかし、当然のことながら、モデルは非常に低リソースのプログラミング言語 (VLPL) と呼ばれる事前学習で表現されていないプログラミング言語において、構文的に有効なプログラムを構成するのに苦労している。 VLPLは、内部ツール用のドメイン固有言語やレガシー言語用のツールチェーンなど、重要な設定で表示される。 そこで本研究では,LLMs ``naturally'' が使用方法を知っていて,対象の VLPL に自動的にコンパイル可能な中間言語を設計することを提案する。 LLMが中間言語外にあるコードを生成するとき、コンパイラ技術を使って中間言語のプログラムにコードを修復する。 SPEAC(emph{synthetic programming elicitation and compilation})は,LLMがVLPLでも構文的に有効なコードを生成することができる手法である。 ケーススタディにおいて,SPEACの性能を実証的に評価し,既存の検索基準や微調整基準と比較すると,意味的正当性を犠牲にすることなく,構文的正当性を著しく向上することがわかった。

Recent advances in large language models (LLMs) for code applications have demonstrated remarkable zero-shot fluency and instruction following on challenging code related tasks ranging from test case generation to self-repair. Unsurprisingly, however, models struggle to compose syntactically valid programs in programming languages unrepresented in pre-training, referred to as very low-resource Programming Languages (VLPLs). VLPLs appear in crucial settings, including domain-specific languages for internal tools and tool-chains for legacy languages. Inspired by an HCI technique called natural program elicitation, we propose designing an intermediate language that LLMs ``naturally'' know how to use and which can be automatically compiled to a target VLPL. When LLMs generate code that lies outside of this intermediate language, we use compiler techniques to repair the code into programs in the intermediate language. Overall, we introduce \emph{synthetic programming elicitation and compilation} (SPEAC), an approach that enables LLMs to generate syntactically valid code even for VLPLs. We empirically evaluate the performance of SPEAC in a case study and find that, compared to existing retrieval and fine-tuning baselines, SPEAC produces syntactically correct programs significantly more frequently without sacrificing semantic correctness.
翻訳日:2024-06-19 02:10:30 公開日:2024-06-14
# 放射線学レポート生成におけるハロゲン化前駆体抑制のための直接選好最適化

Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation ( http://arxiv.org/abs/2406.06496v2 )

ライセンス: Link先を確認
Oishi Banerjee, Hong-Yu Zhou, Subathra Adithan, Stephen Kwak, Kay Wu, Pranav Rajpurkar, (参考訳) 生成視覚言語モデル(VLM)の最近の進歩は、放射線学においてAIにエキサイティングな潜在的影響をもたらすが、VLMは幻覚、非感覚的テキスト、および臨床医の時間を浪費し、患者に害を与える可能性のあるその他の望ましくない行動を生み出すことも知られている。 直接選好最適化(DPO)に関する最近の研究に基づき、不要な世代を抑えることにより、放射線学レポート生成を行う事前学習VLMの挙動を簡易に修正する手法を提案する。 本稿では,胸部X線レポート生成モデルにおける長期にわたる問題行動に対処するため,先行試験の幻覚予防に本手法を適用した。 実験全体を通して,DPOの微調整は,臨床精度測定値のモデル性能を維持しつつ,前科試験を幻覚させるラインの3.2-4.8倍の縮小を実現していることがわかった。 我々の研究は、私たちの知る限り、DPOを医療用VLMに適用する最初の取り組みであり、総合的な臨床精度を維持しながら、問題行動を抑制するためのデータと計算効率のよい方法を提供する。

Recent advances in generative vision-language models (VLMs) have exciting potential implications for AI in radiology, yet VLMs are also known to produce hallucinations, nonsensical text, and other unwanted behaviors that can waste clinicians' time and cause patient harm. Drawing on recent work on direct preference optimization (DPO), we propose a simple method for modifying the behavior of pretrained VLMs performing radiology report generation by suppressing unwanted types of generations. We apply our method to the prevention of hallucinations of prior exams, addressing a long-established problem behavior in models performing chest X-ray report generation. Across our experiments, we find that DPO fine-tuning achieves a 3.2-4.8x reduction in lines hallucinating prior exams while maintaining model performance on clinical accuracy metrics. Our work is, to the best of our knowledge, the first work to apply DPO to medical VLMs, providing a data- and compute- efficient way to suppress problem behaviors while maintaining overall clinical accuracy.
翻訳日:2024-06-19 02:00:43 公開日:2024-06-14
# AI Sandbagging: 言語モデルは、評価において戦略的に過小評価できる

AI Sandbagging: Language Models can Strategically Underperform on Evaluations ( http://arxiv.org/abs/2406.07358v3 )

ライセンス: Link先を確認
Teun van der Weij, Felix Hofstätter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward, (参考訳) 信頼できる能力評価は、AIシステムの安全性を保証するために不可欠であり、AI規制の重要なコンポーネントになりつつある。 しかし、AIシステムまたはAIシステム自体の開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つかもしれない。 これらの対立する利害関係は、"評価における戦略的過小評価"と定義する$\unicode{x2013}$をサンドバッグ化する問題に繋がる。 本稿では,現代言語モデル(LM)におけるサンドバッグ機能の評価を行う。 我々は、GPT-4やClaude 3 OpusのようなフロンティアLMに対して、一般的な(無害な)能力評価のパフォーマンスを維持しながら、危険な能力評価を選択的に過小評価するように促す。 さらに、パスワードが与えられない限り、モデルが合成データセット上で微調整され、特定の能力を隠蔽できることがわかりました。 この振る舞いは、WMDPのような高品質でホールドアウトされたベンチマークに一般化される。 さらに、フロンティアモデルとより小さなモデルの両方が、機能評価において特定のスコアをターゲットとするために、トリガーまたはパスワードロックが可能であることを示す。 さらに、有能なパスワードロックモデル(Llama 3 70b)が、あまり有能でないモデル(Llama 2 7b)を合理的にエミュレートできることがわかりました。 以上の結果から,機能評価はサンドバッグに弱いことが示唆された。 この脆弱性は評価の信頼性を低下させ、高度なAIシステムの開発と展開に関する重要な安全判断を損なう。

Trustworthy capability evaluations are crucial for ensuring the safety of AI systems, and are becoming a key component of AI regulation. However, the developers of an AI system, or the AI system itself, may have incentives for evaluations to understate the AI's actual capability. These conflicting interests lead to the problem of sandbagging $\unicode{x2013}$ which we define as "strategic underperformance on an evaluation". In this paper we assess sandbagging capabilities in contemporary language models (LMs). We prompt frontier LMs, like GPT-4 and Claude 3 Opus, to selectively underperform on dangerous capability evaluations, while maintaining performance on general (harmless) capability evaluations. Moreover, we find that models can be fine-tuned, on a synthetic dataset, to hide specific capabilities unless given a password. This behaviour generalizes to high-quality, held-out benchmarks such as WMDP. In addition, we show that both frontier and smaller models can be prompted, or password-locked, to target specific scores on a capability evaluation. Even more, we found that a capable password-locked model (Llama 3 70b) is reasonably able to emulate a less capable model (Llama 2 7b). Overall, our results suggest that capability evaluations are vulnerable to sandbagging. This vulnerability decreases the trustworthiness of evaluations, and thereby undermines important safety decisions regarding the development and deployment of advanced AI systems.
翻訳日:2024-06-19 01:50:51 公開日:2024-06-14
# MEMO-QCD:量子回路設計のためのメメティック最適化による量子密度推定

MEMO-QCD: Quantum Density Estimation through Memetic Optimisation for Quantum Circuit Design ( http://arxiv.org/abs/2406.08591v2 )

ライセンス: Link先を確認
Juan E. Ardila-García, Vladimir Vargas-Calderón, Fabio A. González, Diego H. Useche, Herbert Vinck-Posada, (参考訳) 本稿では,密度推定のための効率的な量子回路設計手法を提案する。 この戦略は、密度推定のための量子インスパイアされたアルゴリズムと、メメティックアルゴリズムに基づく回路最適化ルーチンに基づいている。 このモデルは、トレーニングデータセットを密度行列で表される量子状態に量子特徴写像を通してマッピングする。 このトレーニング状態は、対応する量子状態をトレーニング状態に投影することにより、新しいサンプルの密度を推定できるように、データセットの確率分布を量子状態に符号化する。 本稿では,量子特徴写像を実装した変分量子回路のアーキテクチャとパラメータを見つけるためのメメティックアルゴリズムと,トレーニング状態を作成するための変分学習戦略を提案する。 提案手法の実証は, 近距離量子ハードウェアにおけるアルゴリズムの実現可能性を示す浅量子回路によるガウス核密度推定法の正確な近似を示す。

This paper presents a strategy for efficient quantum circuit design for density estimation. The strategy is based on a quantum-inspired algorithm for density estimation and a circuit optimisation routine based on memetic algorithms. The model maps a training dataset to a quantum state represented by a density matrix through a quantum feature map. This training state encodes the probability distribution of the dataset in a quantum state, such that the density of a new sample can be estimated by projecting its corresponding quantum state onto the training state. We propose the application of a memetic algorithm to find the architecture and parameters of a variational quantum circuit that implements the quantum feature map, along with a variational learning strategy to prepare the training state. Demonstrations of the proposed strategy show an accurate approximation of the Gaussian kernel density estimation method through shallow quantum circuits illustrating the feasibility of the algorithm for near-term quantum hardware.
翻訳日:2024-06-19 01:41:06 公開日:2024-06-14
# クロスモーダルつぶやきグラフを用いたラベル伝搬によるソーシャルメディアにおけるフェイクニュース検出の促進

Enhancing Fake News Detection in Social Media via Label Propagation on Cross-modal Tweet Graph ( http://arxiv.org/abs/2406.09884v1 )

ライセンス: Link先を確認
Wanqing Zhao, Yuta Nakashima, Haiyuan Chen, Noboru Babaguchi, (参考訳) ソーシャルメディアにおけるフェイクニュースの検出は、ソーシャルメディアチャネルの急速な普及と、誤読情報の普及により、ますます重要になっている。 既存の手法は主にマルチモーダルな特徴とグラフベースの手法に依存しており、フェイクニュースを検出する上で有望な性能を示している。 しかし、これらは依然として制限に直面しており、例えば、グラフ接続のスパーシリティは、ツイート間の相互作用を捉えることを妨げている。 この課題は、より密な相互作用をよりよく捉えるために、グラフの接続性を高める新しい方法を模索する動機となった。 提案手法は,CLIPを用いて,画像とテキストを統一された空間に符号化し,テキストと画像の類似性に基づいた潜在的な接続を抽出する。 次に、ツイート間の相互作用をモデル化する特徴文脈化ネットワーク(FCN-LP)を設計し、また、接続されたツイートのラベルの予測されたラベル間の正あるいは負の相関をモデル化する。 グラフからの伝播ラベルは、最終検出のために重み付けされ集約される。 イベントを隠蔽するモデルの一般化能力を高めるために、目に見えないイベントと見えないイベントを一貫した特徴を保証する領域一般化損失を導入する。 評価には、Twitter、PHEME、Weiboの3つの公開フェイクニュースデータセットを使用します。 提案手法は,すべてのベンチマークデータセットにおける最先端手法よりも常に性能を向上し,ソーシャルメディアにおける偽ニュース検出の一般化に有効であることを示す。

Fake news detection in social media has become increasingly important due to the rapid proliferation of personal media channels and the consequential dissemination of misleading information. Existing methods, which primarily rely on multimodal features and graph-based techniques, have shown promising performance in detecting fake news. However, they still face a limitation, i.e., sparsity in graph connections, which hinders capturing possible interactions among tweets. This challenge has motivated us to explore a novel method that densifies the graph's connectivity to capture denser interaction better. Our method constructs a cross-modal tweet graph using CLIP, which encodes images and text into a unified space, allowing us to extract potential connections based on similarities in text and images. We then design a Feature Contextualization Network with Label Propagation (FCN-LP) to model the interaction among tweets as well as positive or negative correlations between predicted labels of connected tweets. The propagated labels from the graph are weighted and aggregated for the final detection. To enhance the model's generalization ability to unseen events, we introduce a domain generalization loss that ensures consistent features between tweets on seen and unseen events. We use three publicly available fake news datasets, Twitter, PHEME, and Weibo, for evaluation. Our method consistently improves the performance over the state-of-the-art methods on all benchmark datasets and effectively demonstrates its aptitude for generalizing fake news detection in social media.
翻訳日:2024-06-19 01:31:17 公開日:2024-06-14
# 結合制約を用いた二値最適化のための2次法則法の一手法

A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints ( http://arxiv.org/abs/2406.10148v1 )

ライセンス: Link先を確認
Liuyuan Jiang, Quan Xiao, Victor M. Tenorio, Fernando Real-Rojas, Antonio Marques, Tianyi Chen, (参考訳) 近年、二段階最適化への関心が高まっており、部分的には機械学習問題に挑戦するために応用されているためである。 最近のいくつかのエキサイティングな研究は、2レベル最適化問題を証明可能な保証で解決できる効率的な勾配に基づくアルゴリズムの開発に焦点を当てている。 しかし、既存の文献は主に制約のない双レベル問題に焦点を合わせており、複雑なアプリケーションを除いて、上層と下層の変数を混同しない単純な制約のみを特徴としている。 本稿では,この難易度は低いが検討の少ないシナリオを考察し,結合制約によるビリーベル最適化問題に対処するため,BLOCCと呼ばれる(完全に)1次アルゴリズムを開発した。 本研究では,提案アルゴリズムの厳密な収束理論を確立し,サポートベクトルマシン(SVM)におけるハイパーパラメータ選択と,セビリア市からの実際のデータを用いた交通ネットワークにおけるインフラ計画という,よく知られた実世界の2つの応用にその効果を示す。

Interest in bilevel optimization has grown in recent years, partially due to its applications to tackle challenging machine-learning problems. Several exciting recent works have been centered around developing efficient gradient-based algorithms that can solve bilevel optimization problems with provable guarantees. However, the existing literature mainly focuses on bilevel problems either without constraints, or featuring only simple constraints that do not couple variables across the upper and lower levels, excluding a range of complex applications. Our paper studies this challenging but less explored scenario and develops a (fully) first-order algorithm, which we term BLOCC, to tackle BiLevel Optimization problems with Coupled Constraints. We establish rigorous convergence theory for the proposed algorithm and demonstrate its effectiveness on two well-known real-world applications - hyperparameter selection in support vector machine (SVM) and infrastructure planning in transportation networks using the real data from the city of Seville.
翻訳日:2024-06-19 01:31:17 公開日:2024-06-14
# ビッグデータを用いたIoT環境におけるサイバー攻撃データ解析

Cyberattack Data Analysis in IoT Environments using Big Data ( http://arxiv.org/abs/2406.10302v1 )

ライセンス: Link先を確認
Neelam Patidar, Sally Zreiqat, Sirisha Mahesh, Jongwook Woo, (参考訳) さまざまな産業を変革するIoT(Internet of Things)の世界では、相互運用性や標準化されたプロトコルなど、接続性やセキュリティ上の課題の増加に対処しています。 IoT接続の急激な成長にもかかわらず、実際のIoT環境における潜在的なサイバー攻撃を完全にカバーできないデータセットが不十分であるため、ネットワークセキュリティは依然として大きな懸念点である。 Apache HadoopとHiveを使用することで、攻撃行動、ネットワークトラフィック異常、TCPフラグの使用、ターゲット攻撃といった複雑なパターンと脅威を特定し、IoTセキュリティを強化するための堅牢なデータプラットフォームに対する重要なニーズを強調します。

In the landscape of the Internet of Things (IoT), transforming various industries, our research addresses the growing connectivity and security challenges, including interoperability and standardized protocols. Despite the anticipated exponential growth in IoT connections, network security remains a major concern due to inadequate datasets that fail to fully encompass potential cyberattacks in realistic IoT environments. Using Apache Hadoop and Hive, our in-depth analysis of security vulnerabilities identified intricate patterns and threats, such as attack behavior, network traffic anomalies, TCP flag usage, and targeted attacks, underscoring the critical need for robust data platforms to enhance IoT security.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-14
# 一般目的から医療応用までの大規模言語モデルに関する調査:データセット,方法論,評価

A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations ( http://arxiv.org/abs/2406.10303v1 )

ライセンス: Link先を確認
Jinqiang Wang, Huansheng Ning, Yi Peng, Qikai Wei, Daniel Tesfai, Wenwei Mao, Tao Zhu, Runhe Huang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて驚くべきパフォーマンスを示している。 近年,領域固有の知識によって強化された医療用LDMは,医療相談や診断に優れた能力を発揮している。 これらのモデルは、医師と患者の対話を円滑にシミュレートし、専門的な医療アドバイスを提供する。 ほとんどの医療用LSMは、オープンソースの汎用LSMの継続的なトレーニングによって開発され、スクラッチからLLMをトレーニングするよりも計算資源をはるかに少なくする。 さらにこのアプローチは,APIベースのソリューションと比較して,患者のプライバシ保護を向上する。 本調査は,一般のLSMをベースとした医療用LSMの訓練方法について,体系的に検討する。 カバーは以下の通り。 (a)トレーニングコーパスを取得して、カスタマイズされた医療訓練セットを構築する方法 (b)適切な訓練パラダイムを選択する方法 (c)適切な評価ベンチマークを選択する方法、及び (d)既存の課題と将来的な研究の方向性について論じる。 この調査は、医学教育、診断計画、臨床助手など、様々な医療応用に焦点を当てたLSMの開発のためのガイダンスを提供することができる。

Large Language Models (LLMs) have demonstrated surprising performance across various natural language processing tasks. Recently, medical LLMs enhanced with domain-specific knowledge have exhibited excellent capabilities in medical consultation and diagnosis. These models can smoothly simulate doctor-patient dialogues and provide professional medical advice. Most medical LLMs are developed through continued training of open-source general LLMs, which require significantly fewer computational resources than training LLMs from scratch. Additionally, this approach offers better protection of patient privacy compared to API-based solutions. This survey systematically explores how to train medical LLMs based on general LLMs. It covers: (a) how to acquire training corpus and construct customized medical training sets, (b) how to choose a appropriate training paradigm, (c) how to choose a suitable evaluation benchmark, and (d) existing challenges and promising future research directions are discussed. This survey can provide guidance for the development of LLMs focused on various medical applications, such as medical education, diagnostic planning, and clinical assistants.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-14
# 変形性関節症に対するボイスウェイクアップの強化:マンダリン発声コーパスのリリースとカスタムシステム設計

Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design ( http://arxiv.org/abs/2406.10304v1 )

ライセンス: Link先を確認
Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee, (参考訳) スマートホーム技術は広く普及し、音声コマンドを通じてデバイスをシームレスに制御する。 しかし、運動性発声障害である失語症患者は、発話の変動により困難に直面している。 本稿では, 現実的な応用を目指して, 難聴者に対する覚醒語スポッティング(WWS)課題に対処する。 これをサポートするために、家庭環境における変形性個人を対象としたデータセットである、オープンソースのMandarin Dysarthria Speech Corpus (MDSC) をリリースする。 MDSCは、年齢、性別、病型、および知性評価に関する情報を含む。 さらに,MDSCにおける総合的な実験分析を行い,その課題を明らかにした。 また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示す, カスタマイズ型変形性WWSシステムの開発を行った。 MDSCはhttps://www.aishelltech.com/AISHELL_6B.comでリリースされる。

Smart home technology has gained widespread adoption, facilitating effortless control of devices through voice commands. However, individuals with dysarthria, a motor speech disorder, face challenges due to the variability of their speech. This paper addresses the wake-up word spotting (WWS) task for dysarthric individuals, aiming to integrate them into real-world applications. To support this, we release the open-source Mandarin Dysarthria Speech Corpus (MDSC), a dataset designed for dysarthric individuals in home environments. MDSC encompasses information on age, gender, disease types, and intelligibility evaluations. Furthermore, we perform comprehensive experimental analysis on MDSC, highlighting the challenges encountered. We also develop a customized dysarthria WWS system that showcases robustness in handling intelligibility and achieving exceptional performance. MDSC will be released on https://www.aishelltech.com/AISHELL_6B.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# 大規模言語モデルの学習における教師付き微調整と強化学習の関係の解法

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models ( http://arxiv.org/abs/2406.10305v1 )

ライセンス: Link先を確認
Jie Chen, Xintian Han, Yu Ma, Xun Zhou, Liang Xiang, (参考訳) 自動コード生成は長年にわたる研究トピックである。 汎用大規模言語モデル(LLM)の進歩により、プログラミング能力はモデルの推論性能にとって重要な指標となる。 通常、2段階の訓練パラダイムが実装され、コードLLM、すなわち事前訓練と微調整が得られる。 微調整、教師付き微調整(SFT)、強化学習(RL)は、しばしばモデルのゼロショット能力を改善するために使用される。 アルゴリズムの変更やデータセットの改良によって、コード関連のベンチマークでモデルのパフォーマンスを改善するために、多くの作業が実施されている。 しかし、SFTとRLの相関についてはまだ深い知見が得られていない。 例えば、一般化を保証するためにどのようなデータセットを使うべきか、微調整でSFTフェーズを放棄したらどうなるのか、などです。 本研究では,SFTとRLの相関関係の解明を試みる。 我々は,原子関数と呼ばれる100塩基のピソン関数を手動で作成し,その上に多数の合成関数を生成するために合成パイプラインを配置する。 このようにして、列車とテストセットが相変わらず維持され、データの汚染が防止される。 包括的アブレーション研究により,(1)SFTの一般化には原子機能と合成機能の両方が不可欠であり,かつ,少数の合成機能しか必要とされないこと,(2)SFTの目標ドメインへの一般化は,同じトレーニングプロンプトでも大幅に向上できること,(3)スクラッチからRLを訓練することで,SFTフェーズで導入された過度に適合する問題を緩和できること,などが判明した。

Automatic code generation has been a longstanding research topic. With the advancement of general-purpose large language models (LLMs), the ability to code stands out as one important measure to the model's reasoning performance. Usually, a two-stage training paradigm is implemented to obtain a Code LLM, namely the pretraining and the fine-tuning. Within the fine-tuning, supervised fine-tuning (SFT), and reinforcement learning (RL) are often used to improve the model's zero-shot ability. A large number of work has been conducted to improve the model's performance on code-related benchmarks with either modifications to the algorithm or refinement of the dataset. However, we still lack a deep insight into the correlation between SFT and RL. For instance, what kind of dataset should be used to ensure generalization, or what if we abandon the SFT phase in fine-tuning. In this work, we make an attempt to understand the correlation between SFT and RL. To facilitate our research, we manually craft 100 basis python functions, called atomic functions, and then a synthesizing pipeline is deployed to create a large number of synthetic functions on top of the atomic ones. In this manner, we ensure that the train and test sets remain distinct, preventing data contamination. Through comprehensive ablation study, we find: (1) Both atomic and synthetic functions are indispensable for SFT's generalization, and only a handful of synthetic functions are adequate; (2) Through RL, the SFT's generalization to target domain can be greatly enhanced, even with the same training prompts; (3) Training RL from scratch can alleviate the over-fitting issue introduced in the SFT phase.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# ブリッジバイディングAIのためのシンプルでソリッドで再現可能なベースライン

A Simple, Solid, and Reproducible Baseline for Bridge Bidding AI ( http://arxiv.org/abs/2406.10306v1 )

ライセンス: Link先を確認
Haruka Kita, Sotetsu Koyamada, Yotaro Yamaguchi, Shin Ishii, (参考訳) 不完全な情報とマルチエージェントダイナミクスを特徴とする協調ゲームであるコントラクトブリッジは、重要な課題を提起し、人工知能(AI)研究における重要なベンチマークとして機能する。 この領域での成功には、エージェントがパートナーと効果的に協力する必要がある。 本研究は,橋梁入札システムにおける主要なベンチマークであるWBridge5に対する橋梁入札において,既存の手法の適切な組み合わせが驚くほどうまく動作することを示す。 私たちのアプローチは明らかに単純ですが、この分野の最先端の方法論よりも優れています。 さらに、コードとモデルをオープンソースソフトウェアとして公開しました。 このイニシアチブは、将来のAI研究のための強力な出発点となる基盤を提供し、この分野における新たな戦略と進歩の開発と検証を促進する。

Contract bridge, a cooperative game characterized by imperfect information and multi-agent dynamics, poses significant challenges and serves as a critical benchmark in artificial intelligence (AI) research. Success in this domain requires agents to effectively cooperate with their partners. This study demonstrates that an appropriate combination of existing methods can perform surprisingly well in bridge bidding against WBridge5, a leading benchmark in the bridge bidding system and a multiple-time World Computer-Bridge Championship winner. Our approach is notably simple, yet it outperforms the current state-of-the-art methodologies in this field. Furthermore, we have made our code and models publicly available as open-source software. This initiative provides a strong starting foundation for future bridge AI research, facilitating the development and verification of new strategies and advancements in the field.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# ベストモデルとは何か? 大規模言語モデルのアプリケーション駆動評価

What is the best model? Application-driven Evaluation for Large Language Models ( http://arxiv.org/abs/2406.10307v1 )

ライセンス: Link先を確認
Shiguo Lian, Kaikai Zhao, Xinhui Liu, Xuejiao Lei, Bikun Yang, Wenjing Zhang, Kai Wang, Zhaoxiang Liu, (参考訳) 教師付き微調整と人的フィードバックからの強化学習によって強化された一般的な大規模言語モデルは、基礎モデルを様々な実践的なタスクに迅速に一般化するにつれ、学術や産業で人気が高まっている。 そこで本研究では,アプリケーション駆動型LLM評価ベンチマークであるA-Evalを導入する。 まず,評価タスクを5つの主要なカテゴリと27のサブカテゴリに分類する。 次に,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。 そこで我々は,A-Eval 上で,客観的かつ効果的な評価手法を設計し,異なるスケールの LLM のシリーズを評価する。 最後に、モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。 A-Evalを通じて、最良のモデルを選択し、LCMを選択して使用するための障壁を減らし、アプリケーションと開発を促進するための明確な経験的およびエンジニアのガイダンスを提供する。 私たちのベンチマークはhttps://github.com/UnicomAI/DataSet/tree/main/TestData/GeneralAbilityで公開されています。

General large language models enhanced with supervised fine-tuning and reinforcement learning from human feedback are increasingly popular in academia and industry as they generalize foundation models to various practical tasks in a prompt manner. To assist users in selecting the best model in practical application scenarios, i.e., choosing the model that meets the application requirements while minimizing cost, we introduce A-Eval, an application-driven LLMs evaluation benchmark for general large language models. First, we categorize evaluation tasks into five main categories and 27 sub-categories from a practical application perspective. Next, we construct a dataset comprising 678 question-and-answer pairs through a process of collecting, annotating, and reviewing. Then, we design an objective and effective evaluation method and evaluate a series of LLMs of different scales on A-Eval. Finally, we reveal interesting laws regarding model scale and task difficulty level and propose a feasible method for selecting the best model. Through A-Eval, we provide clear empirical and engineer guidance for selecting the best model, reducing barriers to selecting and using LLMs and promoting their application and development. Our benchmark is publicly available at https://github.com/UnicomAI/DataSet/tree/main/TestData/GeneralAbility.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# TEG-DB: テキストエッジグラフの総合データセットとベンチマーク

TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs ( http://arxiv.org/abs/2406.10310v1 )

ライセンス: Link先を確認
Zhuofeng Li, Zixing Gou, Xiangnan Zhang, Zhongyuan Liu, Sirui Li, Yuntong Hu, Chen Ling, Zheng Zhang, Liang Zhao, (参考訳) Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、さまざまな実世界の設定におけるデータとその相互接続の詳細な描写を容易にする。 しかし、既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。 このリッチテキストエッジアノテーションの欠如は、エンティティ間のコンテキスト関係の探索を著しく制限し、グラフ構造化データに対する深い洞察を妨げる。 このギャップに対処するために、私たちは、ノードとエッジにリッチなテキスト記述を備えたベンチマークテキストエッジデータセットの包括的かつ多様なコレクションであるTextual-Edge Graphs Datasets and Benchmark(TEG-DB)を紹介します。 TEG-DBデータセットは大規模で、引用ネットワークからソーシャルネットワークまで幅広いドメインを含んでいる。 さらに,TEG-DBのベンチマーク実験により,事前学習言語モデルやグラフニューラルネットワーク,それらの組み合わせなど,現在の技術がテキストノードとエッジ情報を利用することができる範囲を評価する。 我々のゴールは、テキストエッジグラフ研究の進歩、特にリッチなテキストノードとエッジ記述を活用してグラフ分析を強化し、複雑な実世界のネットワークに対する深い洞察を提供する方法論を開発することである。 TEG-DBプロジェクト全体はGithubのオープンソースリポジトリとして公開されており、https://github.com/Zhuofeng-Li/TEG-Benchmarkでアクセスできる。

Text-Attributed Graphs (TAGs) augment graph structures with natural language descriptions, facilitating detailed depictions of data and their interconnections across various real-world settings. However, existing TAG datasets predominantly feature textual information only at the nodes, with edges typically represented by mere binary or categorical attributes. This lack of rich textual edge annotations significantly limits the exploration of contextual relationships between entities, hindering deeper insights into graph-structured data. To address this gap, we introduce Textual-Edge Graphs Datasets and Benchmark (TEG-DB), a comprehensive and diverse collection of benchmark textual-edge datasets featuring rich textual descriptions on nodes and edges. The TEG-DB datasets are large-scale and encompass a wide range of domains, from citation networks to social networks. In addition, we conduct extensive benchmark experiments on TEG-DB to assess the extent to which current techniques, including pre-trained language models, graph neural networks, and their combinations, can utilize textual node and edge information. Our goal is to elicit advancements in textual-edge graph research, specifically in developing methodologies that exploit rich textual node and edge descriptions to enhance graph analysis and provide deeper insights into complex real-world networks. The entire TEG-DB project is publicly accessible as an open-source repository on Github, accessible at https://github.com/Zhuofeng-Li/TEG-Benchmark.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# CHiSafetyBench: 大規模言語モデルのための中国の階層的安全性ベンチマーク

CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models ( http://arxiv.org/abs/2406.10311v1 )

ライセンス: Link先を確認
Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Meijuan An, Bikun Yang, KaiKai Zhao, Kai Wang, Shiguo Lian, (参考訳) 大規模言語モデル(LLM)の深い発展に伴い、その安全性に関する懸念が高まっている。 しかし、中国のLLMの安全基準は乏しく、既存の安全分類は不十分であり、中国の真正なシナリオにおいて包括的な安全性検出能力が欠如している。 本研究は,中国におけるリスクのあるコンテンツの識別と,リスクのある質問への回答を拒否するLLMの能力を評価するための,専用の安全ベンチマークであるCHiSafetyBenchを紹介する。 CHiSafetyBenchは5つのリスク領域と31のカテゴリからなる階層的な中国の安全分類を網羅したデータセットを組み込んでいる。 このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。 本ベンチマークを用いて,人的評価の代用として自動評価の実現可能性を検証するとともに,中国の主要LLMを対象とした総合的自動安全性評価を行う。 本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。 私たちのデータセットはhttps://github.com/UnicomAI/DataSet/tree/main/TestData/Safetyで公開されています。

With the profound development of large language models(LLMs), their safety concerns have garnered increasing attention. However, there is a scarcity of Chinese safety benchmarks for LLMs, and the existing safety taxonomies are inadequate, lacking comprehensive safety detection capabilities in authentic Chinese scenarios. In this work, we introduce CHiSafetyBench, a dedicated safety benchmark for evaluating LLMs' capabilities in identifying risky content and refusing answering risky questions in Chinese contexts. CHiSafetyBench incorporates a dataset that covers a hierarchical Chinese safety taxonomy consisting of 5 risk areas and 31 categories. This dataset comprises two types of tasks: multiple-choice questions and question-answering, evaluating LLMs from the perspectives of risk content identification and the ability to refuse answering risky questions respectively. Utilizing this benchmark, we validate the feasibility of automatic evaluation as a substitute for human evaluation and conduct comprehensive automatic safety assessments on mainstream Chinese LLMs. Our experiments reveal the varying performance of different models across various safety domains, indicating that all models possess considerable potential for improvement in Chinese safety capabilities. Our dataset is publicly available at https://github.com/UnicomAI/DataSet/tree/main/TestData/Safety.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# 機械学習-自然言語処理ワークフローを用いた医療機器のリコール開始者の詳細な分析

In-depth analysis of recall initiators of medical devices with a Machine Learning-Natural language Processing workflow ( http://arxiv.org/abs/2406.10312v1 )

ライセンス: Link先を確認
Yang Hu, (参考訳) 医療機器のリコールを防ぐための予備的なステップは、リコール開始者識別とアセスメントである。 従来の分析ツールは、データ量やテキストデータ形式が増大するにつれて、デリカシー管理の期待が高まるのに、包括的にかつ完全に、大量のデータを処理するのに不適当である。 本研究では、ビッグデータ量とミューティデータフォーマットの実践的文脈において、従来のツールの処理効率とデータプロセスの汎用性における欠点を解決するために、ビッグデータ分析に基づく機械学習自然言語処理ツールを提案する。 ML-NLPツールを用いて、2018年から2024年までの公衆医療機器リコールデータベースに基づいて、医療機器リコール開始者を特定し、評価し、分析した。 以上の結果から,DBSCANクラスタリングアルゴリズムは,各リコールイニシアチブを特定の方法で表示することが可能であることが示唆された。 これに続いてテキスト類似性に基づくテキスト分類が行われ、実践者がリコール開始者のグループサイズを制御し、運用から戦術的・戦略的レベルへの管理的洞察を提供する。 本発明のML-NLPワークツールは、リコール開始者の特定詳細をキャプチャするだけでなく、既存の開始者の内的接続を解釈し、前方SCにおけるリスク識別及び評価のために実装することができる。 最後に,本論文は,いくつかの結論と今後の成果を提示するものである。 将来的には、医療機器リコールのためのより積極的なプラクティスとコントロールソリューションが期待されている。

Recall initiator identification and assessment are the preliminary steps to prevent medical device recall. Conventional analysis tools are inappropriate for processing massive and multi-formatted data comprehensively and completely to meet the higher expectations of delicacy management with the increasing overall data volume and textual data format. This study presents a bigdata-analytics-based machine learning-natural language processing work tool to address the shortcomings in dealing efficiency and data process versatility of conventional tools in the practical context of big data volume and muti data format. This study identified, assessed and analysed the medical device recall initiators according to the public medical device recall database from 2018 to 2024 with the ML-NLP tool. The results suggest that the unsupervised Density-Based Spatial Clustering of Applications with Noise (DBSCAN) clustering algorithm can present each single recall initiator in a specific manner, therefore helping practitioners to identify the recall reasons comprehensively and completely within a short time frame. This is then followed by text similarity-based textual classification to assist practitioners in controlling the group size of recall initiators and provide managerial insights from the operational to the tactical and strategical levels. This ML-NLP work tool can not only capture specific details of each recall initiator but also interpret the inner connection of each existing initiator and can be implemented for risk identification and assessment in the forward SC. Finally, this paper suggests some concluding remarks and presents future works. More proactive practices and control solutions for medical device recalls are expected in the future.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# CNVSRC 2023: 中国初の連続音声認識チャレンジ

CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge ( http://arxiv.org/abs/2406.10313v1 )

ライセンス: Link先を確認
Chen Chen, Zehua Liu, Xiaolou Li, Lantian Li, Dong Wang, (参考訳) 最初の中国語連続音声認識チャレンジは,(1)特定の話者に対する単一話者VSRと(2)登録話者の集合に対する複数話者VSRの2つのタスクにおいて,LVC-VSR(Large Vocabulary Continuous Visual Speech Recognition)の性能を調査することを目的とした。 この挑戦は、特に単一話者タスクにおいて、最も優れた応募がベースラインを大幅に上回って、非常に成功した結果となった。 本稿では,データプロファイル,タスク仕様,ベースラインシステム構築といった課題を包括的にレビューする。 また、提出されたシステムで使用される代表的手法を要約し、最も効果的なアプローチを強調している。 この課題に関する追加情報とリソースは、http://cnceleb.org/competition.comの公式サイトからアクセスすることができる。

The first Chinese Continuous Visual Speech Recognition Challenge aimed to probe the performance of Large Vocabulary Continuous Visual Speech Recognition (LVC-VSR) on two tasks: (1) Single-speaker VSR for a particular speaker and (2) Multi-speaker VSR for a set of registered speakers. The challenge yielded highly successful results, with the best submission significantly outperforming the baseline, particularly in the single-speaker task. This paper comprehensively reviews the challenge, encompassing the data profile, task specifications, and baseline system construction. It also summarises the representative techniques employed by the submitted systems, highlighting the most effective approaches. Additional information and resources about this challenge can be accessed through the official website at http://cnceleb.org/competition.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# 猫と犬の健康診察分類のための機械学習アルゴリズムの開発と検証

Development and Validation of a Machine Learning Algorithm for Clinical Wellness Visit Classification in Cats and Dogs ( http://arxiv.org/abs/2406.10314v1 )

ライセンス: Link先を確認
Donald Szlosek, Michael Coyne, Julia Riggot, Kevin Knight, DJ McCrann, Dave Kincaid, (参考訳) 獣医学における早期の疾患検出は、ウェルネス訪問中の無症状動物における下肢異常の同定に依存する。 本研究は, 3人の獣医師による獣医師の手動分類と比較し, 健康と獣医師の訪問を区別するアルゴリズムを提案する。 2012年から2017年にかけて、米国の544の獣医施設で655頭の動物(85.3%のイヌと14.7%のネコ)を対象とする11,105回の臨床訪問のデータセットを用いて、このモデルはグラディエント・ブースティング・マシン(Gradient Boosting Machine)モデルを用いて訓練された。 3つのバリケータは、ウェルネスと他のタイプの訪問の両方を含む400の訪問を分類し、初期アルゴリズムトレーニングで使用される同じデータベースからランダムに選択し、トレーニングとアプリケーションフェーズ間の一貫性と関連性を維持することを目的としていた。 このアルゴリズムは0.94(95%CI:0.91から0.96)の特異性を示し、非ウェルネス訪問を区別する精度を示している。 このアルゴリズムの感度は0.86(95% CI: 0.80 - 0.92)であり、獣医の専門家が提供したアノテーションと比較して、健康訪問を正しく識別する能力を示している。 バランスの取れた精度は 0.90 (95% CI: 0.87 - 0.93) と計算され、アルゴリズムの全体的な有効性をさらに確認している。 このアルゴリズムは、強い特異性と感度を示し、高いウェルネス訪問率の正確な識別を保証する。 全体として、このアルゴリズムは、予防ケアがサブクリニカルな疾患の同定に果たす役割について研究を進めることを約束するが、検証には将来的な研究が必要である。

Early disease detection in veterinary care relies on identifying subclinical abnormalities in asymptomatic animals during wellness visits. This study introduces an algorithm designed to distinguish between wellness and other veterinary visits.The purpose of this study is to validate the use of a visit classification algorithm compared to manual classification of veterinary visits by three board-certified veterinarians. Using a dataset of 11,105 clinical visits from 2012 to 2017 involving 655 animals (85.3% canines and 14.7% felines) across 544 U.S. veterinary establishments, the model was trained using a Gradient Boosting Machine model. Three validators were tasked with classifying 400 visits, including both wellness and other types of visits, selected randomly from the same database used for initial algorithm training, aiming to maintain consistency and relevance between the training and application phases; visit classifications were subsequently categorized into "wellness" or "other" based on majority consensus among validators to assess the algorithm's performance in identifying wellness visits. The algorithm demonstrated a specificity of 0.94 (95% CI: 0.91 to 0.96), implying its accuracy in distinguishing non-wellness visits. The algorithm had a sensitivity of 0.86 (95% CI: 0.80 to 0.92), indicating its ability to correctly identify wellness visits as compared to the annotations provided by veterinary experts. The balanced accuracy, calculated as 0.90 (95% CI: 0.87 to 0.93), further confirms the algorithm's overall effectiveness. The algorithm exhibits strong specificity and sensitivity, ensuring accurate identification of a high proportion of wellness visits. Overall, this algorithm holds promise for advancing research on preventive care's role in subclinical disease identification, but prospective studies are needed for validation.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# テレビ・ラジオにおけるジェンダー表現:手動分析と自動情報抽出法

Gender Representation in TV and Radio: Automatic Information Extraction methods versus Manual Analyses ( http://arxiv.org/abs/2406.10316v1 )

ライセンス: Link先を確認
David Doukhan, Lena Dodson, Manon Conan, Valentin Pelloin, Aurélien Clamouse, Mélina Lepape, Géraldine Van Hille, Cécile Méadel, Marlène Coulomb-Gully, (参考訳) 本研究は,テレビやラジオにおけるジェンダー表現の相違を記述するために,自動情報抽出記述子と手動分析の関係について検討する。 音声時間、顔分類、音声の書き起こしを含む自動記述器は、2023年のフランス放送の32,000時間コーパスのチャンネルレポートと比較される。 発見は、すべてのディスクリプタで男性に比べて女性が少なすぎるという、全身的な性別の不均衡を浮き彫りにする。 特に、手動のチャンネルレポートでは、女性の存在が自動推定よりも高く、女性への言及がスピーチ時間よりも低いことが示されている。 ディスクリプタは、ハイオーディエンスとローオーディエンス、戦争報道、またはプライベート対パブリックチャネルで共通のダイナミクスを共有している。 フランスのテレビでは女性の方が可聴性が高いが、この傾向は男性主人公を描いた未確認のジャーナリストとのニュースで逆転している。 統計テストでは、女性への参照に影響を与える3つの主な影響を示す:プログラムカテゴリー、チャンネル、話者の性別。

This study investigates the relationship between automatic information extraction descriptors and manual analyses to describe gender representation disparities in TV and Radio. Automatic descriptors, including speech time, facial categorization and speech transcriptions are compared with channel reports on a vast 32,000-hour corpus of French broadcasts from 2023. Findings reveal systemic gender imbalances, with women underrepresented compared to men across all descriptors. Notably, manual channel reports show higher women's presence than automatic estimates and references to women are lower than their speech time. Descriptors share common dynamics during high and low audiences, war coverage, or private versus public channels. While women are more visible than audible in French TV, this trend is inverted in news with unseen journalists depicting male protagonists. A statistical test shows 3 main effects influencing references to women: program category, channel and speaker gender.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# コードを信頼する - Rustエコシステムの依存関係をレビューするためのコントリビュータの評価尺度を探る

Trusting code in the wild: Exploring contributor reputation measures to review dependencies in the Rust ecosystem ( http://arxiv.org/abs/2406.10317v1 )

ライセンス: Link先を確認
Sivana Hamer, Nasif Imtiaz, Mahzabin Tamanna, Preya Shabrina, Laurie Williams, (参考訳) 開発者はオープンソースパッケージに依存しており、脆弱性のあるあるいは悪意のある上流コードに対する保護のために依存関係をレビューする必要がある。 すべての依存関係の変更を慎重にレビューすることは、実際には行われないことが多い。 そのため開発者は、追加の検査を必要とする依存関係の変更を通知する信号が必要である。 本研究の目的は,コントリビュータの評価尺度を信号として分析することで,依存関係レビューの取り組みの優先順位付けを支援することである。 ネットワーク集中度尺度を用いて、協力活動を用いたコントリビュータの評判を推し進める。 Rustエコシステムの上位1,644パッケージから混合メソッドメソッドを使用して、6,949人の開発者、調査285人の開発者、モデル5の集中度測定のネットワークを構築しています。 レビュープロセスの難しさに言及して,パッケージの追加や更新を行う前に,依存関係をレビューする回答者は24%に過ぎません。 さらに、回答者の51%は、依存関係をレビューする際のコントリビュータの評価をよく検討している。 クローズネスの集中度尺度は、開発者が依存関係をどのようにレビューするかを説明する上で重要な要素である。 しかし、集中度対策だけでは、開発者が依存関係をレビューする方法を説明できない。 GitHub、Rust、npmといったエコシステムは、開発者が依存性レビューを支援するために、モデル化された係数に基づいてコントリビュータの評価バッジを実装することを推奨しています。

Developers rely on open-source packages and must review dependencies to safeguard against vulnerable or malicious upstream code. A careful review of all dependencies changes often does not occur in practice. Therefore, developers need signals to inform of dependency changes that require additional examination. The goal of this study is to help developers prioritize dependency review efforts by analyzing contributor reputation measures as a signal. We use network centrality measures to proxy contributor reputation using collaboration activity. We employ a mixed method methodology from the top 1,644 packages in the Rust ecosystem to build a network of 6,949 developers, survey 285 developers, and model 5 centrality measures. We find that only 24% of respondents often review dependencies before adding or updating a package, mentioning difficulties in the review process. Additionally, 51% of respondents often consider contributor reputation when reviewing dependencies. The closeness centrality measure is a significant factor in explaining how developers review dependencies. Yet, centrality measures alone do not account for how developers choose to review dependencies. We recommend that ecosystems like GitHub, Rust, and npm implement a contributor reputation badge based on our modeled coefficients to aid developers in dependency reviews.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# 中国文化のレンズを作る:中国のパン・リバス・アート理解のためのマルチモーダルデータセット

Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding ( http://arxiv.org/abs/2406.10318v1 )

ライセンス: Link先を確認
Tuo Zhang, Tiantian Feng, Yibin Ni, Mengqin Cao, Ruying Liu, Katharine Butler, Yanjun Weng, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr, (参考訳) 視覚言語モデル(VLM)は、日常的な内容を理解する際、顕著な能力を示した。 しかし、芸術分野、特に文化的に豊かな芸術形態における彼らの業績は、いまだに調査されていない。 人間の知恵と創造性の真珠として、芸術は複雑な文化的物語と象徴をカプセル化している。 本稿では,中国伝統文化に根ざした芸術理解のためのマルチモーダルデータセットであるPun Rebus Art Datasetを提案する。 視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。 我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしばバイアス付きで幻覚的な説明を提供し、文脈内学習による限られた改善を示す。 Pun Rebus Art Datasetをリリースすることにより、文化的な特定のコンテンツをよりよく理解し、解釈し、英語のコーパスを超える包括性を促進できるVLMの開発を促進することを目指している。

Large vision-language models (VLMs) have demonstrated remarkable abilities in understanding everyday content. However, their performance in the domain of art, particularly culturally rich art forms, remains less explored. As a pearl of human wisdom and creativity, art encapsulates complex cultural narratives and symbolism. In this paper, we offer the Pun Rebus Art Dataset, a multimodal dataset for art understanding deeply rooted in traditional Chinese culture. We focus on three primary tasks: identifying salient visual elements, matching elements with their symbolic meanings, and explanations for the conveyed messages. Our evaluation reveals that state-of-the-art VLMs struggle with these tasks, often providing biased and hallucinated explanations and showing limited improvement through in-context learning. By releasing the Pun Rebus Art Dataset, we aim to facilitate the development of VLMs that can better understand and interpret culturally specific content, promoting greater inclusiveness beyond English-based corpora.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# スタイル外:LLMとのミスとコードスタイルの転送

Out of style: Misadventures with LLMs and code style transfer ( http://arxiv.org/abs/2406.10320v1 )

ライセンス: Link先を確認
Karl Munson, Chih-Kai Ting, Serenity Wade, Anish Savla, Julian Dolby, Kiran Kate, Kavitha Srinivas, (参考訳) テキストと同様に、プログラムにはスタイルがあり、プログラムの可読性、保守性、パフォーマンスにおいて、特定のプログラミングスタイルが他のものよりも望ましい。 しかし、行長の制限のような自明なスタイルガイドラインを除いて、コードスタイルの転送は自動化が難しい。 テキストスタイルの転送に言語モデルを使うことの成功に触発されて、コード言語モデルがコードスタイルの転送を行うことができるかどうかを検討する。 コードスタイルの転送は、テキスト転送とは異なり、厳格な要件がある。システムは変更するコードの行を特定し、それらを正しく変更し、残りのプログラムを無傷で残す必要がある。 CSB(Code Style Benchmark)は、forループをリスト化したり、コードの重複をなくしたり、メソッドにデコレータを追加するといった、5つのカテゴリにわたるコードスタイルの転送タスクのベンチマークスイートです。 次に、これらのテストを使用して、大規模な事前学習されたコード言語モデルや微調整されたモデルが、その転送が発生したかどうかを厳密なメトリクスに基づいて、スタイル転送を正しく実行し、コードがまだ機能テストに合格しているかを確認しました。 驚くべきことに、言語モデルはすべてのタスクを実行できなかった。 私たちは、コミュニティがより良いコードモデルを構築するのを助けるために、大規模なコーポラを利用可能にします。

Like text, programs have styles, and certain programming styles are more desirable than others for program readability, maintainability, and performance. Code style transfer, however, is difficult to automate except for trivial style guidelines such as limits on line length. Inspired by the success of using language models for text style transfer, we investigate if code language models can perform code style transfer. Code style transfer, unlike text transfer, has rigorous requirements: the system needs to identify lines of code to change, change them correctly, and leave the rest of the program untouched. We designed CSB (Code Style Benchmark), a benchmark suite of code style transfer tasks across five categories including converting for-loops to list comprehensions, eliminating duplication in code, adding decorators to methods, etc. We then used these tests to see if large pre-trained code language models or fine-tuned models perform style transfer correctly, based on rigorous metrics to test that the transfer did occur, and the code still passes functional tests. Surprisingly, language models failed to perform all of the tasks, suggesting that they perform poorly on tasks that require code understanding. We will make available the large-scale corpora to help the community build better code models.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# LieRE:ロータリー位置エンコーディングの一般化

LieRE: Generalizing Rotary Position Encodings ( http://arxiv.org/abs/2406.10322v1 )

ライセンス: Link先を確認
Sophie Ostmeier, Brian Axelrod, Michael E. Moseley, Akshay Chaudhari, Curtis Langlotz, (参考訳) Rotary Position Embeddings (RoPE)は自然言語の動作が良く、広く採用されているが、他のモダリティへの採用は遅れている。 ここでは、高次元入力をサポートするために、RoPEを超えるリー群相対位置符号化(LieRE)を導入する。 2Dおよび3D画像分類タスクにおけるLieREの性能を評価し、LieREがRoFormer, DeiT III, RoPE-Mixed, Vision-Llamaのベースラインと比較して、パフォーマンス(最大6%)、トレーニング効率(3.5倍)、データ効率(30%)を著しく向上させることを示した。

While Rotary Position Embeddings (RoPE) for natural language performs well and has become widely adopted, its adoption for other modalities has been slower. Here, we introduce Lie group Relative position Encodings (LieRE) that goes beyond RoPE in supporting higher dimensional inputs. We evaluate the performance of LieRE on 2D and 3D image classification tasks and observe that LieRE leads to marked improvements in performance (up to 6%), training efficiency (3.5x reduction), data efficiency (30%) compared to the baselines of RoFormer, DeiT III, RoPE-Mixed and Vision-Llama
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# GenQA: プロンプトから何百万ものインストラクションを生成する

GenQA: Generating Millions of Instructions from a Handful of Prompts ( http://arxiv.org/abs/2406.10323v1 )

ライセンス: Link先を確認
Jiuhai Chen, Rifaa Qadri, Yuxin Wen, Neel Jain, John Kirchenbauer, Tianyi Zhou, Tom Goldstein, (参考訳) ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。 カリキュラムや学習速度の冷却スケジュールなど,スケールでの微調整に関する問題を研究するためには,産業規模のデータセットが必要である。 しかし、このスケールは、ほぼ完全に自動化されたデータ生成プロセスを必要とする。 本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。 人間の目で見れば、簡単な完了タスクから、様々な主題領域にわたる複雑なマルチターンダイアログまで、さまざまなインストラクションの例を書くことができます。 Llama-3 8Bベースモデルを微調整すると、私たちのデータセットは知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。 私たちはデータセット、それを作った"ジェネレータ"プロンプト、そして微調整されたモデルチェックポイントをリリースします。

Most public instruction finetuning datasets are relatively small compared to the closed source datasets used to train industry models. To study questions about finetuning at scale, such as curricula and learning rate cooldown schedules, there is a need for industrial-scale datasets. However, this scale necessitates a data generation process that is almost entirely automated. In this work, we study methods for generating large instruction datasets from a single prompt. With little human oversight, we get LLMs to write diverse sets of instruction examples ranging from simple completion tasks to complex multi-turn dialogs across a variety of subject areas. When finetuning a Llama-3 8B base model, our dataset meets or exceeds both WizardLM and Ultrachat on both knowledge-intensive leaderboard tasks as well as conversational evaluations. We release our dataset, the "generator" prompts that created it, and our finetuned model checkpoints.
翻訳日:2024-06-19 01:01:54 公開日:2024-06-14
# L4GM:大型4Dガウスモデル

L4GM: Large 4D Gaussian Reconstruction Model ( http://arxiv.org/abs/2406.10324v1 )

ライセンス: Link先を確認
Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling, (参考訳) L4GMは、シングルビューのビデオ入力からアニメーションオブジェクトを生成する最初の4D大再構成モデルです。 私たちの成功の鍵は、Objaverseのキュレーションされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。 このデータセットは、48の視点でレンダリングされた110Kのアニメーションを持つ44万の多様なオブジェクトを描いており、合計で3億のフレームを持つ1200万のビデオである。 L4GMは,マルチビュー画像入力から3次元ガウス楕円体を出力する事前訓練済みの3次元大規模再構成モデルである。 L4GMは、低fpsでサンプリングされたビデオフレームからフレームごとの3Dガウス分割表現を出力し、その表現を高fpsにアップサンプリングして時間的滑らか性を実現する。 時間的整合性学習を支援するため、ベースLGMに時間的自己アテンション層を追加し、タイムステップごとのマルチビューレンダリング損失を利用してモデルをトレーニングします。 この表現は、中間3次元ガウス表現を生成する補間モデルを訓練することにより、より高いフレームレートにアップサンプリングされる。 合成データのみを訓練したL4GMは、高品質なアニメーション3Dアセットを制作し、Wildビデオ上で非常によく一般化していることを示す。

We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# 音声テキストアライメントによる多言語音声毒性検出の強化

Enhancing Multilingual Voice Toxicity Detection with Speech-Text Alignment ( http://arxiv.org/abs/2406.10325v1 )

ライセンス: Link先を確認
Joseph Liu, Mahesh Kumar Nandwana, Janne Pylkkönen, Hannes Heikinheimo, Morgan McGuire, (参考訳) 音声の毒性分類は、音声の意味的内容に大きく依存する。 本稿では,クロスモーダル学習を利用して,テキストのセマンティック埋め込みを学習中の多言語音声毒性分類器に組み込む新しいフレームワークを提案する。 これにより、推論中にのみ音声を必要としながら、トレーニング中にテキスト情報を組み込むことができる。 本研究では,本フレームワークの有効性を検証するために,実世界の特徴を持つ大規模データセットを対象とした分類器の評価を行った。 アブレーション研究を通じて、汎用意味テキストの埋め込みがリッチで、有毒度分類のための音声と整合していることが実証された。 複数言語にまたがる実験を大規模に実施し、5言語にまたがる音声毒性分類の改善と異なる毒性分類を示す。

Toxicity classification for voice heavily relies on the semantic content of speech. We propose a novel framework that utilizes cross-modal learning to integrate the semantic embedding of text into a multilabel speech toxicity classifier during training. This enables us to incorporate textual information during training while still requiring only audio during inference. We evaluate this classifier on large-scale datasets with real-world characteristics to validate the effectiveness of this framework. Through ablation studies, we demonstrate that general-purpose semantic text embeddings are rich and aligned with speech for toxicity classification purposes. Conducting experiments across multiple languages at scale, we show improvements in voice toxicity classification across five languages and different toxicity categories.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# VANE-Bench:会話型LMMのためのビデオ異常評価ベンチマーク

VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs ( http://arxiv.org/abs/2406.10326v1 )

ライセンス: Link先を確認
Rohit Bharadwaj, Hanan Gani, Muzammal Naseer, Fahad Shahbaz Khan, Salman Khan, (参考訳) 近年の大規模マルチモーダルビデオモデル(ビデオ-LMM)の発展により,映像データの解釈・解析能力が大幅に向上した。 これらの優れた機能にもかかわらず、現在のビデオLMMは異常検出タスクには評価されていない。 本稿では,ビデオの異常や不整合の検出と位置決めにおいて,ビデオLMMの精度を評価するためのベンチマークであるVANE-Benchを紹介する。 我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオで構成され、様々な微妙な異常や不整合を包含し、不自然な変換、不自然な外観、パススルー、消失、突然の出現の5つのカテゴリに分類した。 さらに,本ベンチマークでは,犯罪関連異常,非定型歩行者行動,異常事象などに着目し,既存の異常検出データセットから実世界のサンプルを抽出した。 このタスクは、ビデオ内の異常を正確に検出し、ローカライズするモデルの能力を評価する視覚的質問応答チャレンジとして構成されている。 我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。 結論として、本研究では、異常検出領域におけるビデオLMMの現在の能力に関する重要な洞察を提供し、これらのモデルを現実世界のアプリケーションに対して評価し、改善する上での作業の重要性を強調している。 私たちのコードとデータはhttps://hananshafi.github.io/vane-benchmark/で公開されています。

The recent developments in Large Multi-modal Video Models (Video-LMMs) have significantly enhanced our ability to interpret and analyze video data. Despite their impressive capabilities, current Video-LMMs have not been evaluated for anomaly detection tasks, which is critical to their deployment in practical scenarios e.g., towards identifying deepfakes, manipulated video content, traffic accidents and crimes. In this paper, we introduce VANE-Bench, a benchmark designed to assess the proficiency of Video-LMMs in detecting and localizing anomalies and inconsistencies in videos. Our dataset comprises an array of videos synthetically generated using existing state-of-the-art text-to-video generation models, encompassing a variety of subtle anomalies and inconsistencies grouped into five categories: unnatural transformations, unnatural appearance, pass-through, disappearance and sudden appearance. Additionally, our benchmark features real-world samples from existing anomaly detection datasets, focusing on crime-related irregularities, atypical pedestrian behavior, and unusual events. The task is structured as a visual question-answering challenge to gauge the models' ability to accurately detect and localize the anomalies within the videos. We evaluate nine existing Video-LMMs, both open and closed sources, on this benchmarking task and find that most of the models encounter difficulties in effectively identifying the subtle anomalies. In conclusion, our research offers significant insights into the current capabilities of Video-LMMs in the realm of anomaly detection, highlighting the importance of our work in evaluating and improving these models for real-world applications. Our code and data is available at https://hananshafi.github.io/vane-benchmark/
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# ランダム行列理論によるマルチタスク回帰の解析と時系列予測への応用

Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting ( http://arxiv.org/abs/2406.10327v1 )

ライセンス: Link先を確認
Romain Ilbert, Malik Tiomoko, Cosme Louart, Ambroise Odonnat, Vasilii Feofanov, Themis Palpanas, Ievgen Redko, (参考訳) 本稿では,高次元非ガウスデータ分布下での高精度な性能推定を実現するために,確率行列理論を適用したマルチタスク回帰のための新しい理論フレームワークを提案する。 我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。 線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。 我々の分析は、マルチタスク学習性能を生データ共分散、信号発生超平面、ノイズレベル、データセットのサイズと数といった様々なモデル統計にリンクすることで、貴重な洞察を提供する。 最終的に、トレーニングとテストのエラーを一貫した推定を行い、マルチタスク回帰シナリオにおけるハイパーパラメータ最適化のための堅牢な基盤を提供する。 回帰および多変量時系列予測における合成データセットと実世界のデータセットの実験的検証は、単変量モデルの改善を示し、本手法をトレーニング損失に取り入れ、多変量情報を活用する。

In this paper, we introduce a novel theoretical framework for multi-task regression, applying random matrix theory to provide precise performance estimations, under high-dimensional, non-Gaussian data distributions. We formulate a multi-task optimization problem as a regularization technique to enable single-task models to leverage multi-task learning information. We derive a closed-form solution for multi-task optimization in the context of linear models. Our analysis provides valuable insights by linking the multi-task learning performance to various model statistics such as raw data covariances, signal-generating hyperplanes, noise levels, as well as the size and number of datasets. We finally propose a consistent estimation of training and testing errors, thereby offering a robust foundation for hyperparameter optimization in multi-task regression scenarios. Experimental validations on both synthetic and real-world datasets in regression and multivariate time series forecasting demonstrate improvements on univariate models, incorporating our method into the training loss and thus leveraging multivariate information.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# Pixelsからプロセプション:大容量の高解像度画像キャプチャー

From Pixels to Prose: A Large Dataset of Dense Image Captions ( http://arxiv.org/abs/2406.10328v1 )

ライセンス: Link先を確認
Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein, (参考訳) 大きな視覚言語モデルを訓練するには、広範囲で高品質な画像テキストペアが必要である。 しかし、既存のWebスクラッドデータセットはノイズが多く、詳細な画像記述がない。 このギャップを埋めるために、私たちはPixelProseを紹介します。これは1600万(数百万)以上の合成キャプションの包括的なデータセットで、最先端の視覚言語モデルを利用して詳細かつ正確な記述を行います。 データ整合性を確保するため、児童性虐待材料(CSAM)、個人識別情報(PII)、毒性など、問題のあるコンテンツのデータセットを厳格に分析する。 また、ウォーターマークの存在や美的スコアなどの貴重なメタデータも提供し、さらなるデータセットのフィルタリングを支援します。 PixelProseが将来のビジョン言語研究の貴重なリソースになることを願っている。 PixelProseはhttps://huggingface.co/datasets/tomg-group-umd/pixelproseで利用可能である。

Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# リニアフォトニックベル状態測定における量子配線の誤差低減のためのハイブリッドアプローチ

A Hybrid Approach to Mitigate Errors in Linear Photonic Bell-State Measurement for Quantum Interconnects ( http://arxiv.org/abs/2406.10331v1 )

ライセンス: Link先を確認
Beate E. Asenbeck, Akito Kawasaki, Ambroise Boyer, Tom Darras, Alban Urvoy, Akira Furusawa, Julien Laurat, (参考訳) 光量子情報処理は、量子通信と計算のためのユビキタスな演算であるベル状態測定に依存している。 その実用的実現には、光学モードの干渉と、区別できない方法で単一の光子を検出することが含まれる。 しかし、効率的な光子数分解能がなければ、多光子成分による誤差が生じ、プロセス全体の忠実度が低下する。 本稿では, オンオフ単光子検出とホモダイン検出による二次条件付けを併用した, ベル状態測定のための新しいハイブリッド検出手法を提案する。 我々は、この戦略を用いた量子テレポーテーションと絡み合わせスワッププロセスの明確な忠実さを導出し、その効果を実証する。 また、光子数分解検出器と比較し、幅広いパラメータのハイブリッドスキームの強力な利点を見出した。 この研究は、線形光学スキームのための新しいツールを提供し、量子状態工学と量子相互接続への応用を提供する。

Optical quantum information processing critically relies on Bell-state measurement, a ubiquitous operation for quantum communication and computing. Its practical realization involves the interference of optical modes and the detection of a single photon in an indistinguishable manner. Yet, in the absence of efficient photon-number resolution capabilities, errors arise from multi-photon components, decreasing the overall process fidelity. Here, we introduce a novel hybrid detection scheme for Bell-state measurement, leveraging both on-off single-photon detection and quadrature conditioning via homodyne detection. We derive explicit fidelities for quantum teleportation and entanglement swapping processes employing this strategy, demonstrating its efficacy. We also compare with photon-number resolving detectors and find a strong advantage of the hybrid scheme in a wide range of parameters. This work provides a new tool for linear optics schemes, with applications to quantum state engineering and quantum interconnects.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# オール・ツー・オールインタラクションを用いた高速かつ高精度GHZ符号化

Fast and Accurate GHZ Encoding Using All-to-all Interactions ( http://arxiv.org/abs/2406.10336v1 )

ライセンス: Link先を確認
Chao Yin, (参考訳) N$-qubit Greenberger-Horne-Zeilinger(GHZ)状態は量子技術にとって重要な資源である。 本稿では,全対全相互作用を用いたGHZ符号化の課題について考察する。これは特別な場合においてGHZ状態を準備し,量子誤り訂正や量子ビット相互作用の速度向上に有用である。 CNOTゲートの並列化に基づくナイーブプロトコルは、ハミルトンの進化に$\mathrm{O}(1)$-timeを必要とする。 本研究では,GHZ符号化を高精度に実現する高速プロトコルを提案する。 進化時間 $\mathrm{O}(\log^2N/N)$ は理論上の極限 $\Omega(\log N/N)$ をほぼ飽和させる。 さらに、最終状態は、高忠実度$> 1-10^{-3}$の理想エンコードされたものに近い。 このプロトコルは時間に依存しないハミルトン進化のほんの数段階しか必要とせず、鍵となるアイデアはデータキュービットを制御として使用し、eg2軸スイッチングによって生成される高速なスピンスクイーズダイナミクスを使用することである。

The $N$-qubit Greenberger-Horne-Zeilinger (GHZ) state is an important resource for quantum technologies. We consider the task of GHZ encoding using all-to-all interactions, which prepares the GHZ state in a special case, and is furthermore useful for quantum error correction and enhancing the rate of qubit interactions. The naive protocol based on parallelizing CNOT gates takes $\mathrm{O}(1)$-time of Hamiltonian evolution. In this work, we propose a fast protocol that achieves GHZ encoding with high accuracy. The evolution time $\mathrm{O}(\log^2N/N)$ almost saturates the theoretical limit $\Omega(\log N/N)$. Moreover, the final state is close to the ideal encoded one with high fidelity $> 1-10^{-3}$, up to large system sizes $N\lesssim 2000$. The protocol only requires a few stages of time-independent Hamiltonian evolution; the key idea is to use the data qubit as control, and to use fast spin-squeezing dynamics generated by e.g. two-axis-twisting.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# 系統雑音を伴うGroverアルゴリズムの位相と相転移

Phases and phase transition in Grover's algorithm with systematic noise ( http://arxiv.org/abs/2406.10344v1 )

ライセンス: Link先を確認
Sasanka Dowarah, Chuanwei Zhang, Vedika Khemani, Michael H. Kolodrubetz, (参考訳) マルコフ環境雑音による量子計算の制限は一般によく理解されているが、異なる量子回路や雑音実現に対するそれらの挙動は普遍的ではない。 ここでは、システマティックノイズの存在下で、標準量子アルゴリズム($L$ qubitsの未順序探索のためのグローバーのアルゴリズム)を考える。 これにより、ランダムなフロケットのユニタリとして振舞いを記述することができ、ランダム行列理論(RMT)によってうまくキャラクタリゼーションされていることを示す。 RMT解析は多体ダイナミクスの相転移と相転移の解析的予測を可能にする。 2つの異なる遷移がある。 中等度障害 $\delta_{c,\mathrm{gap}}\sim L^{-1}$ において、有限次元多様体が $\delta < \delta_{c,\mathrm{gap}}$ に対して非エルゴードとなるようなエルゴード性破壊遷移が存在する。 計算力はより小さな障害である$\delta_{c,\mathrm{comp}} \sim L^{-1/2}2^{-L/2}$で失われる。 我々は、コールド原子、閉じ込められたイオン、超伝導プラットフォームを含む現実的な量子コンピュータにおける非システムノイズとの関連についてコメントする。

While limitations on quantum computation by Markovian environmental noise are well-understood in generality, their behavior for different quantum circuits and noise realizations can be less universal. Here we consider a canonical quantum algorithm - Grover's algorithm for unordered search on $L$ qubits - in the presence of systematic noise. This allows us to write the behavior as a random Floquet unitary, which we show is well-characterized by random matrix theory (RMT). The RMT analysis enables analytical predictions for phases and phase transitions of the many-body dynamics. We find two separate transitions. At moderate disorder $\delta_{c,\mathrm{gap}}\sim L^{-1}$, there is a ergodicity breaking transition such that a finite-dimensional manifold remains non-ergodic for $\delta < \delta_{c,\mathrm{gap}}$. Computational power is lost at a much smaller disorder, $\delta_{c,\mathrm{comp}} \sim L^{-1/2}2^{-L/2}$. We comment on relevance to non-systematic noise in realistic quantum computers, including cold atom, trapped ion, and superconducting platforms.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# SigDiffusions:ログ署名埋め込みによる時系列のスコアベース拡散モデル

SigDiffusions: Score-Based Diffusion Models for Long Time Series via Log-Signature Embeddings ( http://arxiv.org/abs/2406.10354v1 )

ライセンス: Link先を確認
Barbora Barancikova, Zhuoyue Huang, Cristopher Salvi, (参考訳) スコアベース拡散モデルは最近、様々なデータモダリティのための最先端の生成モデルとして登場した。 しかしながら、これらのモデルが長い多変量時系列を生成するためにどのように適応するかは、まだ不明である。 時系列を基礎となる連続過程の離散化と見なして、データのログ署名埋め込みに基づく新しい拡散モデルであるSigDiffusionを導入する。 前方および後方の過程は徐々に摂動し、それらの代数構造を保存する対数符号を軽視する。 対数符号から信号を取り出すために,信号を所定の基底(例えばフーリエや直交多項式)で拡張した係数を,対数符号の明示的な多項式関数として表現した新しい閉形式逆変換式を提供する。 最後に、SigDiffusionとこれらの逆数式を組み合わせることで、実世界の様々なデータセットの最先端技術と競合する、非常に現実的な時系列生成が得られることを示す。

Score-based diffusion models have recently emerged as state-of-the-art generative models for a variety of data modalities. Nonetheless, it remains unclear how to adapt these models to generate long multivariate time series. Viewing a time series as the discretization of an underlying continuous process, we introduce SigDiffusion, a novel diffusion model operating on log-signature embeddings of the data. The forward and backward processes gradually perturb and denoise log-signatures preserving their algebraic structure. To recover a signal from its log-signature, we provide new closed-form inversion formulae expressing the coefficients obtained by expanding the signal in a given basis (e.g. Fourier or orthogonal polynomials) as explicit polynomial functions of the log-signature. Finally, we show that combining SigDiffusion with these inversion formulae results in highly realistic time series generation, competitive with the current state-of-the-art on various datasets of synthetic and real-world examples.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# なぜ既存のIoTトラフィックのリフォームが失敗するのか?

I Still See You: Why Existing IoT Traffic Reshaping Fails ( http://arxiv.org/abs/2406.10358v1 )

ライセンス: Link先を確認
Su Wang, Keyang Yu, Qi Li, Dong Chen, (参考訳) Internet of Things(IoT)デバイスが生成するインターネットトラフィックデータは、インターネットサービスプロバイダ(ISP)とデバイスメーカによって収集され、ユーザサービスの維持と強化のために第三者と共有されることが多い。 残念なことに、オンパスの敵は、これらのネットワークトラフィックトレースを分析して、占有やユーザアクティビティといった、ユーザの機密性の高いプライバシー情報を推測し、フィンガープリントすることができる。 このサイドチャネル攻撃によるIoTトラフィック分析(TA)に対する防御に関する文献が増えているが、これらの既存の研究の総合性を比較して評価するための体系的な方法はない。 この問題に対処するため、我々は新しい低コストでオープンソースのフレームワークであるIoT Traffic Exposure Monitoring Toolkit (ITEMTK)を設計し、事前の攻撃モデルとその防御アプローチを網羅的に検証し、検証できるようにする。 特に、ユーザがスマートホームで最も堅牢な予防対策を施した場合でも、センシティブなユーザ情報を推測できる画像ベースの新たな攻撃を設計する。 研究者たちは、新しい画像ベースの攻撃を利用して、IoTトラフィック分析攻撃に関する既存の文献を体系化し、理解し、研究を防ぐことができる。 以上の結果から,IoTデバイスのユーザのプライバシ保護には,現在の防御アプローチでは不十分であることが示唆された。 IoTデバイスは、新たなイメージベースのユーザプライバシ推論攻撃に対して、極めて脆弱であり、IoTデバイスのユーザのプライバシに重大な脅威をもたらします。 また、防衛アプローチを強化するための将来的な改善も強調します。 ITEMTKの柔軟性により、他の研究者は、新たなTA攻撃モデルを統合することで、将来の作業のベンチマークを行うことができる。

The Internet traffic data produced by the Internet of Things (IoT) devices are collected by Internet Service Providers (ISPs) and device manufacturers, and often shared with their third parties to maintain and enhance user services. Unfortunately, on-path adversaries could infer and fingerprint users' sensitive privacy information such as occupancy and user activities by analyzing these network traffic traces. While there's a growing body of literature on defending against this side-channel attack-malicious IoT traffic analytics (TA), there's currently no systematic method to compare and evaluate the comprehensiveness of these existing studies. To address this problem, we design a new low-cost, open-source system framework-IoT Traffic Exposure Monitoring Toolkit (ITEMTK) that enables people to comprehensively examine and validate prior attack models and their defending approaches. In particular, we also design a novel image-based attack capable of inferring sensitive user information, even when users employ the most robust preventative measures in their smart homes. Researchers could leverage our new image-based attack to systematize and understand the existing literature on IoT traffic analysis attacks and preventing studies. Our results show that current defending approaches are not sufficient to protect IoT device user privacy. IoT devices are significantly vulnerable to our new image-based user privacy inference attacks, posing a grave threat to IoT device user privacy. We also highlight potential future improvements to enhance the defending approaches. ITEMTK's flexibility allows other researchers for easy expansion by integrating new TA attack models and prevention methods to benchmark their future work.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# Estimandsフレームワークを用いたAI/ML評価の有効性と実用性の改善

Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework ( http://arxiv.org/abs/2406.10366v1 )

ライセンス: Link先を確認
Olivier Binette, Jerome P. Reiter, (参考訳) 一般的に、AIまたは機械学習(ML)モデルは、ベンチマークデータセットで評価される。 このプラクティスは革新的な方法論の研究をサポートするが、ベンチマークのパフォーマンスは実世界のアプリケーションのパフォーマンスとあまり相関しない。 評価の妥当性と実用性を向上させるため,国際臨床試験ガイドラインを応用した評価フレームワークを提案する。 このフレームワークは、評価における推測と報告のための体系的な構造を提供し、明確に定義された推定対象の重要性を強調する。 本稿では, クロスバリデーション, クラスタリング評価, LLMベンチマークなどの一般的な評価手法の例として, 性能差が大きい場合でも, 競合モデル(ランクリバーサル)の不正なランク付けを高い確率で行うことができることを示す。 我々は、推定フレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。 最終的に、このフレームワークは、より整合した推論によって評価の妥当性を改善し、意思決定者やモデル利用者が報告された結果をより効果的に解釈するのに役立つと信じている。

Commonly, AI or machine learning (ML) models are evaluated on benchmark datasets. This practice supports innovative methodological research, but benchmark performance can be poorly correlated with performance in real-world applications -- a construct validity issue. To improve the validity and practical usefulness of evaluations, we propose using an estimands framework adapted from international clinical trials guidelines. This framework provides a systematic structure for inference and reporting in evaluations, emphasizing the importance of a well-defined estimation target. We illustrate our proposal on examples of commonly used evaluation methodologies - involving cross-validation, clustering evaluation, and LLM benchmarking - that can lead to incorrect rankings of competing models (rank reversals) with high probability, even when performance differences are large. We demonstrate how the estimands framework can help uncover underlying issues, their causes, and potential solutions. Ultimately, we believe this framework can improve the validity of evaluations through better-aligned inference, and help decision-makers and model users interpret reported results more effectively.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# 不均一グラフに対する非交叉双曲表現学習

Disentangled Hyperbolic Representation Learning for Heterogeneous Graphs ( http://arxiv.org/abs/2406.10367v1 )

ライセンス: Link先を確認
Qijie Bai, Changli Nie, Haiwei Zhang, Zhicheng Dou, Xiaojie Yuan, (参考訳) 異種グラフは最近、複雑な現実世界のシステムを表現することに成功し、多くの研究の関心を集めている。 しかし、既存の手法では、構造情報と意味情報の混合と、データと埋め込み空間の間の分布ミスマッチという、低次元空間にそれらを埋め込む際の2つの問題点がある。 これらの2つの課題は、情報を解き放ちながら、大域的および部分的なデータ分布を考えるための表現方法を必要とする。 そこで本稿では,不整合ハイパーボリックグラフ畳み込みネットワークである $\text{Dis-H}^2\text{GCN}$ を提案する。 一方、相互情報の最小化と識別の最大化の制約を利用して、純粋な構造的特徴から離れて、各エッジタイプに対する独立したメッセージ伝搬による包括的に学習された表現から意味的特徴を解き放つ。 一方、モデル全体が双曲幾何学に基づいて構築され、データ分布と空間のギャップを狭める。 提案した$\text{Dis-H}^2\text{GCN}$は、ノード分類とリンク予測という2つの下流タスクにわたる5つの実世界の異種グラフデータセットに対して評価する。 以上の結果から, 双曲空間における異種グラフデータの解離と表現における手法の有効性を示すとともに, 最先端手法よりも優れていることを示す。

Heterogeneous graphs have attracted a lot of research interests recently due to the success for representing complex real-world systems. However, existing methods have two pain points in embedding them into low-dimensional spaces: the mixing of structural and semantic information, and the distributional mismatch between data and embedding spaces. These two challenges require representation methods to consider the global and partial data distributions while unmixing the information. Therefore, in this paper, we propose $\text{Dis-H}^2\text{GCN}$, a Disentangled Hyperbolic Heterogeneous Graph Convolutional Network. On the one hand, we leverage the mutual information minimization and discrimination maximization constraints to disentangle the semantic features from comprehensively learned representations by independent message propagation for each edge type, away from the pure structural features. On the other hand, the entire model is constructed upon the hyperbolic geometry to narrow the gap between data distributions and representing spaces. We evaluate our proposed $\text{Dis-H}^2\text{GCN}$ on five real-world heterogeneous graph datasets across two downstream tasks: node classification and link prediction. The results demonstrate its superiority over state-of-the-art methods, showcasing the effectiveness of our method in disentangling and representing heterogeneous graph data in hyperbolic spaces.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# 推論ショートカットの体系的評価のためのベンチマークスイート

A Benchmark Suite for Systematically Evaluating Reasoning Shortcuts ( http://arxiv.org/abs/2406.10368v1 )

ライセンス: Link先を確認
Samuele Bortolotti, Emanuele Marconato, Tommaso Carraro, Paolo Morettin, Emile van Krieken, Antonio Vergari, Stefano Teso, Andrea Passerini, (参考訳) 強力な神経分類器の出現は、学習と推論の両方を必要とする問題への関心を高めた。 これらの問題は、信頼性、一般化、解釈可能性、安全性と構造的制約へのコンプライアンスなど、モデルの重要な性質を理解するために重要である。 しかし、最近の研究では、背景知識の学習と推論の両方を必要とするタスクは推論ショートカット(RS)に悩まされることが多く、予測器は、適切な概念を高次元データに関連付けることなく、下流の推論タスクを解くことができる。 この問題に対処するため,RSの影響を受ける高度にカスタマイズ可能なタスクへの容易にアクセスを提供することで,モデルに対するRSの影響を体系的に評価する包括的なベンチマークスイートであるrsbenchを紹介した。 さらに、rsbenchは概念品質を評価するための共通の指標を実装し、学習タスクにおけるRSの存在を評価するための新しい形式的検証手順を導入する。 rsbenchを用いることで、純粋にニューラルモデルとニューラルシンボリックモデルの両方で高品質な概念を得るのは、解決から遠ざかる問題である、と強調する。 rsbench は以下の https://unitn-sml.github.io/rsbench で利用可能である。

The advent of powerful neural classifiers has increased interest in problems that require both learning and reasoning. These problems are critical for understanding important properties of models, such as trustworthiness, generalization, interpretability, and compliance to safety and structural constraints. However, recent research observed that tasks requiring both learning and reasoning on background knowledge often suffer from reasoning shortcuts (RSs): predictors can solve the downstream reasoning task without associating the correct concepts to the high-dimensional data. To address this issue, we introduce rsbench, a comprehensive benchmark suite designed to systematically evaluate the impact of RSs on models by providing easy access to highly customizable tasks affected by RSs. Furthermore, rsbench implements common metrics for evaluating concept quality and introduces novel formal verification procedures for assessing the presence of RSs in learning tasks. Using rsbench, we highlight that obtaining high quality concepts in both purely neural and neuro-symbolic models is a far-from-solved problem. rsbench is available at: https://unitn-sml.github.io/rsbench.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# Wild-GS: 制約のない写真コレクションからリアルタイムで新しいビューを合成する

Wild-GS: Real-Time Novel View Synthesis from Unconstrained Photo Collections ( http://arxiv.org/abs/2406.10373v1 )

ライセンス: Link先を確認
Jiacong Xu, Yiqun Mei, Vishal M. Patel, (参考訳) 非構造的な観光環境で撮影された写真は、しばしば異様の外観と過渡的な閉塞を示し、正確なシーンの再構築に挑戦し、新しいビューの合成においてアーティファクトを誘導する。 従来のアプローチでは、Neural Radiance Field(NeRF)と学習可能なモジュールを統合して、動的な外観を処理し、過渡的なオブジェクトを排除していたが、その広範なトレーニング要求とレンダリング速度によって、実用的なデプロイが制限された。 近年, 3D Gaussian Splatting (3DGS) が NeRF に代わる有望な代替品として登場し, 優れたトレーニングと推論効率, より優れたレンダリング品質を実現している。 本稿では,非拘束写真のコレクションに最適化された3DGSの革新的適応であるWild-GSについて述べる。 Wild-GSは、それぞれの3Dガウスの出現を、その固有の材料特性、大域照明と画像当たりのカメラ特性、反射率の点レベルの局所的ばらつきによって決定する。 画像空間における参照特徴をモデル化する従来の手法とは異なり、Wild-GSは参照画像から抽出したトリプレーンをサンプリングすることにより、ピクセルの外観特徴を対応する局所ガウスに明示的に整列させる。 この斬新な設計は、参照ビューの高周波詳細外観を3次元空間に効果的に転送し、トレーニングプロセスを大幅に高速化する。 さらに、2次元可視化マップと深度正規化を利用して、過渡効果を緩和し、幾何を制約する。 広汎な実験により、Wild-GSは最先端のレンダリング性能を達成し、既存のすべての技術の中でトレーニングと推論の双方において高い効率を達成している。

Photographs captured in unstructured tourist environments frequently exhibit variable appearances and transient occlusions, challenging accurate scene reconstruction and inducing artifacts in novel view synthesis. Although prior approaches have integrated the Neural Radiance Field (NeRF) with additional learnable modules to handle the dynamic appearances and eliminate transient objects, their extensive training demands and slow rendering speeds limit practical deployments. Recently, 3D Gaussian Splatting (3DGS) has emerged as a promising alternative to NeRF, offering superior training and inference efficiency along with better rendering quality. This paper presents Wild-GS, an innovative adaptation of 3DGS optimized for unconstrained photo collections while preserving its efficiency benefits. Wild-GS determines the appearance of each 3D Gaussian by their inherent material attributes, global illumination and camera properties per image, and point-level local variance of reflectance. Unlike previous methods that model reference features in image space, Wild-GS explicitly aligns the pixel appearance features to the corresponding local Gaussians by sampling the triplane extracted from the reference image. This novel design effectively transfers the high-frequency detailed appearance of the reference view to 3D space and significantly expedites the training process. Furthermore, 2D visibility maps and depth regularization are leveraged to mitigate the transient effects and constrain the geometry, respectively. Extensive experiments demonstrate that Wild-GS achieves state-of-the-art rendering performance and the highest efficiency in both training and inference among all the existing techniques.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# Mokav: LLMによる実行駆動差分テスト

Mokav: Execution-driven Differential Testing with LLMs ( http://arxiv.org/abs/2406.10375v1 )

ライセンス: Link先を確認
Khashayar Etemadi, Bardia Mohammadi, Zhendong Su, Martin Monperrus, (参考訳) 自動プログラム修復、突然変異テスト、コードリファクタリングなど、さまざまなソフトウェアエンジニアリングタスクにおける機能的な違いを検出することが不可欠である。 2つのプログラム間の機能的差異を検出する問題は、差分露光テスト (DET) の探索に還元できる。 本稿では,LDMを利用してDETを生成する新しい実行駆動ツールであるMokavを提案する。 Mokavはプログラムの2つのバージョン(PとQ)とサンプルテスト入力を取る。 成功すると、Mokavは有効なDETを生成し、P と Q の異なる出力につながるテスト入力を生成する。 私たちは、Codeforcesコンペティションプラットフォームから収集された1,535ペアのPythonプログラムと、QuixBugsデータセットから収集された32ペアのプログラムについて、Mokavを評価します。 実験の結果,Mokavは最先端のPynguin,differial Promptingをはるかに上回っていることがわかった。 Mokavは、ベンチマークでプログラムペアの81.7%(1,255/1,535)のDETを生成することができる(Pynguinは4.9%、差分プロンプトは37.3%)。 反復型および実行駆動型アプローチを含む,システム内のすべてのコンポーネントが,その高い有効性に寄与することを示す。

It is essential to detect functional differences in various software engineering tasks, such as automated program repair, mutation testing, and code refactoring. The problem of detecting functional differences between two programs can be reduced to searching for a difference exposing test (DET): a test input that results in different outputs on the subject programs. In this paper, we propose Mokav, a novel execution-driven tool that leverages LLMs to generate DETs. Mokav takes two versions of a program (P and Q) and an example test input. When successful, Mokav generates a valid DET, a test input that leads to different outputs on P and Q. Mokav iteratively prompts an LLM with a specialized prompt to generate new test inputs. At each iteration, Mokav provides execution-based feedback regarding previously generated tests until the LLM produces a DET. We evaluate Mokav on 1,535 pairs of Python programs collected from the Codeforces competition platform and 32 pairs of programs from the QuixBugs dataset. Our experiments show that Mokav outperforms the state-of-the-art, Pynguin and Differential Prompting, by a large margin. Mokav can generate DETs for 81.7% (1,255/1,535) of the program pairs in our benchmark (versus 4.9% for Pynguin and 37.3% for Differential Prompting). We demonstrate that all components in our system, including the iterative and execution-driven approaches, contribute to its high effectiveness.
翻訳日:2024-06-19 00:52:09 公開日:2024-06-14
# 局所位相障害緩和のための3次元相関イメージング

3D correlation imaging for localized phase disturbance mitigation ( http://arxiv.org/abs/2406.10377v1 )

ライセンス: Link先を確認
Francesco V. Pepe, Milena D'Angelo, (参考訳) 相関レンズ画像は、光の2次時空間相関を測定することにより、空間分解能を損なわない光場イメージングを行うための手法である。 物体から主レンズへの伝搬における位相乱れの影響を軽減するために相関レンズ画像を用いることの可能性を検討する。 この破壊効果は, 乱流媒質によるものであり, レンズから特定の距離で局所化し, 時間とともにゆっくりと変化すると仮定する。 乱流効果の緩和は、既に光場イメージングと相関イメージングの両方の手法の開発を促している。 そこで本研究では, 従来の鮮視画像装置に典型的な横方向分解能の損失を伴わずに, ゆるやかに変化する乱流の影響を克服するために, 相関光場イメージング法を提案する。

Correlation plenoptic imaging is a procedure to perform light-field imaging without spatial resolution loss, by measuring second-order spatio-temporal correlations of light. We investigate the possibility to use correlation plenoptic imaging to mitigate the effect of a phase disturbance in the propagation from the object to the main lens. We assume that this detrimental effect, that can be due to a turbulent medium, is localized at a specific distance from the lens, and is slowly varying in time. The mitigation of turbulence effects has already fostered the development of both light-field imaging and correlation imaging procedures. Here, we aim at merging these aspects, proposing a correlation light-field imaging method to overcome the effects of slowly varying turbulence, without the loss of lateral resolution, typical of traditional plenoptic imaging devices.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# LLMを用いた生成物のインターネットのための効率的なプロンプト

Efficient Prompting for LLM-based Generative Internet of Things ( http://arxiv.org/abs/2406.10382v1 )

ライセンス: Link先を確認
Bin Xiao, Burak Kantarci, Jiawen Kang, Dusit Niyato, Mohsen Guizani, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。 セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。 しかしながら、オープンソースのLLMは、算術計算や推論能力など、パフォーマンスに関する制限がより多く、IoTにLLMを適用する実践的なシステムは、まだ十分に研究されていない。 そこで本研究では,ローカルネットワーク環境に展開するテキストベースの生成IoT(GIoT)システムを提案する。 LLMの限界を緩和し、競争性能を提供するために、オープンソースのLLMの能力を高めるためにプロンプトエンジニアリング手法を適用し、プロンプト管理モジュールと後処理モジュールを設計し、異なるタスクの調整されたプロンプトを管理し、LLMが生成した結果を処理する。 提案手法の有効性を示すために,提案方式のケーススタディとして,テーブル質問回答(Table-QA)課題について論じる。 提案手法は2種類のTable-QAデータセットに対して総合的な実験を行い,提案手法は最先端のLCMと競合する性能を達成可能であることを示した。

Large language models (LLMs) have demonstrated remarkable capacities on various tasks, and integrating the capacities of LLMs into the Internet of Things (IoT) applications has drawn much research attention recently. Due to security concerns, many institutions avoid accessing state-of-the-art commercial LLM services, requiring the deployment and utilization of open-source LLMs in a local network setting. However, open-source LLMs usually have more limitations regarding their performance, such as their arithmetic calculation and reasoning capacities, and practical systems of applying LLMs to IoT have yet to be well-explored. Therefore, we propose a text-based generative IoT (GIoT) system deployed in the local network setting in this study. To alleviate the limitations of LLMs and provide service with competitive performance, we apply prompt engineering methods to enhance the capacities of the open-source LLMs, design a Prompt Management Module and a Post-processing Module to manage the tailored prompts for different tasks and process the results generated by the LLMs. To demonstrate the effectiveness of the proposed system, we discuss a challenging Table Question Answering (Table-QA) task as a case study of the proposed system, as tabular data is usually more challenging than plain text because of their complex structures, heterogeneous data types and sometimes huge sizes. We conduct comprehensive experiments on two popular Table-QA datasets, and the results show that our proposal can achieve competitive performance compared with state-of-the-art LLMs, demonstrating that the proposed LLM-based GIoT system can provide competitive performance with tailored prompting methods and is easily extensible to new tasks without training.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 回路QED用磁気抵抗超電導スパイラル共振器

Magnetic Field Tolerant Superconducting Spiral Resonators for Circuit QED ( http://arxiv.org/abs/2406.10386v1 )

ライセンス: Link先を確認
M. Medahinne, Y. P. Kandel, S. Thapa Magar, E. Champion, J. M. Nichol, M. S. Blok, (参考訳) 薄膜ニオブ(Nb)のスパイラル共振器を作製し, 形状インダクタンス, 高臨界磁場, 高光子品質特性を示す。 これらの低損失幾何学的インダクタは、磁場を必要とするアプリケーションのための高インピーダンス超伝導デバイスを作成するために、運動的インダクタに代わる魅力的な代替品となる。 スパイラルピッチを変化させることで、3.25-7.09 k{\Omega の特徴的なインピーダンスを持つ共振器を実現する。 我々は, 温度と磁場依存性の損失を測定し, 高インピーダンス共振器は1Tの並列磁界に対して10^5以上の固有品質を保ち, これらの特性は, 高インピーダンスおよび磁気抵抗の回路素子を必要とする量子デバイスにおいて, スパイラルNb共振器を有望な候補とする。

We present spiral resonators of thin film niobium (Nb) that exhibit large geometric inductance, high critical magnetic fields and high single photon quality factors. These low loss geometric inductors can be a compelling alternative to kinetic inductors to create high-impedance superconducting devices for applications that require magnetic fields. By varying the spiral pitch, we realize resonators with characteristic impedances ranging from 3.25-7.09 k{\Omega}. We measure the temperature and magnetic field dependent losses and find that the high-impedance resonators maintain an intrinsic quality factor above {\sim} 10^5 for parallel magnetic fields of up to 1 T. These properties make spiral Nb resonators a promising candidate for quantum devices that require circuit elements with high impedance and magnetic field resilience.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 量子エミッタのサブ波長アレイにおける相互作用格子偏光子と光非線形性へのグリーン関数アプローチ

Green's function approach to interacting lattice polaritons and optical nonlinearities in subwavelength arrays of quantum emitters ( http://arxiv.org/abs/2406.10387v1 )

ライセンス: Link先を確認
Simon Panyella Pedersen, Georg M. Bruun, Thomas Pohl, (参考訳) サブ波長の量子エミッタアレイは、超低温原子または二次元固体量子材料を用いて、コヒーレントな光マター対面に対する効率的な自由空間アプローチを提供する。 メソスコピックなエミッタ数に対する強い光子カップリングによる光子損失と出現する光非線形性の組み合わせは、非古典的な光の生成と自由な伝播光子間の工学的相互作用を約束する。 これまでのほとんどの研究は数値シミュレーションに頼っているが、非線形過程の解析的な研究を可能にする図式グリーンの関数アプローチについて説明する。 本稿では,2次元の量子エミッタアレイにおける光子-光子相互作用を記述する散乱行列の簡単な式を導出し,コヒーレントに駆動されたアレイの数値シミュレーションの結果を再現する。 このアプローチはシステムの非線形応答に対する直感的な洞察を与え、量子エミッタの2次元配列における相互作用光子の理論と多体効果の体系的発展のための有望な枠組みを提供する。

Sub-wavelength arrays of quantum emitters offer an efficient free-space approach to coherent light-matter interfacing, using ultracold atoms or two-dimensional solid-state quantum materials. The combination of collectively suppressed photon-losses and emerging optical nonlinearities due to strong photon-coupling to mesoscopic numbers of emitters holds promise for generating nonclassical light and engineering effective interactions between freely propagating photons. While most studies have thus far relied on numerical simulations, we describe here a diagrammatic Green's function approach that permits analytical investigations of nonlinear processes. We illustrate the method by deriving a simple expression for the scattering matrix that describes photon-photon interactions in an extended two-dimensional array of quantum emitters, and reproduces the results of numerical simulations of coherently driven arrays. The approach yields intuitive insights into the nonlinear response of the system and offers a promising framework for a systematic development of a theory for interacting photons and many-body effects on collective radiance in two-dimensional arrays of quantum emitters.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# BEACON: 包括的なRNAタスクと言語モデルのためのベンチマーク

BEACON: Benchmark for Comprehensive RNA Tasks and Language Models ( http://arxiv.org/abs/2406.10391v1 )

ライセンス: Link先を確認
Yuchen Ren, Zhiyuan Chen, Lifeng Qiao, Hongtai Jing, Yuchen Cai, Sheng Xu, Peng Ye, Xinzhu Ma, Siqi Sun, Hongliang Yan, Dong Yuan, Wanli Ouyang, Xihui Liu, (参考訳) RNAは、生物学的プロセスや疾患のメカニズムにおいて、遺伝子命令を機能的な結果に翻訳する上で重要な役割を担っている。 RNA、特に普遍的なRNA言語モデルに対する多くの深層学習アプローチが出現したが、これらの手法の有効性を評価するための標準ベンチマークが欠如している。 本研究では、最初の包括的なRNAベンチマークBEACON (\textbf{BE}nchm\textbf{A}rk for \textbf{CO}mprehensive R\textbf{N}A Task and Language Models)を紹介する。 まず、BEACONは構造解析、機能研究、工学的応用を網羅し、様々なRNA理解タスクにおけるメソッドの性能を総合的に評価する13のタスクからなる。 第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。 第3に、トークン化剤と位置エンコーディングの側面から、重要なRNA言語モデルコンポーネントについて検討する。 特に,従来の位置符号化法よりも単一ヌクレオチドのトークン化が優れていること,および線形ビアーゼ(ALiBi)による注意の有効性が注目された。 これらの知見に基づき、限られたデータと計算資源で優れた性能が得られるBEACON-Bと呼ばれる単純なベースラインが提案されている。 ベンチマークのデータセットとソースコードはhttps://github.com/terry-r123/RNABenchmarkで公開されている。

RNA plays a pivotal role in translating genetic instructions into functional outcomes, underscoring its importance in biological processes and disease mechanisms. Despite the emergence of numerous deep learning approaches for RNA, particularly universal RNA language models, there remains a significant lack of standardized benchmarks to assess the effectiveness of these methods. In this study, we introduce the first comprehensive RNA benchmark BEACON (\textbf{BE}nchm\textbf{A}rk for \textbf{CO}mprehensive R\textbf{N}A Task and Language Models). First, BEACON comprises 13 distinct tasks derived from extensive previous work covering structural analysis, functional studies, and engineering applications, enabling a comprehensive assessment of the performance of methods on various RNA understanding tasks. Second, we examine a range of models, including traditional approaches like CNNs, as well as advanced RNA foundation models based on language models, offering valuable insights into the task-specific performances of these models. Third, we investigate the vital RNA language model components from the tokenizer and positional encoding aspects. Notably, our findings emphasize the superiority of single nucleotide tokenization and the effectiveness of Attention with Linear Biases (ALiBi) over traditional positional encoding methods. Based on these insights, a simple yet strong baseline called BEACON-B is proposed, which can achieve outstanding performance with limited data and computational resources. The datasets and source code of our benchmark are available at https://github.com/terry-r123/RNABenchmark.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# EWEK-QA:Citation-based Question Answering SystemのためのWebと効率的な知識グラフ検索

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems ( http://arxiv.org/abs/2406.10393v1 )

ライセンス: Link先を確認
Mohammad Dehghan, Mohammad Ali Alomrani, Sunyam Bagga, David Alfonso-Hermelo, Khalil Bibi, Abbas Ghaddar, Yingxue Zhang, Xiaoguang Li, Jianye Hao, Qun Liu, Jimmy Lin, Boxing Chen, Prasanna Parthasarathi, Mahdi Biparva, Mehdi Rezagholizadeh, (参考訳) 新たな引用に基づくQAシステムは、特に生成的AI検索アプリケーションにおいて注目を集めている。 これらのシステムに提供される抽出された知識の重要性は、正確性(情報の完全性)と効率性(情報をタイムリーに抽出すること)の両方から不可欠である。 この点において、引用に基づくQAシステムは2つの欠点に悩まされている。 まず、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。 第二に、ウェブ検索されたコンテンツは通常、固定長やブレークポイントのような単純なヒューリスティックによって入手され、情報の断片化につながる可能性がある。 これらの問題を緩和するために、システムに供給された知識の内容を豊かにするための強化されたWebと効率的な知識グラフ(KG)検索ソリューション(EWEK-QA)を提案する。 これは、適応的なWebレトリバーを設計し、KGsトリプルを効率的な方法で組み込むことによって実現されている。 本研究では,オープンソースWebベースおよびKGベースラインモデルに対するEWEK-QAの有効性を,定量的および人為的評価実験の包括的なセットを用いて実証した。 まず、より関連性の高いパス(>20 %)、回答スパン(>25 %)、自己保持(>35 %)を抽出することで、WebのみおよびKGのみの SoTA ベースラインを改善する。

The emerging citation-based QA systems are gaining more attention especially in generative AI search applications. The importance of extracted knowledge provided to these systems is vital from both accuracy (completeness of information) and efficiency (extracting the information in a timely manner). In this regard, citation-based QA systems are suffering from two shortcomings. First, they usually rely only on web as a source of extracted knowledge and adding other external knowledge sources can hamper the efficiency of the system. Second, web-retrieved contents are usually obtained by some simple heuristics such as fixed length or breakpoints which might lead to splitting information into pieces. To mitigate these issues, we propose our enhanced web and efficient knowledge graph (KG) retrieval solution (EWEK-QA) to enrich the content of the extracted knowledge fed to the system. This has been done through designing an adaptive web retriever and incorporating KGs triples in an efficient manner. We demonstrate the effectiveness of EWEK-QA over the open-source state-of-the-art (SoTA) web-based and KG baseline models using a comprehensive set of quantitative and human evaluation experiments. Our model is able to: first, improve the web-retriever baseline in terms of extracting more relevant passages (>20\%), the coverage of answer span (>25\%) and self containment (>35\%); second, obtain and integrate KG triples into its pipeline very efficiently (by avoiding any LLM calls) to outperform the web-only and KG-only SoTA baselines significantly in 7 quantitative QA tasks and our human evaluation.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# BrainFounder: 神経画像解析のための脳基礎モデルを目指して

BrainFounder: Towards Brain Foundation Models for Neuroimage Analysis ( http://arxiv.org/abs/2406.10395v1 )

ライセンス: Link先を確認
Joseph Cox, Peng Liu, Skylar E. Stolte, Yunchao Yang, Kang Liu, Kyle B. See, Huiwen Ju, Ruogu Fang, (参考訳) 脳の健康研究の急成長する分野は、人工知能(AI)を活用して神経学的データを解釈し分析する。 本研究では,41,400人の参加者から得られた大規模マルチモーダル磁気共鳴画像(MRI)データセットを統合することにより,医療基盤モデルの構築に向けた新たなアプローチを提案する。 本稿では,視覚変換器を用いた2段階事前学習手法を提案する。 第1段階は、一般に健康な脳で解剖学的構造をコードし、異なる脳領域の形状や大きさなどの重要な特徴を特定することを目的としている。 第2段階は、位置や脳構造の相対的な位置といった側面を含む空間情報に集中する。 我々は、脳腫瘍分離(BraTS)課題とストロークv2.0(ATLAS v2.0)データセット後の解剖学的病変追跡(Anatomical Tracings of Lesions)を使用して、我々のモデルであるBrainFounderを厳格に評価する。 BrainFounderは、完全な教師付き学習を使用して、以前の勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を示す。 以上の結果から,MRIを用いた複雑な神経画像タスクにおけるモデルの精度と予測能力を高めるため,モデルの複雑さと,一般に健康な脳から得られるラベルなしトレーニングデータの量の両方をスケールアップする効果が示唆された。 本研究の意義は、医療における変革的洞察と実践的応用を提供し、医療AIの基礎モデルの構築に向けて大きな一歩を踏み出したものである。 事前トレーニングされたモデルとトレーニングコードは、https://github.com/lab-smile/GatorBrain.orgにある。

The burgeoning field of brain health research increasingly leverages artificial intelligence (AI) to interpret and analyze neurological data. This study introduces a novel approach towards the creation of medical foundation models by integrating a large-scale multi-modal magnetic resonance imaging (MRI) dataset derived from 41,400 participants in its own. Our method involves a novel two-stage pretraining approach using vision transformers. The first stage is dedicated to encoding anatomical structures in generally healthy brains, identifying key features such as shapes and sizes of different brain regions. The second stage concentrates on spatial information, encompassing aspects like location and the relative positioning of brain structures. We rigorously evaluate our model, BrainFounder, using the Brain Tumor Segmentation (BraTS) challenge and Anatomical Tracings of Lesions After Stroke v2.0 (ATLAS v2.0) datasets. BrainFounder demonstrates a significant performance gain, surpassing the achievements of the previous winning solutions using fully supervised learning. Our findings underscore the impact of scaling up both the complexity of the model and the volume of unlabeled training data derived from generally healthy brains, which enhances the accuracy and predictive capabilities of the model in complex neuroimaging tasks with MRI. The implications of this research provide transformative insights and practical applications in healthcare and make substantial steps towards the creation of foundation models for Medical AI. Our pretrained models and training code can be found at https://github.com/lab-smile/GatorBrain.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 2レベル量子系の相対位相と集団のリバースエンジニアリング制御

Reverse engineering control of relative phase and populations of two-level quantum systems ( http://arxiv.org/abs/2406.10399v1 )

ライセンス: Link先を確認
Felipe Silveira Fagundes, Emanuel Fernandes de Lima, (参考訳) 外部場による相対位相と2レベル量子系の集団の同時制御について考察する。 本稿では,人口と相対位相のダイナミクスを規定する2つのユーザ定義関数に依存する制御場の解析式を得るリバースエンジニアリング手法を適用する。 一般に、力学の所定の関数は任意に選択できないことを示す。 システムダイナミクスを特定するために,異なる種類の関数を用いて,複数のターゲット状態に到達するためのリバースエンジニアリング手法を実装した。 これらの動的関数を調整することで、異なる種類の制御場を生成できることが示される。 これらの制御は、動的関数自身とは別に、容易に構築し、必要とすることができる。 ここで提示される方法論は、単純な2段階のシステムを超えた多くのアプリケーションを見つけるだろう。

We consider the simultaneous control of the relative phase and populations of two-level quantum systems by an external field. We apply a reverse engineering approach, which allows obtaining an analytical expression for the control field depending upon two user-defined functions that dictate the population and the relative phase dynamics. We show that, in general, the prescribed functions for the dynamics cannot be chosen arbitrarily. We implement the reverse engineering technique to reach several target states using different kinds of functions to specify the system dynamics. We show that by adjusting these dynamical functions, we can produce different kinds of control fields. These controls can be easily build, needing, apart from the dynamical function themselves, only their derivatives. The methodology presented here will certainly find many applications that go beyond simple two-level systems.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 自己回帰の結果は、建設を加速させるのに敏感である

Self-Reflection Outcome is Sensitive to Prompt Construction ( http://arxiv.org/abs/2406.10400v1 )

ライセンス: Link先を確認
Fengyuan Liu, Nouar AlDahoul, Gregory Eady, Yasir Zaki, Bedoor AlShebli, Talal Rahwan, (参考訳) 大きな言語モデル(LLM)は、印象的なゼロショットと少数ショット推論機能を示している。 そのような機能は自己回帰によって改善できる、という意見もある。すなわち、LLMは初期応答の誤りを識別し修正するために、自身の出力を反映させる。 しかし、自己回帰の利点を示す証拠はいくつかあるが、近年の研究は様々な結果を出している。 そこで本研究では,まず,自己回帰の結果が迅速な語調に敏感であることを示すことによって,これらの矛盾する知見を整理することを目的としている。 したがって、リフレクションプロンプトにおける慣用性は、LLMが不必要に正しい応答を変更することにつながる可能性がある。 自己回帰文学で使われるほとんどのプロンプトがこのバイアスの傾向にあることを示す。 そこで我々は,誤りの特定に保守的なプロンプトの構築方法を提案し,そのようなプロンプトを用いた自己回帰がより高い精度をもたらすことを示す。 本研究は,自己回帰作業における迅速な工学の重要性を強調した。 コードをhttps://github.com/Michael98Liu/mixture-of-promptsでリリースします。

Large language models (LLMs) demonstrate impressive zero-shot and few-shot reasoning capabilities. Some propose that such capabilities can be improved through self-reflection, i.e., letting LLMs reflect on their own output to identify and correct mistakes in the initial responses. However, despite some evidence showing the benefits of self-reflection, recent studies offer mixed results. Here, we aim to reconcile these conflicting findings by first demonstrating that the outcome of self-reflection is sensitive to prompt wording; e.g., LLMs are more likely to conclude that it has made a mistake when explicitly prompted to find mistakes. Consequently, idiosyncrasies in reflection prompts may lead LLMs to change correct responses unnecessarily. We show that most prompts used in the self-reflection literature are prone to this bias. We then propose different ways of constructing prompts that are conservative in identifying mistakes and show that self-reflection using such prompts results in higher accuracy. Our findings highlight the importance of prompt engineering in self-reflection tasks. We release our code at https://github.com/Michael98Liu/mixture-of-prompts.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 自己教師型モデルと人間における話者同一性符号化の評価

Evaluating Speaker Identity Coding in Self-supervised Models and Humans ( http://arxiv.org/abs/2406.10401v1 )

ライセンス: Link先を確認
Gasser Elbanna, (参考訳) 話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、機械学習の進歩を通じて、社会的な応用においてますます利用されている。 話者識別知覚は、声を認識するか、声を区別するかの2つの主なタスクに広く還元できる重要な認知現象である。 いくつかの研究は、同一性知覚の音響的相関を、そのようなタスクの有意なパラメータをピンポイントで特定しようと試みている。 他のコミュニケーションの社会的信号とは異なり、ほとんどの努力は非効率な結論を導いた。 さらに、現在の音声識別処理の神経認知モデルでは、知覚の基盤を基本周波数、ハーモニクス-雑音比、フォルマント分散といった音響的次元と見なしている。 しかし、これらの知見は自然主義的発話と話者内変動を考慮に入れていない。 現在の自己教師型モデルの表現空間は、様々な音声関連タスクにおいて顕著な性能を示している。 本研究では、音響表現よりも話者識別において、異なる家族(例えば、生成的、コントラスト的、予測的モデル)の自己教師付き表現が著しく優れていることを示す。 また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。 話者識別精度を音響,音声,韻律,言語的変種で評価することにより,モデル性能と人間の同一性知覚との類似性を報告する。 さらに、モデルと人間のエンコーディング空間を近似することで、これらの類似性を検証し、話者近接のプロキシとして距離メトリクスを使うことに挑戦する。 最後に,自然刺激時の聴覚・言語領域の脳反応を予測できるモデルについて述べる。

Speaker identity plays a significant role in human communication and is being increasingly used in societal applications, many through advances in machine learning. Speaker identity perception is an essential cognitive phenomenon that can be broadly reduced to two main tasks: recognizing a voice or discriminating between voices. Several studies have attempted to identify acoustic correlates of identity perception to pinpoint salient parameters for such a task. Unlike other communicative social signals, most efforts have yielded inefficacious conclusions. Furthermore, current neurocognitive models of voice identity processing consider the bases of perception as acoustic dimensions such as fundamental frequency, harmonics-to-noise ratio, and formant dispersion. However, these findings do not account for naturalistic speech and within-speaker variability. Representational spaces of current self-supervised models have shown significant performance in various speech-related tasks. In this work, we demonstrate that self-supervised representations from different families (e.g., generative, contrastive, and predictive models) are significantly better for speaker identification over acoustic representations. We also show that such a speaker identification task can be used to better understand the nature of acoustic information representation in different layers of these powerful networks. By evaluating speaker identification accuracy across acoustic, phonemic, prosodic, and linguistic variants, we report similarity between model performance and human identity perception. We further examine these similarities by juxtaposing the encoding spaces of models and humans and challenging the use of distance metrics as a proxy for speaker proximity. Lastly, we show that some models can predict brain responses in Auditory and Language regions during naturalistic stimuli.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 本質的なトピック数の決定:それは可能か?

Determination of the Number of Topics Intrinsically: Is It Possible? ( http://arxiv.org/abs/2406.10402v1 )

ライセンス: Link先を確認
Victor Bulatov, Vasiliy Alekseev, Konstantin Vorontsov, (参考訳) トピックの数はトピックモデルの最も重要なパラメータかもしれない。 トピックモデリングコミュニティは、データセット内のトピック数を推定する様々な手順のセットを開発したが、既存のプラクティスの十分な完全な比較は行われていない。 本研究は,いくつかのトピックモデルに適用した様々な手法の性能を,公開されているコーパスで検証することにより,このギャップを部分的に埋める試みである。 さらなる分析により、本質的な手法は信頼性と正確性には程遠いことが示されている。 トピックの数は、特定のコーパスの絶対的な性質とは対照的に、メソッドとモデルに依存した量であることが示される。 我々は,この問題に対処する他の方法を開発し,今後の研究に向けて有望な方向性を提案する。

The number of topics might be the most important parameter of a topic model. The topic modelling community has developed a set of various procedures to estimate the number of topics in a dataset, but there has not yet been a sufficiently complete comparison of existing practices. This study attempts to partially fill this gap by investigating the performance of various methods applied to several topic models on a number of publicly available corpora. Further analysis demonstrates that intrinsic methods are far from being reliable and accurate tools. The number of topics is shown to be a method- and a model-dependent quantity, as opposed to being an absolute property of a particular corpus. We conclude that other methods for dealing with this problem should be developed and suggest some promising directions for further research.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# トレースバウンドSDPに対するサブ最適境界は、高速でスケーラブルな低ランクSDPソルバSDPLR+を可能にする

Suboptimality bounds for trace-bounded SDPs enable a faster and scalable low-rank SDP solver SDPLR+ ( http://arxiv.org/abs/2406.10407v1 )

ライセンス: Link先を確認
Yufan Huang, David F. Gleich, (参考訳) 半定プログラム(SDP)とその解法は、機械学習とデータサイエンスに多くの応用がある強力なツールである。 スケーラブルなSDPソルバの設計は、正の半定値決定変数が$n \times n$高密度行列であるのに対して、入力はしばしば$n \times n$スパース行列であるにもかかわらず、困難である。 しかし、この解の情報は、Bavinok と Pataki が示すように、フルランクの密度行列と一致しないかもしれない。 20年前、ブラーとモンテリオは、満行列の代わりに低ランクの分解を最適化するSDPソルバ $\texttt{SDPLR}$ を開発した。 これにより、ストレージコストが大幅に削減され、多くの問題に対してうまく機能する。 元の解法である $\texttt{SDPLR}$ は、解の原始的実現可能性のみをトラックし、適度な精度の解を生成するための技法の柔軟性を制限する。 我々は、トレースバウンドSDP問題に対するサブ最適性を用いて、進捗をよりよく追跡し、早期終了を可能にする。 次に$\texttt{SDPLR+}$を開発し、極端に低ランクな因数分解で最適化を開始し、原始的不実現性と準最適性に基づいてランクを動的に更新する。 これにより計算が高速化され、ストレージコストが削減される。 近年のメモリ効率のよいスケーラブルなSDPソルバでは、最大カット、最小分割、カットノルム、Lov\'{a}sz Theta問題に関する数値実験が行われ、そのスケーラビリティが100万の判定変数の問題に匹敵することを示した。

Semidefinite programs (SDPs) and their solvers are powerful tools with many applications in machine learning and data science. Designing scalable SDP solvers is challenging because by standard the positive semidefinite decision variable is an $n \times n$ dense matrix, even though the input is often an $n \times n$ sparse matrix. However, the information in the solution may not correspond to a full-rank dense matrix as shown by Bavinok and Pataki. Two decades ago, Burer and Monterio developed an SDP solver $\texttt{SDPLR}$ that optimizes over a low-rank factorization instead of the full matrix. This greatly decreases the storage cost and works well for many problems. The original solver $\texttt{SDPLR}$ tracks only the primal infeasibility of the solution, limiting the technique's flexibility to produce moderate accuracy solutions. We use a suboptimality bound for trace-bounded SDP problems that enables us to track the progress better and perform early termination. We then develop $\texttt{SDPLR+}$, which starts the optimization with an extremely low-rank factorization and dynamically updates the rank based on the primal infeasibility and suboptimality. This further speeds up the computation and saves the storage cost. Numerical experiments on Max Cut, Minimum Bisection, Cut Norm, and Lov\'{a}sz Theta problems with many recent memory-efficient scalable SDP solvers demonstrate its scalability up to problems with million-by-million decision variables and it is often the fastest solver to a moderate accuracy of $10^{-2}$.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 量子カロリー効果

Quantum caloric effects ( http://arxiv.org/abs/2406.10409v1 )

ライセンス: Link先を確認
Clebson Cruz, J. S. Amaral, Mario Reis, (参考訳) 量子熱力学は、古典的な限界を超えたエネルギー変換を促進するために量子的特徴を探求することを目的としている。 かなりの進歩があったが、量子系におけるカロリーポテンシャルの理解はいまだに不完全である。 この文脈において、この研究は、エレンフェストの定理の熱平均形式から得られる量子マックスウェル関係を発達させることにより、これらのカロリーポテンシャルの一般式を導出することに焦点を当てる。 その結果, 等温エントロピー変化は, 系の真の量子相関と関係があることが判明した。 したがって、この研究は量子システムのカロリー挙動と、そのカロリーデバイスにおける潜在的な応用を理解するための包括的な枠組みを提供する。

Quantum thermodynamics aims to explore quantum features to enhance energy conversion beyond classical limits. While significant progress has been made, the understanding of caloric potentials in quantum systems remains incomplete. In this context, this study focuses on deriving general expressions for these caloric potentials by developing a quantum Maxwell relationship obtained from a thermal average form of the Ehrenfest theorem. Our results recover the classical cases and also reveal that the isothermal entropy change can be related to genuine quantum correlations in the system. Thus, this work provides a comprehensive framework for understanding the caloric behavior of quantum systems and their potential applications in caloric devices.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 平衡近似による同時移動ゲームのための木探索

Tree Search for Simultaneous Move Games via Equilibrium Approximation ( http://arxiv.org/abs/2406.10411v1 )

ライセンス: Link先を確認
Ryan Yu, Alex Olshevsky, Peter Chin, (参考訳) ニューラルネットワークがサポートしている木探索は、さまざまな完全情報マルチエージェントタスクにおいて強力な結果を示している。 しかし、部分情報ゲームにおけるこれらの手法の性能は、一般に競合するアプローチよりも低い。 本稿では,完全情報ゲームに最も近い部分情報ゲームのサブクラスである同時移動ゲームのクラスについて検討する。 同時移動ゲームには、Google Research FootballやStarcraftなどの人気のあるベンチマークが含まれる。 本研究では,完全な情報設定から自己プレイを通じて学習した木探索アルゴリズムを,パフォーマンスを著しく損なうことなく同時移動ゲームに適応させることができるか? 我々は,木探索において,粗相関平衡をサブルーチンとして近似しようとする実践的手法を導出することによって,この問題に答える。 我々のアルゴリズムは協調的、競争的、混合的なタスクで機能する。 我々の結果は、広く受け入れられているベースライン環境において、現在の最高のMARLアルゴリズムよりも優れている。

Neural network supported tree-search has shown strong results in a variety of perfect information multi-agent tasks. However, the performance of these methods on partial information games has generally been below competing approaches. Here we study the class of simultaneous-move games, which are a subclass of partial information games which are most similar to perfect information games: both agents know the game state with the exception of the opponent's move, which is revealed only after each agent makes its own move. Simultaneous move games include popular benchmarks such as Google Research Football and Starcraft. In this study we answer the question: can we take tree search algorithms trained through self-play from perfect information settings and adapt them to simultaneous move games without significant loss of performance? We answer this question by deriving a practical method that attempts to approximate a coarse correlated equilibrium as a subroutine within a tree search. Our algorithm works on cooperative, competitive, and mixed tasks. Our results are better than the current best MARL algorithms on a wide range of accepted baseline environments.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# 超軽量ダークマターの量子特性のキャラクタリゼーション-オープン量子系アプローチ

Characterizing the quantum properties of ultralight dark matter -- an open quantum systems approach ( http://arxiv.org/abs/2406.10412v1 )

ライセンス: Link先を確認
Jose-Daniel Bernal, Ryan B. Petery, K. J. Joven, Swati Singh, (参考訳) ダークマターの構成成分とそれらの通常の物質との相互作用に関する洞察を得ることは、幅広い実験的努力を刺激している。 いくつかのアプローチ、特にウルトラライトボソニックダークマター(UBDM)フィールドの探索には、量子力学によって課される制限で実行される量子システムの使用や測定が含まれる。 UBDMとその検出器の古典的な処理は満足できるが、完全な量子記述は将来の検出戦略の開発に役立つだろう。 ここでは、検出プロセス自体の量子的性質を直観しながら、これを達成できるオープン量子システムを提案する。 さらに、UBDM場の統計特性を特徴付けるために、光コヒーレンスの量子理論を適用する。 代表的な例を用いて, この理論処理は, UBDMフィールドの宇宙発生機構とその銀河融合史のサインを明らかにすることにつながることを示す。 この研究は、量子光学からツールを適応させることで、相関測定から天体物理学的な関連情報を抽出する新しい方法の開発を促進する。

Obtaining insight into the constituents of dark matter and their interactions with normal matter has inspired a wide range of experimental efforts. Several approaches, particularly those involving searches for ultralight bosonic dark matter (UBDM) fields, involve the use of quantum systems or measurements performed at the limits imposed by quantum mechanics. While a classical treatment of UBDM and its detectors is satisfactory, a fully quantum description would assist in developing future detection strategies. Here, we present an open quantum systems approach that accomplishes this while providing intuition into the quantum nature of the detection process itself. Furthermore, we apply the quantum theory of optical coherence to characterize the statistical properties of the UBDM field. Using representative examples, we show that this theoretical treatment has implications in uncovering signatures of the cosmological production mechanism of the UBDM field and its galactic merger history. By adapting tools from quantum optics, this work will help facilitate the creation of novel methods to extract astrophysically relevant information from correlation measurements.
翻訳日:2024-06-19 00:42:24 公開日:2024-06-14
# PRISM: オープンソースファウンデーションモデル安全性のための設計フレームワーク

PRISM: A Design Framework for Open-Source Foundation Model Safety ( http://arxiv.org/abs/2406.10415v1 )

ライセンス: Link先を確認
Terrence Neumann, Bryan Jones, (参考訳) オープンソース基盤モデルの急速な進歩は、この画期的な技術に透明性とアクセシビリティをもたらした。 しかし、このオープン性は、犯罪活動を促進するために特別に設計されたWormGPTやFraudGPTといった最近の事例で実証されているように、高機能で安全でないモデルの開発を可能にした。 オープンファンデーションモデルの能力が成長し続け、クローズドソースモデルの能力を上回る可能性があるため、悪いアクターによる誤用のリスクは、社会にますます深刻な脅威をもたらす。 本稿では,これらの課題を踏まえて,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきかという批判的な疑問に対処する。 分析の結果,オープンソースファウンデーション・モデル企業は,オープンソース・モデルのリリース時にそのようなポリシーを施行することが本質的に困難であることから,オープン・ソース・モデルに比べて制約の少ない利用ポリシー(AUP)を提供することが多いことが判明した。 この問題に対処するために、PRISMはオープンソースのファンデーションモデル安全性のための設計フレームワークであり、最小限の計算コストでプライベート、ロバスト、独立安全対策を強調する。 PRISMフレームワークは、コア言語モデルとは独立してプロンプトと出力を適度に行うモジュール関数の使用を提案し、現在値アライメントに使われている脆弱な強化学習手法と比較して、より適応性が高く、安全性に優れたアプローチを提供する。 PRISMは、AUP違反の特定と、安全設計決定に関するコンセンサスを確立するための開発者コミュニティの関与に焦点を当てることで、これらの強力な技術の可能性を最大化しつつ、個人や社会全体のリスクを最小限にする、より安全なオープンソースエコシステムの構築を目指している。

The rapid advancement of open-source foundation models has brought transparency and accessibility to this groundbreaking technology. However, this openness has also enabled the development of highly-capable, unsafe models, as exemplified by recent instances such as WormGPT and FraudGPT, which are specifically designed to facilitate criminal activity. As the capabilities of open foundation models continue to grow, potentially outpacing those of closed-source models, the risk of misuse by bad actors poses an increasingly serious threat to society. This paper addresses the critical question of how open foundation model developers should approach model safety in light of these challenges. Our analysis reveals that open-source foundation model companies often provide less restrictive acceptable use policies (AUPs) compared to their closed-source counterparts, likely due to the inherent difficulties in enforcing such policies once the models are released. To tackle this issue, we introduce PRISM, a design framework for open-source foundation model safety that emphasizes Private, Robust, Independent Safety measures, at Minimal marginal cost of compute. The PRISM framework proposes the use of modular functions that moderate prompts and outputs independently of the core language model, offering a more adaptable and resilient approach to safety compared to the brittle reinforcement learning methods currently used for value alignment. By focusing on identifying AUP violations and engaging the developer community in establishing consensus around safety design decisions, PRISM aims to create a safer open-source ecosystem that maximizes the potential of these powerful technologies while minimizing the risks to individuals and society as a whole.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# Byzantine-Robust分散フェデレーションラーニング

Byzantine-Robust Decentralized Federated Learning ( http://arxiv.org/abs/2406.10416v1 )

ライセンス: Link先を確認
Minghong Fang, Zifan Zhang, Hairi, Prashant Khanduri, Jia Liu, Songtao Lu, Yuchen Liu, Neil Gong, (参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートトレーニングデータを公開せずに、機械学習モデルを協調的にトレーニングすることを可能にする。 従来のFLでは、システムはサーバ支援アーキテクチャ(サーバ支援FL)に従い、トレーニングプロセスは中央サーバによって調整される。 しかし、サーバ支援のFLフレームワークは、サーバでの通信ボトルネックと依存関係の問題によりスケーラビリティの低下に悩まされている。 課題に対処するため、クライアントがサーバレスとピアツーピアの方法でモデルを協調的にトレーニングできるようにするために、分散フェデレーションラーニング(DFL)アーキテクチャが提案されている。 しかし、完全に分散した性質のため、DFLは有害な攻撃に対して非常に脆弱であり、悪意のあるクライアントは、近隣のクライアントに慎重に構築されたローカルモデルを送信することでシステムを操作できる。 現在では限られた数のビザンチン・ローバストDFL法が提案されており、そのほとんどは通信効率が良くないか、先進的な毒殺攻撃に弱いままである。 本稿では,DFLにおける毒殺対策として,BALANCE (Byzantine-robust averaging through local similarity in decentralization) というアルゴリズムを提案する。 BALANCEでは、各クライアントは独自のローカルモデルを類似参照として利用し、受信したモデルが悪意があるか良性があるかを判断する。 我々は, 強凸および非凸の双方において, 毒性攻撃下でのBALANCEの理論的収束保証を確立する。 さらに、毒殺攻撃によるBALANCEの収束率は、ビザンチンフリー環境での最先端のものと一致している。 大規模な実験は、BALANCEが既存のDFL法より優れており、効果的に中毒攻撃を防いでいることも示している。

Federated learning (FL) enables multiple clients to collaboratively train machine learning models without revealing their private training data. In conventional FL, the system follows the server-assisted architecture (server-assisted FL), where the training process is coordinated by a central server. However, the server-assisted FL framework suffers from poor scalability due to a communication bottleneck at the server, and trust dependency issues. To address challenges, decentralized federated learning (DFL) architecture has been proposed to allow clients to train models collaboratively in a serverless and peer-to-peer manner. However, due to its fully decentralized nature, DFL is highly vulnerable to poisoning attacks, where malicious clients could manipulate the system by sending carefully-crafted local models to their neighboring clients. To date, only a limited number of Byzantine-robust DFL methods have been proposed, most of which are either communication-inefficient or remain vulnerable to advanced poisoning attacks. In this paper, we propose a new algorithm called BALANCE (Byzantine-robust averaging through local similarity in decentralization) to defend against poisoning attacks in DFL. In BALANCE, each client leverages its own local model as a similarity reference to determine if the received model is malicious or benign. We establish the theoretical convergence guarantee for BALANCE under poisoning attacks in both strongly convex and non-convex settings. Furthermore, the convergence rate of BALANCE under poisoning attacks matches those of the state-of-the-art counterparts in Byzantine-free settings. Extensive experiments also demonstrate that BALANCE outperforms existing DFL methods and effectively defends against poisoning attacks.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# UAVネットワークにおけるマルチクラス分類のための侵入検知システム

Enhanced Intrusion Detection System for Multiclass Classification in UAV Networks ( http://arxiv.org/abs/2406.10417v1 )

ライセンス: Link先を確認
Safaa Menssouri, Mamady Delamou, Khalil Ibrahimi, El Mehdi Amhoud, (参考訳) 無人航空機(UAV)は、特に6Gシステムやネットワークの出現により、様々な用途で人気が高まっている。 しかし、その普及によりセキュリティ上の脆弱性も懸念され、UAVの安全性とミッション成功を保証するために信頼性の高い侵入検知システム(IDS)の開発が不可欠となった。 本稿では,UAVネットワークのための新しいIDSを提案する。 クラスラベルのエンコードにはバイナリタプル表現が用いられ、クラス分類にはディープラーニングに基づくアプローチが用いられた。 提案システムは,複雑なクラス関係と時間的ネットワークパターンをキャプチャすることで,侵入検出を強化する。 さらに、異なるUAVの共通特徴間の相互相関研究を行い、提案したIDSの分類を誤解させる可能性のある相関特徴を破棄した。 UAV-IDS-2020データセットを用いて全調査を行い,異なる評価指標を用いて提案したIDSの性能評価を行った。 実験の結果,95%の精度で提案したマルチクラス分類器モデルの有効性が示された。

Unmanned Aerial Vehicles (UAVs) have become increasingly popular in various applications, especially with the emergence of 6G systems and networks. However, their widespread adoption has also led to concerns regarding security vulnerabilities, making the development of reliable intrusion detection systems (IDS) essential for ensuring UAVs safety and mission success. This paper presents a new IDS for UAV networks. A binary-tuple representation was used for encoding class labels, along with a deep learning-based approach employed for classification. The proposed system enhances the intrusion detection by capturing complex class relationships and temporal network patterns. Moreover, a cross-correlation study between common features of different UAVs was conducted to discard correlated features that might mislead the classification of the proposed IDS. The full study was carried out using the UAV-IDS-2020 dataset, and we assessed the performance of the proposed IDS using different evaluation metrics. The experimental results highlighted the effectiveness of the proposed multiclass classifier model with an accuracy of 95%.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 不均一なインターベンショナル時系列データを統合するフレキシブル・タイムウィンド・グランガー因果関係の学習

Learning Flexible Time-windowed Granger Causality Integrating Heterogeneous Interventional Time Series Data ( http://arxiv.org/abs/2406.10419v1 )

ライセンス: Link先を確認
Ziyi Zhang, Shaogang Ren, Xiaoning Qian, Nick Duffield, (参考訳) 時系列データから因果構造を推定するために一般的に使用されるグランガー因果関係は、直感的な説明可能性と、新たな深層ニューラルネットワーク予測モデルとの高互換性のため、様々な分野に広く応用されている。 時系列から不明瞭に因果構造を解読する上での課題を軽減するため、介入データの使用は実践的なアプローチとなっている。 しかし、既存の手法は未知のターゲットに対する不完全な介入の文脈ではまだ研究されていない。 さらに、複雑なネットワークモデルにおける未知の介入対象を持つGranger因果関係の識別可能性問題は未解決のままである。 本研究では,Granger因果構造を推定し,不均一な介入時系列データを活用することによって未知のターゲットを同定する理論的手法を提案する。 さらに,グランガー因果構造の学習と介入対象の回復が相互に促進できることを示す。 比較実験により,本手法は介入時系列データからGranger因果構造を学習する上で,いくつかの頑健なベースライン法より優れていることが示された。

Granger causality, commonly used for inferring causal structures from time series data, has been adopted in widespread applications across various fields due to its intuitive explainability and high compatibility with emerging deep neural network prediction models. To alleviate challenges in better deciphering causal structures unambiguously from time series, the use of interventional data has become a practical approach. However, existing methods have yet to be explored in the context of imperfect interventions with unknown targets, which are more common and often more beneficial in a wide range of real-world applications. Additionally, the identifiability issues of Granger causality with unknown interventional targets in complex network models remain unsolved. Our work presents a theoretically-grounded method that infers Granger causal structure and identifies unknown targets by leveraging heterogeneous interventional time series data. We further illustrate that learning Granger causal structure and recovering interventional targets can mutually promote each other. Comparative experiments demonstrate that our method outperforms several robust baseline methods in learning Granger causal structure from interventional time series data.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# SciEx: 人間の専門的なグラデーションと自動グラデーションによる科学実験における大規模言語モデルのベンチマーク

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading ( http://arxiv.org/abs/2406.10421v1 )

ライセンス: Link先を確認
Tu Anh Dinh, Carlos Mullov, Leonard Bärmann, Zhaolin Li, Danni Liu, Simon Reiß, Jueun Lee, Nathan Lerzer, Fabian Ternava, Jianfeng Gao, Alexander Waibel, Tamim Asfour, Michael Beigl, Rainer Stiefelhagen, Carsten Dachsbacher, Klemens Böhm, Jan Niehues, (参考訳) LLM(Large Language Models)の急速な発展に伴い、異なるドメインにおけるLLMの能力を評価するためのベンチマークが不可欠である。 LLMの一般的な用途の1つは、アルゴリズムの作成、データベースのクエリ、数学的証明など、科学的なトピックに関するタスクを実行することである。 本稿では,このような課題に対する大学生の評価の仕方から着想を得たSciExを提案する。 SciExは、(1)英語とドイツ語の両方の試験を含む多言語言語であり、(2)画像を含む質問を含むマルチモーダルであり、(3)大学試験の性質から、難易度が異なる様々な種類のフリーフォーム質問を含む。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。 SciEx の質問は自由形式であるため LLM の性能を評価することは容易ではない。 そこで我々は,SciEx 上での LLM 出力の人間の専門家による評価を行った。 我々は、SciExのフリーフォーム試験が、現在、最高のLLMが平均59.4\%の試験成績しか達成していないLLMにとって、依然として挑戦的であることを示した。 また,SciEx 上での LLM 性能と学生成績の詳細な比較を行った。 SciEx 上で LLM 回答を評価できる LLM-as-a-judge を提案する。 実験の結果,LLMは試験の解法において完璧に機能するわけではないが,中等生として適しており,Pearson とエキスパートの成績の相関は0.948であることがわかった。

With the rapid development of Large Language Models (LLMs), it is crucial to have benchmarks which can evaluate the ability of LLMs on different domains. One common use of LLMs is performing tasks on scientific topics, such as writing algorithms, querying databases or giving mathematical proofs. Inspired by the way university students are evaluated on such tasks, in this paper, we propose SciEx - a benchmark consisting of university computer science exam questions, to evaluate LLMs ability on solving scientific tasks. SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams. We evaluate the performance of various state-of-the-art LLMs on our new benchmark. Since SciEx questions are freeform, it is not straightforward to evaluate LLM performance. Therefore, we provide human expert grading of the LLM outputs on SciEx. We show that the free-form exams in SciEx remain challenging for the current LLMs, where the best LLM only achieves 59.4\% exam grade on average. We also provide detailed comparisons between LLM performance and student performance on SciEx. To enable future evaluation of new LLMs, we propose using LLM-as-a-judge to grade the LLM answers on SciEx. Our experiments show that, although they do not perform perfectly on solving the exams, LLMs are decent as graders, achieving 0.948 Pearson correlation with expert grading.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 人間とマルチモーダルLLMの視覚的認識ギャップとは?

What is the Visual Cognition Gap between Humans and Multimodal LLMs? ( http://arxiv.org/abs/2406.10424v1 )

ライセンス: Link先を確認
Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai Chen, Jianguo Cao, James M. Rehg, (参考訳) 近年、MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出といった言語誘導の知覚タスクにおいて大きな可能性を示している。 しかし、高レベルの推論を必要とする視覚認知問題に対処する効果は十分に確立されていない。 このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。 このスキルは、幼児の神経発達の初期段階において不可欠である。 本稿では,Raven's Progressive Matrices (RPM) とWechsler Intelligence Scale for Children (WISC) のAVRタスクに触発された新しいデータセット MaRs-VQA と3つのデータセットを含むベンチマーク VCog-Bench を提案する。 VCog-Bench上でのオープンソースとクローズドソースのMLLMの比較実験では,MLLMと人間の知能のギャップが明らかになり,現在のMLLMの視覚的認知的限界が強調された。 我々は、MaRs-VQAからなるVCog-Benchのパブリックリリースと推論パイプラインが、人間のような視覚認知能力を持つ次世代MLLMに向けて前進すると考えている。

Recently, Multimodal Large Language Models (MLLMs) have shown great promise in language-guided perceptual tasks such as recognition, segmentation, and object detection. However, their effectiveness in addressing visual cognition problems that require high-level reasoning is not well-established. One such challenge is abstract visual reasoning (AVR) -- the cognitive ability to discern relationships among patterns in a set of images and extrapolate to predict subsequent patterns. This skill is crucial during the early neurodevelopmental stages of children. Inspired by the AVR tasks in Raven's Progressive Matrices (RPM) and Wechsler Intelligence Scale for Children (WISC), we propose a new dataset MaRs-VQA and a new benchmark VCog-Bench containing three datasets to evaluate the zero-shot AVR capability of MLLMs and compare their performance with existing human intelligent investigation. Our comparative experiments with different open-source and closed-source MLLMs on the VCog-Bench revealed a gap between MLLMs and human intelligence, highlighting the visual cognitive limitations of current MLLMs. We believe that the public release of VCog-Bench, consisting of MaRs-VQA, and the inference pipeline will drive progress toward the next generation of MLLMs with human-like visual cognition abilities.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 転送可能性モデリングによるグラフ上のマルチソース非教師付きドメイン適応

Multi-source Unsupervised Domain Adaptation on Graphs with Transferability Modeling ( http://arxiv.org/abs/2406.10425v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Dongsheng Luo, Xiang Zhang, Suhang Wang, (参考訳) 本稿では、ノード分類のために、アノテーション付きソースドメインで訓練されたモデルを教師なしターゲットグラフに転送する必要があるグラフに対するtextit{multi-source unsupervised domain adaptation (MSUDA) という新しい問題に取り組む。 ドメイン間の分散の相違により、重要な課題は、どのように優れたソースインスタンスを選択し、モデルを適応させるかである。 様々なグラフ構造がこの問題をさらに複雑にし、以前の MSUDA のアプローチはより効果的でない。 本稿では、グラフモデリングに基づくドメインセレクタ、サブグラフノードセレクタ、および適応のための双方向アライメント目的を備えたSelective Multi-source Adaptation for Graph ({\method})を提案する。 具体的には、情報ソースデータの識別を容易にするため、グラフ間の類似性は、グラフモデリングタスクセットの転送可能性によって切り離され、測定され、ソースドメイン選択の証拠として使用される。 ノードセレクタは、同じソースドメイン内のノードの転送可能性の変化をキャプチャするために、さらに組み込まれている。 適応のための不変な特徴を学習するために、最適な輸送距離を最小化し、ラベル関数を蒸留することで分類レベルを最小化し、選択したソースデータにターゲット領域を合わせる。 モジュールは、情報ソースデータを選択し、メタ学習戦略で仮想トレーニングスプリットのアライメントを実行するように明示的に学習される。 5つのグラフデータセットに対する実験結果から,提案手法の有効性が示された。

In this paper, we tackle a new problem of \textit{multi-source unsupervised domain adaptation (MSUDA) for graphs}, where models trained on annotated source domains need to be transferred to the unsupervised target graph for node classification. Due to the discrepancy in distribution across domains, the key challenge is how to select good source instances and how to adapt the model. Diverse graph structures further complicate this problem, rendering previous MSUDA approaches less effective. In this work, we present the framework Selective Multi-source Adaptation for Graph ({\method}), with a graph-modeling-based domain selector, a sub-graph node selector, and a bi-level alignment objective for the adaptation. Concretely, to facilitate the identification of informative source data, the similarity across graphs is disentangled and measured with the transferability of a graph-modeling task set, and we use it as evidence for source domain selection. A node selector is further incorporated to capture the variation in transferability of nodes within the same source domain. To learn invariant features for adaptation, we align the target domain to selected source data both at the embedding space by minimizing the optimal transport distance and at the classification level by distilling the label function. Modules are explicitly learned to select informative source data and conduct the alignment in virtual training splits with a meta-learning strategy. Experimental results on five graph datasets show the effectiveness of the proposed method.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 時間グラフに基づく基礎モデルのニューラルスケーリング法則に向けて

Towards Neural Scaling Laws for Foundation Models on Temporal Graphs ( http://arxiv.org/abs/2406.10426v1 )

ライセンス: Link先を確認
Razieh Shirzadkhani, Tran Gia Bao Ngo, Kiarash Shamsi, Shenyang Huang, Farimah Poursafaei, Poupak Azad, Reihaneh Rabbany, Baris Coskunuzer, Guillaume Rabusseau, Cuneyt Gurcan Akcora, (参考訳) 時間グラフ学習の分野は、ネットワークデータの進化から将来の相互作用を予測することを目的としている。 観測された時間グラフの集合を考えると、同じ領域から目に見えないネットワークの進化を予測することは可能だろうか? この質問に答えるために、2017年から2023年にかけて収集された85のERC20トークントランザクションネットワークからなる、時間グラフの大規模なコレクションであるテンポラルグラフスケーリング(TGS)データセットを最初に提示する。 次に、時間グラフ特性予測タスクにおける時間グラフニューラルネットワーク(TGNN)の転送性について、最大64個のトークントランザクションネットワークのコレクションを事前学習し、20個の未確認トークンネットワーク上でのダウンストリーム性能を評価する。 NLPやComputer Visionで観測されるニューラルネットワークのスケーリング法則は、時間グラフ学習にも適用され、より多くのネットワークで事前学習することで、下流のパフォーマンスが向上する。 我々の知る限りでは、これは時間グラフ学習の伝達可能性を示す最初の実証的な実証である。 下流トークンネットワークでは、最大の事前学習モデルが13の未確認テストネットワーク上でシングルモデルTGNNよりも優れている。 したがって、これは時間グラフの基礎モデルを構築するための有望な第一歩であると信じている。

The field of temporal graph learning aims to learn from evolving network data to forecast future interactions. Given a collection of observed temporal graphs, is it possible to predict the evolution of an unseen network from the same domain? To answer this question, we first present the Temporal Graph Scaling (TGS) dataset, a large collection of temporal graphs consisting of eighty-four ERC20 token transaction networks collected from 2017 to 2023. Next, we evaluate the transferability of Temporal Graph Neural Networks (TGNNs) for the temporal graph property prediction task by pre-training on a collection of up to sixty-four token transaction networks and then evaluating the downstream performance on twenty unseen token networks. We find that the neural scaling law observed in NLP and Computer Vision also applies in temporal graph learning, where pre-training on greater number of networks leads to improved downstream performance. To the best of our knowledge, this is the first empirical demonstration of the transferability of temporal graphs learning. On downstream token networks, the largest pre-trained model outperforms single model TGNNs on thirteen unseen test networks. Therefore, we believe that this is a promising first step towards building foundation models for temporal graphs.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# Adaptive Randomized Smoothing: Certifying Multi-Step Defenses against Adversarial Examples

Adaptive Randomized Smoothing: Certifying Multi-Step Defences against Adversarial Examples ( http://arxiv.org/abs/2406.10427v1 )

ライセンス: Link先を確認
Saiyue Lyu, Shadab Shaikh, Frederick Shpilevskiy, Evan Shelhamer, Mathias Lécuyer, (参考訳) 本稿では,適応ランダム化平滑化法(ARS)を提案する。 ARSは、f-Differential Privacyを用いたランダムな平滑化の分析を拡張し、複数のステップの適応的な構成を認証する。 この理論は,雑音入力の一般関数と高次元関数の適応構成を初めて取り上げる。 我々は、深い画像分類上のARSをインスタンス化し、有界な$L_{\infty}$ノルムの逆例に対する予測を証明した。 L_{\infty}$脅威モデルでは,高次元の入力依存マスキングによる適応が可能となる。 CIFAR-10 と CelebA に基づく適応性ベンチマークを設計し,ARS の精度を 2 ~ 5 % の精度で向上することを示す。 ImageNetでは、ARSは適応性のない標準RSよりも精度を1ドルから3ドルで改善している。

We propose Adaptive Randomized Smoothing (ARS) to certify the predictions of our test-time adaptive models against adversarial examples. ARS extends the analysis of randomized smoothing using f-Differential Privacy to certify the adaptive composition of multiple steps. For the first time, our theory covers the sound adaptive composition of general and high-dimensional functions of noisy input. We instantiate ARS on deep image classification to certify predictions against adversarial examples of bounded $L_{\infty}$ norm. In the $L_{\infty}$ threat model, our flexibility enables adaptation through high-dimensional input-dependent masking. We design adaptivity benchmarks, based on CIFAR-10 and CelebA, and show that ARS improves accuracy by $2$ to $5\%$ points. On ImageNet, ARS improves accuracy by $1$ to $3\%$ points over standard RS without adaptivity.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 条件付き画像生成モデルの一貫性-多様性-現実性パレートフロント

Consistency-diversity-realism Pareto fronts of conditional image generative models ( http://arxiv.org/abs/2406.10429v1 )

ライセンス: Link先を確認
Pietro Astolfi, Marlene Careil, Melissa Hall, Oscar Mañas, Matthew Muckley, Jakob Verbeek, Adriana Romero Soriano, Michal Drozdzal, (参考訳) 現実の世界を正確にかつ包括的に表現する世界モデルの構築は、条件付き画像生成モデルに対する最大の願望であり、世界シミュレータとしての使用を可能にする。 これらのモデルが成功した世界モデルとなるためには、画像の品質と迅速な画像の整合性に優れるだけでなく、高い表現多様性を確保する必要がある。 しかしながら、生成モデルにおける現在の研究は、画像の品質と美学の人間の嗜好に主に関心を持つ創造的応用に焦点を当てている。 生成モデルは、生成の一貫性、品質、多様性を制御できる推論時間機構(ノブ)を持っていることに留意する。 本稿では,一貫性・多様性・リアリズムの全体像を提供するParetoフロントの描画に,最先端のテキスト・トゥ・イメージと画像・テキスト・トゥ・イメージモデルとそのノブを使用し,一貫性・多様性・リアリズムの全体像を提供する。 我々の実験は、リアリズムと一貫性を同時に改善できることを示唆しているが、リアリズム/一貫性と多様性の間に明確なトレードオフが存在する。 Paretoの最適点を見ると、初期のモデルは表現の多様性が良く、一貫性/リアリズムが悪く、より最近のモデルは一貫性/リアリズムに優れ、表現の多様性は著しく低下している。 パレートフロントをジオディバースデータセットで計算することにより、潜在拡散モデルの最初のバージョンは、すべての評価軸において、より最近のモデルよりも優れた性能を示す傾向にあり、地理的領域間での一貫性-多様性-リアリズムの相違が顕著であることがわかった。 全体として、我々の分析は、最良のモデルが存在しないことを明確に示しており、モデルの選択は下流のアプリケーションによって決定されるべきである。 この分析により,世界モデルに向けた進展を測定するための分析ツールとして,パレートフロントを考察するよう研究コミュニティに呼びかける。

Building world models that accurately and comprehensively represent the real world is the utmost aspiration for conditional image generative models as it would enable their use as world simulators. For these models to be successful world models, they should not only excel at image quality and prompt-image consistency but also ensure high representation diversity. However, current research in generative models mostly focuses on creative applications that are predominantly concerned with human preferences of image quality and aesthetics. We note that generative models have inference time mechanisms - or knobs - that allow the control of generation consistency, quality, and diversity. In this paper, we use state-of-the-art text-to-image and image-and-text-to-image models and their knobs to draw consistency-diversity-realism Pareto fronts that provide a holistic view on consistency-diversity-realism multi-objective. Our experiments suggest that realism and consistency can both be improved simultaneously; however there exists a clear tradeoff between realism/consistency and diversity. By looking at Pareto optimal points, we note that earlier models are better at representation diversity and worse in consistency/realism, and more recent models excel in consistency/realism while decreasing significantly the representation diversity. By computing Pareto fronts on a geodiverse dataset, we find that the first version of latent diffusion models tends to perform better than more recent models in all axes of evaluation, and there exist pronounced consistency-diversity-realism disparities between geographical regions. Overall, our analysis clearly shows that there is no best model and the choice of model should be determined by the downstream application. With this analysis, we invite the research community to consider Pareto fronts as an analytical tool to measure progress towards world models.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# マシンの混在 - 政府のAIシステムにおけるテスト可能性

Challenging the Machine: Contestability in Government AI Systems ( http://arxiv.org/abs/2406.10430v1 )

ライセンス: Link先を確認
Susan Landau, James X. Dempsey, Ece Kamar, Steven M. Bellovin, Robert Pool, (参考訳) 2023年10月の大統領令(EO)で、ビデン大統領は人工知能(AI)の安全かつ責任ある開発と利用のための詳細な計画地図を公表した。 2024年1月24日から25日にかけてのワークショップの課題は、特定のが重要な問題、個人が政府による決定に挑戦する能力に関する願望を、代理店が真に競合可能な高度な自動意思決定システムを開発し、調達し、利用できるようにする実用的なガイダンスに転換することであった。 政府は2023年10月EO以降、重要な措置を講じてきたが、先進的な意思決定システムの競争性に関する要件がまだ十分に定義されていないため、ワークショップから得られた知見は、非常に関連性が高い。 ワークショップでは、技術者、政府機関、市民社会団体のメンバー、訴訟者、研究者が集中的な2日間の会合を開催し、高度な自動意思決定システムを考慮して、ユーザ、開発者、機関が競争性を実現するために直面した課題を調査した。 自由でオープンな議論の流れを確保するために、会議はチャタム・ハウス・ルールの修正版の下で開かれた。 参加者は、彼らが学んだ情報や詳細は自由に使用できたが、講演者のアイデンティティやアフィリエイトによる会議での発言には言及できない。 このように、ワークショップの要約は、話者とその関連性を匿名化します。 機関、会社、組織が特定される場合、それは公的に特定されたリソースから行われ、必ずしもワークショップの参加者による声明を反映しない。 この文書は、そのワークショップの報告であり、勧告と解説資料である。

In an October 2023 executive order (EO), President Biden issued a detailed but largely aspirational road map for the safe and responsible development and use of artificial intelligence (AI). The challenge for the January 24-25, 2024 workshop was to transform those aspirations regarding one specific but crucial issue -- the ability of individuals to challenge government decisions made about themselves -- into actionable guidance enabling agencies to develop, procure, and use genuinely contestable advanced automated decision-making systems. While the Administration has taken important steps since the October 2023 EO, the insights garnered from our workshop remain highly relevant, as the requirements for contestability of advanced decision-making systems are not yet fully defined or implemented. The workshop brought together technologists, members of government agencies and civil society organizations, litigators, and researchers in an intensive two-day meeting that examined the challenges that users, developers, and agencies faced in enabling contestability in light of advanced automated decision-making systems. To ensure a free and open flow of discussion, the meeting was held under a modified version of the Chatham House rule. Participants were free to use any information or details that they learned, but they may not attribute any remarks made at the meeting by the identity or the affiliation of the speaker. Thus, the workshop summary that follows anonymizes speakers and their affiliation. Where an identification of an agency, company, or organization is made, it is done from a public, identified resource and does not necessarily reflect statements made by participants at the workshop. This document is a report of that workshop, along with recommendations and explanatory material.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 関係抽出のための意味表現を用いた文脈内学習の強化

Enhancing In-Context Learning with Semantic Representations for Relation Extraction ( http://arxiv.org/abs/2406.10432v1 )

ライセンス: Link先を確認
Peitao Han, Lis Kanashiro Pereira, Fei Cheng, Wan Jou She, Eiji Aramaki, (参考訳) 本稿では,文のサブグラフレベルで生成された AMR 構造を探索する手法と,文の完全 AMR 構造を探索する手法を提案する。 どちらの場合も、すべての設定が粒度の細かいAMRのセマンティック構造から恩恵を受けることを示す。 我々は,このモデルを4つのREデータセットで評価した。 以上の結果から,本モデルがGPTベースラインを上回り,2つのデータセットでSOTA性能,他の2つのデータセットで競合性能を達成できることが示唆された。

In this work, we employ two AMR-enhanced semantic representations for ICL on RE: one that explores the AMR structure generated for a sentence at the subgraph level (shortest AMR path), and another that explores the full AMR structure generated for a sentence. In both cases, we demonstrate that all settings benefit from the fine-grained AMR's semantic structure. We evaluate our model on four RE datasets. Our results show that our model can outperform the GPT-based baselines, and achieve SOTA performance on two of the datasets, and competitive performance on the other two.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 大規模都市道路網の微分予測制御

Differentiable Predictive Control for Large-Scale Urban Road Networks ( http://arxiv.org/abs/2406.10433v1 )

ライセンス: Link先を確認
Renukanandan Tumu, Wenceslao Shaw Cortez, Ján Drgoňa, Draguna L. Vrabie, Sonja Glavaski, (参考訳) 輸送はCO2排出の主要な要因であり、エネルギー関連の排出を減らすために交通ネットワークを最適化することが不可欠である。 本稿では,物理インフォームド・機械学習手法である差分予測制御(DPC)を用いた新しいトラフィックネットワーク制御手法を提案する。 我々は,都市の交通網を単純化したMFDとNMFDに基づく。 提案手法は, システム制約に適合することを保証する。 従来のモデル予測制御(MPC)手法と実証的な比較では,計算時間の最大4桁の削減と,トラフィック性能の最大37%の改善が示されている。 さらに、シナリオシフトに対するコントローラの堅牢性を評価し、トラフィックパターンの変化に順応することを示す。 本研究は,特に大規模都市ネットワークにおいて,より効率的な交通制御手法を提案する。

Transportation is a major contributor to CO2 emissions, making it essential to optimize traffic networks to reduce energy-related emissions. This paper presents a novel approach to traffic network control using Differentiable Predictive Control (DPC), a physics-informed machine learning methodology. We base our model on the Macroscopic Fundamental Diagram (MFD) and the Networked Macroscopic Fundamental Diagram (NMFD), offering a simplified representation of citywide traffic networks. Our approach ensures compliance with system constraints by construction. In empirical comparisons with existing state-of-the-art Model Predictive Control (MPC) methods, our approach demonstrates a 4 order of magnitude reduction in computation time and an up to 37% improvement in traffic performance. Furthermore, we assess the robustness of our controller to scenario shifts and find that it adapts well to changes in traffic patterns. This work proposes more efficient traffic control methods, particularly in large-scale urban networks, and aims to mitigate emissions and alleviate congestion in the future.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# セスキリニアペアリングによるクラスグループアクション攻撃の拡張

Extending class group action attacks via sesquilinear pairings ( http://arxiv.org/abs/2406.10440v1 )

ライセンス: Link先を確認
Joseph Macula, Katherine E. Stange, (参考訳) 虚数次数次数$\mathcal{O}$のCMを持つ楕円曲線の$\mathcal{O}$-加群構造に対して、セスキリニア(共役線形)であるペアリング(英語版)について、アイソジニーベースの暗号の研究のための新しいツールを導入する。 これらのペアリングを用いて、向き付けられた常微分楕円曲線あるいは超特異楕円曲線の集合に対するクラス群作用に基づく問題の安全性を研究する。 これは、カストリク、フーベン、メルツ、ミュラ、ビューレン、ヴェルクーテレン、2023年)と(デ・フェオ、フーサ、パニー、2024年)の両方の作品を拡張している。

We introduce a new tool for the study of isogeny-based cryptography, namely pairings which are sesquilinear (conjugate linear) with respect to the $\mathcal{O}$-module structure of an elliptic curve with CM by an imaginary quadratic order $\mathcal{O}$. We use these pairings to study the security of problems based on the class group action on collections of oriented ordinary or supersingular elliptic curves. This extends work of both (Castryck, Houben, Merz, Mula, Buuren, Vercauteren, 2023) and (De Feo, Fouotsa, Panny, 2024).
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 文脈自由文法に基づくドメイン特有な生成用ショートハンド

Domain-Specific Shorthand for Generation Based on Context-Free Grammar ( http://arxiv.org/abs/2406.10442v1 )

ライセンス: Link先を確認
Andriy Kanyuka, Elias Mahfoud, (参考訳) JSON、YAML、XMLなどのフォーマットで構造化データを生成することは、Generative AI(GenAI)アプリケーションにおいて重要なタスクである。 これらのフォーマットは広く使われているが、多くの冗長な構造を含んでおり、拡張トークンの使用につながっている。 この非効率性は、GPT-4のような大規模言語モデル(LLM)を用いることで特に顕著であり、大規模な構造化データを生成するとレイテンシと運用コストが増大する。 本研究では、文脈自由文法(CFG)を基盤としたドメイン固有短文(DSS)フォーマットを導入し、構造化データ生成に必要なトークン数を削減するためにその使用法を実証する。 この方法は、少ないトークンで出力スキーマの本質的要素をキャプチャし、曖昧に変換され、その冗長な形式から変換されることを保証する、短い手書きの記法を作成することを含む。 LLMによる効率的なショートハンド生成を容易にするためにCFGを使用し、ショートハンドを標準的な構造化フォーマットに変換するパーサを作成する。 LLMを用いたデータビジュアライゼーションへのアプローチの適用により、生成されたトークンの3倍から5倍の大幅な削減が可能となり、レイテンシとコストが大幅に削減された。 本稿では,DSSとそれに付随するCFGの開発と,GenAIアプリケーションにおけるこのアプローチの意義を概説し,構造化データ生成におけるトークン不効率問題に対するスケーラブルな解決法を提案する。

The generation of structured data in formats such as JSON, YAML and XML is a critical task in Generative AI (GenAI) applications. These formats, while widely used, contain many redundant constructs that lead to inflated token usage. This inefficiency is particularly evident when employing large language models (LLMs) like GPT-4, where generating extensive structured data incurs increased latency and operational costs. We introduce a domain-specific shorthand (DSS) format, underpinned by a context-free grammar (CFG), and demonstrate its usage to reduce the number of tokens required for structured data generation. The method involves creating a shorthand notation that captures essential elements of the output schema with fewer tokens, ensuring it can be unambiguously converted to and from its verbose form. It employs a CFG to facilitate efficient shorthand generation by the LLM, and to create parsers to translate the shorthand back into standard structured formats. The application of our approach to data visualization with LLMs demonstrates a significant (3x to 5x) reduction in generated tokens, leading to significantly lower latency and cost. This paper outlines the development of the DSS and the accompanying CFG, and the implications of this approach for GenAI applications, presenting a scalable solution to the token inefficiency problem in structured data generation.
翻訳日:2024-06-19 00:32:34 公開日:2024-06-14
# 最適リワードラベリング: オフライン選好とリワードベース強化学習のブリッジング

Optimal Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning ( http://arxiv.org/abs/2406.10445v1 )

ライセンス: Link先を確認
Yinglun Xu, David Zhu, Rohan Gumastate, Gagandeep Singh, (参考訳) オフライン強化学習は、最も実践的なRL設定の一つとなっている。 最近の成功談はRLHFで、人間の好みによるオフラインの好みに基づくRL(PBRL)である。 しかしながら、オフラインRLに関する既存の作業のほとんどは、スカラー報酬フィードバックによる標準設定に重点を置いている。 既存のオフラインRLのリッチな理解を報酬ベースから優先ベースの設定へ普遍的に移行する方法は、まだ分かっていない。 本研究では,このギャップを埋めるための一般的な枠組みを提案する。 我々の重要な洞察は、好みのフィードバックを最適報酬ラベル(ORL)によってスカラー報酬に変換し、任意の報酬ベースのオフラインRLアルゴリズムを報酬ラベル付きデータセットに適用できることです。 理論的には、最近のPBRL技術と我々のフレームワークと特定のオフラインRLアルゴリズムとの接続を、優先信号をどのように利用するかという点で示す。 報酬ラベルと異なるアルゴリズムを組み合わせることで、我々のフレームワークは新しく、より効率的なオフラインPBRLアルゴリズムを生み出すことができる。 我々は、標準D4RLベンチマークに基づいて、好みのデータセットに基づいて、我々のフレームワークを実証的にテストする。 様々な効率的な報酬ベースのオフラインRLアルゴリズムと組み合わせると、我々のフレームワークで得られた学習結果は、データセット上で同じアルゴリズムをトレーニングするのに匹敵するものであり、多くの場合、実際の報酬と、最近のPBRLベースラインよりも優れている。

Offline reinforcement learning has become one of the most practical RL settings. A recent success story has been RLHF, offline preference-based RL (PBRL) with preference from humans. However, most existing works on offline RL focus on the standard setting with scalar reward feedback. It remains unknown how to universally transfer the existing rich understanding of offline RL from the reward-based to the preference-based setting. In this work, we propose a general framework to bridge this gap. Our key insight is transforming preference feedback to scalar rewards via optimal reward labeling (ORL), and then any reward-based offline RL algorithms can be applied to the dataset with the reward labels. We theoretically show the connection between several recent PBRL techniques and our framework combined with specific offline RL algorithms in terms of how they utilize the preference signals. By combining reward labeling with different algorithms, our framework can lead to new and potentially more efficient offline PBRL algorithms. We empirically test our framework on preference datasets based on the standard D4RL benchmark. When combined with a variety of efficient reward-based offline RL algorithms, the learning result achieved under our framework is comparable to training the same algorithm on the dataset with actual rewards in many cases and better than the recent PBRL baselines in most cases.
翻訳日:2024-06-19 00:22:43 公開日:2024-06-14
# BabyViewデータセット:幼児と幼児の日常体験の高精細なエゴセントリックなビデオ

The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences ( http://arxiv.org/abs/2406.10447v1 )

ライセンス: Link先を確認
Bria Long, Violet Xiang, Stefan Stojanov, Robert Z. Sparks, Zi Yin, Grace E. Keene, Alvin W. M. Tan, Steven Y. Feng, Chengxu Zhuang, Virginia A. Marchman, Daniel L. K. Yamins, Michael C. Frank, (参考訳) 人間の子供たちは、サンプル効率において最新の機械学習アルゴリズムをはるかに上回り、現在のモデルよりもはるかに少ないデータを持つキードメインで高いパフォーマンスを達成する。 この「データギャップ」は、インテリジェントな人工システムの構築と人間の開発を理解するための鍵となる課題である。 Egocentric video capture children's experience -- their 'training data' -- は、人間とモデルの比較と、このギャップを埋めるアルゴリズム的イノベーションの開発のための重要な要素である。 しかし、そのようなデータセットはほとんど存在せず、既存のデータは解像度が低く、メタデータが限られており、重要なことに、子供の小さな経験しか表現していない。 ここでは、大規模な垂直視野とジャイロスコープ/加速度計データを備えた高解像度カメラを使用して記録された、これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットの最初のリリースを提供する。 この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。 音声の書き起こし、話者ダイアリゼーション、人間のポーズ推定の評価のためのゴールドスタンダードアノテーションを提供し、これらのドメインのモデルを評価する。 我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。 データセットサイズを持つ各スケールのパフォーマンスは、特にビジュアルドメインにおいて、モデルがトレーニングされたデータセットでトレーニングされる場合よりも、全体的なパフォーマンスは比較的低い。 私たちのデータセットは、堅牢で人間らしいAIシステムにとって、オープンな課題である。

Human children far exceed modern machine learning algorithms in their sample efficiency, achieving high performance in key domains with much less data than current models. This ''data gap'' is a key challenge both for building intelligent artificial systems and for understanding human development. Egocentric video capturing children's experience -- their ''training data'' -- is a key ingredient for comparison of humans and models and for the development of algorithmic innovations to bridge this gap. Yet there are few such datasets available, and extant data are low-resolution, have limited metadata, and importantly, represent only a small set of children's experiences. Here, we provide the first release of the largest developmental egocentric video dataset to date -- the BabyView dataset -- recorded using a high-resolution camera with a large vertical field-of-view and gyroscope/accelerometer data. This 493 hour dataset includes egocentric videos from children spanning 6 months - 5 years of age in both longitudinal, at-home contexts and in a preschool environment. We provide gold-standard annotations for the evaluation of speech transcription, speaker diarization, and human pose estimation, and evaluate models in each of these domains. We train self-supervised language and vision models and evaluate their transfer to out-of-distribution tasks including syntactic structure learning, object recognition, depth estimation, and image segmentation. Although performance in each scales with dataset size, overall performance is relatively lower than when models are trained on curated datasets, especially in the visual domain. Our dataset stands as an open challenge for robust, humanlike AI systems: how can such systems achieve human-levels of success on the same scale and distribution of training data as humans?
翻訳日:2024-06-19 00:22:43 公開日:2024-06-14
# Galibr: 地平面初期化によるLiDAR-Camera Extrinsic Calibration法

Galibr: Targetless LiDAR-Camera Extrinsic Calibration Method via Ground Plane Initialization ( http://arxiv.org/abs/2406.11599v1 )

ライセンス: Link先を確認
Wonho Song, Minho Oh, Jaeyoung Lee, Hyun Myung, (参考訳) 自律運転技術とSLAM技術の急速な発展により、マルチモーダルセンサを用いた自律システムの性能は、正確な外部キャリブレーションに依存している。 本稿では, 自然環境において, 簡易でメンテナンスしやすいキャリブレーションプロセスの必要性に対処するため, 自然環境下での地上プラットフォーム用に設計された, 完全に自動化されたLiDARカメラ外装キャリブレーションツールであるGalibrを紹介する。 この方法は、LiDARとカメラの入力の両方から地上平面とエッジ情報を利用して、キャリブレーションプロセスの合理化を行う。 地平面(GP-init)に基づく初期ポーズ推定アルゴリズムと、エッジ抽出とマッチングによる精細化フェーズの2つの主要なステップを含む。 提案手法は,KITTIデータセットやKAIST四元化データセットなど,非構造化自然環境における新しい初期ポーズ推定手法によるキャリブレーション性能を著しく向上させる。

With the rapid development of autonomous driving and SLAM technology, the performance of autonomous systems using multimodal sensors highly relies on accurate extrinsic calibration. Addressing the need for a convenient, maintenance-friendly calibration process in any natural environment, this paper introduces Galibr, a fully automatic targetless LiDAR-camera extrinsic calibration tool designed for ground vehicle platforms in any natural setting. The method utilizes the ground planes and edge information from both LiDAR and camera inputs, streamlining the calibration process. It encompasses two main steps: an initial pose estimation algorithm based on ground planes (GP-init), and a refinement phase through edge extraction and matching. Our approach significantly enhances calibration performance, primarily attributed to our novel initial pose estimation method, as demonstrated in unstructured natural environments, including on the KITTI dataset and the KAIST quadruped dataset.
翻訳日:2024-06-18 14:22:35 公開日:2024-06-14
# 言語モデルはクロスワードソルバーである

Language Models are Crossword Solvers ( http://arxiv.org/abs/2406.09043v2 )

ライセンス: Link先を確認
Soumadeep Saha, Sutanoya Chakraborty, Saptarshi Saha, Utpal Garain, (参考訳) クロスワード(Crosswords)は、自然言語理解、ワードプレイ、推論、世界知識において高い習熟度を示すために解法を必要とする単語パズルの一種であり、文字や長さの制約に固執している。 本稿では,Large Language Models (LLM) を用いたクロスワードの解法について述べる。 現状の最先端技術 (SoTA) 言語モデルでは, 暗号的クロスワードの手がかりを解読する能力が大きく, 関連するベンチマークでは2~3倍の精度で, 従来報告されていたSoTA結果よりも優れていたことが実証された。 また,ニューヨーク・タイムズのクロスワードパズルにおいて,初めて全クロスワードグリッドをLLMで解く問題に対処するために,この性能を利用した検索アルゴリズムを開発した。 LLMが人間の専門家のパフォーマンスを著しく低下させるというこの領域の以前の研究とは対照的に、我々の研究は、このギャップがより狭くなっていることを示唆している。

Crosswords are a form of word puzzle that require a solver to demonstrate a high degree of proficiency in natural language understanding, wordplay, reasoning, and world knowledge, along with adherence to character and length constraints. In this paper we tackle the challenge of solving crosswords with Large Language Models (LLMs). We demonstrate that the current generation of state-of-the art (SoTA) language models show significant competence at deciphering cryptic crossword clues, and outperform previously reported SoTA results by a factor of 2-3 in relevant benchmarks. We also develop a search algorithm that builds off this performance to tackle the problem of solving full crossword grids with LLMs for the very first time, achieving an accuracy of 93\% on New York Times crossword puzzles. Contrary to previous work in this area which concluded that LLMs lag human expert performance significantly, our research suggests this gap is a lot narrower.
翻訳日:2024-06-18 12:44:32 公開日:2024-06-14
# ディープニューラルネットワーク適応のためのベイズ学習

Bayesian Learning for Deep Neural Network Adaptation ( http://arxiv.org/abs/2012.07460v4 )

ライセンス: Link先を確認
Xurong Xie, Xunying Liu, Tan Lee, Lan Wang, (参考訳) 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。 話者適応技術はミスマッチを減らすために重要な役割を果たす。 モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。 話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。 本稿では,限られた話者固有適応データに対して,話者依存(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づく完全なDNN話者適応フレームワークを提案する。 この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。 これら3つの方法において、決定論的SDパラメータは各話者の潜在変数後続分布に置き換えられ、そのパラメータは変動推論に基づくアプローチを用いて効率的に推定される。 LF-MMI TDNN/CNN-TDNNシステムで訓練された300時間速度摂動型スイッチボードコーパスの実験により、提案されたベイズ適応アプローチは、NIST Hub5'00とRT03の評価セットに対する決定論的適応よりも一貫して優れていることが示唆された。 各話者からの最初の5つの発声のみを適応データとして用いた場合、CallHomeサブセットで単語誤り率を最大1.4%(7.2%)まで下げた。 ベイズ適応手法の有効性は,本論文で報告された最新のシステムを用いて,同課題で得られた最先端技術との比較においてさらに実証された。

A key task for speech recognition systems is to reduce the mismatch between training and evaluation data that is often attributable to speaker differences. Speaker adaptation techniques play a vital role to reduce the mismatch. Model-based speaker adaptation approaches often require sufficient amounts of target speaker data to ensure robustness. When the amount of speaker level data is limited, speaker adaptation is prone to overfitting and poor generalization. To address the issue, this paper proposes a full Bayesian learning based DNN speaker adaptation framework to model speaker-dependent (SD) parameter uncertainty given limited speaker specific adaptation data. This framework is investigated in three forms of model based DNN adaptation techniques: Bayesian learning of hidden unit contributions (BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian hidden unit bias vectors (BHUB). In the three methods, deterministic SD parameters are replaced by latent variable posterior distributions for each speaker, whose parameters are efficiently estimated using a variational inference based approach. Experiments conducted on 300-hour speed perturbed Switchboard corpus trained LF-MMI TDNN/CNN-TDNN systems suggest the proposed Bayesian adaptation approaches consistently outperform the deterministic adaptation on the NIST Hub5'00 and RT03 evaluation sets. When using only the first five utterances from each speaker as adaptation data, significant word error rate reductions up to 1.4% absolute (7.2% relative) were obtained on the CallHome subset. The efficacy of the proposed Bayesian adaptation techniques is further demonstrated in a comparison against the state-of-the-art performance obtained on the same task using the most recent systems reported in the literature.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-14
# 温度重畳の操作モデル

Operational models of temperature superpositions ( http://arxiv.org/abs/2112.07860v3 )

ライセンス: Link先を確認
Carolyn E. Wood, Harshit Verma, Fabio Costa, Magdalena Zych, (参考訳) 量子系と熱浴は相互作用を通じて熱平衡に達することができ、そこで系はバスと同じ温度を得る。 しかし、例えばトールマン効果のように、局所的な温度が変化する浴槽で非局在量子系はどのように加熱するのだろうか? ここでは、「温度の仮定」という概念が生じる2つのシナリオを定式化する。 まず、別の量子系の状態(制御)に依存する2つの異なる浴槽と相互作用するプローブ。 第二に、精製された状態が異なる温度に対応する状態の重畳である単一浴と相互作用するプローブ。 2つのシナリオは根本的に異なり、運用的に区別可能であることを示す。 さらに, プローブは温度が等しくても一般的には加熱されないこと, 最終プローブ状態は加熱チャネルの具体的実現に敏感であることを示す。 我々のモデルは、合同量子、重力、熱力学現象を含むシナリオに適用され、ウンルーやホーキングの放射による相対論的プローブの量子干渉で発見されたいくつかの最近の結果を説明することができる。 最後に,本研究の結果は部分的および予熱過程において再現されることを示し,本研究のアプローチと結論は,熱処理が不完全である理想化されたシナリオを超えて成り立つことを示した。

A quantum system and a thermal bath can reach thermal equilibrium through an interaction, whereupon the system acquires the same temperature as the bath. But how does a delocalised quantum system thermalise with a bath whose local temperature varies, as, for example, in the Tolman effect? Here we formulate two scenarios in which the notion of a ``superposition of temperatures'' may arise. First: a probe interacting with two different baths dependent on the state of another quantum system (control). Second: a probe interacting with a single bath whose purified state is a superposition of states corresponding to different temperatures. We show that the two scenarios are fundamentally different and can be operationally distinguished. Moreover, we show that the probe does not in general thermalise even when the involved temperatures are equal, and that the final probe state is sensitive to the specific realisation of the thermalising channels. Our models may be applied to scenarios involving joint quantum, gravitational, and thermodynamic phenomena, and explain some recent results found in quantum intereference of relativistic probes thermalising with Unruh or Hawking radiation. Finally, we show that our results are reproduced in partial and pre-thermalisation processes, and thus our approach and conclusions hold beyond the idealised scenarios, where thermalisation is incomplete.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-14
# 量子メルクルツリー

Quantum Merkle Trees ( http://arxiv.org/abs/2112.14317v4 )

ライセンス: Link先を確認
Lijie Chen, Ramis Movassagh, (参考訳) 情報提供は暗号における中心的なタスクであり、当事者(通常は証明者と呼ばれる)は情報(例えば、ビット文字列)を変更しない約束で保存する。 この情報は(典型的には検証者と呼ばれる)他の当事者によってアクセスされ、後にその情報を学び、それが混じっていないことを検証することができる。 メルクルツリーは簡潔な方法で行うためのよく知られた構成であり、検証者は正直な証明者から短い証明を受け取り、情報の一部を学習することができる。 古典暗号においてその重要性はあったが、メルクルツリーの量子アナログは存在しなかった。 量子ランダムオラクルモデル(QROM)を用いた直接一般化は、安全ではないようである。 本研究では,量子メルクル木を提案する。 それは私たちがQuantum Haar Random Oracle Model (QHROM)と呼ぶものに基づいている。 QHROMでは、証明者も検証者もハールランダムな量子オラクル$G$とその逆数にアクセスすることができる。 量子メルクル木を用いて、Gap-$k$-Local-Hamiltonian問題に対する簡潔な量子論法を提案する。 量子PCP予想が真であると仮定すると、この簡潔な議論はQMAのすべてに拡張される。 この研究は、多くの興味深いオープンリサーチの問題を提起している。

Committing to information is a central task in cryptography, where a party (typically called a prover) stores a piece of information (e.g., a bit string) with the promise of not changing it. This information can be accessed by another party (typically called the verifier), who can later learn the information and verify that it was not meddled with. Merkle trees are a well-known construction for doing so in a succinct manner, in which the verifier can learn any part of the information by receiving a short proof from the honest prover. Despite its significance in classical cryptography, there was no quantum analog of the Merkle tree. A direct generalization using the Quantum Random Oracle Model (QROM) does not seem to be secure. In this work, we propose the quantum Merkle tree. It is based on what we call the Quantum Haar Random Oracle Model (QHROM). In QHROM, both the prover and the verifier have access to a Haar random quantum oracle $G$ and its inverse. Using the quantum Merkle tree, we propose a succinct quantum argument for the Gap-$k$-Local-Hamiltonian problem. Assuming the Quantum PCP conjecture is true, this succinct argument extends to all of QMA. This work raises a number of interesting open research problems.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-14
# 遅延空間における損失: 解離モデルと組合せ一般化の課題

Lost in Latent Space: Disentangled Models and the Challenge of Combinatorial Generalisation ( http://arxiv.org/abs/2204.02283v2 )

ライセンス: Link先を確認
Milton L. Montero, Jeffrey S. Bowers, Rui Ponte Costa, Casimir J. H. Ludwig, Gaurav Malhotra, (参考訳) 近年の研究では、非常に不整合な表現を持つ生成モデルは、生成因子値の見当たらない組み合わせに一般化できないことが示されている。 これらの結果は、絡み合った表現に比べてトレーニング外分布設定の性能が向上した以前の研究と矛盾する。 また、報告された失敗が原因かどうかも明らかになっていない。 (a)新規な組み合わせを潜伏空間の適切な領域にマッピングできないエンコーダ (b)新しい組み合わせを正しくマッピングするが、デコーダ/ダウンストリームプロセスは、見知らぬ組み合わせに対して正しい出力をレンダリングすることができない。 さまざまなデータセットとトレーニング設定で複数のモデルをテストすることで、これらの代替品について検討する。 私たちはそれを見つける。 i) モデルが失敗すると、エンコーダは、目に見えない組み合わせを潜在空間の正しい領域にマッピングすることができない。 2) モデルが成功した場合, テスト条件が十分な例を除外していないこと, あるいは生成因子を除外して出力画像の独立部分を決定することが原因である。 これらの結果に基づいて、モデルが適切に一般化するためには、変動要因を捉えるだけでなく、データ生成に使われた生成過程を逆転する方法を理解する必要がある。

Recent research has shown that generative models with highly disentangled representations fail to generalise to unseen combination of generative factor values. These findings contradict earlier research which showed improved performance in out-of-training distribution settings when compared to entangled representations. Additionally, it is not clear if the reported failures are due to (a) encoders failing to map novel combinations to the proper regions of the latent space or (b) novel combinations being mapped correctly but the decoder/downstream process is unable to render the correct output for the unseen combinations. We investigate these alternatives by testing several models on a range of datasets and training settings. We find that (i) when models fail, their encoders also fail to map unseen combinations to correct regions of the latent space and (ii) when models succeed, it is either because the test conditions do not exclude enough examples, or because excluded generative factors determine independent parts of the output image. Based on these results, we argue that to generalise properly, models not only need to capture factors of variation, but also understand how to invert the generative process that was used to generate the data.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-14
# Zeroからのトレーニング: 無線周波数機械学習のデータ量予測

Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting ( http://arxiv.org/abs/2205.03703v2 )

ライセンス: Link先を確認
William H. Clark IV, Alan J. Michaels, (参考訳) 任意のアプリケーション空間でトレーニング中に使用されるデータは、一度デプロイされたシステムのパフォーマンスに直接関連している。 機械学習の高性能モデルの生成には他にも多くの要因があるが、システムのトレーニングに使用されるデータが、構築する基盤を提供することは間違いない。 機械学習の分野で使われている親指ヒューリスティックスの根底にあるルールの1つは、より多くのデータがより良いモデルに繋がるということだ。 本研究は、無線周波数領域における変調分類問題について検討し、所望の性能レベルを達成するのにどの程度のトレーニングデータが必要であるかという疑問に答えようとするが、この手順は容易にモダリティにまたがる分類問題に適用できる。 最終的なゴールは、望まれるパフォーマンス指標を達成するために、より徹底的なコレクションの取り組みをよりよく知らせるために、最小限のデータ収集を必要とするアプローチを決定することです。 このアプローチでは、メトリクスを抽出する‘textit{target}データセット’として機能するために、問題領域にドイツ語で書かれた初期データセットが必要になるが、目標は、望まれるパフォーマンスを達成するシステムを提供する上で必要なものよりも、初期データを桁違いに小さくできるようにすることである。 ここで提示されるテクニックのさらなる利点は、異なるデータセットの品質を数値的に評価し、データ量と結び付けることができ、最終的には問題領域におけるアーキテクチャのパフォーマンスが向上するということです。

The data used during training in any given application space is directly tied to the performance of the system once deployed. While there are many other factors that go into producing high performance models within machine learning, there is no doubt that the data used to train a system provides the foundation from which to build. One of the underlying rule of thumb heuristics used within the machine learning space is that more data leads to better models, but there is no easy answer for the question, "How much data is needed?" This work examines a modulation classification problem in the Radio Frequency domain space, attempting to answer the question of how much training data is required to achieve a desired level of performance, but the procedure readily applies to classification problems across modalities. The ultimate goal is determining an approach that requires the least amount of data collection to better inform a more thorough collection effort to achieve the desired performance metric. While this approach will require an initial dataset that is germane to the problem space to act as a \textit{target} dataset on which metrics are extracted, the goal is to allow for the initial data to be orders of magnitude smaller than what is required for delivering a system that achieves the desired performance. An additional benefit of the techniques presented here is that the quality of different datasets can be numerically evaluated and tied together with the quantity of data, and ultimately, the performance of the architecture in the problem domain.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-14
# L2XGNN: グラフニューラルネットワークの解説を学ぶ

L2XGNN: Learning to Explain Graph Neural Networks ( http://arxiv.org/abs/2209.14402v4 )

ライセンス: Link先を確認
Giuseppe Serra, Mathias Niepert, (参考訳) グラフニューラルネットワーク(GNN)は、機械学習モデルの一般的なクラスである。 本稿は,L2X(L2X)パラダイムの学習にヒントを得て,デザインによる忠実な説明を提供する,説明可能なGNNのフレームワークであるL2XGNNを提案する。 L2XGNNは、GNNのメッセージパッシング操作でのみ使用される説明サブグラフ(モチーフ)を選択するメカニズムを学習する。 L2XGNNは各入力グラフに対してスパースやコネクテッドといった特定の特性を持つサブグラフを選択することができる。 このような制約をモチーフに課すことは、しばしばより解釈可能で効果的な説明につながる。 いくつかのデータセットの実験では、L2XGNNは入力グラフ全体を用いたベースライン法と同じ分類精度を達成し、提供された説明のみが予測に使用されることを保証している。 さらに,L2XGNNは,グラフが予測する特性に責任を持つモチーフを識別可能であることを示す。

Graph Neural Networks (GNNs) are a popular class of machine learning models. Inspired by the learning to explain (L2X) paradigm, we propose L2XGNN, a framework for explainable GNNs which provides faithful explanations by design. L2XGNN learns a mechanism for selecting explanatory subgraphs (motifs) which are exclusively used in the GNNs message-passing operations. L2XGNN is able to select, for each input graph, a subgraph with specific properties such as being sparse and connected. Imposing such constraints on the motifs often leads to more interpretable and effective explanations. Experiments on several datasets suggest that L2XGNN achieves the same classification accuracy as baseline methods using the entire input graph while ensuring that only the provided explanations are used to make predictions. Moreover, we show that L2XGNN is able to identify motifs responsible for the graph's properties it is intended to predict.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# SDA:コントラスト型文表現学習のための簡易離散化

SDA: Simple Discrete Augmentation for Contrastive Sentence Representation Learning ( http://arxiv.org/abs/2210.03963v3 )

ライセンス: Link先を確認
Dongsheng Zhu, Zhenyu Mao, Jinghui Lu, Rui Zhao, Fei Tan, (参考訳) コントラスト学習は、教師なし文表現において、近年、魅力的なパフォーマンスを達成している。 しかし、重要な要素として、データ拡張プロトコルは十分に研究されていない。 先駆的な研究であるSimCSEは、単純なドロップアウト機構(連続的な拡張と見なされる)に頼り、トリミング、単語削除、同義語置換といった個別の増強を驚くほど支配している。 そこで我々は,既存の手法を再検討し,意味的一貫性と表現の多様性のバランスという,合理的なデータ拡張手法のデシラタを仮説化しようと試みる。 次に, 句読点挿入, モーダル動詞, 二重否定の3つの簡易かつ効果的な離散文拡張手法を開発した。 語彙レベルでは最小限のノイズとして機能し、多種多様な文を生成する。 さらに、標準否定を利用して、対照的な学習に関わる特徴抑制を緩和するための負のサンプルを生成する。 多様なデータセットのセマンティックテキスト類似性を広範囲に実験した。 その結果,提案手法の優越性は一貫して向上した。 私たちのキーコードはhttps://github.com/Zhudongsheng75/SDAで公開されています。

Contrastive learning has recently achieved compelling performance in unsupervised sentence representation. As an essential element, data augmentation protocols, however, have not been well explored. The pioneering work SimCSE resorting to a simple dropout mechanism (viewed as continuous augmentation) surprisingly dominates discrete augmentations such as cropping, word deletion, and synonym replacement as reported. To understand the underlying rationales, we revisit existing approaches and attempt to hypothesize the desiderata of reasonable data augmentation methods: balance of semantic consistency and expression diversity. We then develop three simple yet effective discrete sentence augmentation schemes: punctuation insertion, modal verbs, and double negation. They act as minimal noises at lexical level to produce diverse forms of sentences. Furthermore, standard negation is capitalized on to generate negative samples for alleviating feature suppression involved in contrastive learning. We experimented extensively with semantic textual similarity on diverse datasets. The results support the superiority of the proposed methods consistently. Our key code is available at https://github.com/Zhudongsheng75/SDA
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# 量子多体問題解決のための波動関数マッチング

Wavefunction matching for solving quantum many-body problems ( http://arxiv.org/abs/2210.17488v4 )

ライセンス: Link先を確認
Serdar Elhatisari, Lukas Bovermann, Yuanzhuo Ma, Evgeny Epelbaum, Dillon Frame, Fabian Hildenbrand, Myungkuk Kim, Youngman Kim, Hermann Krebs, Timo A. Lähde, Dean Lee, Ning Li, Bing-Nan Lu, Ulf-G. Meißner, Gautam Rupak, Shihang Shen, Young-Ho Song, Gianluca Stellin, (参考訳) Ab initio計算は、強い相関性を持つフェルミオンから量子化学、原子・分子系から核物理学まで、多くのサブフィールドにわたる量子多体系の基本的な理解において重要な役割を担っている。 主な課題の1つは、選択された計算方法が扱うのに、相互作用が複雑で難しいシステムに対して正確な計算を行うことである。 ここでは波動関数マッチングと呼ばれる新しい手法を導入することでこの問題に対処する。 波動関数マッチングは粒子間の相互作用を変換し、波動関数がある程度の有限範囲までの範囲で容易に計算可能な相互作用と一致するようにする。 これによりモンテカルロ符号のキャンセルのような問題のために、そうでなければ不可能なシステムの計算が可能になる。 本手法を光核, 中質量核, 中性子物質, 核物質のモンテカルロシミュレーションに応用する。 我々は高忠実なカイラル有効場理論相互作用を用い、経験的データとの良好な一致を求める。 これらの結果は、核結合エネルギー、電荷ラジイ、およびアブイニシアト計算における核物質飽和の正確な再現における長年の課題を解決するのに役立つかもしれない核相互作用に関する新たな知見を伴っている。

Ab initio calculations play an essential role in our fundamental understanding of quantum many-body systems across many subfields, from strongly correlated fermions to quantum chemistry and from atomic and molecular systems to nuclear physics. One of the primary challenges is to perform accurate calculations for systems where the interactions may be complicated and difficult for the chosen computational method to handle. Here we address the problem by introducing a new approach called wavefunction matching. Wavefunction matching transforms the interaction between particles so that the wavefunctions up to some finite range match that of an easily computable interaction. This allows for calculations of systems that would otherwise be impossible due to problems such as Monte Carlo sign cancellations. We apply the method to lattice Monte Carlo simulations of light nuclei, medium-mass nuclei, neutron matter, and nuclear matter. We use high-fidelity chiral effective field theory interactions and find good agreement with empirical data. These results are accompanied by new insights on the nuclear interactions that may help to resolve long-standing challenges in accurately reproducing nuclear binding energies, charge radii, and nuclear matter saturation in ab initio calculations.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# 生体画像のコンセンサスに基づくセグメンテーションへの速度論的アプローチ

A kinetic approach to consensus-based segmentation of biomedical images ( http://arxiv.org/abs/2211.05226v2 )

ライセンス: Link先を確認
Raffaella Fiamma Cabini, Anna Pichiecchio, Alessandro Lascialfari, Silvia Figini, Mattia Zanella, (参考訳) 本研究では,バイオメディカルセグメンテーション問題に対して,有界信頼度コンセンサスモデルの運動バージョンを適用した。 提案手法では、各粒子/画素の顕微鏡状態に関する時間依存情報は、その空間位置と、系の静的特性、すなわち各ピクセルのグレーレベルを表す特徴を含む。 導入された顕微鏡モデルから、モデルの運動的定式化を導出する。 システムの長時間の挙動は、準不変スケーリングで得られる代理フォッカー・プランクの手法の助けを借りて計算される。 直接シミュレーションモンテカルロ法の計算効率を利用して,パラメータ同定タスクにおける問題のボルツマン型記述を行う。 地上の真相セグメンテーションマスクと評価マスクとの距離を計測する適切な損失関数に基づいて、2次元グレースケール画像の関連集合に対して導入されたセグメンテーション距離を最小化する。 バイオメディカルセグメンテーションへの応用は、様々なイメージング研究の文脈に焦点をあてる。

In this work, we apply a kinetic version of a bounded confidence consensus model to biomedical segmentation problems. In the presented approach, time-dependent information on the microscopic state of each particle/pixel includes its space position and a feature representing a static characteristic of the system, i.e. the gray level of each pixel. From the introduced microscopic model we derive a kinetic formulation of the model. The large time behavior of the system is then computed with the aid of a surrogate Fokker-Planck approach that can be obtained in the quasi-invariant scaling. We exploit the computational efficiency of direct simulation Monte Carlo methods for the obtained Boltzmann-type description of the problem for parameter identification tasks. Based on a suitable loss function measuring the distance between the ground truth segmentation mask and the evaluated mask, we minimize the introduced segmentation metric for a relevant set of 2D gray-scale images. Applications to biomedical segmentation concentrate on different imaging research contexts.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# 離散ウェーブレット変換と生成対向ネットワークに基づくカラー文書画像の3段階バイナライゼーション

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks ( http://arxiv.org/abs/2211.16098v7 )

ライセンス: Link先を確認
Rui-Yang Ju, Yu-Shian Lin, Yanlin Jin, Chih-Chia Chen, Chun-Tse Chien, Jen-Shiun Chiang, (参考訳) 劣化したカラー文書画像における背景からのテキスト情報の効率的なセグメンテーションは、古写本の保存において重要な課題である。 古写本の不完全な保存は、染色、黄化、インクの浸出などの経年劣化を招き、文書画像のバイナライゼーションの結果に重大な影響を与えている。 本研究では,GAN(Generative Adversarial Network)を用いて,劣化したカラー文書画像のバイナライズ画像を生成する3段階の手法を提案する。 ステージ1では、離散ウェーブレット変換を適用し、文書画像の強調のために低域のサブバンド画像を保持する。 ステージ2では、元の入力画像を赤、緑、青(RGB)の3つのシングルチャンネル画像と1つのグレースケール画像に分割し、各画像を独立したGANでトレーニングし、色フォアグラウンド情報を抽出する。 ステージ3では、ステージ2の出力画像と再サイズされた入力画像を用いて、独立したGANを訓練し、文書バイナライゼーション結果を生成し、グローバル特徴とローカル特徴の組み合わせを可能にする。 実験の結果, 提案手法のAvgスコアは, 77.64, 77.95, 79.05, 76.38, 75.34, 77.00で, (H)-DIBCO 2011, 2013, 2014, 2017, 2017, 2018の各データセットが最先端となることがわかった。 この作業の実装コードはhttps://github.com/abcpp12383/ThreeStageBinarizationで公開されている。

The efficient segmentation of text information from the background in degraded color document images is an important challenge in the preservation of ancient manuscripts. The imperfect preservation of ancient manuscripts has led to various types of degradation over time, such as staining, yellowing, and ink seepage, badly affecting document image binarization results. This work proposes a three-stage method to generate binarization image results for degraded colour document images using generative adversarial networks (GANs). Stage-1 involves applying discrete wavelet transform and retaining the low-low subband images for document image enhancement. In Stage-2, the original input image is split into red, green, and blue (RGB) three single-channel images and one grayscale image, and each image is trained with independent GANs to extract color foreground information. In Stage-3, the output images of Stage-2 and the resized input images are used to train independent GANs to generate document binarization results, enabling the combination of global and local features. The experimental results show that the Avg-Score of the proposed method is 77.64, 77.95, 79.05, 76.38, 75.34, and 77.00 on the (H)-DIBCO 2011, 2013, 2014, 2016, 2017, and 2018 datasets, which achieves the state-of-the-art level. The implementation code for this work is available at https://github.com/abcpp12383/ThreeStageBinarization.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# ウォーキングノイズ:ニューラルアーキテクチャのノイズ計算と関連する特性学習ダイナミクスに対する層特異的ロバスト性について

Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics ( http://arxiv.org/abs/2212.10430v2 )

ライセンス: Link先を確認
Hendrik Borras, Bernhard Klein, Holger Fröning, (参考訳) ディープニューラルネットワークは様々な用途で非常に成功しているが、高い計算要求とエネルギー消費を示す。 これは、テクノロジのスケーリングの混乱によって悪化し、ますます複雑なニューラルアーキテクチャを扱うための新しいアプローチの必要性が高まっている。 同時に、エネルギー効率の根本的な改善を約束するアナログコンピューティングのような代替コンピューティング技術は、必然的にノイズと不正確な計算を伴っている。 このようなノイズの多い計算はエネルギー効率が良く、固定電力予算が与えられた場合、より時間効率が良い。 しかしながら、あらゆる種類の安全でない最適化と同様に、機能的に正しい結果を保証するために対策が必要である。 本研究は,ニューラルネットワーク分類器の精度に対するノイズの影響を,模範的な作業負荷として理解するために,抽象形式でのノイズ計算を考察する。 本研究では,ロバスト性を測定するために層固有のノイズを注入し,学習力学の洞察を与えるウォーキングノイズという手法を提案する。 より詳しくは、異なる分類タスクとモデルアーキテクチャに対する加法的、乗法的、混合ノイズの影響について考察する。 雑音のトレーニングは,全てのノイズタイプに対して頑健さを著しく向上させるが,特に重み付けが増加し,付加雑音注入における信号対雑音比が本質的に向上することが観察された。 対照的に、乗法ノイズによるトレーニングは、モデルパラメータの自己双対化の形式につながり、極端に堅牢性をもたらす。 我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。

Deep neural networks are extremely successful in various applications, however they exhibit high computational demands and energy consumption. This is exacerbated by stuttering technology scaling, prompting the need for novel approaches to handle increasingly complex neural architectures. At the same time, alternative computing technologies such as analog computing, which promise groundbreaking improvements in energy efficiency, are inevitably fraught with noise and inaccurate calculations. Such noisy computations are more energy efficient, and, given a fixed power budget, also more time efficient. However, like any kind of unsafe optimization, they require countermeasures to ensure functionally correct results. This work considers noisy computations in an abstract form, and gears to understand the implications of such noise on the accuracy of neural network classifiers as an exemplary workload. We propose a methodology called Walking Noise which injects layer-specific noise to measure the robustness and to provide insights on the learning dynamics. In more detail, we investigate the implications of additive, multiplicative and mixed noise for different classification tasks and model architectures. While noisy training significantly increases robustness for all noise types, we observe in particular that it results in increased weight magnitudes and thus inherently improves the signal-to-noise ratio for additive noise injection. Contrarily, training with multiplicative noise can lead to a form of self-binarization of the model parameters, leading to extreme robustness. We conclude with a discussion of the use of this methodology in practice, among others, discussing its use for tailored multi-execution in noisy environments.
翻訳日:2024-06-17 20:12:53 公開日:2024-06-14
# パートアフォーマンスグラウンドを用いた6-DoFきめ細かい粒度検出の学習

Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding ( http://arxiv.org/abs/2301.11564v2 )

ライセンス: Link先を確認
Yaoxian Song, Penglei Sun, Piaopiao Jin, Yi Ren, Yu Zheng, Zhixu Li, Xiaowen Chu, Yue Zhang, Tiefeng Li, Jason Gu, (参考訳) ロボットの把握は、ロボットが環境と対話する基本的な能力である。 現在の手法は, 物体レベルでの安定かつ信頼性の高い把握ポーズを得る方法に焦点をあてる一方で, きめ細かい把握とロボットの余裕に関連する部分(形状)の把握についてはほとんど研究されていない。 部品は、リッチなセマンティック知識と余裕との強い相関を含むオブジェクトを構成する原子的要素と見なすことができる。 しかし、大きな部分的な3Dロボットデータセットがないため、部分表現学習や下流アプリケーションの開発は制限される。 本稿では,LangSHAPE(LangSHAPE)と呼ばれる言語誘導型SHape grAsPingデータを用いて,3次元部分レベルの可読性と把握能力学習を促進する手法を提案する。 ロボット認知の観点からは,新しい3次元部分言語接地モデルと,人間の言語モデルや大規模言語モデル(LLM)からの明示的な言語入力をロボットに誘導し,テキストによる説明による部分レベル6-DoFグルーピングポーズを生成する部分認識グルーピングモデルを含む,2段階のきめ細かなロボットグルーピングフレームワーク(LangPartGPD)を設計する。 提案手法は,人間とロボットの協調の利点と,明示的な言語を記号的中間体として用いたLCMの計画能力を組み合わせたものである。 提案手法の有効性を評価するため,テキストの複雑さの度合いが異なる言語指示に従って,シミュレーションと物理ロボット設定の両方において,3次元部分グラウンドときめ細かなグリップ検出実験を行った。 提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。 私たちのデータセットとコードはプロジェクトのWebサイトhttps://sites.google.com/view/lang-shapeで公開されています。

Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object level, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream applications. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named LangSHAPE) to promote 3D part-level affordance and grasping ability learning. From the perspective of robotic cognition, we design a two-stage fine-grained robotic grasping framework (named LangPartGPD), including a novel 3D part language grounding model and a part-aware grasp pose detection model, in which explicit language input from human or large language models (LLMs) could guide a robot to generate part-level 6-DoF grasping pose with textual explanation. Our method combines the advantages of human-robot collaboration and LLMs' planning ability using explicit language as a symbolic intermediate. To evaluate the effectiveness of our proposed method, we perform 3D part grounding and fine-grained grasp detection experiments on both simulation and physical robot settings, following language instructions across different degrees of textual complexity. Results show our method achieves competitive performance in 3D geometry fine-grained grounding, object affordance inference, and 3D part-aware grasping tasks. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape
翻訳日:2024-06-17 20:12:52 公開日:2024-06-14
# 神秘的で操作的なブラックボックス:レコメンダシステムにおける知覚の質的分析

Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems ( http://arxiv.org/abs/2302.09933v5 )

ライセンス: Link先を確認
Jukka Ruohonen, (参考訳) 推薦システムは、様々な事項に関する適切な提案を提供するために使用される。 これらの制度は古典的な研究テーマであるが、これらの制度に関する世論についてはまだ知識が限られている。 システムは様々な問題を引き起こすことが知られているので、世論も重要である。 そこで本研究では,欧州における一般市民,市民団体,企業等の推薦制度に対する認識の質的分析について述べる。 調査されたデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいています。 したがって,本論文は,新たな技術やオンラインプラットフォームを規制する上での圧力的問題に寄与するだけでなく,DSAの政策決定に関する洞察も明らかにする。 質的な結果によると、ヨーロッパ人は一般的にレコメンデーションシステムとレコメンデーションの品質について否定的な意見を持っている。 これらのシステムは、プライバシーやその他の基本的権利を侵害していると広く見られている。 多くのヨーロッパ人によると、これらは民主主義への脅威を含む様々な社会問題を引き起こしている。 さらに、EUの既存の規制は、適切な執行力の欠如により失敗していたと一般的にみられている。 状況改善のための協議について,多くの意見が寄せられたが,DSAに終わったのはごくわずかであった。

Recommender systems are used to provide relevant suggestions on various matters. Although these systems are a classical research topic, knowledge is still limited regarding the public opinion about these systems. Public opinion is also important because the systems are known to cause various problems. To this end, this paper presents a qualitative analysis of the perceptions of ordinary citizens, civil society groups, businesses, and others on recommender systems in Europe. The dataset examined is based on the answers submitted to a consultation about the Digital Services Act (DSA) recently enacted in the European Union (EU). Therefore, not only does the paper contribute to the pressing question about regulating new technologies and online platforms, but it also reveals insights about the policy-making of the DSA. According to the qualitative results, Europeans have generally negative opinions about recommender systems and the quality of their recommendations. The systems are widely seen to violate privacy and other fundamental rights. According to many Europeans, these also cause various societal problems, including even threats to democracy. Furthermore, existing regulations in the EU are commonly seen to have failed due to a lack of proper enforcement. Numerous suggestions were made by the respondents to the consultation for improving the situation, but only a few of these ended up to the DSA.
翻訳日:2024-06-17 20:12:52 公開日:2024-06-14
# 大規模言語モデルを用いた多言語機械翻訳:実証結果と解析

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis ( http://arxiv.org/abs/2304.04675v4 )

ライセンス: Link先を確認
Wenhao Zhu, Hongyi Liu, Qingxiu Dong, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li, (参考訳) 大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示している。 本稿では, MMT における LLM の利点と課題を, 2 つの質問に答えて体系的に検討する。 1) LLM は大規模言語を翻訳するのにどの程度効果があるか? 2)翻訳におけるLLMの性能に影響を及ぼす要因は何か? また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。 実験の結果,LLMの翻訳能力は継続的に関与していることが明らかとなった。 GPT-4は、翻訳方向の40.91%で強力な教師付きベースラインのNLLBを上回っているが、Google Translateのような商用翻訳システム、特に低リソース言語に対する大きなギャップに直面している。 さらなる分析により,LSMがMTに使用する場合,新たな作業パターンを示すことが判明した。 まず、LLMはリソース効率のよい翻訳能力を獲得し、ゼロリソース言語でも適度な翻訳を生成することができる。 第二に、命令のセマンティクスは、コンテキスト内例を与えられたときに驚くほど無視できる。 第3に、言語横断の見習いは、同じ言語ペアの見習いよりも、低リソースの翻訳により良いタスクガイダンスを提供することができる。 コードは、https://github.com/NJUNLP/MMT-LLM.comでリリースされる。

Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating massive languages? 2) Which factors affect LLMs' performance in translation? We thoroughly evaluate eight popular LLMs, including ChatGPT and GPT-4. Our empirical results show that translation capabilities of LLMs are continually involving. GPT-4 has beat the strong supervised baseline NLLB in 40.91% of translation directions but still faces a large gap towards the commercial translation system like Google Translate, especially on low-resource languages. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, LLM can acquire translation ability in a resource-efficient way and generate moderate translation even on zero-resource languages. Second, instruction semantics can surprisingly be ignored when given in-context exemplars. Third, cross-lingual exemplars can provide better task guidance for low-resource translation than exemplars in the same language pairs. Code will be released at: https://github.com/NJUNLP/MMT-LLM.
翻訳日:2024-06-17 20:12:52 公開日:2024-06-14
# SALSA: DNN加速器のアニーリングに基づくループ順序スケジューリング

SALSA: Simulated Annealing based Loop-Ordering Scheduler for DNN Accelerators ( http://arxiv.org/abs/2304.12931v2 )

ライセンス: Link先を確認
Victor J. B. Jung, Arne Symons, Linyan Mei, Marian Verhelst, Luca Benini, (参考訳) DNNの計算能力の増大に対応するため、複数の特殊なハードウェアアーキテクチャが提案されている。 それぞれのDNN層を最も効率的なスケジュールでハードウェアにマッピングする必要があるが、SotAスケジューラはすべてのDNN-HWの組み合わせに対して適切な時間で最適なスケジュールを提供するのに苦労している。 本稿では、偶数および不均一なマッピングの両方に対して最適な実行スケジュールを生成するための高速デュアルエンジンスケジューラであるSALSAを提案する。 提案手法では, 層間設計空間サイズを順序付けするループの動的性質に対処するため, 網羅的探索と模擬焼鈍を組み合わせた新しい手法を提案する。 SALSAは5つの異なるDNN上の2つのSotAスケジューラ、LOMAとTimeloopに対して広範囲にベンチマークされ、平均的なSALSAは11.9%と7.6%の低エネルギーのスケジュールを見つけ、検索をそれぞれLOMAとTimeloopと比較して1.7倍と24倍高速化する。

To meet the growing need for computational power for DNNs, multiple specialized hardware architectures have been proposed. Each DNN layer should be mapped onto the hardware with the most efficient schedule, however, SotA schedulers struggle to consistently provide optimum schedules in a reasonable time across all DNN-HW combinations. This paper proposes SALSA, a fast dual-engine scheduler to generate optimal execution schedules for both even and uneven mapping. We introduce a new strategy, combining exhaustive search with simulated annealing to address the dynamic nature of the loop ordering design space size across layers. SALSA is extensively benchmarked against two SotA schedulers, LOMA and Timeloop on 5 different DNNs, on average SALSA finds schedules with 11.9% and 7.6% lower energy while speeding up the search by 1.7x and 24x compared to LOMA and Timeloop, respectively.
翻訳日:2024-06-17 20:12:52 公開日:2024-06-14
# ディープアンサンブルの多様化:OOD検出, 校正, 精度向上のためのSaliency Mapアプローチ

Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy ( http://arxiv.org/abs/2305.11616v4 )

ライセンス: Link先を確認
Stanislav Dereka, Ivan Karpukhin, Maksim Zhdanov, Sergey Kolesnikov, (参考訳) ディープアンサンブルは、分類とアウト・オブ・ディストリビューション(OOD)の検出において最先端の結果を達成することができる。 しかし、それらの効果は、アンサンブル内の学習パターンの均一性によって制限されている。 そこで本研究では,Saliency Diversified Deep Ensemble (SDDE)を導入した。 本手法は,サリエンシマップの多様化を取り入れることで,従来のアンサンブル手法より優れ,複数の分類における校正やOOD検出タスクの改善を実現している。 特に,提案手法は,CIFAR10/100や大規模画像Netデータセットを含む複数のベンチマークにおいて,最先端のOOD検出品質,キャリブレーション,精度を実現する。

Deep ensembles are capable of achieving state-of-the-art results in classification and out-of-distribution (OOD) detection. However, their effectiveness is limited due to the homogeneity of learned patterns within ensembles. To overcome this issue, our study introduces Saliency Diversified Deep Ensemble (SDDE), a novel approach that promotes diversity among ensemble members by leveraging saliency maps. Through incorporating saliency map diversification, our method outperforms conventional ensemble techniques and improves calibration in multiple classification and OOD detection tasks. In particular, the proposed method achieves state-of-the-art OOD detection quality, calibration, and accuracy on multiple benchmarks, including CIFAR10/100 and large-scale ImageNet datasets.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 動的不確実性を考慮した大規模データ・プルーニング

Large-scale Dataset Pruning with Dynamic Uncertainty ( http://arxiv.org/abs/2306.05175v3 )

ライセンス: Link先を確認
Muyang He, Shuo Yang, Tiejun Huang, Bo Zhao, (参考訳) 画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集し、それに基づいてより大きなモデルをトレーニングすることによって進歩している。 その結果、計算コストの増大は達成不可能になりつつある。 本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。 本稿では,予測の不確かさとトレーニング力学の両方を探索し,簡便で効果的なデータセット解析手法を提案する。 本研究では,大規模なデータセットであるImageNet-1KとImageNet-21Kと,Swin TransformerとConvNeXtの高度なモデルを用いて,トレーニングプロセス全体における予測の変動を測定することで,データセットのプルーニングについて検討する。 その結果,本手法は画像Net-1Kと画像Net-21Kの両方で25%のロスレスプルーニング比を達成できることがわかった。 コードはhttps://github.com/BAAI-DCAI/Dataset-Pruning.comで公開されている。

The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable. In this paper, we investigate how to prune the large-scale datasets, and thus produce an informative subset for training sophisticated deep models with negligible performance drop. We propose a simple yet effective dataset pruning method by exploring both the prediction uncertainty and training dynamics. We study dataset pruning by measuring the variation of predictions during the whole training process on large-scale datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin Transformer and ConvNeXt. Extensive experimental results indicate that our method outperforms the state of the art and achieves 25% lossless pruning ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are available at https://github.com/BAAI-DCAI/Dataset-Pruning.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 古典的次元化への tSNE と UMAP の対応

Relating tSNE and UMAP to Classical Dimensionality Reduction ( http://arxiv.org/abs/2306.11898v2 )

ライセンス: Link先を確認
Andrew Draganov, Simon Dohn, (参考訳) AIモデルが何を学んだかを説明する際に、tSNEやUMAPのような勾配に基づく次元削減(DR)手法を使うのが標準になっている。 これらの手法は高速で堅牢であり、高次元データのセマンティックなパターンを監督なしで見つけることができる。 これにもかかわらず、勾配に基づくDR法は、説明可能性法が持つべき最も重要な品質を欠いている。 つまり、UMAP出力を考えると、現在、対応する入力について何と言うことができるのかは定かではない。 従来のDR技術に UMAP を関連づけることで,この問題を解決しようとしている。 具体的には,PCA,MDS,ISOMAPなどの手法を,ランダムに初期化したデータセットにアトラクションや反発を適用することで,最新のDRパラダイムで完全に復元可能であることを示す。 また,小さな変更で局所線形埋め込み(LLE)がUMAP出力を区別不能に再現できることも示している。 これは UMAP の有効目的が LLE の修正版によって最小化されることを意味する(逆もまた)。 このことから,UMAPエンベディングの真相と今後の研究への道筋について論じる。

It has become standard to use gradient-based dimensionality reduction (DR) methods like tSNE and UMAP when explaining what AI models have learned. This makes sense: these methods are fast, robust, and have an uncanny ability to find semantic patterns in high-dimensional data without supervision. Despite this, gradient-based DR methods lack the most important quality that an explainability method should possess: themselves being explainable. That is, given a UMAP output, it is currently unclear what one can say about the corresponding input. We work towards closing this question by relating UMAP to classical DR techniques. Specifically, we show that one can fully recover methods like PCA, MDS, and ISOMAP in the modern DR paradigm: by applying attractions and repulsions onto a randomly initialized dataset. We also show that, with a small change, Locally Linear Embeddings (LLE) can indistinguishably reproduce UMAP outputs. This implies that the UMAP effective objective is minimized by this modified version of LLE (and vice versa). Given this, we discuss what must be true of UMAP emebddings and present avenues for future work.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# スパースグラフ線形力学系

Sparse Graphical Linear Dynamical Systems ( http://arxiv.org/abs/2307.03210v2 )

ライセンス: Link先を確認
Emilie Chouzenoux, Victor Elvira, (参考訳) 時系列データセットは機械学習の中心であり、バイオメディシン、地球観測、ネットワーク分析など、科学と工学の様々な分野に応用されている。 状態空間モデル(SSM)は、時系列上で確率的かつ解釈可能な学習を可能にする強力な数学的ツールである。 モデルパラメータをSSMで学習することは、おそらく最も複雑なタスクの1つであり、事前知識の含みは、解釈の容易さだけでなく、推論タスクを複雑にすることが知られている。 ごく最近の研究は、これらのモデルパラメータのいくつかにグラフィカルな視点を取り入れようと試みているが、それらが対処する注目すべき制限を提示している。 より一般的に、既存のグラフィカルモデリングツールは静的情報、独立確率変数間の統計的依存関係(例えば、グラフィカル・ラッソ・アプローチ)、動的情報、時系列サンプル間の因果関係(例えば、グラフィカル・グランガー・アプローチ)のいずれかを組み込むように設計されている。 しかし、SSMのコンテキスト内で静的および動的グラフィカルモデリングを組み合わせた共同アプローチは存在しない。 本研究では,このギャップを埋めるために,グラフィカルなLassoモデルと線形ガウスSSMのための因果的グラフィカルなアプローチをブリッジする共同グラフィカル・モデリング・フレームワークを提案する。 本稿では,DGLASSO(Dynamic Graphical Lasso)を提案する。 アルゴリズムの収束は、非線形解析から現代のツールから離れることによって確立される。 各種合成データの実験的検証により,提案手法の有効性が示された。

Time-series datasets are central in machine learning with applications in numerous fields of science and engineering, such as biomedicine, Earth observation, and network analysis. Extensive research exists on state-space models (SSMs), which are powerful mathematical tools that allow for probabilistic and interpretable learning on time series. Learning the model parameters in SSMs is arguably one of the most complicated tasks, and the inclusion of prior knowledge is known to both ease the interpretation but also to complicate the inferential tasks. Very recent works have attempted to incorporate a graphical perspective on some of those model parameters, but they present notable limitations that this work addresses. More generally, existing graphical modeling tools are designed to incorporate either static information, focusing on statistical dependencies among independent random variables (e.g., graphical Lasso approach), or dynamic information, emphasizing causal relationships among time series samples (e.g., graphical Granger approaches). However, there are no joint approaches combining static and dynamic graphical modeling within the context of SSMs. This work proposes a novel approach to fill this gap by introducing a joint graphical modeling framework that bridges the graphical Lasso model and a causal-based graphical approach for the linear-Gaussian SSM. We present DGLASSO (Dynamic Graphical Lasso), a new inference method within this framework that implements an efficient block alternating majorization-minimization algorithm. The algorithm's convergence is established by departing from modern tools from nonlinear analysis. Experimental validation on various synthetic data showcases the effectiveness of the proposed model and inference algorithm.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# リサイクルと遅延を考慮した1次双曲型PIDEのPDEバックステッピング制御のためのニューラル演算子

Neural Operators for PDE Backstepping Control of First-Order Hyperbolic PIDE with Recycle and Delay ( http://arxiv.org/abs/2307.11436v2 )

ライセンス: Link先を確認
Jie Qi, Jing Zhang, Miroslav Krstic, (参考訳) PDE制御のための最近導入されたDeepONet演算子学習フレームワークは、基本的双曲型および放物型PDEの結果から、状態とシステム出力と入力の両方の遅延を伴う高度な双曲型クラスへと拡張されている。 PDEバックステッピング設計は、非線形演算子の出力であるゲイン関数を生成し、空間領域上の関数を空間領域上の関数にマッピングし、このゲイン生成演算子の入力をPDEの係数とする。 この演算子は、DeepONetニューラルネットワークと近似して、任意にきつい精度の程度に近似する。 この近似理論を無限次元で生成すると、近似ゲインを用いたフィードバックの下で閉ループの安定性を確立する。 実状態フィードバックによる結果の供給に加えて,DeepONet近似オブザーバや出力フィードバック法則も開発し,ニューラル演算子近似による安定化特性の証明を行う。 数値シミュレーションでは、数値PDE解法をDeepONetに置き換えることにより、2桁の数値的な労力の削減を理論的に説明し、定量化する。

The recently introduced DeepONet operator-learning framework for PDE control is extended from the results for basic hyperbolic and parabolic PDEs to an advanced hyperbolic class that involves delays on both the state and the system output or input. The PDE backstepping design produces gain functions that are outputs of a nonlinear operator, mapping functions on a spatial domain into functions on a spatial domain, and where this gain-generating operator's inputs are the PDE's coefficients. The operator is approximated with a DeepONet neural network to a degree of accuracy that is provably arbitrarily tight. Once we produce this approximation-theoretic result in infinite dimension, with it we establish stability in closed loop under feedback that employs approximate gains. In addition to supplying such results under full-state feedback, we also develop DeepONet-approximated observers and output-feedback laws and prove their own stabilizing properties under neural operator approximations. With numerical simulations we illustrate the theoretical results and quantify the numerical effort savings, which are of two orders of magnitude, thanks to replacing the numerical PDE solving with the DeepONet.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 大規模言語モデルに基づくファズドライバ生成の理解

Understanding Large Language Model Based Fuzz Driver Generation ( http://arxiv.org/abs/2307.12469v3 )

ライセンス: Link先を確認
Cen Zhang, Mingqiang Bai, Yaowen Zheng, Yeting Li, Wei Ma, Xiaofei Xie, Yuekang Li, Limin Sun, Yang Liu, (参考訳) LLM(Large Language Model)ファズドライバ生成は有望な研究分野である。 従来のプログラム分析ベースの手法とは異なり、このテキストベースのアプローチはより一般的であり、様々なAPI使用情報を利用することができる。 しかし、その効果や潜在的な課題など、この方向の根本的な問題に対する理解の欠如がまだ残っている。 このギャップを埋めるために,LLMを用いてファズドライバを効果的に生成する上での重要な課題を対象とした,最初の詳細な研究を行った。 本研究は,30の広く利用されているCプロジェクトから86のファズドライバ生成質問を収集した,キュレートされたデータセットを特徴とする。 6つのプロンプト戦略は、5つの異なる温度設定を持つ5つの最先端のLCMで設計およびテストされる。 合計で736,430個のファジィドライバを評価したところ、トークンのコストは0.85億ドル(8000ドル以上)だった。 さらに,LLM生成ドライバを産業用ドライバと比較し,ファジリング実験(3.75 CPU-year)を行った。 LLMをベースとしたファズドライバ生成は有望な方向であるが、実用的アプリケーションに対するいくつかの障害に直面している; - LLMは複雑な仕様を持つAPIに対して効果的なファズドライバを生成するのに困難に直面している。 繰り返しクエリの発行、例によるクエリ、反復的なクエリプロセスの採用、 – LLMの生成したドライバは、業界で使用されているものと同等のファジィな結果を得ることができるが、含まれたAPI使用の延長や、論理的なバグ検出を容易にするセマンティックオーラクルの統合など、拡張する大きなチャンスがある。 我々の洞察はOSS-Fuzz-Genプロジェクトを改善するために実装され、業界におけるファズドライバの実践的生成を促進しました。

LLM-based (Large Language Model) fuzz driver generation is a promising research area. Unlike traditional program analysis-based method, this text-based approach is more general and capable of harnessing a variety of API usage information, resulting in code that is friendly for human readers. However, there is still a lack of understanding regarding the fundamental issues on this direction, such as its effectiveness and potential challenges. To bridge this gap, we conducted the first in-depth study targeting the important issues of using LLMs to generate effective fuzz drivers. Our study features a curated dataset with 86 fuzz driver generation questions from 30 widely-used C projects. Six prompting strategies are designed and tested across five state-of-the-art LLMs with five different temperature settings. In total, our study evaluated 736,430 generated fuzz drivers, with 0.85 billion token costs ($8,000+ charged tokens). Additionally, we compared the LLM-generated drivers against those utilized in industry, conducting extensive fuzzing experiments (3.75 CPU-year). Our study uncovered that: - While LLM-based fuzz driver generation is a promising direction, it still encounters several obstacles towards practical applications; - LLMs face difficulties in generating effective fuzz drivers for APIs with intricate specifics. Three featured design choices of prompt strategies can be beneficial: issuing repeat queries, querying with examples, and employing an iterative querying process; - While LLM-generated drivers can yield fuzzing outcomes that are on par with those used in the industry, there are substantial opportunities for enhancement, such as extending contained API usage, or integrating semantic oracles to facilitate logical bug detection. Our insights have been implemented to improve the OSS-Fuzz-Gen project, facilitating practical fuzz driver generation in industry.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 単一テキストからの局所的・大域的キーワードの教師なし抽出

Unsupervised extraction of local and global keywords from a single text ( http://arxiv.org/abs/2307.14005v2 )

ライセンス: Link先を確認
Lida Aleksanyan, Armen E. Allahverdyan, (参考訳) テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。 それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。 既存の方法(例えばYAKE)と比較して、我々の方法には3つの利点がある。 まず、長いテキストからキーワードを抽出する方がはるかに効果的である。 第二に、ローカルとグローバルの2種類のキーワードを推論できる。 第3に、テキストの基本的なテーマを明らかにする。 さらに,本手法は言語に依存しず,短いテキストに適用できる。 結果は、古典文学作品のデータベースから以前の文献の知識を持つ人間アノテータを通して得られる(アノテータ間の合意は、中程度から実質的なものである)。 この結果は,抽出した内容語の平均長と抽出した単語の平均名詞数に基づいて,人間に依存しない議論を通じて支持される。 本稿では,高次テキスト特徴とキーワードの関係を論じ,キーワードと章分割の関連を明らかにする。

We propose an unsupervised, corpus-independent method to extract keywords from a single text. It is based on the spatial distribution of words and the response of this distribution to a random permutation of words. As compared to existing methods (such as e.g. YAKE) our method has three advantages. First, it is significantly more effective at extracting keywords from long texts. Second, it allows inference of two types of keywords: local and global. Third, it uncovers basic themes in texts. Additionally, our method is language-independent and applies to short texts. The results are obtained via human annotators with previous knowledge of texts from our database of classical literary works (the agreement between annotators is from moderate to substantial). Our results are supported via human-independent arguments based on the average length of extracted content words and on the average number of nouns in extracted words. We discuss relations of keywords with higher-order textual features and reveal a connection between keywords and chapter divisions.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 低損失Centimeterスケールナノメカニカル共振器

Centimeter-scale nanomechanical resonators with low dissipation ( http://arxiv.org/abs/2308.00611v2 )

ライセンス: Link先を確認
Andrea Cupertino, Dongil Shin, Leo Guo, Peter G. Steeneken, Miguel A. Bessa, Richard A. Norte, (参考訳) 高アスペクト比の機械共振器は、マクロ重力波検出器からナノスケール音響まで、精密センシングにおいて重要である。 しかし、製造課題と高い計算コストは、これらのデバイスの長さと厚さの比率を制限しており、ナノエンジニアリングにおけるほとんど探索されていない状態を残している。 ナノメカニカル共振器は, ナノメートルの厚さを保ちながら, 長さが1センチメートル長のナノメカニカル共振器を提供する。 この拡張設計空間を,高速ミリスケールのシミュレーションを用いて,より計算集約的なセンチメートルスケールの設計最適化を行う最適化手法を用いて検討する。 繊細なナノファブリケーション技術を用いて高収率の実現を保証し、理論予測に近い室温品質要因を実験的に確認する。 ナノファブリケーション、機械学習によって導かれる設計最適化、精密エンジニアリングの相乗効果は、温度と真空条件が著しく低いにもかかわらず、主要な低温共振器や浮遊ナノスフィアの性能に匹敵する、100億の室温品質要因への固相経路を、キロヘルツの機械周波数で接近させる。

High-aspect-ratio mechanical resonators are pivotal in precision sensing, from macroscopic gravitational wave detectors to nanoscale acoustics. However, fabrication challenges and high computational costs have limited the length-to-thickness ratio of these devices, leaving a largely unexplored regime in nano-engineering. We present nanomechanical resonators that extend centimeters in length yet retain nanometer thickness. We explore this expanded design space using an optimization approach which judiciously employs fast millimeter-scale simulations to steer the more computationally intensive centimeter-scale design optimization. By employing delicate nanofabrication techniques, our approach ensures high-yield realization, experimentally confirming room-temperature quality factors close to theoretical predictions. The synergy between nanofabrication, design optimization guided by machine learning, and precision engineering opens a solid-state path to room-temperature quality factors approaching 10 billion at kilohertz mechanical frequencies -- comparable to the performance of leading cryogenic resonators and levitated nanospheres, even under significantly less stringent temperature and vacuum conditions.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 異なる次元の双極子状態に対する絡み合いの証人と有効基準

An entanglement witness and an effective criterion for bipartite states of different dimensions ( http://arxiv.org/abs/2308.07019v4 )

ライセンス: Link先を確認
Vahid Jannesary, Vahid Karimipour, (参考訳) 異なる次元の空間間の様々な正の写像の集合を生成するための簡単なアプローチを提案する。 提案手法は,$d_1 \times d_2$次元のシステムに適したエンタングルメントウィットネスの構築を可能にする。 すると、この絡み合いの一般密度行列への応用が、閉形式で単純な計算可能基準にどのように導かれるかを示す。 この基準のパワーを支えるために、様々な(1パラメータの)PPT絡み合った状態に適用し、これらの状態が絡み合ったパラメータの範囲が、以前報告されたよりもはるかに大きいことを示す。

We present a simple approach for generation of a diverse set of positive maps between spaces of different dimensions. The proposed method enables the construction of Entanglement Witnesses tailored for systems in $d_1 \times d_2$ dimensions. We then show how application of this entanglement witness to a general density matrix leads to a simple calculable criterion in closed form. As a support for the power of this criterion, we apply it to a variety of (one-parameter) PPT entangled states and show that the ranges of the parameters where these states are entangled are much larger than previously reported.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# 対称重み付き一階モデルサンプリングのためのリフテッドアルゴリズム

Lifted Algorithms for Symmetric Weighted First-Order Model Sampling ( http://arxiv.org/abs/2308.08828v3 )

ライセンス: Link先を確認
Yuanhong Wang, Juhua Pu, Yuyi Wang, Ondřej Kuželka, (参考訳) 重み付きモデルカウント(英: Weighted Model counting、WMC)は、命題式の全割り当て(すなわちモデル)の重み付き和を計算するタスクである。 同様に、重み付きモデルサンプリング(WMS)は、それぞれの重みに比例する確率のモデルをランダムに生成することを目的としている。 WMC と WMS はどちらも正確には解けず、$\#\mathsf{P}$-hard complexity class に該当する。 しかし、命題公式をコンパクトに表現し、一階述語論理で表すことができれば、数え上げ問題は時として抽出可能であることが知られている。 そのような場合、モデルカウント問題は、ドメインサイズの時間多項式で解くことができ、ドメインリフト(Domain-liftable)として知られている。 重み付けされたモデルサンプリングについてもそうであるのか? 本稿では,この問題に対処し,肯定的に答える。 具体的には,1次論理の2変数フラグメントを量子化器でサンプリングする際の領域リフト性について,このフラグメントを時間多項式でドメインサイズで効率的にサンプリングするアルゴリズムを考案した。 さらに、この結果は、濃度制約が存在しても引き続き持続することを示す。 提案手法を実証的に検証するために, 組合せ構造を均一に生成し, 統計的関係モデルでサンプリングするために, 様々な一階式について実験を行った。 以上の結果から,本アルゴリズムは最先端のWMSサンプリング器よりも高い性能を示し,理論的結果を確認した。

Weighted model counting (WMC) is the task of computing the weighted sum of all satisfying assignments (i.e., models) of a propositional formula. Similarly, weighted model sampling (WMS) aims to randomly generate models with probability proportional to their respective weights. Both WMC and WMS are hard to solve exactly, falling under the $\#\mathsf{P}$-hard complexity class. However, it is known that the counting problem may sometimes be tractable, if the propositional formula can be compactly represented and expressed in first-order logic. In such cases, model counting problems can be solved in time polynomial in the domain size, and are known as domain-liftable. The following question then arises: Is it also the case for weighted model sampling? This paper addresses this question and answers it affirmatively. Specifically, we prove the domain-liftability under sampling for the two-variables fragment of first-order logic with counting quantifiers in this paper, by devising an efficient sampling algorithm for this fragment that runs in time polynomial in the domain size. We then further show that this result continues to hold even in the presence of cardinality constraints. To empirically verify our approach, we conduct experiments over various first-order formulas designed for the uniform generation of combinatorial structures and sampling in statistical-relational models. The results demonstrate that our algorithm outperforms a start-of-the-art WMS sampler by a substantial margin, confirming the theoretical results.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# ニューラルクロthSim:ニューラル変形場は薄いシェル理論と一致する

NeuralClothSim: Neural Deformation Fields Meet the Thin Shell Theory ( http://arxiv.org/abs/2308.12970v2 )

ライセンス: Link先を確認
Navami Kairanda, Marc Habermann, Christian Theobalt, Vladislav Golyanik, (参考訳) 既存の3D布のシミュレータは現実的な結果を生み出すが、それらは主に空間分解能を固定した離散的な表面表現(例えば、点やメッシュ)で動作し、大きなメモリ消費と分解能に依存したシミュレーションに繋がる。 さらに、既存の解決器によるバックプロパゲート勾配は困難であり、現代のニューラルネットワークに容易に組み込むことはできない。 本稿では,ニューラルネットワークの重みで表面の変形を符号化した薄い殻を用いた新しい擬似布シミュレータであるNeuralClothSimを提案する。 メモリ効率の高い解法はニューラル変形場 (NDF) と呼ばれる新しい連続座標に基づく表面表現を演算し、非線形異方性物質モデルを用いた非線形キルヒホフ・ローブシェル理論の法則でNDF平衡を監督する。 NDFは適応的です。 1) 変形詳細に容量を割り当てて 2) 任意の空間分解能で表面状態のクエリを再学習することなく行う。 ハードバウンダリ条件を適用しながらNeuralClothSimのトレーニング方法を示し、材料補間やシミュレーション編集など、複数の応用例を示す。 実験結果は, 連続神経定式化の有効性を強調した。

Despite existing 3D cloth simulators producing realistic results, they predominantly operate on discrete surface representations (e.g. points and meshes) with a fixed spatial resolution, which often leads to large memory consumption and resolution-dependent simulations. Moreover, back-propagating gradients through the existing solvers is difficult, and they cannot be easily integrated into modern neural architectures. In response, this paper re-thinks physically plausible cloth simulation: We propose NeuralClothSim, i.e., a new quasistatic cloth simulator using thin shells, in which surface deformation is encoded in neural network weights in the form of a neural field. Our memory-efficient solver operates on a new continuous coordinate-based surface representation called neural deformation fields (NDFs); it supervises NDF equilibria with the laws of the non-linear Kirchhoff-Love shell theory with a non-linear anisotropic material model. NDFs are adaptive: They 1) allocate their capacity to the deformation details and 2) allow surface state queries at arbitrary spatial resolutions without re-training. We show how to train NeuralClothSim while imposing hard boundary conditions and demonstrate multiple applications, such as material interpolation and simulation editing. The experimental results highlight the effectiveness of our continuous neural formulation.
翻訳日:2024-06-17 20:03:08 公開日:2024-06-14
# Maestro: トレーニング可能な分解による低ランク構造発見

Maestro: Uncovering Low-Rank Structures via Trainable Decomposition ( http://arxiv.org/abs/2308.14929v2 )

ライセンス: Link先を確認
Samuel Horvath, Stefanos Laskaridis, Shashank Rajput, Hongyi Wang, (参考訳) 近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。 しかし、これらのモデルはより正確で安全になるにつれて、ますます大きくなってきている。 これは、トレーニングがますますコストと時間のかかるものになり、通常、すべてのターゲットに適合する単一のモデルが得られることを意味します。 プルーニング、スパーシフィケーション、モデルの重み付けと更新の定量化など、これを緩和する様々な技術が文献で提案されている。 高い圧縮率を達成する一方で、トレーニング時に重大な計算オーバーヘッドを発生させる場合や、無視できない精度のペナルティにつながる場合が多い。 あるいは、DNNの低ランク圧縮に分解法が活用されている。 同様に、そのような手法(例えばSVD)は、しばしばレイヤーの重い反復分解に依存し、DNNのような非線形モデルに準最適である可能性がある。 我々は、効率的な低ランクモデルの設計をさらに進め、トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。 先行分解を反復的に施す代わりに、低ランク秩序分解であるLoDを用いて、低ランク構造をトレーニングプロセスに焼き込む。 サンプリングによる順序付けが分解されたDNN構造に適用されるのはこれが初めてであるだけでなく、層粒度でランクを選択することもできる。 理論解析により,特殊ケースではLoDがSVD分解とPCAを回復することが示された。 DNNに適用されたMaestroは、パフォーマンスを維持する下位フットプリントモデルの抽出を可能にする。 同時に、デプロイメントの精度レイテンシと、さらに制約のあるデバイスとの、再トレーニングなしでの優雅なトレードオフを可能にします。

Deep Neural Networks (DNNs) have been a large driver for AI breakthroughs in recent years. However, these models have been getting increasingly large as they become more accurate and safe. This means that their training becomes increasingly costly and time-consuming and typically yields a single model to fit all targets. Various techniques have been proposed in the literature to mitigate this, including pruning, sparsification, or quantization of model weights and updates. While achieving high compression rates, they often incur significant computational overheads at training or lead to non-negligible accuracy penalty. Alternatively, factorization methods have been leveraged for low-rank compression of DNNs. Similarly, such techniques (e.g., SVD) frequently rely on heavy iterative decompositions of layers and are potentially sub-optimal for non-linear models, such as DNNs. We take a further step in designing efficient low-rank models and propose Maestro, a framework for trainable low-rank layers. Instead of iteratively applying a priori decompositions, the low-rank structure is baked into the training process through LoD, a low-rank ordered decomposition. Not only is this the first time importance ordering via sampling is applied on the decomposed DNN structure, but it also allows selecting ranks at a layer granularity. Our theoretical analysis demonstrates that in special cases LoD recovers the SVD decomposition and PCA. Applied to DNNs, Maestro enables the extraction of lower footprint models that preserve performance. Simultaneously, it enables the graceful trade-off between accuracy-latency for deployment to even more constrained devices without retraining.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# 動的カシミール効果による量子ビットの量子同期

Quantum synchronization of qubits via dynamical Casimir effect ( http://arxiv.org/abs/2308.15788v2 )

ライセンス: Link先を確認
Haruki Mitarai, Yoshihiko Hasegawa, (参考訳) 本稿では,原子空洞量子力学系におけるカシミール効果によって誘導される量子ビットの同期について検討する。 本研究は,2つの超伝導量子ビットを共振共振器と共振共振器を一方の端で超伝導量子干渉装置で結合する量子システムの実用的構成を中心に展開する。 システム力学の理論解析により、共振器における光子生成によって達成されるであろう同期を確保するのに十分な条件が明らかになる。 システムの時間進化を数値的に解析することにより, 動的カシミール効果による光子生成により条件が満たされ, クビット同期が生じることを確認した。 量子ビットの初期状態の違いと電磁場への量子ビットの結合強度の違いは、これらの因子の重複なく独立に同期に影響を及ぼす。

In this paper, we study the synchronization of qubits induced by the dynamical Casimir effect in an atom-cavity quantum electrodynamics system. Our investigation revolves around a pragmatic configuration of a quantum system, where two superconducting qubits are coupled to a shared coplanar waveguide resonator terminated at one end by a superconducting quantum interference device. The theoretical analyses of the system dynamics reveal sufficient conditions for ensuring synchronization which are anticipated to be accomplished by photon generation in the resonator. By numerically analyzing the time evolution of the system, we confirm that the conditions are satisfied by photon generation via the dynamical Casimir effect, resulting in qubit synchronization. Notably, we unveil a remarkable feature that is unique to synchronization induced by the dynamical Casimir effect: the differences in the initial states of qubits and the differences in the coupling strengths of qubits to an electromagnetic field affect the synchronization independently without overlap between these factors.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# サンプルレベルのモダリティ評価によるマルチモーダル協調の強化

Enhancing multimodal cooperation via sample-level modality valuation ( http://arxiv.org/abs/2309.06255v4 )

ライセンス: Link先を確認
Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu, (参考訳) マルチモーダル学習の第一のトピックは、異なるモーダルからの異種情報を共同で組み込むことである。 しかし、ほとんどのモデルは、全てのモダリティをうまく活用できない不満足なマルチモーダル協調に悩まされる。 いくつかの手法は、より悪い学習モダリティを識別し、強化するために提案されているが、しばしば、理論的な支援を伴うサンプルレベルでのマルチモーダル協調のきめ細かい観察を提供することは困難である。 したがって、モダリティ間の微粒な協調を合理的に観察し、改善することが不可欠であり、特に、モダリティの相違が異なるサンプル間で異なる現実的なシナリオに直面している場合である。 この目的のために,各サンプルに対する各モダリティの寄与を評価するために,サンプルレベルのモダリティ評価指標を導入する。 モダリティ評価によって、モダリティの相違は、データセットレベルでのグローバルな貢献相違を超えて、実際にサンプルレベルで異なる可能性があることが分かる。 さらに,本問題を解析し,低配当モダリティの識別能力を高めることで,サンプルレベルでのモダリティ間の協調性を向上する。 全体として,本手法は細粒度のユニモーダルコントリビューションを合理的に観察し,大幅な改善を実現している。 ソースコードとデータセットはhttps://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperationで公開されている。

One primary topic of multimodal learning is to jointly incorporate heterogeneous information from different modalities. However most models often suffer from unsatisfactory multimodal cooperation which cannot jointly utilize all modalities well. Some methods are proposed to identify and enhance the worse learnt modality but they are often hard to provide the fine-grained observation of multimodal cooperation at sample-level with theoretical support. Hence it is essential to reasonably observe and improve the fine-grained cooperation between modalities especially when facing realistic scenarios where the modality discrepancy could vary across different samples. To this end we introduce a sample-level modality valuation metric to evaluate the contribution of each modality for each sample. Via modality valuation we observe that modality discrepancy indeed could be different at sample-level beyond the global contribution discrepancy at dataset-level. We further analyze this issue and improve cooperation between modalities at sample-level by enhancing the discriminative ability of low-contributing modalities in a targeted manner. Overall our methods reasonably observe the fine-grained uni-modal contribution and achieve considerable improvement. The source code and dataset are available at https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# ポリプセグメンテーションタスクの一般化性向上のためのベイズ的不確実性重み付き損失

Bayesian uncertainty-weighted loss for improved generalisability on polyp segmentation task ( http://arxiv.org/abs/2309.06807v2 )

ライセンス: Link先を確認
Rebecca S. Stone, Pedro E. Chavarrias-Solano, Andrew J. Bulpitt, David C. Hogg, Sharib Ali, (参考訳) 過去のいくつかの研究でポリプの分割法が考案されているが、これらの手法のほとんどはマルチセンターデータセットで厳密に評価されていない。 ポリプの出現による変動, 内視鏡機器の品位の違い, 取得品質などにより, 分散試験データの性能は良好であり, 分布外または表現不足のサンプルの性能は劣る。 不公平モデルには深刻な意味があり、臨床応用にとって重要な課題となっている。 トレーニング中にベイズ予測の不確実性を生かした暗黙バイアス緩和手法を適用し, モデルが過小評価されたサンプル領域に集中するよう促す。 本稿では,多心多心セグメンテーションデータセット(PolypGen)において,異なる中心と画像のモダリティを持つ課題に対して,最先端の性能を犠牲にすることなく,汎用性を向上させるためのこのアプローチの可能性を示す。

While several previous studies have devised methods for segmentation of polyps, most of these methods are not rigorously assessed on multi-center datasets. Variability due to appearance of polyps from one center to another, difference in endoscopic instrument grades, and acquisition quality result in methods with good performance on in-distribution test data, and poor performance on out-of-distribution or underrepresented samples. Unfair models have serious implications and pose a critical challenge to clinical applications. We adapt an implicit bias mitigation method which leverages Bayesian predictive uncertainties during training to encourage the model to focus on underrepresented sample regions. We demonstrate the potential of this approach to improve generalisability without sacrificing state-of-the-art performance on a challenging multi-center polyp segmentation dataset (PolypGen) with different centers and image modalities.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# TopMost: トピックモデリングシステムツールキット

Towards the TopMost: A Topic Modeling System Toolkit ( http://arxiv.org/abs/2309.06908v2 )

ライセンス: Link先を確認
Xiaobao Wu, Fengjun Pan, Anh Tuan Luu, (参考訳) トピックモデルは様々なアプリケーションで豊富な歴史を持ち、最近はニューラルトピックモデリングによって再活性化されている。 しかし、これらの多くのトピックモデルは、全く異なるデータセット、実装、評価を採用する。 これは迅速な利用と公正な比較を妨げるため、研究の進歩と応用を妨げる。 そこで本研究では,トピックモデリングシステムツールキット(TopMost)を提案する。 既存のツールキットと比較して、TopMostはより広範な機能をサポートすることで際立っている。 データセット、前処理、モデル、トレーニング、評価などを含む、幅広いトピックモデリングシナリオを、完全なライフサイクルでカバーしている。 密集的で疎結合なモジュール設計のおかげで、TopMostは様々な最先端トピックモデルの迅速な利用、公正な比較、柔軟な拡張を可能にします。 私たちのコード、チュートリアル、ドキュメントはhttps://github.com/bobxwu/topmost.comで公開されています。

Topic models have a rich history with various applications and have recently been reinvigorated by neural topic modeling. However, these numerous topic models adopt totally distinct datasets, implementations, and evaluations. This impedes quick utilization and fair comparisons, and thereby hinders their research progress and applications. To tackle this challenge, we in this paper propose a Topic Modeling System Toolkit (TopMost). Compared to existing toolkits, TopMost stands out by supporting more extensive features. It covers a broader spectrum of topic modeling scenarios with their complete lifecycles, including datasets, preprocessing, models, training, and evaluations. Thanks to its highly cohesive and decoupled modular design, TopMost enables rapid utilization, fair comparisons, and flexible extensions of diverse cutting-edge topic models. Our code, tutorials, and documentation are available at https://github.com/bobxwu/topmost.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# Beyond Gut Feel: 時系列トランスフォーマーを使って投資Gemを見つける

Beyond Gut Feel: Using Time Series Transformers to Find Investment Gems ( http://arxiv.org/abs/2309.16888v3 )

ライセンス: Link先を確認
Lele Cao, Gustaf Halvardsson, Andrew McCornack, Vilhelm von Ehrenheim, Pawel Herman, (参考訳) 本稿では、PE(Private Equity)業界におけるデータ駆動アプローチの適用拡大、特にVC(Venture Capital)とGC(Growth Capital)の投資目標(企業)のソーシングについて論じる。 本稿では,トランスフォーマーをベースとした多変量時系列分類器(TMTSC)を用いた新たなアプローチを提案する。 本研究の目的は、多変量時系列分類タスクとしてソーシング問題を正式に定義することにより、VCおよびGC投資のソーシング性能を最適化することである。 本稿では,VC/GC ソーシングにおける TMTSC の適用に一括して貢献する実装の重要コンポーネントについて,入力機能,モデルアーキテクチャ,最適化ターゲット,投資家中心のデータ処理について紹介する。 3つの一般的なベースラインに向けてベンチマークした2つの実世界の投資タスクに関する大規模な実験は、VCとGC業界における意思決定の改善における我々のアプローチの有効性を実証しています。

This paper addresses the growing application of data-driven approaches within the Private Equity (PE) industry, particularly in sourcing investment targets (i.e., companies) for Venture Capital (VC) and Growth Capital (GC). We present a comprehensive review of the relevant approaches and propose a novel approach leveraging a Transformer-based Multivariate Time Series Classifier (TMTSC) for predicting the success likelihood of any candidate company. The objective of our research is to optimize sourcing performance for VC and GC investments by formally defining the sourcing problem as a multivariate time series classification task. We consecutively introduce the key components of our implementation which collectively contribute to the successful application of TMTSC in VC/GC sourcing: input features, model architecture, optimization target, and investor-centric data processing. Our extensive experiments on two real-world investment tasks, benchmarked towards three popular baselines, demonstrate the effectiveness of our approach in improving decision making within the VC and GC industry.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# 混合ジリクレおよびノイマン境界条件に対するニューラルプレコンディショニングポアソンソルバー

A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions ( http://arxiv.org/abs/2310.00177v5 )

ライセンス: Link先を確認
Kai Weixian Lan, Elias Gueidon, Ayano Kaneda, Julian Panetta, Joseph Teran, (参考訳) 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。 典型的なポアソンの離散化は、大きく、不条件の線形系をもたらす。 反復解法はこれらの問題に対して有効であるが、強力なプリコンディショナーを備える場合にのみ有効である。 残念ながら、マルチグリッドのような効果的なプレコンディショナーは、ドメインの形状や境界条件が変わるたびに再実行されなければならないコストの高いセットアップフェーズを必要とします。 対照的に、これらの変化が存在する場合、離散ラプラシアンの逆を効率的に近似するように訓練されたニューラルプレコンディショナーを提示する。 提案手法は, トレーニングセット外の領域形状, 境界条件, グリッドサイズに一般化する。 プレコンディショナーの成功の鍵は、空間的に異なる畳み込みカーネルを備え、高速な推論をサポートする、新しくて軽量なニューラルネットワークアーキテクチャである。 我々は,代数的マルチグリッドのような最先端の手法と,非圧縮流体シミュレーションによる挑戦的なテストケースに対するニューラルプレコンディショナーを比較検討した。

We introduce a neural-preconditioned iterative solver for Poisson equations with mixed boundary conditions. Typical Poisson discretizations yield large, ill-conditioned linear systems. Iterative solvers can be effective for these problems, but only when equipped with powerful preconditioners. Unfortunately, effective preconditioners like multigrid require costly setup phases that must be re-executed every time domain shapes or boundary conditions change, forming a severe bottleneck for problems with evolving boundaries. In contrast, we present a neural preconditioner trained to efficiently approximate the inverse of the discrete Laplacian in the presence of such changes. Our approach generalizes to domain shapes, boundary conditions, and grid sizes outside the training set. The key to our preconditioner's success is a novel, lightweight neural network architecture featuring spatially varying convolution kernels and supporting fast inference. We demonstrate that our solver outperforms state-of-the-art methods like algebraic multigrid as well as recently proposed neural preconditioners on challenging test cases arising from incompressible fluid simulations.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# 異種データアンサンブル学習による作物と雑草の検出の改善

Improved Crop and Weed Detection with Diverse Data Ensemble Learning ( http://arxiv.org/abs/2310.01055v3 )

ライセンス: Link先を確認
Muhammad Hamza Asad, Saeed Anwar, Abdul Bais, (参考訳) 現代の農業は、現場における作物や雑草の正確な検出、局在化、定量化を必要とするサイト・スペシャル・ファーム・マネジメントの実践に大きく依存しており、深層学習技術を用いて達成することができる。 この点において、作物と雑草特有の二分法モデルが有望であることが示されている。 しかし、制御されていないフィールド条件は、その性能をあるフィールドから別のフィールドに制限する。 セマンティックモデル一般化を改善するため、既存の手法は、制御不能なフィールド条件を考慮した農業データを増強し、合成する。 しかし、非常に多様な場条件が与えられた場合、これらの方法には制限がある。 このような条件下でのモデル劣化の課題を克服するために,本研究では,他の作物や雑草に特有のデータを活用することを提案する。 そこで我々は,新しいアンサンブル・フレームワークを提案する。 我々のアプローチは、多様なデータセットで訓練された異なる作物と雑草モデルを活用することと、教師の学生構成を採用することである。 ベースモデルの均質な積み重ねとトレーニング可能なメタアーキテクチャを用いて出力を結合することにより、単一セマンティックセグメンテーションモデルの性能を超越した、見えないテストデータ上でのカノーラの作物とコチアの雑草に大きな改善が達成される。 この文脈では、UNETメタアーキテクチャが最も効果的であると考えています。 最後に、アブレーション研究を通じて、提案モデルの有効性を実証し、検証する。 我々は、他の標的作物や雑草で訓練されたベースモデルを含め、様々なフィールド条件を捉えるためにモデルを一般化するのに役立つことを観察する。 最後に,比較条件の異なる2つの新しいデータセットを提案する。

Modern agriculture heavily relies on Site-Specific Farm Management practices, necessitating accurate detection, localization, and quantification of crops and weeds in the field, which can be achieved using deep learning techniques. In this regard, crop and weed-specific binary segmentation models have shown promise. However, uncontrolled field conditions limit their performance from one field to the other. To improve semantic model generalization, existing methods augment and synthesize agricultural data to account for uncontrolled field conditions. However, given highly varied field conditions, these methods have limitations. To overcome the challenges of model deterioration in such conditions, we propose utilizing data specific to other crops and weeds for our specific target problem. To achieve this, we propose a novel ensemble framework. Our approach involves utilizing different crop and weed models trained on diverse datasets and employing a teacher-student configuration. By using homogeneous stacking of base models and a trainable meta-architecture to combine their outputs, we achieve significant improvements for Canola crops and Kochia weeds on unseen test data, surpassing the performance of single semantic segmentation models. We identify the UNET meta-architecture as the most effective in this context. Finally, through ablation studies, we demonstrate and validate the effectiveness of our proposed model. We observe that including base models trained on other target crops and weeds can help generalize the model to capture varied field conditions. Lastly, we propose two novel datasets with varied conditions for comparisons.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# AstroCLIP: 銀河のクロスモーダル基礎モデル

AstroCLIP: A Cross-Modal Foundation Model for Galaxies ( http://arxiv.org/abs/2310.03024v2 )

ライセンス: Link先を確認
Liam Parker, Francois Lanusse, Siavash Golkar, Leopoldo Sarra, Miles Cranmer, Alberto Bietti, Michael Eickenberg, Geraud Krawezik, Michael McCabe, Ruben Ohana, Mariel Pettee, Bruno Regaldo-Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho, (参考訳) AstroCLIPは、銀河画像とスペクトルの両方を共有で物理的に意味のある潜在空間に埋め込むことのできる、単一の汎用モデルである。 これらの埋め込みは、(1)正確なインモダリティとクロスモダリティのセマンティック類似性探索、(2)光度赤方偏移推定、(3)画像とスペクトルからの銀河特性推定、(4)形態素分類など、様々な下流タスクに -モデル微調整なしで - 使用できる。 AstroCLIPの実装への我々のアプローチは2つの部分から構成される。 まず、銀河の画像とスペクトルを個別に埋め込むため、トランスフォーマーベースの画像とスペクトルエンコーダを自己監督設定で事前訓練する。 次に、コントラスト損失を使ってエンコーダをアライメントします。 我々はダークエネルギー分光器のスペクトルとそれに対応するレガシーイメージングサーベイの画像に本手法を適用した。 全体としては、教師付きベースラインと比較しても、ダウンストリームタスクで顕著なパフォーマンスが得られます。 例えば、光度赤方偏移予測のようなタスクでは、特定の訓練されたResNet18と同じような性能を示し、物理的特性推定(恒星質量、年齢、金属度、sSFR)では、R^2$という観点で、この教師付きベースラインを19\%上回る。 我々はまた、この結果と、銀河画像に対する最先端の自己教師型単一モードモデルとの比較を行い、この手法は、約2倍の光度赤方偏移推定と物理的特性予測において、R^2$の点で、ほぼ直線的でありながら、このベンチマークよりも優れていることを発見した。 最終的に、我々のアプローチは銀河の画像とスペクトルのための初めての自己監督型トランスフォーマーアーキテクチャである。

We present AstroCLIP, a single, versatile model that can embed both galaxy images and spectra into a shared, physically meaningful latent space. These embeddings can then be used - without any model fine-tuning - for a variety of downstream tasks including (1) accurate in-modality and cross-modality semantic similarity search, (2) photometric redshift estimation, (3) galaxy property estimation from both images and spectra, and (4) morphology classification. Our approach to implementing AstroCLIP consists of two parts. First, we embed galaxy images and spectra separately by pretraining separate transformer-based image and spectrum encoders in self-supervised settings. We then align the encoders using a contrastive loss. We apply our method to spectra from the Dark Energy Spectroscopic Instrument and images from its corresponding Legacy Imaging Survey. Overall, we find remarkable performance on all downstream tasks, even relative to supervised baselines. For example, for a task like photometric redshift prediction, we find similar performance to a specifically-trained ResNet18, and for additional tasks like physical property estimation (stellar mass, age, metallicity, and sSFR), we beat this supervised baseline by 19\% in terms of $R^2$. We also compare our results to a state-of-the-art self-supervised single-modal model for galaxy images, and find that our approach outperforms this benchmark by roughly a factor of two on photometric redshift estimation and physical property prediction in terms of $R^2$, while remaining roughly in-line in terms of morphology classification. Ultimately, our approach represents the first cross-modal self-supervised model for galaxies, and the first self-supervised transformer-based architectures for galaxy images and spectra.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# AI時代のプログラミングの教え方 : LLMをデバッグのための教育可能なエージェントとして使う

How to Teach Programming in the AI Era? Using LLMs as a Teachable Agent for Debugging ( http://arxiv.org/abs/2310.05292v4 )

ライセンス: Link先を確認
Qianou Ma, Hua Shen, Kenneth Koedinger, Tongshuang Wu, (参考訳) 大規模言語モデル(LLM)は、生成スキルに優れ、実行不可能な速度でコンテンツを作成することができる。 しかし、これらは不完全であり、いまだに様々な誤りを犯している。 コンピュータサイエンス教育の文脈では、これらのモデルは「AIペアプログラマ」と広く認識されているため、LLM生成コードの評価とデバッグを学生に教えることがますます重要になっている。 本研究では,人間の初心者がヘルプアシスタントの役割を担い,LLMによるデバッグ可能なエージェントのデバッグを支援する新しいシステムであるHypoCompassを紹介する。 この学習教育環境において、学生とLLMの効果的なタスク委譲を可能にする。学生は、コードエラーの原因を仮説化することに集中し、コード補完のような隣接するスキルはLLMエージェントにオフロードされる。 評価の結果,HypoCompassは高品質なトレーニング材料(バグや修正など)を生産し,効率を4倍に向上し,ポスト・トゥ・ポストテストにおいて,学生のデバッグ性能を12%向上した。

Large Language Models (LLMs) now excel at generative skills and can create content at impeccable speeds. However, they are imperfect and still make various mistakes. In a Computer Science education context, as these models are widely recognized as "AI pair programmers," it becomes increasingly important to train students on evaluating and debugging the LLM-generated code. In this work, we introduce HypoCompass, a novel system to facilitate deliberate practice on debugging, where human novices play the role of Teaching Assistants and help LLM-powered teachable agents debug code. We enable effective task delegation between students and LLMs in this learning-by-teaching environment: students focus on hypothesizing the cause of code errors, while adjacent skills like code completion are offloaded to LLM-agents. Our evaluations demonstrate that HypoCompass generates high-quality training materials (e.g., bugs and fixes), outperforming human counterparts fourfold in efficiency, and significantly improves student performance on debugging by 12% in the pre-to-post test.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# IBoxCLA: 改良されたボックスダイスとコントラスト遅延アンカーによるポリープのロバストボックス制御セグメンテーションを目指して

IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors ( http://arxiv.org/abs/2310.07248v3 )

ライセンス: Link先を確認
Zhiwei Wang, Qiang Hu, Hongkuan Shi, Li He, Man He, Wenxuan Dai, Ting Li, Yitong Zhang, Dun Li, Mei Liu, Qiang Li, (参考訳) 箱監督型ポリープセグメンテーションは、そのコスト効果の可能性に注目が集まる。 既存のソリューションは、しばしば学習自由な方法や事前訓練されたモデルに頼り、疑似マスクを熱心に生成し、その後にDiceの制約が引き起こされる。 本稿では,最も単純な箱詰めマスクによって導かれるモデルが,ポリプの位置/サイズを正確に予測できるが,形状の崩壊に悩まされていることを発見した。 そこで我々は,IBox-dice (IBox) とContrastive Latent-Anchors (CLA) の2つの革新的な学習手法を提案し,それらを組み合わせて頑健な箱教師モデル IBoxCLA を訓練する。 IBoxCLAの背景にある基本的な考え方は、位置/サイズと形状の学習を分離し、それぞれに制約を集中させることである。 具体的には、IBoxは分割マップをシェイプデカップリングと混乱領域スワップを用いてプロキシマップに変換する。 プロキシマップ内では、形状が切り離され、場所/サイズがボックスのような応答としてエンコードされる。 ボックス満載マスクは、生の予測ではなくプロキシマップを制約することにより、形状学習を誤解することなく、IBoxCLAを十分に監視することができる。 さらに、CLAは2種類の潜伏アンカーを生成し、モーメントとセグメンテーションポリープを用いて学習・更新し、ポリプとバックグラウンドの特徴を着実に表現することで形状学習に寄与する。 潜伏アンカーは、IBoxCLAが箱内および外部の識別的特徴を対照的に捉え、より明確な境界をもたらす。 IBoxCLAを5つの公開ポリプデータセットでベンチマークする。 実験の結果,IBoxCLAの競合性能は,最近の完全教師付きポリープセグメンテーション法と比較して,mDiceとmIoUをそれぞれ6.5%以上,mIoUを7.5%以上増加させた他のボックス教師型技術よりも優れていた。

Box-supervised polyp segmentation attracts increasing attention for its cost-effective potential. Existing solutions often rely on learning-free methods or pretrained models to laboriously generate pseudo masks, triggering Dice constraint subsequently. In this paper, we found that a model guided by the simplest box-filled masks can accurately predict polyp locations/sizes, but suffers from shape collapsing. In response, we propose two innovative learning fashions, Improved Box-dice (IBox) and Contrastive Latent-Anchors (CLA), and combine them to train a robust box-supervised model IBoxCLA. The core idea behind IBoxCLA is to decouple the learning of location/size and shape, allowing for focused constraints on each of them. Specifically, IBox transforms the segmentation map into a proxy map using shape decoupling and confusion-region swapping sequentially. Within the proxy map, shapes are disentangled, while locations/sizes are encoded as box-like responses. By constraining the proxy map instead of the raw prediction, the box-filled mask can well supervise IBoxCLA without misleading its shape learning. Furthermore, CLA contributes to shape learning by generating two types of latent anchors, which are learned and updated using momentum and segmented polyps to steadily represent polyp and background features. The latent anchors facilitate IBoxCLA to capture discriminative features within and outside boxes in a contrastive manner, yielding clearer boundaries. We benchmark IBoxCLA on five public polyp datasets. The experimental results demonstrate the competitive performance of IBoxCLA compared to recent fully-supervised polyp segmentation methods, and its superiority over other box-supervised state-of-the-arts with a relative increase of overall mDice and mIoU by at least 6.5% and 7.5%, respectively.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# EX-FEVER:マルチホップ説明可能なファクト検証のためのデータセット

EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification ( http://arxiv.org/abs/2310.09754v3 )

ライセンス: Link先を確認
Huanhuan Ma, Weizhi Xu, Yifan Wei, Liuji Chen, Liang Wang, Qiang Liu, Shu Wu, Liang Wang, (参考訳) ファクト検証は、いくつかの証拠に基づいてクレームの正確性を自動的に調査することを目的としている。 既存の作業は常に、事実検証システムの重要な能力である説明可能性だけでなく、精度の向上に取り組んでいます。 複雑なマルチホップシナリオで説明可能な事実検証システムを構築することは、関連する高品質なデータセットが欠如していることによって、一貫して妨げられている。 以前のデータセットは、過剰な単純化に悩まされるか、説明可能性に不可欠な考慮事項を組み込まないかのいずれかである。 これを解決するために,マルチホップで説明可能な事実検証のための先駆的データセットであるEXFEVERを提案する。 2ホップと3ホップの推論を含む6万件以上の主張により、それぞれがハイパーリンクされたウィキペディア文書から情報を要約して修正することによって作成される。 各インスタンスには、妥当性ラベルと、妥当性分類をサポートする推論パスの概要を記載した説明が添付されている。 さらに,EX-FEVERデータセットに新たなベースラインシステムを導入し,文書検索,説明生成,クレーム検証を行い,データセットの重要性を検証した。 さらに,事実検証タスクにおいて,大規模言語モデルを活用する可能性を強調した。 私たちのデータセットは、事実検証の領域における自然言語の説明の統合を探求する十分な機会を提供することで、大きな貢献を期待しています。

Fact verification aims to automatically probe the veracity of a claim based on several pieces of evidence. Existing works are always engaging in accuracy improvement, let alone explainability, a critical capability of fact verification systems. Constructing an explainable fact verification system in a complex multi-hop scenario is consistently impeded by the absence of a relevant, high-quality dataset. Previous datasets either suffer from excessive simplification or fail to incorporate essential considerations for explainability. To address this, we present EXFEVER, a pioneering dataset for multi-hop explainable fact verification. With over 60,000 claims involving 2-hop and 3-hop reasoning, each is created by summarizing and modifying information from hyperlinked Wikipedia documents. Each instance is accompanied by a veracity label and an explanation that outlines the reasoning path supporting the veracity classification. Additionally, we demonstrate a novel baseline system on our EX-FEVER dataset, showcasing document retrieval, explanation generation, and claim verification, and validate the significance of our dataset. Furthermore, we highlight the potential of utilizing Large Language Models in the fact verification task. We hope our dataset could make a significant contribution by providing ample opportunities to explore the integration of natural language explanations in the domain of fact verification.
翻訳日:2024-06-17 19:53:15 公開日:2024-06-14
# 大規模言語モデルを用いた要約における文脈利用について

On Context Utilization in Summarization with Large Language Models ( http://arxiv.org/abs/2310.10570v5 )

ライセンス: Link先を確認
Mathieu Ravaut, Aixin Sun, Nancy F. Chen, Shafiq Joty, (参考訳) 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。 最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。 しかし、質問への回答では、言語モデルは入力コンテキストの不均一な利用を示す。 彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。 このバイアスは、特に重要なコンテンツがソース文書全体に分散されるような要約において、関心を喚起します。 さらに、要約において、ソースから要約への事実のマッピングは、通常、健全な内容が再記述されるため、簡単ではない。 本稿では,要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。 分析対象は,LLM6つ,データセット10つ,評価指標5つである。 階層的な要約と漸進的な要約という,位置バイアスを軽減するための2つの代替推論手法をベンチマークした,MiddleSumと呼ばれる新しい評価ベンチマークを導入する。 私たちのコードとデータは以下の通りです。

Large language models (LLMs) excel in abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, exceeding 100k tokens. However, in question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization where crucial content may be dispersed throughout the source document(s). Besides, in summarization, mapping facts from the source to the summary is not trivial as salient content is usually re-phrased. In this paper, we conduct the first comprehensive study on context utilization and position bias in summarization. Our analysis encompasses 6 LLMs, 10 datasets, and 5 evaluation metrics. We introduce a new evaluation benchmark called MiddleSum on the which we benchmark two alternative inference methods to alleviate position bias: hierarchical summarization and incremental summarization. Our code and data can be found here: https://github.com/ntunlp/MiddleSum.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# SemantIC: 6G無線通信に向けたセマンティック干渉キャンセラ

SemantIC: Semantic Interference Cancellation Towards 6G Wireless Communications ( http://arxiv.org/abs/2310.12768v2 )

ライセンス: Link先を確認
Wensheng Lin, Yuna Yan, Lixin Li, Zhu Han, Tad Matsumoto, (参考訳) 本論文は,第6世代(6G)無線ネットワークに向けた情報品質向上を目的とした,セマントIC(SemantIC)の新たなアンチ・インターフェクション手法を提案する。 SemantICは、チャンネルデコーダとセマンティックオートエンコーダを結合するためにのみレシーバを必要とする。 これは、信号領域と意味領域のノイズを反復的に交互に除去するターボループを構成する。 ネットワーク情報理論の観点から、セマンティックオートエンコーダのニューラルネットワークは、トレーニングによって側情報を記憶し、ウィナー・ジブの定理の実装として反復復号における側情報を提供する。 シミュレーション結果は、余分なチャネルリソースコストなしでSemantICによる性能改善を検証する。

This letter proposes a novel anti-interference technique, semantic interference cancellation (SemantIC), for enhancing information quality towards the sixth-generation (6G) wireless networks. SemantIC only requires the receiver to concatenate the channel decoder with a semantic auto-encoder. This constructs a turbo loop which iteratively and alternately eliminates noise in the signal domain and the semantic domain. From the viewpoint of network information theory, the neural network of the semantic auto-encoder stores side information by training, and provides side information in iterative decoding, as an implementation of the Wyner-Ziv theorem. Simulation results verify the performance improvement by SemantIC without extra channel resource cost.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# クロスチャネルアテンションを用いたリモートセンシング画像の物体検出のためのマルチモーダルトランス

Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2310.13876v2 )

ライセンス: Link先を確認
Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou, (参考訳) リモートセンシング画像(RSI)における物体検出は、地球観測(EO)における多くの応用にとって重要な課題である。 自然画像における物体検出とは違い、リモートセンシング画像における物体検出は、注釈付きデータの不足と、わずか数ピクセルで表される小さな物体の存在という課題に直面している。 マルチモーダル融合は、RGB、赤外線(IR)、ライダー、合成開口レーダ(SAR)などの複数のモードからのデータを融合することで精度を高めることが決定されている。 この目的のために、並列サブネットによって生成される中間または後期の表現の融合が支配的であり、モダリティの数順に計算複雑性が増大し、追加の工学的障害が生じるという欠点がある。 クロスアテンション機構を用いて,早期に異なるチャネル間の関係をマッピングする新たなマルチモーダル融合戦略を提案し,異なるモダリティを整列させてコヒーレントな入力を構築する。 本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。 さらに、非シフトブロックのフィードフォワードに畳み込み層を統合することでSWIN変換器を強化する。 この拡張により、局所的な注意を通して分離されたウィンドウをマージするモデルの能力が強化され、小さなオブジェクト検出が改善される。 大規模な実験により提案した多モード核融合モジュールとアーキテクチャの有効性が証明され、多モード空中画像における物体検出への適用性が確認された。

Object detection in Remote Sensing Images (RSI) is a critical task for numerous applications in Earth Observation (EO). Differing from object detection in natural images, object detection in remote sensing images faces challenges of scarcity of annotated data and the presence of small objects represented by only a few pixels. Multi-modal fusion has been determined to enhance the accuracy by fusing data from multiple modalities such as RGB, infrared (IR), lidar, and synthetic aperture radar (SAR). To this end, the fusion of representations at the mid or late stage, produced by parallel subnetworks, is dominant, with the disadvantages of increasing computational complexity in the order of the number of modalities and the creation of additional engineering obstacles. Using the cross-attention mechanism, we propose a novel multi-modal fusion strategy for mapping relationships between different channels at the early stage, enabling the construction of a coherent input by aligning the different modalities. By addressing fusion in the early stage, as opposed to mid or late-stage methods, our method achieves competitive and even superior performance compared to existing techniques. Additionally, we enhance the SWIN transformer by integrating convolution layers into the feed-forward of non-shifting blocks. This augmentation strengthens the model's capacity to merge separated windows through local attention, thereby improving small object detection. Extensive experiments prove the effectiveness of the proposed multimodal fusion module and the architecture, demonstrating their applicability to object detection in multimodal aerial imagery.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# オンラインソーシャルプラットフォームにおけるユーザエンゲージメントの文脈認識予測

Context-Aware Prediction of User Engagement on Online Social Platforms ( http://arxiv.org/abs/2310.14533v2 )

ライセンス: Link先を確認
Heinrich Peters, Yozen Liu, Francesco Barbieri, Raiyan Abdul Baten, Sandra C. Matz, Maarten W. Bos, (参考訳) オンラインソーシャルプラットフォームの成功は、大規模なユーザの振る舞いを予測し、理解する能力に重きを置いている。 ここでは、コンテキスト対応のモデリングアプローチが、オンラインソーシャルプラットフォーム上でのユーザエンゲージメントの全体的かつ軽量で、潜在的にプライバシ保護の表現を提供する可能性を示唆するデータを提示する。 深層LSTMニューラルネットワークを活用して、約8万人から1億以上のSnapchatセッションを分析し、アクティブおよびパッシブ使用のパターンが過去の行動から予測可能であること(R2=0.345)、コンテキスト機能の統合が行動ベースラインモデル(R2=0.522)と比較して予測性能を大幅に向上すること(R2=0.522)を実証した。 スマートフォンの接続状況,位置,時間的状況,天候に関連する特徴は,アプリ内行動の履歴から得られた特徴に対して,ユーザエンゲージメントの非冗長なばらつきを捉えていることが判明した。 さらに, 時間的文脈を考慮した場合, 行動履歴の最小化により, ばらつきのかなりの割合を考慮できることを示す(R2=0.442)。 これらの結果は、長いデータ履歴の必要性を減らし、モデルをより効率的かつプライバシー保護にするためのコンテキスト認識アプローチの可能性を示している。 最後に、モデル説明可能性手法を用いて、基礎となる行動メカニズムに関する予備的な洞察を導き出す。 本研究は,ソーシャルプラットフォーム上でのユーザエンゲージメントを予測するために,ユーザ行動の文脈化表現の価値を強調し,文脈一致型,習慣駆動型,能動型,受動型という概念と一致している。

The success of online social platforms hinges on their ability to predict and understand user behavior at scale. Here, we present data suggesting that context-aware modeling approaches may offer a holistic yet lightweight and potentially privacy-preserving representation of user engagement on online social platforms. Leveraging deep LSTM neural networks to analyze more than 100 million Snapchat sessions from almost 80.000 users, we demonstrate that patterns of active and passive use are predictable from past behavior (R2=0.345) and that the integration of context features substantially improves predictive performance compared to the behavioral baseline model (R2=0.522). Features related to smartphone connectivity status, location, temporal context, and weather were found to capture non-redundant variance in user engagement relative to features derived from histories of in-app behaviors. Further, we show that a large proportion of variance can be accounted for with minimal behavioral histories if momentary context is considered (R2=0.442). These results indicate the potential of context-aware approaches for making models more efficient and privacy-preserving by reducing the need for long data histories. Finally, we employ model explainability techniques to glean preliminary insights into the underlying behavioral mechanisms. Our findings are consistent with the notion of context-contingent, habit-driven patterns of active and passive use, underscoring the value of contextualized representations of user behavior for predicting user engagement on social platforms.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# COSMIC:音声インテクスト学習のためのデータ効率の良いインストラクションチューニング

COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning ( http://arxiv.org/abs/2311.02248v2 )

ライセンス: Link先を確認
Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie Liu, Jinyu Li, (参考訳) 本研究では,大規模言語モデル (LLM) に音声を組み込むコスト効率のよい手法を提案する。 GPT-3.5を用いて、教師あり指導のための音声書き起こしから音声理解テスト質問応答(SQA)ペアを生成する。 トレーニング可能なパラメータが3000万未満で、英語の音声データは450時間しか持たないため、COSMICは命令追従とテキスト内学習の新たな能力を示す。 このような機能を備えたCOSMICは、最大33.18BLEUスコアを0ショットEN-to-X音声からテキスト翻訳(S2TT)で達成し、1ショット設定で大幅に向上する。 さらに、1ショットのクロスドメイン適応に対して、平均25.8\%の単語誤り率(WER)が減少する。 COSMICは、その命令追従能力により、文脈バイアスタスクにおいて、重要な自動音声認識(ASR)精度向上を示す。

We present a cost-effective method to integrate speech into a large language model (LLM), resulting in a Contextual Speech Model with Instruction-following/in-context-learning Capabilities (COSMIC) multi-modal LLM. Using GPT-3.5, we generate Speech Comprehension Test Question-Answer (SQA) pairs from speech transcriptions for supervised instruction tuning. With under 30 million trainable parameters and only 450 hours of English speech data, COSMIC demonstrates emerging capabilities in instruction-following and in-context learning. Equipped with such capabilities, COSMIC achieves a maximum 33.18 BLEU score in 0-shot EN-to-X speech to text translation (S2TT) and a significant boost in the 1-shot setting. Additionally, there is an average 25.8\% relative Word Error Rate (WER) reduction for 1-shot cross-domain adaptation. COSMIC exhibits a significant automatic speech recognition (ASR) accuracy gain in contextual biasing tasks due to its instruction-following capability.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# トランペットクビットエンタングゲートの強化学習パルス

Reinforcement learning pulses for transmon qubit entangling gates ( http://arxiv.org/abs/2311.03684v2 )

ライセンス: Link先を確認
Ho Nam Nguyen, Felix Motzoi, Mekena Metcalf, K. Birgitta Whaley, Marin Bukov, Markus Schmitt, (参考訳) 量子コンピュータの効用は、正確な量子論理演算を確実に行う能力に大きく依存する。 最適制御解を見つけるためには、量子プロセッサの理論モデルの限られた精度に制約されないため、多くの確立されたゲート実装戦略とは対照的に、モデルフリーアプローチを検討することが特に重要である。 本研究では, 連続制御強化学習アルゴリズムを用いて, 超伝導量子ビットに絡み合う2量子ビットゲートを設計する。 固定周波数, 固定結合トランスモン量子ビットのシミュレーション環境を用いて, 確率的ユニタリノイズに匹敵する感受性を維持しつつ, 標準共振ゲートよりも優れた新しいパルス列を生成する能力を実証した。 さらに、トレーニングと入力情報の強化を図り、エージェントがそのパルス設計能力をハードウェア特性のドリフトに適応できるようにします。 その結果,トランスモンゲート設計における適応フィードバック学習に基づく最適化手法の利点が明らかとなった。

The utility of a quantum computer depends heavily on the ability to reliably perform accurate quantum logic operations. For finding optimal control solutions, it is of particular interest to explore model-free approaches, since their quality is not constrained by the limited accuracy of theoretical models for the quantum processor - in contrast to many established gate implementation strategies. In this work, we utilize a continuous-control reinforcement learning algorithm to design entangling two-qubit gates for superconducting qubits; specifically, our agent constructs cross-resonance and CNOT gates without any prior information about the physical system. Using a simulated environment of fixed-frequency, fixed-coupling transmon qubits, we demonstrate the capability to generate novel pulse sequences that outperform the standard cross-resonance gates in both fidelity and gate duration, while maintaining a comparable susceptibility to stochastic unitary noise. We further showcase an augmentation in training and input information that allows our agent to adapt its pulse design abilities to drifting hardware characteristics, importantly with little to no additional optimization. Our results exhibit clearly the advantages of unbiased adaptive-feedback learning-based optimization methods for transmon gate design.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# 多感性拡張現実感の応用は、研究・医学におけるバイオメディカル画像解析に有用である

Multisensory extended reality applications offer benefits for volumetric biomedical image analysis in research and medicine ( http://arxiv.org/abs/2311.03986v2 )

ライセンス: Link先を確認
Kathrin Krieger, Jan Egger, Jens Kleesiek, Matthias Gunzer, Jianxu Chen, (参考訳) 高解像度ボリューム画像からの3Dデータは、現代医学における診断と治療の中心的な資源である。 AIの急速な開発は画像と分析を強化するが、一般的に使われている可視化手法はずっと遅れている。 近年の研究では、視覚深度知覚と触覚を持つ3次元画像の知覚に拡張現実(XR)を用いたが、制限的な触覚デバイスを用いた。 制限のないタッチはボリュームデータ検査の恩恵を受けるが、XRとの自然な触覚相互作用を実装することは困難である。 研究課題は、直感的な触覚相互作用を持つ多感覚XRアプリケーションが価値を付加し、追求すべきかどうかである。 研究・医学のバイオメディカル画像の専門家24人が、触覚手袋を用いた多感覚バーチャルリアリティー(VR)プロトタイプ、コントローラーを用いたシンプルなVRプロトタイプ、標準PCアプリケーションという3つの応用で3D医療形態を調査した。 標準化されたアンケートの結果,ユーザビリティに関するすべてのアプリケーションタイプ間に有意差は認められず,VRアプリケーションと存在に関する有意差は認められなかった。 参加者は、VRヴィジュアライゼーションがデータ探索を単純化するコントローラの代わりに手を使って、より深い情報を提供するという声明に同意し、多感なVRプロトタイプは直感的なデータ探索を可能にし、従来のデータ検査方法よりも有益である。 ほとんどの参加者は手動インタラクションを最高の側面として言及したが、最も即効性があることにも気付きました。 手動操作を改良した多感性XRアプリケーションは, バイオメディカルデータ検査に有用である。 ISH3DE(Intuitive Stereoptic Haptic 3D Data Exploration)は、医療教育、治療決定、手術準備、研究データ分析を支援するためのオープンソースの研究プロジェクトである。

3D data from high-resolution volumetric imaging is a central resource for diagnosis and treatment in modern medicine. While the fast development of AI enhances imaging and analysis, commonly used visualization methods lag far behind. Recent research used extended reality (XR) for perceiving 3D images with visual depth perception and touch but used restrictive haptic devices. While unrestricted touch benefits volumetric data examination, implementing natural haptic interaction with XR is challenging. The research question is whether a multisensory XR application with intuitive haptic interaction adds value and should be pursued. In a study, 24 experts for biomedical images in research and medicine explored 3D medical shapes with 3 applications: a multisensory virtual reality (VR) prototype using haptic gloves, a simple VR prototype using controllers, and a standard PC application. Results of standardized questionnaires showed no significant differences between all application types regarding usability and no significant difference between both VR applications regarding presence. Participants agreed to statements that VR visualizations provide better depth information, using the hands instead of controllers simplifies data exploration, the multisensory VR prototype allows intuitive data exploration, and it is beneficial over traditional data examination methods. While most participants mentioned manual interaction as best aspect, they also found it the most improvable. We conclude that a multisensory XR application with improved manual interaction adds value for volumetric biomedical data examination. We will proceed with our open-source research project ISH3DE (Intuitive Stereoptic Haptic 3D Data Exploration) to serve medical education, therapeutic decisions, surgery preparations, or research data analysis.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# 微細画像分類・解析のための簡易解釈変換器

A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis ( http://arxiv.org/abs/2311.04157v3 )

ライセンス: Link先を確認
Dipanjyoti Paul, Arpita Chowdhury, Xinqi Xiong, Feng-Ju Chang, David Carlyn, Samuel Stevens, Kaiya L. Provost, Anuj Karpatne, Bryan Carstens, Daniel Rubenstein, Charles Stewart, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao, (参考訳) 画像分類を解釈するために,トランスフォーマーの新たな利用法を提案する。 最後の完全接続層が予測を行うためにクラス情報を組み込むのを待つ主流の分類器とは異なり、私たちは各クラスにイメージ内で自身を検索するよう依頼する積極的なアプローチを調査する。 我々はこのアイデアを,Detection TRansformer (DETR) にインスパイアされた Transformer encoder-decoder で実現した。 デコーダへの入力として"クラス固有の"クエリ(各クラス毎に1つ)を学び、各クラスがクロスアテンションを通じてイメージ内のパターンをローカライズできるようにします。 Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。 我々は,INTRが各クラスに固有の参加を促すことを示し,横断的な重み付けは予測の忠実な解釈を与える。 興味深いことに、INTRは"マルチヘッド"のクロスアテンションを通じて、クラスのさまざまな"属性"を特定し、特に8つのデータセットで示す詳細な分類と分析に適している。 私たちのコードと事前トレーニングされたモデルは、Imageomics Institute GitHubのサイト(https://github.com/Imageomics/INTR.com/)で公開されています。

We present a novel usage of Transformers to make image classification interpretable. Unlike mainstream classifiers that wait until the last fully connected layer to incorporate class information to make predictions, we investigate a proactive approach, asking each class to search for itself in an image. We realize this idea via a Transformer encoder-decoder inspired by DEtection TRansformer (DETR). We learn "class-specific" queries (one for each class) as input to the decoder, enabling each class to localize its patterns in an image via cross-attention. We name our approach INterpretable TRansformer (INTR), which is fairly easy to implement and exhibits several compelling properties. We show that INTR intrinsically encourages each class to attend distinctively; the cross-attention weights thus provide a faithful interpretation of the prediction. Interestingly, via "multi-head" cross-attention, INTR could identify different "attributes" of a class, making it particularly suitable for fine-grained classification and analysis, which we demonstrate on eight datasets. Our code and pre-trained models are publicly accessible at the Imageomics Institute GitHub site: https://github.com/Imageomics/INTR.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# 短波と長距離波のペアリングを用いた非エルミートオーブリー・アンドレ・ハーパーモデル

Non-Hermitian Aubry-André-Harper model with short- and long-range p-wave pairing ( http://arxiv.org/abs/2311.04605v2 )

ライセンス: Link先を確認
Shaina Gandhi, Jayendra N. Bandyopadhyay, (参考訳) 短距離の非エルミートAubry-Andr\e-Harperモデルと長距離p波ペアリングについて検討する。 ここでは、非休眠性はオンサイトポテンシャルを通して導入される。 このシステムのいくつかの重要な側面を包括的に分析し、固有スペクトル、位相特性、局在特性、実エネルギーから複素エネルギーへの遷移を含む。 具体的には、短距離ペアリングではマヨラナゼロモードが出現するのに対し、長距離ペアリングでは巨大なディラックモードが出現する。 さらに、短距離ペアリングの場合、位相的位相と多フラクタル位相の2つの同時位相遷移または二重位相遷移を観測する。 一方、長距離ペアリングの場合、位相的および多フラクタルな遷移は一致しない。 しかし、ペアリングの両領域において、非局在化(あるいは金属)から臨界多フラクタル状態へ遷移する二重相転移は、実エネルギーから複素エネルギーへの非伝統的なシフトを伴う。 短距離ペアリングの場合と異なり、長距離ペアリングの場合の移動端を観察する。

We investigate a non-Hermitian Aubry-Andr\'e-Harper model with short-range, as well as long-range p-wave pairing. Here, the non-Hermiticity is introduced through the onsite potential. A comprehensive analysis of several critical aspects of this system is conducted, which includes eigenspectra, topological properties, localization properties, and the transition from real to complex energies. Specifically, we observe the emergence of Majorana zero modes in the case of short-range pairing, whereas massive Dirac modes emerge in the case of long-range pairing. More importantly, for the case of short-range pairing, we observe two simultaneous phase transitions or double phase transitions: topological and multifractal to localized phase. On the other hand, in the case of the long-range pairing, the topological and multifractal to localized transitions do not coincide. However, for both ranges of pairing, we identify a double phase transition where delocalized (or metallic) to a critical multifractal state is accompanied by an unconventional shift from real to complex energies. Unlike the short-range pairing case, we observe mobility edges in the long-range pairing case.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# GRASP: グループアソシエーションを視点で評価する診断分析フレームワーク

GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives ( http://arxiv.org/abs/2311.05074v2 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Christopher Homan, Lora Aroyo, Aida Mostafazadeh Davani, Alicia Parrish, Alex Taylor, Mark Díaz, Ding Wang, Gregory Serapio-García, (参考訳) 人間のアノテーションは、教師付きモデルのためのアノテーション、生成モデルのための安全ガードレール、強化学習のための人間のフィードバックなど、機械学習において中心的な役割を果たす。 しかし、これらの人間の注釈の多くが本質的に主観的であるという事実は、しばしば見過ごされる。 最近の研究は、特定のタスクや特定のサブグループに対して、レーダ主観性を無視すること(典型的にはレーダの不一致をもたらす)が問題であることを示した。 レーダの不一致を利用して、主観的タスクの社会的・文化的傾きを理解するための一般化可能な手法は、いまだ解明されていない。 本稿では,グループアソシエーション(グループアソシエーション,グループアソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション、グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ・アソシエーション,グループ,グループ・コミュニケーション,グループ・コミュニケーション,グループ・グループ・コミュニケーション,グループ・コミュニケーション,グループ・コミュニケーション,グループ・グループ・コミュニケーション,グループ・グループ・グループ・ 我々のフレームワークは(不一致指標に基づく)特定のタスクにおいて他と大きく異なる視点を持つ特定のレーダグループを明らかにし、特定のタスクコンテキストにおいて考慮すべき人口統計軸を特定するのに役立ちます。

Human annotation plays a core role in machine learning -- annotations for supervised models, safety guardrails for generative models, and human feedback for reinforcement learning, to cite a few avenues. However, the fact that many of these human annotations are inherently subjective is often overlooked. Recent work has demonstrated that ignoring rater subjectivity (typically resulting in rater disagreement) is problematic within specific tasks and for specific subgroups. Generalizable methods to harness rater disagreement and thus understand the socio-cultural leanings of subjective tasks remain elusive. In this paper, we propose GRASP, a comprehensive disagreement analysis framework to measure group association in perspectives among different rater sub-groups, and demonstrate its utility in assessing the extent of systematic disagreements in two datasets: (1) safety annotations of human-chatbot conversations, and (2) offensiveness annotations of social media posts, both annotated by diverse rater pools across different socio-demographic axes. Our framework (based on disagreement metrics) reveals specific rater groups that have significantly different perspectives than others on certain tasks, and helps identify demographic axes that are crucial to consider in specific task contexts.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-14
# リモートセンシング画像分類のための分散型および非共有型アーカイブ間のフェデレーション学習

Federated Learning Across Decentralized and Unshared Archives for Remote Sensing Image Classification ( http://arxiv.org/abs/2311.06141v3 )

ライセンス: Link先を確認
Barış Büyüktaş, Gencer Sumbul, Begüm Demir, (参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のディープラーニングモデルのコラボレーションにより、クライアント上のデータにアクセスせずに、分散化されたデータアーカイブ(クライアント)から学習することができる。 FLは、分散画像アーカイブからの知識発見に十分な機会を提供するが、リモートセンシング(RS)ではめったに考えられない。 本稿では、RSにおいてはじめて、RS画像分類問題に対する最先端FLアルゴリズムの比較研究を行う。 この目的のために、コンピュータビジョンと機械学習コミュニティで提示されたFLアルゴリズムの体系的なレビューを行った。 そして,クライアント間での不均一性(非IIDデータとして知られる)を訓練する上で,その有効性に基づいて,最先端のFLアルゴリズムを複数選択する。 選択したアルゴリズムの広範な概要を提示した後、これらのアルゴリズムの理論的比較を行う。 1) 局所訓練の複雑さ 2) 集約複雑性 3) 学習効率 4)通信コスト,及び 5) クライアント数の面でのスケーラビリティ。 理論的比較の後、異なる分散化シナリオ下で比較するために実験的な分析結果が提示される。 実験分析では,RSの多ラベル画像分類問題に注目する。 総合的な分析に基づいて、我々は最終的にRSで適切なFLアルゴリズムを選択するためのガイドラインを導出する。 この作業のコードはhttps://git.tu-berlin.de/rsim/FL-RSで公開されている。

Federated learning (FL) enables the collaboration of multiple deep learning models to learn from decentralized data archives (i.e., clients) without accessing data on clients. Although FL offers ample opportunities in knowledge discovery from distributed image archives, it is seldom considered in remote sensing (RS). In this paper, as a first time in RS, we present a comparative study of state-of-the-art FL algorithms for RS image classification problems. To this end, we initially provide a systematic review of the FL algorithms presented in the computer vision and machine learning communities. Then, we select several state-of-the-art FL algorithms based on their effectiveness with respect to training data heterogeneity across clients (known as non-IID data). After presenting an extensive overview of the selected algorithms, a theoretical comparison of the algorithms is conducted based on their: 1) local training complexity; 2) aggregation complexity; 3) learning efficiency; 4) communication cost; and 5) scalability in terms of number of clients. After the theoretical comparison, experimental analyses are presented to compare them under different decentralization scenarios. For the experimental analyses, we focus our attention on multi-label image classification problems in RS. Based on our comprehensive analyses, we finally derive a guideline for selecting suitable FL algorithms in RS. The code of this work is publicly available at https://git.tu-berlin.de/rsim/FL-RS.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# ビットの殻:FPGA上のミニフロートによる量子化の境界を押し上げる

Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs ( http://arxiv.org/abs/2311.12359v2 )

ライセンス: Link先を確認
Shivam Aggarwal, Hans Jakob Damsgaard, Alessandro Pappalardo, Giuseppe Franco, Thomas B. Preußer, Michaela Blott, Tulika Mitra, (参考訳) 後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。 近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。 しかし、8ビット未満の浮動小数点フォーマットと、整数に対する精度ハードウェアコストの相対比較はFPGAでは未定である。 そこで本研究では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに低減し,精度の高い浮動小数点形状のミニフロートを提案する。 FPGAベースのマルチプライ累積演算子ライブラリを実装し,重みとアクティベーションの両面で,ミニフロートと整数表現を3ビットから8ビットで比較し,膨大な設計空間を探索する。 また,様々な整数ベースの量子化手法のミニフロートへの適用性についても検討した。 我々の実験によると、ミニフロートはビジョントランスフォーマーのような新しいワークロードに対して有望な代替手段を提供する。

Post-training quantization (PTQ) is a powerful technique for model compression, reducing the numerical precision in neural networks without additional training overhead. Recent works have investigated adopting 8-bit floating-point formats(FP8) in the context of PTQ for model inference. However, floating-point formats smaller than 8 bits and their relative comparison in terms of accuracy-hardware cost with integers remains unexplored on FPGAs. In this work, we present minifloats, which are reduced-precision floating-point formats capable of further reducing the memory footprint, latency, and energy cost of a model while approaching full-precision model accuracy. We implement a custom FPGA-based multiply-accumulate operator library and explore the vast design space, comparing minifloat and integer representations across 3 to 8 bits for both weights and activations. We also examine the applicability of various integerbased quantization techniques to minifloats. Our experiments show that minifloats offer a promising alternative for emerging workloads such as vision transformers.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# 乳がんスライドにおける良性上皮細胞, in situ 病変および浸潤上皮細胞の分画誘導に関する免疫組織化学的研究

Immunohistochemistry guided segmentation of benign epithelial cells, in situ lesions, and invasive epithelial cells in breast cancer slides ( http://arxiv.org/abs/2311.13261v3 )

ライセンス: Link先を確認
Maren Høibø, André Pedersen, Vibeke Grotnes Dale, Sissel Marie Berget, Borgny Ytterhus, Cecilia Lindskog, Elisabeth Wik, Lars A. Akslen, Ingerid Reinertsen, Erik Smistad, Marit Valla, (参考訳) デジタル病理学は、人工知能(AI)を用いた病理領域の自動解析を可能にする。 自動評価は診断効率を向上し、形態学的特徴と臨床結果の関連を見つけるのに役立つ。 このような予測モデルの開発には、浸潤上皮細胞を同定し、良性上皮細胞とin situ病変を分離することが第一歩となる。 本研究では,乳がん領域における上皮細胞のセグメンテーションのためのAIモデルを開発することを目的とした。 細胞ケラチン (CK) AE1/AE3 によるヘマトキシリンおよびエオシン (HE) 切断を保存し, 病理医のアノテーションにより上皮性基底真偽マスクを作製した。 HE/CKイメージペアは畳み込みニューラルネットワークのトレーニングに使用され、データ拡張はモデルをより堅牢にするために使用された。 839例の組織マイクロアレイ(TMA)と2例のスライド画像を用いてモデルのトレーニングと評価を行った。 切除部位は乳がん患者の4つのコホートから得られた。 第5コホートから21例のTMAを第2テストセットとして使用した。 定量的評価では,浸潤上皮細胞,良性上皮細胞,in situ病変に対する平均Diceスコア0.70,0.79,0.75が得られた。 病理学者による定性スコア(0-5)では,全上皮および浸潤上皮に最も適しており,スコアは4.7と4.4であった。 良性上皮およびin situ病変のスコアは3.7,2.0。 本モデルでは, HE染色乳癌における上皮細胞分画が良好に観察できるが, クラス間での正確な分画にはさらなる作業が必要である。 免疫組織化学は病理学者の注釈とともに、正確な基底真理の創造を可能にした。 このモデルはFastPathologyで無料で利用可能であり、コードはhttps://github.com/AICAN-Research/breast-epithelium-segmentationで入手できる。

Digital pathology enables automatic analysis of histopathological sections using artificial intelligence (AI). Automatic evaluation could improve diagnostic efficiency and help find associations between morphological features and clinical outcome. For development of such prediction models, identifying invasive epithelial cells, and separating these from benign epithelial cells and in situ lesions would be the first step. In this study, we aimed to develop an AI model for segmentation of epithelial cells in sections from breast cancer. We generated epithelial ground truth masks by restaining hematoxylin and eosin (HE) sections with cytokeratin (CK) AE1/AE3, and by pathologists' annotations. HE/CK image pairs were used to train a convolutional neural network, and data augmentation was used to make the model more robust. Tissue microarrays (TMAs) from 839 patients, and whole slide images from two patients were used for training and evaluation of the models. The sections were derived from four cohorts of breast cancer patients. TMAs from 21 patients from a fifth cohort was used as a second test set. In quantitative evaluation, a mean Dice score of 0.70, 0.79, and 0.75 for invasive epithelial cells, benign epithelial cells, and in situ lesions, respectively, were achieved. In qualitative scoring (0-5) by pathologists, results were best for all epithelium and invasive epithelium, with scores of 4.7 and 4.4. Scores for benign epithelium and in situ lesions were 3.7 and 2.0. The proposed model segmented epithelial cells in HE stained breast cancer slides well, but further work is needed for accurate division between the classes. Immunohistochemistry, together with pathologists' annotations, enabled the creation of accurate ground truths. The model is made freely available in FastPathology and the code is available at https://github.com/AICAN-Research/breast-epithelium-segmentation
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# SpeechAct: 音声から全身運動を生成するために

SpeechAct: Towards Generating Whole-body Motion from Speech ( http://arxiv.org/abs/2311.17425v4 )

ライセンス: Link先を確認
Jinsong Zhang, Minjie Zhu, Yuxiang Zhang, Yebin Liu, Kun Li, (参考訳) 本稿では,音声から全身の動きを生成する問題に対処する。 大きな成功にもかかわらず、先行の手法は、音声から合理的で多様な全身の動きを生み出すのに依然として苦労している。 これは、最適化下表現への依存と、多様な結果を生成するための戦略の欠如によるものである。 これらの課題に対処するため,フットスケートの回避など,高精度かつ連続的な動作生成を実現するために,新しいハイブリッド・ポイント表現を提案する。 音声信号と密接に結びついている顔の動きに対して、音声から全身の動きを生成するために、決定論的結果を得るためにエンコーダ・デコーダアーキテクチャを導入する。 しかし、音声信号との接続が弱い身体と手にとって、我々は多様だが合理的な動きを生み出すことを目指している。 動き生成の多様性を高めるために,モデルがより独特な表現を生成することを奨励するコントラッシブな動き学習法を提案する。 具体的には、我々のハイブリッド表現を用いて量子化されたモーションコードブックを学習するために、ロバストなVQ-VAEを設計する。 そして、コントラッシブ・モーション・ラーニング手法を用いた翻訳モデルにより、音声信号からの動作表現を回帰する。 実験により,本モデルの優れた性能と精度が検証された。 プロジェクトページは http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct で研究目的で公開されている。

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# 潜在ベルヌーイ変数を用いた適応ロバスト学習

Adaptive Robust Learning using Latent Bernoulli Variables ( http://arxiv.org/abs/2312.00585v2 )

ライセンス: Link先を確認
Aleksandr Karakulev, Dave Zachariah, Prashant Singh, (参考訳) 破損したトレーニングセットからの堅牢な学習のための適応的なアプローチを提案する。 我々は,潜伏したベルヌーイ変数を用いた崩壊・非崩壊サンプルを同定し,潜伏変数が辺縁化される可能性の最大化として学習問題を定式化する。 その結果,効率のよい予測最大化法を用いて,変分推論によって問題を解いた。 提案手法は, 汚職レベルを自動的に推定し, 計算オーバーヘッドを最小化することにより, 最先端技術よりも改善する。 オンライン学習やディープラーニングなど,さまざまなレベルのノイズに適応し,高い予測精度を維持する機械学習タスクにおいて,ロバストな学習手法とそのパラメータフリー性を実証する。

We present an adaptive approach for robust learning from corrupted training sets. We identify corrupted and non-corrupted samples with latent Bernoulli variables and thus formulate the learning problem as maximization of the likelihood where latent variables are marginalized. The resulting problem is solved via variational inference, using an efficient Expectation-Maximization based method. The proposed approach improves over the state-of-the-art by automatically inferring the corruption level, while adding minimal computational overhead. We demonstrate our robust learning method and its parameter-free nature on a wide variety of machine learning tasks including online learning and deep learning where it adapts to different levels of noise and maintains high prediction accuracy.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# 非局所的ボックスの代数と通信複雑性の崩壊

Algebra of Nonlocal Boxes and the Collapse of Communication Complexity ( http://arxiv.org/abs/2312.00725v3 )

ライセンス: Link先を確認
Pierre Botteron, Anne Broadbent, Reda Chhaibi, Ion Nechita, Clément Pellegrini, (参考訳) 通信複雑性は、文字列XとYがそれぞれ第1及び第2のコンピュータに分散される関数f(X,Y)を、数ビットで交換する制約の下で評価することが、離れた2台のコンピュータがどれだけ難しいかを定量化する。 驚くべきことに、2つのコンピュータが共有するリソースであるいくつかの非ローカルボックスは、ブール関数 f を1ビットの通信の交換で正確に推定できるという意味で、通信複雑性の崩壊を可能にするほど強力である。 ポープスク=ローリッヒ(PR)ボックスはそのような崩壊する資源の例であるが、崩壊する非局所的ボックスの集合の包括的記述はいまだ解明されていない。 本研究では,非局所的ボックスを接続する配線の構造に関する代数的研究を行い,ボックスの積"$P\boxtimes Q$"の概念を定義し,関連する連想性と可換性を示す。 これは「箱の軌道」の概念を生み出し、蒸留された箱のアライメントと平行性に関する驚くべき幾何学的性質を明らかにする。 このフレームワークのパワーは、連続する箱を繋ぐ最良の方法に関する事前報告された数値的な観察を証明し、様々な種類のノイズモデルにおける通信複雑性を崩壊させる、最近同定されたノイズの多いPRボックスを数値的かつ解析的に回収できることである。

Communication complexity quantifies how difficult it is for two distant computers to evaluate a function f(X,Y), where the strings X and Y are distributed to the first and second computer respectively, under the constraint of exchanging as few bits as possible. Surprisingly, some nonlocal boxes, which are resources shared by the two computers, are so powerful that they allow to collapse communication complexity, in the sense that any Boolean function f can be correctly estimated with the exchange of only one bit of communication. The Popescu-Rohrlich (PR) box is an example of such a collapsing resource, but a comprehensive description of the set of collapsing nonlocal boxes remains elusive. In this work, we carry out an algebraic study of the structure of wirings connecting nonlocal boxes, thus defining the notion of the "product of boxes" $P\boxtimes Q$, and we show related associativity and commutativity results. This gives rise to the notion of the "orbit of a box", unveiling surprising geometrical properties about the alignment and parallelism of distilled boxes. The power of this new framework is that it allows us to prove previously-reported numerical observations concerning the best way to wire consecutive boxes, and to numerically and analytically recover recently-identified noisy PR boxes that collapse communication complexity for different types of noise models.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# 局所リアプノフ条件を用いたスコアアウェア政策のグラディエント手法と性能保証:製品型確率ネットワークと待ち行列システムへの応用

Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems ( http://arxiv.org/abs/2312.02804v2 )

ライセンス: Link先を確認
Céline Comte, Matthieu Jonckheere, Jaron Sanders, Albert Senen-Cerda, (参考訳) 本稿では,確率ネットワーク,待ち行列システム,統計力学においてマルコフ決定過程(MDP)から得られる定常分布のタイプを利用したモデルベース強化学習(RL)のポリシー段階的手法を提案する。 具体的には、MDPの定常分布が政策パラメータによってパラメータ化される指数族に属する場合、平均回帰RLに対する既存の政策勾配法を改善することができる。 我々の鍵となる同定は、スコア・アウェア・グラデーション・エデュメータ(SAGE)と呼ばれる勾配推定器のファミリーであり、上記の設定における値関数の近似に頼ることなく、政策勾配推定を可能にする。 これはアクター批判法のような他の一般的なポリシー段階のアルゴリズムとは対照的である。 まず、目的関数が非凸である場合、複数の最大値を示し、MDPの状態空間が有限でない場合を含む、SAGEによる政策勾配が局所的に収束することを示す。 最大値に十分近いような適切な仮定の下では、SAGEと確率勾配の下での政策は、関連する最適ポリシーに収束する圧倒的な確率を持つ。 その他の重要な仮定は、局所リアプノフ函数が存在し、目的関数のヘッセンの非退化性は極大函数の周りで局所的に成り立つということである。 さらに,SAGEに基づく政策段階法とアクター批判法との数値比較を行った。 具体的には、確率ネットワーク、キューシステム、統計物理学から派生したモデルから着想を得たいくつかの例に注目し、そこではパラメタトリゾブル指数族が一般的である。 以上の結果から,SAGEに基づく手法はアクター・クリティカルな手法よりも近い最適ポリシーを高速に発見できることが示唆された。

In this paper, we introduce a policy-gradient method for model-based reinforcement learning (RL) that exploits a type of stationary distributions commonly obtained from Markov decision processes (MDPs) in stochastic networks, queueing systems, and statistical mechanics. Specifically, when the stationary distribution of the MDP belongs to an exponential family that is parametrized by policy parameters, we can improve existing policy gradient methods for average-reward RL. Our key identification is a family of gradient estimators, called score-aware gradient estimators (SAGEs), that enable policy gradient estimation without relying on value-function approximation in the aforementioned setting. This contrasts with other common policy-gradient algorithms such as actor-critic methods. We first show that policy-gradient with SAGE locally converges, including in cases when the objective function is nonconvex, presents multiple maximizers, and the state space of the MDP is not finite. Under appropriate assumptions such as starting sufficiently close to a maximizer, the policy under stochastic gradient ascent with SAGE has an overwhelming probability of converging to the associated optimal policy. Other key assumptions are that a local Lyapunov function exists, and a nondegeneracy property of the Hessian of the objective function holds locally around a maximizer. Furthermore, we conduct a numerical comparison between a SAGE-based policy-gradient method and an actor-critic method. We specifically focus on several examples inspired from stochastic networks, queueing systems, and models derived from statistical physics, where parametrizable exponential families are commonplace. Our results demonstrate that a SAGE-based method finds close-to-optimal policies faster than an actor-critic method.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# Run LoRA Run: より高速で軽量なLoRA実装

Run LoRA Run: Faster and Lighter LoRA Implementations ( http://arxiv.org/abs/2312.03415v2 )

ライセンス: Link先を確認
Daria Cherniuk, Aleksandr Mikhalev, Ivan Oseledets, (参考訳) LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。 このテクニックは、大規模な言語モデルの微調整と完全なトレーニングの両方に使用される。 本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。 提案手法は,対応する線形層,層入力次元,ロラランクの次元に基づくLORA演算の計算を,FLOPと時間推定に基づく最適前方・後方計算グラフを選択することにより最適化し,精度を犠牲にすることなく高速なトレーニングを実現する。 実験結果は、言語モデリングネットワーク上で最大28倍のスピードアップを示す。

LoRA is a technique that reduces the number of trainable parameters in a neural network by introducing low-rank adapters to linear layers. This technique is used both for fine-tuning and full training of large language models. This paper presents the RunLoRA framework for efficient implementations of LoRA that significantly improves the speed of neural network training and fine-tuning using low-rank adapters. The proposed implementation optimizes the computation of LoRA operations based on dimensions of corresponding linear layer, layer input dimensions and lora rank by choosing best forward and backward computation graph based on FLOPs and time estimations, resulting in faster training without sacrificing accuracy. The experimental results show up to 28\% speedup on language modeling networks.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# R2Human:1枚の画像からリアルタイムの3D画像表示

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image ( http://arxiv.org/abs/2312.05826v3 )

ライセンス: Link先を確認
Yuanwang Yang, Qiao Feng, Yu-Kun Lai, Kun Li, (参考訳) ホログラフィックコミュニケーションと没入型VR/ARを実現するためには,異なる視点で3D人間の外観をレンダリングすることが不可欠である。 既存の方法は、マルチカメラのセットアップに依存するか、または単一の画像から低画質のレンダリング画像を持つ。 本稿では,R2Humanを提案する。R2Humanは,1枚の画像からリアルな3次元人間の外見をリアルタイムに推論し,レンダリングする手法である。 我々のアプローチの中核は、暗黙のテクスチャフィールドと明示的なニューラルレンダリングの強みと、新しい表現であるZマップを組み合わせることである。 そこで本研究では,可視領域の高忠実度な色再現を行うエンド・ツー・エンド・ネットワークを提案する。 ネットワークの3次元知覚能力を更に高めるために,テクスチャフィールドを生成し,レンダリング段階でサンプリング面を提供するために,フーリエ占有場を先行として活用する。 また,多視点コヒーレンスを保証するために,一貫性損失と時空間融合戦略を提案する。 実験結果から,本手法は,合成データと実世界の課題の画像の両方において,リアルタイムに最先端の手法より優れていることがわかった。

Rendering 3D human appearance in different views is crucial for achieving holographic communication and immersive VR/AR. Existing methods either rely on multi-camera setups or have low-quality rendered images from a single image. In this paper, we propose R2Human, the first approach for real-time inference and rendering of photorealistic 3D human appearance from a single image. The core of our approach is to combine the strengths of implicit texture fields and explicit neural rendering with our novel representation, namely Z-map. Based on this, we present an end-to-end network that performs high-fidelity color reconstruction of visible areas and provides reliable color inference for occluded regions. To further enhance the 3D perception ability of our network, we leverage the Fourier occupancy field as a prior for generating the texture field and providing a sampling surface in the rendering stage. We also propose a consistency loss and a spatio-temporal fusion strategy to ensure the multi-view coherence. Experimental results show that our method outperforms the state-of-the-art methods on both synthetic data and challenging real-world images, in real time.
翻訳日:2024-06-17 19:33:45 公開日:2024-06-14
# ハミルトンシミュレーションによる反応流の量子計算

Quantum computing of reacting flows via Hamiltonian simulation ( http://arxiv.org/abs/2312.07893v2 )

ライセンス: Link先を確認
Zhen Lu, Yue Yang, (参考訳) ハミルトン力学をシミュレートして反応流の量子計算を報告する。 反応する流れに対するスカラー輸送方程式はハミルトン系に変換され、物理空間における散逸的および非エルミート問題と高次元空間におけるエルミート問題とをマッピングする。 本手法を用いて, 周期的および一般条件下での反応流をシミュレーションする量子スペクトル法と有限差分法を開発した。 現在の量子コンピューティングアルゴリズムは、時間的離散化を伴わずに、反復的な量子状態の準備と測定を回避して、所定の時間に '`one-shot'' ソリューションを提供する。 量子および古典的アルゴリズムの計算複雑性を比較する。 量子スペクトル法は古典的手法と比較して指数加速度を示し、量子有限差分法は高次元問題において指数速度を達成できる。 量子アルゴリズムはQiskitパッケージを用いて量子コンピューティングシミュレータ上で検証される。 検証ケースは、線形ソース項と周期的またはインレット・アウトレット境界条件を持つ1次元および2次元の反応流をカバーしている。 量子スペクトル法と有限差分法から得られた結果は、解析的および古典的なシミュレーション結果と一致する。 対流、拡散、反応の過程を正確に捉えている。 このことは、燃焼中の反応性の流れをシミュレーションするための効率的なツールとしての量子コンピューティングの可能性を示している。

We report the quantum computing of reacting flows by simulating the Hamiltonian dynamics. The scalar transport equation for reacting flows is transformed into a Hamiltonian system, mapping the dissipative and non-Hermitian problem in physical space to a Hermitian one in a higher-dimensional space. Using this approach, we develop the quantum spectral and finite difference methods for simulating reacting flows in periodic and general conditions, respectively. The present quantum computing algorithms offer a ``one-shot'' solution for a given time without temporal discretization, avoiding iterative quantum state preparation and measurement. We compare computational complexities of the quantum and classical algorithms. The quantum spectral method exhibits exponential acceleration relative to its classical counterpart, and the quantum finite difference method can achieve exponential speedup in high-dimensional problems. The quantum algorithms are validated on quantum computing simulators with the Qiskit package. The validation cases cover one- and two-dimensional reacting flows with a linear source term and periodic or inlet-outlet boundary conditions. The results obtained from the quantum spectral and finite difference methods agree with analytical and classical simulation results. They accurately capture the convection, diffusion, and reaction processes. This demonstrates the potential of quantum computing as an efficient tool for the simulation of reactive flows in combustion.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 学習の調和:不変ネットワークに現れる普遍的フーリエ特徴

Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks ( http://arxiv.org/abs/2312.08550v3 )

ライセンス: Link先を確認
Giovanni Luca Marchetti, Christopher Hillar, Danica Kragic, Sophia Sanborn, (参考訳) この研究において、ある条件下では、ニューラルネットワークが有限群に不変であれば、その重みがその群上のフーリエ変換を回復することを正式に証明する。 これは、生物学的および人工的な学習システムにおいて、ユビキタスな現象であるフーリエ特徴の出現に関する数学的説明を提供する。 結果は非可換群に対しても成り立ち、その場合フーリエ変換はすべての既約ユニタリ群表現を符号化する。 我々の発見は対称性発見の問題に影響を及ぼす。 具体的には、未知群の代数構造が、ある有界内で少なくともほぼ不変なネットワークの重みから復元できることを実証する。 全体として、この研究は不変ニューラルネットワーク表現の代数的学習理論の基礎に貢献する。

In this work, we formally prove that, under certain conditions, if a neural network is invariant to a finite group then its weights recover the Fourier transform on that group. This provides a mathematical explanation for the emergence of Fourier features -- a ubiquitous phenomenon in both biological and artificial learning systems. The results hold even for non-commutative groups, in which case the Fourier transform encodes all the irreducible unitary group representations. Our findings have consequences for the problem of symmetry discovery. Specifically, we demonstrate that the algebraic structure of an unknown group can be recovered from the weights of a network that is at least approximately invariant within certain bounds. Overall, this work contributes to a foundation for an algebraic learning theory of invariant neural network representations.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 2次元レイトフュージョンによる長期3次元計測

Long-Tailed 3D Detection via 2D Late Fusion ( http://arxiv.org/abs/2312.10986v3 )

ライセンス: Link先を確認
Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li, Shu Kong, (参考訳) Long-Tailed 3D Object Detection (LT3D) は、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する問題に対処する。 現代のマルチモーダル検出器はレアクラスのAPが低い(例えば、CMTはベビーカーで9.4 APしか得られない)。 この制限に対処するため、単モードLiDARとRGB検出器を独立に訓練した単純な遅延融合フレームワークを探索する。 重要なことは、このような遅延融合フレームワークは、ペア化されたマルチモーダルトレーニングデータを必要とする一般的なマルチモーダル検出器とは異なり、大規模なユニモーダルデータセット(レアクラスの多くの例を含む)を活用して、より良いユニモーダルRGB検出器を訓練することを可能にする。 特に,本手法は従来よりもレアクラスの検出を7.2%向上させる。 さらに, 簡単なレイトフュージョンアプローチの3つの重要な要素について, 第一原理から検討し, 2Dまたは3D RGB検出器の訓練方法, 3DにおけるRGBおよびLiDAR検出と融合するか, 融合のために投影された2D画像平面を融合するか, および整合検出を融合する方法について検討した。 広汎な実験により、2次元RGB検出器は3次元RGB検出器よりもレアクラスの認識精度が向上し、2次元画像平面上でのマッチングにより深度推定誤差が軽減された。 我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。

Long-Tailed 3D Object Detection (LT3D) addresses the problem of accurately detecting objects from both common and rare classes. Contemporary multi-modal detectors achieve low AP on rare-classes (e.g., CMT only achieves 9.4 AP on stroller), presumably because training detectors end-to-end with significant class imbalance is challenging. To address this limitation, we delve into a simple late-fusion framework that ensembles independently trained uni-modal LiDAR and RGB detectors. Importantly, such a late-fusion framework allows us to leverage large-scale uni-modal datasets (with more examples for rare classes) to train better uni-modal RGB detectors, unlike prevailing multimodal detectors that require paired multi-modal training data. Notably, our approach significantly improves rare-class detection by 7.2% over prior work. Further, we examine three critical components of our simple late-fusion approach from first principles and investigate whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane for fusion, and how to fuse matched detections. Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy for rare classes than 3D RGB detectors and matching on the 2D image plane mitigates depth estimation errors. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP!
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 脳とテキストの復号のためのクロスオブジェクトデータ分割

Cross-Subject Data Splitting for Brain-to-Text Decoding ( http://arxiv.org/abs/2312.10987v3 )

ライセンス: Link先を確認
Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang Lin, Jingping Shao, Piji Li, (参考訳) 最近の大きなマイルストーンは、非侵襲的な脳信号(例えば、機能的磁気共鳴イメージング(fMRI)と脳波(EEG))を自然言語に復号することに成功している。 モデル設計の進歩にもかかわらず、トレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。 以前の研究では、デコードモデルをトレーニングし、被験者毎に評価する、主題固有のデータ分割を適用していた。 このような分割法は、データセットの利用効率とモデルの一般化に課題をもたらす。 本研究では,様々な種類の認知データセット(fMRI,EEG)における脳からテキストへのデコーディングのためのオブジェクト間データ分割基準を提案し,データセットの利用を最大化し,モデル一般化を改善することを目的とした。 我々は、既存のクロスオブジェクトデータ分割戦略を総合的に分析し、これらの手法がデータ漏洩、すなわち、テストデータのトレーニングセットへのリークに悩まされていることを証明し、デコードモデルの過度な適合と過大評価につながった。 提案するクロスオブジェクト分割法は,データ漏洩問題に対処し,さらなる研究のベースラインとして,いくつかのSOTA脳-テキストデコーディングモデルを再評価する。

Recent major milestones have successfully decoded non-invasive brain signals (e.g. functional Magnetic Resonance Imaging (fMRI) and electroencephalogram (EEG)) into natural language. Despite the progress in model design, how to split the datasets for training, validating, and testing still remains a matter of debate. Most of the prior researches applied subject-specific data splitting, where the decoding model is trained and evaluated per subject. Such splitting method poses challenges to the utilization efficiency of dataset as well as the generalization of models. In this study, we propose a cross-subject data splitting criterion for brain-to-text decoding on various types of cognitive dataset (fMRI, EEG), aiming to maximize dataset utilization and improve model generalization. We undertake a comprehensive analysis on existing cross-subject data splitting strategies and prove that all these methods suffer from data leakage, namely the leakage of test data to training set, which significantly leads to overfitting and overestimation of decoding models. The proposed cross-subject splitting method successfully addresses the data leakage problem and we re-evaluate some SOTA brain-to-text decoding models as baselines for further research.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 可変行動空間に対する文脈強化学習

In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v4 )

ライセンス: Link先を確認
Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov, (参考訳) 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。 以前に提案されたモデルの鍵となる制限は、事前に定義されたアクション空間のサイズと構造に依存していることである。 新しいアクションスペースを導入するには、データ再コンパイルとモデル再トレーニングが必要になることが多い。 本研究は,1回しか訓練されていないが,可変サイズ,セマンティック内容,順序の離散的な行動空間に一般化できるヘッドレスADモデルを提案することにより,この問題を軽減することができることを示す。 Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。

Recently, it has been shown that transformers pre-trained on diverse datasets with multi-episode contexts can generalize to new reinforcement learning tasks in-context. A key limitation of previously proposed models is their reliance on a predefined action space size and structure. The introduction of a new action space often requires data re-collection and model re-training, which can be costly for some applications. In our work, we show that it is possible to mitigate this issue by proposing the Headless-AD model that, despite being trained only once, is capable of generalizing to discrete action spaces of variable size, semantic content and order. By experimenting with Bernoulli and contextual bandits, as well as a gridworld environment, we show that Headless-AD exhibits significant capability to generalize to action spaces it has never encountered, even outperforming specialized models trained for a specific set of actions on several environment configurations.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 複雑な論理的推論によるセッション間意図の理解

Understanding Inter-Session Intentions via Complex Logical Reasoning ( http://arxiv.org/abs/2312.13866v2 )

ライセンス: Link先を確認
Jiaxin Bai, Chen Luo, Zheng Li, Qingyu Yin, Yangqiu Song, (参考訳) ユーザの意図を理解することは、製品レコメンデーション、ナビゲーション提案、クエリ修正の改善に不可欠である。 しかし、ユーザの意図は複雑になり、複数のセッションとAnd、Or、Notといった論理演算子によって接続される属性要求が伴う。 例えば、ユーザーはさまざまなセッションでナイキやアディダスのランニングシューズを検索できる。 別の例では、ユーザーは前のセッションでマットレスを購入し、もう1つのマットレスを買うつもりもなく、一致するベッドフレームを探しているかもしれない。 セッション理解に関する既存の研究は、そのような複雑な意図に対する製品や属性の推薦に十分対応していない。 本稿では,セッションをアイテムのハイパーエッジとして扱う論理的セッション複雑問い合わせ応答(LS-CQA)の課題について述べるとともに,セッション,項目,属性の集約ハイパーグラフ上で,複雑な意図理解の問題をLS-CQAタスクとして枠づける。 これは、順序付けられたハイパーエッジとしてセッションを伴うユニークな複雑なクエリ応答タスクである。 また,新たなモデルであるLSGTを導入し,各セッション間のインタラクションと,その論理的接続をトランスフォーマ構造を用いてキャプチャする。 LSGTの表現性を解析し、論理演算子に対する入力の置換不変性を証明する。 3つのデータセット上でLSGTを評価することで、最先端の結果が得られることを示す。

Understanding user intentions is essential for improving product recommendations, navigation suggestions, and query reformulations. However, user intentions can be intricate, involving multiple sessions and attribute requirements connected by logical operators such as And, Or, and Not. For instance, a user may search for Nike or Adidas running shoes across various sessions, with a preference for purple. In another example, a user may have purchased a mattress in a previous session and is now looking for a matching bed frame without intending to buy another mattress. Existing research on session understanding has not adequately addressed making product or attribute recommendations for such complex intentions. In this paper, we present the task of logical session complex query answering (LS-CQA), where sessions are treated as hyperedges of items, and we frame the problem of complex intention understanding as an LS-CQA task on an aggregated hypergraph of sessions, items, and attributes. This is a unique complex query answering task with sessions as ordered hyperedges. We also introduce a new model, the Logical Session Graph Transformer (LSGT), which captures interactions among items across different sessions and their logical connections using a transformer structure. We analyze the expressiveness of LSGT and prove the permutation invariance of the inputs for the logical operators. By evaluating LSGT on three datasets, we demonstrate that it achieves state-of-the-art results.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# ビジョンランゲージモデルによるFew-Shot物体検出の再検討

Revisiting Few-Shot Object Detection with Vision-Language Models ( http://arxiv.org/abs/2312.14494v3 )

ライセンス: Link先を確認
Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan, (参考訳) 大規模なウェブスケールデータセットで訓練された視覚言語モデル(VLM)の時代は、従来の「オープンワールド」知覚の定式化に挑戦する。 本研究では,最近の基礎VLMの文脈において,小ショットオブジェクト検出(FSOD)の課題を再考する。 まず,GroundingDINOのようなゼロショットVLMはCOCO上の最先端のショット検出器(48対33AP)よりも著しく優れていることを指摘した。 強烈なゼロショット性能にもかかわらず、そのような基礎モデルは依然として準最適である。 例えば、ウェブ上のトラックは、自動運転車の知覚のようなターゲットアプリケーションのためにトラックとは異なる定義をすることができる。 数発の認識のタスクは、いくつかの例を用いて基礎モデルと目標概念を整合させるものとして再編成できると論じる。 興味深いことに、このような例はマルチモーダルで、テキストと視覚の両方を使って、ターゲットとなる関心の概念を定義する際に、人間のアノテータに与えられる命令を模倣することができる。 具体的には,新たなベンチマークプロトコルであるFoundational FSODを提案する。これは,任意の外部データセット上で事前トレーニングされた検出器を,ターゲットクラス毎のマルチモーダル(テキストおよびビジュアル)Kショットの例に基づいて微調整する。 ファウンデーションFSODのためのnuImageを再利用し、いくつかの人気のあるオープンソースVLMをベンチマークし、最先端の手法を実証分析する。 最後に、CVPR 2024 Foundational FSODコンペティションについて議論し、コミュニティからの洞察を共有します。 特に、優勝チームは、我々のベースラインを23.9mAPで大幅に上回っている。

The era of vision-language models (VLMs) trained on large web-scale datasets challenges conventional formulations of "open-world" perception. In this work, we revisit the task of few-shot object detection (FSOD) in the context of recent foundational VLMs. First, we point out that zero-shot VLMs such as GroundingDINO significantly outperform state-of-the-art few-shot detectors (48 vs. 33 AP) on COCO. Despite their strong zero-shot performance, such foundational models may still be sub-optimal. For example, trucks on the web may be defined differently from trucks for a target application such as autonomous vehicle perception. We argue that the task of few-shot recognition can be reformulated as aligning foundation models to target concepts using a few examples. Interestingly, such examples can be multi-modal, using both text and visual cues, mimicking instructions that are often given to human annotators when defining a target concept of interest. Concretely, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external datasets and fine-tuned on multi-modal (text and visual) K-shot examples per target class. We repurpose nuImages for Foundational FSOD, benchmark several popular open-source VLMs, and provide an empirical analysis of state-of-the-art methods. Lastly, we discuss our recent CVPR 2024 Foundational FSOD competition and share insights from the community. Notably, the winning team significantly outperforms our baseline by 23.9 mAP!
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# ブラウジング行動はWeb上でアイデンティティを公開する

Browsing behavior exposes identities on the Web ( http://arxiv.org/abs/2312.15489v2 )

ライセンス: Link先を確認
Marcos Oliveira, Junran Yang, Daniel Griffiths, Denis Bonnay, Juhi Kulshrestha, (参考訳) ウェブ閲覧行動のみに基づく人物の特定は,どの程度容易か? ここでは、人々がウェブをナビゲートすると、オンライントレースがそれらを識別する指紋を生成することを示す。 最も訪れた4つのWebドメインは、95%の個人を特定するのに十分です。 これらのデジタル指紋は安定しており、再識別性が高い。 我々は、データの切り離しで80%の個人を再識別できることを実証した。 このようなプライバシーの脅威は、個人のブラウジング行動に関する情報が限られていても持続し、オンラインプライバシーに関する既存の懸念を補強する。

How easy is it to uniquely identify a person based solely on their web browsing behavior? Here we show that when people navigate the Web, their online traces produce fingerprints that identify them. Merely the four most visited web domains are enough to identify 95% of the individuals. These digital fingerprints are stable and render high re-identifiability. We demonstrate that we can re-identify 80% of the individuals in separate time slices of data. Such a privacy threat persists even with limited information about individuals' browsing behavior, reinforcing existing concerns around online privacy.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# GenH2R: スケーラブルシミュレーション,デモ,模倣による汎用型人間ロボットハンドオーバの学習

GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation ( http://arxiv.org/abs/2401.00929v2 )

ライセンス: Link先を確認
Zifan Wang, Junyu Chen, Ziqing Chen, Pengwei Xie, Rui Chen, Li Yi, (参考訳) 本稿では、汎用ビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学習するためのフレームワークであるGenH2Rを提案する。 目標は、ロボットにさまざまな複雑な軌道で人間が引き継いだ見えない形状の物体を確実に受信する能力を持たせることだ。 我々は,H2Rハンドオーバを大規模に学習し,手続き的シミュレーション資産の生成,自動実演生成,効果的な模倣学習を含む包括的なソリューションにより,そのような一般化可能性を得る。 大規模3次元モデルレポジトリ,デクスタルーグリップ生成方法,曲線に基づく3次元アニメーションを活用して,既存のシミュレータのシーン数を3桁超えたH2Rハンドオーバシミュレーション環境を創出する。 さらに,学習に適した100万個の高品質な実演を自動生成する蒸留フレンドリーな実演生成手法を提案する。 最後に、将来の予測目標によって強化された4次元模倣学習手法を提案し、実演をビジュオモータのハンドオーバポリシに蒸留する。 シミュレータと実世界の双方での実験的な評価は、すべてのケースにおいてベースラインよりも顕著な改善(少なくとも+10\%の成功率)を示している。 プロジェクトページはhttps://GenH2R.github.io/。

This paper presents GenH2R, a framework for learning generalizable vision-based human-to-robot (H2R) handover skills. The goal is to equip robots with the ability to reliably receive objects with unseen geometry handed over by humans in various complex trajectories. We acquire such generalizability by learning H2R handover at scale with a comprehensive solution including procedural simulation assets creation, automated demonstration generation, and effective imitation learning. We leverage large-scale 3D model repositories, dexterous grasp generation methods, and curve-based 3D animation to create an H2R handover simulation environment named \simabbns, surpassing the number of scenes in existing simulators by three orders of magnitude. We further introduce a distillation-friendly demonstration generation method that automatically generates a million high-quality demonstrations suitable for learning. Finally, we present a 4D imitation learning method augmented by a future forecasting objective to distill demonstrations into a visuo-motor handover policy. Experimental evaluations in both simulators and the real world demonstrate significant improvements (at least +10\% success rate) over baselines in all cases. The project page is https://GenH2R.github.io/.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# ワンショット重み結合学習によるリトレーニングフリーモデル量子化

Retraining-free Model Quantization via One-Shot Weight-Coupling Learning ( http://arxiv.org/abs/2401.01543v2 )

ライセンス: Link先を確認
Chen Tang, Yuan Meng, Jiacheng Jiang, Shuzhao Xie, Rongwei Lu, Xinzhu Ma, Zhi Wang, Wenwu Zhu, (参考訳) 量子化は、過度にパラメータ化されたディープニューラルネットワークモデルを圧縮し、リソース制限されたデバイスにデプロイする上で重要である。 固定精度量子化は、限られた数値表現能力のために性能低下に悩まされる。 逆に、混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。 本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。 特に第1段階では、すべての潜在的なビット幅構成が結合され、共有重みのセット内で同時に最適化される。 しかし,本研究の観測結果から,高度に結合した重み間において,従来は目に見えず深刻なビット幅干渉現象が明らかとなり,高い圧縮比で性能劣化が生じた。 この問題に対処するために、我々はまず、トレーニング中に最も乱れやすいビット幅を動的に凍結するビット幅スケジューラを設計し、残りのビット幅を適切に収束させる。 そこで,情報理論からインスピレーションを得た情報歪み軽減手法を提案する。 第2段階では、追加のトレーニングコストを導入することなく、構成の良さを評価するために、推論のみの欲求探索方式が考案されている。 3つの代表モデルと3つのデータセットに関する大規模な実験により,提案手法の有効性が示された。 コードは \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization} で利用できる。

Quantization is of significance for compressing the over-parameterized deep neural models and deploying them on resource-limited devices. Fixed-precision quantization suffers from performance drop due to the limited numerical representation ability. Conversely, mixed-precision quantization (MPQ) is advocated to compress the model effectively by allocating heterogeneous bit-width for layers. MPQ is typically organized into a searching-retraining two-stage process. In this paper, we devise a one-shot training-searching paradigm for mixed-precision model compression. Specifically, in the first stage, all potential bit-width configurations are coupled and thus optimized simultaneously within a set of shared weights. However, our observations reveal a previously unseen and severe bit-width interference phenomenon among highly coupled weights during optimization, leading to considerable performance degradation under a high compression ratio. To tackle this problem, we first design a bit-width scheduler to dynamically freeze the most turbulent bit-width of layers during training, to ensure the rest bit-widths converged properly. Then, taking inspiration from information theory, we present an information distortion mitigation technique to align the behavior of the bad-performing bit-widths to the well-performing ones. In the second stage, an inference-only greedy search scheme is devised to evaluate the goodness of configurations without introducing any additional training costs. Extensive experiments on three representative models and three datasets demonstrate the effectiveness of the proposed method. Code can be available on \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization}.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# ノイズハイブリッド量子回路の絡み合い構造と情報保護

Entanglement Structure and Information Protection in Noisy Hybrid Quantum Circuits ( http://arxiv.org/abs/2401.01593v2 )

ライセンス: Link先を確認
Shuo Liu, Ming-Rui Li, Shi-Xin Zhang, Shao-Kai Jian, (参考訳) 測定誘起エンタングルメント相転移の文脈では、実際の物理系に固有の量子ノイズの影響は、非常に重要かつ実験的に重要である。 本稿では,時間的非相関および相関量子ノイズが絡み合いの発生と情報保護に与える影響について,包括的な理論的解析を行う。 この調査は、システム内の絡み合いが、どちらの種類の量子ノイズに対しても$q^{-1/3}$スケールであることを明らかにし、$q$はノイズの確率を表す。 このスケーリングは、有効長さスケールが $L_{\text{eff}} \sim q^{-1}$ であるカーダル・パリ・張の揺らぎから生じる。 より重要なことは、定常状態の情報保護の時間スケールを探索し、時間的非相関ノイズと相関ノイズに対する$q^{-1/2}$と$q^{-2/3}$のスケーリングを示すことである。 前者のスケーリングはHayden-Preskillプロトコルと解釈でき、後者はKardar-Parisi-Zhangゆらぎの直接的な結果である。 我々は、理論的理解を支援するために、安定化器形式を用いた広範囲な数値シミュレーションを行う。 このレターは、量子ノイズと測定誘起相転移の間の相互作用の深い理解に寄与するだけでなく、マルコフノイズと非マルコフノイズが量子計算に与える影響を理解するための新たな視点を提供する。

In the context of measurement-induced entanglement phase transitions, the influence of quantum noises, which are inherent in real physical systems, is of great importance and experimental relevance. In this Letter, we present a comprehensive theoretical analysis of the effects of both temporally uncorrelated and correlated quantum noises on entanglement generation and information protection. This investigation reveals that entanglement within the system follows $q^{-1/3}$ scaling for both types of quantum noises, where $q$ represents the noise probability. The scaling arises from the Kardar-Parisi-Zhang fluctuation with effective length scale $L_{\text{eff}} \sim q^{-1}$. More importantly, the information protection timescales of the steady states are explored and shown to follow $q^{-1/2}$ and $q^{-2/3}$ scaling for temporally uncorrelated and correlated noises, respectively. The former scaling can be interpreted as a Hayden-Preskill protocol, while the latter is a direct consequence of Kardar-Parisi-Zhang fluctuations. We conduct extensive numerical simulations using stabilizer formalism to support the theoretical understanding. This Letter not only contributes to a deeper understanding of the interplay between quantum noises and measurement-induced phase transition but also provides a new perspective to understand the effects of Markovian and non-Markovian noises on quantum computation.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# FinDABench: 大規模言語モデルの財務データ分析能力のベンチマーク

FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models ( http://arxiv.org/abs/2401.02982v4 )

ライセンス: Link先を確認
Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Jie Zhou, Aimin Zhou, Man Lan, Qingquan Wu, Chong Yang, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。 しかし、金融データ分析の専門分野において、特にデータ駆動思考に焦点をあてる能力と信頼性は、いまだに不明である。 このギャップを埋めるために、この文脈におけるLLMの財務データ分析能力を評価するために設計された総合的なベンチマークである \texttt{FinDABench} を導入する。 \texttt{FinDABench} は3次元にわたる LLM を評価する。 1) 財務数値計算及び企業感情リスク評価を行うモデルの能力を評価するための「textbf{Foundational Ability}」 2 テキスト情報を迅速に理解し、異常な財務報告を解析するモデルの能力を決定すること。 3)<textbf{Technical Skill}</textbf{Technical Skill}</textbf</text></textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf</textbf</textbf</textbf</textbf</textbf</textbf</textnical Skill}</textbf</textnical Skill}>)。 We will release \texttt{FinDABench} and the evaluation script at \url{https://github.com/cubenlp/BIBench}。 金融データ分析の分野では, LLMの能力の詳細な分析方法を提供し, LLMの進歩を促進することを目的としている。

Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of tasks. However, their proficiency and reliability in the specialized domain of financial data analysis, particularly focusing on data-driven thinking, remain uncertain. To bridge this gap, we introduce \texttt{FinDABench}, a comprehensive benchmark designed to evaluate the financial data analysis capabilities of LLMs within this context. \texttt{FinDABench} assesses LLMs across three dimensions: 1) \textbf{Foundational Ability}, evaluating the models' ability to perform financial numerical calculation and corporate sentiment risk assessment; 2) \textbf{Reasoning Ability}, determining the models' ability to quickly comprehend textual information and analyze abnormal financial reports; and 3) \textbf{Technical Skill}, examining the models' use of technical knowledge to address real-world data analysis challenges involving analysis generation and charts visualization from multiple perspectives. We will release \texttt{FinDABench}, and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. \texttt{FinDABench} aims to provide a measure for in-depth analysis of LLM abilities and foster the advancement of LLMs in the field of financial data analysis.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 深い確率的改善をともなう超高分解能マルチコントラスト非バイアス眼アトラス

Super-resolution multi-contrast unbiased eye atlases with deep probabilistic refinement ( http://arxiv.org/abs/2401.03060v2 )

ライセンス: Link先を確認
Ho Hin Lee, Adam M. Saunders, Michael E. Kim, Samuel W. Remedios, Lucas W. Remedios, Yucheng Tang, Qi Yang, Xin Yu, Shunxing Bao, Chloe Cho, Louise A. Mawn, Tonia S. Rex, Kevin L. Schey, Blake E. Dewey, Jeffrey M. Spraggins, Jerry L. Prince, Yuankai Huo, Bennett A. Landman, (参考訳) 目的:眼の形態は、特に視神経や視神経において、個体群によって大きく異なる。 これらの変化は、眼器官の集団的特徴を非バイアス空間参照に一般化する可能性と堅牢性を制限する。 アプローチ: これらの制限に対処するため, 高分解能非バイアス眼アトラスの創製法を提案する。 まず,高平面解像度に比べて低分解能のスキャンから空間的詳細を復元するため,深層学習に基づく超解像アルゴリズムを適用した。 そして、少数の被験者スキャンを用いて、反復的メートル法に基づく登録による初期偏見のない参照を生成する。 残りのスキャンをこのテンプレートに登録し, 臓器境界アライメントを高めるために, より拡張的な変形場を生成する教師なしの深い確率的アプローチを用いてテンプレートを改良する。 4つの異なる組織コントラストをまたいだ磁気共鳴画像を用いて、4つのアトラスを別々の空間アライメントで生成する。 結果: 各組織に比較して, 硬質, アフィンおよび変形性変換からなる標準登録フレームワークと比較して, 4つのラベル付き領域にわたる平均Diceスコアにおけるウィルコクソン符号ランク試験による有意な改善が認められた。 これらの結果は,提案法を用いて眼器と境界の効果的アライメントを明らかにするものである。 結論: 超解像前処理と深部確率モデルを組み合わせることで、眼のアトラスを生成するという課題に対処し、大まかに変化する集団の標準基準として機能する。

Purpose: Eye morphology varies significantly across the population, especially for the orbit and optic nerve. These variations limit the feasibility and robustness of generalizing population-wise features of eye organs to an unbiased spatial reference. Approach: To tackle these limitations, we propose a process for creating high-resolution unbiased eye atlases. First, to restore spatial details from scans with a low through-plane resolution compared to a high in-plane resolution, we apply a deep learning-based super-resolution algorithm. Then, we generate an initial unbiased reference with an iterative metric-based registration using a small portion of subject scans. We register the remaining scans to this template and refine the template using an unsupervised deep probabilistic approach that generates a more expansive deformation field to enhance the organ boundary alignment. We demonstrate this framework using magnetic resonance images across four different tissue contrasts, generating four atlases in separate spatial alignments. Results: For each tissue contrast, we find a significant improvement using the Wilcoxon signed-rank test in the average Dice score across four labeled regions compared to a standard registration framework consisting of rigid, affine, and deformable transformations. These results highlight the effective alignment of eye organs and boundaries using our proposed process. Conclusions: By combining super-resolution preprocessing and deep probabilistic models, we address the challenge of generating an eye atlas to serve as a standardized reference across a largely variable population.
翻訳日:2024-06-17 19:24:01 公開日:2024-06-14
# 次世代シミュレーションによる組織複雑度の科学的問題

Next-Generation Simulation Illuminates Scientific Problems of Organised Complexity ( http://arxiv.org/abs/2401.09851v4 )

ライセンス: Link先を確認
Cheng Wang, Chuwen Wang, Wang Zhang, Shirong Zeng, Yu Zhao, Ronghui Ning, Changjun Jiang, (参考訳) 人工知能が科学研究でますます普及するにつれて、データ駆動の方法論は科学問題の解決における伝統的なアプローチを覆い隠しているように見える。 この観点では、科学的問題の古典的な分類を再考し、未解決の問題の連続が残っていることを認める。 科学的な問題の研究の歴史を通じて、科学者はデータ、アルゴリズム、計算力の進歩によって促進される新しいパラダイムを継続的に形成してきた。 未解決の問題、特に組織化された複雑性の問題にもっとうまく対処するためには、新しいパラダイムが必要である。 新しいパラダイムの強みが解決可能な科学的問題の範囲を広げたことを認識しながらも、データ、アルゴリズム、計算力の継続的な進歩が新しいパラダイムをもたらすことはほとんどない。 それぞれの強みを活かしたパラダイムの統合は、有望なアプローチであると仮定する。 具体的には,異なるパラダイムのメソッドを統合するプラットフォームとして機能する次世代シミュレーション(NGS)に焦点を当てる。 本稿では,それを実現するための方法論,洗練された行動シミュレーション(SBS)を提案する。 SBSは、高度な人間の戦略や行動を含む社会システムのような複雑なシステムをシミュレートする基礎モデルに基づく高度なパラダイム統合である。 NGSは、従来の数学的モデリングシミュレーションやエージェントベースのモデリングシミュレーションの能力を超えて、複雑なシステムにおける組織化された複雑性の問題に対する潜在的な解決策として自らを位置づけている。

As artificial intelligence becomes increasingly prevalent in scientific research, data-driven methodologies appear to overshadow traditional approaches in resolving scientific problems. In this Perspective, we revisit a classic classification of scientific problems and acknowledge that a series of unresolved problems remain. Throughout the history of researching scientific problems, scientists have continuously formed new paradigms facilitated by advances in data, algorithms, and computational power. To better tackle unresolved problems, especially those of organised complexity, a novel paradigm is necessitated. While recognising that the strengths of new paradigms have expanded the scope of resolvable scientific problems, we aware that the continued advancement of data, algorithms, and computational power alone is hardly to bring a new paradigm. We posit that the integration of paradigms, which capitalises on the strengths of each, represents a promising approach. Specifically, we focus on next-generation simulation (NGS), which can serve as a platform to integrate methods from different paradigms. We propose a methodology, sophisticated behavioural simulation (SBS), to realise it. SBS represents a higher level of paradigms integration based on foundational models to simulate complex systems, such as social systems involving sophisticated human strategies and behaviours. NGS extends beyond the capabilities of traditional mathematical modelling simulations and agent-based modelling simulations, and therefore, positions itself as a potential solution to problems of organised complexity in complex systems.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 変分量子アルゴリズムのための新しいノイズ対応古典的最適化法

A Novel Noise-Aware Classical Optimizer for Variational Quantum Algorithms ( http://arxiv.org/abs/2401.10121v2 )

ライセンス: Link先を確認
Jeffrey Larson, Matt Menickelly, Jiahao Shi, (参考訳) 変分量子アルゴリズム(VQA)の鍵となるコンポーネントは、アンザッツのパラメータ化を更新するために使用される古典的なオプティマイザの選択である。 量子アルゴリズムは、近い将来、常に限られた忠実度を持つノイズの多いデバイス上で実行されることがよく認識されている。 したがって、古典最適化器が必要とする目的関数(例えば、量子近似最適化アルゴリズム(QAOA)における誘導関数)の評価や、変分量子固有解法(VQE)における電子ハミルトニアンの期待)は、期待値の推定による確率誤差だけでなく、断続ハードウェアノイズによる誤差も対象とする。 モデルに基づく微分自由最適化法は、経験的研究に基づいて、ノイズの多いVQA設定における古典最適化の一般的な選択として登場した。 しかし,これらの最適化手法はノイズを考慮した設計には至らなかった。 本研究では,「ノイズ認識型数値最適化」の文献から,これらの微分自由モデルに基づく手法への最近の発展を適応する。 本稿では,これらを標準モデルベース手法から切り離す新しいノイズ対応微分モデルベース手法のキーとなる特徴について紹介する。 本稿では,このようなノイズ対応微分モデルに基づく手法の実装について検討し,実証的なVQAシミュレーションにおける性能を,古典的解法であるtexttt{scikit-quant} にパッケージ化したものと比較する。

A key component of variational quantum algorithms (VQAs) is the choice of classical optimizer employed to update the parameterization of an ansatz. It is well recognized that quantum algorithms will, for the foreseeable future, necessarily be run on noisy devices with limited fidelities. Thus, the evaluation of an objective function (e.g., the guiding function in the quantum approximate optimization algorithm (QAOA) or the expectation of the electronic Hamiltonian in variational quantum eigensolver (VQE)) required by a classical optimizer is subject not only to stochastic error from estimating an expected value but also to error resulting from intermittent hardware noise. Model-based derivative-free optimization methods have emerged as popular choices of a classical optimizer in the noisy VQA setting, based on empirical studies. However, these optimization methods were not explicitly designed with the consideration of noise. In this work we adapt recent developments from the ``noise-aware numerical optimization'' literature to these commonly used derivative-free model-based methods. We introduce the key defining characteristics of these novel noise-aware derivative-free model-based methods that separate them from standard model-based methods. We study an implementation of such noise-aware derivative-free model-based methods and compare its performance on demonstrative VQA simulations to classical solvers packaged in \texttt{scikit-quant}.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 強化学習を用いた量子スクイーズ状態の生成戦略

A Strategy for Preparing Quantum Squeezed States Using Reinforcement Learning ( http://arxiv.org/abs/2401.16320v4 )

ライセンス: Link先を確認
X. L. Zhao, Y. M. Zhao, M. Li, T. T. Li, Q. Liu, S. Guo, X. X. Yi, (参考訳) 非古典的状態を生成するために,強化学習を工学的制御分野に適用する手法を提案する。 線形制御場を動的に制御するように設計した開集合スピンモデルに対するスピンスクイーズ状態の準備を応用によって例示する。 本発明の強化学習剤は、散逸脱落を特徴とする環境において、コヒーレントスピン状態から生じる制御パルスの時間的シーケンスを決定する。 一定の制御シナリオと比較して、このアプローチは集合的なスピンスクイーズと絡み合いを維持する様々な制御シーケンスを提供する。 制御パルスの高密度適用により,結果の性能が向上することが観察された。 しかし、制御アクションを追加することでパフォーマンスが少し向上する。 提案手法は,大規模システムに対する有効性の向上を実証する。 貯水池の熱励起は制御結果に有害である。 他のものとの比較に基づいて、この制御提案を実装するための有望な実験が提案されている。 連続制御問題と他の量子系の拡張について論じる。 強化学習モジュールの置換性も強調されている。 この研究は、他の量子系を操作するための応用の道を開いた。

We propose a scheme leveraging reinforcement learning to engineer control fields for generating non-classical states. It is exemplified by the application to prepare spin-squeezed states for an open collective spin model where a linear control field is designed to govern the dynamics. The reinforcement learning agent determines the temporal sequence of control pulses, commencing from a coherent spin state in an environment characterized by dissipation and dephasing. Compared to the constant control scenario, this approach provides various control sequences maintaining collective spin squeezing and entanglement. It is observed that denser application of the control pulses enhances the performance of the outcomes. However, there is a minor enhancement in the performance by adding control actions. The proposed strategy demonstrates increased effectiveness for larger systems. Thermal excitations of the reservoir are detrimental to the control outcomes. Feasible experiments are suggested to implement this control proposal based on the comparison with the others. The extensions to continuous control problems and another quantum system are discussed. The replaceability of the reinforcement learning module is also emphasized. This research paves the way for its application in manipulating other quantum systems.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# テストデータジェネレータ生成のための生成AI

Generative AI to Generate Test Data Generators ( http://arxiv.org/abs/2401.17626v2 )

ライセンス: Link先を確認
Benoit Baudry, Khashayar Etemadi, Sen Fang, Yogya Gamage, Yi Liu, Yuxin Liu, Martin Monperrus, Javier Ron, André Silva, Deepika Tiwari, (参考訳) フェイクデータの生成は、データフェイクライブラリの数と重要性によって示されるように、現代のソフトウェアテストにおいて不可欠な次元である。 しかし、フェイキングライブラリの開発者は、異なる自然言語やドメインで生成される幅広いデータに追従できない。 本稿では、異なるドメインでテストデータを生成するための生成AIの能力を評価する。 大言語モデル(LLM)の3種類のプロンプトを設計し、異なるレベルの可積分性でテストデータ生成タスクを実行する。 1)生の試験データ生成 2 有用な試験データを生成する特定の言語によるプログラムの合成、及び 3)最先端の偽造者ライブラリを使用するプログラムを作成する。 我々はLSMに11ドメインのテストデータを生成するよう促すことでアプローチを評価した。 その結果, LLMは, 3段階の可積分性で, 広範囲の領域において, 現実的なテストデータ生成装置を生成できることが示唆された。

Generating fake data is an essential dimension of modern software testing, as demonstrated by the number and significance of data faking libraries. Yet, developers of faking libraries cannot keep up with the wide range of data to be generated for different natural languages and domains. In this paper, we assess the ability of generative AI for generating test data in different domains. We design three types of prompts for Large Language Models (LLMs), which perform test data generation tasks at different levels of integrability: 1) raw test data generation, 2) synthesizing programs in a specific language that generate useful test data, and 3) producing programs that use state-of-the-art faker libraries. We evaluate our approach by prompting LLMs to generate test data for 11 domains. The results show that LLMs can successfully generate realistic test data generators in a wide range of domains at all three levels of integrability.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# グラフ機械学習理論における今後の方向性

Future Directions in the Theory of Graph Machine Learning ( http://arxiv.org/abs/2402.02287v4 )

ライセンス: Link先を確認
Christopher Morris, Fabrizio Frasca, Nadav Dym, Haggai Maron, İsmail İlkan Ceylan, Ron Levie, Derek Lim, Michael Bronstein, Martin Grohe, Stefanie Jegelka, (参考訳) グラフ上の機械学習、特にグラフニューラルネットワーク(GNN)の使用は、生命から社会、エンジニアリング科学に至るまで、幅広い分野にわたるグラフデータの提供により、関心が高まっている。 その実用的成功にもかかわらず、GNNの特性に関する理論的理解は非常に不完全である。 近年の理論的進歩は主にGNNの粗粒度表現力の解明に焦点が当てられ、主に組合せ技術を用いている。 しかし、これらの研究は、特に確率的一階最適化手法で訓練された場合のGNNの一般化挙動の理解において、実践と完全に一致しない。 本稿では、グラフ機械学習コミュニティが、表現力、一般化、最適化の相互作用をより深く理解することに焦点を当て、グラフ機械学習のバランスのとれた理論の開発に注意を向ける必要があることを論じる。

Machine learning on graphs, especially using graph neural networks (GNNs), has seen a surge in interest due to the wide availability of graph data across a broad spectrum of disciplines, from life to social and engineering sciences. Despite their practical success, our theoretical understanding of the properties of GNNs remains highly incomplete. Recent theoretical advancements primarily focus on elucidating the coarse-grained expressive power of GNNs, predominantly employing combinatorial techniques. However, these studies do not perfectly align with practice, particularly in understanding the generalization behavior of GNNs when trained with stochastic first-order optimization techniques. In this position paper, we argue that the graph machine learning community needs to shift its attention to developing a balanced theory of graph machine learning, focusing on a more thorough understanding of the interplay of expressive power, generalization, and optimization.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 小さい次元における量子相関による1ビットの通信

Beating one bit of communication with quantum correlations in smaller dimensions ( http://arxiv.org/abs/2402.02723v2 )

ライセンス: Link先を確認
Peter Sidajaya, Valerio Scarani, (参考訳) ベルの定理の結果として、いくつかの絡み合った状態の測定統計は、局所的な隠れ変数だけではシミュレートできない。 供給しなければならない通信量は、非古典性の直感的な定量化である。 一般にこの量が非常に大きいことは明らかであるが、複数の通信を必要とする量子相関の単純な例を見つけることは驚くほど困難である。 本稿では,これまでで最も単純な例を報告する。これは(5,2,5,5)$ Bellのシナリオ(これまで知られている最小のケースは(7,3,16,16)$のシナリオ)である。 この証明は、最大1ビットスコアを見つけることは、2つのサブゲームの局所スコアの和が最大となる入力の分割を見つけることと等価である、という観察に基づいて構築される。

As a consequence of Bell's theorem, the statistics of measurements on some entangled states cannot be simulated with local hidden variables alone. The amount of communication that must be supplied is an intuitive quantifier of nonclassicality. While it is obvious that this amount can be very large in general, it has been surprisingly difficult to find simple examples of quantum correlations, whose simulation requires more than one bit of communication. In this paper, we report the simplest example to date, which lives in the $(5,2,5,5)$ Bell scenario [the previously known smallest case living in the $(7,3,16,16)$ scenario]. The proof is built on the observation that finding the largest 1-bit score is equivalent to finding the bipartition of the inputs, in which the sum of the local scores of the two subgames is maximal.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 分散学習におけるゆらぎ回避のためのグラディエント符号化

Gradient Coding in Decentralized Learning for Evading Stragglers ( http://arxiv.org/abs/2402.04193v3 )

ライセンス: Link先を確認
Chengxi Li, Mikael Skoglund, (参考訳) 本稿では,トラグラーの存在下での分散学習問題について考察する。 分散学習のための勾配符号化技術は、冗長なトレーニングデータでエンコードされた勾配を送信するストラグラーを回避するために開発されているが、これらの手法を分散学習シナリオに直接適用することは困難である。 この問題に対処するために,勾配符号化(GOCO)を用いた新しいゴシップ型分散学習手法を提案する。 提案手法では, ストラグラーの負の影響を避けるために, 確率勾配符号化の枠組みに基づくエンコード勾配を用いてパラメータベクトルを局所的に更新し, ゴシップ方式で平均化する。 強い凸損失関数に対するGOCOの収束性能を解析する。 また,提案手法がベースライン法と比較して学習性能に優れていることを示すため,シミュレーション結果も提供する。

In this paper, we consider a decentralized learning problem in the presence of stragglers. Although gradient coding techniques have been developed for distributed learning to evade stragglers, where the devices send encoded gradients with redundant training data, it is difficult to apply those techniques directly to decentralized learning scenarios. To deal with this problem, we propose a new gossip-based decentralized learning method with gradient coding (GOCO). In the proposed method, to avoid the negative impact of stragglers, the parameter vectors are updated locally using encoded gradients based on the framework of stochastic gradient coding and then averaged in a gossip-based manner. We analyze the convergence performance of GOCO for strongly convex loss functions. And we also provide simulation results to demonstrate the superiority of the proposed method in terms of learning performance compared with the baseline methods.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 2+1D$ SU(2)ゲージ理論のためのせん断粘度の古典的および量子計算

Classical and Quantum Computing of Shear Viscosity for $2+1D$ SU(2) Gauge Theory ( http://arxiv.org/abs/2402.04221v3 )

ライセンス: Link先を確認
Francesco Turro, Anthony Ciavarella, Xiaojun Yao, (参考訳) 格子ハミルトンの定式化を用いて、$(2+1)$-dimensional SU(2)ゲージ理論のせん断粘度の非摂動計算を行う。 応力エネルギーテンソルの遅延グリーン関数は、格子ハミルトニアンと局所ヒルベルト空間切り離しの正確な対角化によってリアルタイムに計算され、このせん断粘度は久保式によって得られる。 連続極限を取るとき、結合の正規化群フローは考慮するが、余分な演算子再正規化は考慮しない。 せん断粘度とエントロピー密度$\frac{\eta}{s}$の比は、よく知られたホログラフィック結果$\frac{1}{4\pi}$の温度で、j_{\rm max}=\frac{1}{2}$の局所電気表現を持つ4\times4$ハニコーム格子上の数温度で一致する。 またスペクトル関数の比と周波数$\frac{\rho^{xy}(\omega)}{\omega}$は周波数が小さいときにピーク構造を示す。 大きな格子上のj_{\rm max}=\frac{1}{2}$を超える正確な対角化法と単純な行列積の古典的シミュレーション法は、指数関数的に成長する資源を必要とする。 そこで我々は, 遅延グリーン関数を計算し, j_{\rm max}$ truncation, 有限サイズ効果, トロッター誤差, 温度状態生成効率などの計算体系を解析する量子計算法を開発した。 我々の熱的状態調製法は, 格子径で指数関数的に成長する資源を必要とするが, 高温では極めて小さなプレファクタを必要とする。 我々はQuantinuumエミュレータとIBMシミュレータの両方で、小さな格子に対して量子回路を試験し、古典計算と整合した結果を得る。

We perform a nonperturbative calculation of the shear viscosity for $(2+1)$-dimensional SU(2) gauge theory by using the lattice Hamiltonian formulation. The retarded Green's function of the stress-energy tensor is calculated from real time evolution via exact diagonalization of the lattice Hamiltonian with a local Hilbert space truncation, and the shear viscosity is obtained via the Kubo formula. When taking the continuum limit, we account for the renormalization group flow of the coupling but no additional operator renormalization. We find the ratio of the shear viscosity and the entropy density $\frac{\eta}{s}$ is consistent with a well-known holographic result $\frac{1}{4\pi}$ at several temperatures on a $4\times4$ honeycomb lattice with the local electric representation truncated at $j_{\rm max}=\frac{1}{2}$. We also find the ratio of the spectral function and frequency $\frac{\rho^{xy}(\omega)}{\omega}$ exhibits a peak structure when the frequency is small. Both the exact diagonalization method and simple matrix product state classical simulation method beyond $j_{\rm max}=\frac{1}{2}$ on bigger lattices require exponentially growing resources. So we develop a quantum computing method to calculate the retarded Green's function and analyze various systematics of the calculation including $j_{\rm max}$ truncation and finite size effects, Trotter errors and the thermal state preparation efficiency. Our thermal state preparation method still requires resources that grow exponentially with the lattice size, but with a very small prefactor at high temperature. We test our quantum circuit on both the Quantinuum emulator and the IBM simulator for a small lattice and obtain results consistent with the classical computing ones.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 細調整CLIPの開語彙校正

Open-Vocabulary Calibration for Fine-tuned CLIP ( http://arxiv.org/abs/2402.04655v4 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei, (参考訳) 視覚言語モデル(VLM)は、画像認識、テキスト駆動型ビジュアルコンテンツ生成、ビジュアルチャットボットなどにおける様々なオープン語彙タスクを扱う強力な能力を示している。 近年、VLMの下流性能を改善するための適応法、特に素早い学習のようなパラメータ効率の高い微調整法に多大な努力とリソースが注がれている。 しかし、主に見過ごされてきた重要な側面は、細調整されたVLMにおける信頼性校正の問題であり、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。 本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することによりギャップを埋めるとともに,既存の校正手法が,特にオープン語彙設定において,この問題に対処するには不十分であることを明らかにする。 そこで本研究では,予測テキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づくDAC(Distance-Aware Calibration)を提案する。 11の下流データセットに対して適用された7つの異なる素早い学習手法による実験は、推論速度を犠牲にすることなく高い有効性を達成するDACの有効性を示す。 私たちのコードはhttps://github.com/ml-stat-Sustech/CLIP_Calibration.comで公開されています。

Vision-language models (VLMs) have emerged as formidable tools, showing their strong capability in handling various open-vocabulary tasks in image recognition, text-driven visual content generation, and visual chatbots, to name a few. In recent years, considerable efforts and resources have been devoted to adaptation methods for improving downstream performance of VLMs, particularly on parameter-efficient fine-tuning methods like prompt learning. However, a crucial aspect that has been largely overlooked is the confidence calibration problem in fine-tuned VLMs, which could greatly reduce reliability when deploying such models in the real world. This paper bridges the gap by systematically investigating the confidence calibration problem in the context of prompt learning and reveals that existing calibration methods are insufficient to address the problem, especially in the open-vocabulary setting. To solve the problem, we present a simple and effective approach called Distance-Aware Calibration (DAC), which is based on scaling the temperature using as guidance the distance between predicted text labels and base classes. The experiments with 7 distinct prompt learning methods applied across 11 diverse downstream datasets demonstrate the effectiveness of DAC, which achieves high efficacy without sacrificing the inference speed. Our code is available at https://github.com/ml-stat-Sustech/CLIP_Calibration.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 視覚・言語モデルの校正に関する実証的研究

An Empirical Study Into What Matters for Calibrating Vision-Language Models ( http://arxiv.org/abs/2402.07417v2 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Dylan Campbell, Stephen Gould, Tom Gedeon, (参考訳) VLM(Vision-Language Models)は、ゼロショット認識における主要なアプローチとして登場し、多様なシナリオや大きな分布変化を扱うことに長けている。 しかし、リスクに敏感な分野への展開には、その不確実性推定能力、比較的未知の領域を深く理解する必要がある。 本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にまたがるVLMの校正特性について検討する。 特に,ある領域,ラベルセット,階層レベルで校正された場合のVLMの不確実性推定性能を分析し,異なる領域で検証した。 以上の結果から, VLMは本質的に不確実性に対して校正されていないが, 温度スケーリングは分布の変化やラベルセットの変化によらず, キャリブレーションを著しく改善することがわかった。 さらに、VLMはごく小さな例で校正することができる。 より詳細な実験を通じて、我々は我々の洞察の潜在的な応用と重要性を強調し、批判的で現実的なシナリオにおいてより信頼性が高く効果的なVLMの利用を目指しています。

Vision-Language Models (VLMs) have emerged as the dominant approach for zero-shot recognition, adept at handling diverse scenarios and significant distribution changes. However, their deployment in risk-sensitive areas requires a deeper understanding of their uncertainty estimation capabilities, a relatively uncharted area. In this study, we explore the calibration properties of VLMs across different architectures, datasets, and training strategies. In particular, we analyze the uncertainty estimation performance of VLMs when calibrated in one domain, label set or hierarchy level, and tested in a different one. Our findings reveal that while VLMs are not inherently calibrated for uncertainty, temperature scaling significantly and consistently improves calibration, even across shifts in distribution and changes in label set. Moreover, VLMs can be calibrated with a very small set of examples. Through detailed experimentation, we highlight the potential applications and importance of our insights, aiming for more reliable and effective use of VLMs in critical, real-world scenarios.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 品質は重要だ: Web による並列コーパスの品質と実用性

Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora ( http://arxiv.org/abs/2402.07446v3 )

ライセンス: Link先を確認
Surangika Ranathunga, Nisansa de Silva, Menan Velayuthan, Aloka Fernando, Charitha Rathnayake, (参考訳) 低リソース言語2言語(英語・シナハラ語・英語・タミル語・シンハラ・タミル語)のウェブマイニングコーパスの品質について詳細な分析を行った。 我々は,各コーパスを類似度尺度で分類し,各コーパスの異なる部分について内在的,外因的評価を行った。 ウェブマイニングコーパスの異なる部分で品質が著しく異なり、言語やデータセットによって品質が変化することを示す。 また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。

We conducted a detailed analysis on the quality of web-mined corpora for two low-resource languages (making three language pairs, English-Sinhala, English-Tamil and Sinhala-Tamil). We ranked each corpus according to a similarity measure and carried out an intrinsic and extrinsic evaluation on different portions of this ranked corpus. We show that there are significant quality differences between different portions of web-mined corpora and that the quality varies across languages and datasets. We also show that, for some web-mined datasets, Neural Machine Translation (NMT) models trained with their highest-ranked 25k portion can be on par with human-curated datasets.
翻訳日:2024-06-17 19:14:16 公開日:2024-06-14
# 分布値をもつ確率モデルについて

Explaining Probabilistic Models with Distributional Values ( http://arxiv.org/abs/2402.09947v2 )

ライセンス: Link先を確認
Luca Franceschi, Michele Donini, Cédric Archambeau, Matthias Seeger, (参考訳) 説明可能な機械学習の大きな分野は、協調ゲーム理論に基礎を置いている。 しかし、ゲーム理論的な説明は誤解を招いたり、解釈が困難であったりする可能性がある。 しばしば、説明したいもの(例えば、分類器の出力)と、SHAPのような現在のメソッド(例えば、クラスのスカラー確率)の間には、批判的なミスマッチがある。 本稿では、協調ゲームや値演算子を一般化することで確率モデルに対するそのようなギャップを解消する。 モデル出力の変化(例えば予測クラスのフリップ)を追跡する分布値、ランダム変数を導入し、ガウス、ベルヌーイ、カテゴリー的なペイオフを持つゲームに対する解析式を導出する。 さらに,本フレームワークは,視覚と言語モデルに関するケーススタディで,きめ細やかで洞察に富んだ説明を提供することを示す。

A large branch of explainable machine learning is grounded in cooperative game theory. However, research indicates that game-theoretic explanations may mislead or be hard to interpret. We argue that often there is a critical mismatch between what one wishes to explain (e.g. the output of a classifier) and what current methods such as SHAP explain (e.g. the scalar probability of a class). This paper addresses such gap for probabilistic models by generalising cooperative games and value operators. We introduce the distributional values, random variables that track changes in the model output (e.g. flipping of the predicted class) and derive their analytic expressions for games with Gaussian, Bernoulli and Categorical payoffs. We further establish several characterising properties, and show that our framework provides fine-grained and insightful explanations with case studies on vision and language models.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# スケーラブルな後方サンプリング - HyperAgentによるブリッジ理論と実践

Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent ( http://arxiv.org/abs/2402.10228v5 )

ライセンス: Link先を確認
Yingru Li, Jiawei Xu, Lei Han, Zhi-Quan Luo, (参考訳) 本稿では、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムであるHyperAgentを提案する。 HyperAgentは、最適な作用値関数(Q^\star$)に付随する後方の効率的な漸進近似を、共役を必要とせず実現し、これらの近似された後続サンプルの欲求ポリシーに従うことができる。 我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。 問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。 HyperAgentを実装するには、DQNのような確立されたディープRLフレームワークに最小限のコードを追加する必要がある。 理論的には、表付き仮定の下では、HyperAgentは、最もよく知られた乱数化された表付きRLアルゴリズムと一致し、サブ線形後悔を達成しながら、ステップごとの対数計算の複雑さを達成できる。

We propose HyperAgent, a reinforcement learning (RL) algorithm based on the hypermodel framework for exploration in RL. HyperAgent allows for the efficient incremental approximation of posteriors associated with an optimal action-value function ($Q^\star$) without the need for conjugacy and follows the greedy policies w.r.t. these approximate posterior samples. We demonstrate that HyperAgent offers robust performance in large-scale deep RL benchmarks. It can solve Deep Sea hard exploration problems with episodes that optimally scale with problem size and exhibits significant efficiency gains in the Atari suite. Implementing HyperAgent requires minimal code addition to well-established deep RL frameworks like DQN. We theoretically prove that, under tabular assumptions, HyperAgent achieves logarithmic per-step computational complexity while attaining sublinear regret, matching the best known randomized tabular RL algorithm.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# WSe$_2$における単一光子放射体:励起スキームと不明瞭性におけるフォノンの臨界的役割

Single-photon emitters in WSe$_2$: Critical role of phonons on excitation schemes and indistinguishability ( http://arxiv.org/abs/2402.10897v3 )

ライセンス: Link先を確認
Luca Vannucci, José Ferreira Neto, Claudia Piccinini, Athanasios Paralikis, Niels Gregersen, Battulga Munkhbat, (参考訳) 光量子情報処理において、半導体材料中の2レベルシステムに基づく単一光子源は、単一光子のオンデマンド生成を可能にする。 自然放出プロセスを開始するには, 励起状態を効率よく凝集させる必要がある。 しかし, 固体環境における電荷ノイズとフォノン誘起脱コヒーレンスの存在により, 高効率・高光子不明瞭性の両方でオンデマンド励起の要求を整合させることは依然として困難である。 本稿では,WSe$_{2}$量子エミッタが放出過程で経験したフォノンスペクトル密度を再構成する手法を提案する。 再構成されたフォノンスペクトル密度を用いて, 量子EmitteR群(SUPER)の共振器, フォノンアシスト, およびSwing-UPの性能を解析した。 共振励起下では、強いフォノンカップリングにより$\sim$0.80に制限された励起子生成フィデリティが得られ、SUPERスキームでは0.96に向上する(または、考慮されるエミッタの種類によって0.89に改善される)。 近共振フォノンアシスト励起では, 0.976 (0.997) の準均一励起忠実度が観測される。 さらに, フォノン側バンドの抑制を仮定すると, 電荷/スピン変動などの残留劣化機構が光子の不明瞭性を損なう支配的脱コヒーレンス機構であることを示す。

Within optical quantum information processing, single-photon sources based on a two-level system in a semiconductor material allow for on-demand generation of single photons. To initiate the spontaneous emission process, it is necessary to efficiently populate the excited state. However, reconciling the requirement for on-demand excitation with both high efficiency and high photon indistinguishability remains a challenge due to the presence of charge noise and phonon-induced decoherence in the solid-state environment. Here, we propose a method for reconstructing the phonon spectral density experienced by WSe$_{2}$ quantum emitters in the emission process. Using the reconstructed phonon spectral density, we analyze the performance of the resonant, phonon-assisted, and Swing-UP of the quantum EmitteR population (SUPER) swing-up excitation schemes. Under resonant excitation, we obtain an exciton preparation fidelity limited to $\sim$0.80 by the strong phonon coupling, which improves to 0.96 for the SUPER scheme (or 0.89, depending on the type of emitter considered). Under near-resonant phonon-assisted excitation, we observe near-unity excitation fidelity up to 0.976 (0.997). Additionally, we demonstrate that, assuming the suppression of the phonon sidebands, residual dephasing mechanisms such as charge/spin fluctuations are the dominating decoherence mechanisms undermining the photon indistinguishability.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# FinTral: GPT-4レベルのマルチモーダル金融大規模言語モデルの一家系

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models ( http://arxiv.org/abs/2402.10986v3 )

ライセンス: Link先を確認
Gagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed, (参考訳) 我々は、Mistral-7bモデル上に構築され、財務分析に適した、最先端のマルチモーダル言語モデル(LLM)スイートであるFinTralを紹介する。 FinTralはテキスト、数値、表、画像データを統合する。 我々はFinTralをドメイン固有の事前トレーニング、命令の微調整、RLAIFトレーニングで強化し、本研究のためにキュレートしたテキストおよびビジュアルデータセットの大規模なコレクションを活用する。 また、金融分野における幻覚を含む9つのタスクと25のデータセットを含む広範なベンチマークも導入した。 我々のFinTralモデルは、FinTral-DPO-T&Rと呼ばれる高度なツールと検索手法を用いて直接選好最適化を訓練し、例外的なゼロショット性能を示す。 全タスクでChatGPT-3.5を上回っ、9タスク中5タスクでGPT-4を上回っており、AI主導の金融技術の大幅な進歩を示している。 また、FinTralは、さまざまな財務状況におけるリアルタイム分析と意思決定に優れる可能性を実証した。 FinTralのGitHubリポジトリは、 \url{https://github.com/UBC-NLP/fintral}で公開されている。

We introduce FinTral, a suite of state-of-the-art multimodal large language models (LLMs) built upon the Mistral-7b model and tailored for financial analysis. FinTral integrates textual, numerical, tabular, and image data. We enhance FinTral with domain-specific pretraining, instruction fine-tuning, and RLAIF training by exploiting a large collection of textual and visual datasets we curate for this work. We also introduce an extensive benchmark featuring nine tasks and 25 datasets for evaluation, including hallucinations in the financial domain. Our FinTral model trained with direct preference optimization employing advanced Tools and Retrieval methods, dubbed FinTral-DPO-T&R, demonstrates an exceptional zero-shot performance. It outperforms ChatGPT-3.5 in all tasks and surpasses GPT-4 in five out of nine tasks, marking a significant advancement in AI-driven financial technology. We also demonstrate that FinTral has the potential to excel in real-time analysis and decision-making in diverse financial contexts. The GitHub repository for FinTral is available at \url{https://github.com/UBC-NLP/fintral}.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# 微分動的論理による潜在的に安全なニューラルネットワーク制御

Provably Safe Neural Network Controllers via Differential Dynamic Logic ( http://arxiv.org/abs/2402.10998v2 )

ライセンス: Link先を確認
Samuel Teuber, Stefan Mitsch, André Platzer, (参考訳) ニューラルネットワーク(NN)はサイバー物理システムのための自律的なコントローラとしての可能性を持っているが、NNベースの制御システム(NNCS)の安全性を検証することは、NNの実用化に重大な課題をもたらす。 理由の1つは、NN、ODE、ハイブリッドシステムを分析することの難しさである。 この目的のために、我々は VerSAILLE (Verifiably Safe AI via Logically Linked Envelopes): NNCS検証のための制御理論結果の再利用を可能にする最初の一般的なアプローチを紹介する。 結合力により,差動動的論理(dL)の厳密さを維持しつつ,NN検証ツールの効率性を利用する。 dLの安全な制御エンベロープに基づいて、NN検証によって証明されたNNの仕様を導出する。 本稿では,NNCS の無限時間安全に関する dL 証明によって,仕様に忠実な NNCS の証明が反映されていることを示す。 ハイブリッドシステムから得られるNN検証特性は、通常非線形算術と任意の論理構造を含むが、効率的なNN検証は線形制約のみをサポートする。 この分割を克服するために、モーザイクについて述べる: ピースワイド線形NN上での多項式実数性に対する効率的で健全で完全な検証手法。 モザイクは複雑な検証クエリを単純なクエリに分割し、逆例領域の正確な推論と近似を組み合わせることで、既成の線形制約ツールを完全性保存的な方法で非線形設定に引き上げる。 VerSAILLE と Mosaic の汎用性は以下の通りである: 古典的垂直空中衝突回避 NNCS 検証ベンチマークにおいて、安全でないシナリオで反例領域を列挙しながら、2つのシナリオに対して無限の安全性を証明します。 また,本手法はクローズドループNNVのState-of-the-Artツールよりも優れていることを示す。

While neural networks (NNs) have potential as autonomous controllers for Cyber-Physical Systems, verifying the safety of NN based control systems (NNCSs) poses significant challenges for the practical use of NNs, especially when safety is needed for unbounded time horizons. One reason is the intractability of analyzing NNs, ODEs and hybrid systems. To this end, we introduce VerSAILLE (Verifiably Safe AI via Logically Linked Envelopes): The first general approach that allows reusing control theory results for NNCS verification. By joining forces, we exploit the efficiency of NN verification tools while retaining the rigor of differential dynamic logic (dL). Based on provably safe control envelopes in dL, we derive specifications for the NN which is proven via NN verification. We show that a proof of the NN adhering to the specification is mirrored by a dL proof on the infinite-time safety of the NNCS. The NN verification properties resulting from hybrid systems typically contain nonlinear arithmetic and arbitrary logical structures while efficient NN verification merely supports linear constraints. To overcome this divide, we present Mosaic: An efficient, sound and complete verification approach for polynomial real arithmetic properties on piece-wise linear NNs. Mosaic partitions complex verification queries into simple queries and lifts off-the-shelf linear constraint tools to the nonlinear setting in a completeness-preserving manner by combining approximation with exact reasoning for counterexample regions. Our evaluation demonstrates the versatility of VerSAILLE and Mosaic: We prove infinite-time safety on the classical Vertical Airborne Collision Avoidance NNCS verification benchmark for two scenarios while (exhaustively) enumerating counterexample regions in unsafe scenarios. We also show that our approach significantly outperforms State-of-the-Art tools in closed-loop NNV.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# 重み付きセマンティックセマンティックセグメンテーションのための逐次アグリゲーションを用いたデコード方式

A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation ( http://arxiv.org/abs/2402.11201v2 )

ライセンス: Link先を確認
Jiwon Yoo, Jangwon Lee, Gyeonghwan Kim, (参考訳) 階層型視覚変換器を含むマルチスケールアーキテクチャは、性能損失を最小限に抑えた計算複雑性を扱うために、高分解能なセマンティックセマンティックセグメンテーションに一般的に応用されている。 本稿では,マルチスケールアーキテクチャを用いたエンコーダのマルチレベル特徴を取り入れた,セマンティックセマンティックセマンティクスのための新しいデコード方式を提案する。 マルチレベル視覚変換器に基づく復号方式は, 計算コストの削減だけでなく, セグメント化精度の向上を目的とし, 多レベル特徴の集約に連続的な相互アテンションを導入する。 さらに,集合的セマンティクスによるマルチレベル特徴の強化手法を提案する。 この取り組みは、注意割当の観点からコンテキスト整合性を維持することに重点を置いており、計算コストを大幅に削減してパフォーマンスを向上させる。 一般的なデータセットに対する実験のセットは、精度を損なうことなく計算コストの観点から、最先端のセマンティックセグメンテーションモデルに対する提案手法の優位性を証明し、広範囲にわたるアブレーション研究は提案されたアイデアの有効性を証明している。

Multi-scale architecture, including hierarchical vision transformer, has been commonly applied to high-resolution semantic segmentation to deal with computational complexity with minimum performance loss. In this paper, we propose a novel decoding scheme for semantic segmentation in this regard, which takes multi-level features from the encoder with multi-scale architecture. The decoding scheme based on a multi-level vision transformer aims to achieve not only reduced computational expense but also higher segmentation accuracy, by introducing successive cross-attention in aggregation of the multi-level features. Furthermore, a way to enhance the multi-level features by the aggregated semantics is proposed. The effort is focused on maintaining the contextual consistency from the perspective of attention allocation and brings improved performance with significantly lower computational cost. Set of experiments on popular datasets demonstrates superiority of the proposed scheme to the state-of-the-art semantic segmentation models in terms of computational cost without loss of accuracy, and extensive ablation studies prove the effectiveness of ideas proposed.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# UnlearnCanvas: 拡散モデルにおける機械学習評価強化のためのスティル化イメージデータセット

UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models ( http://arxiv.org/abs/2402.11846v3 )

ライセンス: Link先を確認
Yihua Zhang, Chongyu Fan, Yimeng Zhang, Yuguang Yao, Jinghan Jia, Jiancheng Liu, Gaoyuan Zhang, Gaowen Liu, Ramana Rao Kompella, Xiaoming Liu, Sijia Liu, (参考訳) 拡散モデル(DM)の技術進歩は、テキスト・画像生成において前例のない能力を示し、多様な用途で広く利用されている。 しかし、有害なコンテンツの生成や著作権紛争など、社会的な懸念も持ち上がっている。 マシン・アンラーニング(MU)は、DMから望ましくない生成能力を除去できる有望なソリューションとして登場した。 しかし、既存のMU評価システムは、不完全かつ不正確な評価をもたらす可能性のあるいくつかの重要な課題を提示する。 これらの課題に対処するために,芸術的スタイルと関連するオブジェクトの未学習を容易化するための,総合的な高解像度スタイリング画像データセットUnlearnCanvasを提案する。 このデータセットは、DMの未学習のパフォーマンスのさまざまな側面を評価する7つの定量的メトリクスを備えた、標準化された自動評価フレームワークの確立を可能にする。 大規模な実験を通じて、DMの9つの最先端MU手法をベンチマークし、その強度、弱点、基盤となるメカニズムに関する新たな知見を明らかにした。 さらに、DMが敵のプロンプトに対して最悪の場合のパフォーマンスを評価するための未学習シナリオの挑戦、より微細な概念の未学習、シーケンシャルアンラーニングについて検討する。 この研究は、より効果的で正確で堅牢なDMアンラーニング手法を開発し、将来DMのより安全で倫理的な応用を確実にする道を開くことを願っている。 データセット、ベンチマーク、コードはhttps://unlearn-canvas.netlify.app/.comで公開されている。

The technological advancements in diffusion models (DMs) have demonstrated unprecedented capabilities in text-to-image generation and are widely used in diverse applications. However, they have also raised significant societal concerns, such as the generation of harmful content and copyright disputes. Machine unlearning (MU) has emerged as a promising solution, capable of removing undesired generative capabilities from DMs. However, existing MU evaluation systems present several key challenges that can result in incomplete and inaccurate assessments. To address these issues, we propose UnlearnCanvas, a comprehensive high-resolution stylized image dataset that facilitates the evaluation of the unlearning of artistic styles and associated objects. This dataset enables the establishment of a standardized, automated evaluation framework with 7 quantitative metrics assessing various aspects of the unlearning performance for DMs. Through extensive experiments, we benchmark 9 state-of-the-art MU methods for DMs, revealing novel insights into their strengths, weaknesses, and underlying mechanisms. Additionally, we explore challenging unlearning scenarios for DMs to evaluate worst-case performance against adversarial prompts, the unlearning of finer-scale concepts, and sequential unlearning. We hope that this study can pave the way for developing more effective, accurate, and robust DM unlearning methods, ensuring safer and more ethical applications of DMs in the future. The dataset, benchmark, and codes are publicly available at https://unlearn-canvas.netlify.app/.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# Any2Graph: 最適なトランスポート損失を伴う、エンドツーエンドのグラフ予測

Any2Graph: Deep End-To-End Supervised Graph Prediction With An Optimal Transport Loss ( http://arxiv.org/abs/2402.12269v3 )

ライセンス: Link先を確認
Paul Krzakala, Junjie Yang, Rémi Flamary, Florence d'Alché-Buc, Charlotte Laclau, Matthieu Labeau, (参考訳) 本稿では,SGP(End-to-end Supervised Graph Prediction)のための汎用フレームワークであるAny2graphを提案する。 このフレームワークは、すべての必要な特性(置換不変性、微分可能性、拡張性)を示し、任意のサイズのグラフを扱うように設計された、新しい最適輸送損失である、部分的マスド・グロモフ=ワッサーシュタインの上に構築されている。 数値実験では、新しい挑戦的な合成データセットや、衛星画像からのマップ構築(Sat2Graph)や指紋からの分子予測(Fingerprint2Graph)など、さまざまな現実世界のタスクにおいて、既存の競合他社より優れているアプローチが示されている。

We propose Any2graph, a generic framework for end-to-end Supervised Graph Prediction (SGP) i.e. a deep learning model that predicts an entire graph for any kind of input. The framework is built on a novel Optimal Transport loss, the Partially-Masked Fused Gromov-Wasserstein, that exhibits all necessary properties (permutation invariance, differentiability and scalability) and is designed to handle any-sized graphs. Numerical experiments showcase the versatility of the approach that outperform existing competitors on a novel challenging synthetic dataset and a variety of real-world tasks such as map construction from satellite image (Sat2Graph) or molecule prediction from fingerprint (Fingerprint2Graph).
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# MORE:Multi-modal Retrieval Augmented Generative Commonsense Reasoning

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning ( http://arxiv.org/abs/2402.13625v2 )

ライセンス: Link先を確認
Wanqing Cui, Keping Bi, Jiafeng Guo, Xueqi Cheng, (参考訳) コモンセンス情報は、その存在よりもはるかに少ない頻度で記録されているため、テキスト生成によって事前訓練された言語モデルは、十分なコモンセンス知識を習得することが困難である。 いくつかの研究は、テキスト検索を利用してモデルのコモンセンス能力を増強してきた。 テキストとは異なり、画像は本来は常識的な情報をキャプチャするが、それらを効果的に活用するための努力はほとんど支払われていない。 本研究では,テキストと画像の両方を活用し,言語モデルのコモンセンス能力を向上する,新しいMORE(Multi-mOdal Retrieval)拡張フレームワークを提案する。 Common-Genタスクに関する大規模な実験は、シングルモードと複数モードの事前学習モデルに基づくMOREの有効性を実証した。

Since commonsense information has been recorded significantly less frequently than its existence, language models pre-trained by text generation have difficulty to learn sufficient commonsense knowledge. Several studies have leveraged text retrieval to augment the models' commonsense ability. Unlike text, images capture commonsense information inherently but little effort has been paid to effectively utilize them. In this work, we propose a novel Multi-mOdal REtrieval (MORE) augmentation framework, to leverage both text and images to enhance the commonsense ability of language models. Extensive experiments on the Common-Gen task have demonstrated the efficacy of MORE based on the pre-trained models of both single and multiple modalities.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# ニューラルネットワークと摩擦:スライド,ホールド,学習

Neural Networks and Friction: Slide, Hold, Learn ( http://arxiv.org/abs/2402.14148v4 )

ライセンス: Link先を確認
Joaquin Garcia-Suarez, (参考訳) 本研究では,RNN(Recurrent Neural Networks),特にGRU(Gated Recurrent Unit)アーキテクチャを利用した場合,合成データからレート・アンド・ステート摩擦法則の複雑な力学を学習できることを実証した。 ネットワークのトレーニングに使用されるデータは、従来の速度と状態の摩擦方程式を、状態進化の老化則と組み合わせることで生成される。 我々のアプローチの新たな側面は、自動微分による直接効果を明示的に説明する損失関数の定式化である。 その結果、RNNはGRUアーキテクチャを用いて、速度ジャンプによる摩擦係数の変化を効果的に予測し、摩擦過程の物理を理解・シミュレートする機械学習モデルの可能性を示した。

In this study, it is demonstrated that Recurrent Neural Networks (RNNs), specifically those utilizing Gated Recurrent Unit (GRU) architecture, possess the capability to learn the complex dynamics of rate-and-state friction laws from synthetic data. The data employed for training the network is generated through the application of traditional rate-and-state friction equations coupled with the aging law for state evolution. A novel aspect of our approach is the formulation of a loss function that explicitly accounts for the direct effect by means of automatic differentiation. It is found that the RNN, with its GRU architecture, effectively learns to predict changes in the friction coefficient resulting from velocity jumps (with and without noise in the target data), thereby showcasing the potential of machine learning models in understanding and simulating the physics of frictional processes.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# マルチモーダルな大言語モデルに基づくロバスト教育に向けて

Towards Robust Instruction Tuning on Multimodal Large Language Models ( http://arxiv.org/abs/2402.14492v2 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Soujanya Poria, (参考訳) マルチタスク命令追従データ上でのLLM(Fun-tuning large language model)は、新しいタスクにおけるゼロショット機能を改善するための強力な学習パラダイムであることが証明されている。 高品質な命令追従データ生成と選択に関する最近の研究は、与えられたタスクに対するモデル理解可能な命令を判断し、LLM生成データを慎重にフィルタリングするために、人間の労力を必要とする。 本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。 基本的で簡単なメタ命令から始まるが、命令追跡データセットを30倍拡張することができる。 MultiINSTRUCTとInstructBLIPの2つの人気のあるマルチモーダル命令フォローベンチマークの結果から、INSTRAUGは12のマルチモーダルタスクにわたるマルチモーダル言語モデル(MLLM)のアライメントを大幅に改善できることが示された。

Fine-tuning large language models (LLMs) on multi-task instruction-following data has been proven to be a powerful learning paradigm for improving their zero-shot capabilities on new tasks. Recent works about high-quality instruction-following data generation and selection require amounts of human labor to conceive model-understandable instructions for the given tasks and carefully filter the LLM-generated data. In this work, we introduce an automatic instruction augmentation method named INSTRAUG in multimodal tasks. It starts from a handful of basic and straightforward meta instructions but can expand an instruction-following dataset by 30 times. Results on two popular multimodal instructionfollowing benchmarks MULTIINSTRUCT and InstructBLIP show that INSTRAUG can significantly improve the alignment of multimodal large language models (MLLMs) across 12 multimodal tasks, which is even equivalent to the benefits of scaling up training data multiple times.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# ストーリーテリングによる複雑な法的概念学習のための大規模言語モデルの導入

Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling ( http://arxiv.org/abs/2402.17019v3 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Robert Mahari, Daniel Kessler, Eric Ma, Tal August, Irene Li, Alex 'Sandy' Pentland, Yoon Kim, Jad Kabbara, Deb Roy, (参考訳) 非専門家に法的知識を提供することは、一般の法的リテラシーを高め、民主主義への市民の参加を促進するために不可欠である。 しかし、法的背景のない人々にとって、法的文書は理解が難しいことが多い。 本稿では,非専門家が複雑で抽象的な概念を伝達する効果的な教育ツールであるストーリテリングを通じて複雑な法的概念を学習するのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。 294の複雑な法的教義からなり、それぞれに物語とLLMが生成する複数選択の質問が伴う。 このデータセットを構築するために、我々は様々なLCMを用いて、これらの概念を説明する法的な物語を生成する実験を行った。 さらに,複数選択質問を反復的に設計するために,エキスパート・イン・ザ・ループアプローチを用いる。 そこで本研究では, ランダム化制御試験(RCT)によるLLMによるストーリーテリングの有効性を評価する。 LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。 さらに、物語は、参加者が法的概念を自分の生活に関連付けるのに役立つ。 最後に、ストーリーを用いた学習は、フォローアップアセスメントにおいて、非ネイティブ話者の保持率が高いことが判明した。 我々の研究は、法学以外の分野での教育と学習の促進にLLMを使うことに強い意味を持っている。

Making legal knowledge accessible to non-experts is crucial for enhancing general legal literacy and encouraging civic participation in democracy. However, legal documents are often challenging to understand for people without legal backgrounds. In this paper, we present a novel application of large language models (LLMs) in legal education to help non-experts learn intricate legal concepts through storytelling, an effective pedagogical tool in conveying complex and abstract concepts. We also introduce a new dataset LegalStories, which consists of 294 complex legal doctrines, each accompanied by a story and a set of multiple-choice questions generated by LLMs. To construct the dataset, we experiment with various LLMs to generate legal stories explaining these concepts. Furthermore, we use an expert-in-the-loop approach to iteratively design multiple-choice questions. Then, we evaluate the effectiveness of storytelling with LLMs through randomized controlled trials (RCTs) with legal novices on 10 samples from the dataset. We find that LLM-generated stories enhance comprehension of legal concepts and interest in law among non-native speakers compared to only definitions. Moreover, stories consistently help participants relate legal concepts to their lives. Finally, we find that learning with stories shows a higher retention rate for non-native speakers in the follow-up assessment. Our work has strong implications for using LLMs in promoting teaching and learning in the legal field and beyond.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# 生成モデルのエントロピーに基づく新規性の解釈可能な評価

An Interpretable Evaluation of Entropy-based Novelty of Generative Models ( http://arxiv.org/abs/2402.17287v2 )

ライセンス: Link先を確認
Jingwei Zhang, Cheuk Ting Li, Farzan Farnia, (参考訳) 生成モデルフレームワークの大規模開発には、参照データセットと比較してモデルの新規性を評価するための原則的手法が必要である。 文献は, 生成モデルの品質, 多様性, 一般化性の評価を幅広く研究してきたが, 参照モデルと比較して, モデルの新規性を評価することは, 機械学習コミュニティでは十分に研究されていない。 生成モデル$P_\mathcal{G}$と参照モデル$P_\mathrm{ref}$のサンプルが与えられたら、どのようにして$P_\mathcal{G}$で表されるサンプル型を$P_\mathrm{ref}$よりも頻繁に見つけることができるのか? 本稿では、差分クラスタリングタスクに対するスペクトル的アプローチを導入し、KENスコア(Kernel-based Entropic Novelty)を提案し、$P_\mathcal{G}$のモードベースのノベルティを、$P_\mathrm{ref}$に対して定量化する。 そこで本研究では,KEN スコアをよく分離可能な成分との混合分布に対して解析し,実測データからKEN スコアを計算するカーネルベースの手法を開発した。 我々は、合成および実画像データセットに数値的な結果を提示し、新しいモードの検出と生成モデルの比較におけるフレームワークの有効性を示すことにより、KENフレームワークを支援した。 論文のコードは、www.github.com/buyeah1109/KENで公開されている。

The massive developments of generative model frameworks require principled methods for the evaluation of a model's novelty compared to a reference dataset. While the literature has extensively studied the evaluation of the quality, diversity, and generalizability of generative models, the assessment of a model's novelty compared to a reference model has not been adequately explored in the machine learning community. In this work, we focus on the novelty assessment for multi-modal distributions and attempt to address the following differential clustering task: Given samples of a generative model $P_\mathcal{G}$ and a reference model $P_\mathrm{ref}$, how can we discover the sample types expressed by $P_\mathcal{G}$ more frequently than in $P_\mathrm{ref}$? We introduce a spectral approach to the differential clustering task and propose the Kernel-based Entropic Novelty (KEN) score to quantify the mode-based novelty of $P_\mathcal{G}$ with respect to $P_\mathrm{ref}$. We analyze the KEN score for mixture distributions with well-separable components and develop a kernel-based method to compute the KEN score from empirical data. We support the KEN framework by presenting numerical results on synthetic and real image datasets, indicating the framework's effectiveness in detecting novel modes and comparing generative models. The paper's code is available at: www.github.com/buyeah1109/KEN
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# 大規模視覚言語モデルにおける画像推論と記述の認知的評価ベンチマーク

A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models ( http://arxiv.org/abs/2402.18409v3 )

ライセンス: Link先を確認
Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen, (参考訳) 近年の成功にもかかわらず、LVLM(Large Vision-Language Models)は認知能力の総合的なテストはほとんど行われていない。 人間の認知テストにおける「Cookie Theft」タスクの利用に着想を得て,リッチなセマンティクスを持つ画像を用いてLVLMの高レベル認知能力を評価するための評価ベンチマークを提案する。 8つの推論機能を定義し、画像記述タスクと視覚的質問応答タスクで構成される。 LVLMの評価は,LVLMとヒトの認知能力にはまだ大きなギャップがあることを示唆している。

Large Vision-Language Models (LVLMs), despite their recent success, are hardly comprehensively tested for their cognitive abilities. Inspired by the prevalent use of the "Cookie Theft" task in human cognition test, we propose a novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs using images with rich semantics. It defines eight reasoning capabilities and consists of an image description task and a visual question answering task. Our evaluation on well-known LVLMs shows that there is still a large gap in cognitive ability between LVLMs and humans.
翻訳日:2024-06-17 19:02:29 公開日:2024-06-14
# 慢性痛に対する機械学習によるパーソナライズケアにおけるジェンダーフェアネスの検討

Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain ( http://arxiv.org/abs/2402.19226v3 )

ライセンス: Link先を確認
Pratik Gajane, Sean Newman, Mykola Pechenizkiy, John D. Piette, (参考訳) 慢性的な痛みは世界中の数百万人の生活の質を著しく低下させる。 サイコ教育やセラピーは痛みの結果を改善することができるが、多くの患者はエビデンスベースの治療へのアクセスを欠いている。 強化学習(RL)は、患者のニーズに応じてパーソナライズされた痛み管理介入を調整し、少ない臨床資源を効果的に活用する可能性を示している。 しかし、臨床医、患者、医療の意思決定者は、RLソリューションが、人種や性別といった患者の特徴に関連する格差を悪化させるのではないかと懸念している。 本稿では、実世界の強化学習(Piette et al , 2022a)を用いて、パーソナライズされた鎮痛ケア推奨のジェンダーフェアネスについて検討する。 ここでは、性別の公平性に固執することは、性別によって定義されたサブ人口によって受けられるユーティリティの最小限または全くの格差を意味する。 意思決定支援に使用される関連する患者情報(特徴として参照)の選択が性公正に影響を及ぼすかどうかを検討する。 実世界のデータであるPietteを用いて2022年に実施した本実験は,その特徴が男女の公平性に影響を与えることを示唆している。 さらに,その能力を示すRLソリューションであるNestedRecommendationを提案する。 一 実用性及び公正性を最適化する特徴を選択することを適応的に学ぶこと 二 臨床医の専門知識を活用して、特徴の選択を加速し、かつ、早期から鎮痛勧告を改善すること。

Chronic pain significantly diminishes the quality of life for millions worldwide. While psychoeducation and therapy can improve pain outcomes, many individuals experiencing pain lack access to evidence-based treatments or fail to complete the necessary number of sessions to achieve benefit. Reinforcement learning (RL) shows potential in tailoring personalized pain management interventions according to patients' individual needs while ensuring the efficient use of scarce clinical resources. However, clinicians, patients, and healthcare decision-makers are concerned that RL solutions could exacerbate disparities associated with patient characteristics like race or gender. In this article, we study gender fairness in personalized pain care recommendations using a real-world application of reinforcement learning (Piette et al., 2022a). Here, adhering to gender fairness translates to minimal or no disparity in the utility received by subpopulations as defined by gender. We investigate whether the selection of relevant patient information (referred to as features) used to assist decision-making affects gender fairness. Our experiments, conducted using real-world data Piette, 2022), indicate that included features can impact gender fairness. Moreover, we propose an RL solution, NestedRecommendation, that demonstrates the ability: i) to adaptively learn to select the features that optimize for utility and fairness, and ii) to accelerate feature selection and in turn, improve pain care recommendations from early on, by leveraging clinicians' domain expertise.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# EUROPA: 法的マルチリンガルなキーワード生成データセット

EUROPA: A Legal Multilingual Keyphrase Generation Dataset ( http://arxiv.org/abs/2403.00252v2 )

ライセンス: Link先を確認
Olivier Salaün, Frédéric Piedboeuf, Guillaume Le Berre, David Alfonso Hermelo, Philippe Langlais, (参考訳) キーフレーズの生成は、主に学術研究論文の文脈で研究され、特に科学領域と英語に焦点を当てている。 本研究では,法的領域における多言語キーフレーズ生成のためのデータセットであるEUROPAを提案する。 欧州連合司法裁判所(EU)の法的判断から派生したもので、EUの公用語24言語全てに該当する。 我々は、コーパス上で多言語モデルを実行し、その結果を分析し、現在のようなドメイン固有の多言語コーパスを改善する余地を示す。

Keyphrase generation has primarily been explored within the context of academic research articles, with a particular focus on scientific domains and the English language. In this work, we present EUROPA, a dataset for multilingual keyphrase generation in the legal domain. It is derived from legal judgments from the Court of Justice of the European Union (EU), and contains instances in all 24 EU official languages. We run multilingual models on our corpus and analyze the results, showing room for improvement on a domain-specific multilingual corpus such as the one we present.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 量子最適制御の理論的・実験的側面の紹介

Introduction to Theoretical and Experimental aspects of Quantum Optimal Control ( http://arxiv.org/abs/2403.00532v2 )

ライセンス: Link先を確認
Q. Ansel, E. Dionis, F. Arrouas, B. Peaudecerf, S. Guérin, D. Guéry-Odelin, D. Sugny, (参考訳) 量子最適制御(quantum optimal control)は、時間変化電磁場を設計し、量子技術における演算を行うための一連の方法である。 このチュートリアルでは、ポントリャーギンの最大原理に基づく理論の基本要素を物理学者に優しい方法で紹介する。 古典ラグランジュ力学とハミルトン力学の類似性は、この分野で使われる主な結果を示すために提案されている。 量子最適制御問題を解くために、異なる数値アルゴリズムに強調される。 2レベル量子系の制御から1次元光学格子におけるボース・アインシュタイン凝縮体(BEC)の制御まで、解析的および数値的手法の両方を用いて詳細に研究されている。 撮影方法と勾配に基づくアルゴリズムに基づくコードを提供する。 最適プロセスと量子速度制限との間の関係も、2段階の量子システムで議論されている。 BECの場合、最適制御プロトコルの実験的な実装について述べる。 このプレゼンテーションは、対応する実験結果によって説明される。

Quantum optimal control is a set of methods for designing time-varying electromagnetic fields to perform operations in quantum technologies. This tutorial paper introduces the basic elements of this theory based on the Pontryagin maximum principle, in a physicist-friendly way. An analogy with classical Lagrangian and Hamiltonian mechanics is proposed to present the main results used in this field. Emphasis is placed on the different numerical algorithms to solve a quantum optimal control problem. Several examples ranging from the control of two-level quantum systems to that of Bose-Einstein Condensates (BEC) in a one-dimensional optical lattice are studied in detail, using both analytical and numerical methods. Codes based on shooting method and gradient-based algorithms are provided. The connection between optimal processes and the quantum speed limit is also discussed in two-level quantum systems. In the case of BEC, the experimental implementation of optimal control protocols is described, both for two-level and many-level cases, with the current constraints and limitations of such platforms. This presentation is illustrated by the corresponding experimental results.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 点特異性をもつゲーブリー類におけるReLU$^k$ニューラルネットワークの指数表現性

Exponential Expressivity of ReLU$^k$ Neural Networks on Gevrey Classes with Point Singularities ( http://arxiv.org/abs/2403.02035v2 )

ライセンス: Link先を確認
Joost A. A. Opschoor, Christoph Schwab, (参考訳) 有界多面体領域の特異点を持つ滑らかな関数の深部ニューラルネットワークエミュレーション速度を解析し, 有界多面体領域$\mathrm{D} \subset \mathbb{R}^d$, $d=2,3$とする。 我々は、ニューロンの数と、I.M. Babu\v{s}ka と B.Q. Guo の数えきれないノルム空間からなる、重み付きソボレフスケールの項で定義されるGevrey-regular Solution classの非ゼロ係数の数で、ソボレフ空間における指数的エミュレーション率を証明した。 中間的な結果として、任意の正則な多面体領域の単純分割に対して、要素ワイド多項式次数$p\in\mathbb{N}$の連続的高次(``$p$-version'')有限元が、ReLUとReLU$^2$の活性化を組み合わせたニューラルネットワークによって正確にエミュレートできることが証明される。 多面体領域の形状規則的、simplicial partitions of polytopal domain $\mathrm{D}$ では、ニューロンの数と非ゼロパラメータの数は有限要素空間の自由度数に比例し、特に I.M. Babu\v{s}ka と B.Q. Guo の$hp$-Finite Element Method に対してである。

We analyze deep Neural Network emulation rates of smooth functions with point singularities in bounded, polytopal domains $\mathrm{D} \subset \mathbb{R}^d$, $d=2,3$. We prove exponential emulation rates in Sobolev spaces in terms of the number of neurons and in terms of the number of nonzero coefficients for Gevrey-regular solution classes defined in terms of weighted Sobolev scales in $\mathrm{D}$, comprising the countably-normed spaces of I.M. Babu\v{s}ka and B.Q. Guo. As intermediate result, we prove that continuous, piecewise polynomial high order (``$p$-version'') finite elements with elementwise polynomial degree $p\in\mathbb{N}$ on arbitrary, regular, simplicial partitions of polyhedral domains $\mathrm{D} \subset \mathbb{R}^d$, $d\geq 2$ can be exactly emulated by neural networks combining ReLU and ReLU$^2$ activations. On shape-regular, simplicial partitions of polytopal domains $\mathrm{D}$, both the number of neurons and the number of nonzero parameters are proportional to the number of degrees of freedom of the finite element space, in particular for the $hp$-Finite Element Method of I.M. Babu\v{s}ka and B.Q. Guo.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 不均一性と弾力性のあるフェデレーションラーニングのためのアーキテクチャの青写真

Architectural Blueprint For Heterogeneity-Resilient Federated Learning ( http://arxiv.org/abs/2403.04546v2 )

ライセンス: Link先を確認
Satwat Bashir, Tasos Dagiuklas, Kasra Kassai, Muddesar Iqbal, (参考訳) 本稿では,エッジコンピューティング環境を最適化するフェデレーション学習のための新しい3層アーキテクチャを提案する。 提案アーキテクチャは、クライアントデータの不均一性と計算制約に関連する課題に対処する。 スケーラブルでプライバシ保護のフレームワークを導入し、分散機械学習の効率を高める。 実験を通じて,従来のフェデレート学習モデルよりも,非IDデータセットを効果的に管理するアーキテクチャ能力を示す。 さらに,本論文では,モデル精度を大幅に向上し,通信オーバーヘッドを低減し,連合学習技術の普及を促進するという,この革新的なアプローチの可能性を強調した。

This paper proposes a novel three tier architecture for federated learning to optimize edge computing environments. The proposed architecture addresses the challenges associated with client data heterogeneity and computational constraints. It introduces a scalable, privacy preserving framework that enhances the efficiency of distributed machine learning. Through experimentation, the paper demonstrates the architecture capability to manage non IID data sets more effectively than traditional federated learning models. Additionally, the paper highlights the potential of this innovative approach to significantly improve model accuracy, reduce communication overhead, and facilitate broader adoption of federated learning technologies.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 画像に基づく性的虐待に対する予防的保護によるデジタル親近感の確保」

"Did They F***ing Consent to That?": Safer Digital Intimacy via Proactive Protection Against Image-Based Sexual Abuse ( http://arxiv.org/abs/2403.04659v2 )

ライセンス: Link先を確認
Lucy Qin, Vaughn Hamilton, Sharon Wang, Yigit Aydinalp, Marin Scarlett, Elissa M. Redmiles, (参考訳) 成人10人に8人がヌード画像やレウド画像などの親密なコンテンツを共有している。 このようなコンテンツを共有することは、関係の親密さと身体像に大きな利益をもたらし、雇用を提供する。 しかし、態度の厳格化と技術的な緩和の欠如により、そのようなコンテンツをシェアする人々は性的暴力のリスクに晒された。 推定3人に1人が画像に基づく性的虐待(IBSA)を受けており、これは非合意的な配布や、合意によって作成された親密なコンテンツ(NDIIとも呼ばれる)の配布の脅威を含む暴力のスペクトルである。 本研究では,ヨーロッパ人52人の親密なコンテンツ制作者を対象に,親密なコンテンツ共有の異なる利用事例の文脈と,それらのコンテンツを保存・共有する技術の選択を背景として,彼らが直面している脅威とそれらに対する防御方法について,厳密なインタビューを行った。 本研究は,NDIIの技術的防止に関する先行研究の限定的な部分と組み合わせて,プラットフォームとセキュリティ・プライバシ研究者の双方にとって,積極的な保護を通じて,より安全な親密なコンテンツ共有に向けた具体的な次のステップを提供する。 コンテンツ警告: この研究は性的暴力、特に画像に基づく性的虐待(特に第2節と第6節)の害について論じている。

As many as 8 in 10 adults share intimate content such as nude or lewd images. Sharing such content has significant benefits for relationship intimacy and body image, and can offer employment. However, stigmatizing attitudes and a lack of technological mitigations put those sharing such content at risk of sexual violence. An estimated 1 in 3 people have been subjected to image-based sexual abuse (IBSA), a spectrum of violence that includes the nonconsensual distribution or threat of distribution of consensually-created intimate content (also called NDII). In this work, we conducted a rigorous empirical interview study of 52 European creators of intimate content to examine the threats they face and how they defend against them, situated in the context of their different use cases for intimate content sharing and their choice of technologies for storing and sharing such content. Synthesizing our results with the limited body of prior work on technological prevention of NDII, we offer concrete next steps for both platforms and security & privacy researchers to work toward safer intimate content sharing through proactive protection. Content Warning: This work discusses sexual violence, specifically, the harms of image-based sexual abuse (particularly in Sections 2 and 6).
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context ( http://arxiv.org/abs/2403.05530v3 )

ライセンス: Link先を確認
Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, Anmol Gulati, Garrett Tanzer, Damien Vincent, Zhufeng Pan, Shibo Wang, Soroosh Mariooryad, Yifan Ding, Xinyang Geng, Fred Alcober, Roy Frostig, Mark Omernick, Lexi Walker, Cosmin Paduraru, Christina Sorokin, Andrea Tacchetti, Colin Gaffney, Samira Daruki, Olcan Sercinoglu, Zach Gleicher, Juliette Love, Paul Voigtlaender, Rohan Jain, Gabriela Surita, Kareem Mohamed, Rory Blevins, Junwhan Ahn, Tao Zhu, Kornraphop Kawintiranon, Orhan Firat, Yiming Gu, Yujing Zhang, Matthew Rahtz, Manaal Faruqui, Natalie Clay, Justin Gilmer, JD Co-Reyes, Ivo Penchev, Rui Zhu, Nobuyuki Morioka, Kevin Hui, Krishna Haridasan, Victor Campos, Mahdis Mahdieh, Mandy Guo, Samer Hassan, Kevin Kilgour, Arpi Vezer, Heng-Tze Cheng, Raoul de Liedekerke, Siddharth Goyal, Paul Barham, DJ Strouse, Seb Noury, Jonas Adler, Mukund Sundararajan, Sharad Vikram, Dmitry Lepikhin, Michela Paganini, Xavier Garcia, Fan Yang, Dasha Valter, Maja Trebacz, Kiran Vodrahalli, Chulayuth Asawaroengchai, Roman Ring, Norbert Kalb, Livio Baldini Soares, Siddhartha Brahma, David Steiner, Tianhe Yu, Fabian Mentzer, Antoine He, Lucas Gonzalez, Bibo Xu, Raphael Lopez Kaufman, Laurent El Shafey, Junhyuk Oh, Tom Hennigan, George van den Driessche, Seth Odoom, Mario Lucic, Becca Roelofs, Sid Lall, Amit Marathe, Betty Chan, Santiago Ontanon, Luheng He, Denis Teplyashin, Jonathan Lai, Phil Crone, Bogdan Damoc, Lewis Ho, Sebastian Riedel, Karel Lenc, Chih-Kuan Yeh, Aakanksha Chowdhery, Yang Xu, Mehran Kazemi, Ehsan Amid, Anastasia Petrushkina, Kevin Swersky, Ali Khodaei, Gowoon Chen, Chris Larkin, Mario Pinto, Geng Yan, Adria Puigdomenech Badia, Piyush Patil, Steven Hansen, Dave Orr, Sebastien M. R. Arnold, Jordan Grimstad, Andrew Dai, Sholto Douglas, Rishika Sinha, Vikas Yadav, Xi Chen, Elena Gribovskaya, Jacob Austin, Jeffrey Zhao, Kaushal Patel, Paul Komarek, Sophia Austin, Sebastian Borgeaud, Linda Friso, Abhimanyu Goyal, Ben Caine, Kris Cao, Da-Woon Chung, Matthew Lamm, Gabe Barth-Maron, Thais Kagohara, Kate Olszewska, Mia Chen, Kaushik Shivakumar, Rishabh Agarwal, Harshal Godhia, Ravi Rajwar, Javier Snaider, Xerxes Dotiwalla, Yuan Liu, Aditya Barua, Victor Ungureanu, Yuan Zhang, Bat-Orgil Batsaikhan, Mateo Wirth, James Qin, Ivo Danihelka, Tulsee Doshi, Martin Chadwick, Jilin Chen, Sanil Jain, Quoc Le, Arjun Kar, Madhu Gurumurthy, Cheng Li, Ruoxin Sang, Fangyu Liu, Lampros Lamprou, Rich Munoz, Nathan Lintz, Harsh Mehta, Heidi Howard, Malcolm Reynolds, Lora Aroyo, Quan Wang, Lorenzo Blanco, Albin Cassirer, Jordan Griffith, Dipanjan Das, Stephan Lee, Jakub Sygnowski, Zach Fisher, James Besley, Richard Powell, Zafarali Ahmed, Dominik Paulus, David Reitter, Zalan Borsos, Rishabh Joshi, Aedan Pope, Steven Hand, Vittorio Selo, Vihan Jain, Nikhil Sethi, Megha Goel, Takaki Makino, Rhys May, Zhen Yang, Johan Schalkwyk, Christina Butterfield, Anja Hauth, Alex Goldin, Will Hawkins, Evan Senter, Sergey Brin, Oliver Woodman, Marvin Ritter, Eric Noland, Minh Giang, Vijay Bolina, Lisa Lee, Tim Blyth, Ian Mackinnon, Machel Reid, Obaid Sarvana, David Silver, Alexander Chen, Lily Wang, Loren Maggiore, Oscar Chang, Nithya Attaluri, Gregory Thornton, Chung-Cheng Chiu, Oskar Bunyan, Nir Levine, Timothy Chung, Evgenii Eltyshev, Xiance Si, Timothy Lillicrap, Demetra Brady, Vaibhav Aggarwal, Boxi Wu, Yuanzhong Xu, Ross McIlroy, Kartikeya Badola, Paramjit Sandhu, Erica Moreira, Wojciech Stokowiec, Ross Hemsley, Dong Li, Alex Tudor, Pranav Shyam, Elahe Rahimtoroghi, Salem Haykal, Pablo Sprechmann, Xiang Zhou, Diana Mincu, Yujia Li, Ravi Addanki, Kalpesh Krishna, Xiao Wu, Alexandre Frechette, Matan Eyal, Allan Dafoe, Dave Lacey, Jay Whang, Thi Avrahami, Ye Zhang, Emanuel Taropa, Hanzhao Lin, Daniel Toyama, Eliza Rutherford, Motoki Sano, HyunJeong Choe, Alex Tomala, Chalence Safranek-Shrader, Nora Kassner, Mantas Pajarskas, Matt Harvey, Sean Sechrist, Meire Fortunato, Christina Lyu, Gamaleldin Elsayed, Chenkai Kuang, James Lottes, Eric Chu, Chao Jia, Chih-Wei Chen, Peter Humphreys, Kate Baumli, Connie Tao, Rajkumar Samuel, Cicero Nogueira dos Santos, Anders Andreassen, Nemanja Rakićević, Dominik Grewe, Aviral Kumar, Stephanie Winkler, Jonathan Caton, Andrew Brock, Sid Dalmia, Hannah Sheahan, Iain Barr, Yingjie Miao, Paul Natsev, Jacob Devlin, Feryal Behbahani, Flavien Prost, Yanhua Sun, Artiom Myaskovsky, Thanumalayan Sankaranarayana Pillai, Dan Hurt, Angeliki Lazaridou, Xi Xiong, Ce Zheng, Fabio Pardo, Xiaowei Li, Dan Horgan, Joe Stanton, Moran Ambar, Fei Xia, Alejandro Lince, Mingqiu Wang, Basil Mustafa, Albert Webson, Hyo Lee, Rohan Anil, Martin Wicke, Timothy Dozat, Abhishek Sinha, Enrique Piqueras, Elahe Dabir, Shyam Upadhyay, Anudhyan Boral, Lisa Anne Hendricks, Corey Fry, Josip Djolonga, Yi Su, Jake Walker, Jane Labanowski, Ronny Huang, Vedant Misra, Jeremy Chen, RJ Skerry-Ryan, Avi Singh, Shruti Rijhwani, Dian Yu, Alex Castro-Ros, Beer Changpinyo, Romina Datta, Sumit Bagri, Arnar Mar Hrafnkelsson, Marcello Maggioni, Daniel Zheng, Yury Sulsky, Shaobo Hou, Tom Le Paine, Antoine Yang, Jason Riesa, Dominika Rogozinska, Dror Marcus, Dalia El Badawy, Qiao Zhang, Luyu Wang, Helen Miller, Jeremy Greer, Lars Lowe Sjos, Azade Nova, Heiga Zen, Rahma Chaabouni, Mihaela Rosca, Jiepu Jiang, Charlie Chen, Ruibo Liu, Tara Sainath, Maxim Krikun, Alex Polozov, Jean-Baptiste Lespiau, Josh Newlan, Zeyncep Cankara, Soo Kwak, Yunhan Xu, Phil Chen, Andy Coenen, Clemens Meyer, Katerina Tsihlas, Ada Ma, Juraj Gottweis, Jinwei Xing, Chenjie Gu, Jin Miao, Christian Frank, Zeynep Cankara, Sanjay Ganapathy, Ishita Dasgupta, Steph Hughes-Fitt, Heng Chen, David Reid, Keran Rong, Hongmin Fan, Joost van Amersfoort, Vincent Zhuang, Aaron Cohen, Shixiang Shane Gu, Anhad Mohananey, Anastasija Ilic, Taylor Tobin, John Wieting, Anna Bortsova, Phoebe Thacker, Emma Wang, Emily Caveness, Justin Chiu, Eren Sezener, Alex Kaskasoli, Steven Baker, Katie Millican, Mohamed Elhawaty, Kostas Aisopos, Carl Lebsack, Nathan Byrd, Hanjun Dai, Wenhao Jia, Matthew Wiethoff, Elnaz Davoodi, Albert Weston, Lakshman Yagati, Arun Ahuja, Isabel Gao, Golan Pundak, Susan Zhang, Michael Azzam, Khe Chai Sim, Sergi Caelles, James Keeling, Abhanshu Sharma, Andy Swing, YaGuang Li, Chenxi Liu, Carrie Grimes Bostock, Yamini Bansal, Zachary Nado, Ankesh Anand, Josh Lipschultz, Abhijit Karmarkar, Lev Proleev, Abe Ittycheriah, Soheil Hassas Yeganeh, George Polovets, Aleksandra Faust, Jiao Sun, Alban Rrustemi, Pen Li, Rakesh Shivanna, Jeremiah Liu, Chris Welty, Federico Lebron, Anirudh Baddepudi, Sebastian Krause, Emilio Parisotto, Radu Soricut, Zheng Xu, Dawn Bloxwich, Melvin Johnson, Behnam Neyshabur, Justin Mao-Jones, Renshen Wang, Vinay Ramasesh, Zaheer Abbas, Arthur Guez, Constant Segal, Duc Dung Nguyen, James Svensson, Le Hou, Sarah York, Kieran Milan, Sophie Bridgers, Wiktor Gworek, Marco Tagliasacchi, James Lee-Thorp, Michael Chang, Alexey Guseynov, Ale Jakse Hartman, Michael Kwong, Ruizhe Zhao, Sheleem Kashem, Elizabeth Cole, Antoine Miech, Richard Tanburn, Mary Phuong, Filip Pavetic, Sebastien Cevey, Ramona Comanescu, Richard Ives, Sherry Yang, Cosmo Du, Bo Li, Zizhao Zhang, Mariko Iinuma, Clara Huiyi Hu, Aurko Roy, Shaan Bijwadia, Zhenkai Zhu, Danilo Martins, Rachel Saputro, Anita Gergely, Steven Zheng, Dawei Jia, Ioannis Antonoglou, Adam Sadovsky, Shane Gu, Yingying Bi, Alek Andreev, Sina Samangooei, Mina Khan, Tomas Kocisky, Angelos Filos, Chintu Kumar, Colton Bishop, Adams Yu, Sarah Hodkinson, Sid Mittal, Premal Shah, Alexandre Moufarek, Yong Cheng, Adam Bloniarz, Jaehoon Lee, Pedram Pejman, Paul Michel, Stephen Spencer, Vladimir Feinberg, Xuehan Xiong, Nikolay Savinov, Charlotte Smith, Siamak Shakeri, Dustin Tran, Mary Chesus, Bernd Bohnet, George Tucker, Tamara von Glehn, Carrie Muir, Yiran Mao, Hideto Kazawa, Ambrose Slone, Kedar Soparkar, Disha Shrivastava, James Cobon-Kerr, Michael Sharman, Jay Pavagadhi, Carlos Araya, Karolis Misiunas, Nimesh Ghelani, Michael Laskin, David Barker, Qiujia Li, Anton Briukhov, Neil Houlsby, Mia Glaese, Balaji Lakshminarayanan, Nathan Schucher, Yunhao Tang, Eli Collins, Hyeontaek Lim, Fangxiaoyu Feng, Adria Recasens, Guangda Lai, Alberto Magni, Nicola De Cao, Aditya Siddhant, Zoe Ashwood, Jordi Orbay, Mostafa Dehghani, Jenny Brennan, Yifan He, Kelvin Xu, Yang Gao, Carl Saroufim, James Molloy, Xinyi Wu, Seb Arnold, Solomon Chang, Julian Schrittwieser, Elena Buchatskaya, Soroush Radpour, Martin Polacek, Skye Giordano, Ankur Bapna, Simon Tokumine, Vincent Hellendoorn, Thibault Sottiaux, Sarah Cogan, Aliaksei Severyn, Mohammad Saleh, Shantanu Thakoor, Laurent Shefey, Siyuan Qiao, Meenu Gaba, Shuo-yiin Chang, Craig Swanson, Biao Zhang, Benjamin Lee, Paul Kishan Rubenstein, Gan Song, Tom Kwiatkowski, Anna Koop, Ajay Kannan, David Kao, Parker Schuh, Axel Stjerngren, Golnaz Ghiasi, Gena Gibson, Luke Vilnis, Ye Yuan, Felipe Tiengo Ferreira, Aishwarya Kamath, Ted Klimenko, Ken Franko, Kefan Xiao, Indro Bhattacharya, Miteyan Patel, Rui Wang, Alex Morris, Robin Strudel, Vivek Sharma, Peter Choy, Sayed Hadi Hashemi, Jessica Landon, Mara Finkelstein, Priya Jhakra, Justin Frye, Megan Barnes, Matthew Mauger, Dennis Daun, Khuslen Baatarsukh, Matthew Tung, Wael Farhan, Henryk Michalewski, Fabio Viola, Felix de Chaumont Quitry, Charline Le Lan, Tom Hudson, Qingze Wang, Felix Fischer, Ivy Zheng, Elspeth White, Anca Dragan, Jean-baptiste Alayrac, Eric Ni, Alexander Pritzel, Adam Iwanicki, Michael Isard, Anna Bulanova, Lukas Zilka, Ethan Dyer, Devendra Sachan, Srivatsan Srinivasan, Hannah Muckenhirn, Honglong Cai, Amol Mandhane, Mukarram Tariq, Jack W. Rae, Gary Wang, Kareem Ayoub, Nicholas FitzGerald, Yao Zhao, Woohyun Han, Chris Alberti, Dan Garrette, Kashyap Krishnakumar, Mai Gimenez, Anselm Levskaya, Daniel Sohn, Josip Matak, Inaki Iturrate, Michael B. Chang, Jackie Xiang, Yuan Cao, Nishant Ranka, Geoff Brown, Adrian Hutter, Vahab Mirrokni, Nanxin Chen, Kaisheng Yao, Zoltan Egyed, Francois Galilee, Tyler Liechty, Praveen Kallakuri, Evan Palmer, Sanjay Ghemawat, Jasmine Liu, David Tao, Chloe Thornton, Tim Green, Mimi Jasarevic, Sharon Lin, Victor Cotruta, Yi-Xuan Tan, Noah Fiedel, Hongkun Yu, Ed Chi, Alexander Neitz, Jens Heitkaemper, Anu Sinha, Denny Zhou, Yi Sun, Charbel Kaed, Brice Hulse, Swaroop Mishra, Maria Georgaki, Sneha Kudugunta, Clement Farabet, Izhak Shafran, Daniel Vlasic, Anton Tsitsulin, Rajagopal Ananthanarayanan, Alen Carin, Guolong Su, Pei Sun, Shashank V, Gabriel Carvajal, Josef Broder, Iulia Comsa, Alena Repina, William Wong, Warren Weilun Chen, Peter Hawkins, Egor Filonov, Lucia Loher, Christoph Hirnschall, Weiyi Wang, Jingchen Ye, Andrea Burns, Hardie Cate, Diana Gage Wright, Federico Piccinini, Lei Zhang, Chu-Cheng Lin, Ionel Gog, Yana Kulizhskaya, Ashwin Sreevatsa, Shuang Song, Luis C. Cobo, Anand Iyer, Chetan Tekur, Guillermo Garrido, Zhuyun Xiao, Rupert Kemp, Huaixiu Steven Zheng, Hui Li, Ananth Agarwal, Christel Ngani, Kati Goshvadi, Rebeca Santamaria-Fernandez, Wojciech Fica, Xinyun Chen, Chris Gorgolewski, Sean Sun, Roopal Garg, Xinyu Ye, S. M. Ali Eslami, Nan Hua, Jon Simon, Pratik Joshi, Yelin Kim, Ian Tenney, Sahitya Potluri, Lam Nguyen Thiet, Quan Yuan, Florian Luisier, Alexandra Chronopoulou, Salvatore Scellato, Praveen Srinivasan, Minmin Chen, Vinod Koverkathu, Valentin Dalibard, Yaming Xu, Brennan Saeta, Keith Anderson, Thibault Sellam, Nick Fernando, Fantine Huot, Junehyuk Jung, Mani Varadarajan, Michael Quinn, Amit Raul, Maigo Le, Ruslan Habalov, Jon Clark, Komal Jalan, Kalesha Bullard, Achintya Singhal, Thang Luong, Boyu Wang, Sujeevan Rajayogam, Julian Eisenschlos, Johnson Jia, Daniel Finchelstein, Alex Yakubovich, Daniel Balle, Michael Fink, Sameer Agarwal, Jing Li, Dj Dvijotham, Shalini Pal, Kai Kang, Jaclyn Konzelmann, Jennifer Beattie, Olivier Dousse, Diane Wu, Remi Crocker, Chen Elkind, Siddhartha Reddy Jonnalagadda, Jong Lee, Dan Holtmann-Rice, Krystal Kallarackal, Rosanne Liu, Denis Vnukov, Neera Vats, Luca Invernizzi, Mohsen Jafari, Huanjie Zhou, Lilly Taylor, Jennifer Prendki, Marcus Wu, Tom Eccles, Tianqi Liu, Kavya Kopparapu, Francoise Beaufays, Christof Angermueller, Andreea Marzoca, Shourya Sarcar, Hilal Dib, Jeff Stanway, Frank Perbet, Nejc Trdin, Rachel Sterneck, Andrey Khorlin, Dinghua Li, Xihui Wu, Sonam Goenka, David Madras, Sasha Goldshtein, Willi Gierke, Tong Zhou, Yaxin Liu, Yannie Liang, Anais White, Yunjie Li, Shreya Singh, Sanaz Bahargam, Mark Epstein, Sujoy Basu, Li Lao, Adnan Ozturel, Carl Crous, Alex Zhai, Han Lu, Zora Tung, Neeraj Gaur, Alanna Walton, Lucas Dixon, Ming Zhang, Amir Globerson, Grant Uy, Andrew Bolt, Olivia Wiles, Milad Nasr, Ilia Shumailov, Marco Selvi, Francesco Piccinno, Ricardo Aguilar, Sara McCarthy, Misha Khalman, Mrinal Shukla, Vlado Galic, John Carpenter, Kevin Villela, Haibin Zhang, Harry Richardson, James Martens, Matko Bosnjak, Shreyas Rammohan Belle, Jeff Seibert, Mahmoud Alnahlawi, Brian McWilliams, Sankalp Singh, Annie Louis, Wen Ding, Dan Popovici, Lenin Simicich, Laura Knight, Pulkit Mehta, Nishesh Gupta, Chongyang Shi, Saaber Fatehi, Jovana Mitrovic, Alex Grills, Joseph Pagadora, Dessie Petrova, Danielle Eisenbud, Zhishuai Zhang, Damion Yates, Bhavishya Mittal, Nilesh Tripuraneni, Yannis Assael, Thomas Brovelli, Prateek Jain, Mihajlo Velimirovic, Canfer Akbulut, Jiaqi Mu, Wolfgang Macherey, Ravin Kumar, Jun Xu, Haroon Qureshi, Gheorghe Comanici, Jeremy Wiesner, Zhitao Gong, Anton Ruddock, Matthias Bauer, Nick Felt, Anirudh GP, Anurag Arnab, Dustin Zelle, Jonas Rothfuss, Bill Rosgen, Ashish Shenoy, Bryan Seybold, Xinjian Li, Jayaram Mudigonda, Goker Erdogan, Jiawei Xia, Jiri Simsa, Andrea Michi, Yi Yao, Christopher Yew, Steven Kan, Isaac Caswell, Carey Radebaugh, Andre Elisseeff, Pedro Valenzuela, Kay McKinney, Kim Paterson, Albert Cui, Eri Latorre-Chimoto, Solomon Kim, William Zeng, Ken Durden, Priya Ponnapalli, Tiberiu Sosea, Christopher A. Choquette-Choo, James Manyika, Brona Robenek, Harsha Vashisht, Sebastien Pereira, Hoi Lam, Marko Velic, Denese Owusu-Afriyie, Katherine Lee, Tolga Bolukbasi, Alicia Parrish, Shawn Lu, Jane Park, Balaji Venkatraman, Alice Talbert, Lambert Rosique, Yuchung Cheng, Andrei Sozanschi, Adam Paszke, Praveen Kumar, Jessica Austin, Lu Li, Khalid Salama, Wooyeol Kim, Nandita Dukkipati, Anthony Baryshnikov, Christos Kaplanis, XiangHai Sheng, Yuri Chervonyi, Caglar Unlu, Diego de Las Casas, Harry Askham, Kathryn Tunyasuvunakool, Felix Gimeno, Siim Poder, Chester Kwak, Matt Miecnikowski, Vahab Mirrokni, Alek Dimitriev, Aaron Parisi, Dangyi Liu, Tomy Tsai, Toby Shevlane, Christina Kouridi, Drew Garmon, Adrian Goedeckemeyer, Adam R. Brown, Anitha Vijayakumar, Ali Elqursh, Sadegh Jazayeri, Jin Huang, Sara Mc Carthy, Jay Hoover, Lucy Kim, Sandeep Kumar, Wei Chen, Courtney Biles, Garrett Bingham, Evan Rosen, Lisa Wang, Qijun Tan, David Engel, Francesco Pongetti, Dario de Cesare, Dongseong Hwang, Lily Yu, Jennifer Pullman, Srini Narayanan, Kyle Levin, Siddharth Gopal, Megan Li, Asaf Aharoni, Trieu Trinh, Jessica Lo, Norman Casagrande, Roopali Vij, Loic Matthey, Bramandia Ramadhana, Austin Matthews, CJ Carey, Matthew Johnson, Kremena Goranova, Rohin Shah, Shereen Ashraf, Kingshuk Dasgupta, Rasmus Larsen, Yicheng Wang, Manish Reddy Vuyyuru, Chong Jiang, Joana Ijazi, Kazuki Osawa, Celine Smith, Ramya Sree Boppana, Taylan Bilal, Yuma Koizumi, Ying Xu, Yasemin Altun, Nir Shabat, Ben Bariach, Alex Korchemniy, Kiam Choo, Olaf Ronneberger, Chimezie Iwuanyanwu, Shubin Zhao, David Soergel, Cho-Jui Hsieh, Irene Cai, Shariq Iqbal, Martin Sundermeyer, Zhe Chen, Elie Bursztein, Chaitanya Malaviya, Fadi Biadsy, Prakash Shroff, Inderjit Dhillon, Tejasi Latkar, Chris Dyer, Hannah Forbes, Massimo Nicosia, Vitaly Nikolaev, Somer Greene, Marin Georgiev, Pidong Wang, Nina Martin, Hanie Sedghi, John Zhang, Praseem Banzal, Doug Fritz, Vikram Rao, Xuezhi Wang, Jiageng Zhang, Viorica Patraucean, Dayou Du, Igor Mordatch, Ivan Jurin, Lewis Liu, Ayush Dubey, Abhi Mohan, Janek Nowakowski, Vlad-Doru Ion, Nan Wei, Reiko Tojo, Maria Abi Raad, Drew A. Hudson, Vaishakh Keshava, Shubham Agrawal, Kevin Ramirez, Zhichun Wu, Hoang Nguyen, Ji Liu, Madhavi Sewak, Bryce Petrini, DongHyun Choi, Ivan Philips, Ziyue Wang, Ioana Bica, Ankush Garg, Jarek Wilkiewicz, Priyanka Agrawal, Xiaowei Li, Danhao Guo, Emily Xue, Naseer Shaik, Andrew Leach, Sadh MNM Khan, Julia Wiesinger, Sammy Jerome, Abhishek Chakladar, Alek Wenjiao Wang, Tina Ornduff, Folake Abu, Alireza Ghaffarkhah, Marcus Wainwright, Mario Cortes, Frederick Liu, Joshua Maynez, Slav Petrov, Yonghui Wu, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals, (参考訳) 本稿では,次世代の計算効率の高いマルチモーダルモデルであるGemini 1.5モデルについて紹介する。 ファミリーには2つの新しいモデルが含まれている: (1) アップデートされたGemini 1.5 Proは、機能とベンチマークの大部分で2月バージョンを超え、(2) Gemini 1.5 Flashは、品質の最小限の回帰で効率よく設計された、より軽量な派生型である。 Gemini 1.5モデルは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。 Gemini 1.5の長期コンテキスト能力の限界を調べたところ、次の予測とほぼ完璧な検索(>99%)は少なくとも10万トークンまで改善され、Claude 3.0 (200k) や GPT-4 Turbo (128k) といった既存のモデルよりも世代的に飛躍した。 最後に,10の異なる職種にまたがって26~75%のタイムセーブを達成し,さらにフロンティアにおける大規模言語モデルの驚くべき新機能として,専門職とコラボレーションしたGemini 1.5や,世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられた場合には,同じ内容から学んだ人と同じレベルで,Kalamangに英語を翻訳することが学習される,といった実世界のユースケースを強調します。

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# L^2GC:ノード分類のためのローレンツ線形グラフ畳み込みネットワーク

L^2GC:Lorentzian Linear Graph Convolutional Networks for Node Classification ( http://arxiv.org/abs/2403.06064v3 )

ライセンス: Link先を確認
Qiuyu Liang, Weihua Wang, Feilong Bao, Guanglai Gao, (参考訳) グラフデータのノードを分類するために、線形グラフ畳み込みネットワーク(GCN)が使用される。 しかし、既存のリニアGCNモデルはユークリッド空間でニューラルネットワーク操作を行うため、グラフとしてモデル化された実世界のデータセットで表される木のような階層構造を明示的に捉えない。 本稿では,線形GCNに双曲空間を導入し,ローレンツ線型GCNの新しい枠組みを提案する。 具体的には、グラフノードの学習した特徴を双曲空間にマッピングし、次にローレンツ線形特徴変換を行い、基礎となる木のようなデータ構造を捉える。 半教師付き学習を用いた標準引用ネットワークデータセットの実験結果から,Citeseerでは74.7$\%,PubMedでは81.3$\%の新しい最先端結果が得られることがわかった。 さらに,本手法は,PubMedデータセット上の他の非線形GCNモデルよりも2桁高速にトレーニング可能であることも確認した。 私たちのコードはhttps://github.com/llqy123/LLGC-masterで公開されています。

Linear Graph Convolutional Networks (GCNs) are used to classify the node in the graph data. However, we note that most existing linear GCN models perform neural network operations in Euclidean space, which do not explicitly capture the tree-like hierarchical structure exhibited in real-world datasets that modeled as graphs. In this paper, we attempt to introduce hyperbolic space into linear GCN and propose a novel framework for Lorentzian linear GCN. Specifically, we map the learned features of graph nodes into hyperbolic space, and then perform a Lorentzian linear feature transformation to capture the underlying tree-like structure of data. Experimental results on standard citation networks datasets with semi-supervised learning show that our approach yields new state-of-the-art results of accuracy 74.7$\%$ on Citeseer and 81.3$\%$ on PubMed datasets. Furthermore, we observe that our approach can be trained up to two orders of magnitude faster than other nonlinear GCN models on PubMed dataset. Our code is publicly available at https://github.com/llqy123/LLGC-master.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# Challenging Forgets: マシンアンラーニングにおける最悪のツールセットの展開

Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning ( http://arxiv.org/abs/2403.07362v2 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Alfred Hero, Sijia Liu, (参考訳) 信頼できる機械学習(ML)コミュニティは、トレーニング後のデータポイントを選択的に'アンラーニング'できるモデルの必要性をますます認識している。 これにより、選択したデータポイントがモデルのパフォーマンスに与える影響を排除し、モデルの実用性を維持しながら、機械学習後の問題(MU)が発生する。 データ影響消去のための様々なMU手法にもかかわらず、評価はランダムなデータを忘れることに重点を置いており、未学習のパフォーマンスの真正性を評価するためにどのサブセットを選択するべきかという重要な調査を無視している。 この問題に対処するために,対立的な視点からMUの新たな評価アングルを導入する。 我々は、影響消去の最も重要な課題である、つまり最悪のケースの忘れセットをピンポイントするデータサブセットを特定することを提案する。 両レベル最適化の原則を用いることで、最悪ケースシナリオをエミュレートする上で、上位最適化レベルの未学習課題を増幅すると同時に、標準トレーニングとアンラーニングを低レベルのレベルで同時に実施し、データ影響の消去とモデルユーティリティのバランスを達成する。 本提案では,MUの弾力性と有効性を最悪のケースで評価する。 さまざまなデータセット(CIFAR-10、100、CelebA、Tiny ImageNet、ImageNetなど)とモデル(画像分類器と生成モデルの両方を含む)にわたる広範な実験を通じて、既存の(近似的な)未学習戦略におけるクリティカルな長所と短所を明らかにする。 本研究は,MUの複雑な課題を解明し,より正確で堅牢な未学習アルゴリズムの開発を導くものである。 コードはhttps://github.com/OPTML-Group/Unlearn-WorstCaseで入手できる。

The trustworthy machine learning (ML) community is increasingly recognizing the crucial need for models capable of selectively 'unlearning' data points after training. This leads to the problem of machine unlearning (MU), aiming to eliminate the influence of chosen data points on model performance, while still maintaining the model's utility post-unlearning. Despite various MU methods for data influence erasure, evaluations have largely focused on random data forgetting, ignoring the vital inquiry into which subset should be chosen to truly gauge the authenticity of unlearning performance. To tackle this issue, we introduce a new evaluative angle for MU from an adversarial viewpoint. We propose identifying the data subset that presents the most significant challenge for influence erasure, i.e., pinpointing the worst-case forget set. Utilizing a bi-level optimization principle, we amplify unlearning challenges at the upper optimization level to emulate worst-case scenarios, while simultaneously engaging in standard training and unlearning at the lower level, achieving a balance between data influence erasure and model utility. Our proposal offers a worst-case evaluation of MU's resilience and effectiveness. Through extensive experiments across different datasets (including CIFAR-10, 100, CelebA, Tiny ImageNet, and ImageNet) and models (including both image classifiers and generative models), we expose critical pros and cons in existing (approximate) unlearning strategies. Our results illuminate the complex challenges of MU in practice, guiding the future development of more accurate and robust unlearning algorithms. The code is available at https://github.com/OPTML-Group/Unlearn-WorstCase.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# StableToolBench: 大規模言語モデルのツール学習における安定的な大規模ベンチマークを目指して

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models ( http://arxiv.org/abs/2403.07714v3 )

ライセンス: Link先を確認
Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu, (参考訳) 大規模言語モデル(LLM)は近年、目覚ましい進歩を目の当たりにしており、LLMと外部ツールを統合して様々な現実世界の課題に対処するツール学習の探求を促している。 LLMのツール活用能力を評価するには、大規模で安定したベンチマークが必要である。 しかし、以前の作業は、手作りのオンラインツールに限られているか、APIステータスの不安定さに悩まされている大規模な実際のオンラインAPIに依存していた。 この問題に対処するため、ToolBenchから進化したベンチマークであるStableToolBenchを導入し、仮想APIサーバと安定した評価システムを提案する。 仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。 一方、安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。 実験により,StableToolBenchの安定性を実証し,APIシミュレータ,キャッシングシステム,評価システムの有効性について検討した。

Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# LLMを使ってサインスポッティングを音声言語文に変換する

Using an LLM to Turn Sign Spottings into Spoken Language Sentences ( http://arxiv.org/abs/2403.10434v2 )

ライセンス: Link先を確認
Ozge Mercanoglu Sincan, Necati Cihan Camgoz, Richard Bowden, (参考訳) 手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。 本稿では,符号スポッターと強力な大言語モデル(LLM)を用いてSLT性能を向上させるハイブリッドSLTアプローチであるSputter+GPTを提案する。 Spotter+GPTはSLTタスクを2段階に分割する。 ビデオはまず、言語手話データセットに基づいて訓練されたSputterによって処理され、個々のサインを識別する。 これらの標識はLLMに渡され、コヒーレントで文脈的に適切な音声言語文に変換される。 Spotterのソースコードはhttps://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.comで公開されている。

Sign Language Translation (SLT) is a challenging task that aims to generate spoken language sentences from sign language videos. In this paper, we introduce a hybrid SLT approach, Spotter+GPT, that utilizes a sign spotter and a powerful Large Language Model (LLM) to improve SLT performance. Spotter+GPT breaks down the SLT task into two stages. The videos are first processed by the Spotter, which is trained on a linguistic sign language dataset, to identify individual signs. These spotted signs are then passed to an LLM, which transforms them into coherent and contextually appropriate spoken language sentences. The source code of the Spotter is available at https://gitlab.surrey.ac.uk/cogvispublic/sign-spotter.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 散逸多体量子カオスの符号としてのリャプノフ指数

The Lyapunov exponent as a signature of dissipative many-body quantum chaos ( http://arxiv.org/abs/2403.12359v2 )

ライセンス: Link先を確認
Antonio M. García-García, Jacobus J. M. Verbaarschot, Jie-ping Zheng, (参考訳) エルミート量子カオス力学の際立った特徴は、ルプノフ指数によって与えられる速度でエレンフェスト時間の周りにある時間外相関関数(OTOC)が指数関数的に増加することである。 物理的には、OTOCは量子運動の性質に大きく依存する量子不確実性の成長を記述している。 ここでは、散逸的量子カオスの正確な定義を提供するためにOTOCを用いる。 この目的のために、我々は、マルコフ浴に結合した$q$-body Sachdev-Ye-Kitaevモデルの大きな$q$-極限のベクトル化された定式化のためのリアプノフ指数を解析的に計算する。 これらの解析結果は、シュウィンガー・ダイソン方程式とベーテ・サルペーター方程式の解に基づいて、いくつかの値の$q \geq 4$に対してラプノフ指数の明示的な数値計算によって確認される。 リアプノフ指数は浴へのカップリングが増加するにつれて単調に減少し、最終的には量子カオスではない力学への遷移をシグナルするカップリングの臨界値において負となることを示す。 したがって、正のリャプノフ指数は放散多体量子カオスの定義的特徴である。 十分に強いカップリングのための指数的成長の破れの観察は、散逸的な量子カオスが環境に十分弱いカップリングを必要とすることを示唆している。

A distinct feature of Hermitian quantum chaotic dynamics is the exponential increase of certain out-of-time-order-correlation (OTOC) functions around the Ehrenfest time with a rate given by a Lyapunov exponent. Physically, the OTOCs describe the growth of quantum uncertainty that crucially depends on the nature of the quantum motion. Here, we employ the OTOC in order to provide a precise definition of dissipative quantum chaos. For this purpose, we compute analytically the Lyapunov exponent for the vectorized formulation of the large $q$-limit of a $q$-body Sachdev-Ye-Kitaev model coupled to a Markovian bath. These analytic results are confirmed by an explicit numerical calculation of the Lyapunov exponent for several values of $q \geq 4$ based on the solutions of the Schwinger-Dyson and Bethe-Salpeter equations. We show that the Lyapunov exponent decreases monotonically as the coupling to the bath increases and eventually becomes negative at a critical value of the coupling signaling a transition to a dynamics which is no longer quantum chaotic. Therefore, a positive Lyapunov exponent is a defining feature of dissipative many-body quantum chaos. The observation of the breaking of the exponential growth for sufficiently strong coupling suggests that dissipative quantum chaos may require in certain cases a sufficiently weak coupling to the environment.
翻訳日:2024-06-17 18:52:34 公開日:2024-06-14
# 医用表現学習のための視線ガイド付きマルチモーダルアライメント

Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning ( http://arxiv.org/abs/2403.12416v3 )

ライセンス: Link先を確認
Chong Ma, Hanqi Jiang, Wenting Chen, Yiwei Li, Zihao Wu, Xiaowei Yu, Zhengliang Liu, Lei Guo, Dajiang Zhu, Tuo Zhang, Dinggang Shen, Tianming Liu, Xiang Li, (参考訳) 医療用マルチモーダルフレームワークでは、クロスモーダルな特徴のアライメントが大きな課題となっている。 しかし、既存の研究は、医学的文脈における明確な関係を考慮せずに、データから暗黙的に一致した特徴を学習してきた。 このデータ信頼性は、学習されたアライメント関係の低一般化につながる可能性がある。 本研究では,医用視覚とテキストのアライメントを改善するために,アイ・ゲイズ・ガイドド・マルチモーダル・アライメント(EGMA)フレームワークを提案する。 医用画像とテキストの整列における放射線医の眼球運動データの自然な補助的役割について検討し,診断評価中に放射線医が同期的に収集した眼球運動データを用いて新しいアプローチを提案する。 我々は,4つの医療データセットに対して,画像分類と画像テキスト検索の下流タスクを行い,EGMAは最先端のパフォーマンスを達成し,異なるデータセットをまたいだより強力な一般化を実現した。 さらに、様々な眼球運動データがモデル性能に与える影響について検討し、これらの補助データをマルチモーダルアライメントフレームワークに統合する可能性と有用性を強調した。

In the medical multi-modal frameworks, the alignment of cross-modality features presents a significant challenge. However, existing works have learned features that are implicitly aligned from the data, without considering the explicit relationships in the medical context. This data-reliance may lead to low generalization of the learned alignment relationships. In this work, we propose the Eye-gaze Guided Multi-modal Alignment (EGMA) framework to harness eye-gaze data for better alignment of medical visual and textual features. We explore the natural auxiliary role of radiologists' eye-gaze data in aligning medical images and text, and introduce a novel approach by using eye-gaze data, collected synchronously by radiologists during diagnostic evaluations. We conduct downstream tasks of image classification and image-text retrieval on four medical datasets, where EGMA achieved state-of-the-art performance and stronger generalization across different datasets. Additionally, we explore the impact of varying amounts of eye-gaze data on model performance, highlighting the feasibility and utility of integrating this auxiliary data into multi-modal alignment framework.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# AdaViPro: 大規模モデル適応のための領域ベースの適応型ビジュアルプロンプト

AdaViPro: Region-based Adaptive Visual Prompt for Large-Scale Models Adapting ( http://arxiv.org/abs/2403.13282v2 )

ライセンス: Link先を確認
Mengyu Yang, Ye Tian, Lanshan Zhang, Xiao Liang, Xuming Ran, Wendong Wang, (参考訳) 近年、プロンプトベースの手法が新しい「パラメータ効率のよい微調整」パラダイムとして登場した。 しかしながら、注目すべき結果が得られているにも関わらず、既存のプロンプトメソッドは主に‘What to add’に焦点を当て、手作業による配置に依存する‘where to add’の同じくらい重要な側面を見下ろしている。 そこで本研究では,AdaViProという領域ベースのAdaptive Visual Promptを提案し,学習プロセスにプロンプトの‘where to add’最適化を統合する。 具体的には,地域意思決定の課題として,「追加する場所」の最適化を再認識する。 推論中、AdaViProは画像全体の地域化マスクマップを生成し、0と1で構成され、各特定の領域にプロンプトを適用するか破棄するかを指定する。 そこで我々は,標準のバックプロパゲーションによるAdaViProのエンドツーエンド学習を可能にするために,Gumbel-Softmaxサンプリングを利用する。 大規模な実験により、AdaViProは事前訓練されたモデルに適応するための新しい効率性と精度のトレードオフをもたらすことが示された。

Recently, prompt-based methods have emerged as a new alternative `parameter-efficient fine-tuning' paradigm, which only fine-tunes a small number of additional parameters while keeping the original model frozen. However, despite achieving notable results, existing prompt methods mainly focus on `what to add', while overlooking the equally important aspect of `where to add', typically relying on the manually crafted placement. To this end, we propose a region-based Adaptive Visual Prompt, named AdaViPro, which integrates the `where to add' optimization of the prompt into the learning process. Specifically, we reconceptualize the `where to add' optimization as a problem of regional decision-making. During inference, AdaViPro generates a regionalized mask map for the whole image, which is composed of 0 and 1, to designate whether to apply or discard the prompt in each specific area. Therefore, we employ Gumbel-Softmax sampling to enable AdaViPro's end-to-end learning through standard back-propagation. Extensive experiments demonstrate that our AdaViPro yields new efficiency and accuracy trade-offs for adapting pre-trained models.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# LimGen:研究論文の推奨限度作成のためのLCMの提案

LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers ( http://arxiv.org/abs/2403.15529v2 )

ライセンス: Link先を確認
Abdur Rahman Bin Md Faizullah, Ashok Urlana, Rahul Mishra, (参考訳) 限界を調べることは、学術研究のレビュープロセスにおいて重要なステップであり、ある研究が決定性を欠いているか、強化を必要とする側面を明らかにする。 これにより、読者はさらなる研究のためにより広範な意味を考えるのに役立ちます。 本稿では,研究論文におけるSLG(Suggestive Limitation Generation)の課題について紹介する。 我々は,ACLアンソロジーから4068の研究論文とその関連する制限を含む,textbf{\textit{LimGen}}というデータセットをコンパイルする。 提案する制約を生み出すために,大規模言語モデル(LLM)を利用するいくつかのアプローチについて検討し,関連する課題,実践的洞察,潜在的な機会について徹底的に検討する。 私たちのLimGenデータセットとコードは、 \url{https://github.com/arbmf/LimGen}でアクセスできます。

Examining limitations is a crucial step in the scholarly research reviewing process, revealing aspects where a study might lack decisiveness or require enhancement. This aids readers in considering broader implications for further research. In this article, we present a novel and challenging task of Suggestive Limitation Generation (SLG) for research papers. We compile a dataset called \textbf{\textit{LimGen}}, encompassing 4068 research papers and their associated limitations from the ACL anthology. We investigate several approaches to harness large language models (LLMs) for producing suggestive limitations, by thoroughly examining the related challenges, practical insights, and potential opportunities. Our LimGen dataset and code can be accessed at \url{https://github.com/arbmf/LimGen}.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# TrustSQL: ペナルティベースのスコーリングによるテキストとSQLの信頼性のベンチマーク

TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring ( http://arxiv.org/abs/2403.15879v4 )

ライセンス: Link先を確認
Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, (参考訳) Text-to-SQLは、自然言語を使ってデータベースと対話し、情報の検索と合成を簡単にする。 自然言語の質問をSQLクエリに変換する上で,大きな言語モデル(LLM)が著しく成功したにも関わらず,2つの大きな課題があるため,広範なデプロイメントは限定的だ。 第一に、テキストからSQLへのモデルの効果的な利用は、モデルの能力に対するユーザの理解、すなわちモデルが正しく答えられる質問の範囲に依存する。 第二に、控えめなメカニズムがないことは、誤ったSQL生成を気づかないままにし、それによってモデルの出力に対する信頼を損なう可能性がある。 より広範なデプロイメントを実現するためには、モデル設計におけるこれらの課題に対処し、モデル評価を強化し、モデルのアウトプットに対する信頼を構築することが不可欠である。 この目的のために、TrustSQLを紹介した。これは、テキストからSQLまでの信頼性が定義された新しい総合的なベンチマークで、実行不可能な質問に対して正しいSQLクエリを生成し、実行不可能な質問(例えば、スキーマ不互換性やSQL以外の機能のため)を生成することによって、任意のタイプの入力質問を正しく処理する能力として設計されている。 我々は,(1)SQLジェネレータと非現実的質問検出器とSQLエラー検出器を組み合わせたパイプライン方式と,(2)タスク全体に対する単一モデルを用いた統一手法の2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。 我々の実験結果によると、厳しい罰則の下で高いスコアを達成するには多大な努力が必要であり、より安全なデプロイメントのためのテキスト-SQLモデルの開発に新たな視点を提供する。

Text-to-SQL enables users to interact with databases using natural language, simplifying the retrieval and synthesis of information. Despite the remarkable success of large language models (LLMs) in translating natural language questions into SQL queries, widespread deployment remains limited due to two primary challenges. First, the effective use of text-to-SQL models depends on users' understanding of the model's capabilities-the scope of questions the model can correctly answer. Second, the absence of abstention mechanisms can lead to incorrect SQL generation going unnoticed, thereby undermining trust in the model's output. To enable wider deployment, it is crucial to address these challenges in model design and enhance model evaluation to build trust in the model's output. To this end, we introduce TrustSQL, a novel comprehensive benchmark designed to evaluate text-to-SQL reliability-defined as a model's ability to correctly handle any type of input question by generating correct SQL queries for feasible questions and abstaining from generating infeasible ones (e.g., due to schema incompatibility or functionalities beyond SQL). We evaluate existing methods using a novel penalty-based scoring metric with two modeling approaches: (1) pipeline-based methods combining SQL generators with infeasible question detectors and SQL error detectors for abstention; and (2) unified methods using a single model for the entire task. Our experimental results reveal that achieving high scores under severe penalties requires significant effort and provide a new perspective on developing text-to-SQL models for safer deployment.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 教育における学習・分析・人工知能の相互作用

The Interplay of Learning, Analytics, and Artificial Intelligence in Education ( http://arxiv.org/abs/2403.16081v3 )

ライセンス: Link先を確認
Mutlu Cukurova, (参考訳) 本稿では,AIと分析,学習プロセスの複雑な相互作用を強調し,学習と教育におけるAIの役割を多次元的に考察する。 ここでは、生成型AIで実証されたような確率的ツールとしてのAIの狭義の概念化に挑戦し、AIの代替概念化の重要性を論じる。 人工知能と人工情報処理の違い、AIアルゴリズムに固有の認知的多様性、そしてAIが人間の学習を理解するための道具としても役立つことを強調します。 AIを人間の知能のアナロジーと見なした教育研究における初期の学習科学とAIは、この観点から逸脱し、このつながりを再定義する必要が生じた。 本稿では、人間の認知の外部化、人間のメンタルモデルに影響を与えるAIモデルの内部化、密に統合された人間-AIシステムによる人間の認知の拡張という、教育におけるAIのユニークな概念化について述べる。 3つの概念化の事例として、教育における概念化の潜在的な価値と限界、および人間の認知の外部化に対する過剰な強調の危険性を考察した。 AIモデルは、学習のいくつかの側面が学習瞬間の遅い経験から生まれるだけであり、予測によってハックされるAIモデルと完全に説明できないとしても、学習について考えるためのオブジェクトとして有用である、と論じられている。 この論文は、教育におけるAIソリューションの設計と開発を熟考するだけでなく、AIに関する人々を教育することや、AIに不平等な世界に関係のある教育システムを革新することを含む、教育におけるAIに対するより広範なアプローチの擁護で締めくくっている。

This paper presents a multi-dimensional view of AI's role in learning and education, emphasizing the intricate interplay between AI, analytics, and the learning processes. Here, I challenge the prevalent narrow conceptualization of AI as stochastic tools, as exemplified in generative AI, and argue for the importance of alternative conceptualizations of AI. I highlight the differences between human intelligence and artificial information processing, the cognitive diversity inherent in AI algorithms, and posit that AI can also serve as an instrument for understanding human learning. Early learning sciences and AI in Education research, which saw AI as an analogy for human intelligence, have diverged from this perspective, prompting a need to rekindle this connection. The paper presents three unique conceptualizations of AI in education: the externalization of human cognition, the internalization of AI models to influence human mental models, and the extension of human cognition via tightly integrated human-AI systems. Examples from current research and practice are examined as instances of the three conceptualizations, highlighting the potential value and limitations of each conceptualization for education, as well as the perils of overemphasis on externalizing human cognition. It is argued that AI models can be useful as objects to think about learning, even though some aspects of learning might just come through the slow experience of living those learning moments and cannot be fully explained with AI models to be hacked with predictions. The paper concludes with advocacy for a broader approach to AI in Education that goes beyond considerations on the design and development of AI solutions in education, but also includes educating people about AI and innovating educational systems to remain relevant in an AI-ubiquitous world.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# VoiceCraft: 野生でのゼロショット音声編集とテキスト音声編集

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild ( http://arxiv.org/abs/2403.16973v3 )

ライセンス: Link先を確認
Puyuan Peng, Po-Yao Huang, Shang-Wen Li, Abdelrahman Mohamed, David Harwath, (参考訳) 我々は、音声ブック、インターネットビデオ、ポッドキャストの音声編集とゼロショットテキスト音声(TTS)の両方で最先端のパフォーマンスを実現する、トークンを埋め込んだニューラルコーデック言語モデルであるVoiceCraftを紹介した。 VoiceCraftはTransformerデコーダアーキテクチャを採用し、因果マスクと遅延スタックを組み合わせたトークン再構成手順を導入し、既存のシーケンス内で生成を可能にする。 音声編集タスクにおいて、VoiceCraftは、人間によって評価された自然性の観点から、未編集録音とほとんど区別できない編集音声を生成する。 重要な点として、これらのモデルは、多様なアクセント、話し方、録音条件、バックグラウンドノイズと音楽からなる、挑戦的で現実的なデータセットに基づいて評価され、我々のモデルは、他のモデルや実際の録音と比較して一貫してよく機能する。 特に、音声編集評価には、RealEditという高品質で挑戦的で現実的なデータセットを導入します。 私たちは読者に対して、https://jasonppy.github.io/VoiceCraft_web.comでデモを聞くように勧めています。

We introduce VoiceCraft, a token infilling neural codec language model, that achieves state-of-the-art performance on both speech editing and zero-shot text-to-speech (TTS) on audiobooks, internet videos, and podcasts. VoiceCraft employs a Transformer decoder architecture and introduces a token rearrangement procedure that combines causal masking and delayed stacking to enable generation within an existing sequence. On speech editing tasks, VoiceCraft produces edited speech that is nearly indistinguishable from unedited recordings in terms of naturalness, as evaluated by humans; for zero-shot TTS, our model outperforms prior SotA models including VALLE and the popular commercial model XTTS-v2. Crucially, the models are evaluated on challenging and realistic datasets, that consist of diverse accents, speaking styles, recording conditions, and background noise and music, and our model performs consistently well compared to other models and real recordings. In particular, for speech editing evaluation, we introduce a high quality, challenging, and realistic dataset named RealEdit. We encourage readers to listen to the demos at https://jasonppy.github.io/VoiceCraft_web.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# セキュアなアグリゲーションは、メンバーシップ推論攻撃に対してプライベートではない

Secure Aggregation is Not Private Against Membership Inference Attacks ( http://arxiv.org/abs/2403.17775v2 )

ライセンス: Link先を確認
Khac-Hoang Ngo, Johan Östman, Giuseppe Durisi, Alexandre Graell i Amat, (参考訳) セキュアアグリゲーション(SecAgg)は、フェデレーション学習において一般的に使用されるプライバシ強化メカニズムであり、個々の更新の機密性を保護しながら、モデルの更新の集約にのみアクセスすることができる。 SecAggのプライバシ保護機能に関する広範な主張にもかかわらず、そのプライバシに関する公式な分析は欠如しており、そのような推測は正当化されていない。 本稿では、SecAggのプライバシーへの影響を各ローカル更新のローカル差分プライバシ(LDP)メカニズムとして扱うことにより調べる。 本研究では,SecAggのもとでの1回の学習ラウンドにおいて,クライアントが提出したベクタを2つの可能なベクタから識別する単純な攻撃を設計する。 プライバシ監査を行うことで、この攻撃の成功確率を評価し、SecAggが提供するLCP保証を定量化する。 我々の数値結果は、一般的な主張とは対照的に、SecAggは1回のトレーニングラウンドでもメンバーシップ推論攻撃に対して弱いプライバシーを提供します。 実際、更新が高次元である場合、他の独立したローカルアップデートを追加することで、ローカルアップデートを隠すのは難しい。 本研究は,フェデレート学習において,ノイズ注入などの付加的なプライバシ向上機構の必要性を浮き彫りにした。

Secure aggregation (SecAgg) is a commonly-used privacy-enhancing mechanism in federated learning, affording the server access only to the aggregate of model updates while safeguarding the confidentiality of individual updates. Despite widespread claims regarding SecAgg's privacy-preserving capabilities, a formal analysis of its privacy is lacking, making such presumptions unjustified. In this paper, we delve into the privacy implications of SecAgg by treating it as a local differential privacy (LDP) mechanism for each local update. We design a simple attack wherein an adversarial server seeks to discern which update vector a client submitted, out of two possible ones, in a single training round of federated learning under SecAgg. By conducting privacy auditing, we assess the success probability of this attack and quantify the LDP guarantees provided by SecAgg. Our numerical results unveil that, contrary to prevailing claims, SecAgg offers weak privacy against membership inference attacks even in a single training round. Indeed, it is difficult to hide a local update by adding other independent local updates when the updates are of high dimension. Our findings underscore the imperative for additional privacy-enhancing mechanisms, such as noise injection, in federated learning.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# Dual-Unitary Classical Shadow Tomography

Dual-Unitary Classical Shadow Tomography ( http://arxiv.org/abs/2404.01068v2 )

ライセンス: Link先を確認
Ahmed A. Akhtar, Namit Anand, Jeffrey Marshall, Yi-Zhuang You, (参考訳) デュアル・ユニタリ・シャドウ・トモグラフィー (Dual-unitary shadow tomography, DUST) と呼ばれる,デュアル・ユニタリ・ブロック・ウォール・サーキットに基づく古典的なシャドウ・トモグラフィー手法を提案する。 本研究では, 1次元量子ビット系における作用素の拡散とパウリ重みのダイナミクスを, ブロックウォール構造に配置されたランダムな2局所二重単位ゲートによって発展させ, 最終測定層で終止符を打つ。 このことは、パウリ重み移動行列の一般制約を導出し、双対ユニタリ性の場合に特化することによって行う。 まず、双対ユニタリはエントロピー生成の最小限の量でなければならないことを示す。 注目すべきことに、これらの回路に広がる作用素は相対論的量子場理論に類似した豊富な構造を持ち、質量のないカイラル励起は互いに崩壊または融合し、左あるいは右のモーバーと呼ばれる。 固定重み分布から始まるサイト$x$と深さ$t$において非自明な支持を持つ確率を表す$\rho(x,t)$という観点から、パウリ重みの平均場記述を開発する。 我々は$\rho(x,t)$の状態方程式を開発し、モンテカルロシミュレーションを用いて数値シミュレーションを行う。 最後に,二元系回路の高速熱処理特性が,浅いレンガ壁クリフォード回路よりも大きな演算子を予測できることを示す。 この結果は, 二重単体ブロックウォール回路のキラリティによる有限サイズ効果に対して頑健である。

We introduce a classical shadow tomography scheme based on dual-unitary brick-wall circuits termed "dual-unitary shadow tomography" (DUST). For this we study operator spreading and Pauli weight dynamics in one-dimensional qubit systems, evolved by random two-local dual-unitary gates arranged in a brick-wall structure, ending with a final measurement layer. We do this by deriving general constraints on the Pauli weight transfer matrix and specializing to the case of dual-unitarity. We first show that dual-unitaries must have a minimal amount of entropy production. Remarkably, we find that operator spreading in these circuits have a rich structure resembling that of relativistic quantum field theories, with massless chiral excitations that can decay or fuse into each other, which we call left- or right-movers. We develop a mean-field description of the Pauli weight in terms of $\rho(x,t)$, which represents the probability of having nontrivial support at site $x$ and depth $t$ starting from a fixed weight distribution. We develop an equation of state for $\rho(x,t)$, and simulate it numerically using Monte Carlo simulations. Lastly, we demonstrate that the fast-thermalizing properties of dual-unitary circuits make them better at predicting large operators than shallow brick-wall Clifford circuits. Our results are robust to finite-size effects due to the chirality of dual-unitary brick-wall circuits.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# CausalChaos! ダイナミック・ビジュアル・シーンにおける長時間の因果連鎖に対する包括的因果行動質問のためのデータセット

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes ( http://arxiv.org/abs/2404.01299v2 )

ライセンス: Link先を確認
Paritosh Parmar, Eric Peh, Ruirui Chen, Ting En Lam, Yuhan Chen, Elston Tan, Basura Fernando, (参考訳) 因果的ビデオ質問応答(QA)はますます関心を集めているが、既存のデータセットは因果的推論の深さを欠いていることが多い。 このギャップに対処するために、漫画のユニークな特性を活かし、象徴的な「トムとジェリー」の漫画シリーズの上に構築された新しい因果関係のWhy-QAデータセットであるCausalChaos!を構築します。 カートゥーンはアニメーションの原理を使い、アニメーターはイベント間の表現的で曖昧な因果関係を創造し、一貫性のあるストーリーラインを形成する。 これらの特性を利用して、思考を誘発する質問や多段階の回答(回答と詳細な因果説明)を用いて、我々の質問は、キャラクターと視覚シーン間の複数の動的相互作用を相互に関連付ける因果連鎖に関係している。 これらの要因は、より困難で明確に定義された因果関係を解決するためにモデルを要求する。 我々はまた、もっと難しい因果関係に紛らわしいバージョンを含む、ハード不正確な回答マイニングも導入しています。 モデルはうまく機能しますが、特にオープンな回答では改善の余地がたくさんあります。 我々は,視覚と言語のより先進的かつ専門的な因果関係モデリングと共同モデリングを,今後の取り組みの即時領域として特定する。 他の補完的なデータセットとともに、我々の新しい挑戦的なデータセットは、この分野におけるこれらの発展の道を開くだろう。

Causal video question answering (QA) has garnered increasing interest, yet existing datasets often lack depth in causal reasoning. To address this gap, we capitalize on the unique properties of cartoons and construct CausalChaos!, a novel, challenging causal Why-QA dataset built upon the iconic "Tom and Jerry" cartoon series. Cartoons use the principles of animation that allow animators to create expressive, unambiguous causal relationships between events to form a coherent storyline. Utilizing these properties, along with thought-provoking questions and multi-level answers (answer and detailed causal explanation), our questions involve causal chains that interconnect multiple dynamic interactions between characters and visual scenes. These factors demand models to solve more challenging, yet well-defined causal relationships. We also introduce hard incorrect answer mining, including a causally confusing version that is even more challenging. While models perform well, there is much room for improvement, especially, on open-ended answers. We identify more advanced/explicit causal relationship modeling & joint modeling of vision and language as the immediate areas for future efforts to focus upon. Along with the other complementary datasets, our new challenging dataset will pave the way for these developments in the field.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# ノイズNCA:ニューラルセルオートマタの時空間連続性を改善するノイジー種子

NoiseNCA: Noisy Seed Improves Spatio-Temporal Continuity of Neural Cellular Automata ( http://arxiv.org/abs/2404.06279v3 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Sabine Süsstrunk, (参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)はセルオートマタの一種で、ニューラルネットワークによって更新ルールをパラメータ化して、勾配降下を用いてトレーニングすることができる。 本稿では, 反応拡散系を記述する偏微分方程式 (PDE) に着想を得て, テクスチャ合成に使用されるNAAモデルに着目した。 NCAモデルをトレーニングするために、時空間領域を離散化し、オイラー積分を用いてPDEを数値シミュレーションする。 しかし、訓練されたNAAが、対応するPDEによって記述される連続力学を真に学習するかどうか、あるいは単にトレーニングで使用される離散化を過度に適合させるだけなのかは、未解決の問題である。 時空離散化が連続性に近づく極限において, NCA モデルについて検討する。 既存のNAAモデルは、特に「シード」とも呼ばれる初期状態に近い場合、トレーニングの離散化に過度に適合する傾向にある。 そこで本研究では,一様雑音を初期条件とする解を提案する。 本研究では, NCA の動的一貫性を幅広い時空間的粒度にわたって維持する手法の有効性を実証する。 NCAモデルの改良により、パターン生成速度と合成パターンのスケールを連続的に制御し、2つの新しいテスト時間相互作用が可能となった。 インタラクティブなオンラインデモでは、この新しいNAA機能を実演しています。 我々の研究は、NAAモデルが連続力学を学習し、力学系の観点からNAA研究の新たな場を開くことを明らかにしている。

Neural Cellular Automata (NCA) is a class of Cellular Automata where the update rule is parameterized by a neural network that can be trained using gradient descent. In this paper, we focus on NCA models used for texture synthesis, where the update rule is inspired by partial differential equations (PDEs) describing reaction-diffusion systems. To train the NCA model, the spatio-temporal domain is discretized, and Euler integration is used to numerically simulate the PDE. However, whether a trained NCA truly learns the continuous dynamic described by the corresponding PDE or merely overfits the discretization used in training remains an open question. We study NCA models at the limit where space-time discretization approaches continuity. We find that existing NCA models tend to overfit the training discretization, especially in the proximity of the initial condition, also called "seed". To address this, we propose a solution that utilizes uniform noise as the initial condition. We demonstrate the effectiveness of our approach in preserving the consistency of NCA dynamics across a wide range of spatio-temporal granularities. Our improved NCA model enables two new test-time interactions by allowing continuous control over the speed of pattern formation and the scale of the synthesized patterns. We demonstrate this new NCA feature in our interactive online demo. Our work reveals that NCA models can learn continuous dynamics and opens new venues for NCA research from a dynamical system's perspective.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 神経細胞性オートマタの創発的ダイナミクス

Emergent Dynamics in Neural Cellular Automata ( http://arxiv.org/abs/2404.06406v2 )

ライセンス: Link先を確認
Yitao Xu, Ehsan Pajouheshgar, Sabine Süsstrunk, (参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)は、従来のセルオートマタ(CA)の訓練可能なバリエーションである。 NCAによって生成されたパターンの創発的な動きは、動的テクスチャの合成に成功している。 しかし、NAAが動的パターンを表示するのに必要な条件は未解明のままである。 そこで本研究では,NCAアーキテクチャとトレーニングモデルの創発的ダイナミクスとの関係について検討する。 具体的には、MultiLayer Perceptron (MLP) における細胞状態のチャネル数と隠されたニューロン数を変化させ、これら2つの変数の組み合わせと連続したフレーム間の運動強度の関係を描いている。 解析の結果,これらの変数間の相違と比例性は,NCA出力の創発的ダイナミクスと強い相関関係があることが判明した。 そこで我々は動的NAAを作成するための設計原則を提案する。

Neural Cellular Automata (NCA) models are trainable variations of traditional Cellular Automata (CA). Emergent motion in the patterns created by NCA has been successfully applied to synthesize dynamic textures. However, the conditions required for an NCA to display dynamic patterns remain unexplored. Here, we investigate the relationship between the NCA architecture and the emergent dynamics of the trained models. Specifically, we vary the number of channels in the cell state and the number of hidden neurons in the MultiLayer Perceptron (MLP), and draw a relationship between the combination of these two variables and the motion strength between successive frames. Our analysis reveals that the disparity and proportionality between these two variables have a strong correlation with the emergent dynamics in the NCA output. We thus propose a design principle for creating dynamic NCA.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 適応性に制限のある一般化線形帯域

Generalized Linear Bandits with Limited Adaptivity ( http://arxiv.org/abs/2404.06831v3 )

ライセンス: Link先を確認
Ayush Sawarni, Nirjhar Das, Siddharth Barman, Gaurav Sinha, (参考訳) 限定適応性の制約内における一般化線形文脈帯域問題について検討する。 本稿では,2つのアルゴリズム, $\textt{B-GLinCB}$ と $\textt{RS-GLinCB}$ を示す。 最初の設定では、ポリシー更新の件数でM$が支払われると、アルゴリズムは、ポリシーを更新するラウンドを前もってM$が決定され、2つ目の設定では、コース中にM$が適応的にポリシー更新される。 最初の設定では、$M = \Omega\left( \log{\log T} \right)$と腕の特徴ベクトルが確率的に生成されるときに、$\tilde{O}(\sqrt{T})$後悔を引き起こすアルゴリズムを設計する。 2つ目の設定では、アルゴリズム $\texttt{RS-GLinCB}$ のポリシーを更新し、腕の特徴ベクトルが逆向きに生成される場合でも $\tilde{O}(\log^2T)$ の後悔を達成するアルゴリズム $\tilde{O}(\sqrt{T})$ を設計する。 特に、これらのバウンダリにおいて、基礎となる報酬モデルの非線形性をキャプチャするキーインスタンス依存パラメータ $\kappa$ への依存を取り除くことに成功しています。 一般化された文脈的包帯に対するこの依存を除去するための新しいアプローチは、独立した関心事であるかもしれない。

We study the generalized linear contextual bandit problem within the constraints of limited adaptivity. In this paper, we present two algorithms, $\texttt{B-GLinCB}$ and $\texttt{RS-GLinCB}$, that address, respectively, two prevalent limited adaptivity settings. Given a budget $M$ on the number of policy updates, in the first setting, the algorithm needs to decide upfront $M$ rounds at which it will update its policy, while in the second setting it can adaptively perform $M$ policy updates during its course. For the first setting, we design an algorithm $\texttt{B-GLinCB}$, that incurs $\tilde{O}(\sqrt{T})$ regret when $M = \Omega\left( \log{\log T} \right)$ and the arm feature vectors are generated stochastically. For the second setting, we design an algorithm $\texttt{RS-GLinCB}$ that updates its policy $\tilde{O}(\log^2 T)$ times and achieves a regret of $\tilde{O}(\sqrt{T})$ even when the arm feature vectors are adversarially generated. Notably, in these bounds, we manage to eliminate the dependence on a key instance dependent parameter $\kappa$, that captures non-linearity of the underlying reward model. Our novel approach for removing this dependence for generalized linear contextual bandits might be of independent interest.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 遠心分離型遠心分離モデル「Subtle Imaging Perturbations」

Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models ( http://arxiv.org/abs/2404.15081v2 )

ライセンス: Link先を確認
Jingyao Xu, Yuetong Lu, Yandong Li, Siyang Lu, Dongdong Wang, Xiang Wei, (参考訳) 拡散モデル(DM)は、生成モデリングの新しい時代に乗り出し、高品質で現実的なデータサンプルを効率的に生成する機会を提供する。 しかし、彼らの普及した利用はまた、モデルセキュリティにおける新たな課題をもたらし、その脆弱性を理解するためにDM上でより効果的な敵攻撃者を作成する動機となった。 本稿では,遅延拡散モデル(LDM)を効果的に騙すために,コストのかかるトレーニングを必要としない,シンプルで汎用的で効率的なアプローチであるCAATを提案する。 このアプローチは、交差したアテンション層が勾配変化に対する高い感度を示し、公開画像の微妙な摂動を利用して生成された画像を著しく劣化させる、という観察に基づいている。 画像上の微妙な摂動が、関心層に大きく影響することを示し、カスタマイズされた拡散モデルの微調整中にテキストと画像のマッピングを変更する。 広範囲にわたる実験により、CAATは多様な拡散モデルと互換性があり、より効果的な(よりノイズの多い)ベースライン攻撃法と効率の良い(反DreamBoothとMistの2倍の速さ)方法に優れることが示された。

Diffusion models (DMs) embark a new era of generative modeling and offer more opportunities for efficient generating high-quality and realistic data samples. However, their widespread use has also brought forth new challenges in model security, which motivates the creation of more effective adversarial attackers on DMs to understand its vulnerability. We propose CAAT, a simple but generic and efficient approach that does not require costly training to effectively fool latent diffusion models (LDMs). The approach is based on the observation that cross-attention layers exhibits higher sensitivity to gradient change, allowing for leveraging subtle perturbations on published images to significantly corrupt the generated images. We show that a subtle perturbation on an image can significantly impact the cross-attention layers, thus changing the mapping between text and image during the fine-tuning of customized diffusion models. Extensive experiments demonstrate that CAAT is compatible with diverse diffusion models and outperforms baseline attack methods in a more effective (more noise) and efficient (twice as fast as Anti-DreamBooth and Mist) manner.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 大規模言語モデルによるプロトコル実装からの状態マシンの推論

Inferring State Machine from the Protocol Implementation via Large Language Model ( http://arxiv.org/abs/2405.00393v2 )

ライセンス: Link先を確認
Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao, (参考訳) ステートマシンは、より多くの脆弱性を公開するためのプロトコル分析の有効性を高める上で、重要な役割を果たす。 しかし、ネットワークプロトコルの実装からステートマシンを推論する作業は、大きな課題を呈している。 静的解析は複雑なコード構造や振る舞いで困難に直面しているのに対して、動的解析に基づく従来の手法は、カバー範囲が限られているため重要な状態遷移を見落としていることが多い。 これらの制約に対処するため,Large Language Models (LLMs) を利用した革新的な状態マシン推論手法を提案する。 テキスト埋め込み技術を利用することで、LLMはプロトコル実装コードの複雑さを識別し分析することができる。 ターゲットとなるプロンプトエンジニアリングを通じて、基礎となる状態マシンを体系的に同定し、推測する。 提案手法は,6つのプロトコル実装に対して高い有効性を示し,90%を超える精度を実現し,同一プロトコルの各種実装間の状態マシンの差異を導出することに成功した。 重要なことに、このアプローチをプロトコルファジィングと統合することで、AFLNetのコードカバレッジをRFCNLPよりも10%向上させ、ネットワークプロトコルのセキュリティ分析の進歩におけるLLMの潜在可能性を示している。 提案手法は, 精度の高い状態マシン推論において重要な一歩を踏み出すだけでなく, プロトコル実装のセキュリティと信頼性向上のための新たな道を開く。

State machines play a pivotal role in augmenting the efficacy of protocol analyzing to unveil more vulnerabilities. However, the task of inferring state machines from network protocol implementations presents significant challenges. Traditional methods based on dynamic analysis often overlook crucial state transitions due to limited coverage, while static analysis faces difficulties with complex code structures and behaviors. To address these limitations, we propose an innovative state machine inference approach powered by Large Language Models (LLMs). Utilizing text-embedding technology, this method allows LLMs to dissect and analyze the intricacies of protocol implementation code. Through targeted prompt engineering, we systematically identify and infer the underlying state machines. Our evaluation across six protocol implementations demonstrates the method's high efficacy, achieving an accuracy rate exceeding 90% and successfully delineating differences on state machines among various implementations of the same protocol. Importantly, integrating this approach with protocol fuzzing has notably enhanced AFLNet's code coverage by 10% over RFCNLP, showcasing the considerable potential of LLMs in advancing network protocol security analysis. Our proposed method not only marks a significant step forward in accurate state machine inference but also opens new avenues for improving the security and reliability of protocol implementations.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 言語モデルアライメントのためのセルフプレイ選好最適化

Self-Play Preference Optimization for Language Model Alignment ( http://arxiv.org/abs/2405.00675v4 )

ライセンス: Link先を確認
Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu, (参考訳) 従来の人間フィードバックからの強化学習(RLHF)アプローチは、Bradley-Terryモデルのようなパラメトリックモデルに依存している。 近年の進歩は、好みの確率で直接作業することで、人間の好みをより正確に反映し、より柔軟で正確な言語モデルアライメントを可能にすることを示唆している。 本稿では,ナッシュ均衡政策の同定を目的とした,言語モデルアライメントのための自己遊び型手法を提案する。 我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似し、理論的収束を保証する。 提案手法は, 直接選好最適化 (DPO) や同一性選好最適化 (IPO) などの対称的ペアワイズ損失によって, 容易に達成できないような, 選択された応答のログ類似度を効果的に向上し, 拒否された応答のログ類似度を減少させることができる。 実験では,UltraFeedbackデータセットからの60kプロンプトのみを使用し,0.4Bパラメータのみを事前学習した選好モデルPairRMを利用することで,AlpacaEval 2.0のGPT-4-Turboに対して28.53%の精度で精度の高いMistral-7B-Instruct-v0.2からモデルを得ることができた。 また、MT-BenchとOpen LLM Leaderboardで(興味深い)DPOとIPOを上回っている。 より強力なベースモデルであるLlama-3-8B-Instructから、我々は38.77%の勝利率を達成することができる。 特に、SPPOの強い性能は、GPT-4や他の強力な言語モデルから追加の外部監督(例えば、応答、嗜好など)なしで達成される。 コードはhttps://github.com/uclaml/SPPO.comで入手できる。

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys a theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Starting from a stronger base model Llama-3-8B-Instruct, we are able to achieve a length-controlled win rate of 38.77%. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models. Codes are available at https://github.com/uclaml/SPPO.
翻訳日:2024-06-17 18:42:49 公開日:2024-06-14
# 分解PT対称性相におけるスワンソンハミルトニアンの研究に応用した複素スケーリング法

Complex Scaling Method applied to the study of the Swanson Hamiltonian in the broken PT-symmetry phase ( http://arxiv.org/abs/2405.04599v2 )

ライセンス: Link先を確認
Viviano Fernández, Romina Ramírez, Marta Reboiro, (参考訳) 本研究では,スワンソンハミルトニアンの非PT対称性位相を複素スケーリング法(英語版)の枠組みで検討する。 両直交関係を構築することにより、応答関数の形式性を適用して、異なる初期波パッケージの時間的進化を分析する。 演算子のウィグナー関数と平均値は時間の関数として評価される。 例外点近傍の時間進化を詳細に分析する。 システムの連続性方程式を導出する。 複素スケーリング法を用いて得られた結果と,剛ヒルベルト空間での作業によって得られた結果とを比較した。

In this work, we study the non-PT symmetry phase of the Swanson Hamiltonian in the framework of the Complex Scaling Method. By constructing a bi-orthogonality relation, we apply the formalism of the response function to analyse the time evolution of different initial wave packages. The Wigner Functions and mean value of operators are evaluated as a function of time. We analyse in detail the time evolution in the neighbourhood of Exceptional Points. We derive a continuity equation for the system. We compare the results obtained using the Complex Scaling Method to the ones obtained by working in a Rigged Hilbert Space.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# 地下施設における超電導帯電騒音の初観測

First Measurement of Correlated Charge Noise in Superconducting Qubits at an Underground Facility ( http://arxiv.org/abs/2405.04642v2 )

ライセンス: Link先を確認
G. Bratrud, S. Lewis, K. Anyang, A. Colón Cesaní, T. Dyson, H. Magoon, D. Sabhari, G. Spahn, G. Wagner, R. Gualtieri, N. A. Kurinsky, R. Linehan, R. McDermott, S. Sussman, D. J. Temples, S. Uemura, C. Bathurst, G. Cancelo, R. Chen, A. Chou, I. Hernandez, M. Hollister, L. Hsu, C. James, K. Kennard, R. Khatiwada, P. Lukens, V. Novati, N. Raha, S. Ray, R. Ren, A. Rodriguez, B. Schmidt, K. Stifter, J. Yu, D. Baxter, E. Figueroa-Feliciano, D. Bowring, (参考訳) 低閾値粒子検出器のキャラクタリゼーションのために設計された低放射能低温発生施設において、地球の地表から107メートル下を走行する4ビットデバイス上での空間的および時間的関連電荷ジャンプを測定した。 この施設の岩が埋まると、宇宙線ミューオンのフラックスは海面実験室に比べて99%以上減少する。 可動型鉛シールドの4$\pi$カバレッジと組み合わせることで、この施設は、量子ビットデバイス上の電離放射線のフラックスを定量的に制御することができる。 これらの弱電荷感受性クビットの長時間電荷トモグラフィー測定は、クビット島での誘導電荷の不連続ジャンプを捉え、クビット基板と電離放射線の相互作用に対応する。 これらの電荷の速度は、クビットパッケージ上の電離放射線のフラックスと共にスケールし、クビットと同一のクライオスタットで同時に動作する別のエネルギー分解検出器の一連の独立測定によって特徴づけられる。 鉛遮蔽法を用いて最小電荷ジャンプ率0.19$^{+0.04}_{-0.03}$ mHz, 表面試験で測定した値よりも約1桁低いが, 周囲ガンマの減少による予測よりも約8倍高い値が得られる。 我々は、22時間以上連続して4量子ビットを動作させ、3ミリ以上の長さで無相関の電荷ジャンプを行う。

We measure space- and time-correlated charge jumps on a four-qubit device, operating 107 meters below the Earth's surface in a low-radiation, cryogenic facility designed for the characterization of low-threshold particle detectors. The rock overburden of this facility reduces the cosmic ray muon flux by over 99% compared to laboratories at sea level. Combined with 4$\pi$ coverage of a movable lead shield, this facility enables quantifiable control over the flux of ionizing radiation on the qubit device. Long-time-series charge tomography measurements on these weakly charge-sensitive qubits capture discontinuous jumps in the induced charge on the qubit islands, corresponding to the interaction of ionizing radiation with the qubit substrate. The rate of these charge jumps scales with the flux of ionizing radiation on the qubit package, as characterized by a series of independent measurements on another energy-resolving detector operating simultaneously in the same cryostat with the qubits. Using lead shielding, we achieve a minimum charge jump rate of 0.19$^{+0.04}_{-0.03}$ mHz, almost an order of magnitude lower than that measured in surface tests, but a factor of roughly eight higher than expected based on reduction of ambient gammas alone. We operate four qubits for over 22 consecutive hours with zero correlated charge jumps at length scales above three millimeters.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# RAG 会議 LLM に関する調査研究 : 検索型大規模言語モデルに向けて

A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.06211v2 )

ライセンス: Link先を確認
Wenqi Fan, Yujuan Ding, Liangbo Ning, Shijie Wang, Hengyun Li, Dawei Yin, Tat-Seng Chua, Qing Li, (参考訳) AIの最も高度な技術のひとつとして、Retrieval-Augmented Generation(RAG)は、信頼性と最新の外部知識を提供し、多数のタスクに多大な利便性を提供する。 特にAIGC(AI-Generated Content)の時代には、追加知識を提供するための強力な検索能力により、RAGは既存の生成AIが高品質な出力を生成するのを支援することができる。 近年、Large Language Models (LLM) は言語理解と生成において革命的な能力を示しつつも、幻覚や時代遅れの内的知識といった固有の制限に直面している。 最新の補助情報を提供するRAGの強力な能力を考えると、検索型大規模言語モデル(RA-LLM)は、モデルの内部知識にのみ依存するのではなく、外部および権威的な知識ベースを活用してLLMの生成品質を向上する。 本調査では, RA-LLMの既存の研究成果を概観し, アーキテクチャ, トレーニング戦略, 応用の3つの技術的側面を概観する。 予備知識として,LLMの基礎と最近の進歩を紹介する。 次に, LLMにおけるRAGの実用的意義を説明するため, アーキテクチャ, トレーニング戦略, アプリケーション分野の主流となる業務を体系的に検討し, RA-LLMの課題とそれに対応する能力について詳述する。 最後に、より深い洞察を提供するため、今後の研究に向けて、現在の限界といくつかの有望な方向性について論じる。 この調査に関する最新の情報は、https://advanced-recommender-systems.github.io/RAG-Meets-LLMs/にある。

As one of the most advanced techniques in AI, Retrieval-Augmented Generation (RAG) can offer reliable and up-to-date external knowledge, providing huge convenience for numerous tasks. Particularly in the era of AI-Generated Content (AIGC), the powerful capacity of retrieval in providing additional knowledge enables RAG to assist existing generative AI in producing high-quality outputs. Recently, Large Language Models (LLMs) have demonstrated revolutionary abilities in language understanding and generation, while still facing inherent limitations, such as hallucinations and out-of-date internal knowledge. Given the powerful abilities of RAG in providing the latest and helpful auxiliary information, Retrieval-Augmented Large Language Models (RA-LLMs) have emerged to harness external and authoritative knowledge bases, rather than solely relying on the model's internal knowledge, to augment the generation quality of LLMs. In this survey, we comprehensively review existing research studies in RA-LLMs, covering three primary technical perspectives: architectures, training strategies, and applications. As the preliminary knowledge, we briefly introduce the foundations and recent advances of LLMs. Then, to illustrate the practical significance of RAG for LLMs, we systematically review mainstream relevant work by their architectures, training strategies, and application areas, detailing specifically the challenges of each and the corresponding capabilities of RA-LLMs. Finally, to deliver deeper insights, we discuss current limitations and several promising directions for future research. Updated information about this survey can be found at https://advanced-recommender-systems.github.io/RAG-Meets-LLMs/
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# EEG-to-Textモデルは機能しているか?

Are EEG-to-Text Models Working? ( http://arxiv.org/abs/2405.06459v3 )

ライセンス: Link先を確認
Hyejeong Jo, Yiqian Yang, Juhyeok Han, Yiqun Duan, Hui Xiong, Won Hee Lee, (参考訳) この研究は、オープン語彙EEG-to-Text翻訳のための既存のモデルを批判的に分析する。 過去の研究では、評価中に暗黙の教師強制をしばしば採用し、パフォーマンス指標を人工的に膨らませた。 さらに、純粋なノイズ入力に対するモデルパフォーマンスの比較という、重要なベンチマークも欠如していた。 本稿では,脳波信号から真に学習するモデルと,トレーニングデータを記憶するモデルとを区別する手法を提案する。 分析の結果,ノイズデータのモデル性能は脳波データに匹敵することがわかった。 これらの知見は、透過的なレポーティングとノイズ入力による厳密なベンチマークを強調し、EEG-to-Text研究における厳格な評価プラクティスの必要性を強調している。 このアプローチにより、モデル能力の信頼性が向上し、ロバストなEEG-テキスト通信システムへの道が開ける。

This work critically analyzes existing models for open-vocabulary EEG-to-Text translation. We identify a crucial limitation: previous studies often employed implicit teacher-forcing during evaluation, artificially inflating performance metrics. Additionally, they lacked a critical benchmark - comparing model performance on pure noise inputs. We propose a methodology to differentiate between models that truly learn from EEG signals and those that simply memorize training data. Our analysis reveals that model performance on noise data can be comparable to that on EEG data. These findings highlight the need for stricter evaluation practices in EEG-to-Text research, emphasizing transparent reporting and rigorous benchmarking with noise inputs. This approach will lead to more reliable assessments of model capabilities and pave the way for robust EEG-to-Text communication systems.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# Chebyshev Polynomial-based Kolmogorov-Arnold Networks: 非線形関数近似のための効率的なアーキテクチャ

Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation ( http://arxiv.org/abs/2405.07200v3 )

ライセンス: Link先を確認
Sidharth SS, Keerthana AR, Gokul R, Anas KP, (参考訳) 複素非線形関数の正確な近似は、多くの科学および工学領域における根本的な挑戦である。 MLP(Multi-Layer Perceptrons)のような従来のニューラルネットワークアーキテクチャは、高次元関数に存在する複雑なパターンや不規則性を効率的に捉えるのに苦労することが多い。 本稿では,チェビシェフ・コルモゴロフ・アルノルド・ネットワーク(Chebyshev Kolmogorov-Arnold Network)について述べる。 ネットワークのエッジ上のチェビシェフ多項式によってパラメータ化された学習可能な関数を利用することで、Chebyshev Kansは関数近似タスクの柔軟性、効率、解釈性を向上させる。 我々は,数値分類,合成関数近似,フラクタル関数生成の実験を通じて,Chebyshev Kansの有効性を示す。 アブレーション研究を含む包括的評価は、Chebyshev Kansの非線形関数近似における長年の課題に対処する可能性を確認し、様々な科学的・工学的応用におけるさらなる進歩の道を開いた。

Accurate approximation of complex nonlinear functions is a fundamental challenge across many scientific and engineering domains. Traditional neural network architectures, such as Multi-Layer Perceptrons (MLPs), often struggle to efficiently capture intricate patterns and irregularities present in high-dimensional functions. This paper presents the Chebyshev Kolmogorov-Arnold Network (Chebyshev KAN), a new neural network architecture inspired by the Kolmogorov-Arnold representation theorem, incorporating the powerful approximation capabilities of Chebyshev polynomials. By utilizing learnable functions parametrized by Chebyshev polynomials on the network's edges, Chebyshev KANs enhance flexibility, efficiency, and interpretability in function approximation tasks. We demonstrate the efficacy of Chebyshev KANs through experiments on digit classification, synthetic function approximation, and fractal function generation, highlighting their superiority over traditional MLPs in terms of parameter efficiency and interpretability. Our comprehensive evaluation, including ablation studies, confirms the potential of Chebyshev KANs to address longstanding challenges in nonlinear function approximation, paving the way for further advancements in various scientific and engineering applications.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# CinePile: 長いビデオ質問によるデータセットとベンチマーク

CinePile: A Long Video Question Answering Dataset and Benchmark ( http://arxiv.org/abs/2405.08813v2 )

ライセンス: Link先を確認
Ruchit Rawal, Khalid Saifullah, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein, (参考訳) ビデオから1つか数つのランダムフレームを分析することで、これらのデータセットから派生した多くのタスクにうまく取り組むことができる。 この問題に対処するために、我々はCinePileという新しいデータセットとベンチマークを提示する。 本稿では,質問応答データセット作成における革新的アプローチについて詳述し,より進んだLCMを人為的ループで活用し,人為的生データに基づいて構築する方法について述べる。 包括的データセットは、時間的理解、人間と物体の相互作用の理解、シーン内の出来事や行動の推論など、視覚的およびマルチモーダルな側面をカバーする305,000の多重選択質問(MCQ)から構成される。 さらに、我々のデータセットのテスト分割に基づいて、最近のビデオ中心のLCM(オープンソースとプロプライエタリの両方)を評価した。 その結果、現在最先端のビデオ中心のLLMでさえ、これらのタスクにおいて人間のパフォーマンスが著しく遅れており、ビデオ理解に固有の複雑さと課題が浮かび上がっていることがわかった。 データセットはhttps://hf.co/datasets/tomg-group-umd/cinepileで利用可能である。

Current datasets for long-form video understanding often fall short of providing genuine long-form comprehension challenges, as many tasks derived from these datasets can be successfully tackled by analyzing just one or a few random frames from a video. To address this issue, we present a novel dataset and benchmark, CinePile, specifically designed for authentic long-form video understanding. This paper details our innovative approach for creating a question-answer dataset, utilizing advanced LLMs with human-in-the-loop and building upon human-generated raw data. Our comprehensive dataset comprises 305,000 multiple-choice questions (MCQs), covering various visual and multimodal aspects, including temporal comprehension, understanding human-object interactions, and reasoning about events or actions within a scene. Additionally, we evaluate recent video-centric LLMs, both open-source and proprietary, on the test split of our dataset. The findings reveal that even state-of-the-art video-centric LLMs significantly lag behind human performance in these tasks, highlighting the complexity and challenge inherent in video understanding. The dataset is available at https://hf.co/datasets/tomg-group-umd/cinepile
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# RDRec : LLMによるレコメンデーションのためのRationale蒸留

RDRec: Rationale Distillation for LLM-based Recommendation ( http://arxiv.org/abs/2405.10587v2 )

ライセンス: Link先を確認
Xinfeng Wang, Jin Cui, Yoshimi Suzuki, Fumiyo Fukumoto, (参考訳) 大規模言語モデル (LLM) に基づく推薦モデルでは, ユーザや項目をテキストのプロンプトでブリッジし, 意味的推論を効果的に行うことが注目されている。 しかしながら、ユーザー好みやアイテム属性などのインタラクションの背後にある理論的根拠を考慮し、レコメンデーションのためのLLMの推論能力を制限する方法はほとんどない。 本稿では,より大きな言語モデル (LM) が生成する有理性を学習するためのコンパクトモデルである,有理蒸留推薦器 (RDRec) を提案する。 ユーザやアイテムに関するレビューの合理性を活用することで、RDRecはレコメンデーションのためにプロファイルを明確に指定する。 実験により、RDRecはトップNとシーケンシャルレコメンデーションの両方で最先端(SOTA)のパフォーマンスを達成することが示された。 ソースコードはhttps://github.com/WangXFng/RDRec.comで公開されています。

Large language model (LLM)-based recommender models that bridge users and items through textual prompts for effective semantic reasoning have gained considerable attention. However, few methods consider the underlying rationales behind interactions, such as user preferences and item attributes, limiting the reasoning capability of LLMs for recommendations. This paper proposes a rationale distillation recommender (RDRec), a compact model designed to learn rationales generated by a larger language model (LM). By leveraging rationales from reviews related to users and items, RDRec remarkably specifies their profiles for recommendations. Experiments show that RDRec achieves state-of-the-art (SOTA) performance in both top-N and sequential recommendations. Our source code is released at https://github.com/WangXFng/RDRec.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# スピン鎖と相互作用する3量子系における量子絡み合いのダイナミクス

Quantum entanglement dynamics in a three-qubit system interacting with a spin chain ( http://arxiv.org/abs/2405.11031v2 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本稿では,スピン鎖環境下での3量子状態の絡み合い進化について検討する。 エンタングルメント評価の指標として負性性を用いることにより,初期状態としてGHZ,W,W_zeta量子状態に着目した。 種々のパラメータに基づいて,これらの状態の絡み合いのダイナミクスを探索し,解析する。

In this article, we investigate the entanglement evolution of three-qubit states in the presence of a spin chain environment. Utilizing negativity as a metric for entanglement assessment, we focus on the GHZ, W, and W_zeta quantum states as the initial system states. We explore and analyze the entanglement dynamics of these states based on various parameters.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# 説明可能なグラフニューラルネットワークによる複雑多段階攻撃の検出

Detecting Complex Multi-step Attacks with Explainable Graph Neural Network ( http://arxiv.org/abs/2405.11335v2 )

ライセンス: Link先を確認
Wei Liu, Peng Gao, Haotian Zhang, Ke Li, Weiyong Yang, Xingshen Wei, Jiwu Shu, (参考訳) 複雑な多段階攻撃は、多くの重要なインフラに大きな損傷を与えた。 このような攻撃を検出するために、グラフニューラルネットワークに基づく手法は、システムのイベントをグラフとしてモデル化することで、有望な結果を示している。 しかし、既存のメソッドは、実際にデプロイする際にも、いくつかの課題に直面している。 第一に、特に大量の通常のデータを考えると、十分な実際の攻撃データが不足している。 第二に、イベントグラフのモデリングは、その動的で不均一な性質のために困難である。 第三に、学習モデルにおける説明の欠如は、生産環境におけるそのような手法の信頼性を損なう。 そこで本稿では,攻撃検出手法であるTrace2Vecを提案する。 このアプローチはまず、希少な攻撃サンプルを増やすための浸食関数を設計し、イベントグラフに統合する。 次に、連続時間動的異種グラフニューラルネットワークを介してイベントグラフをモデル化する。 最後に、モンテカルロ木探索アルゴリズムを用いて、攻撃により大きな貢献をした事象を識別し、検出結果の説明可能性を高める。 我々はTrace2Vecのプロトタイプを実装し、実験により既存の手法と比較して優れた検出性能と説明性能を示した。

Complex multi-step attacks have caused significant damage to numerous critical infrastructures. To detect such attacks, graph neural network based methods have shown promising results by modeling the system's events as a graph. However, existing methods still face several challenges when deployed in practice. First, there is a lack of sufficient real attack data especially considering the large volume of normal data. Second, the modeling of event graphs is challenging due to their dynamic and heterogeneous nature. Third, the lack of explanation in learning models undermines the trustworthiness of such methods in production environments. To address the above challenges, in this paper, we propose an attack detection method, Trace2Vec. The approach first designs an erosion function to augment rare attack samples, and integrates them into the event graphs. Next, it models the event graphs via a continuous-time dynamic heterogeneous graph neural network. Finally, it employs the Monte Carlo tree search algorithm to identify events with greater contributions to the attack, thus enhancing the explainability of the detection result. We have implemented a prototype for Trace2Vec, and the experimental evaluations demonstrate its superior detection and explanation performance compared to existing methods.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# Ada-HGNN: スケーラブルハイパーグラフニューラルネットワークの適応サンプリング

Ada-HGNN: Adaptive Sampling for Scalable Hypergraph Neural Networks ( http://arxiv.org/abs/2405.13372v3 )

ライセンス: Link先を確認
Shuai Wang, David W. Zhang, Jia-Hong Huang, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring, (参考訳) ハイパーグラフは、社会的から生物学的ネットワークに至るまで、様々な現実世界のシナリオにおける複雑な接続を描写するための効果的なモデルとして機能する。 ハイパーグラフニューラルネットワーク(HGNN)の開発は、メモリ制限のためにスケーラビリティが顕著な課題であるが、データ内の複雑な関連を管理する貴重な方法として登場した。 本研究では,ハイパーグラフに特化して設計された新しい適応サンプリング手法を提案する。 また,RHA(Random Hyperedge Augmentation)技術とMLP(Multilayer Perceptron)モジュールを付加して,提案手法の堅牢性と一般化性を向上させる。 実世界のデータセットを用いた詳細な実験により,従来のHGNNなどのベースラインモデルに類似した性能を維持しつつ,計算とメモリの要求を著しく低減し,本手法の有効性が証明された。 本研究は,大規模アプリケーションにおけるHGNNのスケーラビリティと有効性を両立させる方法である。 また、コードベースの公開も行います。

Hypergraphs serve as an effective model for depicting complex connections in various real-world scenarios, from social to biological networks. The development of Hypergraph Neural Networks (HGNNs) has emerged as a valuable method to manage the intricate associations in data, though scalability is a notable challenge due to memory limitations. In this study, we introduce a new adaptive sampling strategy specifically designed for hypergraphs, which tackles their unique complexities in an efficient manner. We also present a Random Hyperedge Augmentation (RHA) technique and an additional Multilayer Perceptron (MLP) module to improve the robustness and generalization capabilities of our approach. Thorough experiments with real-world datasets have proven the effectiveness of our method, markedly reducing computational and memory demands while maintaining performance levels akin to conventional HGNNs and other baseline models. This research paves the way for improving both the scalability and efficacy of HGNNs in extensive applications. We will also make our codebase publicly accessible.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# Sunnie:メンタル・ウェルビーイング・アクティビティ・レコメンデーションのための人間型LDMベースの会話エージェント

Sunnie: An Anthropomorphic LLM-Based Conversational Agent for Mental Well-Being Activity Recommendation ( http://arxiv.org/abs/2405.13803v2 )

ライセンス: Link先を確認
Siyi Wu, Feixue Han, Bingsheng Yao, Tianyi Xie, Xuan Zhao, Dakuo Wang, (参考訳) 精神福祉支援における長年の課題は、モチベーションの欠如、信頼感の低さ、リコメンデーションの個人化の制限など、心理的に有益な活動を採用する人々の寛容さである。 チャットボットは、ポジティブなメンタルヘルスの実践を促進することを約束している。 本研究では,人間型デザイン(LLMのペルソナデザインと会話体験デザインの両方)が,システムに対するユーザの認識を高め,メンタル・ウェルビーイング・アクティビティ・レコメンデーションを採用する意思を高めることができるかどうかを考察する。 この目的のために我々は,多ターン会話を通じてパーソナライズされた幸福感支援と,ポジティブ心理学と社会心理学に基づく実践的行動の推奨を目的とした,人為的LLMベースの会話エージェントであるSunnieを紹介した。 Sunnieのユーザエクスペリエンスと従来のサーベイベースのアクティビティレコメンデーションシステムを比較した実証的ユーザスタディでは,Sunnieの人為的特性がユーザのシステムに対する認識と全体のユーザビリティを著しく向上させることが示唆された。

A longstanding challenge in mental well-being support is the reluctance of people to adopt psychologically beneficial activities, often due to lack of motivation, low perceived trustworthiness, and limited personalization of recommendations. Chatbots have shown promise in promoting positive mental health practices, yet their rigid interaction flows and less human-like conversational experiences present significant limitations. In this work, we explore whether the anthropomorphic design (both LLM's persona design and conversational experience design) can enhance users' perception of the system and their willingness to adopt mental well-being activity recommendations. To this end, we introduce Sunnie, an anthropomorphic LLM-based conversational agent designed to offer personalized well-being support through multi-turn conversation and recommend practical actions grounded in positive psychology and social psychology. An empirical user study comparing the user experience with Sunnie and with a traditional survey-based activity recommendation system suggests that the anthropomorphic characteristics of Sunnie significantly enhance users' perception of the system and the overall usability; nevertheless, users' willingness to adopt activity recommendations did not change significantly.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# より少ない - 簡潔なネットワーク説明の発見

Less is More: Discovering Concise Network Explanations ( http://arxiv.org/abs/2405.15243v2 )

ライセンス: Link先を確認
Neehar Kondapaneni, Markus Marks, Oisin MacAodha, Pietro Perona, (参考訳) 本稿では,深層画像分類器の解釈可能性を高めるために,人間の理解可能な視覚的説明を生成する新しい手法であるDiscovering Conceptual Network Explanations (DCNE)を紹介する。 本手法は,クラス間の識別に重要な視覚的説明を自動的に見つける。 これは3つの基準を同時に最適化することで達成される。 提案手法は,最近導入されたCRP(Concept Relevance Propagation)の説明可能性に基づく。 CRPは個々の神経細胞の活性化を記述するのに効果的であるが、概念が多すぎるため、人間の理解に影響を及ぼす。 その代わり、DCNEはいくつかの重要な説明を選択する。 我々は,鳥の分類を課題とする新たな評価データセットを導入し,DCNEの説明のアライメントと人間の専門家による説明のアライメントを比較した。 既存のeXplainable Artificial Intelligence (XAI)法と比較して、DCNEはネットワーク説明を要約する際の簡潔さと完全性の間に望ましいトレードオフがある。 CRPの説明の1/30を生成するが、説明の質はわずかに低下する。 DCNEは、ニューラルネットワークの決定を人間にアクセスし、解釈できるようにするための一歩であり、XAIの研究者と実践者の両方にとって貴重なツールとモデルアライメントを提供する。

We introduce Discovering Conceptual Network Explanations (DCNE), a new approach for generating human-comprehensible visual explanations to enhance the interpretability of deep neural image classifiers. Our method automatically finds visual explanations that are critical for discriminating between classes. This is achieved by simultaneously optimizing three criteria: the explanations should be few, diverse, and human-interpretable. Our approach builds on the recently introduced Concept Relevance Propagation (CRP) explainability method. While CRP is effective at describing individual neuronal activations, it generates too many concepts, which impacts human comprehension. Instead, DCNE selects the few most important explanations. We introduce a new evaluation dataset centered on the challenging task of classifying birds, enabling us to compare the alignment of DCNE's explanations to those of human expert-defined ones. Compared to existing eXplainable Artificial Intelligence (XAI) methods, DCNE has a desirable trade-off between conciseness and completeness when summarizing network explanations. It produces 1/30 of CRP's explanations while only resulting in a slight reduction in explanation quality. DCNE represents a step forward in making neural network decisions accessible and interpretable to humans, providing a valuable tool for both researchers and practitioners in XAI and model alignment.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# Decompose and Aggregate: ステップバイステップの解釈可能な評価フレームワーク

Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework ( http://arxiv.org/abs/2405.15329v2 )

ライセンス: Link先を確認
Minzhi Li, Zhengyuan Liu, Shumin Deng, Shafiq Joty, Nancy F. Chen, Min-Yen Kan, (参考訳) LLM(Large Language Models)研究の加速により、生成されたテキストを評価する新たな可能性が生まれた。 それらはスケーラブルで経済的な評価者として機能するが、これらの評価者がどの程度信頼できるかという問題は重要な研究課題として浮上している。 審査員としてのLCMのメタ評価における先行研究は、LCMの推進を単一の用途に制限し、最終的な評価決定を得る。 すると、LLMの出力と人間のラベルとの合意を計算する。 これはLLMの評価能力を理解する上での解釈可能性に欠ける。 この課題を踏まえて、我々は、評価プロセスを教育実践に基づいて異なる段階に分解するDecompose and Aggregateを提案する。 実験の結果,LLM の評価精度が向上するだけでなく,様々なメタ評価ベンチマークの異なる LLM に対して 39.6% の改善がもたらされた。

The acceleration of Large Language Models (LLMs) research has opened up new possibilities for evaluating generated texts. They serve as scalable and economical evaluators, but the question of how reliable these evaluators are has emerged as a crucial research question. Prior research efforts in the meta-evaluation of LLMs as judges limit the prompting of an LLM to a single use to obtain a final evaluation decision. They then compute the agreement between LLMs' outputs and human labels. This lacks interpretability in understanding the evaluation capability of LLMs. In light of this challenge, we propose Decompose and Aggregate, which breaks down the evaluation process into different stages based on pedagogical practices. Our experiments illustrate that it not only provides a more interpretable window for how well LLMs evaluate, but also leads to improvements up to 39.6% for different LLMs on a variety of meta-evaluation benchmarks.
翻訳日:2024-06-17 18:33:01 公開日:2024-06-14
# 平均場ニューラルネットワークにおける粒子近似誤差の改善

Improved Particle Approximation Error for Mean Field Neural Networks ( http://arxiv.org/abs/2405.15767v2 )

ライセンス: Link先を確認
Atsushi Nitanda, (参考訳) MFLD(Mean-field Langevin dynamics)は、確率分布の空間上で定義されるエントロピー規則化された非線形凸関数を最小化する。 MFLDは平均場2層ニューラルネットワークの雑音勾配勾配と接続しているため注目されている。 通常のランゲヴィン力学とは異なり、目的関数の非線形性は粒子の相互作用を誘導し、有限粒子設定における力学を近似するために複数の粒子を必要とする。 最近の研究(Chen et al , 2022; Suzuki et al , 2023b)は、MFLDのカオスの時間内均一伝播を実証し、粒子の数が増加するにつれて粒子系と平均場限界のギャップが時間とともに一様に縮むことを示した。 本研究では粒子近似誤差における対数的ソボレフ不等式(LSI)定数の依存性を改善し,正則化係数で指数関数的に劣化させることができる。 具体的には、リスク最小化における問題構造を活用することにより、目的ギャップに関するLSI-コンスタントフリー粒子近似誤差を確立する。 適用例として,MFLDの収束性の向上,平均場定常分布のサンプリング保証,および粒子の複雑度の観点からのカオスの均一時間Wasserstein伝播を示す。

Mean-field Langevin dynamics (MFLD) minimizes an entropy-regularized nonlinear convex functional defined over the space of probability distributions. MFLD has gained attention due to its connection with noisy gradient descent for mean-field two-layer neural networks. Unlike standard Langevin dynamics, the nonlinearity of the objective functional induces particle interactions, necessitating multiple particles to approximate the dynamics in a finite-particle setting. Recent works (Chen et al., 2022; Suzuki et al., 2023b) have demonstrated the uniform-in-time propagation of chaos for MFLD, showing that the gap between the particle system and its mean-field limit uniformly shrinks over time as the number of particles increases. In this work, we improve the dependence on logarithmic Sobolev inequality (LSI) constants in their particle approximation errors, which can exponentially deteriorate with the regularization coefficient. Specifically, we establish an LSI-constant-free particle approximation error concerning the objective gap by leveraging the problem structure in risk minimization. As the application, we demonstrate improved convergence of MFLD, sampling guarantee for the mean-field stationary distribution, and uniform-in-time Wasserstein propagation of chaos in terms of particle complexity.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# SLoPe:LDMの2段式スパースプラスラジローランドアダプタプレトレーニング

SLoPe: Double-Pruned Sparse Plus Lazy Low-Rank Adapter Pretraining of LLMs ( http://arxiv.org/abs/2405.16325v2 )

ライセンス: Link先を確認
Mohammad Mozaffari, Amir Yazdanbakhsh, Zhao Zhang, Maryam Mehri Dehnavi, (参考訳) SLoPeは,スパルスLLMの精度を向上し,プリトレーニングと推論の高速化とメモリフットプリントの削減を図る。 LLMのスパース事前トレーニングはモデルの精度を低下させ、これを克服するため、以前の作業では微調整中に高密度モデルを使用する。 SLoPeは、モデルの事前学習と推論にかなりのオーバーヘッドを加えることなく、最終1%の繰り返しに低ランクのアダプタを追加することで、疎い事前学習モデルの精度を向上させる。 さらに、SLoPeは、N:M空間構造を用いて重み付けされた重み付け行列をプーンし、加速されたスパース後方通過を可能にするダブルプルーニングされた後方通過定式化を使用する。 SLoPeは、数十億ドルのパラメータを持つモデルのトレーニングと推論をそれぞれ1.14\times$と1.34\times$(OPT-33BとOPT-66B)まで加速し、メモリ使用量を最大0.77\times$と0.51\times$に減らした。

We propose SLoPe, a Double-Pruned Sparse Plus Lazy Low-rank Adapter Pretraining method for LLMs that improves the accuracy of sparse LLMs while accelerating their pretraining and inference and reducing their memory footprint. Sparse pretraining of LLMs reduces the accuracy of the model, to overcome this, prior work uses dense models during fine-tuning. SLoPe improves the accuracy of sparsely pretrained models by adding low-rank adapters in the final 1% iterations of pretraining without adding significant overheads to the model pretraining and inference. In addition, SLoPe uses a double-pruned backward pass formulation that prunes the transposed weight matrix using N:M sparsity structures to enable an accelerated sparse backward pass. SLoPe accelerates the training and inference of models with billions of parameters up to $1.14\times$ and $1.34\times$ respectively (OPT-33B and OPT-66B) while reducing their memory usage by up to $0.77\times$ and $0.51\times$ for training and inference respectively.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# 3次相互作用を持つスピン鎖に結合した3量子W_zeta量子状態の量子絡み合いダイナミクス

Quantum entanglement dynamics of the three-qubit W_zeta quantum state coupled to spin chain with ternary interaction ( http://arxiv.org/abs/2405.16404v2 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本研究では,W_zeta量子状態に対する負性基準を用いた量子絡み合いのダイナミクスについて検討する。 異方性パラメータ,ガンマ,スピン鎖に印加する外部磁場の強度,eta,三重相互作用強度,アルファの負性率の変化について検討した。 これらのパラメータがシステムの絡み合い特性にどのように影響するかを考察し、量子情報処理や量子通信プロトコルにおける影響について考察する。 異なる条件下でのW_zeta状態の負性性を分析することにより、複素量子系の絡み合いの挙動に関する洞察を得る。 量子エンタングルメントに影響を及ぼす様々な要因間の複雑な相互作用に光を当て、この研究分野におけるさらなる研究の基盤を提供する。

In this study, we explore the dynamics of quantum entanglement using the negativity criterion for the W_zeta quantum state. We investigate changes in negativity in terms of anisotropy parameters, gamma, the strength of the external magnetic field applied to the spin chain, eta, the triple interaction strength, alpha. We examine how these parameters affect the entanglement properties of the system and discuss the implications for quantum information processing and quantum communication protocols. By analyzing the negativity of the W_zeta state under different conditions, we gain insights into the behaviour of entanglement in complex quantum systems. Our results shed light on the intricate interplay between various factors that influence quantum entanglement and provide a foundation for further investigations in this field of research.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# サブトークンの除去による文字レベルの文字入力

Empowering Character-level Text Infilling by Eliminating Sub-Tokens ( http://arxiv.org/abs/2405.17103v2 )

ライセンス: Link先を確認
Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Hongsheng Li, (参考訳) 入力タスクでは、完全なトークンが2つの部分に分割されたインスタンスを表すサブトークンが、プレフィックス、ミドル、接尾辞の境界に現れることが多い。 従来の方法ではトークンレベルでのトレーニングモデルに重点を置いていたため、推論段階での文字レベルのインフィルタスクでは、サブ最適化のパフォーマンスが向上した。 代替として、一部のアプローチでは文字レベルの補充を考慮したが、推論におけるサブトークンの予測に頼っていたが、この戦略はサブトークン上でのモデルの難易度が大きいため、文字レベルの補充タスクの能力を低下させた。 本稿では,FIM-SE(Fill-In-the-Middle)とEnding文字制約(Ending文字制約)を併用したFIM-SEを提案する。 提案手法は,任意のサブトークン推論の予測を避けるために,行レベルの形式を用いることで,文字レベルの入力タスクに対処する。 さらに、2つの特別なトークンを組み込んで、残りの不完全な行を表現し、生成指導を強化する。 大規模な実験により,提案手法が従来の手法を超えることが示され,大きな優位性が得られた。 コードはhttps://github.com/SenseLLM/FIM-SEで入手できる。

In infilling tasks, sub-tokens, representing instances where a complete token is segmented into two parts, often emerge at the boundaries of prefixes, middles, and suffixes. Traditional methods focused on training models at the token level, leading to sub-optimal performance in character-level infilling tasks during the inference stage. Alternately, some approaches considered character-level infilling, but they relied on predicting sub-tokens in inference, yet this strategy diminished ability in character-level infilling tasks due to the large perplexity of the model on sub-tokens. In this paper, we introduce FIM-SE, which stands for Fill-In-the-Middle with both Starting and Ending character constraints. The proposed method addresses character-level infilling tasks by utilizing a line-level format to avoid predicting any sub-token in inference. In addition, we incorporate two special tokens to signify the rest of the incomplete lines, thereby enhancing generation guidance. Extensive experiments demonstrate that our proposed approach surpasses previous methods, offering a significant advantage. Code is available at https://github.com/SenseLLM/FIM-SE.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# 機械学習による4サイクルの予測:米国とユーロゾンを事例として

Forecasting Four Business Cycle Phases Using Machine Learning: A Case Study of US and EuroZone ( http://arxiv.org/abs/2405.17170v2 )

ライセンス: Link先を確認
Elvys Linhares Pontes, Mohamed Benjannet, Raymond Yung, (参考訳) ビジネスサイクルを理解することは、経済の安定の構築、事業計画の指導、投資決定の実行に不可欠である。 ビジネス・サイクル(ビジネス・サイクル)とは、長期にわたる経済活動の拡大と縮小のパターンをいう。 経済分析は本質的に複雑で、無数の要因(マクロ経済指標、政治的決定など)を取り入れている。 この複雑さは、経済の現在の状態を決定し、今後数ヶ月で将来の軌道を予測する際に、すべての変数を十分に考慮するのは難しい。 本研究の目的は、米国とユーロゾーンにおけるビジネスフェーズ(拡大、減速、景気後退、景気回復)を予測し、経済状況を自動的に分析する機械学習モデルの能力を検討することである。 我々は、ビジネスサイクルのフェーズを分類するための3つの異なる機械学習アプローチを比較し、その中で、MLR(Multinomial Logistic Regression)が最良の結果を得た。 具体的には、MLRは65.25%(Top1)、84.74%(Top2)、75%(Top1)、92.14%(Top2)の精度を達成した。 これらの結果は、ビジネスサイクルを正確に予測する機械学習技術の可能性を示し、経済と金融の分野における情報的意思決定を支援する。

Understanding the business cycle is crucial for building economic stability, guiding business planning, and informing investment decisions. The business cycle refers to the recurring pattern of expansion and contraction in economic activity over time. Economic analysis is inherently complex, incorporating a myriad of factors (such as macroeconomic indicators, political decisions). This complexity makes it challenging to fully account for all variables when determining the current state of the economy and predicting its future trajectory in the upcoming months. The objective of this study is to investigate the capacity of machine learning models in automatically analyzing the state of the economic, with the goal of forecasting business phases (expansion, slowdown, recession and recovery) in the United States and the EuroZone. We compared three different machine learning approaches to classify the phases of the business cycle, and among them, the Multinomial Logistic Regression (MLR) achieved the best results. Specifically, MLR got the best results by achieving the accuracy of 65.25% (Top1) and 84.74% (Top2) for the EuroZone and 75% (Top1) and 92.14% (Top2) for the United States. These results demonstrate the potential of machine learning techniques to predict business cycles accurately, which can aid in making informed decisions in the fields of economics and finance.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# 層別編集による大規模言語モデルのジェイルブレイク攻撃対策

Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing ( http://arxiv.org/abs/2405.18166v2 )

ライセンス: Link先を確認
Wei Zhao, Zhe Li, Yige Li, Ye Zhang, Jun Sun, (参考訳) 大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。 最近の研究では、LLMは人間のフィードバックからの強化学習や監督された微調整を通したとしても、意図的に敵のプロンプトを作るのに弱いことが示されている。 既存の防衛方法は、有害なプロンプトの検出や、有害な応答の可能性の軽減に重点を置いているが、LDMの内部メカニズムに基づくジェイルブレイク攻撃に対するLLMの防御は、ほとんど未解明のままである。 本研究では, LLM が有害なプロンプトに対してどのように反応するかを調査し, 脱獄攻撃に対する LLM の弾力性を高めるための新しい防御法である \textbf{L}ayer-specific \textbf{Ed}iting (LED) を提案する。 LEDを通して、LLMの初期層にはいくつかの重要な \textit{safety layer} が存在することを明らかにした。 次に、これらの安全層(およびいくつかの選択された追加層)を、選択された対象層から復号された安全応答で実現することにより、脱獄攻撃に対するLCMのアライメントを大幅に改善できることを示す。 LLM(例えば、Llama2、Mistral)にわたる広範囲にわたる実験は、LEDの有効性を示している。 私たちのコードは \url{https://github.com/ledllm/ledllm} で利用可能です。

Large language models (LLMs) are increasingly being adopted in a wide range of real-world applications. Despite their impressive performance, recent studies have shown that LLMs are vulnerable to deliberately crafted adversarial prompts even when aligned via Reinforcement Learning from Human Feedback or supervised fine-tuning. While existing defense methods focus on either detecting harmful prompts or reducing the likelihood of harmful responses through various means, defending LLMs against jailbreak attacks based on the inner mechanisms of LLMs remains largely unexplored. In this work, we investigate how LLMs response to harmful prompts and propose a novel defense method termed \textbf{L}ayer-specific \textbf{Ed}iting (LED) to enhance the resilience of LLMs against jailbreak attacks. Through LED, we reveal that several critical \textit{safety layers} exist among the early layers of LLMs. We then show that realigning these safety layers (and some selected additional layers) with the decoded safe response from selected target layers can significantly improve the alignment of LLMs against jailbreak attacks. Extensive experiments across various LLMs (e.g., Llama2, Mistral) show the effectiveness of LED, which effectively defends against jailbreak attacks while maintaining performance on benign prompts. Our code is available at \url{https://github.com/ledllm/ledllm}.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# Gemini & Physical World: 大規模言語モデルはマルチモーダルソーシャルメディアポストから地震の震度を推定できる

Gemini & Physical World: Large Language Models Can Estimate the Intensity of Earthquake Shaking from Multi-Modal Social Media Posts ( http://arxiv.org/abs/2405.18732v3 )

ライセンス: Link先を確認
S. Mostafa Mousavi, Marc Stogaitis, Tajinder Gadh, Richard M Allen, Alexei Barski, Robert Bosch, Patrick Robertson, Nivetha Thiruverahan, Youngmin Cho, Aman Raj, (参考訳) 本稿では,マルチモーダルなソーシャルメディア投稿など,従来と異なる情報源から,地球物理現象に関する科学的に価値のある情報を抽出するための新しいアプローチを提案する。 現状の大規模言語モデル (LLM) , Gemini 1.5 Pro (Reid et al 2024) を用いて, これらの非構造ポストから震源震度を推定する。 このモデルの出力は、MMI(Modified Mercalli Intensity)値の形で、独立した観測データとよく一致している。 さらに, LLMは, 膨大なインターネットデータに基づいて訓練され, 物理現象のユニークな理解が得られた可能性が示唆された。 具体的には、GoogleのGeminiモデルは、地震の大きさ、距離、MMI強度の一般的な関係を単純化した理解を示し、既存のモデルと同一ではないにもかかわらず、観測データを正確に記述している。 これらの発見は、ジェミニの訓練が物理的世界とその現象のより広い理解に繋がった程度について興味深い疑問を提起する。 Geminiのような生成AIモデルが、確立した科学的知識と整合した結果を生成する能力は、地震のような複雑な物理現象に対する理解を深める可能性を強調している。 本研究で提案されるフレキシブルかつ効果的なアプローチは, 自然災害時の物理的現象の影響の理解を深め, レジリエンスを向上させる大きな可能性を秘めている。 この研究は、ソーシャルメディアとAIの力を自然災害軽減に活用するための重要なステップであり、科学応用のためのジェネレーティブAIとLLMの出現する能力を理解するための新たな道を開く。

This paper presents a novel approach to extract scientifically valuable information about Earth's physical phenomena from unconventional sources, such as multi-modal social media posts. Employing a state-of-the-art large language model (LLM), Gemini 1.5 Pro (Reid et al. 2024), we estimate earthquake ground shaking intensity from these unstructured posts. The model's output, in the form of Modified Mercalli Intensity (MMI) values, aligns well with independent observational data. Furthermore, our results suggest that LLMs, trained on vast internet data, may have developed a unique understanding of physical phenomena. Specifically, Google's Gemini models demonstrate a simplified understanding of the general relationship between earthquake magnitude, distance, and MMI intensity, accurately describing observational data even though it's not identical to established models. These findings raise intriguing questions about the extent to which Gemini's training has led to a broader understanding of the physical world and its phenomena. The ability of Generative AI models like Gemini to generate results consistent with established scientific knowledge highlights their potential to augment our understanding of complex physical phenomena like earthquakes. The flexible and effective approach proposed in this study holds immense potential for enriching our understanding of the impact of physical phenomena and improving resilience during natural disasters. This research is a significant step toward harnessing the power of social media and AI for natural disaster mitigation, opening new avenues for understanding the emerging capabilities of Generative AI and LLMs for scientific applications.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# 未知のトークンアライメントを用いたビジョンランゲージモデルの強化

Enhancing Vision-Language Model with Unmasked Token Alignment ( http://arxiv.org/abs/2405.19009v2 )

ライセンス: Link先を確認
Jihao Liu, Jinliang Zheng, Boxiao Liu, Yu Liu, Hongsheng Li, (参考訳) CLIPで実証された画像テキストペアのコントラスト事前学習は、マルチモーダルな視覚言語表現を学習するための標準技術となる。 CLIPは目覚ましいパフォーマンスを示しているが、ノイズの多いWebスケールデータセットをスクラッチからトレーニングすることは、計算的に要求されている。 一方,Masked Image Modeling (MIM)のようなマスクテーマ予測事前学習アプローチは,単一モーダル表現に対する効率的な自己教師付き学習を提供する。 本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。 UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。 トレーニング済みのViTは、画像とテキストのペアをトレーニングすることなく、ゼロショット評価に直接適用することができる。 MIMアプローチと比較して、UTAはトレーニングファインタニングの不整合に悩まされず、余分な[MASK]トークンの使用を避けることで、トレーニング効率が向上する。 UTAはCLIPモデルを強化し、様々なユニモーダルおよびマルチモーダルベンチマークで既存のMIM法より優れていることを示す。 コードとモデルはhttps://github.com/jihaonew/UTA.comで公開されている。

Contrastive pre-training on image-text pairs, exemplified by CLIP, becomes a standard technique for learning multi-modal visual-language representations. Although CLIP has demonstrated remarkable performance, training it from scratch on noisy web-scale datasets is computationally demanding. On the other hand, mask-then-predict pre-training approaches, like Masked Image Modeling (MIM), offer efficient self-supervised learning for single-modal representations. This paper introduces Unmasked Token Alignment (UTA), a method that leverages existing CLIP models to further enhance its vision-language representations. UTA trains a Vision Transformer (ViT) by aligning unmasked visual tokens to the corresponding image tokens from a frozen CLIP vision encoder, which automatically aligns the ViT model with the CLIP text encoder. The pre-trained ViT can be directly applied for zero-shot evaluation even without training on image-text pairs. Compared to MIM approaches, UTA does not suffer from training-finetuning inconsistency and is much more training-efficient by avoiding using the extra [MASK] tokens. Extensive experimental results demonstrate that UTA can enhance CLIP models and outperform existing MIM methods on various uni- and multi-modal benchmarks. Code and models are available at https://github.com/jihaonew/UTA.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# 道路利用者の脆弱性検出と安全性向上に関する総合調査

Vulnerable Road User Detection and Safety Enhancement: A Comprehensive Survey ( http://arxiv.org/abs/2405.19202v3 )

ライセンス: Link先を確認
Renato M. Silva, Gregório F. Azevedo, Matheus V. V. Berto, Jean R. Rocha, Eduardo C. Fidelis, Matheus V. Nogueira, Pedro H. Lisboa, Tiago A. Almeida, (参考訳) 脆弱な道路利用者(VRU)を含む交通事故は、世界的な道路事故のかなりの割合を占める。 交通通信エコシステムの進歩と高度な信号処理と機械学習技術が組み合わさって、多様なセンサーからのデータの活用を促進している。 これらの進歩と広範囲なデータセットが利用可能であるにもかかわらず、交通事故の軽減にはかなりの進歩が必要である。 本稿では,VRUの安全性を高めるための最先端技術と方法論を包括的に調査する。 この研究は、車両とVRU間の通信ネットワークを掘り下げ、高度なセンサーの統合と関連するデータセットの可用性を強調した。 センサデータ品質を向上させるために,前処理技術とデータ融合手法を検討する。 さらに,VRUの安全性システムを開発・テストするための重要なシミュレーション環境について検討した。 また,VRU検出および分類アルゴリズムの最近の進歩に注目し,環境条件の変化といった課題に対処する。 さらに,VRUの意図や行動を予測するための最先端の研究についても取り上げる。 本調査を通じて,VRUの安全性技術の現状を包括的に把握し,さらなる研究・開発を必要としている分野や分野を特定することを目的としている。

Traffic incidents involving vulnerable road users (VRUs) constitute a significant proportion of global road accidents. Advances in traffic communication ecosystems, coupled with sophisticated signal processing and machine learning techniques, have facilitated the utilization of data from diverse sensors. Despite these advancements and the availability of extensive datasets, substantial progress is required to mitigate traffic casualties. This paper provides a comprehensive survey of state-of-the-art technologies and methodologies to enhance the safety of VRUs. The study delves into the communication networks between vehicles and VRUs, emphasizing the integration of advanced sensors and the availability of relevant datasets. It explores preprocessing techniques and data fusion methods to enhance sensor data quality. Furthermore, our study assesses critical simulation environments essential for developing and testing VRU safety systems. Our research also highlights recent advances in VRU detection and classification algorithms, addressing challenges such as variable environmental conditions. Additionally, we cover cutting-edge research in predicting VRU intentions and behaviors, which is crucial for proactive collision avoidance strategies. Through this survey, we aim to provide a comprehensive understanding of the current landscape of VRU safety technologies, identifying areas of progress and areas needing further research and development.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# DNPM:顔の幾何学的詳細の合成のためのニューラルパラメトリックモデル

DNPM: A Neural Parametric Model for the Synthesis of Facial Geometric Details ( http://arxiv.org/abs/2405.19688v2 )

ライセンス: Link先を確認
Haitao Cao, Baoping Cheng, Qiran Pu, Haocheng Zhang, Bin Luo, Yixiang Zhuang, Juncong Lin, Liyan Chen, Xuan Cheng, (参考訳) パラメトリック3Dモデルは、人間の顔、体、手をモデル化するなど、幅広いコンピュータビジョンとグラフィックタスクを可能にした。 3次元顔モデリングでは、3DMMが最も広く使われているパラメトリックモデルであるが、アイデンティティや表現入力のみから詳細な幾何学的詳細を生成することはできない。 この制限に対処するために,ディープニューラルネットワークを用いて細部やしわを符号化した顔変位マップから潜時符号を抽出するDNPMと呼ばれるニューラルパラメトリックモデルを提案する。 DNPMをベースとして、Detailed3DMMと呼ばれる新しい3DMMが提案されている。 さらに、DNPMとDetailed3DMMは、音声駆動の詳細な3D顔アニメーションと劣化画像からの3D顔再構成の2つのダウンストリーム応用を促進することができることを示す。 DNPMとDetailed3DMMの有用性、および2つの提案された応用の進歩性を示した。

Parametric 3D models have enabled a wide variety of computer vision and graphics tasks, such as modeling human faces, bodies and hands. In 3D face modeling, 3DMM is the most widely used parametric model, but can't generate fine geometric details solely from identity and expression inputs. To tackle this limitation, we propose a neural parametric model named DNPM for the facial geometric details, which utilizes deep neural network to extract latent codes from facial displacement maps encoding details and wrinkles. Built upon DNPM, a novel 3DMM named Detailed3DMM is proposed, which augments traditional 3DMMs by including the synthesis of facial details only from the identity and expression inputs. Moreover, we show that DNPM and Detailed3DMM can facilitate two downstream applications: speech-driven detailed 3D facial animation and 3D face reconstruction from a degraded image. Extensive experiments have shown the usefulness of DNPM and Detailed3DMM, and the progressiveness of two proposed applications.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# TS-Align:大規模言語モデルのスケーラブル反復微調整のための教師学習協調フレームワーク

TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models ( http://arxiv.org/abs/2405.20215v3 )

ライセンス: Link先を確認
Chen Zhang, Chengguang Tang, Dading Chong, Ke Shi, Guohua Tang, Feng Jiang, Haizhou Li, (参考訳) 大規模言語モデル(LLM)の整合性に対する主流のアプローチは、特に定期的な更新を必要とする場合、人間の好みデータに大きく依存する。 LLMを反復的にアライメントするための標準的なプロセスは、更新毎に新しい人間のフィードバックを集めることである。 しかし、データ収集プロセスはコストが高く、スケールが難しい。 この問題に対処するため、我々は「TS-Align」フレームワークを導入し、このフレームワークは、その出力から自動的に抽出されたペアワイズフィードバックデータを用いてポリシーモデルを微調整する。 この自動マイニングは,大規模教師モデルと小規模学生モデルとの協調によって効率的に行われる。 政策微調整プロセスは、提案した教師と学生の協調的な枠組みの中で、政治上の世代を用いて反復的に繰り返すことができる。 広範な実験を通じて、我々の最終整合ポリシーは、7つの会話または指示追従データセットで平均69.7%の勝利率で基本方針モデルを上回っていることを実証した。 さらに,教師のランク付け能力は,我々のパイプラインを通じて学生に効果的に蒸留され,政策モデルアライメントのための小規模かつ効果的な報酬モデルがもたらされることを示す。

Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involves collecting new human feedback for each update. However, the data collection process is costly and challenging to scale. To address this issue, we introduce the "TS-Align" framework, which fine-tunes a policy model using pairwise feedback data automatically mined from its outputs. This automatic mining process is efficiently accomplished through the collaboration between a large-scale teacher model and a small-scale student model. The policy fine-tuning process can be iteratively repeated using on-policy generations within our proposed teacher-student collaborative framework. Through extensive experiments, we demonstrate that our final aligned policy outperforms the base policy model with an average win rate of 69.7% across seven conversational or instruction-following datasets. Furthermore, we show that the ranking capability of the teacher is effectively distilled into the student through our pipeline, resulting in a small-scale yet effective reward model for policy model alignment.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# フィールドトラップにおけるモスキート卵の自動計数と分類

Automatic Counting and Classification of Mosquito Eggs in Field Traps ( http://arxiv.org/abs/2405.20656v2 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello, David Almenar, Jesus Lopez-Ballester, (参考訳) 蚊が卵を挿入するフィールドトラップの解析は、不妊虫技術(SIT)が適切に機能していることを確認するのに不可欠である。 これは、ハッチした卵の数は、不妊オスが野生の卵と競合していないことを示唆している可能性があるためである。 現在、トラップの研究は顕微鏡で手作業で行われており、非常に時間がかかり、人的ミスを起こしやすい。 本稿では,自動トラップサーベイを提案する。 この目的のために、異なる重なり合う写真を取得するスラットを自動的にスキャンする装置が設計された。 その後、画像はMask-RCNNニューラルネットワークによって分析され、卵を分割し、それらを2つのクラス(フルまたはハッチ)に分類する。

The analysis of the field traps where the mosquitoes insert their eggs is vital to check that the sterile insect technique (SIT) is working properly. This is because the number of hatched eggs may indicate that the sterile males are not competing with the wild ones. Nowadays, the study of the traps is done manually by microscope and is very time-consuming and prone to human error. This paper presents an automatic trap survey. For this purpose, a device has been designed that automatically scans the slat obtaining different overlapping photos. Subsequently, the images are analyzed by a Mask-RCNN neural network that segments the eggs and classifies them into 2 classes: full or hatch
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# データ不均衡を超えた一般化: 転送可能なインサイトのためのCLIPに関する制御された研究

Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights ( http://arxiv.org/abs/2405.21070v2 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi, (参考訳) 大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。 これにもかかわらず、プレトレーニングされたCLIPは教師付き学習と比較してデータ不均衡に対して顕著な堅牢性を示し、一般化可能な表現の学習において有意な効果を示す。 本研究は,本研究の背景にある諸要因を解明するための制御実験を行い,CLIPのプレテキストタスクが,授業のサブセットのみが存在するような動的分類問題を形成していることを明らかにする。 これにより、バイアスは支配的なクラスから分離され、暗黙的に学習信号のバランスをとる。 さらに、CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善され、教師付き学習にはアクセスできない。 データ不均衡を超えてCLIPの一般化可能性の背後にあるメカニズムを明らかにするだけでなく、研究コミュニティに伝達可能な洞察を提供する。 これらの結果は教師付き学習と自己教師型学習の両方で検証され、不均衡なデータに基づいてトレーニングされたモデルにより、多様な認識タスクにおいてCLIPレベルのパフォーマンスを達成することができる。 コードとデータは、https://github.com/CVMI-Lab/clip-beyondtail.comで入手できる。

Severe data imbalance naturally exists among web-scale vision-language datasets. Despite this, we find CLIP pre-trained thereupon exhibits notable robustness to the data imbalance compared to supervised learning, and demonstrates significant effectiveness in learning generalizable representations. With an aim to investigate the reasons behind this finding, we conduct controlled experiments to study various underlying factors, and reveal that CLIP's pretext task forms a dynamic classification problem wherein only a subset of classes is present in training. This isolates the bias from dominant classes and implicitly balances the learning signal. Furthermore, the robustness and discriminability of CLIP improve with more descriptive language supervision, larger data scale, and broader open-world concepts, which are inaccessible to supervised learning. Our study not only uncovers the mechanisms behind CLIP's generalizability beyond data imbalance but also provides transferable insights for the research community. The findings are validated in both supervised and self-supervised learning, enabling models trained on imbalanced data to achieve CLIP-level performance on diverse recognition tasks. Code and data are available at: https://github.com/CVMI-Lab/clip-beyond-tail.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# TimeCMA: クロスモーダルアライメントによるLCMを利用した時系列予測を目指して

TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment ( http://arxiv.org/abs/2406.01638v3 )

ライセンス: Link先を確認
Chenxi Liu, Qianxiong Xu, Hao Miao, Sun Yang, Lingzheng Zhang, Cheng Long, Ziyue Li, Rui Zhao, (参考訳) スケーラブルなモバイルセンシングの普及は、現実世界のアプリケーションに大量の時系列データをもたらした。 多変量時系列予測 (MTSF) は, 過去の観測結果に基づいて, 将来の時系列値を予測することを目的としている。 既存のMTSF法は、パラメータ化の制限と小規模な訓練データに悩まされている。 近年,予測性能が期待できるが計算コストが重い大規模言語モデル (LLM) が時系列で導入されている。 これらの課題を解決するために,LLMを利用した時系列予測フレームワークであるTimeCMAを提案する。 2つの分岐を持つ双対モダリティ符号化モジュールを設計し、逆変換器を用いて時系列の比較的低品質で純粋な埋め込みを抽出する。 さらに、LLMを利用したエンコード分岐は、プレトレーニングLDMを介して高品質だが絡み合ったプロンプト埋め込みを得るよう促すのと同じ時系列をラップする。 そこで我々は,高速な埋め込みから高品質で純粋な時系列埋め込みを検索するためのモジュールを設計する。 さらに,複数の変数間の依存関係を抽出し,複数の変数間の関係を予測し,関係する埋め込みをデコードする時系列予測モジュールを開発した。 特に、時間情報を最後のトークンにエンコードするプロンプトを調整し、計算コストを削減するために最後のトークン埋め込みストレージを設計する。 実データに関する大規模な実験は、提案したフレームワークの精度と効率に関する洞察を提供する。

The widespread adoption of scalable mobile sensing has led to large amounts of time series data for real-world applications. A fundamental application is multivariate time series forecasting (MTSF), which aims to predict future time series values based on historical observations. Existing MTSF methods suffer from limited parameterization and small-scale training data. Recently, Large language models (LLMs) have been introduced in time series, which achieve promising forecasting performance but incur heavy computational costs. To solve these challenges, we propose TimeCMA, an LLM-empowered framework for time series forecasting with cross-modality alignment. We design a dual-modality encoding module with two branches, where the time series encoding branch extracts relatively low-quality yet pure embeddings of time series through an inverted Transformer. In addition, the LLM-empowered encoding branch wraps the same time series as prompts to obtain high-quality yet entangled prompt embeddings via a Pre-trained LLM. Then, we design a cross-modality alignment module to retrieve high-quality and pure time series embeddings from the prompt embeddings. Moreover, we develop a time series forecasting module to decode the aligned embeddings while capturing dependencies among multiple variables for forecasting. Notably, we tailor the prompt to encode sufficient temporal information into a last token and design the last token embedding storage to reduce computational costs. Extensive experiments on real data offer insight into the accuracy and efficiency of the proposed framework.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# プラグアンドプレイ拡散蒸留

Plug-and-Play Diffusion Distillation ( http://arxiv.org/abs/2406.01954v2 )

ライセンス: Link先を確認
Yi-Ting Hsiao, Siavash Khodadadeh, Kevin Duarte, Wei-An Lin, Hui Qu, Mingi Kwon, Ratheesh Kalarot, (参考訳) 拡散モデルは画像生成に大きな結果をもたらした。 しかし,拡散過程の反復性や分類器フリー誘導に依存するため,推論時間は遅い。 本稿では,従来のテキスト・ツー・イメージモデルが凍結したまま,外部の軽量ガイドモデルをトレーニングする誘導拡散モデルに対する新しい蒸留手法を提案する。 提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論計算をほぼ半分に減らし,ベースモデルのトレーニング可能なパラメータを 1 % しか必要としないことを示す。 さらに、トレーニングが完了すれば、このガイドモデルは、追加のトレーニングを必要とせずに、様々な細調整されたドメイン固有のベース拡散モデルに適用することができる。 実験により,本手法は視覚的に魅力的な結果が得られ,教師に対して8段階から16段階のFIDスコアが得られた。

Diffusion models have shown tremendous results in image generation. However, due to the iterative nature of the diffusion process and its reliance on classifier-free guidance, inference times are slow. In this paper, we propose a new distillation approach for guided diffusion models in which an external lightweight guide model is trained while the original text-to-image model remains frozen. We show that our method reduces the inference computation of classifier-free guided latent-space diffusion models by almost half, and only requires 1\% trainable parameters of the base model. Furthermore, once trained, our guide model can be applied to various fine-tuned, domain-specific versions of the base diffusion model without the need for additional training: this "plug-and-play" functionality drastically improves inference computation while maintaining the visual fidelity of generated images. Empirically, we show that our approach is able to produce visually appealing results and achieve a comparable FID score to the teacher with as few as 8 to 16 steps.
翻訳日:2024-06-17 18:23:16 公開日:2024-06-14
# カテゴリー量子ボリューム演算子

Categorical Quantum Volume Operator ( http://arxiv.org/abs/2406.02111v2 )

ライセンス: Link先を確認
Alexander Hahn, Sebastian Murk, Sukhbinder Singh, Gavin K. Brennen, (参考訳) 本稿では、曲面三次元離散幾何学における体積を定量化する量子体積演算子の一般化について述べる。 標準的な形式では、量子体積作用素は、面に$\mathrm{SU}(2)$の既約表現が与えられるテトラヘドラから構成される。 ここでは、融合圏の一般対象を自由度として許容する2つの等価な構成を示す。 まず,リボン融合カテゴリの体積演算子を計算する。 これは、任意のモデルの構成要素であるモジュラーテンソル圏(量子倍数など)の重要なクラスを含む。 第二に、体積作用素を閉包制約(四面体対称性として知られる)のカテゴリー的類似を緩和することにより球面融合圏に一般化する。 どちらの場合も、入力圏がユニタリであることを仮定して、エルミート作用素を得る。 例を挙げると、$\mathrm{SU}(2)_k$ の場合を考え、標準 $\mathrm{SU}(2)$ volume operator が $k\rightarrow\infty$ の極限で回復されることを示す。

We present a generalization of the quantum volume operator quantifying the volume in curved three-dimensional discrete geometries. In its standard form, the quantum volume operator is constructed from tetrahedra whose faces are endowed with irreducible representations of $\mathrm{SU}(2)$. Here, we show two equivalent constructions that allow general objects in fusion categories as degrees of freedom. First, we compute the volume operator for ribbon fusion categories. This includes the important class of modular tensor categories (such as quantum doubles), which are the building blocks of anyon models. Second, we further generalize the volume operator to spherical fusion categories by relaxing the categorical analog of the closure constraint (known as tetrahedral symmetry). In both cases, we obtain a volume operator that is Hermitian, provided that the input category is unitary. As an illustrative example, we consider the case of $\mathrm{SU}(2)_k$ and show that the standard $\mathrm{SU}(2)$ volume operator is recovered in the limit $k\rightarrow\infty$.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# スケーラブルなmatMulフリー言語モデリング

Scalable MatMul-free Language Modeling ( http://arxiv.org/abs/2406.02528v4 )

ライセンス: Link先を確認
Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou, Jason K. Eshraghian, (参考訳) 行列乗法 (MatMul) は一般に大規模言語モデル (LLM) の計算コストを支配している。 このコストは、LLMがより大きな埋め込み次元とコンテキスト長にスケールするにつれて増大する。 本研究では,10億パラメータスケールで高い性能を維持しながら,MateMul 演算を LLM から完全に除去できることを示す。 実験の結果,提案したMatMulフリーモデルは,少なくとも2.7Bパラメータのスケールでの推論において,はるかに多くのメモリを必要とする最先端のトランスフォーマーと同等の性能が得られることがわかった。 スケーリング法則を調査し,モデルサイズが大きくなるにつれて,我々のMatMulフリーモデルと完全精度トランスフォーマーのパフォーマンスギャップが狭まることを確かめる。 また、トレーニング中に最適化されていないベースラインに対して最大61%のメモリ使用量を削減できるGPU効率のよい実装も提供します。 推論中に最適化されたカーネルを利用することで、最適化されていないモデルと比較してメモリ消費を10倍以上削減することができる。 アーキテクチャの効率を適切に定量化するために、FPGA上にカスタムハードウェアソリューションを構築します。 13Wで10億パラメータのスケールモデルを人間の可読スループットを超えて処理し、LLMを脳に似た効率に近づけました。 この研究は、LLMがいつまで有効に機能するかを示すだけでなく、次世代軽量LLMの処理に最適化されるべき操作のタイプについても指摘する。 私たちのコード実装はhttps://github.com/ridgerchu/matmulfreellm.comで利用可能です。

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at https://github.com/ridgerchu/matmulfreellm.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# FusionBench:Deep Model Fusionの総合ベンチマーク

FusionBench: A Comprehensive Benchmark of Deep Model Fusion ( http://arxiv.org/abs/2406.03280v3 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Han Hu, Bo Du, Dacheng Tao, (参考訳) ディープモデル融合(Deep Model fusion)は、複数のディープニューラルネットワークの予測やパラメータを、コスト効率とデータ効率のよい単一のモデルに統一する新興技術である。 これにより、統一モデルは元のモデルの強みを生かし、性能を超越する可能性がある。 様々な深層モデル融合技術が導入されたが、それらの評価は不整合であり、分布シフトに対する有効性と堅牢性を検証するのに不十分であることが多い。 この問題に対処するため、我々はFusionBenchを紹介します。 FusionBenchは、オープン語彙画像分類、テキスト分類、テキストからテキストへの生成など、幅広いタスクをカバーしている。 各カテゴリには、対応するタスク固有のモデルを持つ最大8つのタスクが含まれており、フル微調整とLoRA微調整の両方と異なるサイズのモデルを備えており、様々なタスク、モデルスケール、微調整戦略をまたいだ様々なマルチタスクモデルの融合テクニックの公平かつバランスの取れた比較を保証する。 我々は,深層モデル融合手法の幅広いスペクトルを実装し,評価する。 これらのテクニックは、全体的なパフォーマンスを改善するために予測を組み合わせるモデルアンサンブル手法から、異なるモデルを単一のモデルに統合するモデルマージや、元のモデルのコンポーネントをスケールアップまたは再結合するモデルミキシング方法まで、さまざまである。 FusionBenchには26のタスク、74の細調整されたモデル、16のフュージョン技術が含まれています。 さらに、ベンチマーク結果の理解と複製を研究者が支援するための、文書化されたリソースとガイドラインも提供します。 Homepage https://github.com/tanganke/fusion_bench

Deep model fusion is an emerging technique that unifies the predictions or parameters of several deep neural networks into a single model in a cost-effective and data-efficient manner. This enables the unified model to take advantage of the original models' strengths, potentially exceeding their performance. Although a variety of deep model fusion techniques have been introduced, their evaluations tend to be inconsistent and often inadequate to validate their effectiveness and robustness against distribution shifts. To address this issue, we introduce FusionBench, which is the first comprehensive benchmark dedicated to deep model fusion. FusionBench covers a wide range of tasks, including open-vocabulary image classification, text classification, and text-to-text generation. Each category includes up to eight tasks with corresponding task-specific models, featuring both full fine-tuning and LoRA fine-tuning, as well as models of different sizes, to ensure fair and balanced comparisons of various multi-task model fusion techniques across different tasks, model scales, and fine-tuning strategies. We implement and evaluate a broad spectrum of deep model fusion techniques. These techniques range from model ensemble methods, which combine the predictions to improve the overall performance, to model merging, which integrates different models into a single one, and model mixing methods, which upscale or recombine the components of the original models. FusionBench now contains 26 distinct tasks, 74 fine-tuned models, and 16 fusion techniques, and we are committed to consistently expanding the benchmark with more tasks, models, and fusion techniques. In addition, we offer a well-documented set of resources and guidelines to aid researchers in understanding and replicating the benchmark results. Homepage https://github.com/tanganke/fusion_bench
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# kNN-CTCとGated Monolingual Datastoreによるゼロショット中国語コードスイッチングASRの改良

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores ( http://arxiv.org/abs/2406.03814v2 )

ライセンス: Link先を確認
Jiaming Zhou, Shiwan Zhao, Hui Wang, Tian-Hao Zhang, Haoqin Sun, Xuechen Wang, Yong Qin, (参考訳) kNN-CTCモデルは単言語自動音声認識(ASR)に有効であることが証明されている。 しかし、コードスイッチングのような多言語シナリオへの直接的な適用は、課題を提示している。 性能改善の可能性はあるが、単一のバイリンガルデータストアを利用するkNN-CTCモデルは、必然的に代替言語から望ましくないノイズを生じさせる可能性がある。 そこで本研究では,2つのモノリンガルデータストアとゲート型データストア選択機構を用いて,ノイズ干渉を低減する新しいkNN-CTCベースのコードスイッチングASR(CS-ASR)フレームワークを提案する。 提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。 このフレームワークを最先端のCTCベースモデルに適用し,高度なCS-ASRシステムの開発を行う。 広汎な実験により,ゼロショット中国語CS-ASRの性能向上におけるゲートデータストア機構の顕著な効果が示された。

The kNN-CTC model has proven to be effective for monolingual automatic speech recognition (ASR). However, its direct application to multilingual scenarios like code-switching, presents challenges. Although there is potential for performance improvement, a kNN-CTC model utilizing a single bilingual datastore can inadvertently introduce undesirable noise from the alternative language. To address this, we propose a novel kNN-CTC-based code-switching ASR (CS-ASR) framework that employs dual monolingual datastores and a gated datastore selection mechanism to reduce noise interference. Our method selects the appropriate datastore for decoding each frame, ensuring the injection of language-specific information into the ASR process. We apply this framework to cutting-edge CTC-based models, developing an advanced CS-ASR system. Extensive experiments demonstrate the remarkable effectiveness of our gated datastore mechanism in enhancing the performance of zero-shot Chinese-English CS-ASR.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# POEM:大規模言語モデルのマルチモーダル推論強化のための対話型プロンプト最適化

POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models ( http://arxiv.org/abs/2406.03843v2 )

ライセンス: Link先を確認
Jianben He, Xingbo Wang, Shiyi Liu, Guande Wu, Claudio Silva, Huamin Qu, (参考訳) 大規模言語モデル(LLM)は、ゼロまたは少数ショット設定で適切なプロンプトを伴うマルチモーダルコンテンツ理解と推論のための印象的な能力を示した。 様々なタスクにわたるLCMの迅速なエンジニアリングを支援するために開発された対話システムの普及にもかかわらず、そのほとんどはテキストや視覚的な入力に重点を置いており、マルチモーダル入力におけるモダリティ間の複雑な相互作用を無視している。 この監視は、複数のモダリティによって提供されるリッチなコンテキストを完全に活用することによって、マルチモーダル推論プロセスをモデル化する効果的なプロンプトの開発を妨げる。 本稿では,LLMのマルチモーダル推論性能を向上させるために,効率的なプロンプトエンジニアリングを容易にする視覚解析システムであるPOEMを提案する。 本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。 デモンストレーションの例や指導原則のさまざまな推奨を通じて、POEMは、モデルの知識と人間の洞察をより良く整合させ、強化するプロンプトを反復的に作り、改良するユーザを支援している。 本システムの有効性と有効性は,2つのケーススタディと専門家へのインタビューを通じて検証した。

Large language models (LLMs) have exhibited impressive abilities for multimodal content comprehension and reasoning with proper prompting in zero- or few-shot settings. Despite the proliferation of interactive systems developed to support prompt engineering for LLMs across various tasks, most have primarily focused on textual or visual inputs, thus neglecting the complex interplay between modalities within multimodal inputs. This oversight hinders the development of effective prompts that guide model multimodal reasoning processes by fully exploiting the rich context provided by multiple modalities. In this paper, we present POEM, a visual analytics system to facilitate efficient prompt engineering for enhancing the multimodal reasoning performance of LLMs. The system enables users to explore the interaction patterns across modalities at varying levels of detail for a comprehensive understanding of the multimodal knowledge elicited by various prompts. Through diverse recommendations of demonstration examples and instructional principles, POEM supports users in iteratively crafting and refining prompts to better align and enhance model knowledge with human insights. The effectiveness and efficiency of our system are validated through two case studies and interviews with experts.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# GeoGen: 符号付き距離関数による幾何認識生成モデリング

GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions ( http://arxiv.org/abs/2406.04254v3 )

ライセンス: Link先を確認
Salvatore Esposito, Qingshan Xu, Kacper Kania, Charlie Hewitt, Octave Mariotti, Lohit Petikam, Julien Valentin, Arno Onken, Oisin Mac Aodha, (参考訳) 単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。 既存のほとんどのアプローチは、多視点一貫した画像をレンダリングするために体積密度を予測する。 ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がなく、出力メッシュの品質と有用性に制限されるという、重要な制限を継承する。 この問題に対処するために、我々は、エンドツーエンドで訓練されたSDFベースの新しい3D生成モデルGeoGenを提案する。 当初は,体積密度を符号付き距離関数 (Signed Distance Function, SDF) として再解釈した。 これにより、有効なメッシュを生成するための有用なプリエントを導入することができます。 しかし、これらの先行は、生成モデルが詳細を学習することを防ぎ、実際のシナリオに適用性を制限する。 この問題を緩和するため、変換を学習可能とし、描画深度マップをSDFのゼロレベル集合と整合性に制約する。 敵対的トレーニングのレンズを通して、我々はネットワークに対して、出力メッシュについて高い忠実度の詳細を作成するよう奨励する。 評価のために、360度カメラアングルから取得した人間のアバターの合成データセットを導入し、現実のデータセットが生み出す課題を克服する。 複数のデータセットに対する実験により,GeoGenは従来のニューラル放射場に基づく生成モデルよりも視覚的,定量的に優れた幾何を生成することが示された。

We introduce a new generative approach for synthesizing 3D geometry and images from single-view collections. Most existing approaches predict volumetric density to render multi-view consistent images. By employing volumetric rendering using neural radiance fields, they inherit a key limitation: the generated geometry is noisy and unconstrained, limiting the quality and utility of the output meshes. To address this issue, we propose GeoGen, a new SDF-based 3D generative model trained in an end-to-end manner. Initially, we reinterpret the volumetric density as a Signed Distance Function (SDF). This allows us to introduce useful priors to generate valid meshes. However, those priors prevent the generative model from learning details, limiting the applicability of the method to real-world scenarios. To alleviate that problem, we make the transformation learnable and constrain the rendered depth map to be consistent with the zero-level set of the SDF. Through the lens of adversarial training, we encourage the network to produce higher fidelity details on the output meshes. For evaluation, we introduce a synthetic dataset of human avatars captured from 360-degree camera angles, to overcome the challenges presented by real-world datasets, which often lack 3D consistency and do not cover all camera angles. Our experiments on multiple datasets show that GeoGen produces visually and quantitatively better geometry than the previous generative models based on neural radiance fields.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# XctDiff:1枚のX線投影画像から連続した解剖学的構造を持つCT画像の再構成

XctDiff: Reconstruction of CT Images with Consistent Anatomical Structures from a Single Radiographic Projection Image ( http://arxiv.org/abs/2406.04679v2 )

ライセンス: Link先を確認
Qingze Bai, Tiange Liu, Zhi Liu, Yubing Tong, Drew Torigian, Jayaram Udupa, (参考訳) 本稿では,XctDiffを提案する。XctDiffは1つのラジオグラフからCTを再構成するアルゴリズムフレームワークで,再構成過程を特徴抽出とCT再構成という2つの簡単な制御可能なタスクに分解する。 具体的には、まず、ラジオグラフィーから堅牢な3D先行情報を抽出できるプログレッシブ特徴抽出戦略を設計する。 次に,抽出した先行情報を用いて,潜伏空間におけるCT再構成を誘導する。 さらに,同質な空間コードブックを設計し,再現性の向上を図る。 実験の結果,提案手法は最先端の復元性能を実現し,ぼやけた問題を克服することがわかった。 また,自己指導型事前学習タスクにもXctDiffを適用した。 この効果は、医用画像解析に有望な応用があることを示唆している。 コードは、https://github.com/qingze-bai/XctDiffで入手できる。

In this paper, we present XctDiff, an algorithm framework for reconstructing CT from a single radiograph, which decomposes the reconstruction process into two easily controllable tasks: feature extraction and CT reconstruction. Specifically, we first design a progressive feature extraction strategy that is able to extract robust 3D priors from radiographs. Then, we use the extracted prior information to guide the CT reconstruction in the latent space. Moreover, we design a homogeneous spatial codebook to improve the reconstruction quality further. The experimental results show that our proposed method achieves state-of-the-art reconstruction performance and overcomes the blurring issue. We also apply XctDiff on self-supervised pre-training task. The effectiveness indicates that it has promising additional applications in medical image analysis. The code is available at:https://github.com/qingze-bai/XctDiff
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# 降水量予測の深層学習 : 時系列予測の観点から

Deep learning for precipitation nowcasting: A survey from the perspective of time series forecasting ( http://arxiv.org/abs/2406.04867v2 )

ライセンス: Link先を確認
Sojung An, Tae-Jin Oh, Eunha Sohn, Donghyun Kim, (参考訳) ディープラーニングに基づく時系列予測は、高解像度データセットにおける動きの流れを推定する能力の助けを借りて、短期降水予測分野を支配してきた。 降水に対する関心の高まりは、現在の予測技術の進歩にかなりの機会を与えている。 それでも、深層学習を用いた時系列降水予測の詳細な調査は乏しい。 そこで本研究では,時系列降水予測モデルの最新動向を体系的にレビューする。 具体的には、背景コンポーネント内の以下のキーポイントについて検討する。 i) 事前処理 二 目的的機能、及び 三 評価指標 次に、予測モデルを将来のフレームを予測するためのアプローチ、戦略を用いたモデルの影響、性能評価に基づいて、予測モデルを \textit{recursive} と \textit{multiple} の戦略に分類する。 最後に,降水予測のための現在のディープラーニングモデルの評価を行い,その限界と課題について議論し,いくつかの有望な研究方向性を示す。 私たちの貢献は、時系列の降水予測をより深く理解するための洞察を提供することと、将来の堅牢なAIソリューションの開発を支援することにあります。

Deep learning-based time series forecasting has dominated the short-term precipitation forecasting field with the help of its ability to estimate motion flow in high-resolution datasets. The growing interest in precipitation nowcasting offers substantial opportunities for the advancement of current forecasting technologies. Nevertheless, there has been a scarcity of in-depth surveys of time series precipitation forecasting using deep learning. Thus, this paper systemically reviews recent progress in time series precipitation forecasting models. Specifically, we investigate the following key points within background components, covering: i) preprocessing, ii) objective functions, and iii) evaluation metrics. We then categorize forecasting models into \textit{recursive} and \textit{multiple} strategies based on their approaches to predict future frames, investigate the impacts of models using the strategies, and performance assessments. Finally, we evaluate current deep learning-based models for precipitation forecasting on a public benchmark, discuss their limitations and challenges, and present some promising research directions. Our contribution lies in providing insights for a better understanding of time series precipitation forecasting and in aiding the development of robust AI solutions for the future.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# ASVシステムは、スプーフィング攻撃に対して、どのくらいまで自然に防御できるのか?

To what extent can ASV systems naturally defend against spoofing attacks? ( http://arxiv.org/abs/2406.05339v2 )

ライセンス: Link先を確認
Jee-weon Jung, Xin Wang, Nicholas Evans, Shinji Watanabe, Hye-jin Shim, Hemlata Tak, Sidhhant Arora, Junichi Yamagishi, Joon Son Chung, (参考訳) 現在の自動話者検証(ASV)タスクでは、ターゲットと非ターゲットの2つのタイプのトライアルでバイナリ決定を行う。 しかし、音声生成技術の進歩は、ASVシステムの信頼性に重大な脅威をもたらす。 本研究では,従来の手法から最先端技術まで,多種多様なASVシステムやスプーフ攻撃を体系的に探索することにより,無力的にスプーフ攻撃に対する堅牢性(ゼロショット能力)を得るかどうかを検討する。 ASVの8つの異なる攻撃システムと29のスプーフ攻撃システムについて広範な分析を行った結果、ASVの進化には本質的にスプーフ攻撃に対する防御機構が組み込まれていることが明らかとなった。 いずれにせよ,スプーフィング攻撃の進展は, ASV システムよりもはるかに優れており,スプーフィング・ロバスト ASV の方法論に関するさらなる研究が必要であると考えられた。

The current automatic speaker verification (ASV) task involves making binary decisions on two types of trials: target and non-target. However, emerging advancements in speech generation technology pose significant threats to the reliability of ASV systems. This study investigates whether ASV effortlessly acquires robustness against spoofing attacks (i.e., zero-shot capability) by systematically exploring diverse ASV systems and spoofing attacks, ranging from traditional to cutting-edge techniques. Through extensive analyses conducted on eight distinct ASV systems and 29 spoofing attack systems, we demonstrate that the evolution of ASV inherently incorporates defense mechanisms against spoofing attacks. Nevertheless, our findings also underscore that the advancement of spoofing attacks far outpaces that of ASV systems, hence necessitating further research on spoofing-robust ASV methodologies.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# M3GIA: マルチ言語およびマルチモーダル・ジェネラルインテリジェンス能力ベンチマークに着想を得た認知

M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark ( http://arxiv.org/abs/2406.05343v2 )

ライセンス: Link先を確認
Wei Song, Yadong Li, Jianhua Xu, Guowei Wu, Lingfeng Ming, Kexin Yi, Weihua Luo, Houyi Li, Yi Du, Fangda Guo, Kaicheng Yu, (参考訳) 近年、MLLM(Multi-modality large language model)は、様々な複雑なタスクにおいて、極めて高い習熟度を示しており、これらのモデルが最終的に人間の知能を反映するかどうかの議論に注目が集まっている。 しかし、既存のベンチマークは主に、オブジェクトの属性を特定する精度など、タスクのパフォーマンスのみを評価することに重点を置いている。 表面的な達成以上のMLLMの知性を理解するために、よく発達した認知科学を組み合わせることは、ほとんど未解明のままである。 この目的のために,M3GIAと呼ばれるMLLMの汎用インテリジェンス能力を評価するために,認知駆動型マルチ言語およびマルチモーダルベンチマークを導入した。 具体的には、よく認識されている知能のキャッテル・ホルン・キャロルモデル(CHC)に基づいて、5つの重要な認知要因を同定し、新しい評価基準を提案する。 さらに、ほとんどのMLLMは異なる言語で実行するように訓練されているため、自然な疑問が生じる: 言語はMLLMの認知能力に影響を与える重要な要因か? そのため、我々は英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含し、我々のM3GIAを構築する。 文化背景に関連するすべてのデータが、英語中心のバイアスを避けるために、彼らのネイティブコンテキストから収集されることを確認します。 我々は、人間の参加者から大量のデータを収集し、最も進歩したMLLMが、英語における人間の知能の下位境界に達することを明らかにした。 しかし、他の5つの言語には明らかな相違がある。 我々はまた、認知研究における発見と一致したすべての現象を、興味深い勝者が取ることも明らかにした。 我々のベンチマークはオープンソースであり、MLLMにおける認知能力の向上を促進することを目的としています。

As recent multi-modality large language models (MLLMs) have shown formidable proficiency on various complex tasks, there has been increasing attention on debating whether these models could eventually mirror human intelligence. However, existing benchmarks mainly focus on evaluating solely on task performance, such as the accuracy of identifying the attribute of an object. Combining well-developed cognitive science to understand the intelligence of MLLMs beyond superficial achievements remains largely unexplored. To this end, we introduce the first cognitive-driven multi-lingual and multi-modal benchmark to evaluate the general intelligence ability of MLLMs, dubbed M3GIA. Specifically, we identify five key cognitive factors based on the well-recognized Cattell-Horn-Carrol (CHC) model of intelligence and propose a novel evaluation metric. In addition, since most MLLMs are trained to perform in different languages, a natural question arises: is language a key factor influencing the cognitive ability of MLLMs? As such, we go beyond English to encompass other languages based on their popularity, including Chinese, French, Spanish, Portuguese and Korean, to construct our M3GIA. We make sure all the data relevant to the cultural backgrounds are collected from their native context to avoid English-centric bias. We collected a significant corpus of data from human participants, revealing that the most advanced MLLM reaches the lower boundary of human intelligence in English. Yet, there remains a pronounced disparity in the other five languages assessed. We also reveals an interesting winner takes all phenomenon that are aligned with the discovery in cognitive studies. Our benchmark will be open-sourced, with the aspiration of facilitating the enhancement of cognitive capabilities in MLLMs.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# RAG強化コミットメッセージ生成

RAG-Enhanced Commit Message Generation ( http://arxiv.org/abs/2406.05514v2 )

ライセンス: Link先を確認
Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang, (参考訳) コミットメッセージは、ソフトウェア開発とメンテナンスにおいて最も重要なテキスト情報のひとつです。 しかし、手動でコミットメッセージを書くのに時間がかかり、労力がかかります。 コミットメッセージ生成(CMG)は、自動化ソフトウェアエンジニアリングにおける研究ホットスポットとなっている。 研究者はCMGのいくつかの方法を提案し、大きな成果を上げている。 近年、コードのためのCodeBERT、CodeT5、その他の事前訓練言語モデル(PLM)が提案されている。 これらのモデルは、単純な微調整でCMGなどのコード関連下流タスクに簡単に移行でき、優れたパフォーマンスを実現することができる。 さらに、コード機能(ChatGPT、Llama 3、Gemmaなど)を持つLarge Language Models(LLM)は、トレーニングなしでインストラクションプロンプトを設計することで、様々なタスクに直接適用することができる。 これにより、CMGタスクに新たな可能性をもたらす。 本研究では,様々なPLMとLLMを効果的に統合し,CMGタスク上での各種モデルの性能を広範囲に向上する,新しいRetrieval-Augmented framework for CommiTメッセージ生成手法であるREACTを提案する。 具体的には、コードベースから最も関連性の高いdiffとcommitメッセージペアを"例"として検索するハイブリッドレトリバーを設計し、構築する。 次に、検索したペアを用いて、微調整およびテキスト内学習により、PLMとLMによるコミットメッセージの生成をガイドし、強化する。 我々のアプローチは広く使われているデータセットで評価される。 実験の結果、REACTはCMGタスクにおける各種モデルの性能を大幅に向上させ、CodeT5のBLEUスコアを最大55%向上させ、Llama 3のBLEUスコアを102%向上させ、全てのベースラインを大幅に上回り、新しいSOTAを実現した。 このことは、CMGを大きなマージンで強化できるフレームワークの有効性と幅広い適用性を示している。

Commit message is one of the most important textual information in software development and maintenance. However, it is time-consuming and labor-intensive to write commit messages manually. Commit Message Generation (CMG) has become a research hotspot in automated software engineering. Researchers have proposed several methods for CMG and achieved great results. In recent years, CodeBERT, CodeT5, and other Pre-trained Language Models (PLMs) for code have been proposed. These models can be easily transferred to code-related downstream tasks including CMG with simple fine-tuning and can achieve impressive performance. Moreover, Large Language Models (LLMs) with code capabilities (e.g., ChatGPT, Llama 3, Gemma) can be directly applied to various tasks by designing instruct prompts without training. This brings new possibilities to the CMG task. In this work, we propose REACT, a novel REtrieval-Augmented framework for CommiT message generation, which effectively integrates advanced retrieval techniques with different PLMs and LLMs and can broadly enhance the performance of various models on the CMG task. Specifically, we design and build a hybrid retriever to retrieve the most relevant code diff and commit message pair from the code base as an "exemplar". Then, the retrieved pair is utilized to guide and enhance the generation of commit messages by PLMs and LLMs through fine-tuning and in-context learning. Our approach is evaluated on a widely-used dataset. The experimental results show that REACT significantly enhances the performance of various models on the CMG task, improving the BLEU score of CodeT5 by up to 55%, boosting Llama 3's BLEU score by 102%, and substantially surpassing all baselines, achieving a new SOTA. This demonstrates the effectiveness and broad applicability of our framework that can enhance CMG by a large margin.
翻訳日:2024-06-17 18:13:31 公開日:2024-06-14
# 対物予測のための自己拡散型遠絡学習

Self-Distilled Disentangled Learning for Counterfactual Prediction ( http://arxiv.org/abs/2406.05855v2 )

ライセンス: Link先を確認
Xinshu Li, Mingming Gong, Lina Yao, (参考訳) 不整合表現学習の進歩は、機器変数、共同設立者、調整可能な変数を正確に制御することで、対実予測の精度を著しく向上させる。 これらの因子の独立分離を実現するための魅力的な方法は、特に高次元空間において、多くの機械学習シナリオにおける課題を示すタスクである相互情報の最小化である。 この課題を回避するために,SD^2$ と呼ばれる自己蒸留拡散フレームワークを提案する。 情報理論を基礎として、高次元表現のための複雑な相互情報推定器を設計することなく、理論上独立に不整合表現を鳴らすことを保証する。 我々の総合的な実験は、合成データセットと実世界のデータセットの両方で行われ、観察された共同設立者と観測されていない共同設立者の両方の存在下での対実的推論の促進における我々のアプローチの有効性を確認した。

The advancements in disentangled representation learning significantly enhance the accuracy of counterfactual predictions by granting precise control over instrumental variables, confounders, and adjustable variables. An appealing method for achieving the independent separation of these factors is mutual information minimization, a task that presents challenges in numerous machine learning scenarios, especially within high-dimensional spaces. To circumvent this challenge, we propose the Self-Distilled Disentanglement framework, referred to as $SD^2$. Grounded in information theory, it ensures theoretically sound independent disentangled representations without intricate mutual information estimator designs for high-dimensional representations. Our comprehensive experiments, conducted on both synthetic and real-world datasets, confirms the effectiveness of our approach in facilitating counterfactual inference in the presence of both observed and unobserved confounders.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# Shesha: 次世代Intelプロセッサのマルチヘッドマイクロアーキテクチャ漏洩発見

Shesha: Multi-head Microarchitectural Leakage Discovery in new-generation Intel Processors ( http://arxiv.org/abs/2406.06034v2 )

ライセンス: Link先を確認
Anirban Chakraborty, Nimish Mishra, Debdeep Mukhopadhyay, (参考訳) 過渡的実行攻撃は、SpectreとMeltdownの発見以来、広く研究されてきたマイクロアーキテクチャサイドチャネルの1つである。 しかし、研究の多くは、よく知られた投機的な出来事を通じて、新しい過渡的な経路を手動で発見することによって進められている。 過渡的漏洩発見の自動化に関する文献ではいくつかの試みがあるが、そのようなツールは既知の過渡的攻撃の変種を発見し、命令セットの小さなサブセットを探索することに焦点を当てている。 さらに、探索空間の複雑さが増大するにつれてスケールしないランダムなファジィングアプローチを採っている。 本研究では,不測の探索空間を等価クラスに分割し,この観測結果を用いて,過渡的実行攻撃の自動検出のための最先端ファジリング技術よりも高速な収束率を示すParticle Swarm OptimizationにインスパイアされたSheshaというフレームワークを開発した。 次に、Sheshaを使って、x86インストラクション・セット・アーキテクチャ(ISA)の拡張の広大な領域を探索する。 そこで我々は,Intelプロセッサの命令セット拡張(ISE)において,これまで報告されていない5つの実行パスを報告した。 次に、過渡的な実行パスのそれぞれに対して広範なリバースエンジニアリングを行い、根本原因分析を行う。 検出した過渡的実行経路を用いて、悪用可能な過渡的ウィンドウを示すアタックビルディングブロックを開発する。 最後に、SIMDバッファによるFused Multiply-Add命令からのデータの漏洩を実証し、様々な暗号化実装から被害者データを抽出する。

Transient execution attacks have been one of the widely explored microarchitectural side channels since the discovery of Spectre and Meltdown. However, much of the research has been driven by manual discovery of new transient paths through well-known speculative events. Although a few attempts exist in literature on automating transient leakage discovery, such tools focus on finding variants of known transient attacks and explore a small subset of instruction set. Further, they take a random fuzzing approach that does not scale as the complexity of search space increases. In this work, we identify that the search space of bad speculation is disjointedly fragmented into equivalence classes, and then use this observation to develop a framework named Shesha, inspired by Particle Swarm Optimization, which exhibits faster convergence rates than state-of-the-art fuzzing techniques for automatic discovery of transient execution attacks. We then use Shesha to explore the vast search space of extensions to the x86 Instruction Set Architecture (ISAs), thereby focusing on previously unexplored avenues of bad speculation. As such, we report five previously unreported transient execution paths in Instruction Set Extensions (ISEs) on new generation of Intel processors. We then perform extensive reverse engineering of each of the transient execution paths and provide root-cause analysis. Using the discovered transient execution paths, we develop attack building blocks to exhibit exploitable transient windows. Finally, we demonstrate data leakage from Fused Multiply-Add instructions through SIMD buffer and extract victim data from various cryptographic implementations.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# 画像テキスト分類のためのロバスト遅延表現調整

Robust Latent Representation Tuning for Image-text Classification ( http://arxiv.org/abs/2406.06048v2 )

ライセンス: Link先を確認
Hao Sun, Yu Song, (参考訳) 大規模モデルはコンピュータビジョンと自然言語処理において例外的な一般化能力を示した。 近年の取り組みは、これらのモデルをマルチモーダル処理能力で強化することに重点を置いている。 しかし、1つのモダリティが欠如しているシナリオによって引き起こされる課題に対処することは、依然として大きなハードルである。 そこで本研究では,大規模モデルに対する頑健な潜在表現チューニング手法を提案する。 具体的には、モダリティ間の相関を最大化するために、モダリティ潜在翻訳モジュールを導入し、ロバストな表現をもたらす。 その後、モジュール間の情報交換を容易にするために、新しく設計された融合モジュールが使用される。 このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。 重要なことは、大規模な事前学習によって得られた能力を維持するために、画像とテキストの基礎モデルの凍結状態を維持することである。 いくつかの公開データセットで実験を行い,提案手法の有効性を実証した。

Large models have demonstrated exceptional generalization capabilities in computer vision and natural language processing. Recent efforts have focused on enhancing these models with multimodal processing abilities. However, addressing the challenges posed by scenarios where one modality is absent remains a significant hurdle. In response to this issue, we propose a robust latent representation tuning method for large models. Specifically, our approach introduces a modality latent translation module to maximize the correlation between modalities, resulting in a robust representation. Following this, a newly designed fusion module is employed to facilitate information interaction between the modalities. Within this framework, common semantics are refined during training, and robust performance is achieved even in the absence of one modality. Importantly, our method maintains the frozen state of the image and text foundation models to preserve their capabilities acquired through large-scale pretraining. We conduct experiments on several public datasets, and the results underscore the effectiveness of our proposed method.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# 画像分類のための圧縮メタオプティカルエンコーダ

Compressed Meta-Optical Encoder for Image Classification ( http://arxiv.org/abs/2406.06534v2 )

ライセンス: Link先を確認
Anna Wirth-Singh, Jinlin Xiang, Minho Choi, Johannes E. Fröch, Luocheng Huang, Shane Colburn, Eli Shlizerman, Arka Majumdar, (参考訳) 光およびハイブリッド畳み込みニューラルネットワーク(CNN)は、最近、低レイテンシ、低消費電力の画像分類およびコンピュータビジョンタスクを達成するために関心が高まっている。 しかし、光学的非線形性の実装は困難であり、標準CNNにおける非線形層を省略することは、精度を大幅に低下させる。 本研究では、知識蒸留を用いて、改良されたAlexNetを1つの線形畳み込み層と電子バックエンド(2つの完全に接続された層)に圧縮する。 5つの畳み込み層と3つの完全連結層を持つ純粋電子CNNに匹敵する性能を得る。 逆設計メタ光学の点展開関数を工学的に光学的に実装する。 このハイブリッド手法を用いて、従来の電子修正型AlexNetでは17Mから86Kに減算された乗算演算を、光フロントエンドによって実現されたハイブリッド圧縮ネットワークでは86Kに削減する。 これは、レイテンシと消費電力を2桁以上削減する。 さらに,MNISTデータセットの分類精度が93%を超えることを示した。

Optical and hybrid convolutional neural networks (CNNs) recently have become of increasing interest to achieve low-latency, low-power image classification and computer vision tasks. However, implementing optical nonlinearity is challenging, and omitting the nonlinear layers in a standard CNN comes at a significant reduction in accuracy. In this work, we use knowledge distillation to compress modified AlexNet to a single linear convolutional layer and an electronic backend (two fully connected layers). We obtain comparable performance to a purely electronic CNN with five convolutional layers and three fully connected layers. We implement the convolution optically via engineering the point spread function of an inverse-designed meta-optic. Using this hybrid approach, we estimate a reduction in multiply-accumulate operations from 17M in a conventional electronic modified AlexNet to only 86K in the hybrid compressed network enabled by the optical frontend. This constitutes over two orders of magnitude reduction in latency and power consumption. Furthermore, we experimentally demonstrate that the classification accuracy of the system exceeds 93% on the MNIST dataset.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# BTS:メタデータを用いた呼吸音分類のためのブリッジテキストと音響モーダリティ

BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification ( http://arxiv.org/abs/2406.06786v2 )

ライセンス: Link先を確認
June-Woo Kim, Miika Toikkanen, Yera Choi, Seoung-Eun Moon, Ho-Young Jung, (参考訳) 呼吸音分類 (RSC) は, 主に患者の人口動態や記録環境の影響を受け, 様々な音響的特徴により困難である。 この問題に対処するために,呼吸音のメタデータを利用したテキスト・オーディオ・マルチモーダルモデルを導入し,RCCに有用な補完情報を提供する。 具体的には、患者の性別や年齢、記録装置の種類、患者の身体上の記録位置などを含む音声サンプルのメタデータから得られる自由テキスト記述を用いて、事前訓練されたテキスト・オーディオ・マルチモーダルモデルを微調整する。 提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。 その結果,RCC性能向上におけるメタデータと呼吸音の有効利用の有効性が検証された。 さらに,メタデータが部分的に利用できない場合のモデル性能について検討した。

Respiratory sound classification (RSC) is challenging due to varied acoustic signatures, primarily influenced by patient demographics and recording environments. To address this issue, we introduce a text-audio multimodal model that utilizes metadata of respiratory sounds, which provides useful complementary information for RSC. Specifically, we fine-tune a pretrained text-audio multimodal model using free-text descriptions derived from the sound samples' metadata which includes the gender and age of patients, type of recording devices, and recording location on the patient's body. Our method achieves state-of-the-art performance on the ICBHI dataset, surpassing the previous best result by a notable margin of 1.17%. This result validates the effectiveness of leveraging metadata and respiratory sound samples in enhancing RSC performance. Additionally, we investigate the model performance in the case where metadata is partially unavailable, which may occur in real-world clinical setting.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# 可逆的対向ロバスト性のための強化圧縮型ニューラルアーキテクチャ探索

Reinforced Compressive Neural Architecture Search for Versatile Adversarial Robustness ( http://arxiv.org/abs/2406.06792v2 )

ライセンス: Link先を確認
Dingrong Wang, Hitesh Sapkota, Zhiqiang Tao, Qi Yu, (参考訳) 敵対的堅牢性研究のための以前のニューラルアーキテクチャサーチ(NAS)は、軽量で逆向きに堅牢なニューラルネットワークアーキテクチャが非ロバストな大規模教師ネットワークに存在し、一般に統計分析とニューラルアーキテクチャサーチを通じてヒューリスティックなルールによって開示され、一般的にはニューラルアーキテクチャサーチからのヒューリスティックなルールによって開示されていることを発見している。 しかし、ヒューリスティック手法は、異なる敵攻撃や「教師」ネットワーク容量を均一に扱えない。 この課題を解決するために, 可逆的対数ロバストネスのための強化圧縮型ニューラルネットワーク探索(RC-NAS)を提案する。 具体的には、データセット、敵攻撃、教師ネットワーク情報を構成するタスク設定を定義する。 多様なタスクが与えられた場合、我々は、RLエージェントを多様な攻撃シナリオ(メタトレーニング)に効果的に露出させるために、メタトレーニングと微調整フェーズからなる新しいデュアルレベルトレーニングパラダイムを実行し、未確認シナリオのサブネットワーク(微調整)を見つけるために迅速に適応させる。 実験により、我々のフレームワークは、異なる初期教師ネットワーク、データセット、および敵攻撃に対して適応的な圧縮を達成できることが示され、その結果、より軽量で対向的に堅牢なアーキテクチャが得られる。

Prior neural architecture search (NAS) for adversarial robustness works have discovered that a lightweight and adversarially robust neural network architecture could exist in a non-robust large teacher network, generally disclosed by heuristic rules through statistical analysis and neural architecture search, generally disclosed by heuristic rules from neural architecture search. However, heuristic methods cannot uniformly handle different adversarial attacks and "teacher" network capacity. To solve this challenge, we propose a Reinforced Compressive Neural Architecture Search (RC-NAS) for Versatile Adversarial Robustness. Specifically, we define task settings that compose datasets, adversarial attacks, and teacher network information. Given diverse tasks, we conduct a novel dual-level training paradigm that consists of a meta-training and a fine-tuning phase to effectively expose the RL agent to diverse attack scenarios (in meta-training), and making it adapt quickly to locate a sub-network (in fine-tuning) for any previously unseen scenarios. Experiments show that our framework could achieve adaptive compression towards different initial teacher networks, datasets, and adversarial attacks, resulting in more lightweight and adversarially robust architectures.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# FLUX:カーネルフュージョンによるGPU上での高速ソフトウェアベースの通信オーバーラップ

FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion ( http://arxiv.org/abs/2406.06858v3 )

ライセンス: Link先を確認
Li-Wen Chang, Wenlei Bao, Qi Hou, Chengquan Jiang, Ningxin Zheng, Yinmin Zhong, Xuanrun Zhang, Zuquan Song, Ziheng Jiang, Haibin Lin, Xin Jin, Xin Liu, (参考訳) 大規模なディープラーニングモデルは、広範囲のアプリケーションで多くのタスクを解く強力な能力を示している。 これらの大きなモデルは一般的に、トレーニングと推論を必要とします。 テンソル並列性(Tensor parallelism)は、単一のプロセッサのメモリ容量制限を克服し、/または特定のレイテンシ要求を満たすために計算を高速化するために、デバイス間で操作やレイヤの計算を分割する一般的な手法である。 しかし、この種の並列処理は、ランタイム全体のかなりの部分を占めるかもしれない追加の通信を導入します。 これにより、ノード内のNVLinkを持つGPUなど、高速な相互接続を持つデバイス群における、このテクニックのスケーラビリティが制限される。 本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。 Fluxは通信処理と計算処理を細かな演算に過度に分解し、さらに大きなカーネルに融合させ、カーネル効率を損なうことなく効果的に通信を隠蔽する。 Fluxは核融合によって最大96%の通信を重複させる可能性がある。 全体として、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LMをトレーニングするための最大1.24倍のスピードアップを実現し、様々なGPU世代と相互接続を持つ8GPUを持つクラスタ上で、vLLM上の推論をプリフィルおよびデコードするための最大1.66倍と1.30倍のスピードアップを実現している。

Large deep learning models have demonstrated strong ability to solve many tasks across a wide range of applications. Those large models typically require training and inference to be distributed. Tensor parallelism is a common technique partitioning computation of an operation or layer across devices to overcome the memory capacity limitation of a single processor, and/or to accelerate computation to meet a certain latency requirement. However, this kind of parallelism introduces additional communication that might contribute a significant portion of overall runtime. Thus limits scalability of this technique within a group of devices with high speed interconnects, such as GPUs with NVLinks in a node. This paper proposes a novel method, Flux, to significantly hide communication latencies with dependent computations for GPUs. Flux over-decomposes communication and computation operations into much finer-grained operations and further fuses them into a larger kernel to effectively hide communication without compromising kernel efficiency. Flux can potentially overlap up to 96% of communication given a fused kernel. Overall, it can achieve up to 1.24x speedups for training over Megatron-LM on a cluster of 128 GPUs with various GPU generations and interconnects, and up to 1.66x and 1.30x speedups for prefill and decoding inference over vLLM on a cluster with 8 GPUs with various GPU generations and interconnects.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# VulDetectBench: 大規模言語モデルによる脆弱性検出の深い機能評価

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models ( http://arxiv.org/abs/2406.07595v2 )

ライセンス: Link先を確認
Yu Liu, Lang Gao, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang, Wei Chen, (参考訳) 大規模言語モデル(LLM)は、大量のプログラムコードを含むトレーニングコーパスを持ち、モデルのコード理解と生成能力を大幅に改善する。 しかし、プログラムの脆弱性の検出、コードに関するより具体的なタスク、そしてこのより専門的なシナリオにおけるLLMの性能評価に関する包括的な研究は、いまだに不足している。 脆弱性分析における一般的な課題に対処するため,本研究では,LSMの脆弱性検出機能を評価するために特別に設計された,新たなベンチマークであるVulDetectBenchを紹介した。 このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。 我々は17モデル(オープンソースとクローズドソースの両方)の性能を評価し、既存のモデルでは脆弱性の識別と分類に関連するタスクにおいて80%以上の精度を達成できるが、その一方で、特定のより詳細な脆弱性分析タスクでは、30%未満の精度で不足しており、プロの脆弱性マイニングに有用な補助情報を提供することは困難である。 本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。 VulDetectBenchはhttps://github.com/Sweetaroo/VulDetectBench.comで公開されている。

Large Language Models (LLMs) have training corpora containing large amounts of program code, greatly improving the model's code comprehension and generation capabilities. However, sound comprehensive research on detecting program vulnerabilities, a more specific task related to code, and evaluating the performance of LLMs in this more specialized scenario is still lacking. To address common challenges in vulnerability analysis, our study introduces a new benchmark, VulDetectBench, specifically designed to assess the vulnerability detection capabilities of LLMs. The benchmark comprehensively evaluates LLM's ability to identify, classify, and locate vulnerabilities through five tasks of increasing difficulty. We evaluate the performance of 17 models (both open- and closed-source) and find that while existing models can achieve over 80% accuracy on tasks related to vulnerability identification and classification, they still fall short on specific, more detailed vulnerability analysis tasks, with less than 30% accuracy, making it difficult to provide valuable auxiliary information for professional vulnerability mining. Our benchmark effectively evaluates the capabilities of various LLMs at different levels in the specific task of vulnerability detection, providing a foundation for future research and improvements in this critical area of code security. VulDetectBench is publicly available at https://github.com/Sweetaroo/VulDetectBench.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# グラフニューラルネットワークによるヒューリスティック学習:リンク予測のための統一フレームワーク

Heuristic Learning with Graph Neural Networks: A Unified Framework for Link Prediction ( http://arxiv.org/abs/2406.07979v2 )

ライセンス: Link先を確認
Juzheng Zhang, Lanning Wei, Zhen Xu, Quanming Yao, (参考訳) リンク予測はグラフ学習における基本的なタスクであり、本質的にグラフのトポロジーによって形作られる。 従来のヒューリスティックはグラフトポロジに根ざしているが、様々なグラフをまたいだ一般化の難しさに直面する。 近年の研究はヒューリスティックスの可能性を活用することを目的としているが、地域とグローバルなヒューリスティックスを併せ持つ統一的な定式化は未発見のままである。 局所的および大域的ヒューリスティックスの両方を隣接行列乗法で表すことができるという事実から洞察を導き,様々なヒューリスティックスに対応・一般化するための統一行列定式化を提案する。 さらに,この定式化を効率的に実装するためのHuristic Learning Graph Neural Network (HL-GNN)を提案する。 HL-GNNは層間伝播と層間接続を採用しており、GCNよりも低時間で約20層の深さに達することができる。 Planetoid、Amazon、OGBデータセットに関する大規模な実験は、HL-GNNの有効性と効率性を示している。 予測性能の大きな差で既存の手法を上回ります。 加えて、HL-GNNはヒューリスティックにインスパイアされた手法よりも数桁高速であり、訓練可能なパラメータはわずかである。 このケーススタディは、一般化されたヒューリスティックスと学習されたウェイトが極めて解釈可能であることを示す。

Link prediction is a fundamental task in graph learning, inherently shaped by the topology of the graph. While traditional heuristics are grounded in graph topology, they encounter challenges in generalizing across diverse graphs. Recent research efforts have aimed to leverage the potential of heuristics, yet a unified formulation accommodating both local and global heuristics remains undiscovered. Drawing insights from the fact that both local and global heuristics can be represented by adjacency matrix multiplications, we propose a unified matrix formulation to accommodate and generalize various heuristics. We further propose the Heuristic Learning Graph Neural Network (HL-GNN) to efficiently implement the formulation. HL-GNN adopts intra-layer propagation and inter-layer connections, allowing it to reach a depth of around 20 layers with lower time complexity than GCN. Extensive experiments on the Planetoid, Amazon, and OGB datasets underscore the effectiveness and efficiency of HL-GNN. It outperforms existing methods by a large margin in prediction performance. Additionally, HL-GNN is several orders of magnitude faster than heuristic-inspired methods while requiring only a few trainable parameters. The case study further demonstrates that the generalized heuristics and learned weights are highly interpretable.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# ショートロングコンボリューションは、ハードウェア効率の良いリニアアテンションで長いシーケンスにフォーカスするのに役立つ

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences ( http://arxiv.org/abs/2406.08128v3 )

ライセンス: Link先を確認
Zicheng Liu, Siyuan Li, Li Wang, Zedong Wang, Yunfan Liu, Stan Z. Li, (参考訳) 長い列上の自己アテンション機構における計算複雑性を軽減するために、線形アテンションは計算トリックを利用して線形複雑性を実現する。 近年の研究では、これらを1つに組み合わせた優先順位が示されている。 しかし、線形注意の効率は因果関係において理論レベルに留まらず、SSMは特定のデータに対して効果的に操作するために様々な設計上の制約を必要とする。 したがって,ハイブリッド設計の真のパワーを明らかにするためには,(1)線形注意のためのハードウェア効率の良い実装,(2)SSMの安定化という2つの課題に対処する必要がある。 これを実現するために、タイリングと階層の考え方を活用して、短時間の畳み込みでSSMを置き換えるCHELA(short-long Convolutions with Hardware-Efficient Linear Attention)を提案する。 このアプローチは、線形複雑性を維持しつつ、安定なSSMと線形注意からのグローバルな抽象化とデータ依存の選択を享受する。 提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクに関する総合的な実験を行った。

To mitigate the computational complexity in the self-attention mechanism on long sequences, linear attention utilizes computation tricks to achieve linear complexity, while state space models (SSMs) popularize a favorable practice of using non-data-dependent memory pattern, i.e., emphasize the near and neglect the distant, to processing sequences. Recent studies have shown the priorities by combining them as one. However, the efficiency of linear attention remains only at the theoretical level in a causal setting, and SSMs require various designed constraints to operate effectively on specific data. Therefore, in order to unveil the true power of the hybrid design, the following two issues need to be addressed: (1) hardware-efficient implementation for linear attention and (2) stabilization of SSMs. To achieve this, we leverage the thought of tiling and hierarchy to propose CHELA (short-long Convolutions with Hardware-Efficient Linear Attention), which replaces SSMs with short-long convolutions and implements linear attention in a divide-and-conquer manner. This approach enjoys global abstraction and data-dependent selection from stable SSM and linear attention while maintaining real linear complexity. Our comprehensive experiments on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-17 18:03:47 公開日:2024-06-14
# 実世界の超解像のためのワンステップ有効拡散ネットワーク

One-Step Effective Diffusion Network for Real-World Image Super-Resolution ( http://arxiv.org/abs/2406.08177v2 )

ライセンス: Link先を確認
Rongyuan Wu, Lingchen Sun, Zhiyuan Ma, Lei Zhang, (参考訳) 事前訓練されたテキスト-画像拡散モデルは、その強力な生成画像先行により、現実の超解像(Real-ISR)問題に取り組むために、ますます採用されている。 既存の手法のほとんどはランダムノイズから始まり、与えられた低品質(LQ)画像の誘導の下で高品質(HQ)画像を再構成する。 有望な結果が得られたが、そのようなReal-ISR法はHQイメージを再現するために複数の拡散ステップを必要とし、計算コストを増大させる。 一方、ランダムノイズは出力の不確実性を導入し、画像復元作業には適さない。 これらの問題に対処するため、実ISR問題に対して1段階の効果的な拡散ネットワーク、すなわちOSEDiffを提案する。 我々は,LQ画像は本社を復元するための豊富な情報を含んでいるため,与えられたLQ画像を拡散開始点として直接捉えることができ,ランダムノイズサンプリングによる不確実性を排除できると主張している。 トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。 一段階拡散モデルによりHQ Real-ISR出力が得られることを保証するため,KL分散正則化を行うために潜時空間における変分点蒸留を適用した。 その結果,OSEDiffモデルでは,1つの拡散ステップでHQイメージを効率よく効率よく生成できることがわかった。 実験により,OSEDiffは,従来の拡散モデルに基づく実ISR法に比べて,客観的な測定値と主観的評価値の両方で,数十段階ないし数百段階のステップを必要とする場合と比較して,同等あるいはさらに優れた実ISR結果が得られることが示された。 ソースコードはhttps://github.com/cswry/OSEDiffで公開される。

The pre-trained text-to-image diffusion models have been increasingly employed to tackle the real-world image super-resolution (Real-ISR) problem due to their powerful generative image priors. Most of the existing methods start from random noise to reconstruct the high-quality (HQ) image under the guidance of the given low-quality (LQ) image. While promising results have been achieved, such Real- ISR methods require multiple diffusion steps to reproduce the HQ image, increasing the computational cost. Meanwhile, the random noise introduces uncertainty in the output, which is unfriendly to image restoration tasks. To address these issues, we propose a one-step effective diffusion network, namely OSEDiff, for the Real- ISR problem. We argue that the LQ image contains rich information to restore its HQ counterpart, and hence the given LQ image can be directly taken as the starting point for diffusion, eliminating the uncertainty introduced by random noise sampling. We finetune the pre-trained diffusion network with trainable layers to adapt it to complex image degradations. To ensure that the one-step diffusion model could yield HQ Real-ISR output, we apply variational score distillation in the latent space to conduct KL-divergence regularization. As a result, our OSEDiff model can efficiently and effectively generate HQ images in just one diffusion step. Our experiments demonstrate that OSEDiff achieves comparable or even better Real-ISR results, in terms of both objective metrics and subjective evaluations, than previous diffusion model based Real-ISR methods that require dozens or hundreds of steps. The source codes will be released at https://github.com/cswry/OSEDiff.
翻訳日:2024-06-17 17:54:02 公開日:2024-06-14
# 抑うつ予測のためのLSMにおける定量的・質的ジェンダーフェアネス

Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction ( http://arxiv.org/abs/2406.08183v2 )

ライセンス: Link先を確認
Micol Spitale, Jiaee Cheong, Hatice Gunes, (参考訳) 近年の研究では、抑うつ検出のための多くの機械学習モデルに偏りがあるが、このタスクのLCMの偏りは未解明のままである。 本研究は,既存のLCM (ChatGPT, LLaMA 2, Bard) における性差の量的および質的アプローチを用いて, 性別バイアスの程度を調査するための最初の試みである。 定量的評価の結果,ChatGPTは様々なパフォーマンス指標で最高の性能を示し,LLaMA 2はグループフェアネス指標で他のLCMよりも優れていた。 質的公正度評価はオープンな研究課題として残り、質的公正度評価が定量的評価の可能な範囲を超えてバイアス分析に有意義な洞察を与えるかどうかを調査するためのいくつかの戦略(言葉数、テーマ分析など)を提案する。 LLaMA 2と比べて、ChatGPTはより包括的で、合理的な予測を提供する。 また,ジェンダーフェアネスを質的に評価するために,LLMが採用するテーマをいくつか挙げた。 今後,LLMの公平性の質的評価,特に抑うつ検出などの高精細なタスクの質的評価を行おうとする試みとして,本研究の成果が期待できる。

Recent studies show bias in many machine learning models for depression detection, but bias in LLMs for this task remains unexplored. This work presents the first attempt to investigate the degree of gender bias present in existing LLMs (ChatGPT, LLaMA 2, and Bard) using both quantitative and qualitative approaches. From our quantitative evaluation, we found that ChatGPT performs the best across various performance metrics and LLaMA 2 outperforms other LLMs in terms of group fairness metrics. As qualitative fairness evaluation remains an open research question we propose several strategies (e.g., word count, thematic analysis) to investigate whether and how a qualitative evaluation can provide valuable insights for bias analysis beyond what is possible with quantitative evaluation. We found that ChatGPT consistently provides a more comprehensive, well-reasoned explanation for its prediction compared to LLaMA 2. We have also identified several themes adopted by LLMs to qualitatively evaluate gender fairness. We hope our results can be used as a stepping stone towards future attempts at improving qualitative evaluation of fairness for LLMs especially for high-stakes tasks such as depression detection.
翻訳日:2024-06-17 17:54:02 公開日:2024-06-14
# 適応型時空間グラフニューラルネットにおけるグラフ勝利チケットの事前学習同定

Pre-Training Identification of Graph Winning Tickets in Adaptive Spatial-Temporal Graph Neural Networks ( http://arxiv.org/abs/2406.08287v2 )

ライセンス: Link先を確認
Wenying Duan, Tianxiang Fang, Hong Rao, Xiaoxi He, (参考訳) 本稿では、LTH(Lottery Ticket hypothesis)から派生したグラフウィンティング・チケット(GWT)の概念を導入し、適応空間時間グラフニューラルネットワーク(ASTGNN)の計算効率を大幅に向上させる新しい手法を提案する。 事前決定された恒星トポロジをGWTとしてトレーニング前に採用することにより、エッジの削減と効率的な情報伝達のバランスを保ち、高いモデル性能を維持しながら計算要求を低減できる。 適応的な時空間グラフを生成する際の時間およびメモリ計算の複雑さは、$\mathcal{O}(N^2)$から$\mathcal{O}(N)$に大幅に減少する。 提案手法は, ASTGNNの展開を, 徹底的な訓練, 刈り込み, 再訓練サイクルの必要性をなくすことで効率化し, 計算コストを大幅に低減したフルモデルに匹敵する性能を達成できることを実証的に示す。 具体的には,48GBのメモリを備えた単一A6000を用いて,最大規模の時空間データセット上でASTGNNをトレーニングすることができる。 さらに、スペクトルグラフ理論の観点からGWTの有効性を探求し、かなりの理論的支援を提供する。 この進歩は、ASTGNN内の効率的なサブネットワークの存在を証明しているだけでなく、リソース制約のある設定におけるLTHの適用性も拡大し、グラフニューラルネットワークの分野における重要な一歩を踏み出した。 コードはhttps://anonymous.4open.science/r/paper-1430で公開されている。

In this paper, we present a novel method to significantly enhance the computational efficiency of Adaptive Spatial-Temporal Graph Neural Networks (ASTGNNs) by introducing the concept of the Graph Winning Ticket (GWT), derived from the Lottery Ticket Hypothesis (LTH). By adopting a pre-determined star topology as a GWT prior to training, we balance edge reduction with efficient information propagation, reducing computational demands while maintaining high model performance. Both the time and memory computational complexity of generating adaptive spatial-temporal graphs is significantly reduced from $\mathcal{O}(N^2)$ to $\mathcal{O}(N)$. Our approach streamlines the ASTGNN deployment by eliminating the need for exhaustive training, pruning, and retraining cycles, and demonstrates empirically across various datasets that it is possible to achieve comparable performance to full models with substantially lower computational costs. Specifically, our approach enables training ASTGNNs on the largest scale spatial-temporal dataset using a single A6000 equipped with 48 GB of memory, overcoming the out-of-memory issue encountered during original training and even achieving state-of-the-art performance. Furthermore, we delve into the effectiveness of the GWT from the perspective of spectral graph theory, providing substantial theoretical support. This advancement not only proves the existence of efficient sub-networks within ASTGNNs but also broadens the applicability of the LTH in resource-constrained settings, marking a significant step forward in the field of graph neural networks. Code is available at https://anonymous.4open.science/r/paper-1430.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-14
# GraphFM: Graph Foundation Modelの総合ベンチマーク

GraphFM: A Comprehensive Benchmark for Graph Foundation Model ( http://arxiv.org/abs/2406.08310v2 )

ライセンス: Link先を確認
Yuhao Xu, Xinqi Liu, Keyu Duan, Yi Fang, Yu-Neng Chuang, Daochen Zha, Qiaoyu Tan, (参考訳) ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスとして機能し、下流のタスクの範囲にまたがる一般化の幅広い可能性を提供する。 FMの基礎として自己教師型学習を幅広く研究しているにもかかわらず、グラフの自己教師型学習に依存するグラフファウンデーションモデルにはいくつかの顕著な問題が残っている。 1) 均質化。 下流タスクにおける一般化能力の程度は未だ不明である。 2)スケーラビリティ。 これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。 3)効率性。 これらのモデルのトレーニング時間とメモリ使用量を評価する必要がある。 4) 研修停止基準 下流タスクのパフォーマンスを最大化するために、複数のタスクにまたがる事前トレーニングのための最適な停止戦略を決定する。 これらの問題に対処するため、我々は、自己教師付きグラフニューラルネットワーク(GNN)モデルの一般化とスケーラビリティを徹底的に分析し研究する厳密なベンチマークを構築した。 一般化に関しては,ノード分類,リンク予測,ノードクラスタリングといったタスクにまたがって,ノード表現を生成するために訓練された,各種自己教師付きGNNモデルの性能と比較を行った。 スケーラビリティのために、フルバッチとミニバッチ戦略を用いたトレーニング後の各種モデルの性能を比較した。 さらに、GPUメモリ使用量とスループットをテストする実験を行うことで、これらのモデルのトレーニング効率を評価した。 これらの実験を通じて、将来の研究を動機付けるための洞察を提供することを目指している。 このベンチマークのコードはhttps://github.com/NYUSHCS/GraphFMで公開されている。

Foundation Models (FMs) serve as a general class for the development of artificial intelligence systems, offering broad potential for generalization across a spectrum of downstream tasks. Despite extensive research into self-supervised learning as the cornerstone of FMs, several outstanding issues persist in Graph Foundation Models that rely on graph self-supervised learning, namely: 1) Homogenization. The extent of generalization capability on downstream tasks remains unclear. 2) Scalability. It is unknown how effectively these models can scale to large datasets. 3) Efficiency. The training time and memory usage of these models require evaluation. 4) Training Stop Criteria. Determining the optimal stopping strategy for pre-training across multiple tasks to maximize performance on downstream tasks. To address these questions, we have constructed a rigorous benchmark that thoroughly analyzes and studies the generalization and scalability of self-supervised Graph Neural Network (GNN) models. Regarding generalization, we have implemented and compared the performance of various self-supervised GNN models, trained to generate node representations, across tasks such as node classification, link prediction, and node clustering. For scalability, we have compared the performance of various models after training using full-batch and mini-batch strategies. Additionally, we have assessed the training efficiency of these models by conducting experiments to test their GPU memory usage and throughput. Through these experiments, we aim to provide insights to motivate future research. The code for this benchmark is publicly available at https://github.com/NYUSHCS/GraphFM.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-14
# VisionLLM v2: 数百の視覚言語タスクのためのエンド・ツー・エンドの汎用マルチモーダル言語モデル

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks ( http://arxiv.org/abs/2406.08394v2 )

ライセンス: Link先を確認
Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Wenhai Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai, (参考訳) VisionLLM v2は、単一のフレームワーク内で視覚知覚、理解、生成を統一する、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。 テキスト出力に限定された従来のMLLMとは異なり、VisionLLM v2はアプリケーションの範囲を大きく広げた。 従来の視覚的質問応答(VQA)だけでなく、オブジェクトのローカライゼーション、ポーズ推定、画像生成と編集といった、オープンなドメイン横断の視覚タスクでも優れている。 そこで本稿では,MLLMとタスク固有のデコーダを接続する媒体として,スーパーリンクと呼ばれる新しい情報伝達機構を提案する。 MLLMと複数の下流デコーダ間のタスク情報の柔軟な伝達と勾配フィードバックを可能にするだけでなく、マルチタスクシナリオでのトレーニング競合を効果的に解決する。 さらに,多種多様なタスクをサポートするために,数百の公的なビジョンと視覚言語タスクのトレーニングデータを注意深く収集し,組み立てた。 このようにして、我々のモデルは数百の視覚言語タスクでエンドツーエンドで協調訓練され、異なるユーザプロンプトを通して共有パラメータのセットを使用してこれらのタスクに一般化することができ、タスク固有のモデルに匹敵するパフォーマンスを達成することができる。 VisionLLM v2はMLLMの一般化に関する新たな視点を提供すると思います。

We present VisionLLM v2, an end-to-end generalist multimodal large model (MLLM) that unifies visual perception, understanding, and generation within a single framework. Unlike traditional MLLMs limited to text output, VisionLLM v2 significantly broadens its application scope. It excels not only in conventional visual question answering (VQA) but also in open-ended, cross-domain vision tasks such as object localization, pose estimation, and image generation and editing. To this end, we propose a new information transmission mechanism termed "super link", as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios. In addition, to support the diverse range of tasks, we carefully collected and combed training data from hundreds of public vision and vision-language tasks. In this way, our model can be joint-trained end-to-end on hundreds of vision language tasks and generalize to these tasks using a set of shared parameters through different user prompts, achieving performance comparable to task-specific models. We believe VisionLLM v2 will offer a new perspective on the generalization of MLLMs.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-14
# LLaVA-HDを超える:高分解能大規模マルチモーダルモデルへの分割

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models ( http://arxiv.org/abs/2406.08487v3 )

ライセンス: Link先を確認
Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, (参考訳) 高解像度で明確に見ることは、視覚知覚と推論に不可欠であることが証明されたLMM(Large Multimodal Models)の基礎である。 既存の作業では、画像はグローバルとローカルのブランチで構成され、後者はスライスされたイメージパッチだが、前者と同じ解像度にリサイズされる。 これは、高解像度ではより局所的なパッチが必要であり、結果として計算コストが増大し、一方、局所的な画像トークンの優位性はグローバルな文脈を低下させる可能性があることを意味している。 本稿では,この問題を掘り下げ,新たなフレームワークと精巧な最適化戦略を提案する。 具体的には、異なるアダプタが異なるタスクで優れているという観察に基づいて、アダプタの混合を用いて、グローバルビューからコンテキスト情報を抽出する。 ローカルパッチに関しては、画像トークンを減らすために学習可能なクエリ埋め込みを導入し、ユーザ疑問に対処する最も重要なトークンは、類似性ベースのセレクタによってさらに選択される。 実験の結果は‘less is more’パターンを示し、より少ないがより情報的なローカル画像トークンを使用するとパフォーマンスが向上することを示している。 さらに、グローバルマイニングブロックと局所圧縮ブロックの同時エンドツーエンドトレーニングが最適な結果をもたらすことはないため、トレーニング戦略において重要な課題がある。 そこで我々は、グローバルな側面とローカルな側面のバランスの取れた学習を確実にする、交互に訓練する方法を提唱する。 最後に,画像の詳細化の要求の高いデータセットを導入し,局所的な圧縮層のトレーニングを強化した。 提案手法は,SliME(Sophisticated Tasks,ローカル画像圧縮,Mixture of Global Experts)を用いたLMMと呼ばれ,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。

Seeing clearly with high resolution is a foundation of Large Multimodal Models (LMMs), which has been proven to be vital for visual perception and reasoning. Existing works usually employ a straightforward resolution upscaling method, where the image consists of global and local branches, with the latter being the sliced image patches but resized to the same resolution as the former. This means that higher resolution requires more local patches, resulting in exorbitant computational expenses, and meanwhile, the dominance of local image tokens may diminish the global context. In this paper, we dive into the problems and propose a new framework as well as an elaborate optimization strategy. Specifically, we extract contextual information from the global view using a mixture of adapters, based on the observation that different adapters excel at different tasks. With regard to local patches, learnable query embeddings are introduced to reduce image tokens, the most important tokens accounting for the user question will be further selected by a similarity-based selector. Our empirical results demonstrate a `less is more' pattern, where \textit{utilizing fewer but more informative local image tokens leads to improved performance}. Besides, a significant challenge lies in the training strategy, as simultaneous end-to-end training of the global mining block and local compression block does not yield optimal results. We thus advocate for an alternating training way, ensuring balanced learning between global and local aspects. Finally, we also introduce a challenging dataset with high requirements for image detail, enhancing the training of the local compression layer. The proposed method, termed LMM with Sophisticated Tasks, Local image compression, and Mixture of global Experts (SliME), achieves leading performance across various benchmarks with only 2 million training data.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-14
# 知識蒸留のための共有分類器を用いた適応型指導

Adaptive Teaching with Shared Classifier for Knowledge Distillation ( http://arxiv.org/abs/2406.08528v2 )

ライセンス: Link先を確認
Jaeyeon Jang, Young-Ik Kim, Jisu Lim, Hyeonseong Lee, (参考訳) 知識蒸留 (KD) は、過度にパラメータ化された教師ネットワークから低パラメータの学生ネットワークへ知識を伝達する手法であり、結果として得られた性能損失を最小限に抑える。 KDメソッドはオフラインおよびオンラインのアプローチに分類される。 オンラインKDは教師ネットワークを動的に調整し、生徒ネットワークの学習効果を高める。 近年,教師ネットワークの分類器の共有は,ネットワークパラメータの最小限の増加に留まらず,学生ネットワークの性能を大幅に向上させることが判明した。 これらの知見に基づいて,共有分類器(ATSC)を用いた適応型教育を提案する。 ATSCでは、事前訓練された教師ネットワークは、その能力に基づいて学生ネットワークの学習ニーズに合わせた自己調整を行い、学生ネットワークは共有分類器の恩恵を受け、その性能を向上する。 さらに、ATSCを複数の教師による環境に拡張する。 提案手法の有効性を実証した広範囲な実験を行った。 提案手法は,CIFAR-100とImageNetのデータセットを単教師と複数教師の両方のシナリオで実現し,必要なモデルパラメータの数もわずかに増加している。 ソースコードはhttps://github.com/random2314235/ATSCで公開されている。

Knowledge distillation (KD) is a technique used to transfer knowledge from an overparameterized teacher network to a less-parameterized student network, thereby minimizing the incurred performance loss. KD methods can be categorized into offline and online approaches. Offline KD leverages a powerful pretrained teacher network, while online KD allows the teacher network to be adjusted dynamically to enhance the learning effectiveness of the student network. Recently, it has been discovered that sharing the classifier of the teacher network can significantly boost the performance of the student network with only a minimal increase in the number of network parameters. Building on these insights, we propose adaptive teaching with a shared classifier (ATSC). In ATSC, the pretrained teacher network self-adjusts to better align with the learning needs of the student network based on its capabilities, and the student network benefits from the shared classifier, enhancing its performance. Additionally, we extend ATSC to environments with multiple teachers. We conduct extensive experiments, demonstrating the effectiveness of the proposed KD method. Our approach achieves state-of-the-art results on the CIFAR-100 and ImageNet datasets in both single-teacher and multiteacher scenarios, with only a modest increase in the number of required model parameters. The source code is publicly available at https://github.com/random2314235/ATSC.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-14
# 産業言語画像データセット(ILID:Industrial Language- Image Dataset) : 産業環境におけるビジョン基礎モデルの適用

Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings ( http://arxiv.org/abs/2406.09637v1 )

ライセンス: Link先を確認
Keno Moenck, Duc Trung Thieu, Julian Koch, Thorsten Schüppstuhl, (参考訳) 近年、LLM(Large Language Models)の上流では、コンピュータビジョンコミュニティが大規模なマルチモーダルデータセットやトレーニングモデルを自己/半教師付きで大規模に開発することを奨励しており、結果としてVision Foundation Models(VFM)、例えばContrastive Language- Image Pre-Training(CLIP)が実現している。 モデルは一般化され、下流のタスクでも日常のオブジェクトやシーンで卓越した性能を発揮するが、工業的文脈のように専門分野の応用は依然としてオープンな研究課題である。 ここでは、適切なパフォーマンスに異議を唱える際に、モデルやドメイン固有のデータに対する転写学習の微調整は避けられない。 本研究では,Web の増大するデータをもとに,産業用言語画像データセット(ILID)を生成するパイプラインを導入するとともに,低コストで取得した ILID をトレーニングした上で,効率的な自己監督型トランスファー学習と下流タスクの議論を行う。 提案手法では, 基礎モデル, 転移学習戦略, 応用に関する最先端の研究から産業領域へアプローチを移すことで貢献する。

In recent years, the upstream of Large Language Models (LLM) has also encouraged the computer vision community to work on substantial multimodal datasets and train models on a scale in a self-/semi-supervised manner, resulting in Vision Foundation Models (VFM), as, e.g., Contrastive Language-Image Pre-training (CLIP). The models generalize well and perform outstandingly on everyday objects or scenes, even on downstream tasks, tasks the model has not been trained on, while the application in specialized domains, as in an industrial context, is still an open research question. Here, fine-tuning the models or transfer learning on domain-specific data is unavoidable when objecting to adequate performance. In this work, we, on the one hand, introduce a pipeline to generate the Industrial Language-Image Dataset (ILID) based on web-crawled data; on the other hand, we demonstrate effective self-supervised transfer learning and discussing downstream tasks after training on the cheaply acquired ILID, which does not necessitate human labeling or intervention. With the proposed approach, we contribute by transferring approaches from state-of-the-art research around foundation models, transfer learning strategies, and applications to the industrial domain.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-14
# RASPNet: レーダ適応信号処理アプリケーションのためのベンチマークデータセット

RASPNet: A Benchmark Dataset for Radar Adaptive Signal Processing Applications ( http://arxiv.org/abs/2406.09638v1 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh, (参考訳) 本研究では、レーダコミュニティ内でのデータ駆動モデルの開発を支援することを目的とした、レーダ適応信号処理(RASP)アプリケーションのための大規模データセットを提案する。 RASPNetと呼ばれるこのデータセットは、米国全土の様々な地形や土地タイプにまたがる100の現実的なシナリオで構成されており、さまざまな現実世界環境を反映するように設計されている。 各シナリオ内では、RASPNetは、レーダーアルゴリズムの開発と評価に使用できる航空機搭載レーダー設定からの1万のクラッタ実現で構成されている。 RASPNetは、適応レーダー処理技術の評価を標準化する大規模で現実的なデータセットの可用性において、大きなギャップを埋めようとしている。 RASPNetが現実的な適応型レーダ処理シナリオにどのように活用できるかを示すために、転送学習の例を含む、その構成、組織、およびいくつかの潜在的なアプリケーションについて説明する。

This work presents a large-scale dataset for radar adaptive signal processing (RASP) applications, aimed at supporting the development of data-driven models within the radar community. The dataset, called RASPNet, consists of 100 realistic scenarios compiled over a variety of topographies and land types from across the contiguous United States, designed to reflect a diverse array of real-world environments. Within each scenario, RASPNet consists of 10,000 clutter realizations from an airborne radar setting, which can be utilized for radar algorithm development and evaluation. RASPNet intends to fill a prominent gap in the availability of a large-scale, realistic dataset that standardizes the evaluation of adaptive radar processing techniques. We describe its construction, organization, and several potential applications, which includes a transfer learning example to demonstrate how RASPNet can be leveraged for realistic adaptive radar processing scenarios.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-14
# TGB 2.0: 時間的知識グラフと不均一グラフの学習ベンチマーク

TGB 2.0: A Benchmark for Learning on Temporal Knowledge Graphs and Heterogeneous Graphs ( http://arxiv.org/abs/2406.09639v1 )

ライセンス: Link先を確認
Julia Gastinger, Shenyang Huang, Mikhail Galkin, Erfan Loghmani, Ali Parviz, Farimah Poursafaei, Jacob Danovitch, Emanuele Rossi, Ioannis Koutis, Heiner Stuckenschmidt, Reihaneh Rabbany, Guillaume Rabusseau, (参考訳) マルチリレーショナル・テンポラルグラフは実世界のデータをモデリングするための強力なツールであり、時間とともに実体の進化と相互接続の性質を捉えている。 近年,このようなグラフを用いたMLの新しいモデルが多数提案されており,ロバストな評価やベンチマークデータセットの標準化の必要性が高まっている。 しかし、そのような資源の利用可能性は依然として乏しく、実験プロトコルの再現性の問題により、評価が複雑さを増す傾向にある。 これらの課題に対処するため、テンポラルグラフベンチマーク2.0(TGB 2.0)を導入し、テンポラルグラフベンチマークを拡張しながら、テンポラル知識グラフとテンポラル異種グラフの将来のリンクを予測する方法を評価するための新しいベンチマークフレームワークを紹介した。 TGB 2.0は、最大5300万のエッジを持つ5つのドメインにまたがる8つの新しいデータセットを提示することで、包括的な評価を容易にする。 TGB 2.0データセットは、ノード数、エッジ数、タイムスタンプの点で、既存のデータセットよりも大幅に大きい。 さらに、TGB 2.0は、マルチリレーショナル時間グラフのための再現可能で現実的な評価パイプラインを提供する。 広範な実験を通して、我々はそれを観察する。 1)エッジ型情報の活用は,高性能化に不可欠である。 2) 単純なヒューリスティックなベースラインは、しばしばより複雑な手法と競合する。 3) ほとんどのメソッドは、我々の最大のデータセット上では動作せず、よりスケーラブルなメソッドの研究の必要性を強調しています。

Multi-relational temporal graphs are powerful tools for modeling real-world data, capturing the evolving and interconnected nature of entities over time. Recently, many novel models are proposed for ML on such graphs intensifying the need for robust evaluation and standardized benchmark datasets. However, the availability of such resources remains scarce and evaluation faces added complexity due to reproducibility issues in experimental protocols. To address these challenges, we introduce Temporal Graph Benchmark 2.0 (TGB 2.0), a novel benchmarking framework tailored for evaluating methods for predicting future links on Temporal Knowledge Graphs and Temporal Heterogeneous Graphs with a focus on large-scale datasets, extending the Temporal Graph Benchmark. TGB 2.0 facilitates comprehensive evaluations by presenting eight novel datasets spanning five domains with up to 53 million edges. TGB 2.0 datasets are significantly larger than existing datasets in terms of number of nodes, edges, or timestamps. In addition, TGB 2.0 provides a reproducible and realistic evaluation pipeline for multi-relational temporal graphs. Through extensive experimentation, we observe that 1) leveraging edge-type information is crucial to obtain high performance, 2) simple heuristic baselines are often competitive with more complex methods, 3) most methods fail to run on our largest datasets, highlighting the need for research on more scalable methods.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-14
# 強化デコーダ:時系列予測のためのリカレントニューラルネットワークのトレーニングを目指して

Reinforced Decoder: Towards Training Recurrent Neural Networks for Time Series Forecasting ( http://arxiv.org/abs/2406.09643v1 )

ライセンス: Link先を確認
Qi Sima, Xinze Zhang, Yukun Bao, Siyue Yang, Liang Shen, (参考訳) 繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルは、マルチステップの時系列予測に広く応用されている。 これらのモデルは通常、デコーダ入力として以前の予測または実際の観測値を使用して訓練されたデコーダを含む。 しかし、自己生成予測に依存すると、複数のステップでエラーが急速に蓄積され、実際の観測では、外挿段階でこれらの値が利用できないため、露光バイアスが発生する。 そこで本研究では,外挿時に引き続きアクセス可能な代替デコーダ入力を生成するための補助モデルを導入する,強化デコーダと呼ばれる新しいトレーニング手法を提案する。 さらに、強化学習アルゴリズムを用いて最適な入力を動的に選択し、精度を向上させる。 包括的実験により、本手法は複数のデータセット上で代表訓練方法より優れていることが示された。 さらに,提案手法は,自己アテンションに基づくシーケンス・ツー・シーケンス予測モデルに一般化した場合に有望な性能を示す。

Recurrent neural network-based sequence-to-sequence models have been extensively applied for multi-step-ahead time series forecasting. These models typically involve a decoder trained using either its previous forecasts or the actual observed values as the decoder inputs. However, relying on self-generated predictions can lead to the rapid accumulation of errors over multiple steps, while using the actual observations introduces exposure bias as these values are unavailable during the extrapolation stage. In this regard, this study proposes a novel training approach called reinforced decoder, which introduces auxiliary models to generate alternative decoder inputs that remain accessible when extrapolating. Additionally, a reinforcement learning algorithm is utilized to dynamically select the optimal inputs to improve accuracy. Comprehensive experiments demonstrate that our approach outperforms representative training methods over several datasets. Furthermore, the proposed approach also exhibits promising performance when generalized to self-attention-based sequence-to-sequence forecasting models.
翻訳日:2024-06-17 17:05:01 公開日:2024-06-14
# クラウドにおけるCarbon Accounting: データセンターユーザ間での排出を割り当てる方法論

Carbon accounting in the Cloud: a methodology for allocating emissions across data center users ( http://arxiv.org/abs/2406.09645v1 )

ライセンス: Link先を確認
Ian Schneider, Taylor Mattia, (参考訳) 本稿では,共有データセンタマシン,インフラストラクチャ,ソフトウェアを複数使用したユーザに対して,エネルギー消費量を割り当てる手法を提案する。 Googleは、この方法論を使用して、Google CloudやWorkspaceなど、複数のGoogle製品の企業顧客に対して、カーボンレポートデータを提供している。 ここでは、大規模クラウドカーボンレポートシステムの最先端のアプローチが文書化されている。 マシンのエネルギー消費に関する詳細な、きめ細かい測定データを使用する。 さらに、温室効果ガス議定書「スコープ3報告基準」を参考に、エネルギー消費と二酸化炭素排出量の配分に物理的要因を用いる。 具体的には、データセンターのリソース予約と時間単位のリソース使用量の組み合わせに基づいて、マシンのエネルギー消費を割り当てる。 また、Googleが自社で共有ソフトウェアサービスを利用していることも説明しており、共有サービスのユーザにエネルギー使用を再割り当てしている。 最後に、グローバルなデータセンター群におけるユーザーの炭素排出量を正確に測定するために、時間単位で炭素強度を推定する。

This paper presents a methodology for allocating energy consumption to multiple users of shared data center machines, infrastructure, and software. Google uses this methodology to provide carbon reporting data for enterprise customers of multiple Google products, including Google Cloud and Workspace. The approach documented here advances the state-of-the-art of large scale Cloud carbon reporting systems. It uses detailed, granular measurement data on machine energy consumption. In addition, it uses physical factors for allocating energy consumption and carbon emissions--preferred by the Greenhouse Gas Protocol's Scope 3 Reporting Standard. Specifically, the approach described here allocates machine energy consumption based on a combination of data center resource reservations and hourly measured resource usage. It also accounts for Google's own internal use of shared software services, reallocating energy use to the users of those shared services. Finally, it uses hourly, location-specific estimates of carbon intensity to precisely measure carbon emissions of users in a global fleet of data centers.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 接地イベント理解のためのビデオデータセットの検討

A Survey of Video Datasets for Grounded Event Understanding ( http://arxiv.org/abs/2406.09646v1 )

ライセンス: Link先を確認
Kate Sanders, Benjamin Van Durme, (参考訳) 既存のビデオベンチマークでは、検索や質問回答(QA)といった特定の下流タスクを主に検討しているが、現代のマルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り巻かれた常識推論能力を持つ必要がある。 人間の時間的・視覚的知覚の重要な要素は、「起こること」や出来事を識別し、認知的にモデル化する能力である。 歴史的に、ビデオベンチマークタスクはこの能力について暗黙的にテストされている(例:ビデオキャプション、自然言語を用いた視覚イベントをモデルで記述する)が、ビデオイベント理解自体がタスクであるとは考えていない。 最近の研究は、テキストイベント抽出にビデオの類似を探求し始めているが、競合するタスク定義とデータセットは、非常に特定のイベントタイプに限定されている。 したがって、過去10年以上にわたるイベント中心のビデオ研究の豊富な領域があるが、どのようにビデオイベント理解がフレーム化されるべきなのか、どのようなリソースを研究する必要があるのかは明らかではない。 本稿では、イベント理解能力を必要とする105の動画データセットを調査し、それらがビデオにおける堅牢なイベント理解の研究にどのように貢献するかを考察し、この研究の文脈において提案されたビデオイベント抽出タスクを評価する。 本稿では,ビデオイベントの時間的特質と視覚内容のあいまいさに着目し,データセットのキュレーションとタスクフレーミングについて提案する。

While existing video benchmarks largely consider specialized downstream tasks like retrieval or question-answering (QA), contemporary multimodal AI systems must be capable of well-rounded common-sense reasoning akin to human visual understanding. A critical component of human temporal-visual perception is our ability to identify and cognitively model "things happening", or events. Historically, video benchmark tasks have implicitly tested for this ability (e.g., video captioning, in which models describe visual events with natural language), but they do not consider video event understanding as a task in itself. Recent work has begun to explore video analogues to textual event extraction but consists of competing task definitions and datasets limited to highly specific event types. Therefore, while there is a rich domain of event-centric video research spanning the past 10+ years, it is unclear how video event understanding should be framed and what resources we have to study it. In this paper, we survey 105 video datasets that require event understanding capability, consider how they contribute to the study of robust event understanding in video, and assess proposed video event extraction tasks in the context of this body of research. We propose suggestions informed by this survey for dataset curation and task framing, with an emphasis on the uniquely temporal nature of video events and ambiguity in visual content.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# OpenAnimalTracks: 動物追跡認識のためのデータセット

OpenAnimalTracks: A Dataset for Animal Track Recognition ( http://arxiv.org/abs/2406.09647v1 )

ライセンス: Link先を確認
Risa Shinoda, Kaede Shiohara, (参考訳) 動物生息地調査は、土地の生物多様性を維持する上で重要な役割を担っている。 動物の生息地に関する洞察を得る効果的な方法の1つは、種の分布、豊富さ、行動に関する貴重な情報を提供する動物の足跡を特定することである。 しかし、動物の足跡画像が不足しているため、よく整備された公開データセットは存在せず、コンピュータビジョンの最近の高度な技術が動物追跡に適用されるのを防いでいる。 本稿では,動物の足跡の自動分類と検出を容易にするために設計された,最初の公開ラベル付きデータセットであるOpenAnimalTracksデータセットを紹介する。 18種の野生動物の足跡を含む。 さらに、種分類と検出のためのベンチマークを構築し、代表分類器と検出モデルを用いた自動フットプリント識別の可能性を示す。 SwinTransformerは有望な分類結果を得ることができ、平均精度で69.41%に達する。 高速RCNNは0.295のmAPを達成する。 われわれのデータセットは、動物の自動追跡技術の道を切り開き、生物多様性の保護と管理の能力を高めることを願っている。 データセットとコードはhttps://github.com/dahlian00/OpenAnimalTracks.comから入手可能です。

Animal habitat surveys play a critical role in preserving the biodiversity of the land. One of the effective ways to gain insights into animal habitats involves identifying animal footprints, which offers valuable information about species distribution, abundance, and behavior. However, due to the scarcity of animal footprint images, there are no well-maintained public datasets, preventing recent advanced techniques in computer vision from being applied to animal tracking. In this paper, we introduce OpenAnimalTracks dataset, the first publicly available labeled dataset designed to facilitate the automated classification and detection of animal footprints. It contains various footprints from 18 wild animal species. Moreover, we build benchmarks for species classification and detection and show the potential of automated footprint identification with representative classifiers and detection models. We find SwinTransformer achieves a promising classification result, reaching 69.41% in terms of the averaged accuracy. Faster-RCNN achieves mAP of 0.295. We hope our dataset paves the way for automated animal tracking techniques, enhancing our ability to protect and manage biodiversity. Our dataset and code are available at https://github.com/dahlian00/OpenAnimalTracks.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 固有ベクトル熱ネットワーク

An Intrinsic Vector Heat Network ( http://arxiv.org/abs/2406.09648v1 )

ライセンス: Link先を確認
Alexander Gao, Maurice Chu, Mubbasir Kapadia, Ming C. Lin, Hsueh-Ti Derek Liu, (参考訳) ベクトル場は多くの科学や工学の応用のためにフローを表現しモデル化するために広く使われている。 本稿では,3次元に埋め込まれた多様体上に固有に定義された接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。 曲面上のベクトル場を学習する以前のアプローチでは、ベクトルを多次元スカラー場として扱い、従来のスカラー値アーキテクチャを用いてチャネルを個別に処理し、したがってベクトル場の基本的な内在的性質を保存できなかった。 この研究の中核となる考え方は、ベクトル値の特徴データを空間的に伝播させる訓練可能なベクトル熱拡散モジュールの導入である。 我々の構造は入力の剛性運動、等尺変形、局所接地基底の選択に不変であり、表面の離散化に頑健である。 トライアングルメッシュ上でベクトル熱ネットワークを評価し,その不変性を実証的に検証した。 また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。

Vector fields are widely used to represent and model flows for many science and engineering applications. This paper introduces a novel neural network architecture for learning tangent vector fields that are intrinsically defined on manifold surfaces embedded in 3D. Previous approaches to learning vector fields on surfaces treat vectors as multi-dimensional scalar fields, using traditional scalar-valued architectures to process channels individually, thus fail to preserve fundamental intrinsic properties of the vector field. The core idea of this work is to introduce a trainable vector heat diffusion module to spatially propagate vector-valued feature data across the surface, which we incorporate into our proposed architecture that consists of vector-valued neurons. Our architecture is invariant to rigid motion of the input, isometric deformation, and choice of local tangent bases, and is robust to discretizations of the surface. We evaluate our Vector Heat Network on triangle meshes, and empirically validate its invariant properties. We also demonstrate the effectiveness of our method on the useful industrial application of quadrilateral mesh generation.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# Coralai: 神経細胞性オートマタ生態系の内在的進化

Coralai: Intrinsic Evolution of Embodied Neural Cellular Automata Ecosystems ( http://arxiv.org/abs/2406.09654v1 )

ライセンス: Link先を確認
Aidan Barbieux, Rodrigo Canaan, (参考訳) 本稿では,ニューラルセルラーオートマタ(NCA)の多様な生態系を探索するフレームワークであるCoralaiについて述べる。 Coralaiの組織は、HyperNEATとPyTorchで実装されたローカルサバイバル、マージ、突然変異操作を通じて、モジュール化されたGPUアクセラレーションされたTaichiカーネルを使用して、環境変化を対話し、実行し、進化させる。 本研究は, 沈降生物と移動生物との競争の出現, 資源の枯渇と回復のサイクル, 生物間の共生を示すスライム型行動に着想を得た物理実験である。 我々は,マルチスケールの複雑性と多様性の測定を通じてシミュレーションパラメータを発見するための今後の取り組みを概説して結論づける。 Coralaiのコードはhttps://github.com/aidanbx/coralaiで、ビデオデモはhttps://www.youtube.com/watch? v=NL8IZQY02-8。

This paper presents Coralai, a framework for exploring diverse ecosystems of Neural Cellular Automata (NCA). Organisms in Coralai utilize modular, GPU-accelerated Taichi kernels to interact, enact environmental changes, and evolve through local survival, merging, and mutation operations implemented with HyperNEAT and PyTorch. We provide an exploratory experiment implementing physics inspired by slime mold behavior showcasing the emergence of competition between sessile and mobile organisms, cycles of resource depletion and recovery, and symbiosis between diverse organisms. We conclude by outlining future work to discover simulation parameters through measures of multi-scale complexity and diversity. Code for Coralai is available at https://github.com/aidanbx/coralai , video demos are available at https://www.youtube.com/watch?v=NL8IZQY02-8 .
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# RSEND:高能率低光画像強調のための暗黒領域検出型レチネックスベーススクイーズ・エキサイティングネットワーク

RSEND: Retinex-based Squeeze and Excitation Network with Dark Region Detection for Efficient Low Light Image Enhancement ( http://arxiv.org/abs/2406.09656v1 )

ライセンス: Link先を確認
Jingcheng Li, Ye Qiao, Haocheng Xu, Sitao Huang, (参考訳) 低照度シナリオ下で撮影された画像は、しばしば品質の低下に悩まされる。 従来のCNNベースのディープラーニング手法は、しばしばRetinex理論を使用する。 それでも、LOL-v2のような複雑なデータセットでは、多くの計算リソースを消費しながらうまく機能することができない。 さらに、これらの手法のいくつかは異なる段階の高度な訓練を必要とするため、手順はさらに時間がかかり、面倒である。 本稿では,より正確で簡潔なRetinex理論に基づくフレームワークRSENDを提案する。 RSENDはまず、低照度画像を照明マップと反射マップに分割し、照明マップの重要な詳細をキャプチャして光強調を行う。 このステップの後、拡張グレースケールの画像を洗練し、リフレクタンスマップと要素ワイズ行列乗算を行う。 前のステップから出力を復調することで、最終的な結果が得られる。 すべてのステップにおいて、RSENDはSqueezeとExcitationネットワークを使用して詳細をよりよくキャプチャする。 総合的な定量的および定性的実験により、我々の効率の良いRetinexモデルは他のCNNベースモデルよりも優れており、異なるデータセットで0.44dBから4.2dBの範囲でPSNRの改善を実現し、LOL-v2-realデータセットでトランスフォーマーベースモデルよりも優れています。

Images captured under low-light scenarios often suffer from low quality. Previous CNN-based deep learning methods often involve using Retinex theory. Nevertheless, most of them cannot perform well in more complicated datasets like LOL-v2 while consuming too much computational resources. Besides, some of these methods require sophisticated training at different stages, making the procedure even more time-consuming and tedious. In this paper, we propose a more accurate, concise, and one-stage Retinex theory based framework, RSEND. RSEND first divides the low-light image into the illumination map and reflectance map, then captures the important details in the illumination map and performs light enhancement. After this step, it refines the enhanced gray-scale image and does element-wise matrix multiplication with the reflectance map. By denoising the output it has from the previous step, it obtains the final result. In all the steps, RSEND utilizes Squeeze and Excitation network to better capture the details. Comprehensive quantitative and qualitative experiments show that our Efficient Retinex model significantly outperforms other CNN-based models, achieving a PSNR improvement ranging from 0.44 dB to 4.2 dB in different datasets and even outperforms transformer-based models in the LOL-v2-real dataset.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# ScaLES: 事前トレーニングされた生成ネットワークのためのスケーラブルな遅延探索スコア

ScaLES: Scalable Latent Exploration Score for Pre-Trained Generative Networks ( http://arxiv.org/abs/2406.09657v1 )

ライセンス: Link先を確認
Omer Ronen, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk, Bin Yu, (参考訳) 我々は,ブラックボックス離散最適化問題の解法であるLatent Space Optimization (LSO)における過剰探索を軽減するために,スケーラブル遅延探索スコア(ScaLES)を開発した。 LSOは変分オートエンコーダ(VAE)の潜在空間内での連続的な最適化を利用しており、その実用性を低下させる非現実的な解において過剰探索の影響を受けやすいことが知られている。 ScaLESは、訓練されたデコーダによるデータ分布の近似を利用した、正確で理論的に動機付けられた手法である。 ScaLESは既存のデコーダ、例えばVAEからのデコーダで、追加のトレーニング、アーキテクチャの変更、トレーニングデータへのアクセスなしで計算できる。 5つのLSOベンチマークタスクと3つのVAEアーキテクチャによる評価により、ScaLESは高い目標値を維持しながら、ソリューションの品質を向上させることが示され、既存のソリューションよりも改善されている。 LSOへの新たな道は、分散領域、微分可能性、計算的トラクタビリティから特定できるScaLES能力によって開くと信じている。 ScaLESのオープンソースコードはhttps://github.com/OmerRonen/scalesで公開されている。

We develop Scalable Latent Exploration Score (ScaLES) to mitigate over-exploration in Latent Space Optimization (LSO), a popular method for solving black-box discrete optimization problems. LSO utilizes continuous optimization within the latent space of a Variational Autoencoder (VAE) and is known to be susceptible to over-exploration, which manifests in unrealistic solutions that reduce its practicality. ScaLES is an exact and theoretically motivated method leveraging the trained decoder's approximation of the data distribution. ScaLES can be calculated with any existing decoder, e.g. from a VAE, without additional training, architectural changes, or access to the training data. Our evaluation across five LSO benchmark tasks and three VAE architectures demonstrates that ScaLES enhances the quality of the solutions while maintaining high objective values, leading to improvements over existing solutions. We believe that new avenues to LSO will be opened by ScaLES ability to identify out of distribution areas, differentiability, and computational tractability. Open source code for ScaLES is available at https://github.com/OmerRonen/scales.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 自律システムのための時間的論理的満足度による時間的計画

Temporal Planning via Interval Logic Satisfiability for Autonomous Systems ( http://arxiv.org/abs/2406.09661v1 )

ライセンス: Link先を確認
Miquel Ramirez, Anubhav Singh, Peter Stuckey, Chris Manzie, (参考訳) 多くの自動計画法と定式化は、計算スケーラビリティを達成するためにエージェントに関連する制約されたダイナミクスの、適切に設計された抽象化や単純化に依存している。 我々は、間隔が作用原子と流動原子の両方に関連付けられている時間的計画の定式化について検討し、これらの関係はアレンのインターバル論理(英語版)において文として与えられる。 本稿では,制約プログラミング(CP)モデルとして,行動と流動性の間の複雑な並行関係を考慮に入れた計画グラフの概念を提案する。 本稿では,CP の最先端フレームワーク上でのアルゴリズムの実装を検証し,エージェント間の複雑な並行処理を必要とするプランをキャプチャするPDDL 2.1 プランナと比較する。 提案手法は既存のPDDL 2.1プランナよりも優れていることを示す。 それでも、複雑な並行処理やアクションのシーケンシングに計画が従わなければならない場合、スケーラビリティは依然として困難である。

Many automated planning methods and formulations rely on suitably designed abstractions or simplifications of the constrained dynamics associated with agents to attain computational scalability. We consider formulations of temporal planning where intervals are associated with both action and fluent atoms, and relations between these are given as sentences in Allen's Interval Logic. We propose a notion of planning graphs that can account for complex concurrency relations between actions and fluents as a Constraint Programming (CP) model. We test an implementation of our algorithm on a state-of-the-art framework for CP and compare it with PDDL 2.1 planners that capture plans requiring complex concurrent interactions between agents. We demonstrate our algorithm outperforms existing PDDL 2.1 planners in the case studies. Still, scalability remains challenging when plans must comply with intricate concurrent interactions and the sequencing of actions.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 接地を通して言語構造を学ぶ

Learning Language Structures through Grounding ( http://arxiv.org/abs/2406.09662v1 )

ライセンス: Link先を確認
Freda Shi, (参考訳) 言語は高度に構造化されており、構文構造と意味構造はある程度同じ言語の話者によって合意されている。 このような構造を暗黙的に、あるいは明示的に認識することで、人間は言語を効率的に学習し、使用することができ、目に見えない単語を含む文に一般化することができる。 人間の言語学習に動機づけられたこの論文では、基礎を通して言語構造を学習することを目的とした機械学習タスクのファミリーについて考察する。 我々は、他のデータソース(例えば、グラウンド)から遠ざかる監視を求めており、他のモダリティ(例えば、ビジョン)、プログラムの実行結果、その他の言語に制限されない。 このタスクの定式化の可能性を実証し、3つのスキームによる採用を提唱する。 パートIでは,視覚的接地を通して構文解析を学習することを検討する。 そこで本稿では,視覚的に接頭した文法誘導の課題を提案し,視覚的に接頭したテキストや音声から構文構造を誘導する最初のモデルを提示する。 副次的貢献として,テキストや自動音声認識システムを介さずに音声解析を評価できる新しい評価指標を提案する。 パートIIでは、文を対応する意味構造(例えば、プログラム)にマッピングする2つの実行対応手法を提案する。 パートIIIでは、他の言語のアノテーションから言語構造を学習する手法を提案する。 具体的には,言語間単語アライメントに新たな最先端技術を設定する手法を提案する。 次に、学習した単語アライメントを活用し、ゼロショットの言語間依存関係解析の性能を向上させる。

Language is highly structured, with syntactic and semantic structures, to some extent, agreed upon by speakers of the same language. With implicit or explicit awareness of such structures, humans can learn and use language efficiently and generalize to sentences that contain unseen words. Motivated by human language learning, in this dissertation, we consider a family of machine learning tasks that aim to learn language structures through grounding. We seek distant supervision from other data sources (i.e., grounds), including but not limited to other modalities (e.g., vision), execution results of programs, and other languages. We demonstrate the potential of this task formulation and advocate for its adoption through three schemes. In Part I, we consider learning syntactic parses through visual grounding. We propose the task of visually grounded grammar induction, present the first models to induce syntactic structures from visually grounded text and speech, and find that the visual grounding signals can help improve the parsing quality over language-only models. As a side contribution, we propose a novel evaluation metric that enables the evaluation of speech parsing without text or automatic speech recognition systems involved. In Part II, we propose two execution-aware methods to map sentences into corresponding semantic structures (i.e., programs), significantly improving compositional generalization and few-shot program synthesis. In Part III, we propose methods that learn language structures from annotations in other languages. Specifically, we propose a method that sets a new state of the art on cross-lingual word alignment. We then leverage the learned word alignments to improve the performance of zero-shot cross-lingual dependency parsing, by proposing a novel substructure-based projection method that preserves structural knowledge learned from the source language.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# サンプリングおよび拡散モデルのための新しいアルゴリズム

New algorithms for sampling and diffusion models ( http://arxiv.org/abs/2406.09665v1 )

ライセンス: Link先を確認
Xicheng Zhang, (参考訳) 確率微分方程式の理論から、既知の分布の新しいサンプリング法と未知分布を持つ拡散生成モデルのための新しいアルゴリズムを導入する。 我々のアプローチは、拡散生成モデルにおいて広く採用されている逆拡散過程の概念に着想を得たものである。 さらに、滑らかなODEフローに基づいて、明示的な収束率を導出する。 拡散生成モデルとサンプリングのために、粒子近似収束結果を確立する。 数値実験により,本手法の有効性が示された。 特に、従来のランゲヴィン法とは異なり、我々のサンプリング法は対象分布の密度関数に関する正則性の仮定を一切必要としない。 さらに,本手法を最適化問題に適用する。

Drawing from the theory of stochastic differential equations, we introduce a novel sampling method for known distributions and a new algorithm for diffusion generative models with unknown distributions. Our approach is inspired by the concept of the reverse diffusion process, widely adopted in diffusion generative models. Additionally, we derive the explicit convergence rate based on the smooth ODE flow. For diffusion generative models and sampling, we establish a {\it dimension-free} particle approximation convergence result. Numerical experiments demonstrate the effectiveness of our method. Notably, unlike the traditional Langevin method, our sampling method does not require any regularity assumptions about the density function of the target distribution. Furthermore, we also apply our method to optimization problems.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 監視機を見ろ! セキュリティ強化拡散モデルに対するバックドア攻撃

Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models ( http://arxiv.org/abs/2406.09669v1 )

ライセンス: Link先を確認
Changjiang Li, Ren Pang, Bochuan Cao, Jinghui Chen, Fenglong Ma, Shouling Ji, Ting Wang, (参考訳) その顕著なデノナイジング能力のおかげで、拡散モデルは、他のモデルのセキュリティを強化するための防御ツールとして、特に敵の例を浄化し、敵の堅牢性を証明するために、ますます採用されている。 しかし、これらのプラクティス自体のセキュリティリスクはほとんど未調査のままであり、非常に懸念されている。 このギャップを埋めるために,セキュリティ強化拡散モデルの脆弱性について検討する。 具体的には、これらのモデルが、単純で効果的なバックドア攻撃であるDIFF2に対して非常に感受性が高く、そのようなモデルによって提供されるセキュリティ保証を著しく低下させることを示した。 本質的には、DIFF2は、悪意のある拡散サンプリングプロセスを拡散モデルに統合し、特定のトリガに埋め込まれた入力を、通常の入力機能を保持しながら、敵が定義した分布に誘導する。 本研究のケーススタディでは,DIFF2は,事前学習した拡散モデルに防御ツールとして頼ることによる潜在的なリスクを浮き彫りにして,ベンチマークデータセットやモデル間でのポストパーフィケーションと認証精度の両方を著しく低減できることを示した。 今後の研究に期待できる道筋を示唆し、さらなる対策の可能性を探る。

Thanks to their remarkable denoising capabilities, diffusion models are increasingly being employed as defensive tools to reinforce the security of other models, notably in purifying adversarial examples and certifying adversarial robustness. However, the security risks of these practices themselves remain largely unexplored, which is highly concerning. To bridge this gap, this work investigates the vulnerabilities of security-enhancing diffusion models. Specifically, we demonstrate that these models are highly susceptible to DIFF2, a simple yet effective backdoor attack, which substantially diminishes the security assurance provided by such models. Essentially, DIFF2 achieves this by integrating a malicious diffusion-sampling process into the diffusion model, guiding inputs embedded with specific triggers toward an adversary-defined distribution while preserving the normal functionality for clean inputs. Our case studies on adversarial purification and robustness certification show that DIFF2 can significantly reduce both post-purification and certified accuracy across benchmark datasets and models, highlighting the potential risks of relying on pre-trained diffusion models as defensive tools. We further explore possible countermeasures, suggesting promising avenues for future research.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# ブラジルの国立大学コンピュータサイエンス科におけるChatGPT-4ビジョンの評価

Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam ( http://arxiv.org/abs/2406.09671v1 )

ライセンス: Link先を確認
Nabor C. Mendonça, (参考訳) 近年のLLM(Large Language Models)への視覚的能力の統合は、学習体験を改善するために、図、チャート、テーブルなどの視覚的要素が一般的に使用される科学と技術教育において重要な役割を果たす可能性がある。 本研究は,2021年ブラジル国立大学院試験場(ENADE)のコンピュータ科学部門で行った,OpenAIの最も先進的な視覚モデルChatGPT-4 Visionの性能について検討した。 そこで,本研究では,テストのオープンかつ複数選択の質問を元の画像形式で提示し,回答キーの相違に応答して再評価を行うことで,テキストおよび視覚コンテンツを含む大規模学術的評価において,モデルの推論と自己認識能力を評価することができた。 ChatGPT-4 Visionは、平均的な試験受験者よりも優れており、スコアパーセンタイルのトップ10に入っている。 視覚的要素を取り入れた質問には優れていたが、疑問解釈、論理的推論、視覚的明度といった問題にも遭遇した。 モデルと回答キー間の不一致の事例をレビューするために、独立した専門家パネルが関与したことは、曖昧さや曖昧さを含む未解決の疑問がいくつか浮き彫りになり、将来の試験における質問設計の改善に対する批判的な必要性に注意を向けた。 以上の結果から,ChatGPT-4 Visionはマルチモーダル・アカデミック・アセスメントにおいて有望であるが,人間の監視はモデルの精度を検証し,ハイテイクな教育試験の公正性の確保に不可欠であることが示唆された。 研究資料はhttps://github.com/nabormendonca/gpt-4v-enade-cs-2021で公開されている。

The recent integration of visual capabilities into Large Language Models (LLMs) has the potential to play a pivotal role in science and technology education, where visual elements such as diagrams, charts, and tables are commonly used to improve the learning experience. This study investigates the performance of ChatGPT-4 Vision, OpenAI's most advanced visual model at the time the study was conducted, on the Bachelor in Computer Science section of Brazil's 2021 National Undergraduate Exam (ENADE). By presenting the model with the exam's open and multiple-choice questions in their original image format and allowing for reassessment in response to differing answer keys, we were able to evaluate the model's reasoning and self-reflecting capabilities in a large-scale academic assessment involving textual and visual content. ChatGPT-4 Vision significantly outperformed the average exam participant, positioning itself within the top 10 best score percentile. While it excelled in questions that incorporated visual elements, it also encountered challenges with question interpretation, logical reasoning, and visual acuity. The involvement of an independent expert panel to review cases of disagreement between the model and the answer key revealed some poorly constructed questions containing vague or ambiguous statements, calling attention to the critical need for improved question design in future exams. Our findings suggest that while ChatGPT-4 Vision shows promise in multimodal academic evaluations, human oversight remains crucial for verifying the model's accuracy and ensuring the fairness of high-stakes educational exams. The paper's research materials are publicly available at https://github.com/nabormendonca/gpt-4v-enade-cs-2021.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# 衝突相互作用を伴うブラックホール最終状態モデルにおける情報検索の忠実性について

On the fidelity of information retrieval in the black hole final state model with scrambling interactions ( http://arxiv.org/abs/2406.09673v1 )

ライセンス: Link先を確認
Ran Li, Jin Wang, (参考訳) 事象地平線内の崩壊物質と落下するホーキング放射との相互作用を考慮し, ブラックホール最終状態モデルにおける情報検索の忠実性について検討した。 衝突するユニタリ演算子を用いてこれらの相互作用をモデル化することにより、ブラックホールの蒸発の過程で情報がほとんど失われていることを直接計算により示している。 そして、情報検索に吉田・キタエフ復号方式を採用する。 符号化の忠実度は有限に改善されているものの、一元性には達しない。 このことは、ブラックホールの蒸発におけるユニタリティの問題が最終状態モデルの枠組みの中で完全には解決されないことを示している。

We study the fidelity of information retrieval in the black hole final state model by taking into account the interactions between the collapsing matter and the infalling Hawking radiation inside the event horizon. By utilizing a scrambling unitary operator to model these interactions, our direct calculations suggest that the information is almost lost during the process of black hole evaporation. We then proceed to employ the Yoshida-Kitaev decoding strategy for information retrieval. Although we observe a finite improvement in decoding fidelity, it does not reach unity. This indicates that the issue of unitarity in black hole evaporation may not be fully resolved within the framework of the final state model.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# スペクトルグラフニューラルネットワークのベンチマーク:有効性と効率に関する総合的研究

Benchmarking Spectral Graph Neural Networks: A Comprehensive Study on Effectiveness and Efficiency ( http://arxiv.org/abs/2406.09675v1 )

ライセンス: Link先を確認
Ningyi Liao, Haoyu Liu, Zulun Zhu, Siqiang Luo, Laks V. S. Lakshmanan, (参考訳) グラフニューラルネットワーク(GNN)の最近の進歩により、スペクトルGNNは、周波数領域におけるグラフ信号のキャプチャに特化して、特定のタスクにおいて有望な能力を示すことで、人気が高まっている。 しかし、そのスペクトル特性を評価するための体系的な研究はほとんど行われていない。 この新たなモデルのファミリーは、設計や設定の面でも異なり、パフォーマンスの比較や、特に大規模タスクにおいて、特定のシナリオに適したモデルを決定するのが困難になる。 本研究では,周波数視点に着目したスペクトルGNNを広範囲にベンチマークする。 我々は、30以上のGNNと27のフィルタを分析し、分類する。 そして,これらのスペクトルモデルを,専用グラフ計算と効率的なトレーニングスキームで統一した枠組みで実装する。 有効性および効率に関する包括的指標を持つスペクトルモデルを用いて、詳細な実験を行い、望ましい性能でスペクトルGNNを評価し、選択するための実践的ガイドラインを提供する。 我々の実装では、パフォーマンスが同等でオーバーヘッドの少ない大きなグラフにアプリケーションを適用できます。

With the recent advancements in graph neural networks (GNNs), spectral GNNs have received increasing popularity by virtue of their specialty in capturing graph signals in the frequency domain, demonstrating promising capability in specific tasks. However, few systematic studies have been conducted on assessing their spectral characteristics. This emerging family of models also varies in terms of designs and settings, leading to difficulties in comparing their performance and deciding on the suitable model for specific scenarios, especially for large-scale tasks. In this work, we extensively benchmark spectral GNNs with a focus on the frequency perspective. We analyze and categorize over 30 GNNs with 27 corresponding filters. Then, we implement these spectral models under a unified framework with dedicated graph computations and efficient training schemes. Thorough experiments are conducted on the spectral models with inclusive metrics on effectiveness and efficiency, offering practical guidelines on evaluating and selecting spectral GNNs with desirable performance. Our implementation enables application on larger graphs with comparable performance and less overhead, which is available at: https://github.com/gdmnl/Spectral-GNN-Benchmark.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# エンド・ツー・エンドASRのためのバイトレベル表現の最適化

Optimizing Byte-level Representation for End-to-end ASR ( http://arxiv.org/abs/2406.09676v1 )

ライセンス: Link先を確認
Roger Hsiao, Liuhui Deng, Erik McDermott, Ruchir Travadi, Xiaodan Zhuang, (参考訳) 本稿では,エンドツーエンド自動音声認識(ASR)のためのバイトレベルの表現を最適化するための新しい手法を提案する。 バイトレベルの表現は、サポート対象言語の文字集合が大きい場合、大規模多言語ASRシステムでしばしば使用される。 バイトレベルの表現のコンパクトさと普遍性により、ASRモデルはより小さな出力語彙を使用することができ、柔軟性が向上する。 UTF-8は多言語ASRのバイトレベル表現として一般的に使用されるが、機械学習タスクを直接最適化するように設計されていない。 オートエンコーダとベクトル量子化を用いて、ASRのバイトレベルの表現を最適化し、精度を向上できることを示す。 提案するフレームワークは,異なるモーダルからの情報を組み込むことができ,誤り訂正機構を提供する。 この手法を用いて構築されたバイリンガル ASR モデルは,英語/マンダリン述語におけるUTF-8 表現を5% の誤差率で上回り得ることを示す。

We propose a novel approach to optimizing a byte-level representation for end-to-end automatic speech recognition (ASR). Byte-level representation is often used by large scale multilingual ASR systems when the character set of the supported languages is large. The compactness and universality of byte-level representation allow the ASR models to use smaller output vocabularies and therefore, provide more flexibility. UTF-8 is a commonly used byte-level representation for multilingual ASR, but it is not designed to optimize machine learning tasks directly. By using auto-encoder and vector quantization, we show that we can optimize a byte-level representation for ASR and achieve better accuracy. Our proposed framework can incorporate information from different modalities, and provides an error correction mechanism. In an English/Mandarin dictation task, we show that a bilingual ASR model built with this approach can outperform UTF-8 representation by 5% relative in error rate.
翻訳日:2024-06-17 15:23:26 公開日:2024-06-14
# SAGA:インメモリシーケンス最適化のための遺伝的アルゴリズムによる合成拡張

SAGA: Synthesis Augmentation with Genetic Algorithms for In-Memory Sequence Optimization ( http://arxiv.org/abs/2406.09677v1 )

ライセンス: Link先を確認
Andey Robins, Mike Borowczak, (参考訳) von-Neumannアーキテクチャは、計算のためにデータが利用できる速度を制限するボトルネックを持つ。 この問題に対処するため、コンピューティングの新しいパラダイムが開発されている。 インメモリコンピューティングとして知られるそのようなパラダイムの1つは、計算を同じ回路内のデータの保存とインターリーブする。 MAGIC(Memristor Aided Logic)は、メモリへの書き込み操作を通じて物理的に計算を行うメモリ回路を使用するアプローチである。 これらの演算のシーケンシングは計算的に難しい問題であり、MAGICベースのインメモリ計算を用いた解のコストと直接相関する。 SAGAは、実行シーケンスをトポロジカルソート問題としてモデル化し、最適化を遺伝的アルゴリズムによく適合させる。 次に、これらの遺伝的アルゴリズムの生成と実装を詳述し、多数のオープン回路実装に対して評価する。 これらの回路の評価に必要なメモリフットプリントは、既存のグレディアルゴリズムに基づく最適化ソリューションから最大52%削減される。 評価された10のベンチマーク回路のうち、これらの変更により、インメモリ回路評価の効率は、ベストケースで128%、平均で27.5%向上した。

The von-Neumann architecture has a bottleneck which limits the speed at which data can be made available for computation. To combat this problem, novel paradigms for computing are being developed. One such paradigm, known as in-memory computing, interleaves computation with the storage of data within the same circuits. MAGIC, or Memristor Aided Logic, is an approach which uses memory circuits which physically perform computation through write operations to memory. Sequencing these operations is a computationally difficult problem which is directly correlated with the cost of solutions using MAGIC based in-memory computation. SAGA models the execution sequences as a topological sorting problem which makes the optimization well-suited for genetic algorithms. We then detail the formation and implementation of these genetic algorithms and evaluate them over a number of open circuit implementations. The memory-footprint needed for evaluating each of these circuits is decreased by up to 52% from existing, greedy-algorithm-based optimization solutions. Over the 10 benchmark circuits evaluated, these modifications lead to an overall improvement in the efficiency of in-memory circuit evaluation of 128% in the best case and 27.5% on average.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 低ランク適応器の混合による異種データの探索

Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters ( http://arxiv.org/abs/2406.09679v1 )

ライセンス: Link先を確認
Yuhang Zhou, Zihua Zhao, Haolin Li, Siyuan Du, Jiangchao Yao, Ya Zhang, Yanfeng Wang, (参考訳) 複数のターゲットを考慮に入れた統一モデルのトレーニングは、人工知能のトレンドである。 しかし、異なるドメインやタスクから収集された異種データ間のトレーニング競合を効果的に緩和する方法は、未調査のままである。 本研究では,Mixture of Low-rank Adapters (MoLA)を用いて異種データトレーニングにおける競合を軽減し,複数の低ランクアダプタと共有バックボーンを共同でトレーニングする必要があることを検討する。 具体的には、MoLAの2つの変種、すなわちMoLA-GradとMoLA-Routerを導入し、推論中のターゲット認識シナリオとターゲット認識シナリオをそれぞれ扱う。 前者はタスク識別子を使用して、各タスクにパーソナライズされた低ランクのアダプタを割り当て、タスク固有の知識をアダプタに切り離し、不均一な競合を緩和する。 後者は、新しいTask-wise Decorrelation (TwD)損失を使用して、同質なタスクに対するアダプタの指向的な重み付けを学習するためにルータを介入し、同様の効果を達成する。 我々は,従来の最先端手法よりもMoLAの方が優れていることを検証するための総合的な実験を行い,その動作機構を詳細に解析する。 ソースコードは、https://github.com/MediaBrain-SJTU/MoLAで入手できる。

Training a unified model to take multiple targets into account is a trend towards artificial general intelligence. However, how to efficiently mitigate the training conflicts among heterogeneous data collected from different domains or tasks remains under-explored. In this study, we explore to leverage Mixture of Low-rank Adapters (MoLA) to mitigate conflicts in heterogeneous data training, which requires to jointly train the multiple low-rank adapters and their shared backbone. Specifically, we introduce two variants of MoLA, namely, MoLA-Grad and MoLA-Router, to respectively handle the target-aware and target-agnostic scenarios during inference. The former uses task identifiers to assign personalized low-rank adapters to each task, disentangling task-specific knowledge towards their adapters, thereby mitigating heterogeneity conflicts. The latter uses a novel Task-wise Decorrelation (TwD) loss to intervene the router to learn oriented weight combinations of adapters to homogeneous tasks, achieving similar effects. We conduct comprehensive experiments to verify the superiority of MoLA over previous state-of-the-art methods and present in-depth analysis on its working mechanism. Source code is available at: https://github.com/MediaBrain-SJTU/MoLA
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 畳み込みニューラルネットワークによる不均一フェデレーション学習

Heterogeneous Federated Learning with Convolutional and Spiking Neural Networks ( http://arxiv.org/abs/2406.09680v1 )

ライセンス: Link先を確認
Yingchao Yu, Yuping Yan, Jisong Cai, Yaochu Jin, (参考訳) フェデレートラーニング(FL)は、データプライバシを保護しつつ、分散データのモデルトレーニングのための有望なパラダイムとして登場した。 しかし、既存のFLシステムの多くは、すべての機械学習モデルは同じタイプであると仮定しているが、異なるエッジデバイスは、従来のアナログ人工ニューラルネットワーク(ANN)と生物学的により高機能なスパイクニューラルネットワーク(SNN)の両方を含む、異なるタイプのAIモデルを採用する可能性が高い。 この多様性は、エッジコンピューティングプラットフォームの適応性と汎用性を示すことで、特定のタスクと要求の効率的な処理を促進する。 このような異種FLシステムの大きな課題の1つは、プライバシー保護の方法でローカルデバイスからモデルを効果的に集約することにある。 上記の問題に対処するために、この研究は、フェデレーションCNN、フェデレーションSNN、フェデレーションCNN、フェデレーションCNN、フェデレーションCNN、フェデレーションCNNとSNN融合を含む様々なアグリゲーションアプローチを比較することで、CNNとSNNの両方を含むFLシステムをベンチマークする。 実験の結果,CNN-SNN融合フレームワークは,MNISTデータセット上において,上記の設定の中で最高の性能を示した。 さらに, 多モデルFLの収束過程において, 競合抑制の興味深い現象が指摘されている。

Federated learning (FL) has emerged as a promising paradigm for training models on decentralized data while safeguarding data privacy. Most existing FL systems, however, assume that all machine learning models are of the same type, although it becomes more likely that different edge devices adopt different types of AI models, including both conventional analogue artificial neural networks (ANNs) and biologically more plausible spiking neural networks (SNNs). This diversity empowers the efficient handling of specific tasks and requirements, showcasing the adaptability and versatility of edge computing platforms. One main challenge of such heterogeneous FL system lies in effectively aggregating models from the local devices in a privacy-preserving manner. To address the above issue, this work benchmarks FL systems containing both convoluntional neural networks (CNNs) and SNNs by comparing various aggregation approaches, including federated CNNs, federated SNNs, federated CNNs for SNNs, federated SNNs for CNNs, and federated CNNs with SNN fusion. Experimental results demonstrate that the CNN-SNN fusion framework exhibits the best performance among the above settings on the MNIST dataset. Additionally, intriguing phenomena of competitive suppression are noted during the convergence process of multi-model FL.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 点雲正規推定のための非対称シームズネットワーク

Asymmetrical Siamese Network for Point Clouds Normal Estimation ( http://arxiv.org/abs/2406.09681v1 )

ライセンス: Link先を確認
Wei Jin, Jun Zhou, (参考訳) 近年,深層学習に基づくポイントクラウド正規化推定は大きな進歩を遂げている。 しかし、既存のメソッドは主にPCPNetデータセットに依存しており、オーバーフィッティングにつながっている。 さらに、異なるノイズスケールを持つ点雲間の相関は未解明のままであり、ドメイン横断のシナリオでは性能が低下する。 本稿では、非対称なシームズネットワークアーキテクチャを用いて、クリーンでノイズの多い点群から学習した本質的な特徴の一貫性について検討する。 異なる枝から抽出された特徴間の合理的な制約を適用することにより、正規推定の品質を高める。 さらに,ノイズレベルが異なる形状の多視点正規推定データセットについても紹介する。 この新たなデータセットにおける既存の手法の評価は、異なる種類の形状に適応できないことを示し、過剰適合の程度を示している。 大規模な実験により、提案データセットはポイントクラウドの正常な推定に重大な課題をもたらし、我々の特徴制約機構は既存の手法を効果的に改善し、現在のアーキテクチャにおける過度な適合を低減します。

In recent years, deep learning-based point cloud normal estimation has made great progress. However, existing methods mainly rely on the PCPNet dataset, leading to overfitting. In addition, the correlation between point clouds with different noise scales remains unexplored, resulting in poor performance in cross-domain scenarios. In this paper, we explore the consistency of intrinsic features learned from clean and noisy point clouds using an Asymmetric Siamese Network architecture. By applying reasonable constraints between features extracted from different branches, we enhance the quality of normal estimation. Moreover, we introduce a novel multi-view normal estimation dataset that includes a larger variety of shapes with different noise levels. Evaluation of existing methods on this new dataset reveals their inability to adapt to different types of shapes, indicating a degree of overfitting. Extensive experiments show that the proposed dataset poses significant challenges for point cloud normal estimation and that our feature constraint mechanism effectively improves upon existing methods and reduces overfitting in current architectures.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# フェデレーション学習における非IIDディグレーのプライバシー保護定量化

Privacy-preserving Quantification of Non-IID Degree in Federated Learning ( http://arxiv.org/abs/2406.09682v1 )

ライセンス: Link先を確認
Yuping Yan, Yizhi Wang, Yingchao Yu, Yaochu Jin, (参考訳) フェデレーテッド・ラーニング(FL)は、生データを共有することなく、複数のコラボレータに対して、マシンラーニングに対するプライバシ保護アプローチを提供する。 しかし、異なるクライアントにまたがる非独立かつ非独立に分散された(非IID)データセットの存在は、FLに重大な課題をもたらし、精度の急激な低下、効率の低下、実装の妨げとなる。 非IID問題に対処するため、クラスタリングやパーソナライズされたFLフレームワークなど様々な手法が提案されている。 それにもかかわらず、これまでは、異なるクライアントのデータセット間の非IID度の公式な量的定義が欠けており、クライアントは他のクライアントとデータ配布の概要を比較して入手することを妨げている。 本稿では,FHE-FCDF(Federated Cumulative Distribution Function)と呼ばれる累積分布関数(CDF)を用いて,フェデレーション環境における非IID度を定量的に定義する。 暗号プリミティブ完全同型暗号を用いて、クライアントがプライバシー保護を確保しつつ、非IID度を推定できるようにする。 CIFAR-100非IIDデータセットを用いて実験を行い,提案手法の有効性を検証した。

Federated learning (FL) offers a privacy-preserving approach to machine learning for multiple collaborators without sharing raw data. However, the existence of non-independent and non-identically distributed (non-IID) datasets across different clients presents a significant challenge to FL, leading to a sharp drop in accuracy, reduced efficiency, and hindered implementation. To address the non-IID problem, various methods have been proposed, including clustering and personalized FL frameworks. Nevertheless, to date, a formal quantitative definition of the non-IID degree between different clients' datasets is still missing, hindering the clients from comparing and obtaining an overview of their data distributions with other clients. For the first time, this paper proposes a quantitative definition of the non-IID degree in the federated environment by employing the cumulative distribution function (CDF), called Fully Homomorphic Encryption-based Federated Cumulative Distribution Function (FHE-FCDF). This method utilizes cryptographic primitive fully homomorphic encryption to enable clients to estimate the non-IID degree while ensuring privacy preservation. The experiments conducted on the CIFAR-100 non-IID dataset validate the effectiveness of our proposed method.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 侵入検知モデルの比較分析のための説明可能なAI

Explainable AI for Comparative Analysis of Intrusion Detection Models ( http://arxiv.org/abs/2406.09684v1 )

ライセンス: Link先を確認
Pap M. Corea, Yongxin Liu, Jian Wang, Shuteng Niu, Houbing Song, (参考訳) 説明可能な人工知能(XAI)は広く議論されているトピックであり、関連する技術はランダムフォレストやニューラルネットワークといった従来のブラックボックスモデルの理解を深めている。 しかし、XAIのドメイン固有の応用は依然として不十分である。 このギャップを埋めるために、オクルージョン感度を用いて、同一データセット上のネットワークトラフィックからの侵入検知のためのバイナリおよびマルチクラス分類のタスクに対して、さまざまな機械学習モデルを解析する。 評価されたモデルには、線形回帰、ロジスティック回帰、線形サポートベクトルマシン(SVM)、K-Nearest Neighbors(KNN)、ランダムフォレスト、決定木、マルチ層パーセプトロン(MLP)などがある。 私たちはすべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。 ほとんどの分類器は、そのような精度を達成するために、3つ以下の重要な特徴しか利用していないことが分かり、複雑なモデルを適用するよりも効果的な特徴工学が侵入検出に極めて重要であることが示唆された。 また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。 データとコードはhttps://github.com/pcwhy/XML-IntrusionDetection.gitで入手できる。

Explainable Artificial Intelligence (XAI) has become a widely discussed topic, the related technologies facilitate better understanding of conventional black-box models like Random Forest, Neural Networks and etc. However, domain-specific applications of XAI are still insufficient. To fill this gap, this research analyzes various machine learning models to the tasks of binary and multi-class classification for intrusion detection from network traffic on the same dataset using occlusion sensitivity. The models evaluated include Linear Regression, Logistic Regression, Linear Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Random Forest, Decision Trees, and Multi-Layer Perceptrons (MLP). We trained all models to the accuracy of 90\% on the UNSW-NB15 Dataset. We found that most classifiers leverage only less than three critical features to achieve such accuracies, indicating that effective feature engineering could actually be far more important for intrusion detection than applying complicated models. We also discover that Random Forest provides the best performance in terms of accuracy, time efficiency and robustness. Data and code available at https://github.com/pcwhy/XML-IntrusionDetection.git
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# FreeCtrl: 学習不要テキスト生成のためのフィードフォワード層を用いた制御センタの構築

FreeCtrl: Constructing Control Centers with Feedforward Layers for Learning-Free Controllable Text Generation ( http://arxiv.org/abs/2406.09688v1 )

ライセンス: Link先を確認
Zijian Feng, Hanzhang Zhou, Zixiao Zhu, Kezhi Mao, (参考訳) 制御可能なテキスト生成(CTG)は、特定の属性に忠実なテキストを作成し、従来はトレーニング、微調整、属性固有のデータセットによるプレフィックスチューニングといった学習ベースのテクニックを採用してきた。 これらのアプローチは効果的であるが、広範な計算とデータ資源を必要とする。 対照的に、学習の自由な代替案は学習を回避できるが、しばしば劣った結果をもたらし、計算コストとモデルの有効性の基本的な機械学習トレードオフを実証する。 この制限を克服するために,選択したフィードフォワードニューラルネットワーク(FFN)ベクトルの重みを動的に調整し,大規模言語モデル(LLM)の出力を制御できる学習自由な手法FreeCtrlを提案する。 FreeCtrlは、異なるFFNベクトルの重みが出力に異なるトークンが現れる可能性に影響を与えるという原理に基づいている。 属性関連FFNベクトルの重みを同定し、適応的に調整することにより、FreeCtrlは生成されたコンテンツ中の属性キーワードの出力可能性を制御することができる。 学習自由なFreeCtrlは学習自由で学習に基づく他の手法よりも優れており、学習コストとモデル性能のジレンマの解消に成功している。

Controllable text generation (CTG) seeks to craft texts adhering to specific attributes, traditionally employing learning-based techniques such as training, fine-tuning, or prefix-tuning with attribute-specific datasets. These approaches, while effective, demand extensive computational and data resources. In contrast, some proposed learning-free alternatives circumvent learning but often yield inferior results, exemplifying the fundamental machine learning trade-off between computational expense and model efficacy. To overcome these limitations, we propose FreeCtrl, a learning-free approach that dynamically adjusts the weights of selected feedforward neural network (FFN) vectors to steer the outputs of large language models (LLMs). FreeCtrl hinges on the principle that the weights of different FFN vectors influence the likelihood of different tokens appearing in the output. By identifying and adaptively adjusting the weights of attribute-related FFN vectors, FreeCtrl can control the output likelihood of attribute keywords in the generated content. Extensive experiments on single- and multi-attribute control reveal that the learning-free FreeCtrl outperforms other learning-free and learning-based methods, successfully resolving the dilemma between learning costs and model performance.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 時間的グループアライメントと融合による圧縮映像品質向上

Compressed Video Quality Enhancement with Temporal Group Alignment and Fusion ( http://arxiv.org/abs/2406.09693v1 )

ライセンス: Link先を確認
Qiang Zhu, Yajun Qiu, Yu Liu, Shuyuan Zhu, Bing Zeng, (参考訳) 本稿では,フレーム間の長期相関を利用して,圧縮映像の品質を高めるための時間的グループアライメントと融合ネットワークを提案する。 提案モデルは,グループ内特徴アライメント(IntraGFA)モジュール,グループ間特徴融合(InterGFF)モジュール,機能拡張(FE)モジュールから構成される。 画像群(GoP)は,時間的距離に応じて映像から対象の強調フレームへフレームを選択することで形成する。 このグループ化により、合成されたGoPは、隣接するフレームの長期または短期の相関情報を含むことができる。 IntraGFAモジュールを設計し、各GoPのフレームの特徴を整列させ、フレーム間に存在する動きを除去する。 我々は、異なるGoPに属する機能を融合させるInterGFFモジュールを構築し、最終的にFEモジュールとの融合機能を強化し、高品質なビデオフレームを生成する。 実験の結果,提案手法は最先端手法と比較して最大0.05dBのゲインと複雑さの低下を達成できることがわかった。

In this paper, we propose a temporal group alignment and fusion network to enhance the quality of compressed videos by using the long-short term correlations between frames. The proposed model consists of the intra-group feature alignment (IntraGFA) module, the inter-group feature fusion (InterGFF) module, and the feature enhancement (FE) module. We form the group of pictures (GoP) by selecting frames from the video according to their temporal distances to the target enhanced frame. With this grouping, the composed GoP can contain either long- or short-term correlated information of neighboring frames. We design the IntraGFA module to align the features of frames of each GoP to eliminate the motion existing between frames. We construct the InterGFF module to fuse features belonging to different GoPs and finally enhance the fused features with the FE module to generate high-quality video frames. The experimental results show that our proposed method achieves up to 0.05dB gain and lower complexity compared to the state-of-the-art method.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# テンソルニューラルネットワークを用いた回帰問題の効率的な解法

An Efficient Approach to Regression Problems with Tensor Neural Networks ( http://arxiv.org/abs/2406.09694v1 )

ライセンス: Link先を確認
Yongxin Li, (参考訳) 本稿では、非パラメトリック回帰問題に対処するテンソルニューラルネットワーク(TNN)を提案する。 異なるサブネットワーク構造によって特徴づけられるTNNは、変数分離を効果的に促進し、複雑な未知の関数の近似を強化する。 我々の比較分析によると、TNNはパラメータのスケールが似ているにもかかわらず、近似精度と一般化ポテンシャルの両方の観点から、従来のフィードフォワードネットワーク(FFN)とラジアル基底関数ネットワーク(RBN)を上回っている。 提案手法の重要な革新は,TNNフレームワーク内での統計的回帰と数値積分の統合である。 この積分は回帰関数に関連する高次元積分の効率的な計算を可能にする。 この進歩の意味は、特に高精度な高次元データ分析と予測を必要とするシナリオにおいて、広範囲のアプリケーションにまで及んでいる。

This paper introduces a tensor neural network (TNN) to address nonparametric regression problems. Characterized by its distinct sub-network structure, the TNN effectively facilitates variable separation, thereby enhancing the approximation of complex, unknown functions. Our comparative analysis reveals that the TNN outperforms conventional Feed-Forward Networks (FFN) and Radial Basis Function Networks (RBN) in terms of both approximation accuracy and generalization potential, despite a similar scale of parameters. A key innovation of our approach is the integration of statistical regression and numerical integration within the TNN framework. This integration allows for the efficient computation of high-dimensional integrals associated with the regression function. The implications of this advancement extend to a broader range of applications, particularly in scenarios demanding precise high-dimensional data analysis and prediction.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# がん生存予測のためのマルチモーダル専門家の混在

MoME: Mixture of Multimodal Experts for Cancer Survival Prediction ( http://arxiv.org/abs/2406.09696v1 )

ライセンス: Link先を確認
Conghao Xiong, Hao Chen, Hao Zheng, Dong Wei, Yefeng Zheng, Joseph J. Y. Sung, Irwin King, (参考訳) 生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。 このタスクには2つの大きな課題がある:有意な不均一性と2つのモダリティ間の複雑なモーダル間相互作用である。 従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。 しかし、これらのアプローチは、モダリティ間の不均一性のため、複雑なタスクをモデル化するには不十分である。 これらの問題に対処するため,BPE(Biased Progressive Encoding)パラダイムを提案し,同時に符号化と融合を行う。 このパラダイムは、一方のモダリティをもう一方を符号化する際に参照として使用する。 複数の交互反復によるモダリティの深い融合を可能にし、徐々にモダリティ間の格差を減らし、相補的な相互作用を促進する。 モダリティの不均一性に加えて、生存分析にはWSI、ゲノム学、およびそれらの組み合わせからの様々なバイオマーカーが含まれる。 臨界バイオマーカーは、個々の変異の下で異なるモードで存在し、特定のシナリオへのモデルの柔軟な適応を必要とする。 そこで本研究では,BPEパラダイムの各段階において,適切な専門家を動的に選択するMixture of Multimodal Experts (MoME)層を提案する。 専門家は、他のモダリティからの参照情報を様々な度合いに含め、エンコーディングプロセス中に異なるモダリティにバランスのとれたりバイアスを受けたりすることができる。 TCGA-BLCA, TCGA-UCEC, TCGA-LUADなど, 各種データセットにおける本手法の優れた性能を示す。 コードはhttps://github.com/BearCleverProud/MoMEで入手できる。

Survival analysis, as a challenging task, requires integrating Whole Slide Images (WSIs) and genomic data for comprehensive decision-making. There are two main challenges in this task: significant heterogeneity and complex inter- and intra-modal interactions between the two modalities. Previous approaches utilize co-attention methods, which fuse features from both modalities only once after separate encoding. However, these approaches are insufficient for modeling the complex task due to the heterogeneous nature between the modalities. To address these issues, we propose a Biased Progressive Encoding (BPE) paradigm, performing encoding and fusion simultaneously. This paradigm uses one modality as a reference when encoding the other. It enables deep fusion of the modalities through multiple alternating iterations, progressively reducing the cross-modal disparities and facilitating complementary interactions. Besides modality heterogeneity, survival analysis involves various biomarkers from WSIs, genomics, and their combinations. The critical biomarkers may exist in different modalities under individual variations, necessitating flexible adaptation of the models to specific scenarios. Therefore, we further propose a Mixture of Multimodal Experts (MoME) layer to dynamically selects tailored experts in each stage of the BPE paradigm. Experts incorporate reference information from another modality to varying degrees, enabling a balanced or biased focus on different modalities during the encoding process. Extensive experimental results demonstrate the superior performance of our method on various datasets, including TCGA-BLCA, TCGA-UCEC and TCGA-LUAD. Codes are available at https://github.com/BearCleverProud/MoME.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 微分方程式のための微分可能プログラミング: レビュー

Differentiable Programming for Differential Equations: A Review ( http://arxiv.org/abs/2406.09699v1 )

ライセンス: Link先を確認
Facundo Sapienza, Jordi Bolibar, Frank Schäfer, Brian Groenke, Avik Pal, Victor Boussange, Patrick Heimbach, Giles Hooker, Fernando Pérez, Per-Olof Persson, Christopher Rackauckas, (参考訳) 微分可能なプログラミングパラダイムは、現代の科学計算の基盤となっている。 数値モデルの出力の勾配を計算する数値手法を指す。 多くの科学的モデルは微分方程式に基づいており、微分可能プログラミングはモデル感度の計算、モデルパラメータの反転、微分方程式とデータ駆動アプローチを組み合わせたハイブリッドモデルの訓練において重要な役割を果たす。 さらに,逆手法と機械学習の強い相乗効果を認識することにより,両分野に適用可能なコヒーレントなフレームワークを確立することができる。 微分方程式の数値解に基づく微分関数は非自明である。 様々なパラダイムに基づく多種多様な手法が文献で提案されており、それぞれが研究対象の課題の種類に特有な長所と短所を持つ。 本稿では,微分方程式の数値解の微分を計算するための既存の手法について概観する。 まず、様々な科学領域における微分方程式の解の勾配の重要性について論じる。 第2に、様々なアプローチの数学的基礎をレイアウトし、それらを互いに比較する。 第三に、計算上の考慮事項を取り上げ、現代の科学ソフトウェアで利用可能な解決策を探求する。 最後に重要なことは、私たちは実践者にベストプラクティスとレコメンデーションを提供します。 この研究によって、科学的モデルとデータの融合が加速し、科学的モデリングへの現代的なアプローチが促進されることを願っています。

The differentiable programming paradigm is a cornerstone of modern scientific computing. It refers to numerical methods for computing the gradient of a numerical model's output. Many scientific models are based on differential equations, where differentiable programming plays a crucial role in calculating model sensitivities, inverting model parameters, and training hybrid models that combine differential equations with data-driven approaches. Furthermore, recognizing the strong synergies between inverse methods and machine learning offers the opportunity to establish a coherent framework applicable to both fields. Differentiating functions based on the numerical solution of differential equations is non-trivial. Numerous methods based on a wide variety of paradigms have been proposed in the literature, each with pros and cons specific to the type of problem investigated. Here, we provide a comprehensive review of existing techniques to compute derivatives of numerical solutions of differential equations. We first discuss the importance of gradients of solutions of differential equations in a variety of scientific domains. Second, we lay out the mathematical foundations of the various approaches and compare them with each other. Third, we cover the computational considerations and explore the solutions available in modern scientific software. Last but not least, we provide best-practices and recommendations for practitioners. We hope that this work accelerates the fusion of scientific models and data, and fosters a modern approach to scientific modelling.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 大規模言語モデルを用いた脆弱性の検出と説明に向けて

Towards Effectively Detecting and Explaining Vulnerabilities Using Large Language Models ( http://arxiv.org/abs/2406.09701v1 )

ライセンス: Link先を確認
Qiheng Mao, Zhenhao Li, Xing Hu, Kui Liu, Xin Xia, Jianling Sun, (参考訳) ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。 従来の研究では、ディープラーニングや事前学習モデルを用いた脆弱性検出の一連のアプローチが提案されている。 しかし、その発生を検知することとは別に、脆弱性の詳細な説明がない。 近年,大規模言語モデル (LLM) は複雑なコンテキストとコンテンツ生成の理解において顕著な能力を示しており,LLMの脆弱性の検出と説明の機会となっている。 本稿では,脆弱性の検出と説明におけるLLMの機能に関する総合的研究を行い,脆弱性検出と説明にLLMを利用するフレームワークであるLLMVulExpを提案する。 脆弱性説明のための特別な微調整の下で、LLMVulExpはコードの脆弱性の種類を検出するだけでなく、コードコンテキストを分析して、これらの脆弱性の原因、位置、修正提案を生成する。 LLMVulExp は LLM の脆弱性検出(例えば SeVC データセットの F1 スコアの90% 以上)と説明を効果的に行うことができる。 また、我々は、Chain-of-Thought(CoT)のような高度な戦略を用いて、脆弱性を発生させるコードに集中し、有望な結果をもたらすLSMをガイドする可能性についても検討する。

Software vulnerabilities pose significant risks to the security and integrity of software systems. Prior studies have proposed a series of approaches to vulnerability detection using deep learning or pre-trained models. However, there is still a lack of vulnerability's detailed explanation for understanding apart from detecting its occurrence. Recently, large language models (LLMs) have shown a remarkable capability in the comprehension of complicated context and content generation, which brings opportunities for the detection and explanation of vulnerabilities of LLMs. In this paper, we conduct a comprehensive study to investigate the capabilities of LLMs in detecting and explaining vulnerabilities and propose LLMVulExp, a framework that utilizes LLMs for vulnerability detection and explanation. Under specialized fine-tuning for vulnerability explanation, LLMVulExp not only detects the types of vulnerabilities in the code but also analyzes the code context to generate the cause, location, and repair suggestions for these vulnerabilities. We find that LLMVulExp can effectively enable the LLMs to perform vulnerability detection (e.g., over 90% F1 score on SeVC dataset) and explanation. We also explore the potential of using advanced strategies such as Chain-of-Thought (CoT) to guide the LLMs concentrating on vulnerability-prone code and achieve promising results.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 実測を必要としない応答生成の検出

Detecting Response Generation Not Requiring Factual Judgment ( http://arxiv.org/abs/2406.09702v1 )

ライセンス: Link先を確認
Ryohei Kamei, Daiki Shiono, Reina Akama, Jun Suzuki, (参考訳) 大規模言語モデル(LLM)の顕著な発展に伴い、出力の事実性の確保が課題となっている。 しかし、与えられた知識や事実に反応する全ての内容を持つことは、対話において必ずしも良いことではない。 本研究の目的は,同意などの事実的正当性判断を必要としない文を予測するためのタスクが設定された対話応答において,魅力と事実性を両立することであった。 クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。 分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。

With the remarkable development of large language models (LLMs), ensuring the factuality of output has become a challenge. However, having all the contents of the response with given knowledge or facts is not necessarily a good thing in dialogues. This study aimed to achieve both attractiveness and factuality in a dialogue response for which a task was set to predict sentences that do not require factual correctness judgment such as agreeing, or personal opinions/feelings. We created a dataset, dialogue dataset annotated with fact-check-needed label (DDFC), for this task via crowdsourcing, and classification tasks were performed on several models using this dataset. The model with the highest classification accuracy could yield about 88% accurate classification results.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# マルチスケール表現学習による都市流れの微粒化

Fine-Grained Urban Flow Inference with Multi-scale Representation Learning ( http://arxiv.org/abs/2406.09710v1 )

ライセンス: Link先を確認
Shilu Yuan, Dongfeng Li, Wei Liu, Xinxin Zhang, Meng Chen, Junjie Zhang, Yongshun Gong, (参考訳) きめ細かい都市フロー推論(FUFI)は交通効率と安全性の向上を目的とした重要な交通機関である。 FUFIは、観測された粗粒データのみに基づいて、きめ細かい都市交通の流れを推測することができる。 しかし、既存の手法の多くは、市内の異なる地域間の相互作用や動的情報を無視して、単一スケールの静的な地理情報がFUFIに与える影響に焦点をあてている。 異なる地理的特徴は、同じ空間領域から冗長な情報をキャプチャすることができる。 時間と空間のマルチスケール情報を効果的に学習するために,自己教師型コントラスト学習を用いて,地域レベルの動的マルチスケール表現を得るUrbanMSRという都市フロー推論モデルを提案する。 マルチスケール表現の融合はきめ細かな粒度を増す。 実世界の3つのデータセットに対する広範な実験により,その性能を検証した。 提案手法との比較により,提案手法の優位性を示す。

Fine-grained urban flow inference (FUFI) is a crucial transportation service aimed at improving traffic efficiency and safety. FUFI can infer fine-grained urban traffic flows based solely on observed coarse-grained data. However, most of existing methods focus on the influence of single-scale static geographic information on FUFI, neglecting the interactions and dynamic information between different-scale regions within the city. Different-scale geographical features can capture redundant information from the same spatial areas. In order to effectively learn multi-scale information across time and space, we propose an effective fine-grained urban flow inference model called UrbanMSR, which uses self-supervised contrastive learning to obtain dynamic multi-scale representations of neighborhood-level and city-level geographic information, and fuses multi-scale representations to improve fine-grained accuracy. The fusion of multi-scale representations enhances fine-grained. We validate the performance through extensive experiments on three real-world datasets. The resutls compared with state-of-the-art methods demonstrate the superiority of the proposed model.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# AnimalFormer:行動に基づく精密家畜飼育のためのマルチモーダルビジョンフレームワーク

AnimalFormer: Multimodal Vision Framework for Behavior-based Precision Livestock Farming ( http://arxiv.org/abs/2406.09711v1 )

ライセンス: Link先を確認
Ahmed Qazi, Taha Razzaq, Asim Iqbal, (参考訳) 本稿では,FundingDINO,HQSAM,ViTPoseモデルのパワーを活用した,精密家畜養殖のためのマルチモーダルビジョンフレームワークを提案する。 この統合スイートは、侵入的な動物タグ付けをすることなく、ビデオデータから包括的な行動分析を可能にする。 GroundingDINOは家畜のまわりに正確なバウンディングボックスを生成し、HQSAMはそれらの箱の中に個々の動物を分割する。 ViTPoseは、姿勢と運動の分析を容易にするために、キーボディーポイントを推定する。 ヒツジの放牧, ランニング, 座位, 立位, 歩行行動のデータセットから, 行動と放牧パターン, インタラクションのダイナミクス, 詳細な姿勢評価など, 貴重な知見を抽出した。 種やビデオの解像度で適用可能なこのフレームワークは、活動の検出、カウント、健康評価、姿勢分析のための非侵襲的な家畜モニタリングに革命をもたらす。 データ駆動型農業経営の強化、AIによる行動理解による動物福祉と生産性の最適化。

We introduce a multimodal vision framework for precision livestock farming, harnessing the power of GroundingDINO, HQSAM, and ViTPose models. This integrated suite enables comprehensive behavioral analytics from video data without invasive animal tagging. GroundingDINO generates accurate bounding boxes around livestock, while HQSAM segments individual animals within these boxes. ViTPose estimates key body points, facilitating posture and movement analysis. Demonstrated on a sheep dataset with grazing, running, sitting, standing, and walking activities, our framework extracts invaluable insights: activity and grazing patterns, interaction dynamics, and detailed postural evaluations. Applicable across species and video resolutions, this framework revolutionizes non-invasive livestock monitoring for activity detection, counting, health assessments, and posture analyses. It empowers data-driven farm management, optimizing animal welfare and productivity through AI-powered behavioral understanding.
翻訳日:2024-06-17 15:13:35 公開日:2024-06-14
# 深層ニューラルネットワークにおけるメタ学習損失関数

Meta-Learning Loss Functions for Deep Neural Networks ( http://arxiv.org/abs/2406.09713v1 )

ライセンス: Link先を確認
Christian Raymond, (参考訳) 人間は、小さな例のセットだけを考えると、しばしば素早く効率的に複雑な新しい学習タスクを解くことができる。 対照的に、現代の人工知能システムは、最も基本的なタスクを解くのに数千から数百万の観測を必要とすることが多い。 メタラーニングは、同様の学習タスクから過去の経験を活用して、適切な帰納バイアスを学習システムに埋め込むことによって、この問題を解決することを目的としている。 歴史的に、オプティマイザやパラメータの初期化といったメタ学習コンポーネントのメソッドは、大幅なパフォーマンス向上をもたらした。 この論文は、しばしば見過ごされる損失関数のコンポーネントを通して、メタ学習の概念を探求し、パフォーマンスを改善することを目的としている。 損失関数は学習システムの重要な要素であり、一次学習の目的を表しており、その目的のために最適化するシステムの能力によって、成功が決定され、定量化される。

Humans can often quickly and efficiently solve complex new learning tasks given only a small set of examples. In contrast, modern artificially intelligent systems often require thousands or millions of observations in order to solve even the most basic tasks. Meta-learning aims to resolve this issue by leveraging past experiences from similar learning tasks to embed the appropriate inductive biases into the learning system. Historically methods for meta-learning components such as optimizers, parameter initializations, and more have led to significant performance increases. This thesis aims to explore the concept of meta-learning to improve performance, through the often-overlooked component of the loss function. The loss function is a vital component of a learning system, as it represents the primary learning objective, where success is determined and quantified by the system's ability to optimize for that objective successfully.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 拡張共形予測法による大規模言語モデルの妥当性の検討

Large language model validity via enhanced conformal prediction methods ( http://arxiv.org/abs/2406.09714v1 )

ライセンス: Link先を確認
John J. Cherian, Isaac Gibbs, Emmanuel J. Candès, (参考訳) 我々は,大規模言語モデル(LLM)の出力に対する妥当性を保証するための新しい共形推論手法を開発した。 共形言語モデリングにおける先行研究は、正確性の高い確率の高い保証を満たすテキストのサブセットを特定する。 これらの手法は、主張に基づいて評価されたスコア関数が、分割整合予測によってキャリブレーションされたしきい値を超えなかった場合、LCMの当初の応答からクレームをフィルタリングすることで機能する。 この地域の既存の方法には2つの欠陥がある。 第一に、記載された保証は条件付きで有効ではない。 フィルタリングステップの信頼性は、応答のトピックによって異なりうる。 第二に、スコアリング関数が不完全であるため、フィルタリングステップは多くの価値ある正確なクレームを除去することができる。 両課題を2つの新しいコンフォメーション手法を用いて解決する。 まず、Gibs et al (2023) の条件共形手順を一般化し、出力の有効性を維持する必要がある場合に、より弱い保証を適応的に発行する。 第2に,条件付きコンフォメーション手順を微分する新しいアルゴリズムを用いて,スコアリング関数の品質を体系的に改善する方法を示す。 合成と実世界の両方のデータセットに対するアプローチの有効性を実証する。

We develop new conformal inference methods for obtaining validity guarantees on the output of large language models (LLMs). Prior work in conformal language modeling identifies a subset of the text that satisfies a high-probability guarantee of correctness. These methods work by filtering claims from the LLM's original response if a scoring function evaluated on the claim fails to exceed a threshold calibrated via split conformal prediction. Existing methods in this area suffer from two deficiencies. First, the guarantee stated is not conditionally valid. The trustworthiness of the filtering step may vary based on the topic of the response. Second, because the scoring function is imperfect, the filtering step can remove many valuable and accurate claims. We address both of these challenges via two new conformal methods. First, we generalize the conditional conformal procedure of Gibbs et al. (2023) in order to adaptively issue weaker guarantees when they are required to preserve the utility of the output. Second, we show how to systematically improve the quality of the scoring function via a novel algorithm for differentiating through the conditional conformal procedure. We demonstrate the efficacy of our approach on both synthetic and real-world datasets.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 異常熱流の文脈性

Contextuality in anomalous heat flow ( http://arxiv.org/abs/2406.09715v1 )

ライセンス: Link先を確認
Naim Elias Comar, Danilo Cius, Luis Felipe Santos, Rafael Wagner, Bárbara Amaral, (参考訳) 古典的な熱力学では、熱は自然に熱から冷たい系へ流れなければならない。 量子熱力学において、同じ法則は、一元的に進化する多部積の熱状態を考えるときに適用される。 初期の相関が存在する場合、異常な熱流が起こり、一時的に冷熱状態が冷たくなり、熱状態が温くなる。 このような効果は絡み合いによって起こりうるが、古典的なランダム性のためもあり、したがって非古典性との直接的なつながりが欠如している。 本研究では, 異常な熱流 \emph{does} が非古典性に直接関連し, 実験データを説明する非文脈モデルの失敗と定義するシナリオを紹介する。 まず、既知の非コンテクスチュアリティの不等式を、逐次変換が考慮される設定に拡張することから始める。 次に、与えられた臨界時間$\tau_c$に対して、時間間隔$(0,\tau_c)$を特徴とする量子準備変換プロトコルのクラスを示す。 Micadei et al (Nat. Commun. 10, 2456 (2019)) による最近の実験も分析し、それらの実験パラメータに基づいて臨界時間 $\tau_c$ を求める。 本研究は,2つの量子ビット系の進化における熱流の研究から,我々の発見は2つの量子ビット系を用いるための人工物ではないことを示す。

In classical thermodynamics, heat must spontaneously flow from hot to cold systems. In quantum thermodynamics, the same law applies when considering multipartite product thermal states evolving unitarily. If initial correlations are present, anomalous heat flow can happen, temporarily making cold thermal states colder and hot thermal states hotter. Such effect can happen due to entanglement, but also because of classical randomness, hence lacking a direct connection with nonclassicality. In this work, we introduce scenarios where anomalous heat flow \emph{does} have a direct link to nonclassicality, defined to be the failure of noncontextual models to explain experimental data. We start by extending known noncontextuality inequalities to a setup where sequential transformations are considered. We then show a class of quantum prepare-transform-measure protocols, characterized by time intervals $(0,\tau_c)$ for a given critical time $\tau_c$, where anomalous heat flow happens only if a noncontextuality inequality is violated. We also analyze a recent experiment from Micadei et. al. [Nat. Commun. 10, 2456 (2019)] and find the critical time $\tau_c$ based on their experimental parameters. We conclude by investigating heat flow in the evolution of two qutrit systems, showing that our findings are not an artifact of using two-qubit systems.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 暗号化ドメインにおけるカーネルトリックによるデータ解析の高速化

Speed-up of Data Analysis with Kernel Trick in Encrypted Domain ( http://arxiv.org/abs/2406.09716v1 )

ライセンス: Link先を確認
Joon Soo Yoo, Baek Kyung Song, Tae Min Ahn, Ji Won Heo, Ji Won Yoon, (参考訳) ホモモルフィック暗号化(HE)は、プライバシ保護データ分析において重要な暗号化データに対するセキュアな計算に重要である。 しかし、特に機械学習と統計アルゴリズム(ML/STAT)では、HEで高次元データを効率的に処理することが課題となっている。 本稿では,暗号領域内におけるML/STATアルゴリズムの時間性能を向上させるため,HE方式のカーネル方式を用いた効率的な高速化手法を提案する。 この手法は、基礎となるHE機構とは独立して既存の最適化を補完し、特にコストのかかるHE乗算を減らし、データ次元に対してほぼ一定時間の複雑さを提供する。 アクセシビリティを念頭に置いて、この手法は、限られた暗号バックグラウンドを持つデータサイエンティストや開発者向けに最適化されており、セキュアな環境での高度なデータ分析を容易にする。

Homomorphic encryption (HE) is pivotal for secure computation on encrypted data, crucial in privacy-preserving data analysis. However, efficiently processing high-dimensional data in HE, especially for machine learning and statistical (ML/STAT) algorithms, poses a challenge. In this paper, we present an effective acceleration method using the kernel method for HE schemes, enhancing time performance in ML/STAT algorithms within encrypted domains. This technique, independent of underlying HE mechanisms and complementing existing optimizations, notably reduces costly HE multiplications, offering near constant time complexity relative to data dimension. Aimed at accessibility, this method is tailored for data scientists and developers with limited cryptography background, facilitating advanced data analysis in secure environments.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# UniBridge: 低リソース言語のための言語間変換学習のための統一的なアプローチ

UniBridge: A Unified Approach to Cross-Lingual Transfer Learning for Low-Resource Languages ( http://arxiv.org/abs/2406.09717v1 )

ライセンス: Link先を確認
Trinh Pham, Khoi M. Le, Luu Anh Tuan, (参考訳) 本稿では,UniBridge(Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary)を紹介する。 本手法は,埋め込みの初期化と最適な語彙サイズという,言語モデルの2つの重要な要素に対処する。 具体的には,言語に対する語彙と意味的アライメントを両立させる新しい埋め込み初期化手法を提案する。 さらに,最適な語彙サイズを体系的に探索し,モデルの複雑さと言語的カバレッジのバランスを確保する手法を提案する。 多言語データセットを用いた実験により,いくつかの言語でF1スコアが大幅に改善された。 UniBridgeは、様々な言語における言語間システムに対する堅牢で適応可能なソリューションであり、埋め込みを初期化し、言語間環境において適切な語彙サイズを選択することの重要性を強調している。

In this paper, we introduce UniBridge (Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary), a comprehensive approach developed to improve the effectiveness of Cross-Lingual Transfer Learning, particularly in languages with limited resources. Our approach tackles two essential elements of a language model: the initialization of embeddings and the optimal vocabulary size. Specifically, we propose a novel embedding initialization method that leverages both lexical and semantic alignment for a language. In addition, we present a method for systematically searching for the optimal vocabulary size, ensuring a balance between model complexity and linguistic coverage. Our experiments across multilingual datasets show that our approach greatly improves the F1-Score in several languages. UniBridge is a robust and adaptable solution for cross-lingual systems in various languages, highlighting the significance of initializing embeddings and choosing the right vocabulary size in cross-lingual environments.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# あいまいさ学習のための自己知識蒸留

Self-Knowledge Distillation for Learning Ambiguity ( http://arxiv.org/abs/2406.09719v1 )

ライセンス: Link先を確認
Hancheol Park, Soyeong Jeong, Sukmin Cho, Jong C. Park, (参考訳) 最近の言語モデルは自然言語理解(NLU)タスクにおいて顕著な性能を示している。 しかし、複数の方法で解釈できるあいまいなサンプルに直面した場合、しばしば準最適であり、その正確さを考慮せずに単一のラベルを過度に予測する。 そこで本研究では,下層層から抽出した知識を活用して,ラベル分布をより正確に学習する自己知識蒸留法を提案する。 このアプローチはまた、蒸留された分布知識に基づいて極めて曖昧であると判断されたトレーニングサンプルに対して、不要に強化された信頼性を再校正する学習フェーズを含む。 本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。 特に、高度に曖昧なサンプルに対する信頼度を再検討する過程で、見知らぬサンプルに対する予測が地味ラベルと一致しない場合の過信の問題が大幅に緩和された。 これは既存の最先端手法よりも優れた分布を生成するのに寄与することが示されている。 さらに,本手法は,ラベル分布を洗練するための追加のトレーニングプロセスを必要としないため,既存の手法と比較してモデルのトレーニングに効率がよい。

Recent language models have shown remarkable performance on natural language understanding (NLU) tasks. However, they are often sub-optimal when faced with ambiguous samples that can be interpreted in multiple ways, over-confidently predicting a single label without consideration for its correctness. To address this issue, we propose a novel self-knowledge distillation method that enables models to learn label distributions more accurately by leveraging knowledge distilled from their lower layers. This approach also includes a learning phase that re-calibrates the unnecessarily strengthened confidence for training samples judged as extremely ambiguous based on the distilled distribution knowledge. We validate our method on diverse NLU benchmark datasets and the experimental results demonstrate its effectiveness in producing better label distributions. Particularly, through the process of re-calibrating the confidence for highly ambiguous samples, the issue of over-confidence when predictions for unseen samples do not match with their ground-truth labels has been significantly alleviated. This has been shown to contribute to generating better distributions than the existing state-of-the-art method. Moreover, our method is more efficient in training the models compared to the existing method, as it does not involve additional training processes to refine label distributions.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# クロスビュー・ジオローカライゼーション:サーベイ

Cross-view geo-localization: a survey ( http://arxiv.org/abs/2406.09722v1 )

ライセンス: Link先を確認
Abhilash Durgam, Sidike Paheding, Vikas Dhiman, Vijay Devabhaktuni, (参考訳) クロスビューなジオローカライゼーションはコンピュータビジョンの領域で注目され、協調的なジオタグ付きデータセットの普及と機械学習技術の進歩によって引き起こされた。 本稿では,この領域に不可欠な最先端の方法論,テクニック,関連する課題について,機能ベースおよびディープラーニング戦略に焦点をあてて,徹底的な調査を行う。 特徴に基づく手法は、異なる視点で対応を確立するためにユニークな特徴を生かし、深層学習に基づく手法は、畳み込みニューラルネットワークを配置し、ビュー不変属性を埋め込む。 この研究は、視点や照明のバリエーション、オクルージョンの発生、これらの問題に対処するために定式化された革新的な解決策の解明など、クロスビューなジオローカライゼーションで直面する多面的課題についても説明している。 さらに、ベンチマークデータセットと関連する評価指標を抽出し、最先端技術の比較分析を行う。 最後に,今後の研究の道筋と,複雑に相互接続されたグローバルな景観におけるクロスビューなジオローカライゼーションの飛躍的な応用について論じて,本論文を締めくくくった。

Cross-view geo-localization has garnered notable attention in the realm of computer vision, spurred by the widespread availability of copious geotagged datasets and the advancements in machine learning techniques. This paper provides a thorough survey of cutting-edge methodologies, techniques, and associated challenges that are integral to this domain, with a focus on feature-based and deep learning strategies. Feature-based methods capitalize on unique features to establish correspondences across disparate viewpoints, whereas deep learning-based methodologies deploy convolutional neural networks to embed view-invariant attributes. This work also delineates the multifaceted challenges encountered in cross-view geo-localization, such as variations in viewpoints and illumination, the occurrence of occlusions, and it elucidates innovative solutions that have been formulated to tackle these issues. Furthermore, we delineate benchmark datasets and relevant evaluation metrics, and also perform a comparative analysis of state-of-the-art techniques. Finally, we conclude the paper with a discussion on prospective avenues for future research and the burgeoning applications of cross-view geo-localization in an intricately interconnected global landscape.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# グラディエントな正規化はいつ有害になるのか?

When Will Gradient Regularization Be Harmful? ( http://arxiv.org/abs/2406.09723v1 )

ライセンス: Link先を確認
Yang Zhao, Hao Zhang, Xiuyuan Hu, (参考訳) 損失関数上の勾配ノルムをペナルティ化することを目的としたグラディエント正規化(GR)は、現代の過パラメータ化ディープニューラルネットワークのトレーニングにおいて有望な結果を示している。 しかし、この強力なテクニックを信頼できますか? 本稿では,GRが適応最適化シナリオ,特に学習率のウォームアップにおいて,性能劣化を引き起こすことを明らかにする。 我々の経験的・理論的分析は、GRが初期訓練段階における適応オプティマイザの勾配統計の不安定性とばらつきを誘導していることを示唆している。 ウォームアップ・ヒューリスティックにインスパイアされた3つのGRウォームアップ戦略を提案する。 The experiment on Vision Transformer family, we confirmed the three GR warmup strategy can be prevent these problem。 一方、スケーラブルモデルはGRウォームアップに依存する傾向にあり、ベースラインGRに比べてCifar10では最大3倍の性能向上が可能であることに留意する。 コードは \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp} で公開されている。

Gradient regularization (GR), which aims to penalize the gradient norm atop the loss function, has shown promising results in training modern over-parameterized deep neural networks. However, can we trust this powerful technique? This paper reveals that GR can cause performance degeneration in adaptive optimization scenarios, particularly with learning rate warmup. Our empirical and theoretical analyses suggest this is due to GR inducing instability and divergence in gradient statistics of adaptive optimizers at the initial training stage. Inspired by the warmup heuristic, we propose three GR warmup strategies, each relaxing the regularization effect to a certain extent during the warmup course to ensure the accurate and stable accumulation of gradients. With experiments on Vision Transformer family, we confirm the three GR warmup strategies can effectively circumvent these issues, thereby largely improving the model performance. Meanwhile, we note that scalable models tend to rely more on the GR warmup, where the performance can be improved by up to 3\% on Cifar10 compared to baseline GR. Code is available at \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp}.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 生成AIがソフトウェアエンジニアリングの実践をどこまで変えられるか

Some things never change: how far generative AI can really change software engineering practice ( http://arxiv.org/abs/2406.09725v1 )

ライセンス: Link先を確認
Aline de Campos, Jorge Melegati, Nicolas Nascimento, Rafael Chanin, Afonso Sales, Igor Wiese, (参考訳) Generative Artificial Intelligence(GenAI)は、ソフトウェアエンジニアリング(SE)の活動に影響を及ぼす可能性のあるいくつかのツールが利用可能になり、新興技術になりつつある。 その他の破壊的な技術と同様に、GenAIはその潜在能力がSEを深く変える可能性があるという憶測につながった。 しかし、GenAIがより適した活動を改善することへの過度な焦点は、プロセスの他の関連分野を無視する可能性がある。 本稿では,GenAI による SE 活動の大幅な変化を期待できないものを探究する。 この目標を達成するため、私たちはSE実践者たちと調査を行い、SEにおけるGenAIに関する期待事項、影響、課題、倫理的問題、変化を期待しない側面などを特定しました。 我々は、SE文献で提案された以前のロードマップと比較した。 我々の結果は、実践者は生産性、コーディング、プロセス品質の向上を期待しているが、人間の専門知識、創造性、プロジェクト管理の必要性など、いくつかの側面は変わらないと想定していることを示している。 この結果から,GenAIがあまり役に立たないSE領域が示唆され,今後の研究がSEプラクティスの改善に役立てられる可能性が示唆された。

Generative Artificial Intelligence (GenAI) has become an emerging technology with the availability of several tools that could impact Software Engineering (SE) activities. As any other disruptive technology, GenAI led to the speculation that its full potential can deeply change SE. However, an overfocus on improving activities for which GenAI is more suitable could negligent other relevant areas of the process. In this paper, we aim to explore which SE activities are not expected to be profoundly changed by GenAI. To achieve this goal, we performed a survey with SE practitioners to identify their expectations regarding GenAI in SE, including impacts, challenges, ethical issues, and aspects they do not expect to change. We compared our results with previous roadmaps proposed in SE literature. Our results show that although practitioners expect an increase in productivity, coding, and process quality, they envision that some aspects will not change, such as the need for human expertise, creativity, and project management. Our results point to SE areas for which GenAI is probably not so useful, and future research could tackle them to improve SE practice.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# PixRO:Gaussian Belief Propagationを用いた画素分散回転オドメトリー

PixRO: Pixel-Distributed Rotational Odometry with Gaussian Belief Propagation ( http://arxiv.org/abs/2406.09726v1 )

ライセンス: Link先を確認
Ignacio Alzugaray, Riku Murai, Andrew Davison, (参考訳) 視覚センサーは、高品質な画像をキャプチャするだけでなく、独自のオンチップでデータを処理する能力も着実に向上している。 しかし、VOパイプラインの大多数は、中央集権単位(CPUやGPUなど)におけるフルイメージの送信と処理に依存しており、タスクに対して非常に冗長で低品質な情報を含んでいることが多い。 本稿では,フレーム間回転推定の課題に対処するが,フルイメージを用いてフレーム間の相対的な動きを推論する代わりに,ピクセルレベルで推定を分散する。 このパラダイムでは、各ピクセルは、局所的な情報と近隣のピクセルとの局所的なメッセージパッシングにのみ依存することで、グローバルな動きの推定を生成する。 結果のピクセル当たりの見積もりは下流のタスクに伝達され、元の生のピクセル読み取りではなく、より高いレベルの情報的手がかりが得られる。 提案したアプローチを実際の公開データセットで評価し、この新技術に関する詳細な知見を提供し、コミュニティの将来的な利益のために我々の実装をオープンソース化する。

Visual sensors are not only becoming better at capturing high-quality images but also they have steadily increased their capabilities in processing data on their own on-chip. Yet the majority of VO pipelines rely on the transmission and processing of full images in a centralized unit (e.g. CPU or GPU), which often contain much redundant and low-quality information for the task. In this paper, we address the task of frame-to-frame rotational estimation but, instead of reasoning about relative motion between frames using the full images, distribute the estimation at pixel-level. In this paradigm, each pixel produces an estimate of the global motion by only relying on local information and local message-passing with neighbouring pixels. The resulting per-pixel estimates can then be communicated to downstream tasks, yielding higher-level, informative cues instead of the original raw pixel-readings. We evaluate the proposed approach on real public datasets, where we offer detailed insights about this novel technique and open-source our implementation for the future benefit of the community.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 非リジッドオブジェクトポスの生成と転送のためのニューラルポス表現学習

Neural Pose Representation Learning for Generating and Transferring Non-Rigid Object Poses ( http://arxiv.org/abs/2406.09728v1 )

ライセンス: Link先を確認
Seungwoo Yoo, Juil Koo, Kyeongmin Yeo, Minhyuk Sung, (参考訳) 本稿では,3次元変形可能なオブジェクトのポーズ表現を学習するための新しい手法を提案する。 1) 対象者の身元からポーズ情報を遠ざけること。 2)ポーズのバリエーションの学習を容易にすること、 3) 他のオブジェクトのIDにポーズ情報を転送すること。 これらの特性に基づいて,1つのオブジェクトのバリエーションを用いて,同一性およびポーズの多様性を持った3次元変形可能なオブジェクトを生成することができる。 骨格や関節のような明示的な形状パラメータ化、ポイントレベルまたは形状レベルの対応監督、ポーズ転送のためのターゲットオブジェクトのバリエーションは不要である。 まず、ポーズをキーポイントに基づくハイブリッド表現として表現するポーズ抽出器と、暗黙の変形場を学習するポーズ適応器を設計する。 物体の形状からポーズ情報をよりよく抽出するために,固有メッシュ特性である顔ヤコビアンを出力する暗黙のポーズアプライヤを提案する。 抽出されたポーズ情報を対象オブジェクトに転送すると、ポーズアプライヤを自己監督的に微調整して、ターゲットオブジェクトの形状をより正確に表現する。 抽出されたポーズは、新規なポーズの生成を可能にするためにカスケード拡散モデルを訓練するためにも使用される。 DeformThings4DとHumanデータセットを用いた実験では、ポーズ転送における最先端のパフォーマンスと、さまざまなオブジェクトやポーズで多様な変形した形状を生成する能力が実証されている。

We propose a novel method for learning representations of poses for 3D deformable objects, which specializes in 1) disentangling pose information from the object's identity, 2) facilitating the learning of pose variations, and 3) transferring pose information to other object identities. Based on these properties, our method enables the generation of 3D deformable objects with diversity in both identities and poses, using variations of a single object. It does not require explicit shape parameterization such as skeletons or joints, point-level or shape-level correspondence supervision, or variations of the target object for pose transfer. To achieve pose disentanglement, compactness for generative models, and transferability, we first design the pose extractor to represent the pose as a keypoint-based hybrid representation and the pose applier to learn an implicit deformation field. To better distill pose information from the object's geometry, we propose the implicit pose applier to output an intrinsic mesh property, the face Jacobian. Once the extracted pose information is transferred to the target object, the pose applier is fine-tuned in a self-supervised manner to better describe the target object's shapes with pose variations. The extracted poses are also used to train a cascaded diffusion model to enable the generation of novel poses. Our experiments with the DeformThings4D and Human datasets demonstrate state-of-the-art performance in pose transfer and the ability to generate diverse deformed shapes with various objects and poses.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 双方向高分解能空中画像からの横断歩道変化検出のためのGISに基づく自動フレームワーク

Automated GIS-Based Framework for Detecting Crosswalk Changes from Bi-Temporal High-Resolution Aerial Images ( http://arxiv.org/abs/2406.09731v1 )

ライセンス: Link先を確認
Richard Boadu Antwi, Samuel Takyi, Alican Karaer, Eren Erman Ozguven, Michael Kimollo, Ren Moses, Maxim A. Dulebenets, Thobias Sando, (参考訳) 舗装標識の変化の同定は, インフラ監視, 整備, 開発, 交通管理, 安全のために重要になっている。 画像の高解像度化やコンピュータビジョンの進歩、物体検出などを考えると、道路形状の自動抽出はそれを支援する上で重要である。 具体的には、衛星と高解像度の空中画像が異なる時間帯で撮影されているため、変化検出は実現可能な解決策となっている。 本研究では,フロリダ州のオレンジ郡,オセオラ郡,セミノール郡の横断歩道の変化を,様々な時間間隔で得られた高解像度画像から抽出したデータを用いて検出する自動フレームワークを開発した。 特にオレンジ郡では、2019年から2021年までの横断歩道の変更を手作業で抽出し、検証し、新しくまたは修正された横断歩道に分類した。 セミノール郡では2018年から2021年の間に自動的に横断歩道の変更を抽出するために開発モデルが使用され、オセオラ郡では2019年から2020年の間に変更が抽出された。 オレンジ郡では約2,094回の横断歩道変更があり、州道では312回起きている。 一方、セミノール郡とオセオラ郡では、地方道路と州道の両方で1,040と1,402の横断歩道の変化が観察された。 このうち340号線と344号線は、それぞれセミノールとオセオラの州道で識別された。 横断歩道で観察される時空間変化は、交通・安全研究に従事する機関にとって不可欠な、既存の横断歩道の在庫を定期的に更新するために利用することができる。 これらの横断歩道の変更から抽出されたデータは、トラフィックとクラッシュデータを組み合わせることで、政策立案者に貴重な洞察を与えることができる。

Identification of changes in pavement markings has become crucial for infrastructure monitoring, maintenance, development, traffic management, and safety. Automated extraction of roadway geometry is critical in helping with this, given the increasing availability of high-resolution images and advancements in computer vision and object detection. Specifically, due to the substantial volume of satellite and high-resolution aerial images captured at different time instances, change detection has become a viable solution. In this study, an automated framework is developed to detect changes in crosswalks of Orange, Osceola, and Seminole counties in Florida, utilizing data extracted from high-resolution images obtained at various time intervals. Specifically, for Orange County, crosswalk changes between 2019 and 2021 were manually extracted, verified, and categorized as either new or modified crosswalks. For Seminole County, the developed model was used to automatically extract crosswalk changes between 2018 and 2021, while for Osceola County, changes between 2019 and 2020 were extracted. Findings indicate that Orange County witnessed approximately 2,094 crosswalk changes, with 312 occurring on state roads. In Seminole and Osceola counties, on the other hand, 1,040 and 1,402 crosswalk changes were observed on both local and state roads, respectively. Among these, 340 and 344 were identified on state roads in Seminole and Osceola, respectively. Spatiotemporal changes observed in crosswalks can be utilized to regularly update the existing crosswalk inventories, which is essential for agencies engaged in traffic and safety studies. Data extracted from these crosswalk changes can be combined with traffic and crash data to provide valuable insights to policymakers.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# MLOpsの実践と課題とオープンイシューの多言語レビュー

A Multivocal Review of MLOps Practices, Challenges and Open Issues ( http://arxiv.org/abs/2406.09737v1 )

ライセンス: Link先を確認
Beyza Eken, Samodha Pallewatta, Nguyen Khoi Tran, Ayse Tosun, Muhammad Ali Babar, (参考訳) 機械学習(ML)がソフトウェアアプリケーションを実現する傾向が強まり、ML運用(MLOps)のパラダイムは研究者や実践者の間で大きな注目を集めている。 MLOpsは、MLモデルを運用するリソースと監視ニーズを合理化するためのプラクティスとテクノロジを含んでいる。 ソフトウェア開発の実践者は、MLOpsのワークフロー、プラクティス、課題、ソリューションに関する詳細で分かりやすい知識にアクセスして、MLOpsの採用を効果的かつ効率的にサポートする必要があります。 MLOpsに関する学術文献や業界文献は急速に成長しているが、アクセスと理解の容易さを改善するために、MLOpsの膨大な量の既存の文献を体系的に合成し分析する試みは比較的少ない。 MLOpsに関する総合的な知識を提供するため,150の学術研究と48のグレー文学の多言語文献レビュー(MLR)を行った。 このMLRを通じて、複雑なパイプラインの開発と運用、大規模生産の管理、アーティファクトの管理、品質、セキュリティ、ガバナンス、倫理的側面の確保など、MLOpsの新たなプラクティス、採用課題、さまざまな領域に関するソリューションを特定しました。 また,MLOpsライフサイクルを通じて関与するさまざまな役割やコラボレーションプラクティスに関する,MLOpsの社会技術的側面についても報告する。 このMLRは、急速に進化するMLOpsのランドスケープをナビゲートしようとする研究者や実践者に貴重な洞察を提供する、と我々は主張する。 また、MLOpsの最先端を前進させるためには、対処すべきオープンな問題も特定します。

With the increasing trend of Machine Learning (ML) enabled software applications, the paradigm of ML Operations (MLOps) has gained tremendous attention of researchers and practitioners. MLOps encompasses the practices and technologies for streamlining the resources and monitoring needs of operationalizing ML models. Software development practitioners need access to the detailed and easily understandable knowledge of MLOps workflows, practices, challenges and solutions to effectively and efficiently support the adoption of MLOps. Whilst the academic and industry literature on the MLOps has been growing rapidly, there have been relatively a few attempts at systematically synthesizing and analyzing the vast amount of existing literature of MLOps for improving ease of access and understanding. We conducted a Multivocal Literature Review (MLR) of 150 relevant academic studies and 48 gray literature to provide a comprehensive body of knowledge on MLOps. Through this MLR, we identified the emerging MLOps practices, adoption challenges and solutions related to various areas, including development and operation of complex pipelines, managing production at scale, managing artifacts, and ensuring quality, security, governance, and ethical aspects. We also report the socio-technical aspect of MLOps relating to diverse roles involved and collaboration practices across them through the MLOps lifecycle. We assert that this MLR provides valuable insights to researchers and practitioners seeking to navigate the rapidly evolving landscape of MLOps. We also identify the open issues that need to be addressed in order to advance the current state-of-the-art of MLOps.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 言語誘導型マルチタスクロボットマニピュレーションのためのコントラスト模倣学習

Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation ( http://arxiv.org/abs/2406.09738v1 )

ライセンス: Link先を確認
Teli Ma, Jiaming Zhou, Zifan Wang, Ronghe Qiu, Junwei Liang, (参考訳) 自然言語の指示や複雑な現実世界の環境の視覚的な観察によって導かれる様々な操作タスクを実行するロボットの開発は、ロボティクスにおいて重要な課題である。 このようなロボットエージェントは言語コマンドを理解し、異なるタスクの要求を区別する必要がある。 本稿では,マルチタスクロボット操作のためのエンドツーエンドの模倣学習エージェントであるSigma-Agentを紹介する。 Sigma-Agentは、視覚言語と現在の未来表現を強化するために、対照的なImitation Learning (Contrastive IL)モジュールを組み込んでいる。 代表的セマンティック情報を集約するための効果的で効率的なマルチビュークエリ変換器(MVQ-Former)を提案する。 Sigma-Agentは18のRLBenchタスクにおける様々な設定下での最先端の手法を大幅に改善し、RVTを平均で5.2%、デモで5.9%上回った。 また、Sigma-Agentは5つの現実世界操作タスクで1つのポリシーで62%の成功率を達成した。 コードは受理時にリリースされます。

Developing robots capable of executing various manipulation tasks, guided by natural language instructions and visual observations of intricate real-world environments, remains a significant challenge in robotics. Such robot agents need to understand linguistic commands and distinguish between the requirements of different tasks. In this work, we present Sigma-Agent, an end-to-end imitation learning agent for multi-task robotic manipulation. Sigma-Agent incorporates contrastive Imitation Learning (contrastive IL) modules to strengthen vision-language and current-future representations. An effective and efficient multi-view querying Transformer (MVQ-Former) for aggregating representative semantic information is introduced. Sigma-Agent shows substantial improvement over state-of-the-art methods under diverse settings in 18 RLBench tasks, surpassing RVT by an average of 5.2% and 5.9% in 10 and 100 demonstration training, respectively. Sigma-Agent also achieves 62% success rate with a single policy in 5 real-world manipulation tasks. The code will be released upon acceptance.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 一般化可能なディープフェイク検出のためのデカップリングフォージェリセマンティクス

Decoupling Forgery Semantics for Generalizable Deepfake Detection ( http://arxiv.org/abs/2406.09739v1 )

ライセンス: Link先を確認
Wei Ye, Xinan He, Feng Ding, (参考訳) 本稿では,DeepFakeを検知する新しい手法を提案し,セマンティックデカップリングによる検出の一般化を強化する。 現在、複数のDeepFakeフォージェリ技術があり、ユニークなフォージェリセマンティクスを持つだけでなく、共通のフォージェリセマンティクスを共有することもできる。 独特な偽造意味論と無関係な内容意味論はディープフェイク検出器の過度な適合と一般化を促進する可能性がある。 提案手法では,デカップリング後,DeepFakesから共通フォージェリーセマンティクスを抽出し,その後,DeepFake検出器の汎用性向上に活用する。 また,適応型ハイパスモジュールと2段階のトレーニング戦略を設計し,分離されたセマンティクスの独立性を向上した。 FF++, Celeb-DF, DFD, DFDCデータセットの評価は, 本手法の優れた検出と一般化性能を示す。 コードは以下の通り:https://anonymous.4open.science/r/DFS-GDD-0F42。

In this paper, we propose a novel method for detecting DeepFakes, enhancing the generalization of detection through semantic decoupling. There are now multiple DeepFake forgery technologies that not only possess unique forgery semantics but may also share common forgery semantics. The unique forgery semantics and irrelevant content semantics may promote over-fitting and hamper generalization for DeepFake detectors. For our proposed method, after decoupling, the common forgery semantics could be extracted from DeepFakes, and subsequently be employed for developing the generalizability of DeepFake detectors. Also, to pursue additional generalizability, we designed an adaptive high-pass module and a two-stage training strategy to improve the independence of decoupled semantics. Evaluation on FF++, Celeb-DF, DFD, and DFDC datasets showcases our method's excellent detection and generalization performance. Code is available at: https://anonymous.4open.science/r/DFS-GDD-0F42.
翻訳日:2024-06-17 15:03:43 公開日:2024-06-14
# 組合せ最適化のためのDeep Symbolic Optimization:潜在ヒューリスティックス発見によるノード選択の高速化

Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics ( http://arxiv.org/abs/2406.09740v1 )

ライセンス: Link先を確認
Hongyu Liu, Haoyang Liu, Yufei Kuang, Jie Wang, Bin Li, (参考訳) 組合せ最適化(英: Combinatorial Optimization、CO)は、現実世界の応用において最も基本的な数学的モデルの一つである。 ブランチ・アンド・バウンド(B&B)ソルバのような従来のCOソルバは、信頼できるが手動チューニングを必要とする専門家設計のヒューリスティックに大きく依存している。 近年の研究では、GPUマシンの性能向上のために、リッチな特徴パターンをキャプチャする代替手段として、ディープラーニング(DL)モデルを活用している。 それでも、高いトレーニングと推論コストの欠点は、解釈可能性の制限とともに、現実世界のアプリケーションにおけるDLメソッドの採用を著しく妨げている。 これらの課題に対処するために,我々は,それらの利点を組み合わせた,新しい記号的最適化学習フレームワークを提案する。 具体的には、B&Bソルバ内のノード選択モジュール、すなわち、ノード選択のための深いシンボル最適化(Dso4NS)に焦点を当てる。 データ駆動のアプローチにより、Dso4NSは高次元離散的記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。 データ駆動モデルは、入力データ中のリッチな特徴情報をキャプチャし、シンボリック表現を生成する一方、ソルバに展開された式は、高い解釈可能性で高速な推論を可能にする。 実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。 学習したCPUベースのポリシーは、常に最先端のGPUベースのアプローチに匹敵するパフォーマンスを達成する。

Combinatorial optimization (CO) is one of the most fundamental mathematical models in real-world applications. Traditional CO solvers, such as Branch-and-Bound (B&B) solvers, heavily rely on expert-designed heuristics, which are reliable but require substantial manual tuning. Recent studies have leveraged deep learning (DL) models as an alternative to capture rich feature patterns for improved performance on GPU machines. Nonetheless, the drawbacks of high training and inference costs, as well as limited interpretability, severely hinder the adoption of DL methods in real-world applications. To address these challenges, we propose a novel deep symbolic optimization learning framework that combines their advantages. Specifically, we focus on the node selection module within B&B solvers -- namely, deep symbolic optimization for node selection (Dso4NS). With data-driven approaches, Dso4NS guides the search for mathematical expressions within the high-dimensional discrete symbolic space and then incorporates the highest-performing mathematical expressions into a solver. The data-driven model captures the rich feature information in the input data and generates symbolic expressions, while the expressions deployed in solvers enable fast inference with high interpretability. Experiments demonstrate the effectiveness of Dso4NS in learning high-quality expressions, outperforming existing approaches on a CPU machine. Encouragingly, the learned CPU-based policies consistently achieve performance comparable to state-of-the-art GPU-based approaches.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 分布マッチングはドメインの一般化にどのように役立つか:情報理論解析

How Does Distribution Matching Help Domain Generalization: An Information-theoretic Analysis ( http://arxiv.org/abs/2406.09745v1 )

ライセンス: Link先を確認
Yuxin Dong, Tieliang Gong, Hong Chen, Shuangyong Song, Weizhan Zhang, Chen Li, (参考訳) ドメインの一般化は、複数のトレーニングドメイン間での不変性を学習することを目的としており、アウト・オブ・ディストリビューションデータに対する一般化を強化する。 勾配や表現マッチングアルゴリズムは目覚ましい成功を収めているが、これらの手法は一般に一般化の保証を欠いているか、あるいは強い仮定に依存しており、分布マッチングの基本的なメカニズムのギャップを残している。 本研究では、新しい確率論的観点から領域一般化を定式化し、過度に保守的な解を避けながら堅牢性を確保する。 包括的情報理論解析を通じて、一般化を促進する上での勾配と表現マッチングの役割について重要な知見を提供する。 その結果、これらの2つの成分間の相補的関係が明らかとなり、領域一般化問題を解くには、勾配や配向アライメントにのみ焦点をあてる既存の研究が不十分であることが示唆された。 これらの理論的な知見を踏まえ、ドメイン間の勾配と表現を同時に調整するIDMを導入する。 複雑な分布マッチングのためのPDM法と統合して,様々なベースライン法よりも優れた性能を実現する。

Domain generalization aims to learn invariance across multiple training domains, thereby enhancing generalization against out-of-distribution data. While gradient or representation matching algorithms have achieved remarkable success, these methods generally lack generalization guarantees or depend on strong assumptions, leaving a gap in understanding the underlying mechanism of distribution matching. In this work, we formulate domain generalization from a novel probabilistic perspective, ensuring robustness while avoiding overly conservative solutions. Through comprehensive information-theoretic analysis, we provide key insights into the roles of gradient and representation matching in promoting generalization. Our results reveal the complementary relationship between these two components, indicating that existing works focusing solely on either gradient or representation alignment are insufficient to solve the domain generalization problem. In light of these theoretical findings, we introduce IDM to simultaneously align the inter-domain gradients and representations. Integrated with the proposed PDM method for complex distribution matching, IDM achieves superior performance over various baseline methods.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# ガウスソフト制御によるハイブリッド原子-光子エンタングリングゲート

Hybrid atom-photon entangling gates via Gaussian soft control ( http://arxiv.org/abs/2406.09747v1 )

ライセンス: Link先を確認
Wanrang Yu, Qiuyu Yin, Yanzhao Liang, Ning Ji, Thibault Vogt, (参考訳) ハイブリッド原子-光子ゲートは、量子ネットワーク間の通信のために原子状態と光子をマッピングできる量子インターフェースの実現に重要な役割を果たしている。 本稿では,超伝導コプラナー導波路共振器において,原子とマイクロ波光子の間のハイブリッド原子光子制御Zゲートを実装するための理論的手法を提案する。 ゲートプロトコルは、原子量子ビットの1つの状態とライドバーグ状態の間の原子遷移を誘導する古典的な補助場を用いて、原子とマイクロ波共振器の強い結合を得る。 この領域の振幅をガウス時間変調で調整することにより、ゲート性能は様々に改善される。 数値シミュレーションにより, ガウス軟制御に基づく制御Zゲートは, 原子-光子結合強度の変動, ゲート時間の偏差に応答し, 成層電界によるライドバーグ準位シフトに敏感でないことが示された。

Hybrid atom-photon gates play an important role for the realization of a quantum interface capable of mapping atomic states to photons for communication across quantum networks. Here, we propose a feasible theoretical scheme for implementing a hybrid atom-photon controlled-Z gate between an atom and a microwave photon in a superconducting coplanar waveguide resonator based on the Gaussian soft control technique. The gate protocol employs a classical auxiliary field that induces an atomic transition between one state of the atomic qubit and Rydberg states for obtaining strong coupling of the atom and microwave resonator. By tailoring the amplitude of this field with Gaussian temporal modulation, the gate performances are improved in various aspects. Numerical simulations demonstrate that the controlled-Z gate based on Gaussian soft control is resilient to the variation of the atom-photon coupling strength, deviation in the gate time, and less sensitive to the Rydberg level shifts caused by stray electric fields.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# ControlVAR: 制御可能なビジュアル自動回帰モデリング

ControlVAR: Exploring Controllable Visual Autoregressive Modeling ( http://arxiv.org/abs/2406.09750v1 )

ライセンス: Link先を確認
Xiang Li, Kai Qiu, Hao Chen, Jason Kuen, Zhe Lin, Rita Singh, Bhiksha Raj, (参考訳) 条件付き視覚生成は拡散モデル(DM)の出現によって顕著な進歩をみせている。 しかし、高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。 本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰(VAR)モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlVARを紹介する。 条件分布を学習する従来の条件モデルとは対照的に、ControlVARはトレーニング中に画像とピクセルレベルの条件の分布を共同でモデル化し、テスト中に条件制御を課す。 共同モデリングを強化するため、我々は次世代AR予測パラダイムを採用し、制御と画像表現を統一する。 共同モデリングによる制御可能な生成をさらに促進するために,教師の強制指導戦略を提案する。 広汎な実験は,一般的な条件付きDM, \eg, ControlNet, T2I-Adaptorに対して, 各種条件生成タスクに対して, ControlVARの優れた有効性と柔軟性を示す。

Conditional visual generation has witnessed remarkable progress with the advent of diffusion models (DMs), especially in tasks like control-to-image generation. However, challenges such as expensive computational cost, high inference latency, and difficulties of integration with large language models (LLMs) have necessitated exploring alternatives to DMs. This paper introduces ControlVAR, a novel framework that explores pixel-level controls in visual autoregressive (VAR) modeling for flexible and efficient conditional generation. In contrast to traditional conditional models that learn the conditional distribution, ControlVAR jointly models the distribution of image and pixel-level conditions during training and imposes conditional controls during testing. To enhance the joint modeling, we adopt the next-scale AR prediction paradigm and unify control and image representations. A teacher-forcing guidance strategy is proposed to further facilitate controllable generation with joint modeling. Extensive experiments demonstrate the superior efficacy and flexibility of ControlVAR across various conditional generation tasks against popular conditional DMs, \eg, ControlNet and T2I-Adaptor.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 2モードの新一般化二項状態における非古典性

Nonclassicality in Two-Mode New Generalized Binomial State ( http://arxiv.org/abs/2406.09751v1 )

ライセンス: Link先を確認
Kathakali Mandal, Anjali Jatwani, Amit Verma, (参考訳) 2モード量子状態の非古典的性質の研究は、これらの状態における絡み合いやその他の2モード量子相関を得る可能性のため、量子情報理論において特に有用である。 本稿では,2モードの新一般化二項状態(TMNGBS)における非古典性の存在の可能性について検討した。 具体的には、新しい一般化二項状態と呼ばれる量子状態の2つのモードにおいて、二モードのアンチバンキング、四重みのスクイージング、和 \&差のスクイージング、および様々な絡み合い基準、例えば、シュチュキン-ヴォーゲル絡み合い基準、SU(1,1)アルゲブラとEPR絡み合い基準の不確かさ関係を探索する。 単モードのNGBSで非古典性を研究する前に、ここでは量子状態の2モードバージョンに向けて研究を拡張している。 ここでは、2モードの量子状態(フォック基底)に対するモーメントの一般表現を提供し、特定の例 NGBS における量子化を探索する。 反バンチング、スクイージング、SVエンタングルメントはパラメータによって異なる極限で可能であるが、NGBS に対するエンタングルメント基準 (EPR, SU (1,1) algebra and Cauchy - Schwarz inequality based) は不可能である。 この研究は、他の州でも2モードの非古典性を探究する可能性も開けている。

The study of nonclassical properties of two-mode quantum states is particularly useful in quantum information theory because of the possibilities of obtaining entanglement and other two-mode quantum correlations in these states. Here we have investigated the possibilities of the existence of nonclassicality in a two-mode New generalized binomial state (TMNGBS). Specifically two-mode antibunching, Quadrature squeezing, sum \& difference squeezing, and various entanglement criteria e.g Shchukin-Vogel entanglement criterion, the uncertainty relation of SU(1,1) Algebra and EPR entanglement criterion are explored in two mode particular example of quantum state named as New generalized binomial state. Earlier we studied nonclassicality in single-mode NGBS, here we are extending our study toward the two-mode version of a quantum state. Here we provide the general expressions of moments for a two-mode quantum state (Fock basis) and explore the quantification in a particular example NGBS. It is found that antibunching, squeezing, and SV entanglement are possible with different limits of depending parameters but the entanglement criteria (EPR, SU (1,1) algebra and Cauchy - Schwarz inequality based)for NGBS are not possible. This study opens up the possibility of exploring the two-mode nonclassicality in other states too.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# LAVIB: 大規模ビデオ補間ベンチマーク

LAVIB: A Large-scale Video Interpolation Benchmark ( http://arxiv.org/abs/2406.09754v1 )

ライセンス: Link先を確認
Alexandros Stergiou, (参考訳) 本稿では,ビデオフレーム補間(VFI)の低レベルビデオタスクに対して,LArge-scale Video Interpolation Benchmark (LAVIB)を提案する。 LAVIBは、人間の検証に必要な最小限の要件を持つ自動化パイプラインを通じて、Webからソースされる高解像度ビデオの大規模なコレクションで構成されている。 各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。 ビデオの収集とこれらのメトリクスに基づく定量的な課題の作成は、現在の低レベルなビデオタスクデータセットによって過小評価されている。 LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。 ベンチマークトレイン、val、テストセットは、同様のビデオメトリック分布を維持している。 さらに分割は、異種属性のビデオを含む、トレーニングとテストの分割を含む、アウト・オブ・ディストリビューション(OOD)の課題のために作成される。

This paper introduces a LArge-scale Video Interpolation Benchmark (LAVIB) for the low-level video task of video frame interpolation (VFI). LAVIB comprises a large collection of high-resolution videos sourced from the web through an automated pipeline with minimal requirements for human verification. Metrics are computed for each video's motion magnitudes, luminance conditions, frame sharpness, and contrast. The collection of videos and the creation of quantitative challenges based on these metrics are under-explored by current low-level video task datasets. In total, LAVIB includes 283K clips from 17K ultra-HD videos, covering 77.6 hours. Benchmark train, val, and test sets maintain similar video metric distributions. Further splits are also created for out-of-distribution (OOD) challenges, with train and test splits including videos of dissimilar attributes.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# レーン切替のための混合Q-ラーニング:多エージェント深部強化学習における協調的意思決定法

Mix Q-learning for Lane Changing: A Collaborative Decision-Making Method in Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2406.09755v1 )

ライセンス: Link先を確認
Xiaojun Bi, Mingjie He, Yiwen Sun, (参考訳) 自動走行車道計画にとって重要なレーン変更決定は、ルールベースの制約と限られたデータのために現実的な課題に直面している。 深層強化学習は、データ取得と解釈可能性の優位性から、研究の中心となっている。 しかしながら、現在のモデルは、交通効率に影響を及ぼすだけでなく、長期的には車両の通常の運転を妨げるようなコラボレーションを見落としていることが多い。 上記の課題に対処するため,本論文では,ハイブリット値Qネットワークを統合したMix Q-learning for Lane Changing(MQLC)を提案する。 集団レベルでは,グローバル情報を利用して個別のQネットワークとグローバルQネットワークを協調する。 これにより、エージェントは個人の利益と集団利益を効果的にバランスできる。 個人レベルでは、深層学習に基づく意図認識モジュールを観察に統合し、意思決定ネットワークを強化した。 これらの変更により、エージェントはよりリッチな決定情報とより正確な特徴抽出により、車線変更の意思決定を改善することができる。 この戦略により、マルチエージェントシステムは最適な意思決定戦略を効果的に学習し、定式化することができる。 我々のMQLCモデルは、広範な実験結果を通じて、他の最先端のマルチエージェント意思決定方法よりも著しく優れており、より安全でより高速な車線変更決定を実現しています。

Lane-changing decisions, which are crucial for autonomous vehicle path planning, face practical challenges due to rule-based constraints and limited data. Deep reinforcement learning has become a major research focus due to its advantages in data acquisition and interpretability. However, current models often overlook collaboration, which affects not only impacts overall traffic efficiency but also hinders the vehicle's own normal driving in the long run. To address the aforementioned issue, this paper proposes a method named Mix Q-learning for Lane Changing(MQLC) that integrates a hybrid value Q network, taking into account both collective and individual benefits for the greater good. At the collective level, our method coordinates the individual Q and global Q networks by utilizing global information. This enables agents to effectively balance their individual interests with the collective benefit. At the individual level, we integrated a deep learning-based intent recognition module into our observation and enhanced the decision network. These changes provide agents with richer decision information and more accurate feature extraction for improved lane-changing decisions. This strategy enables the multi-agent system to learn and formulate optimal decision-making strategies effectively. Our MQLC model, through extensive experimental results, impressively outperforms other state-of-the-art multi-agent decision-making methods, achieving significantly safer and faster lane-changing decisions.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# MASt3Rを用いた3次元グラウンド画像マッチング

Grounding Image Matching in 3D with MASt3R ( http://arxiv.org/abs/2406.09756v1 )

ライセンス: Link先を確認
Vincent Leroy, Yohann Cabon, Jérôme Revaud, (参考訳) Image Matchingは、3Dビジョンにおけるすべての最高のパフォーマンスアルゴリズムとパイプラインの中核となるコンポーネントである。 しかし、マッチングは基本的に3D問題であり、カメラのポーズやシーンの幾何学と本質的に結びついているが、通常は2D問題として扱われる。 マッチングの目標は、2Dピクセルフィールド間の対応を確立することだが、潜在的に危険な選択であるようにも思える。 本研究では,トランスフォーマーをベースとした最近の強力な3D再構成フレームワークであるDUSt3Rを用いて,異なるスタンスでマッチングを3Dタスクとして行うことを提案する。 ポイントマップの回帰に基づいて、この手法は、極端な視点変化と一致したビューにおいて顕著な頑健さを示したが、精度は限られていた。 我々は、そのようなアプローチの整合性を改善しつつ、その堅牢性を維持することを目的としている。 そこで我々は,DUSt3Rネットワークを高密度な局所特徴を出力する新しいヘッドで拡張し,追加のマッチング損失でトレーニングする。 さらに、集中マッチングの2次複雑さの問題にも対処し、慎重に処理しなければ、下流アプリケーションでは明らかに遅くなる。 我々は、桁違いのマッチングを加速するだけでなく、理論的な保証と結果の改善をもたらす高速な相互マッチングスキームを導入する。 大規模な実験により,MASt3Rという手法は,複数のマッチングタスクにおいて,最先端のタスクを著しく上回っていることがわかった。 特に、非常に挑戦的なMap-freeローカライゼーションデータセット上で、VCRE AUCの最も優れた公開メソッドを30%(絶対改善)上回っている。

Image Matching is a core component of all best-performing algorithms and pipelines in 3D vision. Yet despite matching being fundamentally a 3D problem, intrinsically linked to camera pose and scene geometry, it is typically treated as a 2D problem. This makes sense as the goal of matching is to establish correspondences between 2D pixel fields, but also seems like a potentially hazardous choice. In this work, we take a different stance and propose to cast matching as a 3D task with DUSt3R, a recent and powerful 3D reconstruction framework based on Transformers. Based on pointmaps regression, this method displayed impressive robustness in matching views with extreme viewpoint changes, yet with limited accuracy. We aim here to improve the matching capabilities of such an approach while preserving its robustness. We thus propose to augment the DUSt3R network with a new head that outputs dense local features, trained with an additional matching loss. We further address the issue of quadratic complexity of dense matching, which becomes prohibitively slow for downstream applications if not carefully treated. We introduce a fast reciprocal matching scheme that not only accelerates matching by orders of magnitude, but also comes with theoretical guarantees and, lastly, yields improved results. Extensive experiments show that our approach, coined MASt3R, significantly outperforms the state of the art on multiple matching tasks. In particular, it beats the best published methods by 30% (absolute improvement) in VCRE AUC on the extremely challenging Map-free localization dataset.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 検証対応言語におけるLLM駆動型ユーザインテント形式化の評価

Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages ( http://arxiv.org/abs/2406.09757v1 )

ライセンス: Link先を確認
Shuvendu K. Lahiri, (参考訳) DafnyやF*のような検証対応言語は、プログラムの特性を正式に指定し、証明する手段を提供する。 実装の仕様に対するチェックの問題は機械的に定義できるが、プログラムのユーザ意図の形式化の正しさを保証するアルゴリズム的な方法は存在しない。 意図や要件は自然言語で非公式に表現され、仕様は形式的な成果物である。 大規模言語モデル(LLM)の出現は、最近非公式な意図と形式的なプログラム実装のギャップを埋め、ベンチマークと評価のための自動メトリクスによって大きな部分で駆動されている。 近年の研究では、メインストリームプログラミング言語~\cite{endres-fse24} のユーザインテント形式化問題の評価が提案されている。 しかし、このようなアプローチは、動的実行では評価できないリッチな仕様(量化子とゴースト変数を含む)をサポートする検証対応言語に容易には適用できない。 以前の作業では、ベンチマークを作成するためにLSMを使用してプログラムミュータントを生成する必要があった。 我々は、検証対応言語における仕様の品質を評価するための直感的な指標を提供するために、仕様を象徴的にテストする別のアプローチを提唱する。 我々は,MBPPコード生成ベンチマークにおいて,約150 Dafny 仕様の GPT-4 生成と人間ラベル付きデータセットにほぼ一致しているが,人間のラベル付けが完全でない場合を実証する。 我々は,プログラムのユーザインテリジェントな形式化の問題に対して,ベンチマークと研究アジェンダの確立を可能にするための一歩として,我々の研究を信じている。

Verification-aware programming languages such as Dafny and F* provide means to formally specify and prove properties of programs. Although the problem of checking an implementation against a specification can be defined mechanically, there is no algorithmic way of ensuring the correctness of the user-intent formalization for programs -- that a specification adheres to the user's intent behind the program. The intent or requirement is expressed informally in natural language and the specification is a formal artefact. The advent of large language models (LLMs) has made strides bridging the gap between informal intent and formal program implementations recently, driven in large parts due to benchmarks and automated metrics for evaluation. Recent work has proposed evaluating {\it user-intent formalization} problem for mainstream programming languages~\cite{endres-fse24}. However, such an approach does not readily extend to verification-aware languages that support rich specifications (containing quantifiers and ghost variables) that cannot be evaluated through dynamic execution. Previous work also required generating program mutants using LLMs to create the benchmark. We advocate an alternate approach of {\it symbolically testing specifications} to provide an intuitive metric for evaluating the quality of specifications for verification-aware languages. We demonstrate that our automated metric agrees closely with mostly GPT-4 generated and human-labeled dataset of roughly 150 Dafny specifications for the popular MBPP code-generation benchmark, yet demonstrates cases where the human labeling is not perfect. We believe our work provides a stepping stone to enable the establishment of a benchmark and research agenda for the problem of user-intent formalization for programs.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# DPOインプット・リワードを用いたブートストラップ言語モデル

Bootstrapping Language Models with DPO Implicit Rewards ( http://arxiv.org/abs/2406.09760v1 )

ライセンス: Link先を確認
Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin, (参考訳) 大規模言語モデル(LLM)における人間のアライメントは研究の活発な領域である。 近年、人間フィードバック(RLHF)からの強化学習において、RLHFの報酬学習段階をバイパスすることで、直接選好最適化(DPO)が大幅に単純化されている。 DPOはトレーニング後、暗黙の報酬モデルを提供する。 本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。 我々のアプローチは、現在のLLMモデルから得られる報酬を使って好みのデータセットを構築し、その後のDPOラウンドで使用することである。 反応長を低下させる改良を取り入れ、選好データセットの品質を改善し、我々のアプローチをさらに改善する。 提案手法はDPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)と呼ばれ,AlpacaEval 2 における Gemini Pro よりも優れたアライメントを実現し,GPT-4 Turbo に対する27.55% の勝利率を達成したが,パラメータは 8B に留まり,外部からのフィードバックは得られなかった。 私たちのコードはhttps://github.com/sail-sg/dice.comから入手可能です。

Human alignment in large language models (LLMs) is an active area of research. A recent groundbreaking work, direct preference optimization (DPO), has greatly simplified the process from past work in reinforcement learning from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO, after training, provides an implicit reward model. In this work, we make a novel observation that this implicit reward model can by itself be used in a bootstrapping fashion to further align the LLM. Our approach is to use the rewards from a current LLM model to construct a preference dataset, which is then used in subsequent DPO rounds. We incorporate refinements that debias the length of the responses and improve the quality of the preference dataset to further improve our approach. Our approach, named self-alignment with DPO ImpliCit rEwards (DICE), shows great improvements in alignment and achieves superior performance than Gemini Pro on AlpacaEval 2, reaching 27.55% length-controlled win rate against GPT-4 Turbo, but with only 8B parameters and no external feedback. Our code is available at https://github.com/sail-sg/dice.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 大腸内視鏡検査における人工知能の完全統合に向けて

Towards Full Integration of Artificial Intelligence in Colon Capsule Endoscopy's Pathway ( http://arxiv.org/abs/2406.09761v1 )

ライセンス: Link先を確認
Esmaeil S. Nadimi, Jan-Matthias Braun, Benedicte Schelde-Olesen, Emile Prudhomme, Victoria Blanes-Vidal, Gunnar Baatrup, (参考訳) 大腸内視鏡(CCE)の早期診断への関心は近年高まっているが,CCEの現況とそれに対抗する光学的大腸内視鏡(OC)の現状との間には大きなギャップが残っている。 我々の研究は、CCEの経路におけるAIの完全な統合に焦点を当てて、このギャップを埋めることを目的としている。そこでは、さまざまなAIアルゴリズムを用いて、重要な発見の検出、ローカライゼーション、キャラクタリゼーションに関連する画像処理ステップが自律的に実行される。 我々は,99.9%の感度,99.4%の特異性,99.8%の陰性予測値(NPV)を検出できる認識ネットワークを開発した。 画像列内のポリプを認識した後、ポリプを含む画像のみを2つの並列独立ネットワークに供給し、それらの重要な発見の大きさを推定した。 キャラクタリゼーションネットワークは82%,ポリプを2つのグループ(ネオプラスティック対非ネオプラスティック)に分類すると80%の感度を示した。 サイズ推定網は88%の精度でポリープを正確に区分けした。 この重要な情報をCCEの経路に自動的に組み込むことで、我々はCCEの日常的な臨床実践におけるAIの完全な統合に向けて一歩前進した。

Despite recent surge of interest in deploying colon capsule endoscopy (CCE) for early diagnosis of colorectal diseases, there remains a large gap between the current state of CCE in clinical practice, and the state of its counterpart optical colonoscopy (OC). Our study is aimed at closing this gap, by focusing on the full integration of AI in CCE's pathway, where image processing steps linked to the detection, localization and characterisation of important findings are carried out autonomously using various AI algorithms. We developed a recognition network, that with an impressive sensitivity of 99.9%, a specificity of 99.4%, and a negative predictive value (NPV) of 99.8%, detected colorectal polyps. After recognising a polyp within a sequence of images, only those images containing polyps were fed into two parallel independent networks for characterisation, and estimation of the size of those important findings. The characterisation network reached a sensitivity of 82% and a specificity of 80% in classifying polyps to two groups, namely neoplastic vs. non-neoplastic. The size estimation network reached an accuracy of 88% in correctly segmenting the polyps. By automatically incorporating this crucial information into CCE's pathway, we moved a step closer towards the full integration of AI in CCE's routine clinical practice.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# スペクトルグラフウェーブレットを用いた全参照点クラウド品質評価

Full-reference Point Cloud Quality Assessment Using Spectral Graph Wavelets ( http://arxiv.org/abs/2406.09762v1 )

ライセンス: Link先を確認
Ryosuke Watanabe, Keisuke Nonaka, Eduardo Pavez, Tatsuya Kobayashi, Antonio Ortega, (参考訳) 3Dアプリケーションのポイントクラウドは、しばしば、処理中の品質劣化、例えばスキャンと圧縮を経験します。 信頼性ポイントクラウド品質評価(PCQA)は、ビットレート品質の高いトレードオフと品質改善のための技術(例えば、デノイング)を備えた圧縮アルゴリズムを開発する上で重要である。 本稿ではスペクトルグラフウェーブレット(SGW)を用いた全参照(FR)PCQA法を提案する。 まず, 基準点と歪み点の間の座標信号と色信号のSGW係数を比較した新しいSGWベースのPCQA指標を提案する。 第2に、従来のFRメトリクスとSGWベースのメトリクスを、サポートベクタ回帰を用いて統合することにより、正確なPCQAを実現する。 我々の知る限り、PCQA向けのSGWを紹介する最初の研究である。 実験により,提案したPCQA測定値は従来のPCQA測定値と比較して,主観的品質スコアとより正確に相関していることが示された。

Point clouds in 3D applications frequently experience quality degradation during processing, e.g., scanning and compression. Reliable point cloud quality assessment (PCQA) is important for developing compression algorithms with good bitrate-quality trade-offs and techniques for quality improvement (e.g., denoising). This paper introduces a full-reference (FR) PCQA method utilizing spectral graph wavelets (SGWs). First, we propose novel SGW-based PCQA metrics that compare SGW coefficients of coordinate and color signals between reference and distorted point clouds. Second, we achieve accurate PCQA by integrating several conventional FR metrics and our SGW-based metrics using support vector regression. To our knowledge, this is the first study to introduce SGWs for PCQA. Experimental results demonstrate the proposed PCQA metric is more accurately correlated with subjective quality scores compared to conventional PCQA metrics.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 自然言語処理の金融リスク検出への応用

Application of Natural Language Processing in Financial Risk Detection ( http://arxiv.org/abs/2406.09765v1 )

ライセンス: Link先を確認
Liyang Wang, Yu Cheng, Ao Xiang, Jingyu Zhang, Haowei Yang, (参考訳) 本稿では,金融リスク検出における自然言語処理(NLP)の適用について検討する。 本研究は,NLPに基づく金融リスク検出モデルの構築により,金融文書や通信における潜在的なリスクを特定し,予測することを目的とする。 まず, テキストマイニング法, NLPモデル設計原則, 機械学習アルゴリズムなど, NLPの基本概念とその理論基盤を紹介する。 次に、テキストデータ前処理と特徴抽出のプロセスを記述する。 最後に,モデルの有効性と予測性能を実証実験により検証した。 その結果,NLPに基づく金融リスク検出モデルは,リスクの同定と予測に優れ,金融機関に効果的なリスク管理ツールを提供することが示唆された。 本研究は、金融リスク管理の分野において、金融リスク検出の精度と効率を向上させるため、高度なNLP技術を活用した貴重な参考文献を提供する。

This paper explores the application of Natural Language Processing (NLP) in financial risk detection. By constructing an NLP-based financial risk detection model, this study aims to identify and predict potential risks in financial documents and communications. First, the fundamental concepts of NLP and its theoretical foundation, including text mining methods, NLP model design principles, and machine learning algorithms, are introduced. Second, the process of text data preprocessing and feature extraction is described. Finally, the effectiveness and predictive performance of the model are validated through empirical research. The results show that the NLP-based financial risk detection model performs excellently in risk identification and prediction, providing effective risk management tools for financial institutions. This study offers valuable references for the field of financial risk management, utilizing advanced NLP techniques to improve the accuracy and efficiency of financial risk detection.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# 逆問題に対するベイズ条件付き拡散モデル

Bayesian Conditioned Diffusion Models for Inverse Problems ( http://arxiv.org/abs/2406.09768v1 )

ライセンス: Link先を確認
Alper Güngör, Bahri Batuhan Bilecen, Tolga Çukur, (参考訳) 近年,前方計測演算子に基づく逆問題を含む多くの画像再構成タスクにおいて拡散モデルが優れていることが示されている。 一般的なフレームワークでは、タスクに依存しない非条件モデルを使用し、後に再設計のために条件付きになる。 タスク固有の条件モデルも提案されているが、現在の手法では、不正確なサンプリングを行うための単純入力チャネルとして測定データをヒューリスティックに注入している。 本稿では,画像再構成時に発生する逆問題に対する拡散モデルの最適条件付けについて述べる。 具体的には, 所望の画像の条件分布に関連付けられたスコア関数に基づいて, 拡散モデルのための新しいベイズ条件付け手法BCDMを提案する。 我々は厳格に条件付きスコア関数を表現および訓練するための理論を導出する。 最後に,提案手法による画像処理,分解,超解像,塗装における最先端性能を示す。

Diffusion models have recently been shown to excel in many image reconstruction tasks that involve inverse problems based on a forward measurement operator. A common framework uses task-agnostic unconditional models that are later post-conditioned for reconstruction, an approach that typically suffers from suboptimal task performance. While task-specific conditional models have also been proposed, current methods heuristically inject measured data as a naive input channel that elicits sampling inaccuracies. Here, we address the optimal conditioning of diffusion models for solving challenging inverse problems that arise during image reconstruction. Specifically, we propose a novel Bayesian conditioning technique for diffusion models, BCDM, based on score-functions associated with the conditional distribution of desired images given measured data. We rigorously derive the theory to express and train the conditional score-function. Finally, we show state-of-the-art performance in image dealiasing, deblurring, super-resolution, and inpainting with the proposed technique.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# フレキシブル・高効率密度行列アルゴリズムによる任意テンソルネットワークの近似縮約

Approximate Contraction of Arbitrary Tensor Networks with a Flexible and Efficient Density Matrix Algorithm ( http://arxiv.org/abs/2406.09769v1 )

ライセンス: Link先を確認
Linjian Ma, Matthew Fishman, Miles Stoudenmire, Edgar Solomonik, (参考訳) テンソルネットワークの収縮は、統計物理学、量子コンピューティング、計算機科学で広く使われている。 低ランク近似を用いてテンソルネットワークの縮約を効率的に近似する手法を提案し、この縮約時に生成された各中間テンソルを低ランク二分木テンソルネットワークとして近似する。 提案アルゴリズムは,低ランク近似を行う場合,環境の大部分を組み込むことが可能である。 ここでは、この環境はネットワーク内のテンソルの残りの集合を指し、より大きな環境を持つ低ランク近似は一般により高い精度を提供する。 格子上に定義されたテンソルネットワークを縮約するために、提案アルゴリズムは標準境界ベースアルゴリズムの一般化と見なすことができる。 さらに、このアルゴリズムは、一般的なグラフ構造を持つテンソルネットワークを木構造に近似するためのコスト効率の高い密度行列アルゴリズムを含む。 実験結果から,提案手法は従来提案した近似テンソルネットワーク縮合アルゴリズムよりも精度と効率の両面から,複数の問題に対して優れていたことが示唆された。

Tensor network contractions are widely used in statistical physics, quantum computing, and computer science. We introduce a method to efficiently approximate tensor network contractions using low-rank approximations, where each intermediate tensor generated during the contractions is approximated as a low-rank binary tree tensor network. The proposed algorithm has the flexibility to incorporate a large portion of the environment when performing low-rank approximations, which can lead to high accuracy for a given rank. Here, the environment refers to the remaining set of tensors in the network, and low-rank approximations with larger environments can generally provide higher accuracy. For contracting tensor networks defined on lattices, the proposed algorithm can be viewed as a generalization of the standard boundary-based algorithms. In addition, the algorithm includes a cost-efficient density matrix algorithm for approximating a tensor network with a general graph structure into a tree structure, whose computational cost is asymptotically upper-bounded by that of the standard algorithm that uses canonicalization. Experimental results indicate that the proposed technique outperforms previously proposed approximate tensor network contraction algorithms for multiple problems in terms of both accuracy and efficiency.
翻訳日:2024-06-17 14:53:58 公開日:2024-06-14
# エキスパートによるモデル融合の混合による効率的なパレート集合近似に向けて

Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion ( http://arxiv.org/abs/2406.09770v1 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Shiwei Liu, Han Hu, Bo Du, (参考訳) 大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと、モデルのトレーニングと評価に高価な計算コストのために難しい課題である。 大規模モデルの効率的なパレートフロント近似により、マルチタスク学習やトレードオフ解析といった様々なタスクに対する多目的最適化が可能となる。 1)進化的,ハイパーネットワーク,ハイパーボリューム最大化手法を含むパレート集合を学習するための既存のアルゴリズムは,計算コストが高く,大規模モデルにスケーラビリティが制限されている。 近年のモデルマージの成功に触発されて,我々は,専門家(MoE)によるモデルフュージョンの混合によるPareto集合学習問題に対する実用的でスケーラブルなアプローチを提案する。 特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉え、大きなニューラルネットワークのPareto集合全体を正確に近似することができる。 ルータが学習され、優先ベクトルが設定されると、MoEモジュールはアンロードされるので、推論中に追加の計算コストは発生しない。 私たちはCLIP-ViTやGPT-2といった大規模モデルを用いて視覚と言語タスクに関する広範な実験を行った。 実験により,提案手法は大規模モデルのパレートフロント全体を効率よく近似することを示した。 MoEルータの数百のトレーニング可能なパラメータを使用すれば,1つのPareto最適解を学習する線形スカラー化やアルゴリズムと比較してメモリ使用率が低くなり,目的数とモデルサイズの両方にスケーラブルになる。

Solving multi-objective optimization problems for large deep neural networks is a challenging task due to the complexity of the loss landscape and the expensive computational cost of training and evaluating models. Efficient Pareto front approximation of large models enables multi-objective optimization for various tasks such as multi-task learning and trade-off analysis. Existing algorithms for learning Pareto set, including (1) evolutionary, hypernetworks, and hypervolume-maximization methods, are computationally expensive and have restricted scalability to large models; (2) Scalarization algorithms, where a separate model is trained for each objective ray, which is inefficient for learning the entire Pareto set and fails to capture the objective trade-offs effectively. Inspired by the recent success of model merging, we propose a practical and scalable approach to Pareto set learning problem via mixture of experts (MoE) based model fusion. By ensembling the weights of specialized single-task models, the MoE module can effectively capture the trade-offs between multiple objectives and closely approximate the entire Pareto set of large neural networks. Once the routers are learned and a preference vector is set, the MoE module can be unloaded, thus no additional computational cost is introduced during inference. We conduct extensive experiments on vision and language tasks using large-scale models such as CLIP-ViT and GPT-2. The experimental results demonstrate that our method efficiently approximates the entire Pareto front of large models. Using only hundreds of trainable parameters of the MoE routers, our method even has lower memory usage compared to linear scalarization and algorithms that learn a single Pareto optimal solution, and are scalable to both the number of objectives and the size of the model.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 人工知能を用いたLiDAR画像のエッジ検出に関する研究

Research on Edge Detection of LiDAR Images Based on Artificial Intelligence Technology ( http://arxiv.org/abs/2406.09773v1 )

ライセンス: Link先を確認
Haowei Yang, Liyang Wang, Jingyu Zhang, Yu Cheng, Ao Xiang, (参考訳) 自律走行、ロボットナビゲーション、地形マッピングなどの分野における光検出・ランドング(LiDAR)技術の普及に伴い、LiDAR画像におけるエッジ検出の重要性がますます高まっている。 従来のエッジ検出手法は、LiDAR画像を処理する際に、精度と計算の複雑さの課題に直面することが多い。 これらの課題に対処するために,人工知能技術を用いたLiDAR画像のエッジ検出手法を提案する。 本稿では,LiDAR技術と画像エッジ検出技術の現状を概説し,共通エッジ検出アルゴリズムとそのLiDAR画像処理への応用について述べる。 その後、深層学習に基づくエッジ検出モデルを設計、実装し、LiDAR画像データセットの事前処理と強化によりモデルトレーニングプロセスを最適化する。 実験の結果,提案手法は検出精度と計算効率の点で従来の手法よりも優れており,実用的な応用価値が示唆された。 最後に, 提案手法の欠点に対する改善戦略を提案し, 実験によりその改善を検証した。

With the widespread application of Light Detection and Ranging (LiDAR) technology in fields such as autonomous driving, robot navigation, and terrain mapping, the importance of edge detection in LiDAR images has become increasingly prominent. Traditional edge detection methods often face challenges in accuracy and computational complexity when processing LiDAR images. To address these issues, this study proposes an edge detection method for LiDAR images based on artificial intelligence technology. This paper first reviews the current state of research on LiDAR technology and image edge detection, introducing common edge detection algorithms and their applications in LiDAR image processing. Subsequently, a deep learning-based edge detection model is designed and implemented, optimizing the model training process through preprocessing and enhancement of the LiDAR image dataset. Experimental results indicate that the proposed method outperforms traditional methods in terms of detection accuracy and computational efficiency, showing significant practical application value. Finally, improvement strategies are proposed for the current method's shortcomings, and the improvements are validated through experiments.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 教師なしデフォルマブル画像登録のための軽量残差ネットワーク

A lightweight residual network for unsupervised deformable image registration ( http://arxiv.org/abs/2406.09774v1 )

ライセンス: Link先を確認
Ahsan Raza Siyal, Astrid Ellen Grams, Markus Haltmeier, (参考訳) 正確なボリューム画像の登録は、臨床ルーチンとコンピュータ支援医療診断に非常に関係している。 近年, 医用画像登録の学習手法としてトランスフォーマーの活用が試みられ, 目覚ましい成功を収めている。 強力なグローバルモデリング能力のため、Transformerは登録のための畳み込みニューラルネットワーク(CNN)よりも優れた選択肢だと考えられている。 しかし、彼らは巨大なパラメータセットを持つバルクモデルを使用し、ポータブルデバイスや病院に配置するために高い計算エッジデバイスを必要とする。 トランスフォーマーは、重要な結果を得るために大量のトレーニングデータも必要であり、適切な注釈付きデータを集めることはしばしば困難である。 既存のCNNベースの画像登録は、リッチなローカル情報を提供することができるが、そのグローバルなモデリング能力は、長距離情報通信の処理や登録性能の制限に乏しい。 そこで本研究では,CNN ベースの登録手法を提案する。この方式では,学習領域の強化,パラメータの少なさ,限られた学習データセットに対する有意な結果が得られた。 そこで本研究では,組込み並列拡張畳み込みブロックを用いた残差U-Netを提案する。 本手法は患者間およびアトラスに基づくデータセットを用いて評価する。 提案手法の性能は, パラメータ数に対して$\SI{1.5}{\percent}$のみを用いることで, トランスフォーマ方式よりも若干優れていることを示す。

Accurate volumetric image registration is highly relevant for clinical routines and computer-aided medical diagnosis. Recently, researchers have begun to use transformers in learning-based methods for medical image registration, and have achieved remarkable success. Due to the strong global modeling capability, Transformers are considered a better option than convolutional neural networks (CNNs) for registration. However, they use bulky models with huge parameter sets, which require high computation edge devices for deployment as portable devices or in hospitals. Transformers also need a large amount of training data to produce significant results, and it is often challenging to collect suitable annotated data. Although existing CNN-based image registration can offer rich local information, their global modeling capability is poor for handling long-distance information interaction and limits registration performance. In this work, we propose a CNN-based registration method with an enhanced receptive field, a low number of parameters, and significant results on a limited training dataset. For this, we propose a residual U-Net with embedded parallel dilated-convolutional blocks to enhance the receptive field. The proposed method is evaluated on inter-patient and atlas-based datasets. We show that the performance of the proposed method is comparable and slightly better than transformer-based methods by using only $\SI{1.5}{\percent}$ of its number of parameters.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 不均一フェデレーションエッジ学習における高速収束:適応型サイドリンク支援データマルチキャスト手法

Faster Convergence on Heterogeneous Federated Edge Learning: An Adaptive Sidelink-Assisted Data Multicasting Approach ( http://arxiv.org/abs/2406.09776v1 )

ライセンス: Link先を確認
Gang Hu, Yinglei Teng, Nan Wang, Zhu Han, (参考訳) Federated Edge Learning(FEEL)は、6G Hyper-Connectivityの先駆的な分散機械学習パラダイムとして登場し、データプライバシを保ちながらモノのインターネット(IoT)デバイスからのデータを活用する。 しかし、現在のFEELアルゴリズムは非独立かつ非独立に分散した(非IID)データに苦しむため、通信コストの上昇とモデルの精度が損なわれる。 FEEL内のこれらの統計的不均衡に対処するために、クラスタ化データ共有フレームワークを導入し、サイドリンク支援マルチキャストを通じて、クラスタヘッドから信頼できるアソシエイトに部分的なデータを選択的に共有することで、データの均一性を緩和する。 集合的なコミュニケーションパターンはFEELトレーニングに不可欠なものであり、クラスタの形成と通信の効率の両方がトレーニングのレイテンシと精度に同時に影響を与える。 厳密に結合されたデータ共有とリソース最適化に対処するため、最適化問題をクライアントクラスタリングと効率的なデータ共有サブプロブレムに分解する。 具体的には, 分散型適応クラスタリングアルゴリズム (DACA) を3つの誘電性クラスタ形成条件に基づいて考案し, 最大共有収率を確保する。 一方、確率的最適化に基づく共同計算周波数と共有データボリューム最適化(JFVO)アルゴリズムを設計し、不確実な目的関数を用いて最適なリソース割り当てを決定する。 実験により,提案フレームワークは,限られた通信環境において,より高速な収束率とモデル精度を有する非IIDデータセット上でのFEELを促進することを示した。

Federated Edge Learning (FEEL) emerges as a pioneering distributed machine learning paradigm for the 6G Hyper-Connectivity, harnessing data from the Internet of Things (IoT) devices while upholding data privacy. However, current FEEL algorithms struggle with non-independent and non-identically distributed (non-IID) data, leading to elevated communication costs and compromised model accuracy. To address these statistical imbalances within FEEL, we introduce a clustered data sharing framework, mitigating data heterogeneity by selectively sharing partial data from cluster heads to trusted associates through sidelink-aided multicasting. The collective communication pattern is integral to FEEL training, where both cluster formation and the efficiency of communication and computation impact training latency and accuracy simultaneously. To tackle the strictly coupled data sharing and resource optimization, we decompose the overall optimization problem into the clients clustering and effective data sharing subproblems. Specifically, a distribution-based adaptive clustering algorithm (DACA) is devised basing on three deductive cluster forming conditions, which ensures the maximum sharing yield. Meanwhile, we design a stochastic optimization based joint computed frequency and shared data volume optimization (JFVO) algorithm, determining the optimal resource allocation with an uncertain objective function. The experiments show that the proposed framework facilitates FEEL on non-IID datasets with faster convergence rate and higher model accuracy in a limited communication environment.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# OSPC:触媒としての大規模言語モデルによる有害ミームの検出

OSPC: Detecting Harmful Memes with Large Language Model as a Catalyst ( http://arxiv.org/abs/2406.09779v1 )

ライセンス: Link先を確認
Jingtao Cao, Zheng Zhang, Hongru Wang, Bin Liang, Hao Wang, Kam-Fai Wong, (参考訳) インターネット上の個人的意見や立場を急速に広めるミームも、社会的偏見や偏見を広める上で大きな課題となっている。 本研究では,シンガポールの多言語・多言語的文脈において,有害なミームを検出する新しいアプローチを提案する。 我々は画像キャプション、光学文字認識(OCR)、Large Language Model(LLM)分析を統合し、有害なミームを包括的に理解し分類する。 画像キャプションのためのBLIPモデル、複数の言語でのテキスト認識のためのPP-OCRとTrOCR、ニュアンス言語理解のためのQwen LLMを用いて、我々のシステムは、英語、中国語、マレー語、タミル語で作成されたミームの有害な内容を特定することができる。 システムの性能を向上させるため,GPT-4Vをラベル付けしたデータを活用し,有害ミームに対するGPT-4Vの理解能力を抽出することを目的として,我々のアプローチを微調整した。 我々のフレームワークは、AI Singaporeが主催するオンライン安全賞コンテストでトップ1を獲得し、AUROCは0.7749、精度は0.7087で、他のチームよりもかなり先行しています。 FLAVAはAUROC 0.5695、VisualBERTはAUROC 0.5561である。

Memes, which rapidly disseminate personal opinions and positions across the internet, also pose significant challenges in propagating social bias and prejudice. This study presents a novel approach to detecting harmful memes, particularly within the multicultural and multilingual context of Singapore. Our methodology integrates image captioning, Optical Character Recognition (OCR), and Large Language Model (LLM) analysis to comprehensively understand and classify harmful memes. Utilizing the BLIP model for image captioning, PP-OCR and TrOCR for text recognition across multiple languages, and the Qwen LLM for nuanced language understanding, our system is capable of identifying harmful content in memes created in English, Chinese, Malay, and Tamil. To enhance the system's performance, we fine-tuned our approach by leveraging additional data labeled using GPT-4V, aiming to distill the understanding capability of GPT-4V for harmful memes to our system. Our framework achieves top-1 at the public leaderboard of the Online Safety Prize Challenge hosted by AI Singapore, with the AUROC as 0.7749 and accuracy as 0.7087, significantly ahead of the other teams. Notably, our approach outperforms previous benchmarks, with FLAVA achieving an AUROC of 0.5695 and VisualBERT an AUROC of 0.5561.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 変分量子アルゴリズムにおける逃避音の影響

Impact of Measurement Noise on Escaping Saddles in Variational Quantum Algorithms ( http://arxiv.org/abs/2406.09780v1 )

ライセンス: Link先を確認
Eriko Kaminishi, Takashi Mori, Michihiko Sugawara, Naoki Yamamoto, (参考訳) 確率勾配降下(SGD)は古典的機械学習や変分量子固有解法(VQE)においてよく用いられる最適化手法である。 量子ハードウェア上でのVQEの実装は、常に測定ショットノイズの影響を受けます。 しかしながら、VQEにおける測定ノイズの構造と性質や、それが最適化にどのように貢献するかについては、多くの不明な点がある。 本研究では,計測ノイズが最適化力学に与える影響を解析する。 特に,非凸損失関数の最小化において重要な損失景観におけるサドル点からの脱出に着目した。 その結果,(1)測定ノイズの増加に伴って逃避時間が減少し,(2)は学習率$\eta/N_s$の関数として表され,(2)は測定回数$N_s$の関数として表されることがわかった。 後者は、固定された$\eta/N_s$の比率で$\eta$と$N_s$が異なる場合、エスケープ時間がほぼ一定であることを意味する。 このスケーリング挙動は、離散時間SGDの連続時間近似によって得られる確率微分方程式(SDE)によってよく説明される。 SDEによると、$\eta/N_s$は測定ショットノイズのばらつきとして解釈される。 この結果は,従来の離散時間SGDよりも理論的に単純な連続時間SDEに基づく解析から,VQEの最適化力学を学習できることを示唆する。

Stochastic gradient descent (SGD) is a frequently used optimization technique in classical machine learning and Variational Quantum Eigensolver (VQE). For the implementation of VQE on quantum hardware, the results are always affected by measurement shot noise. However, there are many unknowns about the structure and properties of the measurement noise in VQE and how it contributes to the optimization. In this work, we analyze the effect of measurement noise to the optimization dynamics. Especially, we focus on escaping from saddle points in the loss landscape, which is crucial in the minimization of the non-convex loss function. We find that the escape time (1) decreases as the measurement noise increases in a power-law fashion and (2) is expressed as a function of $\eta/N_s$ where $\eta$ is the learning rate and $N_s$ is the number of measurements. The latter means that the escape time is approximately constant when we vary $\eta$ and $N_s$ with the ratio $\eta/N_s$ held fixed. This scaling behavior is well explained by the stochastic differential equation (SDE) that is obtained by the continuous-time approximation of the discrete-time SGD. According to the SDE, $\eta/N_s$ is interpreted as the variance of measurement shot noise. This result tells us that we can learn about the optimization dynamics in VQE from the analysis based on the continuous-time SDE, which is theoretically simpler than the original discrete-time SGD.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# GPT-4o:豚の活動理解における多モーダル大言語モデルの視覚知覚性能

GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding ( http://arxiv.org/abs/2406.09781v1 )

ライセンス: Link先を確認
Yiqi Wu, Xiaodan Hu, Ziming Fu, Siling Zhou, Jiangong Li, (参考訳) 動物民族学は動物研究の重要な側面であり、動物行動ラベリングは動物行動の研究の基礎である。 このプロセスは通常、ビデオクリップに振る舞いのセマンティックタグ(複雑で主観的でマルチモーダルなタスク)をラベル付けする。 マルチモーダル大規模言語モデル(LLM)の急速な開発に伴い,家畜シナリオにおける動物行動理解タスクへの新たな応用が現れた。 本研究では,動物行動認識におけるマルチモーダルLLMの視覚知覚能力について検討した。 そこで我々は,個々のブタのクローズアップビデオクリップと注釈付きフルショットビデオクリップからなる豚肉検査データを作成した。 これらのデータを用いて,ブタの行動理解におけるマルチモーダルLLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, GPT-4-omni (GPT-4o) の評価を行った。 計数,アクター参照,意味的対応,時間知覚,頑健性の5次元にわたる総合的な評価により,現在のマルチモーダルLLMは意味的対応や時間知覚の改善を必要とするが,当初は動物行動認識の視覚的知覚能力が実証されていた。 特に、GPT-4oは、ビデオチャット2とGPT-4oは、フルショットクリップと比較して、クローズアップビデオクリップのセマンティック対応と時間知覚が著しく向上した。 本研究の最初の評価実験は、家畜のシーン映像理解における多モーダル大言語モデルの可能性を検証し、動物行動映像理解の今後の研究への新たな方向性と参考を提供するものである。 さらに、視覚的プロンプトが多モーダルな言語モデルに与える影響を深く探求することにより、人間の視覚的処理手法によって家畜のシナリオにおける動物行動認識の精度と効率を高めることが期待されている。

Animal ethology is an crucial aspect of animal research, and animal behavior labeling is the foundation for studying animal behavior. This process typically involves labeling video clips with behavioral semantic tags, a task that is complex, subjective, and multimodal. With the rapid development of multimodal large language models(LLMs), new application have emerged for animal behavior understanding tasks in livestock scenarios. This study evaluates the visual perception capabilities of multimodal LLMs in animal activity recognition. To achieve this, we created piglet test data comprising close-up video clips of individual piglets and annotated full-shot video clips. These data were used to assess the performance of four multimodal LLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, and GPT-4 omni (GPT-4o)-in piglet activity understanding. Through comprehensive evaluation across five dimensions, including counting, actor referring, semantic correspondence, time perception, and robustness, we found that while current multimodal LLMs require improvement in semantic correspondence and time perception, they have initially demonstrated visual perception capabilities for animal activity recognition. Notably, GPT-4o showed outstanding performance, with Video-Chat2 and GPT-4o exhibiting significantly better semantic correspondence and time perception in close-up video clips compared to full-shot clips. The initial evaluation experiments in this study validate the potential of multimodal large language models in livestock scene video understanding and provide new directions and references for future research on animal behavior video understanding. Furthermore, by deeply exploring the influence of visual prompts on multimodal large language models, we expect to enhance the accuracy and efficiency of animal behavior recognition in livestock scenarios through human visual processing methods.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 階層的特徴誘導拡散に基づく教師なし単分子深さ推定

Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion ( http://arxiv.org/abs/2406.09782v1 )

ライセンス: Link先を確認
Runze Liu, Dongchen Zhu, Guanghui Zhang, Yue Xu, Wenjun Shi, Xiaolin Zhang, Lei Wang, Jiamao Li, (参考訳) 教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。 現実のシナリオでは、気象条件の影響とカメラ固有の制限のために、画像はぼやけたりうる。 したがって、特にロバストな深さ推定モデルを開発することが重要である。 生成的ネットワークのトレーニング戦略から恩恵を受けるため、生成的手法はしばしば強化された堅牢性を示す。 そこで我々は, 教師なし単眼深度推定のために, 生成ネットワーク間によく収束する拡散モデルを用いた。 さらに,階層型特徴誘導型デノナイジングモジュールを提案する。 このモデルは,画像特徴を十分に活用することで,学習能力と深度分布の解釈能力を大幅に向上させる。 さらに,再計画における暗黙の深さを探索し,暗黙の深度一貫性損失を設計する。 この損失関数は、モデルの性能を高め、ビデオシーケンス内の深さのスケール一貫性を確保するのに役立つ。 我々は,KITTI,Make3D,および自作SIMITデータセットについて実験を行った。 以上の結果から,本手法は生成モデルの中でも顕著であり,また顕著な堅牢性を示した。

Unsupervised monocular depth estimation has received widespread attention because of its capability to train without ground truth. In real-world scenarios, the images may be blurry or noisy due to the influence of weather conditions and inherent limitations of the camera. Therefore, it is particularly important to develop a robust depth estimation model. Benefiting from the training strategies of generative networks, generative-based methods often exhibit enhanced robustness. In light of this, we employ a well-converging diffusion model among generative networks for unsupervised monocular depth estimation. Additionally, we propose a hierarchical feature-guided denoising module. This model significantly enriches the model's capacity for learning and interpreting depth distribution by fully leveraging image features to guide the denoising process. Furthermore, we explore the implicit depth within reprojection and design an implicit depth consistency loss. This loss function serves to enhance the performance of the model and ensure the scale consistency of depth within a video sequence. We conduct experiments on the KITTI, Make3D, and our self-collected SIMIT datasets. The results indicate that our approach stands out among generative-based models, while also showcasing remarkable robustness.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 自己集合型ニューラルネットワークの進化:自然活動から経験依存学習へ

Evolving Self-Assembling Neural Networks: From Spontaneous Activity to Experience-Dependent Learning ( http://arxiv.org/abs/2406.09787v1 )

ライセンス: Link先を確認
Erwan Plantec, Joachin W. Pedersen, Milton L. Montero, Eleni Nisioti, Sebastian Risi, (参考訳) 生物学的ニューラルネットワークは、天然生物の顕著な適応性を可能にするコア特性である高い可塑性によって特徴づけられる。 重要なことに、この能力はシナプスの強さと神経系のトポロジーの両方に影響を及ぼす。 一方、ニューラルネットワークは、主に静的で完全に接続された構造として設計されており、環境の変化や新しい入力に直面して不安定なことが知られている。 これまでのニューラル・デベロップメント・プログラム (NDP) の研究に基づいて, 生活型ニューラル・デベロップメント・プログラム (LNDP) と呼ばれる, 活動的, 報酬的方法でシナプス的, 構造的可塑性を有する自己組織化型ニューラル・ネットワークのクラスを提案する。 本稿では、グラフトランスアーキテクチャ上に構築されたそのようなネットワークの例を示し、感覚ニューロンの自発的な活動に基づく実験前の可塑性のメカニズムを提案する。 その結果、ランダムに接続されたネットワークや空きネットワークから、異なる制御タスクの経験からモデルが学習できることが示されている。 さらに、構造的塑性は、迅速な適応を必要とする環境や、非定常的な報酬を必要とする環境において有利であることを示す。

Biological neural networks are characterized by their high degree of plasticity, a core property that enables the remarkable adaptability of natural organisms. Importantly, this ability affects both the synaptic strength and the topology of the nervous systems. Artificial neural networks, on the other hand, have been mainly designed as static, fully connected structures that can be notoriously brittle in the face of changing environments and novel inputs. Building on previous works on Neural Developmental Programs (NDPs), we propose a class of self-organizing neural networks capable of synaptic and structural plasticity in an activity and reward-dependent manner which we call Lifelong Neural Developmental Program (LNDP). We present an instance of such a network built on the graph transformer architecture and propose a mechanism for pre-experience plasticity based on the spontaneous activity of sensory neurons. Our results demonstrate the ability of the model to learn from experiences in different control tasks starting from randomly connected or empty networks. We further show that structural plasticity is advantageous in environments necessitating fast adaptation or with non-stationary rewards.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# OpenCapBench: ポース推定とバイオメカニクスを橋渡しするベンチマーク

OpenCapBench: A Benchmark to Bridge Pose Estimation and Biomechanics ( http://arxiv.org/abs/2406.09788v1 )

ライセンス: Link先を確認
Yoni Gozlan, Antoine Falisse, Scott Uhlrich, Anthony Gatti, Michael Black, Akshay Chaudhari, (参考訳) ポース推定は、人間の運動や生体力学のニュアンスを定量的に定量化することで、医療に影響を与えることを約束している。 しかし、ポーズ推定と生体力学の関連性にもかかわらず、これらの分野は相変わらず異なっていた。 例えば、現在のポーズ推定ベンチマークでは、平均的な関節位置誤差、正しいキーポイントの比率、平均的な平均精度といったメトリクスを使って、運動学と生理学の正しさを定量化することなく、パフォーマンスを評価する。 この課題を軽減するために,我々は,生理的制約下で評価される人間のポーズ推定における共通タスクを評価するための,使い易い統一ベンチマークを提供するOpenCapBenchを開発した。 OpenCapBenchは、オープンソースの筋骨格モデリングソフトウェア(OpenSim)が提供する関節角度を通じて、一貫した運動量を計算する。 OpenCapBenchを通じて、現在のポーズ推定モデルは、正確な生体力学解析にはスパースすぎるキーポイントを使用することを示した。 この課題を緩和するために、SynthPoseを導入する。これは、事前訓練された2次元ポーズモデルの微調整を可能にする新しいアプローチで、合成データを用いて正確なキネマティック解析のために、キーポイントの任意に密集したセットを予測できる。 先行モデルの合成データにそのような微調整を組み込むことで、2倍の関節角誤差が減少する。 さらに、OpenCapBenchを使うと、ユーザーは臨床関連コホートで独自の開発モデルをベンチマークできる。 全体として、OpenCapBenchはコンピュータビジョンとバイオメカニクスのコミュニティを橋渡しし、両方の領域で同時に進歩することを目指している。

Pose estimation has promised to impact healthcare by enabling more practical methods to quantify nuances of human movement and biomechanics. However, despite the inherent connection between pose estimation and biomechanics, these disciplines have largely remained disparate. For example, most current pose estimation benchmarks use metrics such as Mean Per Joint Position Error, Percentage of Correct Keypoints, or mean Average Precision to assess performance, without quantifying kinematic and physiological correctness - key aspects for biomechanics. To alleviate this challenge, we develop OpenCapBench to offer an easy-to-use unified benchmark to assess common tasks in human pose estimation, evaluated under physiological constraints. OpenCapBench computes consistent kinematic metrics through joints angles provided by an open-source musculoskeletal modeling software (OpenSim). Through OpenCapBench, we demonstrate that current pose estimation models use keypoints that are too sparse for accurate biomechanics analysis. To mitigate this challenge, we introduce SynthPose, a new approach that enables finetuning of pre-trained 2D human pose models to predict an arbitrarily denser set of keypoints for accurate kinematic analysis through the use of synthetic data. Incorporating such finetuning on synthetic data of prior models leads to twofold reduced joint angle errors. Moreover, OpenCapBench allows users to benchmark their own developed models on our clinically relevant cohort. Overall, OpenCapBench bridges the computer vision and biomechanics communities, aiming to drive simultaneous advances in both areas.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# Pcc-tuning:意味的テクスチャ類似性におけるコントラスト学習シーリングの破壊

Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity ( http://arxiv.org/abs/2406.09790v1 )

ライセンス: Link先を確認
Bowen Zhang, Chunping Li, (参考訳) セマンティックテキスト類似性(STS)は、計算言語学において重要な研究方向であり、埋め込みモデルの符号化能力の重要な指標である。 事前訓練された言語モデルとコントラスト学習技術の進歩により、SentEvalの7つのSTSベンチマークにおいて、リード文表現法は平均86の相関スコアを達成できる。 しかし、これらのタスクで平均87点以上のスコアを得る方法が存在しないため、さらなる改善はますます遠ざかっている。 本稿では,この現象の詳細な解析を行い,コントラスト学習を用いたスピアマン相関スコアの上限が87.5であることを示す。 この天井を超越するために,Pearsonの相関係数を損失関数として用いたPcc-tuning(Pcc-tuning)という革新的な手法を提案する。 実験の結果, Pcc-tuningは従来の最先端戦略を著しく上回り, スピアマン相関スコアは90。

Semantic Textual Similarity (STS) constitutes a critical research direction in computational linguistics and serves as a key indicator of the encoding capabilities of embedding models. Driven by advances in pre-trained language models and contrastive learning techniques, leading sentence representation methods can already achieved average Spearman's correlation scores of approximately 86 across seven STS benchmarks in SentEval. However, further improvements have become increasingly marginal, with no existing method attaining an average score higher than 87 on these tasks. This paper conducts an in-depth analysis of this phenomenon and concludes that the upper limit for Spearman's correlation scores using contrastive learning is 87.5. To transcend this ceiling, we propose an innovative approach termed Pcc-tuning, which employs Pearson's correlation coefficient as a loss function to refine model performance beyond contrastive learning. Experimental results demonstrate that Pcc-tuning markedly surpasses previous state-of-the-art strategies, raising the Spearman's correlation score to above 90.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 屋内深度補完のための2段階マスク付きオートエンコーダネットワーク

A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion ( http://arxiv.org/abs/2406.09792v1 )

ライセンス: Link先を確認
Kailai Sun, Zhou Yang, Qianchuan Zhao, (参考訳) 深度画像には3D再構成、自動運転、拡張現実、ロボットナビゲーション、シーン理解など、幅広い応用がある。 コモディティグレードの奥行きカメラは、明るく、光沢があり、透明で、遠くの面の奥行きを感知するのは難しい。 既存の深度補完法は目覚ましい進歩を遂げているが, 複雑な屋内シナリオに適用した場合の性能は限られている。 これらの問題に対処するため,屋内深度補完のための2段階トランスフォーマーネットワークを提案する。 既存の深度補完手法とは異なり、マスク付きオートエンコーダをベースとした自己超過事前学習エンコーダを用いて、欠落した深度値の有効な潜伏表現を学習し、トークン融合機構に基づく復号器を提案し、共同RGBと不完全深度画像から全深度を完了(再構成)する。 既存の手法と比較して,提案するネットワークは,Matterport3Dデータセットの最先端性能を実現する。 また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。 コード、データセット、デモはhttps://github.com/kailaisun/Indoor-Depth-Completion.comで公開されている。

Depth images have a wide range of applications, such as 3D reconstruction, autonomous driving, augmented reality, robot navigation, and scene understanding. Commodity-grade depth cameras are hard to sense depth for bright, glossy, transparent, and distant surfaces. Although existing depth completion methods have achieved remarkable progress, their performance is limited when applied to complex indoor scenarios. To address these problems, we propose a two-step Transformer-based network for indoor depth completion. Unlike existing depth completion approaches, we adopt a self-supervision pre-training encoder based on the masked autoencoder to learn an effective latent representation for the missing depth value; then we propose a decoder based on a token fusion mechanism to complete (i.e., reconstruct) the full depth from the jointly RGB and incomplete depth image. Compared to the existing methods, our proposed network, achieves the state-of-the-art performance on the Matterport3D dataset. In addition, to validate the importance of the depth completion task, we apply our methods to indoor 3D reconstruction. The code, dataset, and demo are available at https://github.com/kailaisun/Indoor-Depth-Completion.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# SuperSVG:スーパーピクセルベースのスケーラブルベクターグラフィックス合成

SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis ( http://arxiv.org/abs/2406.09794v1 )

ライセンス: Link先を確認
Teng Hu, Ran Yi, Baihong Qian, Jiangning Zhang, Paul L. Rosin, Yu-Kun Lai, (参考訳) SVG(Scalable Vector Graphics)は、スケーラビリティと編集性に優れたグラフィックフォーマットである。 ラスター画像をSVGに変換することを目的とした画像ベクトル化は、コンピュータビジョンとグラフィックスにおいて重要な課題である。 既存の画像ベクトル化法は、複雑な画像の再構成精度が低いか、長い計算時間を必要とするかのいずれかである。 この問題に対処するために,高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルであるSuperSVGを提案する。 具体的には、入力画像をスーパーピクセルに分解し、モデルが類似した色やテクスチャを持つ領域に集中できるようにする。 そこで,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。 さらに,改良段階モデルが粗い段階モデルから知識を継承するのを助けるために,新しい動的経路整合損失を提案する。 大規模定性的および定量的実験により, 再現精度および推定時間の観点から, 最先端の手法と比較して, 提案手法の優れた性能を示した。 コードは \url{https://github.com/sjtuplayer/SuperSVG} で公開されている。

SVG (Scalable Vector Graphics) is a widely used graphics format that possesses excellent scalability and editability. Image vectorization, which aims to convert raster images to SVGs, is an important yet challenging problem in computer vision and graphics. Existing image vectorization methods either suffer from low reconstruction accuracy for complex images or require long computation time. To address this issue, we propose SuperSVG, a superpixel-based vectorization model that achieves fast and high-precision image vectorization. Specifically, we decompose the input image into superpixels to help the model focus on areas with similar colors and textures. Then, we propose a two-stage self-training framework, where a coarse-stage model is employed to reconstruct the main structure and a refinement-stage model is used for enriching the details. Moreover, we propose a novel dynamic path warping loss to help the refinement-stage model to inherit knowledge from the coarse-stage model. Extensive qualitative and quantitative experiments demonstrate the superior performance of our method in terms of reconstruction accuracy and inference time compared to state-of-the-art approaches. The code is available in \url{https://github.com/sjtuplayer/SuperSVG}.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# DeltaPhi: PDE解決のための物理軌道残差学習

DeltaPhi: Learning Physical Trajectory Residual for PDE Solving ( http://arxiv.org/abs/2406.09795v1 )

ライセンス: Link先を確認
Xihang Yue, Linchao Zhu, Yi Yang, (参考訳) ニューラルネットワークは理論的に任意の演算子マッピングを近似するが、制限された一般化能力は、潜在的なデータバイアスが存在する場合、特に利用可能なデータ量が制限されたり、解像度が極端に低い実用的なPDE解決シナリオにおいて、正しい物理力学を学ぶことを妨げている。 この問題に対処するために,提案する物理軌道残差学習法 (DeltaPhi) を提案する。 まず,入力関数ペアと出力関数残差との間の残差演算子マッピングに変換する。 次に、既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。 さらに,効率的な最適化のための補助入力も設計する。 実験により, 直接学習と比較して, 物理残差学習がPDEの解法に好適であることが判明した。

Although neural operator networks theoretically approximate any operator mapping, the limited generalization capability prevents them from learning correct physical dynamics when potential data biases exist, particularly in the practical PDE solving scenario where the available data amount is restricted or the resolution is extremely low. To address this issue, we propose and formulate the Physical Trajectory Residual Learning (DeltaPhi), which learns to predict the physical residuals between the pending solved trajectory and a known similar auxiliary trajectory. First, we transform the direct operator mapping between input-output function fields in original training data to residual operator mapping between input function pairs and output function residuals. Next, we learn the surrogate model for the residual operator mapping based on existing neural operator networks. Additionally, we design helpful customized auxiliary inputs for efficient optimization. Through extensive experiments, we conclude that, compared to direct learning, physical residual learning is preferred for PDE solving.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# 視覚・言語ナビゲーションのための3次元特徴場による情報伝達

Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation ( http://arxiv.org/abs/2406.09798v1 )

ライセンス: Link先を確認
Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi, Shuqiang Jiang, (参考訳) ヴィジュアル・アンド・ランゲージナビゲーション(VLN)により、エージェントは自然言語の指示に従って3D環境の遠隔地へ移動することができる。 この分野では、エージェントは通常、ナビゲーションシミュレーターで訓練され、評価され、sim-to-realトランスファーの効果的なアプローチが欠如している。 単眼カメラのみを搭載したVLNエージェントは非常に限られた性能を示し、パノラマ観察で訓練された主流のVLNモデルでは性能が向上するが、ほとんどの単眼ロボットでは展開が困難である。 本稿では,パノラマ性知覚とパノラマ意味理解を両立させたモノクラーロボットを,高速パノラマVLNモデルを共通モノクラーロボットにスムーズに伝達するシミュレート・トゥ・リアル・トランスファー手法を提案する。 本研究では,エージェント中心のナビゲーション可能な経路ポイントを予測するためにセマンティック・トラバーサブル・マップを提案し,これらナビゲーション可能な経路ポイントの新たなビュー表現を3次元特徴場を通して予測する。 これらの手法はモノクラーロボットの視野を狭くし、現実のナビゲーション性能を大幅に向上させる。 我々のVLNシステムは、シミュレーション環境におけるR2R-CEおよびRxR-CEベンチマークにおける従来のSOTA単分子VLN法よりも優れており、実環境においても検証されており、実環境のVLNに対して実用的で高性能なソリューションを提供する。

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location in 3D environments following the natural language instruction. In this field, the agent is usually trained and evaluated in the navigation simulators, lacking effective approaches for sim-to-real transfer. The VLN agents with only a monocular camera exhibit extremely limited performance, while the mainstream VLN models trained with panoramic observation, perform better but are difficult to deploy on most monocular robots. For this case, we propose a sim-to-real transfer approach to endow the monocular robots with panoramic traversability perception and panoramic semantic understanding, thus smoothly transferring the high-performance panoramic VLN models to the common monocular robots. In this work, the semantic traversable map is proposed to predict agent-centric navigable waypoints, and the novel view representations of these navigable waypoints are predicted through the 3D feature fields. These methods broaden the limited field of view of the monocular robots and significantly improve navigation performance in the real world. Our VLN system outperforms previous SOTA monocular VLN methods in R2R-CE and RxR-CE benchmarks within the simulation environments and is also validated in real-world environments, providing a practical and high-performance solution for real-world VLN.
翻訳日:2024-06-17 14:44:14 公開日:2024-06-14
# GeoSEE:大規模言語モデルによる地域社会経済評価

GeoSEE: Regional Socio-Economic Estimation With a Large Language Model ( http://arxiv.org/abs/2406.09799v1 )

ライセンス: Link先を確認
Sungwon Han, Donghyun Ahn, Seungeon Lee, Minhyuk Song, Sungwon Park, Sangyoon Park, Jihee Kim, Meeyoung Cha, (参考訳) 従来の調査を超えて、異種データソースとAI駆動推論モデルを組み合わせることで、貧困や人口といった社会経済的条件を拡大する地域を超えて測定する新たな機会がもたらされる。 本研究は,大規模言語モデル(LLM)を用いた統合パイプラインを用いて,様々な社会経済指標を推定する手法であるGeoSEEを提案する。 衛星画像から予め構築されたモジュールを含む多様な情報モジュールが提示され、GeoSEEは各指標と国ごとにどのモジュールを推定に使用するかを選択する。 この選択は、LLMの以前の社会地理学的知識によって導かれる。 システムは、自然言語ベースのテキストフォーマットで選択したモジュールの結果を集約した後、コンテキスト内学習を通じてターゲットインジケータを算出する。 様々な開発段階における包括的評価は、我々の手法が教師なし・低ショット両方の文脈において、他の予測モデルよりも優れていることを示している。 未開発または発展途上国におけるデータ・スカース・セッティングにおける信頼性の高いパフォーマンスは、コスト効率と相まって、世界規模で貧困緩和や平等成長といった持続可能な開発目標の進捗を継続的に支援し、監視する可能性を示している。

Moving beyond traditional surveys, combining heterogeneous data sources with AI-driven inference models brings new opportunities to measure socio-economic conditions, such as poverty and population, over expansive geographic areas. The current research presents GeoSEE, a method that can estimate various socio-economic indicators using a unified pipeline powered by a large language model (LLM). Presented with a diverse set of information modules, including those pre-constructed from satellite imagery, GeoSEE selects which modules to use in estimation, for each indicator and country. This selection is guided by the LLM's prior socio-geographic knowledge, which functions similarly to the insights of a domain expert. The system then computes target indicators via in-context learning after aggregating results from selected modules in the format of natural language-based texts. Comprehensive evaluation across countries at various stages of development reveals that our method outperforms other predictive models in both unsupervised and low-shot contexts. This reliable performance under data-scarce setting in under-developed or developing countries, combined with its cost-effectiveness, underscores its potential to continuously support and monitor the progress of Sustainable Development Goals, such as poverty alleviation and equitable growth, on a global scale.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# RaNeuS:光適応型ニューラルサーフェス

RaNeuS: Ray-adaptive Neural Surface Reconstruction ( http://arxiv.org/abs/2406.09801v1 )

ライセンス: Link先を確認
Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari, (参考訳) 我々の目的は、微分可能な放射場 \eg NeRF を利用して、標準的な新しいビューレンダリングを生成することに加えて、詳細な3次元表面を再構成することである。 このようなタスクを、通常、符号付き距離場(SDF)を利用して実行する関連手法がある。 しかし、最先端のアプローチは、葉、ロープ、繊維の表面といった小さな細部を正しく再構築することができない。 我々は,SDFから放射界への射影を一様に一定に定式化して最適化することを考えると,完全なSDFを確立する上でのレンダリングおよびゼロ交差面の嵌合を優先するために,光度重み付け係数を用いて改良する。 本研究では, 符号距離場の正則化を適応的に調整することにより, 不満足なレンダリング線が強いアイコンの正則化を強制せず, 十分に学習した放射率を持つ領域からの勾配を効果的にSDFに逆伝播させることができることを提案する。 その結果、2つの目的をバランスさせ、正確な表面と詳細な表面を生成する。 また、SDFにおけるゼロ交差面と放射場におけるレンダリング点との間に幾何的偏差があるかについても、最適化中の異なる3次元位置に依存して、プロジェクションの調整が可能となる。 提案した‘textit{RaNeuS} は,合成データと実データの両方で広範囲に評価され,新しいビュー合成と幾何再構成の両面において最先端の結果が得られた。

Our objective is to leverage a differentiable radiance field \eg NeRF to reconstruct detailed 3D surfaces in addition to producing the standard novel view renderings. There have been related methods that perform such tasks, usually by utilizing a signed distance field (SDF). However, the state-of-the-art approaches still fail to correctly reconstruct the small-scale details, such as the leaves, ropes, and textile surfaces. Considering that different methods formulate and optimize the projection from SDF to radiance field with a globally constant Eikonal regularization, we improve with a ray-wise weighting factor to prioritize the rendering and zero-crossing surface fitting on top of establishing a perfect SDF. We propose to adaptively adjust the regularization on the signed distance field so that unsatisfying rendering rays won't enforce strong Eikonal regularization which is ineffective, and allow the gradients from regions with well-learned radiance to effectively back-propagated to the SDF. Consequently, balancing the two objectives in order to generate accurate and detailed surfaces. Additionally, concerning whether there is a geometric bias between the zero-crossing surface in SDF and rendering points in the radiance field, the projection becomes adjustable as well depending on different 3D locations during optimization. Our proposed \textit{RaNeuS} are extensively evaluated on both synthetic and real datasets, achieving state-of-the-art results on both novel view synthesis and geometric reconstruction.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# Androidアプリでデバイス固有の振る舞いを発見する

Same App, Different Behaviors: Uncovering Device-specific Behaviors in Android Apps ( http://arxiv.org/abs/2406.09807v1 )

ライセンス: Link先を確認
Zikan Dong, Yanjie Zhao, Tianming Liu, Chao Wang, Guosheng Xu, Guoai Xu, Haoyu Wang, (参考訳) Androidエコシステムはフラグメンテーションとして知られる注目すべき課題に直面しており、システム内の広範な多様性を示している。 この問題は主に、システムバージョン、デバイスハードウェア仕様、メーカーによって導入されたカスタマイズの違いに関連している。 デバイス間の差異の増大は、特定のアプリがさまざまなデバイス間でどのように振る舞うかに顕著な変化をもたらす。 これをデバイス固有の行動と呼ぶ。 本研究では,実世界のAndroidアプリにおいて,デバイス固有の動作に関する大規模な実証的研究を行った。 我々は,デバイス固有の動作を正確に検出し,理解するための3段階の静的解析フレームワークを設計した。 20,000以上のアプリからなるデータセットにツールを採用すると、2,357のデバイス固有の動作を検出しました。 デバイス固有の行動の分布を調べることで、中国のサードパーティアプリマーケット内のアプリが、Google Playのアプリに比べて、より関連性の高い行動を示すことが明らかになった。 さらに、こうした行動は、より大きな市場シェアを持つ支配的なブランドを特徴付ける傾向にある。 これを反映して、実装された機能に基づいて、これらのデバイス固有の動作を29のカテゴリに分類し、これらの動作に関する構造化された洞察を提供する。 問題修正や機能適応といった一般的な動作以外にも、何百万ものダウンロードを持つ人気のあるアプリを含む33のアグレッシブなアプリが、カスタマイズされたROMのシステムプロパティを悪用して、許可を必要とせず、ユーザプライバシに大きな影響を与えます。 最後に,デバイス固有の動作の起源を調査し,包括的に実装する上で開発者が直面する重要な課題を明らかにした。 我々の研究は、デバイス固有の行動に関する将来性はあるものの、触れられていない研究の方向性に光を当て、コミュニティの利害関係者に利益をもたらします。

The Android ecosystem faces a notable challenge known as fragmentation, which denotes the extensive diversity within the system. This issue is mainly related to differences in system versions, device hardware specifications, and customizations introduced by manufacturers. The growing divergence among devices leads to marked variations in how a given app behaves across diverse devices. This is referred to as device-specific behaviors. In this work, we present the first large-scale empirical study of device-specific behaviors in real-world Android apps. We have designed a three-phase static analysis framework to accurately detect and understand the device-specific behaviors. Upon employing our tool on a dataset comprising more than 20,000 apps, we detected device-specific behaviors in 2,357 of them. By examining the distribution of device-specific behaviors, our analysis revealed that apps within the Chinese third-party app market exhibit more relevant behaviors compared to their counterparts in Google Play. Additionally, these behaviors are more likely to feature dominant brands that hold larger market shares. Reflecting this, we have classified these device-specific behaviors into 29 categories based on implemented functionalities, providing structured insight into these behaviors. Beyond common behaviors like issue fixes and feature adaptations, we observed 33 aggressive apps, including popular ones with millions of downloads, abusing system properties of customized ROMs to obtain user-unresettable identifiers without requiring permission, substantially impacting user privacy. Finally, we investigated the origins of device-specific behaviors, revealing significant challenges developers face in implementing them comprehensively. Our research sheds light on the promising but less touched research direction of device-specific behaviors, benefiting community stakeholders.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# コントラストの合成による検索用ファクト検証

Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments ( http://arxiv.org/abs/2406.09815v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Lanyu Shang, Yifan Liu, Yang Zhang, Dong Wang, (参考訳) 誤報の急速な伝播は、大衆の関心に重大なリスクをもたらす。 誤情報に対処するため、大規模言語モデル(LLM)はクレームの信頼性を自動検証するために適応される。 それにもかかわらず、既存のメソッドは、証拠収集のためのLLMやブラックボックスAPIの組み込み知識に大きく依存しており、より小さなLLMや信頼性の低いコンテキストでのサブパーパフォーマンスを実現している。 本稿では,コントラスト引数(RAFTS)の合成による検索強化事実検証を提案する。 入力要求に応じて、RAFTSはエビデンス検索から始まり、検証可能なソースから関連する文書を収集および再ランクする検索パイプラインを設計する。 そして、RAFTSは、検索された証拠に条件付けられた対照的な議論(すなわち、支持または反証)を形成する。 さらに、RAFTSは埋め込みモデルを利用して情報的デモンストレーションを識別し、続いてコンテキスト内で予測と説明を生成する。 提案手法は, 関連文書を証拠として効果的に検索し, さまざまな視点から議論を評価し, きめ細かい意思決定のためのニュアンス情報を組み込んだ。 RAFTSは、先述した情報的インコンテキストの例と組み合わせて、複雑なプロンプトを伴わずに、教師付きおよびLLMベースラインの大幅な改善を実現している。 RAFTS は GPT 法よりはるかに小さい 7B LLM で優れた性能を発揮する。

The rapid propagation of misinformation poses substantial risks to public interest. To combat misinformation, large language models (LLMs) are adapted to automatically verify claim credibility. Nevertheless, existing methods heavily rely on the embedded knowledge within LLMs and / or black-box APIs for evidence collection, leading to subpar performance with smaller LLMs or upon unreliable context. In this paper, we propose retrieval augmented fact verification through the synthesis of contrasting arguments (RAFTS). Upon input claims, RAFTS starts with evidence retrieval, where we design a retrieval pipeline to collect and re-rank relevant documents from verifiable sources. Then, RAFTS forms contrastive arguments (i.e., supporting or refuting) conditioned on the retrieved evidence. In addition, RAFTS leverages an embedding model to identify informative demonstrations, followed by in-context prompting to generate the prediction and explanation. Our method effectively retrieves relevant documents as evidence and evaluates arguments from varying perspectives, incorporating nuanced information for fine-grained decision-making. Combined with informative in-context examples as prior, RAFTS achieves significant improvements to supervised and LLM baselines without complex prompts. We demonstrate the effectiveness of our method through extensive experiments, where RAFTS can outperform GPT-based methods with a significantly smaller 7B LLM.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# 効率的なチャネル知識マップ構築のためのI2I塗装手法

An I2I Inpainting Approach for Efficient Channel Knowledge Map Construction ( http://arxiv.org/abs/2406.09822v1 )

ライセンス: Link先を確認
Zhenzhou Jin, Li You, Jue Wang, Xiang-Gen Xia, Xiqi Gao, (参考訳) チャネルナレッジマップ(CKM)は,環境に配慮した無線通信の実現技術として注目されている。 位置固有のチャネル知識を含むデータベースを構築し、それを利用してチャネル状態情報(CSI)の取得とトランシーバ設計を容易にする。 この文脈において、基本的な課題は、所定の無線伝搬環境に基づいてCKMを効率的に構築することである。 既存の手法の多くは確率的モデリングとシーケンス予測に基づいており、伝播環境固有の物理的特性を完全に活用していないため、精度が低く、計算の複雑さが高い。 これらの制約に対処するため、ターゲット領域内の任意の場所でチャネル知識を予測するためのラプラシアンピラミッド (LP) を用いたCKM構築手法を提案する。 具体的には、まずチャネル知識を2次元画像とみなし、CKM構築問題をイメージ・ツー・イメージ(I2I)インペイントタスクに変換する。 そして,LPの可逆的・閉形式構造に着想を得て,高速I2Iマッピングネットワークの設計において,その自然的適合性を示す。 LP分解の周波数成分の相違を考慮し,それに応じて調整ネットワークを設計する。 また、伝播環境のグローバルな構造情報を符号化するために、各層に自己注意と相互共分散の注意機構を導入する。 最後に, 提案手法は, 計算量が少なく, 再現精度が向上し, 性能が向上することを示した。 さらに,提案手法は高い一般化能力を有し,異なる無線通信シナリオで実装可能である。

Channel knowledge map (CKM) has received widespread attention as an emerging enabling technology for environment-aware wireless communications. It involves the construction of databases containing location-specific channel knowledge, which are then leveraged to facilitate channel state information (CSI) acquisition and transceiver design. In this context, a fundamental challenge lies in efficiently constructing the CKM based on a given wireless propagation environment. Most existing methods are based on stochastic modeling and sequence prediction, which do not fully exploit the inherent physical characteristics of the propagation environment, resulting in low accuracy and high computational complexity. To address these limitations, we propose a Laplacian pyramid (LP)-based CKM construction scheme to predict the channel knowledge at arbitrary locations in a targeted area. Specifically, we first view the channel knowledge as a 2-D image and transform the CKM construction problem into an image-to-image (I2I) inpainting task, which predicts the channel knowledge at a specific location by recovering the corresponding pixel value in the image matrix. Then, inspired by the reversible and closed-form structure of the LP, we show its natural suitability for our task in designing a fast I2I mapping network. For different frequency components of LP decomposition, we design tailored networks accordingly. Besides, to encode the global structural information of the propagation environment, we introduce self-attention and cross-covariance attention mechanisms in different layers, respectively. Finally, experimental results show that the proposed scheme outperforms the benchmark, achieving higher reconstruction accuracy while with lower computational complexity. Moreover, the proposed approach has a strong generalization ability and can be implemented in different wireless communication scenarios.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# 設計から認知アーキテクチャへ:スケーラブルなフレームワーク

From Manifestations to Cognitive Architectures: a Scalable Framework ( http://arxiv.org/abs/2406.09823v1 )

ライセンス: Link先を確認
Alfredo Ibias, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon, (参考訳) 人工知能分野は最適化手法で溢れている。 本稿では,人工知能に近づくことを目的としたモデリング手法の開発に焦点を移す。 そこで本稿では,現実を情報源として解釈する新たな手法を提案する。 このフレームワークは、空間分散表現のみを処理する単純なプリミティブから始まるLong Term MemoryやWorking Memoryのような、古典的な認知アーキテクチャの要素を構築することができる。 さらに、シームレスでスケーラブルな階層的な方法で、このような垂直性を実現する。

The Artificial Intelligence field is flooded with optimisation methods. In this paper, we change the focus to developing modelling methods with the aim of getting us closer to Artificial General Intelligence. To do so, we propose a novel way to interpret reality as an information source, that is later translated into a computational framework able to capture and represent such information. This framework is able to build elements of classical cognitive architectures, like Long Term Memory and Working Memory, starting from a simple primitive that only processes Spatial Distributed Representations. Moreover, it achieves such level of verticality in a seamless scalable hierarchical way.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# 時間的異常: 生体再生生命維持装置テレメトリにおける異常行動の発見と分離

Unraveling Anomalies in Time: Unsupervised Discovery and Isolation of Anomalous Behavior in Bio-regenerative Life Support System Telemetry ( http://arxiv.org/abs/2406.09825v1 )

ライセンス: Link先を確認
Ferdinand Rewicki, Jakob Gawlikowski, Julia Niebling, Joachim Denzler, (参考訳) 異常または臨界状態の検出は、状態監視において不可欠である。 異常を迅速に特定するためには、多くの注意が払われるが、これらの異常の振り返り分析は、観察された望ましくない行動の根本原因の理解を著しく向上させることができる。 この側面は、監視されたシステムが重要な環境にデプロイされるときに特に重要になる。 本研究では,南極のEDEN ISS宇宙温室から得られたテレメトリーデータから得られた異常を,宇宙探査・解析するための生物再生生命支援システム(BLSS)の領域内の異常を探索する。 我々は、異常検出結果に時系列クラスタリングを適用し、一様および多変量設定の様々な種類の異常を分類する。 次に,系統的異常行動の同定におけるこれらの手法の有効性を評価する。 さらに,MDI と DAMP の異常検出手法が相補的な結果をもたらすことを示す。

The detection of abnormal or critical system states is essential in condition monitoring. While much attention is given to promptly identifying anomalies, a retrospective analysis of these anomalies can significantly enhance our comprehension of the underlying causes of observed undesired behavior. This aspect becomes particularly critical when the monitored system is deployed in a vital environment. In this study, we delve into anomalies within the domain of Bio-Regenerative Life Support Systems (BLSS) for space exploration and analyze anomalies found in telemetry data stemming from the EDEN ISS space greenhouse in Antarctica. We employ time series clustering on anomaly detection results to categorize various types of anomalies in both uni- and multivariate settings. We then assess the effectiveness of these methods in identifying systematic anomalous behavior. Additionally, we illustrate that the anomaly detection methods MDI and DAMP produce complementary results, as previously indicated by research.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# HiPアテンション:階層的アテンションプルーニングによるスパースサブクアドラティックアテンション

HiP Attention: Sparse Sub-Quadratic Attention with Hierarchical Attention Pruning ( http://arxiv.org/abs/2406.09827v1 )

ライセンス: Link先を確認
Heejun Lee, Geon Park, Youngwan Lee, Jina Kim, Wonyoung Jeong, Myeongjae Jeon, Sung Ju Hwang, (参考訳) 現代の大規模言語モデル(LLM)では、列長の増大は、マルチモーダル質問応答のような複雑なタスクに対する理解と一貫性を高める上で重要な課題である。 しかし、従来のアテンション機構の2次時間と空間の複雑さのため、LLMによる長いコンテキストシーケンスの処理は違法にコストがかかり、コンテキストウィンドウサイズはGPUメモリによって制限される。 近年の研究では、この問題に対処するための線形かつ疎結合な注意機構が提案されているが、実世界の適用性はしばしば、事前訓練されたモデルを再訓練する必要性によって制限されている。 これに対し、HiP(Hierarchically Pruned Attention)という新しいアプローチを提案し、これはトレーニングと推論時間の複雑さを$O(T^2)$から$O(T \log T)$に、空間の複雑さを$O(T^2)$から$O(T)$に同時に減少させる。 そこで本研究では,新しい木探索型アルゴリズムを用いて,所定のクエリをオンザフライで生成する動的スパースアテンション機構を考案した。 HiPはトレーニングなしで、トレーニング済みのアテンションスコアのみを使用して、クエリ毎に上位の$k$の最も重要な要素の位置を検出する。 さらに、StreamingLLMのようなスライディングウィンドウベースのサブクワッドアテンションメソッドとは異なり、トークンが見落とされないことを保証する。 多様な実世界のベンチマークに関する大規模な実験により、HiPは、ほとんどまたは全く劣化することなく高性能を維持しながら、プロンプト(例えばプリフィル)とデコード遅延とメモリ使用量を著しく削減することを示した。 HiPは、プラグインとプレイのデプロイが容易なため、余分なエンジニアリングを伴わないコモディティGPU上で、事前トレーニングされたLLMを数百万のトークンにスケールアップできるようにします。

In modern large language models (LLMs), increasing sequence lengths is a crucial challenge for enhancing their comprehension and coherence in handling complex tasks such as multi-modal question answering. However, handling long context sequences with LLMs is prohibitively costly due to the conventional attention mechanism's quadratic time and space complexity, and the context window size is limited by the GPU memory. Although recent works have proposed linear and sparse attention mechanisms to address this issue, their real-world applicability is often limited by the need to re-train pre-trained models. In response, we propose a novel approach, Hierarchically Pruned Attention (HiP), which simultaneously reduces the training and inference time complexity from $O(T^2)$ to $O(T \log T)$ and the space complexity from $O(T^2)$ to $O(T)$. To this end, we devise a dynamic sparse attention mechanism that generates an attention mask through a novel tree-search-like algorithm for a given query on the fly. HiP is training-free as it only utilizes the pre-trained attention scores to spot the positions of the top-$k$ most significant elements for each query. Moreover, it ensures that no token is overlooked, unlike the sliding window-based sub-quadratic attention methods, such as StreamingLLM. Extensive experiments on diverse real-world benchmarks demonstrate that HiP significantly reduces prompt (i.e., prefill) and decoding latency and memory usage while maintaining high generation performance with little or no degradation. As HiP allows pretrained LLMs to scale to millions of tokens on commodity GPUs with no additional engineering due to its easy plug-and-play deployment, we believe that our work will have a large practical impact, opening up the possibility to many long-context LLM applications previously infeasible.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# 画像埋め込みバランシングを用いた開語彙セマンティックセマンティックセマンティックセグメンテーション

Open-Vocabulary Semantic Segmentation with Image Embedding Balancing ( http://arxiv.org/abs/2406.09829v1 )

ライセンス: Link先を確認
Xiangheng Shan, Dongyue Wu, Guilin Zhu, Yuanjie Shao, Nong Sang, Changxin Gao, (参考訳) オープンボキャブラリセマンティックセグメンテーションは難しい課題であり、モデルがクローズセットボキャブラリを超えて画像の意味マスクを出力する必要がある。 このタスクを達成するために強力なCLIPモデルを活用するために多くの努力がなされてきたが、トレーニングと新しいクラスの間のセマンティック情報に自然にギャップがあるため、トレーニングクラスに過度に適合している。 この課題を克服するために,AdaBデコーダ(Adaptively Balanced Decoder)とSSCロス(Semantic Structure Consistency Loss)を組み合わせた,EBSegと呼ばれるオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。 AdaBデコーダは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。 その後、これらの2種類の埋め込みは適応的にバランスを取り、トレーニングクラスを認識する能力と新しいクラスの一般化能力を完全に活用する。 CLIPから一貫したセマンティック構造を学習するために、SSCロスは画像特徴空間におけるクラス間の親和性をCLIPのテキスト特徴空間と整合させ、モデルの一般化能力を向上させる。 さらに,CLIPに固有の低トレーニング画像解像度と画像レベルの監督のために,CLIPが特徴とする空間情報を補完するために,凍結SAM画像エンコーダを用いる。 様々なベンチマークで大規模な実験を行い、提案されたEBSegは最先端の手法よりも優れていることを示した。 私たちのコードとトレーニングされたモデルは以下の通りです。

Open-vocabulary semantic segmentation is a challenging task, which requires the model to output semantic masks of an image beyond a close-set vocabulary. Although many efforts have been made to utilize powerful CLIP models to accomplish this task, they are still easily overfitting to training classes due to the natural gaps in semantic information between training and new classes. To overcome this challenge, we propose a novel framework for openvocabulary semantic segmentation called EBSeg, incorporating an Adaptively Balanced Decoder (AdaB Decoder) and a Semantic Structure Consistency loss (SSC Loss). The AdaB Decoder is designed to generate different image embeddings for both training and new classes. Subsequently, these two types of embeddings are adaptively balanced to fully exploit their ability to recognize training classes and generalization ability for new classes. To learn a consistent semantic structure from CLIP, the SSC Loss aligns the inter-classes affinity in the image feature space with that in the text feature space of CLIP, thereby improving the generalization ability of our model. Furthermore, we employ a frozen SAM image encoder to complement the spatial information that CLIP features lack due to the low training image resolution and image-level supervision inherent in CLIP. Extensive experiments conducted across various benchmarks demonstrate that the proposed EBSeg outperforms the state-of-the-art methods. Our code and trained models will be here: https://github.com/slonetime/EBSeg.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# トロッター分解による量子位相推定に基づく全構成相互作用法は, サイズ整合条件を満たすか?

Does the full configuration interaction method based on quantum phase estimation with Trotter decomposition satisfy the size consistency condition? ( http://arxiv.org/abs/2406.09830v1 )

ライセンス: Link先を確認
Kenji Sugisaki, (参考訳) 原子と分子の電子構造計算は量子コンピュータにとって有望な応用であると期待され、量子位相推定(QPE)と変分量子固有解法(VQE)という2つの重要なアルゴリズムが広く研究されている。 大きな距離で分離された2つのモノマーからなる二量体のエネルギーが、大きさの整合性として知られるモノマーのエネルギーの2倍になるという条件は、量子化学計算において非常に重要である。 近年,分子軌道が二量体に非局在化された場合,一元結合クラスタシングルとダブル(UCCSD)アンザッツのトロタライズにより,サイズ整合条件が破れることが報告されている(K)。 Sugisaki {\it et al }, {\it J. Comput. Chem オンライン公開: \href{https://doi.org/10.1002/jcc.27438}{DOI: 10.1002/jcc.27438})。 完全な構成相互作用 (full-CI) エネルギーが分子軌道の任意の回転と不変であることはよく知られている。 しかし、時間発展作用素のトロッター化は、大きさの整合性条件を破るチャンスがある。 本研究では,QPEに基づく完全CI計算における時間発展演算子のトロッタ化により,サイズ整合性条件が維持可能であるか否かを検討した。 数値シミュレーションにより, 分子軌道を二量体に非局在化することにより, QPE系フルCIのサイズ整合性は自動的には破壊されないが, 適切なトロッター分解条件を用いることは, サイズ整合性を満たすために重要であることがわかった。 また, 逐次量子ビット付加によるQPEシミュレーションの高速化について報告する。

Electronic structure calculations of atoms and molecules are expected to be a promising application for quantum computers, and two important algorithms, the quantum phase estimation (QPE) and the variational quantum eigensolver (VQE), have been widely studied. The condition that the energy of the dimer consisting of two monomers separated by a large distance should be twice of the energy of the monomer, known as a size consistency, is very important in quantum chemical calculations. Recently, we reported that the size consistency condition can be broken by the Trotterization in the unitary coupled cluster singles and doubles (UCCSD) ansatz in VQE, when the molecular orbitals delocalized to the dimer are used (K. Sugisaki {\it et al.}, {\it J. Comput. Chem.}, published online; \href{https://doi.org/10.1002/jcc.27438}{DOI: 10.1002/jcc.27438}). It is well known that the full configuration interaction (full-CI) energy is invariant with arbitrary rotations of molecular orbitals, and therefore the QPE-based full-CI in principle satisfies the size consistency. However, Trotterization of the time evolution operator has a chance to break the size consistency conditions. In this work, we investigated whether or not the size consistency condition can be maintained by the Trotterization of the time evolution operator in the QPE-based full-CI calculations. Our numerical simulations revealed that the size consistency of the QPE-based full-CI is not automatically violated by using the molecular orbitals delocalized to the dimer, but the use of an appropriate Trotter decomposition condition is crucial to satisfy the size consistency condition. Acceleration of the QPE simulations with sequential addition of ancillary qubits is also reported.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# Swarm Intelligenceのためのフェデレートラーニング駆動型大規模言語モデル:サーベイ

Federated Learning driven Large Language Models for Swarm Intelligence: A Survey ( http://arxiv.org/abs/2406.09831v1 )

ライセンス: Link先を確認
Youyang Qu, (参考訳) フェデレートラーニング(FL)は、データプライバシと分散化の課題に対処しながら、大規模言語モデル(LLM)をトレーニングするための魅力的なフレームワークを提供する。 本稿では、大規模言語モデルの連合学習の最近の進歩について、特に機械学習に焦点をあて、忘れられる権利のようなプライバシー規則に従う上で重要な側面について調査する。 連合LLMの文脈における機械学習は、学習モデルから学習した個々のデータコントリビューションを、スクラッチから再トレーニングすることなく、体系的かつ安全に除去する。 我々は、摂動技術、モデル分解、漸進学習など、効果的なアンラーニングを可能にする様々な戦略を探求し、モデルパフォーマンスとデータのプライバシを維持することの意義を強調した。 さらに, 実環境シナリオにおけるこれらの手法の有効性と有効性を評価するために, 最近の文献による事例研究と実験結果について検討する。 我々の調査は、より堅牢でスケーラブルなフェデレーション付きアンラーニング手法の開発への関心が高まっていることを明らかにし、AI倫理と分散機械学習技術の交差点における将来の研究にとって重要な領域であることを示唆している。

Federated learning (FL) offers a compelling framework for training large language models (LLMs) while addressing data privacy and decentralization challenges. This paper surveys recent advancements in the federated learning of large language models, with a particular focus on machine unlearning, a crucial aspect for complying with privacy regulations like the Right to be Forgotten. Machine unlearning in the context of federated LLMs involves systematically and securely removing individual data contributions from the learned model without retraining from scratch. We explore various strategies that enable effective unlearning, such as perturbation techniques, model decomposition, and incremental learning, highlighting their implications for maintaining model performance and data privacy. Furthermore, we examine case studies and experimental results from recent literature to assess the effectiveness and efficiency of these approaches in real-world scenarios. Our survey reveals a growing interest in developing more robust and scalable federated unlearning methods, suggesting a vital area for future research in the intersection of AI ethics and distributed machine learning technologies.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# SHMamba:オーディオ・ビジュアル質問応答のための構造的双曲的状態空間モデル

SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering ( http://arxiv.org/abs/2406.09833v1 )

ライセンス: Link先を確認
Zhe Yang, Wenrui Li, Guanghui Cheng, (参考訳) AVQA(Audio-Visual Question Answering)タスクは、アプリケーションにとって大きな可能性を秘めている。 従来のユニモーダルアプローチと比較して、AVQAのマルチモーダル入力は特徴抽出と融合プロセスをより困難にする。 ユークリッド空間は、データの多次元関係を効果的に表現することは困難である。 特に木構造や階層構造でデータを抽出・処理する場合、ユークリッド空間は埋め込み空間には適さない。 さらに、トランスフォーマーの自己保持機構は、シーケンス内の要素間の動的関係を捉えるのに有効である。 しかし、ウィンドウモデリングと2次計算複雑性における自己注意機構の限界は、長いシーケンスをモデル化する際の効率を低下させる。 これらの制約に対処するため、我々はSHMamba: Structured Hyperbolic State Space Modelを提案し、双曲幾何学と状態空間モデルの利点を統合する。 具体的には、SHMambaは双曲空間の内在的性質を利用して、階層構造と音声・視覚データにおける複雑な関係を表現する。 一方、状態空間モデルは、全シーケンスをグローバルにモデル化することで、時間とともに動的な変化を捉えます。 さらに,適応的な曲率双曲アライメントモジュールとクロスフュージョンブロックを導入し,階層構造の理解とクロスモーダル情報の動的交換を強化する。 SHMambaはより少ないパラメータと計算コストで従来の手法より優れていることを示した。 学習可能なパラメータは78.12\%削減され、平均性能は2.53\%向上した。 実験の結果,本手法は現在のすべての主要な手法よりも優れており,実用的なアプリケーションシナリオに適していることがわかった。

The Audio-Visual Question Answering (AVQA) task holds significant potential for applications. Compared to traditional unimodal approaches, the multi-modal input of AVQA makes feature extraction and fusion processes more challenging. Euclidean space is difficult to effectively represent multi-dimensional relationships of data. Especially when extracting and processing data with a tree structure or hierarchical structure, Euclidean space is not suitable as an embedding space. Additionally, the self-attention mechanism in Transformers is effective in capturing the dynamic relationships between elements in a sequence. However, the self-attention mechanism's limitations in window modeling and quadratic computational complexity reduce its effectiveness in modeling long sequences. To address these limitations, we propose SHMamba: Structured Hyperbolic State Space Model to integrate the advantages of hyperbolic geometry and state space models. Specifically, SHMamba leverages the intrinsic properties of hyperbolic space to represent hierarchical structures and complex relationships in audio-visual data. Meanwhile, the state space model captures dynamic changes over time by globally modeling the entire sequence. Furthermore, we introduce an adaptive curvature hyperbolic alignment module and a cross fusion block to enhance the understanding of hierarchical structures and the dynamic exchange of cross-modal information, respectively. Extensive experiments demonstrate that SHMamba outperforms previous methods with fewer parameters and computational costs. Our learnable parameters are reduced by 78.12\%, while the average performance improves by 2.53\%. Experiments show that our method demonstrates superiority among all current major methods and is more suitable for practical application scenarios.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# LLMがコード補完に非推奨のAPIを使用する理由と理由 : 実証的研究

How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study ( http://arxiv.org/abs/2406.09834v1 )

ライセンス: Link先を確認
Chong Wang, Kaifeng Huang, Jian Zhang, Yebo Feng, Lyuye Zhang, Yang Liu, Xin Peng, (参考訳) 大きな言語モデル(LLM)は、大規模なコードコーパスで事前訓練されたり、微調整されたりすることで、コード補完の生成に有効であることが示されている。 しかし、LLMベースのコード補完では、ライブラリの迅速かつ継続的な進化のために、LLMは正しい最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。 既存の研究では、不正なAPIの予測に関する問題が強調されているが、LLMベースのコード補完における非推奨のAPI使用の具体的な問題は、十分に調査されていない。 このギャップに対処するため、LLMベースのコード補完において、非推奨のAPI使用率に関する最初の評価研究を行った。 この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。 LLMベースのコード補完では,<textit{status quo} と \textit{root cause} が, \textit{model} と \textit{prompt} と \textit{library} の両面から検討されている。 これらの知見に基づいて,LLMをベースとしたAPI使用の軽減のための基盤となる,軽量な2つのアプローチ, \textsc{ReplaceAPI} と \textsc{InsertPrompt} を提案する。 さらに,ライブラリの進化とLCM駆動ソフトウェア開発の統合に関する今後の研究の意義について述べる。

Large language models (LLMs), pre-trained or fine-tuned on large code corpora, have shown effectiveness in generating code completions. However, in LLM-based code completion, LLMs may struggle to use correct and up-to-date Application Programming Interfaces (APIs) due to the rapid and continuous evolution of libraries. While existing studies have highlighted issues with predicting incorrect APIs, the specific problem of deprecated API usage in LLM-based code completion has not been thoroughly investigated. To address this gap, we conducted the first evaluation study on deprecated API usage in LLM-based code completion. This study involved seven advanced LLMs, 145 API mappings from eight popular Python libraries, and 28,125 completion prompts. The study results reveal the \textit{status quo} and \textit{root causes} of deprecated API usage in LLM-based code completion from the perspectives of \textit{model}, \textit{prompt}, and \textit{library}. Based on these findings, we propose two lightweight fixing approaches, \textsc{ReplaceAPI} and \textsc{InsertPrompt}, which can serve as baseline approaches for future research on mitigating deprecated API usage in LLM-based completion. Additionally, we provide implications for future research on integrating library evolution with LLM-driven software development.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# プライオリティを組み合わせて新しい課題を解決する方法

I Know How: Combining Prior Policies to Solve New Tasks ( http://arxiv.org/abs/2406.09835v1 )

ライセンス: Link先を確認
Malio Li, Elia Piccoli, Vincenzo Lomonaco, Davide Bacciu, (参考訳) マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。 しかし、このゴールは破滅的な忘れ込み現象と計算資源の高需要のため達成が難しい。 新しいタスクのスクラッチから学ぶことは、実行可能なあるいは持続可能な選択肢ではないため、エージェントは新しい問題に直面しながら、事前の知識を収集し、活用することができるべきである。 いくつかの方法論は異なる観点からこの問題に対処しようと試みてきたが、それらは共通の構造を欠いている。 本稿では,IKH(I Know How)というフレームワークを提案する。 本手法は,エージェントの学習能力と動的環境への適応性を高めるために,知識のモジュール性と構成性に重点を置いている。 フレームワークの定義をサポートするため、シミュレーション駆動環境においてその簡単な応用を提示し、その性能を最先端のアプローチと比較する。

Multi-Task Reinforcement Learning aims at developing agents that are able to continually evolve and adapt to new scenarios. However, this goal is challenging to achieve due to the phenomenon of catastrophic forgetting and the high demand of computational resources. Learning from scratch for each new task is not a viable or sustainable option, and thus agents should be able to collect and exploit prior knowledge while facing new problems. While several methodologies have attempted to address the problem from different perspectives, they lack a common structure. In this work, we propose a new framework, I Know How (IKH), which provides a common formalization. Our methodology focuses on modularity and compositionality of knowledge in order to achieve and enhance agent's ability to learn and adapt efficiently to dynamic environments. To support our framework definition, we present a simple application of it in a simulated driving environment and compare its performance with that of state-of-the-art approaches.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# グラフニューラルネットワークにおけるバックドア攻撃に対するロバスト性にインスパイアされた防御

Robustness-Inspired Defense Against Backdoor Attacks on Graph Neural Networks ( http://arxiv.org/abs/2406.09836v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Minhua Lin, Junjie Xu, Zongyu Wu, Enyan Dai, Suhang Wang, (参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類といったタスクにおいて,有望な結果を達成している。 しかし、最近の研究では、GNNはバックドア攻撃に弱いことが判明し、実際の採用に重大な脅威をもたらしている。 特定のグラフバックドア攻撃に対する防御の最初の取り組みにもかかわらず、生成されたトリガが異なる特性を持つさまざまな種類のバックドア攻撃に対する防御作業は行われていない。 したがって, エッジダウン下での予測分散が有毒ノードの同定に重要な指標であることを実証的に検証した。 そこで本研究では,裏口検出にランダムエッジドロップを用いることにより,汚染ノードとクリーンノードを効果的に識別できることを理論的に示す。 さらに,トリガの影響を効果的に防止するための,新しい堅牢なトレーニング戦略を導入する。 実世界のデータセットに対する大規模な実験により、我々のフレームワークは、有毒なノードを効果的に識別し、攻撃成功率を著しく低下させ、異なる特性を持つ様々な種類のグラフバックドア攻撃に対する防御において、クリーンな精度を維持することができることが示された。

Graph Neural Networks (GNNs) have achieved promising results in tasks such as node classification and graph classification. However, recent studies reveal that GNNs are vulnerable to backdoor attacks, posing a significant threat to their real-world adoption. Despite initial efforts to defend against specific graph backdoor attacks, there is no work on defending against various types of backdoor attacks where generated triggers have different properties. Hence, we first empirically verify that prediction variance under edge dropping is a crucial indicator for identifying poisoned nodes. With this observation, we propose using random edge dropping to detect backdoors and theoretically show that it can efficiently distinguish poisoned nodes from clean ones. Furthermore, we introduce a novel robust training strategy to efficiently counteract the impact of the triggers. Extensive experiments on real-world datasets show that our framework can effectively identify poisoned nodes, significantly degrade the attack success rate, and maintain clean accuracy when defending against various types of graph backdoor attacks with different properties.
翻訳日:2024-06-17 14:34:29 公開日:2024-06-14
# TabularFM: Tabular Foundational Modelsのためのオープンフレームワーク

TabularFM: An Open Framework For Tabular Foundational Models ( http://arxiv.org/abs/2406.09837v1 )

ライセンス: Link先を確認
Quan M. Tran, Suong N. Hoang, Lam M. Nguyen, Dzung Phan, Hoang Thanh Lam, (参考訳) ファンデーショナルモデル(FM)は、自己教師付き技術を用いて広範囲のデータセットで事前訓練され、大量のデータから一般化されたパターンを学習することができる。 これにより、新しいタスクごとにラベル付きデータセットを追加する必要がなくなり、事前トレーニング中に確立された幅広い知識ベースを活用することで、時間とリソースを節約できる。 FMに関するほとんどの研究は、主にテキストや画像のような非構造化データや、時系列のような半構造化データに焦点を当てている。 しかし、その頻度にもかかわらず、クリーンデータセットの欠如や、様々な表型データタスクにおけるFMの転送可能性に関する研究が不十分なため、表型データのような構造化データに対する関心は低い。 このギャップに対応するために,我々はTarbularFM (\url{https://tabularfm.github.io/}) というフレームワークを紹介した。 これには、GAN、VAE、Transformerなどのニューラルアーキテクチャのバリエーションが含まれる。 我々は、100万の表付きデータセットをキュレートし、表付きFMの開発を容易にするために、クリーン化されたバージョンをリリースした。 我々は、このキュレートされたデータ上でFMを事前訓練し、これらのデータセット上で様々な学習方法をベンチマークし、将来の比較研究のためのリーダーボードとともに事前訓練されたモデルをリリースした。 我々の完全オープンソースシステムは、表状FMの転送可能性に関する包括的分析を提供する。 これらのデータセット、事前訓練されたモデル、およびリーダーボードをリリースすることにより、近い将来、表型FMの有効性とユーザビリティを高めることを目指している。

Foundational models (FMs), pretrained on extensive datasets using self-supervised techniques, are capable of learning generalized patterns from large amounts of data. This reduces the need for extensive labeled datasets for each new task, saving both time and resources by leveraging the broad knowledge base established during pretraining. Most research on FMs has primarily focused on unstructured data, such as text and images, or semi-structured data, like time-series. However, there has been limited attention to structured data, such as tabular data, which, despite its prevalence, remains under-studied due to a lack of clean datasets and insufficient research on the transferability of FMs for various tabular data tasks. In response to this gap, we introduce a framework called TabularFM (\url{https://tabularfm.github.io/}), which incorporates state-of-the-art methods for developing FMs specifically for tabular data. This includes variations of neural architectures such as GANs, VAEs, and Transformers. We have curated a million of tabular datasets and released cleaned versions to facilitate the development of tabular FMs. We pretrained FMs on this curated data, benchmarked various learning methods on these datasets, and released the pretrained models along with leaderboards for future comparative studies. Our fully open-sourced system provides a comprehensive analysis of the transferability of tabular FMs. By releasing these datasets, pretrained models, and leaderboards, we aim to enhance the validity and usability of tabular FMs in the near future.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 気象学に対応した視覚言語モデル:熱マップを用いた極端気象事象検出モデルの開発

Vision-Language Models Meet Meteorology: Developing Models for Extreme Weather Events Detection with Heatmaps ( http://arxiv.org/abs/2406.09838v1 )

ライセンス: Link先を確認
Jian Chen, Peilin Zhou, Yining Hua, Dading Chong, Meng Cao, Yaowei Li, Zixuan Yuan, Bing Zhu, Junwei Liang, (参考訳) 極端な気象のリアルタイム検出と予測は、人間の生命とインフラを保護する。 従来の手法は、地理情報システム(GIS)による気象熱マップの数値しきい値の設定と手動による解釈に依存しており、これは遅く、エラーを起こしやすい。 本研究は,視覚質問応答(VQA)問題として,極端気象事象検出(EWED)を再定義し,より正確かつ自動化されたソリューションを提案する。 視覚・言語モデル(VLM)を利用して視覚・テキストデータを同時に処理し,気象熱マップの分析プロセスを強化する。 EWEDにおける汎用VLM (eg , GPT-4-Vision) の初期評価では, 色分化の欠如と気象知識の不足により, 高精度で頻繁な幻覚が特徴であった。 これらの課題に対処するため、第1次気象VQAデータセットであるClimateIQAを導入し、8,760の風洞熱マップと、最新の気候分析データから生成された4つの質問タイプを含む254,040の質問応答ペアを含む。 また,Sparse Position and Outline Tracking (SPOT) も提案する。これはOpenCVとK-Meansクラスタリングを利用して,ヒートマップ内の色輪郭をキャプチャし,描写し,より正確な色空間位置情報を提供する革新的な技術である。 最後に、ClimateIQAデータセットを用いて、VLMを気象応用に適用する最初の気象VLMコレクションであるClimate-Zooを紹介する。 実験の結果,Climate-Zooのモデルは最先端の一般VLMよりも優れており,EWED検証の精度は0%から90%以上向上していることがわかった。 この研究のデータセットとモデルは、将来の気候科学研究のために公開されている。

Real-time detection and prediction of extreme weather protect human lives and infrastructure. Traditional methods rely on numerical threshold setting and manual interpretation of weather heatmaps with Geographic Information Systems (GIS), which can be slow and error-prone. Our research redefines Extreme Weather Events Detection (EWED) by framing it as a Visual Question Answering (VQA) problem, thereby introducing a more precise and automated solution. Leveraging Vision-Language Models (VLM) to simultaneously process visual and textual data, we offer an effective aid to enhance the analysis process of weather heatmaps. Our initial assessment of general-purpose VLMs (e.g., GPT-4-Vision) on EWED revealed poor performance, characterized by low accuracy and frequent hallucinations due to inadequate color differentiation and insufficient meteorological knowledge. To address these challenges, we introduce ClimateIQA, the first meteorological VQA dataset, which includes 8,760 wind gust heatmaps and 254,040 question-answer pairs covering four question types, both generated from the latest climate reanalysis data. We also propose Sparse Position and Outline Tracking (SPOT), an innovative technique that leverages OpenCV and K-Means clustering to capture and depict color contours in heatmaps, providing ClimateIQA with more accurate color spatial location information. Finally, we present Climate-Zoo, the first meteorological VLM collection, which adapts VLMs to meteorological applications using the ClimateIQA dataset. Experiment results demonstrate that models from Climate-Zoo substantially outperform state-of-the-art general VLMs, achieving an accuracy increase from 0% to over 90% in EWED verification. The datasets and models in this study are publicly available for future climate science research: https://github.com/AlexJJJChen/Climate-Zoo.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# Rapport-Driven Virtual Agent: 最初のミーティングでユーザエクスペリエンスを改善するためのRapport Building Dialogue Strategy

Rapport-Driven Virtual Agent: Rapport Building Dialogue Strategy for Improving User Experience at First Meeting ( http://arxiv.org/abs/2406.09839v1 )

ライセンス: Link先を確認
Muhammad Yeza Baihaqi, Angel García Contreras, Seiya Kawano, Koichiro Yoshino, (参考訳) Rapportは、コラボレーティブなタスクの結果に影響を与える関係構築に焦点を当てた会話的な側面として知られています。 本研究の目的は、ラプポート構築戦略を用いて、小さな講演を通して人間とエージェントのラプポートを確立することである。 我々は,対話戦略に基づく仮想エージェントのためのこの戦略を,大規模言語モデル(LLM)の推進により実現した。 特に,2つの対話戦略を事前に定義したシーケンスと,対話生成フレームワークのガイドに利用した。 本研究では,人的評価に基づく分析を行い,トータルターン,発話キャラクタ,ラプポートスコア,ユーザエクスペリエンス変数(自然性,満足度,関心度,エンゲージメント,ユーザビリティ)の相関性を検討した。 本研究では,ラプポートスコアと自然性,満足度,エンゲージメント,会話フローの相関について検討した。 また, 実験結果から, フリーフォームを用いたラプポート構築戦略が主観的スコアで最高の成績を示した。

Rapport is known as a conversational aspect focusing on relationship building, which influences outcomes in collaborative tasks. This study aims to establish human-agent rapport through small talk by using a rapport-building strategy. We implemented this strategy for the virtual agents based on dialogue strategies by prompting a large language model (LLM). In particular, we utilized two dialogue strategies-predefined sequence and free-form-to guide the dialogue generation framework. We conducted analyses based on human evaluations, examining correlations between total turn, utterance characters, rapport score, and user experience variables: naturalness, satisfaction, interest, engagement, and usability. We investigated correlations between rapport score and naturalness, satisfaction, engagement, and conversation flow. Our experimental results also indicated that using free-form to prompt the rapport-building strategy performed the best in subjective scores.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 構造的・非構造的知識を用いた多視点分子表現の学習

Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge ( http://arxiv.org/abs/2406.09841v1 )

ライセンス: Link先を確認
Yizhen Luo, Kai Yang, Massimo Hong, Xing Yi Liu, Zikun Nie, Hao Zhou, Zaiqing Nie, (参考訳) 表現学習アプローチによる分子知識の獲得は、化学や生命科学のような広大な科学分野において大きな可能性を秘めている。 効果的で一般化可能な分子表現は、多様な視点と視点から、コンセンサスと相補的な分子の専門知識を捉えることが期待されている。 しかし、ビュー情報を明示的に組み込んだり、異種源からの分子知識を扱うことの難しさから、既存の研究は多視点分子表現の学習に不足している。 これらの課題に対処するために,化学構造から多視点分子知識を抽出する分子表現学習モデルMV-Mol,生医学テキストからの非構造化知識,知識グラフからの構造化知識を提案する。 テキストプロンプトを用いてビュー情報をモデル化し、融合アーキテクチャを設計し、ビューに基づく分子表現を抽出する。 本研究では,異なる品質と量の異種データを利用した2段階事前学習手法を開発した。 広範な実験により,MV-Molは分子特性予測に有効となる改良された表現を提供することを示した。 さらに、MV-Molは、分子構造やテキストのマルチモーダル理解において最先端のパフォーマンスを示す。 コードとデータはhttps://github.com/PharMolix/OpenBioMed.comで公開されている。

Capturing molecular knowledge with representation learning approaches holds significant potential in vast scientific fields such as chemistry and life science. An effective and generalizable molecular representation is expected to capture the consensus and complementary molecular expertise from diverse views and perspectives. However, existing works fall short in learning multi-view molecular representations, due to challenges in explicitly incorporating view information and handling molecular knowledge from heterogeneous sources. To address these issues, we present MV-Mol, a molecular representation learning model that harvests multi-view molecular expertise from chemical structures, unstructured knowledge from biomedical texts, and structured knowledge from knowledge graphs. We utilize text prompts to model view information and design a fusion architecture to extract view-based molecular representations. We develop a two-stage pre-training procedure, exploiting heterogeneous data of varying quality and quantity. Through extensive experiments, we show that MV-Mol provides improved representations that substantially benefit molecular property prediction. Additionally, MV-Mol exhibits state-of-the-art performance in multi-modal comprehension of molecular structures and texts. Code and data are available at https://github.com/PharMolix/OpenBioMed.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 変異検査における大規模言語モデルの適用に関する探索的研究

An Exploratory Study on Using Large Language Models for Mutation Testing ( http://arxiv.org/abs/2406.09843v1 )

ライセンス: Link先を確認
Bo Wang, Mingda Chen, Youfang Lin, Mike Papadakis, Jie M. Zhang, (参考訳) 高能率突然変異をどうやって生成するかという問題は、突然変異検査の文献において重要な課題となっている。 既存のアプローチは、人間特有の構文規則か学習に基づくアプローチに依存しており、これらすべてが多数の冗長な突然変異を生み出す。 LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。 そこで本研究では,LLMのユーザビリティ,障害検出可能性,実際のバグとの関係について,有効な突然変異を生成するための性能を体系的に検討する。 特に、オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。 既存のアプローチと比較して、LCMは実際のバグに近い振る舞いの多様性のある突然変異を生成するため、潜在的なデータ漏洩の懸念を緩和する学習ベースのアプローチを評価するために、新しく収集された一連のバグにおいて、現在のアプローチ(すなわち87%対69%)よりも約18%高い障害検出をもたらす。 さらに,LLMが生成する非コンパイル変異の根本原因と代替的なプロンプトエンジニアリング戦略について検討し,変異検査の文脈におけるLLMの使用に関する貴重な知見を提供する。

The question of how to generate high-utility mutations, to be used for testing purposes, forms a key challenge in mutation testing literature. %Existing approaches rely either on human-specified syntactic rules or learning-based approaches, all of which produce large numbers of redundant mutants. Large Language Models (LLMs) have shown great potential in code-related tasks but their utility in mutation testing remains unexplored. To this end, we systematically investigate the performance of LLMs in generating effective mutations w.r.t. to their usability, fault detection potential, and relationship with real bugs. In particular, we perform a large-scale empirical study involving 4 LLMs, including both open- and closed-source models, and 440 real bugs on two Java benchmarks. We find that compared to existing approaches, LLMs generate more diverse mutations that are behaviorally closer to real bugs, which leads to approximately 18% higher fault detection than current approaches (i.e., 87% vs. 69%) in a newly collected set of bugs, purposely selected for evaluating learning-based approaches, i.e., mitigating potential data leakage concerns. Additionally, we explore alternative prompt engineering strategies and the root causes of uncompilable mutations, produced by the LLMs, and provide valuable insights for the use of LLMs in the context of mutation testing.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 1次元リングにおける超高速一重項核分裂の単位効率への最適化

Optimisation of ultrafast singlet fission in 1D rings towards unit efficiency ( http://arxiv.org/abs/2406.09847v1 )

ライセンス: Link先を確認
Francesco Campaioli, Alice Pagano, Daniel Jaschke, Simone Montangero, (参考訳) シングルト核分裂(英: Singlet fission, SF)は、光電気学からスピントロニクスへの光電子工学への応用において、過去10年間注目されていた電子遷移である。 かなりの実験的、理論的進歩にもかかわらず、その解析が摂動法を超えて複雑になるため、拡張固体におけるSFの最適化は依然として困難である。 ここでは,一重項核分裂の促進と逆反応の防止を目的とした1次元リングの事例に取り組む。 スピンボソンモデルを用いて超高速SFを非摂動的に解析し, 正確な伝播法とテンソルネットワーク法を用いて解析する。 有機分子材料に関連するパラメータ空間を最適化することにより、非散逸性(コヒーレント)状態においてSF効率を85%以上とできる2種類の解と、エクシトン-フォノン相互作用を調整できる99%の解を同定する。 最適化された解の実験的実現可能性について議論した後、我々はこの方法がより広いクラスの光電子最適化問題に拡張可能であることを提案して結論付けた。

Singlet fission (SF) is an electronic transition that in the last decade has been under the spotlight for its applications in optoelectronics, from photovoltaics to spintronics. Despite considerable experimental and theoretical advancements, optimising SF in extended solids remains a challenge, due to the complexity of its analysis beyond perturbative methods. Here, we tackle the case of 1D rings, aiming to promote singlet fission and prevent its back-reaction. We study ultrafast SF non-perturbatively, by numerically solving a spin-boson model, via exact propagation and tensor network methods. By optimising over a parameter space relevant to organic molecular materials, we identify two classes of solutions that can take SF efficiency beyond 85% in the non-dissipative (coherent) regime, and to 99% when exciton-phonon interactions can be tuned. After discussing the experimental feasibility of the optimised solutions, we conclude by proposing that this approach can be extended to a wider class of optoelectronic optimisation problems.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# GradeADreamer: Gassian SplattingとMulti-View Diffusionを用いたテキスト・ツー・3D生成

GradeADreamer: Enhanced Text-to-3D Generation Using Gaussian Splatting and Multi-View Diffusion ( http://arxiv.org/abs/2406.09850v1 )

ライセンス: Link先を確認
Trapoom Ukarapol, Kevin Pruvost, (参考訳) テキスト・ツー・3D生成は有望な結果を示しているが、マルチフェイス・ジャナス問題や高品質資産の延長といった共通の課題がある。 本稿では,新しい3段階学習パイプラインである GradeADreamer を導入することで,これらの課題に対処する。 このパイプラインは、RTX 3090 GPUのみを使用して、総生成時間30分未満の高品質なアセットを生成することができる。 提案手法では,複数ビュー拡散モデルであるMVDreamを用いてガウススプラッツを先行して生成し,次いでスタブルディフュージョンを用いて幾何やテクスチャを精製する。 実験の結果,提案手法はマルチフェイス・ジャナス問題を大幅に軽減し,従来の最先端手法と比較して平均ユーザ嗜好ランキングを最大に達成していることがわかった。 プロジェクトコードはhttps://github.com/trapoom555/GradeADreamer.comで公開されている。

Text-to-3D generation has shown promising results, yet common challenges such as the Multi-face Janus problem and extended generation time for high-quality assets. In this paper, we address these issues by introducing a novel three-stage training pipeline called GradeADreamer. This pipeline is capable of producing high-quality assets with a total generation time of under 30 minutes using only a single RTX 3090 GPU. Our proposed method employs a Multi-view Diffusion Model, MVDream, to generate Gaussian Splats as a prior, followed by refining geometry and texture using StableDiffusion. Experimental results demonstrate that our approach significantly mitigates the Multi-face Janus problem and achieves the highest average user preference ranking compared to previous state-of-the-art methods. The project code is available at https://github.com/trapoom555/GradeADreamer.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 3-Receiverの量子放送チャンネル:量子非特異復号による古典的通信

Three-Receiver Quantum Broadcast Channels: Classical Communication with Quantum Non-unique Decoding ( http://arxiv.org/abs/2406.09854v1 )

ライセンス: Link先を確認
Farzin Salek, Patrick Hayden, Masahito Hayashi, (参考訳) ネットワーク通信では、物理条件やプレミアムサブスクリプションなどによってデコードされた情報に基づいて受信機間に階層が存在するという放送シナリオが一般的である。 この階層は、特定の受信機のための高品質なビデオなど、様々な情報品質をもたらす可能性がある。 これは数学的には劣化したメッセージセットとしてモデル化され、異なる受信者によってデコードされるメッセージ間の階層を示す。 我々は、これらの考察を量子通信に拡張し、2段と3段の劣化したメッセージセットを持つ3層量子放送チャンネルを探索する。 我々の技術ツールは、同時ピンチ法を利用して開発する量子非一様復号法(quantum non-unique decoding)を用いる。 様々なシナリオに対してワンショット符号を構築し、様々な量子R'enyi相互情報誤差指数に依存する達成可能なレート領域を求める。 我々の調査には、テンソル製品空間をまたがるピンチに関する包括的な研究が含まれており、我々の発見は、我々のワンショットコードに対する漸近的なものであることを示している。 非ユニクな復号法を用いることで、より複雑な技術を必要としない2受信の量子放送チャネルに対するマートンの内部境界のより単純な証明も確立する。 さらに,NGOの結果を導出し,その厳密さを特殊ケースで示す。

In network communication, it is common in broadcasting scenarios for there to exist a hierarchy among receivers based on information they decode due, for example, to different physical conditions or premium subscriptions. This hierarchy may result in varied information quality, such as higher-quality video for certain receivers. This is modeled mathematically as a degraded message set, indicating a hierarchy between messages to be decoded by different receivers, where the default quality corresponds to a common message intended for all receivers, a higher quality is represented by a message for a smaller subset of receivers, and so forth. We extend these considerations to quantum communication, exploring three-receiver quantum broadcast channels with two- and three-degraded message sets. Our technical tool involves employing quantum non-unique decoding, a technique we develop by utilizing the simultaneous pinching method. We construct one-shot codes for various scenarios and find achievable rate regions relying on various quantum R\'enyi mutual information error exponents. Our investigation includes a comprehensive study of pinching across tensor product spaces, presenting our findings as the asymptotic counterpart to our one-shot codes. By employing the non-unique decoding, we also establish a simpler proof to Marton's inner bound for two-receiver quantum broadcast channels without the need for more involved techniques. Additionally, we derive no-go results and demonstrate their tightness in special cases.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# トランスフォーマーに基づくASR表現におけるジェンダーの符号化について

On the Encoding of Gender in Transformer-based ASR Representations ( http://arxiv.org/abs/2406.09855v1 )

ライセンス: Link先を確認
Aravind Krishnan, Badr M. Abdullah, Dietrich Klakow, (参考訳) 既存の文献は、ASRモデルの性別バイアスを明らかにするためにパフォーマンスの違いに依存しているが、より深い分析は、転写生成中に性別がどのようにエンコードされ、どのように利用されるかを理解するのに不可欠である。 本研究では、2つのトランスフォーマーベースのASRモデルであるWav2Vec2とHuBERTの潜在表現における性別の符号化と利用について検討する。 線形消去を用いて、ASRモデルの各層から性別情報を除去する可能性を示し、そのような介入がASRの性能に最小限の影響を及ぼすことを示す。 さらに, 最終層における第1, 最終層内の性別情報の濃度を解析し, 性別情報の消去の容易さを考察した。 以上の結果から,ASRフレームワークに組み込んだジェンダーニュートラルな埋め込みを,有効性を損なうことなく実現する可能性が示唆された。

While existing literature relies on performance differences to uncover gender biases in ASR models, a deeper analysis is essential to understand how gender is encoded and utilized during transcript generation. This work investigates the encoding and utilization of gender in the latent representations of two transformer-based ASR models, Wav2Vec2 and HuBERT. Using linear erasure, we demonstrate the feasibility of removing gender information from each layer of an ASR model and show that such an intervention has minimal impacts on the ASR performance. Additionally, our analysis reveals a concentration of gender information within the first and last frames in the final layers, explaining the ease of erasing gender in these layers. Our findings suggest the prospect of creating gender-neutral embeddings that can be integrated into ASR frameworks without compromising their efficacy.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 画像品質評価のためのコンテンツ・歪み・外観の視覚言語モデリング

Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment ( http://arxiv.org/abs/2406.09858v1 )

ライセンス: Link先を確認
Fei Zhou, Zhicong Huang, Tianhao Gu, Guoping Qiu, (参考訳) 画像の視覚的品質は、その意味的内容、歪み特性、明るさ、コントラスト、鮮明さ、色鮮度などの外観特性を含む多くの中間要素によって構成される。 画像品質評価(IQA)の開発には,これらすべての品質評価属性について高いレベルの知識を希釈することが不可欠である。 既存のソリューションはこれらの側面のいくつかをモデル化しているが、これらの重要な品質関連属性をすべて含む包括的なソリューションはまだ開発されていない。 本稿では、画像意味内容、歪み特性およびIQAの外観特性に関する高レベルな知識を得るための、視覚言語および視覚コントラスト表現学習フレームワークを特徴とする、自己監督・視覚言語監視画像QUality Evaluator(SLIQUE)と呼ばれる新しい盲目IQA(BIQA)モデルを提案する。 SLIQUEをトレーニングするために、我々は、品質関連テキストの3つのカテゴリにアノテートした、最初の大きな画像データベースを構築するための体系的なアプローチを開発した。 Text Annotated Distortion, Outearance and Content (TADAC)データベースは、160万以上の画像に意味的内容、歪み特性、外観特性のテキスト記述を付加している。 TADACとデータベース自体を構築する方法は、高度なIQAアプリケーションのための視覚言語モデリングを利用するのに特に有用である。 SLIQUEは最先端技術よりも優れた性能を示し,設計原理の健全性と実装の有効性を示した。

The visual quality of an image is confounded by a number of intertwined factors including its semantic content, distortion characteristics and appearance properties such as brightness, contrast, sharpness, and colourfulness. Distilling high level knowledge about all these quality bearing attributes is crucial for developing objective Image Quality Assessment (IQA).While existing solutions have modeled some of these aspects, a comprehensive solution that involves all these important quality related attributes has not yet been developed. In this paper, we present a new blind IQA (BIQA) model termed Self-supervision and Vision-Language supervision Image QUality Evaluator (SLIQUE) that features a joint vision-language and visual contrastive representation learning framework for acquiring high level knowledge about the images semantic contents, distortion characteristics and appearance properties for IQA. For training SLIQUE, we have developed a systematic approach to constructing a first of its kind large image database annotated with all three categories of quality relevant texts. The Text Annotated Distortion, Appearance and Content (TADAC) database has over 1.6 million images annotated with textual descriptions of their semantic contents, distortion characteristics and appearance properties. The method for constructing TADAC and the database itself will be particularly useful for exploiting vision-language modeling for advanced IQA applications. Extensive experimental results show that SLIQUE has superior performances over state of the art, demonstrating the soundness of its design principle and the effectiveness of its implementation.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 潜在量子マッチングを用いたデータセットの凝縮

Dataset Condensation with Latent Quantile Matching ( http://arxiv.org/abs/2406.09860v1 )

ライセンス: Link先を確認
Wei Wei, Tom De Schepper, Kevin Mets, (参考訳) Dataset Condensation (DC) 手法は,機械学習モデルのトレーニングを高速化するために,情報的データ記録を持つより小さな合成データセットを学習することを目的としている。 現在の分布マッチング(DM)に基づくDC法は,合成データセットと実データセットの潜伏埋め込みの平均をマッチングすることにより,合成データセットを学習する。 しかし、同じ平均を持つ2つの分布は依然として大きく異なる。 この研究は、最大平均離散性を用いて潜在分布、すなわち弱い整合力と外れ値正規化の欠如を一致させることの欠点を実証する。 これらの欠点を軽減するために,2つの分布間の適合試験統計量の良さを最小化するために,遅延量子マッチング (LQM) を提案する。 画像およびグラフ構造化データセットの実証実験により、LQMは分布マッチングに基づくDCにおいて、以前の最先端と一致するか、より優れていることが示された。 さらに、LQMは、メモリ効率とプライバシが重要となる連続グラフ学習(CGL)環境での性能を向上させることを示す。 本研究は,CGLへのDMベースDCの適用に光を当てる。

Dataset condensation (DC) methods aim to learn a smaller synthesized dataset with informative data records to accelerate the training of machine learning models. Current distribution matching (DM) based DC methods learn a synthesized dataset by matching the mean of the latent embeddings between the synthetic and the real dataset. However two distributions with the same mean can still be vastly different. In this work we demonstrate the shortcomings of using Maximum Mean Discrepancy to match latent distributions i.e. the weak matching power and lack of outlier regularization. To alleviate these shortcomings we propose our new method: Latent Quantile Matching (LQM) which matches the quantiles of the latent embeddings to minimize the goodness of fit test statistic between two distributions. Empirical experiments on both image and graph-structured datasets show that LQM matches or outperforms previous state of the art in distribution matching based DC. Moreover we show that LQM improves the performance in continual graph learning (CGL) setting where memory efficiency and privacy can be important. Our work sheds light on the application of DM based DC for CGL.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# LUMA:不確実性とマルチモーダルデータから学習するためのベンチマークデータセット

LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data ( http://arxiv.org/abs/2406.09864v1 )

ライセンス: Link先を確認
Grigor Bezirganyan, Sana Sellami, Laure Berti-Équille, Sébastien Fournier, (参考訳) マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。 信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。 我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを紹介する。 有名なCIFAR 10/100データセットを拡張し、3つのオーディオコーパスから抽出された音声サンプルと、Gemma-7B Large Language Model (LLM)を用いて生成されたテキストデータを出力する。 LUMAデータセットは、さまざまなタイプの制御されたインジェクションと不確実性の度合いによって、特定の実験やベンチマークイニシアチブの達成と調整を可能にする。 LUMAはPythonパッケージとしても利用可能で、データの多様性、各モダリティのノイズの量、配布外のサンプルを追加することで、データセットの複数の変種を生成する機能を含んでいる。 ベースライン事前学習モデルはモンテカルロ・ドロップアウト、ディープ・アンサンブル、信頼性のあるマルチビュー・ラーニングの3つの不確実性定量化手法と共に提供される。 この包括的なデータセットとそのツールは、信頼できる、堅牢なマルチモーダルディープラーニングアプローチの開発とベンチマークの促進とサポートを目的としています。

Multimodal Deep Learning enhances decision-making by integrating diverse information sources, such as texts, images, audio, and videos. To develop trustworthy multimodal approaches, it is essential to understand how uncertainty impacts these models. We introduce LUMA, a unique benchmark dataset, featuring audio, image, and textual data from 50 classes, for learning from uncertain and multimodal data. It extends the well-known CIFAR 10/100 dataset with audio samples extracted from three audio corpora, and text data generated using the Gemma-7B Large Language Model (LLM). The LUMA dataset enables the controlled injection of varying types and degrees of uncertainty to achieve and tailor specific experiments and benchmarking initiatives. LUMA is also available as a Python package including the functions for generating multiple variants of the dataset with controlling the diversity of the data, the amount of noise for each modality, and adding out-of-distribution samples. A baseline pre-trained model is also provided alongside three uncertainty quantification methods: Monte-Carlo Dropout, Deep Ensemble, and Reliable Conflictive Multi-View Learning. This comprehensive dataset and its tools are intended to promote and support the development and benchmarking of trustworthy and robust multimodal deep learning approaches.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# アウト・オブ・ディストリビューション検出の評価の再考:ソリテスパラドックス

Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox ( http://arxiv.org/abs/2406.09867v1 )

ライセンス: Link先を確認
Xingming Long, Jie Zhang, Shiguang Shan, Xilin Chen, (参考訳) 既存のアウト・オブ・ディストリビューション(OOD)検出ベンチマークでは、新しいラベルのサンプルをOODデータとして分類している。 しかし、いくつかの限界OODサンプルは実際には分布内(ID)サンプルに密接な意味的内容を持ち、OODサンプルをソリテスパラドックス(英語版)と判定する。 本稿では,Incrmental Shift OOD (IS-OOD) というベンチマークを構築し,テストサンプルを,IDデータセットに対して異なる意味と共変のシフト度を持つサブセットに分割する。 データ分割は、提案したLanguage Aligned Image Feature Decomposition (LAID)に基づくシフト測定手法により達成される。 さらに、IS-OODベンチマークを補完するために、より多様な共変量を含む高品質な画像を含むSyn-ISデータセットを構築した。 1) セマンティックシフトの増加に伴って多くのOOD検出手法の性能が著しく向上する; (2) GradNormのようないくつかの手法は、決定のためにセマンティックシフトが少ないため、OOD検出機構が異なる可能性がある; 3) 画像中の過剰な共変量シフトもOODと見なされる可能性がある。 私たちのコードとデータはhttps://github.com/qqwsad5/IS-OOD.orgで公開されています。

Most existing out-of-distribution (OOD) detection benchmarks classify samples with novel labels as the OOD data. However, some marginal OOD samples actually have close semantic contents to the in-distribution (ID) sample, which makes determining the OOD sample a Sorites Paradox. In this paper, we construct a benchmark named Incremental Shift OOD (IS-OOD) to address the issue, in which we divide the test samples into subsets with different semantic and covariate shift degrees relative to the ID dataset. The data division is achieved through a shift measuring method based on our proposed Language Aligned Image feature Decomposition (LAID). Moreover, we construct a Synthetic Incremental Shift (Syn-IS) dataset that contains high-quality generated images with more diverse covariate contents to complement the IS-OOD benchmark. We evaluate current OOD detection methods on our benchmark and find several important insights: (1) The performance of most OOD detection methods significantly improves as the semantic shift increases; (2) Some methods like GradNorm may have different OOD detection mechanisms as they rely less on semantic shifts to make decisions; (3) Excessive covariate shifts in the image are also likely to be considered as OOD for some methods. Our code and data are released in https://github.com/qqwsad5/IS-OOD.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# IGL-Bench:不均衡グラフ学習のための総合ベンチマークを確立する

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning ( http://arxiv.org/abs/2406.09870v1 )

ライセンス: Link先を確認
Jiawen Qin, Haonan Yuan, Qingyun Sun, Lyujin Xu, Jiaqi Yuan, Pengfeng Huang, Zhaonan Wang, Xingcheng Fu, Hao Peng, Jianxin Li, Philip S. Yu, (参考訳) ディープグラフ学習は、その汎用性と、広範囲にわたるグラフデータの表現の成功により、ここ数年で大きな人気を集めている。 しかし、不均衡なグラフデータ分布の広汎な問題は、一部の部分が不均等に豊富なデータを示す一方で、他の部分は疎いままであり、従来のグラフ学習アルゴリズムの有効性を損なうものであり、偏りのある結果をもたらす。 この課題に対処するため、Im Balanced Graph Learning (IGL)は、よりバランスの取れたデータ分散とタスクパフォーマンスの向上を実現し、大きな注目を集めている。 IGLアルゴリズムの普及にもかかわらず、一貫した実験プロトコルや公正な性能比較が欠如していることは、この分野の進歩を理解する上で重要な障壁となっている。 このギャップを埋めるため、不均衡グラフ学習のための基本的な総合的なベンチマークであるIGL-Benchを導入し、16の多様なグラフデータセットと24の異なるIGLアルゴリズムを均一なデータ処理と分割戦略で導入する。 具体的には、IGL-Benchは、クラス不均衡とトポロジ不均衡の範囲で、ノードレベルおよびグラフレベルのタスクにおける有効性、堅牢性、効率の観点から、最先端のIGLアルゴリズムを体系的に研究する。 広範囲にわたる実験は、様々な不均衡な条件下でのIGLアルゴリズムの潜在的な利点を示し、IGL分野における洞察と機会を提供する。 さらに,再現性評価を容易にし,さらに革新的な研究を促すために,オープンソースで統一されたパッケージを開発し,https://github.com/RingBDStack/IGL-Benchで公開している。

Deep graph learning has gained grand popularity over the past years due to its versatility and success in representing graph data across a wide range of domains. However, the pervasive issue of imbalanced graph data distributions, where certain parts exhibit disproportionally abundant data while others remain sparse, undermines the efficacy of conventional graph learning algorithms, leading to biased outcomes. To address this challenge, Imbalanced Graph Learning (IGL) has garnered substantial attention, enabling more balanced data distributions and better task performance. Despite the proliferation of IGL algorithms, the absence of consistent experimental protocols and fair performance comparisons pose a significant barrier to comprehending advancements in this field. To bridge this gap, we introduce IGL-Bench, a foundational comprehensive benchmark for imbalanced graph learning, embarking on 16 diverse graph datasets and 24 distinct IGL algorithms with uniform data processing and splitting strategies. Specifically, IGL-Bench systematically investigates state-of-the-art IGL algorithms in terms of effectiveness, robustness, and efficiency on node-level and graph-level tasks, with the scope of class-imbalance and topology-imbalance. Extensive experiments demonstrate the potential benefits of IGL algorithms on various imbalanced conditions, offering insights and opportunities in the IGL field. Further, we have developed an open-sourced and unified package to facilitate reproducible evaluation and inspire further innovative research, which is available at https://github.com/RingBDStack/IGL-Bench.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# Perceiver-Prompt:中国語障害音声認識におけるウィスパーのフレキシブル話者適応

Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition ( http://arxiv.org/abs/2406.09873v1 )

ライセンス: Link先を確認
Yicong Jiang, Tianzi Wang, Xurong Xie, Juan Liu, Wei Sun, Nan Yan, Hui Chen, Lan Wang, Xunying Liu, Feng Tian, (参考訳) 障害のある音声認識は、例えば失語症に苦しむ個人にとって、生活の質を向上させるために重大な意味を持つ。 変形性音声認識は、限られたデータ、変形性スピーカーと非変形性スピーカーの相当な相違、障害に起因する有意な話者変動を含む課題に遭遇する。 本稿では,Whisper大規模モデル上でP-Tuningを利用する話者適応手法であるPerceiver-Promptを紹介する。 われわれはまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合し、可変長入力から固定長話者プロンプトを生成し、中国語の変形音声のモデル認識を改善する。 以上の結果から,Perceiver-Promptによる認識性能の改善が得られた。 CERの相対還元率は13.04%まで減少する。

Disordered speech recognition profound implications for improving the quality of life for individuals afflicted with, for example, dysarthria. Dysarthric speech recognition encounters challenges including limited data, substantial dissimilarities between dysarthric and non-dysarthric speakers, and significant speaker variations stemming from the disorder. This paper introduces Perceiver-Prompt, a method for speaker adaptation that utilizes P-Tuning on the Whisper large-scale model. We first fine-tune Whisper using LoRA and then integrate a trainable Perceiver to generate fixed-length speaker prompts from variable-length inputs, to improve model recognition of Chinese dysarthric speech. Experimental results from our Chinese dysarthric speech dataset demonstrate consistent improvements in recognition performance with Perceiver-Prompt. Relative reduction up to 13.04% in CER is obtained over the fine-tuned Whisper.
翻訳日:2024-06-17 14:24:30 公開日:2024-06-14
# 高次元空間におけるサイリング--角度保存による低次元埋め込み

Sailing in high-dimensional spaces: Low-dimensional embeddings through angle preservation ( http://arxiv.org/abs/2406.09876v1 )

ライセンス: Link先を確認
Jonas Fischer, Rong Ma, (参考訳) 高次元データの低次元埋め込み(LDE)は、科学や工学においてユビキタスである。 これにより、データの主な特性を素早く理解し、アウトレーヤを特定し、エラーを処理し、データ分析の次のステップを知らせることができます。 したがって、LDEは元の高次元データに忠実でなければならない。すなわち、ローカルとグローバルの両方で、データに符号化された関係を表現すべきである。 現在のLDEアプローチは、任意のサンプル間の局所的な距離を正しく再構築することに焦点を当てており、多くの場合、あらゆる距離を狙った従来のアプローチよりも優れている。 しかしながら、これらのアプローチでは、グローバルな関係は通常強く歪んでおり、しばしば埋め込みのための局所的な構造学習とグローバルな構造学習の間に固有のトレードオフがあると主張する。 我々は,LDE学習の新たな視点として,データポイント間の角度を再構築することを提案する。 このアプローチであるMercurtは、さまざまな実験とメトリクスのセットにまたがって優れた再構築をもたらし、すべてのスケールで構造を適切に保存することを示す。 既存の研究と比較すると,本手法は単純な定式化をもち,将来の理論的解析やアルゴリズムの改良を容易にする。

Low-dimensional embeddings (LDEs) of high-dimensional data are ubiquitous in science and engineering. They allow us to quickly understand the main properties of the data, identify outliers and processing errors, and inform the next steps of data analysis. As such, LDEs have to be faithful to the original high-dimensional data, i.e., they should represent the relationships that are encoded in the data, both at a local as well as global scale. The current generation of LDE approaches focus on reconstructing local distances between any pair of samples correctly, often out-performing traditional approaches aiming at all distances. For these approaches, global relationships are, however, usually strongly distorted, often argued to be an inherent trade-off between local and global structure learning for embeddings. We suggest a new perspective on LDE learning, reconstructing angles between data points. We show that this approach, Mercat, yields good reconstruction across a diverse set of experiments and metrics, and preserve structures well across all scales. Compared to existing work, our approach also has a simple formulation, facilitating future theoretical analysis and algorithmic improvements.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# フレキシブルアーキテクチャによるフェデレーション学習

Federated Learning with Flexible Architectures ( http://arxiv.org/abs/2406.09877v1 )

ライセンス: Link先を確認
Jong-Ik Park, Carlee Joe-Wong, (参考訳) 従来のフェデレートラーニング(FL)手法は、計算能力や通信能力の異なるクライアントを限定的にサポートし、モデルトレーニングにおける非効率性と潜在的な不正確性をもたらす。 この制限は、強力なサーバからモバイルデバイスまで幅広いクライアントデバイスを持つような、多様なリソース制約のある環境において、FLの普及を妨げている。 このニーズに対処するために、クライアントがさまざまな幅と深さのモデルをトレーニングできるFLトレーニングアルゴリズムであるFederated Learning with Flexible Architectures (FedFA)を紹介します。 各クライアントは、トレーニングに少ないコンピューティングリソースを必要とする浅く薄いネットワークで、そのリソースに適したネットワークアーキテクチャを選択することができる。 この分野での以前の作業とは異なり、FedFAはモデルアグリゲーション中にクライアントのローカルアーキテクチャとFLシステムにおける最大のネットワークアーキテクチャを整合させるため、レイヤグラフト技術を導入している。 レイヤグラフトにより、すべてのクライアントコントリビューションがグローバルモデルに統合されることが保証されるため、個々のクライアントのデータがモデルのパラメータを不均等に振る舞うリスクを最小化し、セキュリティ上のメリットがもたらされる。 さらに、FedFAは、異なるネットワークアーキテクチャ間の重みのスケール変動を管理するスケーラブルなアグリゲーション手法を導入している。 実験的に、FedFAは以前の幅と深度フレキシブルアグリゲーション戦略より優れています。 さらに、FedFAは、以前の戦略と比較して、バックドアアタックシナリオのパフォーマンス低下に対する堅牢性の向上を示している。

Traditional federated learning (FL) methods have limited support for clients with varying computational and communication abilities, leading to inefficiencies and potential inaccuracies in model training. This limitation hinders the widespread adoption of FL in diverse and resource-constrained environments, such as those with client devices ranging from powerful servers to mobile devices. To address this need, this paper introduces Federated Learning with Flexible Architectures (FedFA), an FL training algorithm that allows clients to train models of different widths and depths. Each client can select a network architecture suitable for its resources, with shallower and thinner networks requiring fewer computing resources for training. Unlike prior work in this area, FedFA incorporates the layer grafting technique to align clients' local architectures with the largest network architecture in the FL system during model aggregation. Layer grafting ensures that all client contributions are uniformly integrated into the global model, thereby minimizing the risk of any individual client's data skewing the model's parameters disproportionately and introducing security benefits. Moreover, FedFA introduces the scalable aggregation method to manage scale variations in weights among different network architectures. Experimentally, FedFA outperforms previous width and depth flexible aggregation strategies. Furthermore, FedFA demonstrates increased robustness against performance degradation in backdoor attack scenarios compared to earlier strategies.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 低リソースマルチドメイン対話生成のための統一データ拡張フレームワーク

A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation ( http://arxiv.org/abs/2406.09881v1 )

ライセンス: Link先を確認
Yongkang Liu, Ercong Nie, Zheng Hua, Zifeng Ding, Daling Wang, Yifei Zhang, Hinrich Schütze, (参考訳) 現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。 しかし、ドメイン固有のトレーニングデータセットが不十分であるか、完全に欠落しているドメインで課題が発生する。 この課題に対処するために,新しいデータ拡張フレームワークを提案する。これは \textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G}enerationであり,これを \textbf{AMD$^2$G} と呼ぶ。 AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。 ドメインコーパスはドメインに依存しない特徴とドメイン固有の特徴の混合であり、特定の表現パターンはさまざまなドメイン間で共有されていると仮定する。 ドメインに依存しないトレーニングは、モデルがこれらの共通表現パターンを学習できるようにすることを目的としている。 ドメインに依存しない対話コーパスを構築するために,ドメイン固有の特徴を除去するために使用されるデータ処理技術として,textit{\textbf{de- domaining}} を用いる。 ドメイン固有の特徴の影響を緩和することにより、非ドメインコーパスでトレーニングされたモデルは、ドメイン間の共通表現パターンを効果的に学習することができる。 その後、学習したドメインに依存しない特徴を対象ドメインに適応させ、ドメイン適応トレーニングを行う。 我々は,5つのドメインの中国語対話データセットを用いて実験を行い,AMD$^2$Gが対象ドメインの直接学習と5つのドメインのコーパスの集合訓練の両方と比較して優れた性能を発揮することを示す。 我々の研究は、AMD$^2$Gを、低リソースマルチドメインダイアログ生成のための実行可能な代替ソリューションとして評価している。 私たちの作業に関連するコードとデータはGitHubリポジトリ$^{\text 1}$で入手可能です。

Current state-of-the-art dialogue systems heavily rely on extensive training datasets. However, challenges arise in domains where domain-specific training datasets are insufficient or entirely absent. To tackle this challenge, we propose a novel data \textbf{A}ugmentation framework for \textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G}eneration, referred to as \textbf{AMD$^2$G}. The AMD$^2$G framework consists of a data augmentation process and a two-stage training approach: domain-agnostic training and domain adaptation training. We posit that domain corpora are a blend of domain-agnostic and domain-specific features, with certain representation patterns shared among diverse domains. Domain-agnostic training aims to enable models to learn these common expressive patterns. To construct domain-agnostic dialogue corpora, we employ a \textit{\textbf{de-domaining}} data processing technique used to remove domain-specific features. By mitigating the effects of domain-specific features, the model trained on the de-domained corpora can effectively learn common expression patterns in different domains. Subsequently, we adapt the learned domain-agnostic features to the target domain through domain adaptation training. We conduct experiments on Chinese dialogue datasets from five different domains and show that AMD$^2$G achieves superior performance compared to both direct training on the target domain corpus and collective training on all five domain corpora. Our work underscores AMD$^2$G as a viable alternative solution for low-resource multi-domain dialogue generation. Code and data associated with our work are available on GitHub repository$^{\text 1}$.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# ユーザの嗜好動態を考慮したレコメンダシステムのハーム緩和

Harm Mitigation in Recommender Systems under User Preference Dynamics ( http://arxiv.org/abs/2406.09882v1 )

ライセンス: Link先を確認
Jerry Chee, Shankar Kalyanaraman, Sindhu Kiranmai Ernala, Udi Weinsberg, Sarah Dean, Stratis Ioannidis, (参考訳) 本稿では,レコメンデーションとユーザ関心の進化,有害コンテンツとの相互作用を考慮したレコメンデーションシステムについて考察する。 ユーザの行動,特に有害なコンテンツを消費する傾向に対するレコメンデーションの影響をモデル化する。 クリックスルー率(CTR)の最大化と害軽減のトレードオフを確立するためのレコメンデーションポリシーを模索する。 我々は,ユーザプロファイルのダイナミクスが定常点を持つ条件を確立し,定常度で最適な推薦ポリシーを見つけるためのアルゴリズムを提案する。 我々は、実データで初期化された半合成映画レコメンデーションセットを実験し、我々のポリシーがCTRを最大化し、害を緩和すると同時にベースラインを上回ることを観察した。

We consider a recommender system that takes into account the interplay between recommendations, the evolution of user interests, and harmful content. We model the impact of recommendations on user behavior, particularly the tendency to consume harmful content. We seek recommendation policies that establish a tradeoff between maximizing click-through rate (CTR) and mitigating harm. We establish conditions under which the user profile dynamics have a stationary point, and propose algorithms for finding an optimal recommendation policy at stationarity. We experiment on a semi-synthetic movie recommendation setting initialized with real data and observe that our policies outperform baselines at simultaneously maximizing CTR and mitigating harm.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 初等視覚プログラミングにおける計算思考テストにおける生成モデルのベンチマーク

Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming ( http://arxiv.org/abs/2406.09891v1 )

ライセンス: Link先を確認
Victor-Alexandru Pădurean, Adish Singla, (参考訳) 生成モデルは、プログラミング、自然科学、一般知識といった分野にわたる様々なベンチマークにおいて、人間のレベルの習熟度を示している。 これらの有望なベンチマーク結果にもかかわらず、彼らは小学生が通常行う単純な問題解決作業に苦戦している。 学校での計算思考と問題解決のスキルを評価するために設計された標準化されたテストにおいて、最先端モデルはどのように機能するか? 本稿では,基礎的なビジュアルプログラミング領域に根ざした計算思考テストを含む新しいベンチマークをキュレートする。 最初の結果は,GPT-4oやLlama3のような最先端のモデルが,平均的な学生の成績とほとんど一致しないことを示している。 これらのモデルの性能をさらに向上するため、新しい合成データ生成手法を用いて微調整を行う。 キーとなるアイデアは、視覚要素の認識からマルチチョイスクイズ、合成スタイルのタスクまで、さまざまなスキルレベルをキャプチャするシンボリックな手法を使用して包括的なデータセットを開発することである。 合成データにおける記号情報の様々な側面が、微調整モデルの性能向上にどう役立つかを示す。 生成モデルにおける計算思考の強化に関するさらなる研究を促進するため、完全な実装とデータセットをリリースする。

Generative models have demonstrated human-level proficiency in various benchmarks across domains like programming, natural sciences, and general knowledge. Despite these promising results on competitive benchmarks, they still struggle with seemingly simple problem-solving tasks typically carried out by elementary-level students. How do state-of-the-art models perform on standardized tests designed to assess computational thinking and problem-solving skills at schools? In this paper, we curate a novel benchmark involving computational thinking tests grounded in elementary visual programming domains. Our initial results show that state-of-the-art models like GPT-4o and Llama3 barely match the performance of an average school student. To further boost the performance of these models, we fine-tune them using a novel synthetic data generation methodology. The key idea is to develop a comprehensive dataset using symbolic methods that capture different skill levels, ranging from recognition of visual elements to multi-choice quizzes to synthesis-style tasks. We showcase how various aspects of symbolic information in synthetic data help improve fine-tuned models' performance. We will release the full implementation and datasets to facilitate further research on enhancing computational thinking in generative models.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 教師なしドメイン適応のためのビジョン基礎モデルの利点を探る

Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2406.09896v1 )

ライセンス: Link先を確認
Brunó B. Englert, Fabrizio J. Piva, Tommie Kerssies, Daan de Geus, Gijs Dubbelman, (参考訳) 多様なデータ領域にまたがる堅牢な一般化を実現することは、コンピュータビジョンにおいて重要な課題である。 この課題は、ディープ・ニューラル・ネットワークベースのシステムが、トレーニング中に見えない様々な環境条件下で確実に動作しなければならない、安全クリティカルなアプリケーションにおいて重要である。 本研究では,視覚基礎モデル(VFM)と教師なしドメイン適応法(UDA)のセグメンテーションタスクにおける一般化能力について検討した。 その結果,VFMとUDAの併用には2つの利点があることがわかった。 (a)VFMのアウト・オブ・ディストリビューション性能を維持しつつ、より優れたUDA性能を実現し、 b) 特定の時間を消費するUDAコンポーネントを冗長にすることで、大きな推論スピードアップを可能にします。 具体的には、同値なモデルサイズで、結果のVFM-UDA法は、以前のVFM状態よりも8.4$\times$の速度向上を実現し、UDA設定では+1.2 mIoU、分布外一般化では+6.1 mIoUの性能向上を実現している。 さらに、3.6$\times$以上のパラメータを持つVFMを使用する場合、VFM-UDAアプローチは3.3$\times$のスピードアップを維持し、UDAのパフォーマンスは+3.1 mIoUで改善され、アウト・オブ・ディストリビューション性能は+10.3 mIoUで向上する。 これらの結果は、VFMとUDAを組み合わせることにより、セマンティックセグメンテーションにおけるアン教師なしドメイン適応のための新しい標準とベースラインを確立するという大きなメリットを浮き彫りにしている。

Achieving robust generalization across diverse data domains remains a significant challenge in computer vision. This challenge is important in safety-critical applications, where deep-neural-network-based systems must perform reliably under various environmental conditions not seen during training. Our study investigates whether the generalization capabilities of Vision Foundation Models (VFMs) and Unsupervised Domain Adaptation (UDA) methods for the semantic segmentation task are complementary. Results show that combining VFMs with UDA has two main benefits: (a) it allows for better UDA performance while maintaining the out-of-distribution performance of VFMs, and (b) it makes certain time-consuming UDA components redundant, thus enabling significant inference speedups. Specifically, with equivalent model sizes, the resulting VFM-UDA method achieves an 8.4$\times$ speed increase over the prior non-VFM state of the art, while also improving performance by +1.2 mIoU in the UDA setting and by +6.1 mIoU in terms of out-of-distribution generalization. Moreover, when we use a VFM with 3.6$\times$ more parameters, the VFM-UDA approach maintains a 3.3$\times$ speed up, while improving the UDA performance by +3.1 mIoU and the out-of-distribution performance by +10.3 mIoU. These results underscore the significant benefits of combining VFMs with UDA, setting new standards and baselines for Unsupervised Domain Adaptation in semantic segmentation.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 3D-RPE:3次元回転位置符号化による長期モデリングの強化

3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding ( http://arxiv.org/abs/2406.09897v1 )

ライセンス: Link先を確認
Xindian Ma, Wenyuan Liu, Peng Zhang, Nan Xu, (参考訳) ブロッホ球表現に着想を得て、3次元回転位置符号化(3D-RPE)と呼ばれる3次元球面上での回転位置符号化を提案する。 3D-RPEは広く使われている2Dロータリー位置符号化(RoPE)の先進的なバージョンであり、長いコンテキストをモデル化する2つの大きな利点がある。 制御可能な長期減衰のために、3D-RPEはチャンクサイズ内での長期減衰の制御を可能にし、トークン間の相対的な位置情報のモデリングを遠くの相対的な位置で行う。 位置分解能を高めるため、3D-RPEはRoPE上の位置補間による位置分解能の劣化を軽減することができる。 我々は,NLU(Long-context Natural Language Understanding)とLM(Long-Sequence Language Modeling)タスクの実験を行った。 実験結果から、3D-RPEは、特に長文NLUタスクにおいて、RoPEよりも性能が向上した。

Inspired by the Bloch Sphere representation, we propose a novel rotary position encoding on a three-dimensional sphere, named 3D Rotary Position Encoding (3D-RPE). 3D-RPE is an advanced version of the widely used 2D Rotary Position Encoding (RoPE), with two major advantages for modeling long contexts: controllable long-term decay and improved position resolution. For controllable long-term decay, 3D-RPE allows for the regulation of long-term decay within the chunk size, ensuring the modeling of relative positional information between tokens at a distant relative position. For enhanced position resolution, 3D-RPE can mitigate the degradation of position resolution caused by position interpolation on RoPE. We have conducted experiments on long-context Natural Language Understanding (NLU) and long-sequence Language Modeling (LM) tasks. From the experimental results, 3D-RPE achieved performance improvements over RoPE, especially in long-context NLU tasks.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 老化関連遺伝子群における新規食事制限関連遺伝子同定のための正アンラベリード学習

Positive-Unlabelled Learning for Identifying New Candidate Dietary Restriction-related Genes among Ageing-related Genes ( http://arxiv.org/abs/2406.09898v1 )

ライセンス: Link先を確認
Jorge Paz-Ruza, Alex A. Freitas, Amparo Alonso-Betanzos, Bertha Guijarro-Berdiñas, (参考訳) 食事制限(DR)は最も人気のある抗老化介入の1つであり、そのメカニズムに関連する遺伝子を徹底的に研究する。 近年、機械学習(ML)は、老化関連遺伝子中の潜在的なDR関連遺伝子を同定し、DRに関する知識を拡大するために必要なコストのかかる実験実験を最小化することを目的としている。しかし、既存のMLメソッドは、DR関連遺伝子を既知のDR関係のない遺伝子を負の例として、DR関連アノテーションが欠如していることが、DR関連遺伝子の欠如の証拠であることを仮定して、DR関連遺伝子を同定する能力と、DR関連遺伝子を新規に同定する能力の信頼性を阻害する。 本研究は,2段階の正アンラベレ学習パラダイムに基づく新しい遺伝子優先順位付け手法を提案する:類似性に基づくKNNに着想を得た手法を用いて,DR関連のない遺伝子の中から信頼できる負の例を選択する。 次に、これらの信頼された陰性およびすべての既知の陽性は、DR関連遺伝子と非DR関連遺伝子を効果的に区別する分類器を訓練するために使用され、新しいDR関連遺伝子に対するより信頼性の高いランキングを生成するために最終的に使用される。 本手法は,既存の非PU手法よりもDR関連性予測に優れることを示す。 さらに,既存文献のキュレーションにより,本モデルで同定された上位候補DR関連遺伝子のサポートも確認された。

Dietary Restriction (DR) is one of the most popular anti-ageing interventions, prompting exhaustive research into genes associated with its mechanisms. Recently, Machine Learning (ML) has been explored to identify potential DR-related genes among ageing-related genes, aiming to minimize costly wet lab experiments needed to expand our knowledge on DR. However, to train a model from positive (DR-related) and negative (non-DR-related) examples, existing ML methods naively label genes without known DR relation as negative examples, assuming that lack of DR-related annotation for a gene represents evidence of absence of DR-relatedness, rather than absence of evidence; this hinders the reliability of the negative examples (non-DR-related genes) and the method's ability to identify novel DR-related genes. This work introduces a novel gene prioritization method based on the two-step Positive-Unlabelled (PU) Learning paradigm: using a similarity-based, KNN-inspired approach, our method first selects reliable negative examples among the genes without known DR associations. Then, these reliable negatives and all known positives are used to train a classifier that effectively differentiates DR-related and non-DR-related genes, which is finally employed to generate a more reliable ranking of promising genes for novel DR-relatedness. Our method significantly outperforms the existing state-of-the-art non-PU approach for DR-relatedness prediction in three relevant performance metrics. In addition, curation of existing literature finds support for the top-ranked candidate DR-related genes identified by our model.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 二次割当問題を効率的に解くための解認識変換器の学習

Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem ( http://arxiv.org/abs/2406.09899v1 )

ライセンス: Link先を確認
Zhentao Tan, Yadong Mu, (参考訳) 近年,Mixed Integer Linear Programming Problems (MILPs) などの様々な最適化問題が,機械学習の能力を活用して包括的な調査が行われている。 本研究は,組合せ最適化における重大な課題であるQAP(Quardratic Assignment Problem)を効率的に解くための学習ベースのソリューションに焦点を当てる。 単純な問題の多くは完全多項式時間近似解 (FPTAS) を許容するが、QAPは強いNPハードであることが示されている。 QAP の FPTAS を見つけることは難しいが、FPTAS の存在は$P = NP$ を意味する。 QAPに関する現在の研究は、限られたスケールと計算の非効率さに悩まされている。 上記の課題に対処するため,本研究では,QAPを学習から改善するカテゴリにおいて,QAPの活用に関する第1の解決策を提案する。 この研究は施設ノードと場所ノードを別々にエンコードするが、現在のアプローチで広く使われている計算集約型アソシエーショングラフは形成しない。 この設計選択により、より大きな問題サイズへのスケーラビリティが実現される。 さらに、SAWTアーキテクチャは、既存の解行列と注目スコアを統合して、QAPの高次情報を効果的に取得する。 本モデルの有効性は,様々なサイズの自己生成型QAPインスタンスとQAPLIBベンチマークを用いて検証した。

Recently various optimization problems, such as Mixed Integer Linear Programming Problems (MILPs), have undergone comprehensive investigation, leveraging the capabilities of machine learning. This work focuses on learning-based solutions for efficiently solving the Quadratic Assignment Problem (QAPs), which stands as a formidable challenge in combinatorial optimization. While many instances of simpler problems admit fully polynomial-time approximate solution (FPTAS), QAP is shown to be strongly NP-hard. Even finding a FPTAS for QAP is difficult, in the sense that the existence of a FPTAS implies $P = NP$. Current research on QAPs suffer from limited scale and computational inefficiency. To attack the aforementioned issues, we here propose the first solution of its kind for QAP in the learn-to-improve category. This work encodes facility and location nodes separately, instead of forming computationally intensive association graphs prevalent in current approaches. This design choice enables scalability to larger problem sizes. Furthermore, a \textbf{S}olution \textbf{AW}are \textbf{T}ransformer (SAWT) architecture integrates the incumbent solution matrix with the attention score to effectively capture higher-order information of the QAPs. Our model's effectiveness is validated through extensive experiments on self-generated QAP instances of varying sizes and the QAPLIB benchmark.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# GEB-1.3B:オープン軽量大言語モデル

GEB-1.3B: Open Lightweight Large Language Model ( http://arxiv.org/abs/2406.09900v1 )

ライセンス: Link先を確認
Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu, (参考訳) 最近開発されたChatGPT、Claude、Llamaのような大規模言語モデル(LLM)は、印象的な能力を示し、いくつかのタスクにおいて人間レベルのパフォーマンスを超えている。 彼らの成功にもかかわらず、これらのモデルのリソース集約的な要求は、トレーニングと推論の両方にかなりの計算能力を必要とし、高性能サーバへのデプロイメントを制限する。 さらに、モデルの広範な計算要求は、応答時間の遅延を増大させることが多い。 LLMがCPU上で効率的に動作する必要性が高まっているため、CPU推論に最適化された軽量モデルの研究が生まれている。 本稿では,5500億のトークンを中国語と英語の両方でトレーニングした軽量LCMであるGAB-1.3Bを紹介する。 我々は, ROPE, Group-Query-Attention, FlashAttention-2などの新しいトレーニング技術を用いて, モデル性能を維持しながらトレーニングを加速する。 さらに、1000万の命令データのサンプルを用いてモデルを微調整し、アライメントを強化する。 GEB-1.3BはMMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bのような比較モデルよりも優れている。 特に、GEB-1.3BのFP32バージョンはCPU上での計算可能な推論時間を実現し、高度な量子化技術による高速化が進行中である。 GEB-1.3B のオープンソースモデルとしてのリリースは、軽量 LLM の開発に多大な貢献をしており、この分野におけるさらなる研究と革新を促進することを約束している。

Recently developed large language models (LLMs) such as ChatGPT, Claude, and Llama have demonstrated impressive abilities, and even surpass human-level performance in several tasks. Despite their success, the resource-intensive demands of these models, requiring significant computational power for both training and inference, limit their deployment to high-performance servers. Additionally, the extensive calculation requirements of the models often lead to increased latency in response times. With the increasing need for LLMs to operate efficiently on CPUs, research about lightweight models that are optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a lightweight LLM trained on 550 billion tokens in both Chinese and English languages. We employ novel training techniques, including ROPE, Group-Query-Attention, and FlashAttention-2, to accelerate training while maintaining model performance. Additionally, we fine-tune the model using 10 million samples of instruction data to enhance alignment. GEB-1.3B exhibits outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU, outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B. Notably, the FP32 version of GEB-1.3B achieves commendable inference times on CPUs, with ongoing efforts to further enhance speed through advanced quantization techniques. The release of GEB-1.3B as an open-source model marks a significant contribution to the development of lightweight LLMs, promising to foster further research and innovation in the field.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# QQQ:大規模言語モデルのための品質クアチュアビット量子化

QQQ: Quality Quattuor-Bit Quantization for Large Language Models ( http://arxiv.org/abs/2406.09904v1 )

ライセンス: Link先を確認
Ying Zhang, Peng Zhang, Mincong Huang, Jingyang Xiang, Yujie Wang, Chao Wang, Yineng Zhang, Lei Yu, Chuan Liu, Wei Lin, (参考訳) 量子化は、大きな言語モデルを圧縮する有効な方法として証明されている。 W8A8やW4A16のような一般的なテクニックは、モデルのパフォーマンスを効果的に維持するが、プリフィルと推論の復号を同時に高速化することができないことが多い。 W4A8は両者を加速する上で有望な戦略であり、通常は大幅なパフォーマンス低下につながる。 これらの問題に対処するため、QQQは、4ビットの重みと8ビットのアクティベーションを持つQuality Quattuor-bit Quantization法である。 QQQは適応的平滑化とヘッセン型補償を採用し、広範囲のトレーニングなしに量子化されたモデルの性能を大幅に向上させる。 さらに,W4A8 GEMMカーネルを巧みに設計し,推論速度を向上した。 専用チャネルごとのW4A8 GEMMとグループごとのW4A8 GEMMは、3.67$\times$と3.29$\times$ over FP16 GEMMの大幅な高速化を実現している。 以上の結果から,従来のLLM量子化手法と同等の性能を示すとともに,FP16,W8A8,W4A16と比較して,2.24$\times$,2.10$\times$,1.25$\times$に高速化された。

Quantization is a proven effective method for compressing large language models. Although popular techniques like W8A8 and W4A16 effectively maintain model performance, they often fail to concurrently speed up the prefill and decoding stages of inference. W4A8 is a promising strategy to accelerate both of them while usually leads to a significant performance degradation. To address these issues, we present QQQ, a Quality Quattuor-bit Quantization method with 4-bit weights and 8-bit activations. QQQ employs adaptive smoothing and Hessian-based compensation, significantly enhancing the performance of quantized models without extensive training. Furthermore, we meticulously engineer W4A8 GEMM kernels to increase inference speed. Our specialized per-channel W4A8 GEMM and per-group W4A8 GEMM achieve impressive speed increases of 3.67$\times$ and 3.29 $\times$ over FP16 GEMM. Our extensive experiments show that QQQ achieves performance on par with existing state-of-the-art LLM quantization methods while significantly accelerating inference, achieving speed boosts up to 2.24 $\times$, 2.10$\times$, and 1.25$\times$ compared to FP16, W8A8, and W4A16, respectively.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# Nymeria: 野生におけるマルチモーダル・エゴセントリック・デイリー・ムーブメントの大量コレクション

Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild ( http://arxiv.org/abs/2406.09905v1 )

ライセンス: Link先を確認
Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe, (参考訳) 我々はNymeriaを紹介した。Nymeriaは、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、リッチに注釈付けされた人間のモーションデータセットである。 データセットが付属します a) フルボディ3次元運動基底真理 ロ プロジェクト・アリアのRGB、グレースケール、アイトラッキングカメラ、IMU、磁気計、バロメーター及びマイクロホンを備えた自家中心型マルチモーダル記録 c) 第三者の視点を提供する追加の「サーバ」装置 すべてのセンサ、デバイス、キャプチャセッションに対して、ワールドアラインな6DoF変換を計算します。 データセットはまた、3Dシーンポイントの雲とキャリブレーションされた視線推定も提供する。 我々は、微粒なポーズナレーションから原子行動やアクティビティの要約に至るまで、文脈内人間の動作の階層的な記述を注釈するプロトコルを導出する。 我々の知る限り、Nymeriaデータセットは、自然で多様な活動を伴う、世界最大規模の人間の動きの収集であり、第一に、同期化され、ローカライズされたマルチデバイス・マルチモーダル・エゴセントリックなデータ、そしてモーション言語記述を備えた世界最大なデータセットを提供する。 合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。 動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。 データセットの可能性を実証するために、エゴセントリックな身体追跡、運動合成、行動認識のための重要な研究タスクを定義し、いくつかの最先端のベースラインアルゴリズムを評価する。 データとコードはオープンソースになる。

We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body 3D motion ground truth; b) egocentric multimodal recordings from Project Aria devices with RGB, grayscale, eye-tracking cameras, IMUs, magnetometer, barometer, and microphones; and c) an additional "observer" device providing a third-person viewpoint. We compute world-aligned 6DoF transformations for all sensors, across devices and capture sessions. The dataset also provides 3D scene point clouds and calibrated gaze estimation. We derive a protocol to annotate hierarchical language descriptions of in-context human motion, from fine-grain pose narrations, to atomic actions and activity summarization. To the best of our knowledge, the Nymeria dataset is the world largest in-the-wild collection of human motion with natural and diverse activities; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world largest dataset with motion-language descriptions. It contains 1200 recordings of 300 hours of daily activities from 264 participants across 50 locations, travelling a total of 399Km. The motion-language descriptions provide 310.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset we define key research tasks for egocentric body tracking, motion synthesis, and action recognition and evaluate several state-of-the-art baseline algorithms. Data and code will be open-sourced.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 逆気象条件下でのLiDAR点雲のラベル効率の良いセマンティックセマンティックセグメンテーション

Label-Efficient Semantic Segmentation of LiDAR Point Clouds in Adverse Weather Conditions ( http://arxiv.org/abs/2406.09906v1 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer, (参考訳) 逆気象条件は、測定に望ましくないノイズを導入することにより、LiDARセンサの性能に深刻な影響を与える可能性がある。 したがって、これらのセンサの信頼性を高めるためには、ノイズと有効点の区別が不可欠である。 悪天候を検出するための現在のアプローチは、大量のラベル付きデータを必要とするため、入手が困難でコストがかかる可能性がある。 本稿では,悪天候下でのLiDAR点雲のセグメンテーションに対するラベル効率のよいアプローチを提案する。 我々は,少数のラベル付き例から悪天候点を抽出する学習のために,少数ショットセマンティックセマンティックセマンティクスを用いたフレームワークを開発した。 そして、半教師付き学習手法を用いて、未ラベルの点群に対する擬似ラベルを生成し、追加のラベル付けを必要とせずにトレーニングデータの量を大幅に増加させる。 トレーニングパイプラインに良質な気象データを統合することで、良質な気象条件と悪質な気象条件の両方で高いパフォーマンスを実現しています。 実データと合成データから, 積雪, 霧, 噴霧の検出に有効であることが示された。 さらに,ラベル付きデータのみを使用しながら,完全教師付き手法に対する競合性能を実現する。

Adverse weather conditions can severely affect the performance of LiDAR sensors by introducing unwanted noise in the measurements. Therefore, differentiating between noise and valid points is crucial for the reliable use of these sensors. Current approaches for detecting adverse weather points require large amounts of labeled data, which can be difficult and expensive to obtain. This paper proposes a label-efficient approach to segment LiDAR point clouds in adverse weather. We develop a framework that uses few-shot semantic segmentation to learn to segment adverse weather points from only a few labeled examples. Then, we use a semi-supervised learning approach to generate pseudo-labels for unlabelled point clouds, significantly increasing the amount of training data without requiring any additional labeling. We also integrate good weather data in our training pipeline, allowing for high performance in both good and adverse weather conditions. Results on real and synthetic datasets show that our method performs well in detecting snow, fog, and spray. Furthermore, we achieve competitive performance against fully supervised methods while using only a fraction of labeled data.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# 様々なテスト条件をランク付けする分類器について、ソフトマックス確率は何か?

What Does Softmax Probability Tell Us about Classifiers Ranking Across Diverse Test Conditions? ( http://arxiv.org/abs/2406.09908v1 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Liang Zheng, Tom Gedeon, (参考訳) 本研究の目的は,アウト・オブ・ディストリビューション(OOD)分布からラベル付けされていないデータに対して,様々な分類器の性能を正確にランク付けできる尺度を開発することである。 我々は、従来の不確実性指標、特に最大ソフトマックス予測確率が、特定のOODコンテキストをまたいだ予測モデル一般化において固有の有用性を持つことを示すことから始める。 この知見に基づいて、Softmax correlation(SoftmaxCorr)と呼ばれる新しい尺度を導入する。 これは、未ラベルのテストデータセットにまたがるSoftmax出力ベクトルから構築されたクラスクラス相関行列と、理想的なクラス相関を具現化した事前定義された参照行列との間のコサイン類似性を計算する。 基準行列の予測と高い類似性は、モデルがすべてのカテゴリに自信と均一な予測を提供し、最小限の不確実性と混乱を反映していることを示している。 ImageNet, CIFAR-10, WILDSを含む一連のデータセットの厳密な評価を通じて, 分布内(ID)とOOD設定の両方でモデル性能を正確に予測する際のSoftmaxCorrの予測妥当性を確認した。 さらに,提案手法の限界について考察し,今後の研究への道筋を提案する。

This work aims to develop a measure that can accurately rank the performance of various classifiers when they are tested on unlabeled data from out-of-distribution (OOD) distributions. We commence by demonstrating that conventional uncertainty metrics, notably the maximum Softmax prediction probability, possess inherent utility in forecasting model generalization across certain OOD contexts. Building on this insight, we introduce a new measure called Softmax Correlation (SoftmaxCorr). It calculates the cosine similarity between a class-class correlation matrix, constructed from Softmax output vectors across an unlabeled test dataset, and a predefined reference matrix that embodies ideal class correlations. A high resemblance of predictions to the reference matrix signals that the model delivers confident and uniform predictions across all categories, reflecting minimal uncertainty and confusion. Through rigorous evaluation across a suite of datasets, including ImageNet, CIFAR-10, and WILDS, we affirm the predictive validity of SoftmaxCorr in accurately forecasting model performance within both in-distribution (ID) and OOD settings. Furthermore, we discuss the limitations of our proposed measure and suggest avenues for future research.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# OpenECAD: コンピュータ支援設計のための効率的なビジュアル言語モデル

OpenECAD: An Efficient Visual Language Model for Computer-Aided Design ( http://arxiv.org/abs/2406.09913v1 )

ライセンス: Link先を確認
Zhe Yuan, Jianqi Shi, (参考訳) コンピュータ支援デザイン(CAD)ツールは、カップから宇宙船まであらゆるものをモデリングするために製造業界で利用されている。 これらのプログラムは使用が複雑で、通常、習得するには何年ものトレーニングと経験が必要です。 CADモデリングの重要な要素は、構造的かつ制約の厳しい2Dスケッチと3D構成である。 優れたCADモデルを製造工程にシームレスに統合することにより、生産効率を向上させることができる。 3次元形状の深い生成モデルと3次元オブジェクト再構成モデルは、重要な研究の関心を集めている。 しかし、これらのモデルのほとんどは離散形式で表現されている。 さらに、CAD操作に基づく数少ないモデルには、かなりの入力制限があることが多い。 本研究では,OpenECAD(0.55B,0.89B,4.2B)を作成するための事前学習モデルの微調整を行い,ビジュアル言語モデルの視覚的,論理的,コーディング的,汎用的な機能を活用している。 OpenECADは入力として3Dデザインの画像を処理し、高度に構造化された2Dスケッチと3D構築コマンドを生成する。 これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。 ネットワークをトレーニングするために、新しいCADデータセットを作成しました。 このデータセットは、既存の公開CADデータセットに基づいており、〜VLMトレーニングの要件を満たすように調整と拡張されている。

Computer-aided design (CAD) tools are utilized in the manufacturing industry for modeling everything from cups to spacecraft. These programs are complex to use and typically require years of training and experience to master. Structured and well-constrained 2D sketches and 3D constructions are crucial components of CAD modeling. A well-executed CAD model can be seamlessly integrated into the manufacturing process, thereby enhancing production efficiency. Deep generative models of 3D shapes and 3D object reconstruction models has garnered significant research interest. However, most of these models are represented in discrete forms. Moreover, the few models based on CAD operations often have substantial input restrictions. In this work, we fine-tuned pre-trained models to create OpenECAD (0.55B, 0.89B, and 4.2B), leveraging the visual, logical, coding, and general capabilities of visual language models. OpenECAD can process images of 3D designs as input and generate highly structured 2D sketches and 3D construction commands. These outputs can be directly used with existing CAD tools' APIs to generate project files. To train our network, we created a new CAD dataset. This dataset is based on existing public CAD datasets, with adjustments and augmentations to meet the requirements of ~VLM training.
翻訳日:2024-06-17 14:14:45 公開日:2024-06-14
# オンライン重み付き複数インスタンス学習によるロバスト圧縮追跡

Robust compressive tracking via online weighted multiple instance learning ( http://arxiv.org/abs/2406.09914v1 )

ライセンス: Link先を確認
Sandeep Singh Sengar, (参考訳) 頑丈なオブジェクトトラッカーの開発は、閉塞、動きのぼかし、高速な動き、照明のバリエーション、回転、背景のぼかし、低解像度、フレーム全体の変形などの要因により難しい作業である。 文献では、上記の問題に対処するために、スパース表現に基づく多くの良いアプローチが既に提示されている。 しかし、ほとんどのアルゴリズムはスパース表現の学習に重点を置いていない。 彼らは標的の外観のモデリングのみを考慮し、従って不正確な訓練サンプルで標的から遠ざかる。 上記の要素をすべて考慮し,スパース表現と重み付き多重学習(WMIL)アルゴリズムに基づく粗大な探索戦略を統合することで,視覚オブジェクト追跡アルゴリズムを提案する。 提案手法は,他のトラッカーと比較して,粗大な探索法によりより複雑度が低く,重要なサンプルの重み付けも可能である。 これにより、背景の特徴を前景から容易に識別することができる。 さらに,非排除サブリージョンからサンプルを抽出し,強力な分類器を効率的に開発する。 その結果、安定かつ堅牢なオブジェクトトラッカーが、上記のすべての問題に取り組むことができる。 試行錯誤したベンチマークデータセットの定量化および定性解析による実験結果から,本手法の精度と有効性を示した。

Developing a robust object tracker is a challenging task due to factors such as occlusion, motion blur, fast motion, illumination variations, rotation, background clutter, low resolution and deformation across the frames. In the literature, lots of good approaches based on sparse representation have already been presented to tackle the above problems. However, most of the algorithms do not focus on the learning of sparse representation. They only consider the modeling of target appearance and therefore drift away from the target with the imprecise training samples. By considering all the above factors in mind, we have proposed a visual object tracking algorithm by integrating a coarse-to-fine search strategy based on sparse representation and the weighted multiple instance learning (WMIL) algorithm. Compared with the other trackers, our approach has more information of the original signal with less complexity due to the coarse-to-fine search method, and also has weights for important samples. Thus, it can easily discriminate the background features from the foreground. Furthermore, we have also selected the samples from the un-occluded sub-regions to efficiently develop the strong classifier. As a consequence, a stable and robust object tracker is achieved to tackle all the aforementioned problems. Experimental results with quantitative as well as qualitative analysis on challenging benchmark datasets show the accuracy and efficiency of our method.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 超流動ヘリウム振動の量子非ガウス状態

Quantum Non-Gaussian States of Superfluid Helium Vibrations ( http://arxiv.org/abs/2406.09918v1 )

ライセンス: Link先を確認
Andrey A. Rakhubovsky, Radim Filip, (参考訳) 光に結合したフォノン系の量子非ガウス状態は、単一フォノン力学の基礎研究と量子技術への直接応用に不可欠である。 非古典的な機械状態はすでに証明されているが、そのような状態のより難しい量子非ガウス性は限定的である。 光子計数検出を用いて、低温振動超流動ヘリウムの少数フォノン状態の量子非ガウス生成を提案する。 このような音速状態の量子非ガウス深度を予測し、関連する機械的加熱下でのロバスト性について検討する。 このような音素状態の質は非常に高いので、将来的な機械実験のために、そのような状態をさらに分類する単一音素束の能力を確認する。 さらに, 実測値と温度測定値の増大を予測し, 重み付きフォノン数の増加を予測した。

Quantum non-Gaussian states of phononic systems coupled to light are essential for fundamental studies of single-phonon mechanics and direct applications in quantum technology. Although nonclassical mechanical states have already been demonstrated, more challenging quantum non-Gaussianity of such states remains limited. Using photon counting detection, we propose the quantum non-Gaussian generation of few-phonon states of low-temperature vibrating superfluid Helium. We predict the quantum non-Gaussian depth of such phononic states and investigate their robustness under relevant mechanical heating. As the quality of such phononic states is very high, we confirm a single-phonon bunching capability to further classify such states for future mechanical experiments. Moreover, we predict increasing capability for force sensing and thermometry for increasing heralded phonon numbers.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 適応型直接選好最適化による言語モデルにおける知識編集

Knowledge Editing in Language Models via Adapted Direct Preference Optimization ( http://arxiv.org/abs/2406.09920v1 )

ライセンス: Link先を確認
Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum, (参考訳) 大きな言語モデル(LLM)は、更新された世界の知識が欠如し、事実的な知識の誤りとギャップにつながるため、時代とともに時代遅れになる可能性がある。 知識編集(KE)は、高価なリトレーニングを必要としない重み更新を使用して、この課題を克服することを目的としている。 我々は,KEをLLMアライメント問題として扱うことを提案する。 そこで本研究では,知識修正に有効なDPO(Direct Preference Optimization)のバリエーションであるKDPO(Knowledge Direct Preference Optimization)を導入する。 我々の手法は、モデルに格納された知識を継続的に更新するオンラインアプローチに基づいている。 私たちは、現在の知識を負のサンプルとして、そしてDPOと呼ばれるプロセスで正のサンプルとして導入したい新しい知識として使用します。 また, 正のサンプル生成に教師強制を用い, 正のサンプルを最適化し, 局所的な変化の維持に役立てる。 我々はKE法を様々なデータセットやモデル上でテストし、それをいくつかの最先端の方法と比較し、100と500のシーケンシャルな編集を行った。 さらに,本法を標準DPO法と比較したアブレーション試験を行った。 実験結果から, 改良型DPO法はKEを改良し, 従来手法と同等あるいは良好な性能が得られることがわかった。

Large Language Models (LLMs) can become outdated over time as they may lack updated world knowledge, leading to factual knowledge errors and gaps. Knowledge Editing (KE) aims to overcome this challenge using weight updates that do not require expensive retraining. We propose treating KE as an LLM alignment problem. Toward this goal, we introduce Knowledge Direct Preference Optimization (KDPO), a variation of the Direct Preference Optimization (DPO) that is more effective for knowledge modifications. Our method is based on an online approach that continually updates the knowledge stored in the model. We use the current knowledge as a negative sample and the new knowledge we want to introduce as a positive sample in a process called DPO. We also use teacher-forcing for negative sample generation and optimize using the positive sample, which helps maintain localized changes. We tested our KE method on various datasets and models, comparing it to several cutting-edge methods, with 100 and 500 sequential edits. Additionally, we conducted an ablation study comparing our method to the standard DPO approach. Our experimental results show that our modified DPO method allows for more refined KE, achieving similar or better performance compared to previous methods.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# CliBench: 診断・処置・検査命令・処方に関する臨床診断における大規模言語モデルの多面的評価

CliBench: Multifaceted Evaluation of Large Language Models in Clinical Decisions on Diagnoses, Procedures, Lab Tests Orders and Prescriptions ( http://arxiv.org/abs/2406.09923v1 )

ライセンス: Link先を確認
Mingyu Derek Ma, Chenchen Ye, Yu Yan, Xiaoxuan Wang, Peipei Ping, Timothy S Chang, Wei Wang, (参考訳) 人工知能(AI)、特にLarge Language Models(LLM)を臨床診断プロセスに統合することは、医療の効率性とアクセシビリティを向上させる重要な可能性をもたらす。 LLMは医療分野においていくつかの可能性を示してきたが、その臨床診断への応用はいまだ研究されていない。 この分野でのLSMの現在の評価はスコープが狭く、特定の疾患や専門性に注目し、簡易な診断タスクを採用することが多い。 このギャップを埋めるために,MIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを導入する。 このベンチマークは、さまざまな専門分野の様々な医療症例の診断だけでなく、治療手順の特定、検査の順序付け、処方薬の処方といった臨床的意義のタスクも含んでいる。 構造化アウトプットオントロジーにより、CliBenchは正確な多粒度評価を可能にし、所望の粒度の多様な臨床タスクにおけるLLMの能力の詳細な理解を提供する。 臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。 臨床現場におけるLLMの可能性と限界を概観し,LLMを基盤とした医療の今後の進歩に価値ある洞察を与えることができた。

The integration of Artificial Intelligence (AI), especially Large Language Models (LLMs), into the clinical diagnosis process offers significant potential to improve the efficiency and accessibility of medical care. While LLMs have shown some promise in the medical domain, their application in clinical diagnosis remains underexplored, especially in real-world clinical practice, where highly sophisticated, patient-specific decisions need to be made. Current evaluations of LLMs in this field are often narrow in scope, focusing on specific diseases or specialties and employing simplified diagnostic tasks. To bridge this gap, we introduce CliBench, a novel benchmark developed from the MIMIC IV dataset, offering a comprehensive and realistic assessment of LLMs' capabilities in clinical diagnosis. This benchmark not only covers diagnoses from a diverse range of medical cases across various specialties but also incorporates tasks of clinical significance: treatment procedure identification, lab test ordering and medication prescriptions. Supported by structured output ontologies, CliBench enables a precise and multi-granular evaluation, offering an in-depth understanding of LLM's capability on diverse clinical tasks of desired granularity. We conduct a zero-shot evaluation of leading LLMs to assess their proficiency in clinical decision-making. Our preliminary results shed light on the potential and limitations of current LLMs in clinical settings, providing valuable insights for future advancements in LLM-powered healthcare.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 基本動作状態, ハイパーパラメータ微細調整, ガラス性:訓練されたボルツマンマシンの解釈可能なレプリカ理論に向けて

Fundamental operating regimes, hyper-parameter fine-tuning and glassiness: towards an interpretable replica-theory for trained restricted Boltzmann machines ( http://arxiv.org/abs/2406.09924v1 )

ライセンス: Link先を確認
Alberto Fachechi, Elena Agliari, Miriam Aquaro, Anthony Coolen, Menno Mulder, (参考訳) 本研究では,二つの可視層を持つ制限されたボルツマンマシンと,単一基底パターンの雑音的実現からなる非競合データセットによって訓練されたガウス的隠れ層を考察する。 本研究では,ネットワーク生成能力を記述するための統計力学フレームワークを開発し,レプリカのトリックを利用して,基礎となる順序パラメータ(レプリカ対称性)の自己拡張を仮定する。 特に、トレーニング対象の相対的な重量数、正規化パラメータなどの効果的な制御パラメータについて概説する。 さらに、レプリカ対称性の破れが発生するハイパーパラメータの空間にサブリージョンが存在するという分析的および数値的な証拠を提供する。

We consider restricted Boltzmann machines with a binary visible layer and a Gaussian hidden layer trained by an unlabelled dataset composed of noisy realizations of a single ground pattern. We develop a statistical mechanics framework to describe the network generative capabilities, by exploiting the replica trick and assuming self-averaging of the underlying order parameters (i.e., replica symmetry). In particular, we outline the effective control parameters (e.g., the relative number of weights to be trained, the regularization parameter), whose tuning can yield qualitatively-different operative regimes. Further, we provide analytical and numerical evidence for the existence of a sub-region in the space of the hyperparameters where replica-symmetry breaking occurs.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# POWN: プロトタイプなオープンワールドノード分類

POWN: Prototypical Open-World Node Classification ( http://arxiv.org/abs/2406.09926v1 )

ライセンス: Link先を確認
Marcel Hoffmann, Lukas Galke, Ansgar Scherp, (参考訳) グラフ内のノードが既知のクラスか新しいクラスに属し、後者がトレーニング中に存在しないような、オープンワールドな半教師付きノード分類の問題を考える。 既存のメソッドは、新しいクラスを検出して拒否するが、異なる新しいクラスを区別することができない。 既存の手法に適応し、問題が十分に解決されていないことを示す。 本稿では,クラスプロトタイプをベースとした,既知のクラスと新しいクラスに分類する,新しいエンドツーエンドアプローチを提案する。 本手法は, グラフ半教師付き学習, 自己教師付き学習, 擬似ラベルを組み合わせることで, ゼロショット方式で新しいクラスのプロトタイプ表現を学習する。 ビジョン領域の既存のソリューションとは対照的に、POWNはノード分類のためのデータ拡張技術を必要としない。 ベンチマークデータセットの実験では、POWNの有効性が示されており、小さなデータセットでは最大20\%、大きなデータセットでは最大30\%の精度でベースラインを上回ります。 ソースコードはhttps://github.com/Bobowner/POWN.comで入手できる。

We consider the problem of \textit{true} open-world semi-supervised node classification, in which nodes in a graph either belong to known or new classes, with the latter not present during training. Existing methods detect and reject new classes but fail to distinguish between different new classes. We adapt existing methods and show they do not solve the problem sufficiently. We introduce a novel end-to-end approach for classification into known classes and new classes based on class prototypes, which we call Prototypical Open-World Learning for Node Classification (POWN). Our method combines graph semi-supervised learning, self-supervised learning, and pseudo-labeling to learn prototype representations of new classes in a zero-shot way. In contrast to existing solutions from the vision domain, POWN does not require data augmentation techniques for node classification. Experiments on benchmark datasets demonstrate the effectiveness of POWN, where it outperforms baselines by up to $20\%$ accuracy on the small and up to $30\%$ on the large datasets. Source code is available at https://github.com/Bobowner/POWN.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 個別話者埋め込みモデルのないパーソナライズされた音声強調

Personalized Speech Enhancement Without a Separate Speaker Embedding Model ( http://arxiv.org/abs/2406.09928v1 )

ライセンス: Link先を確認
Tanel Pärnamaa, Ando Saabas, (参考訳) パーソナライズされた音声強調(PSE)モデルは、話者の声の特性に適応することにより、遠隔会議システムの音質を向上させることができる。 しかし、既存のほとんどの手法では、話者の入力音声から話者のベクトル表現を抽出するために、別の話者埋め込みモデルを必要とする。 本稿では,PSEモデル自体の内部表現を話者埋め込みとして用いることを提案する。 提案手法は,騒音抑制およびエコーキャンセルタスクに事前学習した話者埋め込みモデルを用いることで,従来の手法と同等あるいは同等に動作することを示す。 さらに,本手法はICASSP 2023 Deep Noise Suppression Challengeの勝者を平均オピニオンスコアで0.15上回っている。

Personalized speech enhancement (PSE) models can improve the audio quality of teleconferencing systems by adapting to the characteristics of a speaker's voice. However, most existing methods require a separate speaker embedding model to extract a vector representation of the speaker from enrollment audio, which adds complexity to the training and deployment process. We propose to use the internal representation of the PSE model itself as the speaker embedding, thereby avoiding the need for a separate model. We show that our approach performs equally well or better than the standard method of using a pre-trained speaker embedding model on noise suppression and echo cancellation tasks. Moreover, our approach surpasses the ICASSP 2023 Deep Noise Suppression Challenge winner by 0.15 in Mean Opinion Score.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 超伝導量子プロセッサによるスルーサファイア基板加工の統合

Integration of through-sapphire substrate machining with superconducting quantum processors ( http://arxiv.org/abs/2406.09930v1 )

ライセンス: Link先を確認
Narendra Acharya, Robert Armstrong, Yashwanth Balaji, Kevin G Crawford, James C Gates, Paul C Gow, Oscar W Kennedy, Renuka Devi Pothuraju, Kowsar Shahbazi, Connor D Shelly, (参考訳) 中間スケール量子プロセッサと一体化したサファイア加工プロセスを示す。 このプロセスは、低周波モード緩和に必要な基板間電気接続と、量子コンピュータが量子ビット数でスケールし、従って寸法として重要な信号ルーティングを可能にする。 高コヒーレンス量子ビットはフォールトトレラント量子コンピュータを構築するために必要であり、そのため、物質選択は量子ビット技術プラットフォームを開発する上で重要な考慮事項である。 サファイアは低損失誘電体基板として高コヒーレンス量子ビットをサポートすることが示されている。 加えて、サファイア基板上に堆積したタンタルや窒化チタンなどの材料選択の最近の進歩は、クビット寿命が0.3msを超えることを示したが、サファイアのスルー・基板・ビアを作るためのディープ・シリコンエッチングに準ずるプロセスが欠如しているため、スパント・ダイスを誘導的に引き起こし、サファイアを小型のプロセッサに限定したり、チップレットアーキテクチャの使用を必要としていた。 本稿では,高コヒーレンス量子ビットに適合するサファイア加工法を提案する。 この技術は直ちにモード緩和によるQPUのスケール方法を提供し、サファイアの利点を活用できるとともに、サファイア互換材料を大規模QPUに利用できるようにするスルーサファイア・アヴィアの開発に向けた道筋を提供する。

We demonstrate a sapphire machining process integrated with intermediate-scale quantum processors. The process allows through-substrate electrical connections, necessary for low-frequency mode-mitigation, as well as signal-routing, which are vital as quantum computers scale in qubit number, and thus dimension. High-coherence qubits are required to build fault-tolerant quantum computers and so material choices are an important consideration when developing a qubit technology platform. Sapphire, as a low-loss dielectric substrate, has shown to support high-coherence qubits. In addition, recent advances in material choices such as tantalum and titanium-nitride, both deposited on a sapphire substrate, have demonstrated qubit lifetimes exceeding 0.3 ms. However, the lack of any process equivalent of deep-silicon etching to create through-substrate-vias in sapphire, or to inductively shunt large dies, has limited sapphire to small-scale processors, or necessitates the use of chiplet architecture. Here, we present a sapphire machining process that is compatible with high-coherence qubits. This technique immediately provides a means to scale QPUs with integrated mode-mitigation, and provides a route toward the development of through-sapphire-vias, both of which allow the advantages of sapphire to be leveraged as well as facilitating the use of sapphire-compatible materials for large-scale QPUs.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# SCKansformer: Kansformer Backboneと階層的アテンション機構による骨髄細胞の微細な分類

SCKansformer: Fine-Grained Classification of Bone Marrow Cells via Kansformer Backbone and Hierarchical Attention Mechanisms ( http://arxiv.org/abs/2406.09931v1 )

ライセンス: Link先を確認
Yifei Chen, Zhu Zhu, Shenghao Zhu, Linwei Qiu, Binfeng Zou, Fan Jia, Yunpeng Zhu, Chenyan Zhang, Zhaojie Fang, Feiwei Qin, Jin Fan, Changmiao Wang, Yu Gao, Gang Yu, (参考訳) 急性白血病などの悪性腫瘍の発生率と死亡率は著しく上昇している。 臨床的には、病院は悪性腫瘍の診断に末梢血と骨髄の腫れの細胞診を頼りにしており、正確な血球計数が重要である。 既存の自動手法では、低機能表現能力、低解釈性、高次元マイクロイメージデータを処理する際の冗長な特徴抽出といった課題に直面している。 そこで本研究では,これらの課題に対処し,分類精度と効率を向上させる,骨髄血球の詳細な分類モデルであるSCKansformerを提案する。 このモデルは、Kansformer Encoder、SCConv Encoder、Global-Local Attention Encoderを統合している。 Kansformer Encoder は従来の MLP 層を Kan に置き換え、非線形な特徴表現と解釈性を改善した。 SCConv EncoderはSpatial and Channel Restruction Unitsと共に、特徴表現を強化し、冗長性を低減している。 Global-Local Attention Encoderは、Multi-head Self-AttentionとLocal Partモジュールを組み合わせて、グローバル機能とローカル機能の両方をキャプチャする。 我々は,1万以上のサンプルと40近い分類を含むBMCD-FGCDを用いて,パートナー病院で開発された骨髄血球微細粒度分類データセットを用いて,本モデルの有効性を検証した。 プライベートデータセットとPBCおよびALL-IDBデータセットの比較実験は、SCKansformerがすべてのデータセットで典型的なマイクロセル分類法と高度なマイクロセル分類法の両方より優れていることを示した。 ソースコードとプライベートBMCD-FGCDデータセットはhttps://github.com/JustlfC03/SCKansformer.comで公開されています。

The incidence and mortality rates of malignant tumors, such as acute leukemia, have risen significantly. Clinically, hospitals rely on cytological examination of peripheral blood and bone marrow smears to diagnose malignant tumors, with accurate blood cell counting being crucial. Existing automated methods face challenges such as low feature expression capability, poor interpretability, and redundant feature extraction when processing high-dimensional microimage data. We propose a novel fine-grained classification model, SCKansformer, for bone marrow blood cells, which addresses these challenges and enhances classification accuracy and efficiency. The model integrates the Kansformer Encoder, SCConv Encoder, and Global-Local Attention Encoder. The Kansformer Encoder replaces the traditional MLP layer with the KAN, improving nonlinear feature representation and interpretability. The SCConv Encoder, with its Spatial and Channel Reconstruction Units, enhances feature representation and reduces redundancy. The Global-Local Attention Encoder combines Multi-head Self-Attention with a Local Part module to capture both global and local features. We validated our model using the Bone Marrow Blood Cell Fine-Grained Classification Dataset (BMCD-FGCD), comprising over 10,000 samples and nearly 40 classifications, developed with a partner hospital. Comparative experiments on our private dataset, as well as the publicly available PBC and ALL-IDB datasets, demonstrate that SCKansformer outperforms both typical and advanced microcell classification methods across all datasets. Our source code and private BMCD-FGCD dataset are available at https://github.com/JustlfC03/SCKansformer.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# データセット全体にわたるSERモデルの一般化には何が必要か? 総合ベンチマーク

What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark ( http://arxiv.org/abs/2406.09933v1 )

ライセンス: Link先を確認
Adham Ibrahim, Shady Shehata, Ajinkya Kulkarni, Mukhtar Mohamed, Muhammad Abdul-Mageed, (参考訳) 音声による感情認識(SER)は、音声ベースのアプリケーションにおける人間とコンピュータの相互作用の促進に不可欠である。 特定の感情的データセットの改善にもかかわらず、SERが現実世界の状況にまたがって一般化する能力にはまだ研究のギャップがある。 本稿では,異なる感情データセットにまたがってSERシステムを一般化するためのアプローチについて検討する。 特に、11の感情的音声データセットを組み込んで、SERタスクに関する包括的なベンチマークを示す。 また,SERデータセットをトレーニング用として組み合わせた場合,オーバーサンプリング手法による不均衡なデータ分散の課題にも対処する。 さらに,SERの一般化における適応性の評価プロトコルについても検討する。 これに基づいて、我々はWhisper for SERの可能性を探求し、徹底的な評価の重要性を強調した。 提案手法は、話者に依存しない手法を統合することにより、SER技術の進歩を図っている。

Speech emotion recognition (SER) is essential for enhancing human-computer interaction in speech-based applications. Despite improvements in specific emotional datasets, there is still a research gap in SER's capability to generalize across real-world situations. In this paper, we investigate approaches to generalize the SER system across different emotion datasets. In particular, we incorporate 11 emotional speech datasets and illustrate a comprehensive benchmark on the SER task. We also address the challenge of imbalanced data distribution using over-sampling methods when combining SER datasets for training. Furthermore, we explore various evaluation protocols for adeptness in the generalization of SER. Building on this, we explore the potential of Whisper for SER, emphasizing the importance of thorough evaluation. Our approach is designed to advance SER technology by integrating speaker-independent methods.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 連続学習の順序を忘れる:まず学習した例が最後に忘れられる

Forgetting Order of Continual Learning: Examples That are Learned First are Forgotten Last ( http://arxiv.org/abs/2406.09935v1 )

ライセンス: Link先を確認
Guy Hacohen, Tinne Tuytelaars, (参考訳) 破滅的な忘れは継続的な学習において重要な課題となり、新しいデータでトレーニングされた場合、モデルは以前のタスクを忘れることが多い。 私たちの経験的分析では、破滅的な忘れ方と学習速度との間に強い相関関係があることが示されています。 リプレイに基づく連続学習手法は、リハーサルの中間学習例に着目して、この現象を活用できることを実証する。 我々はGoldilocksを紹介した。これは新しいリプレイバッファサンプリング手法で、学習したサンプルを高速あるいは遅すぎるとフィルタリングし、学習を中間的な速度で維持する。 Goldilocksは既存の連続学習アルゴリズムを改善し、複数の画像分類タスクで最先端のパフォーマンスを実現する。

Catastrophic forgetting poses a significant challenge in continual learning, where models often forget previous tasks when trained on new data. Our empirical analysis reveals a strong correlation between catastrophic forgetting and the learning speed of examples: examples learned early are rarely forgotten, while those learned later are more susceptible to forgetting. We demonstrate that replay-based continual learning methods can leverage this phenomenon by focusing on mid-learned examples for rehearsal. We introduce Goldilocks, a novel replay buffer sampling method that filters out examples learned too quickly or too slowly, keeping those learned at an intermediate speed. Goldilocks improves existing continual learning algorithms, leading to state-of-the-art performance across several image classification tasks.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# ALGM: 平面視変換器を用いた効率的なセマンティックセマンティックセグメンテーションのための適応型局所点-球面トケマージ

ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers ( http://arxiv.org/abs/2406.09936v1 )

ライセンス: Link先を確認
Narges Norouzi, Svetlana Orlova, Daan de Geus, Gijs Dubbelman, (参考訳) 本研究では,アダプティブローカル-then-Global Merging (ALGM) を提案する。 ALGMはトークンを2つのステージにマージする: (1) 最初のネットワーク層では、小さなローカルウィンドウに類似のトークンをマージし、(2)ネットワークの中途で、画像全体にわたって類似のトークンをマージする。 これは、これらの状況において、コサインの類似度が高いトークンは、セグメンテーション品質の低下なしにマージ可能であることを発見した分析によって動機づけられた。 複数のデータセットとネットワーク構成にわたる広範な実験により、ALGMはスループットを最大100%向上するだけでなく、平均IoUを最大+1.1向上させることで、既存の方法よりもセグメンテーション品質と効率のトレードオフを達成できることを示した。 さらに,本手法は推論中に適応的であり,アプリケーションによっては,同じモデルを最適な効率や精度で利用することができる。 コードはhttps://tue-mps.github.io/ALGMで公開されている。

This work presents Adaptive Local-then-Global Merging (ALGM), a token reduction method for semantic segmentation networks that use plain Vision Transformers. ALGM merges tokens in two stages: (1) In the first network layer, it merges similar tokens within a small local window and (2) halfway through the network, it merges similar tokens across the entire image. This is motivated by an analysis in which we found that, in those situations, tokens with a high cosine similarity can likely be merged without a drop in segmentation quality. With extensive experiments across multiple datasets and network configurations, we show that ALGM not only significantly improves the throughput by up to 100%, but can also enhance the mean IoU by up to +1.1, thereby achieving a better trade-off between segmentation quality and efficiency than existing methods. Moreover, our approach is adaptive during inference, meaning that the same model can be used for optimal efficiency or accuracy, depending on the application. Code is available at https://tue-mps.github.io/ALGM.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# ニューラルトランスを用いたニュースバイアス検出実験

Experiments in News Bias Detection with Pre-Trained Neural Transformers ( http://arxiv.org/abs/2406.09938v1 )

ライセンス: Link先を確認
Tim Menzner, Jochen L. Leidner, (参考訳) World Wide Webは、事実報告やコメントなど、世界中の情報に未熟なアクセスを提供する。 しかし、州俳優や商業選手は次第に偏見のある(歪んだ)情報や偽の(非現実的な)情報を広めて、彼らのアジェンダを宣伝した。 文レベルのニュースバイアス検出とサブタイプ分類のタスクにおいて,いくつかの大規模で事前学習された言語モデルを比較し,定量的かつ質的な結果を提供する。

The World Wide Web provides unrivalled access to information globally, including factual news reporting and commentary. However, state actors and commercial players increasingly spread biased (distorted) or fake (non-factual) information to promote their agendas. We compare several large, pre-trained language models on the task of sentence-level news bias detection and sub-type classification, providing quantitative and qualitative results.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 機械学習の観点からのエングラムの実装:基本モチーフとしてのXOR

Implementing engrams from a machine learning perspective: XOR as a basic motif ( http://arxiv.org/abs/2406.09940v1 )

ライセンス: Link先を確認
Jesus Marco de Lucas, Maria Peña Fernandez, Lara Lloret Iglesias, (参考訳) 私たちは以前、オートエンコーダのような機械学習ツールで使われているのと同様のメカニズムに従って、複雑なマルチモーダル情報を圧縮形式で脳内でどのように表現できるかというアイデアを提示しました。 この短いコメントで、我々は主に実践的な目的を持って、生物学的実装の基本的な問題として、損失関数として機能するメカニズムと、単純なトレーニング構成を構築するために必要なフィードバックを提供する神経ネットワークにどのように接続できるか、について考察する。 我々は,XORスイッチを実装した基本的なモチーフに基づいて,興奮ニューロンや抑制ニューロンの少ない初期アイデアを提示する。 このようなモチーフはホメオスタシスの原理で導かれ、他の神経細胞構造へのフィードバックを提供する損失関数を実装し、制御系を確立する。 我々は、C.ElegansのコネクトームにおけるこのXORモチーフの存在を分析し、よく知られた側方抑制モチーフとの関係を示す。 次に、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。 計算アナロジーによって導かれた最初の例は、単純な旋律の場合のように、バイナリシーケンスの学習に適用されたこのアプローチの実現可能性を示すものである。 まとめると, 生物学的学習機構と計算学習機構の並列性, 基本的なモチーフと訓練手順の同定, および興奮ニューロンと抑制ニューロンの両方を含む単純なリカレントネットワークを用いてメロディをコードするエングラムの構築方法について検討した。

We have previously presented the idea of how complex multimodal information could be represented in our brains in a compressed form, following mechanisms similar to those employed in machine learning tools, like autoencoders. In this short comment note we reflect, mainly with a didactical purpose, upon the basic question for a biological implementation: what could be the mechanism working as a loss function, and how it could be connected to a neuronal network providing the required feedback to build a simple training configuration. We present our initial ideas based on a basic motif that implements an XOR switch, using few excitatory and inhibitory neurons. Such motif is guided by a principle of homeostasis, and it implements a loss function that could provide feedback to other neuronal structures, establishing a control system. We analyse the presence of this XOR motif in the connectome of C.Elegans, and indicate the relationship with the well-known lateral inhibition motif. We then explore how to build a basic biological neuronal structure with learning capacity integrating this XOR motif. Guided by the computational analogy, we show an initial example that indicates the feasibility of this approach, applied to learning binary sequences, like it is the case for simple melodies. In summary, we provide didactical examples exploring the parallelism between biological and computational learning mechanisms, identifying basic motifs and training procedures, and how an engram encoding a melody could be built using a simple recurrent network involving both excitatory and inhibitory neurons.
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# SemanticSpray++:湿潤表面条件下での自律運転のためのマルチモーダルデータセット

SemanticSpray++: A Multimodal Dataset for Autonomous Driving in Wet Surface Conditions ( http://arxiv.org/abs/2406.09945v1 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer, (参考訳) 自動運転車は、環境をナビゲートするためにカメラ、LiDAR、レーダーセンサーに依存している。 雪、雨、霧といった逆の気象条件は、カメラとLiDARベースの認識システムに問題があることが知られている。 現在、マルチモーダルラベル付きデータを含むデータセットが公開されていないため、これらの手法の性能を評価することは困難である。 この制限に対処するために、濡れた表面条件下でのハイウェイのようなシナリオのカメラ、LiDAR、レーダーデータにラベルを提供するSemanticSpray++データセットを提案する。 特に、カメラ画像用の2Dバウンディングボックス、LiDARポイントクラウド用の3Dバウンディングボックス、レーダーターゲット用のセマンティックラベルを提供する。 SemanticSpray++データセットは、3つのセンサーのすべてのモダリティをラベル付けすることで、車両が濡れた表面を走行する際に異なる知覚方法のパフォーマンスを分析するための包括的なテストベッドを提供する。 また,包括的ラベル統計と合わせて,複数のタスクにまたがる複数のベースライン手法を評価し,その性能を解析する。 データセットはhttps://semantic-spray-dataset.github.ioで提供される。

Autonomous vehicles rely on camera, LiDAR, and radar sensors to navigate the environment. Adverse weather conditions like snow, rain, and fog are known to be problematic for both camera and LiDAR-based perception systems. Currently, it is difficult to evaluate the performance of these methods due to the lack of publicly available datasets containing multimodal labeled data. To address this limitation, we propose the SemanticSpray++ dataset, which provides labels for camera, LiDAR, and radar data of highway-like scenarios in wet surface conditions. In particular, we provide 2D bounding boxes for the camera image, 3D bounding boxes for the LiDAR point cloud, and semantic labels for the radar targets. By labeling all three sensor modalities, the SemanticSpray++ dataset offers a comprehensive test bed for analyzing the performance of different perception methods when vehicles travel on wet surface conditions. Together with comprehensive label statistics, we also evaluate multiple baseline methods across different tasks and analyze their performances. The dataset will be available at https://semantic-spray-dataset.github.io .
翻訳日:2024-06-17 14:05:00 公開日:2024-06-14
# 同時二重Q-ラーニングの有限時間解析

Finite-Time Analysis of Simultaneous Double Q-learning ( http://arxiv.org/abs/2406.09946v1 )

ライセンス: Link先を確認
Hyunjun Na, Donghwan Lee, (参考訳) Q$-learningは、最も基本的な強化学習(RL)アルゴリズムの1つである。 様々なアプリケーションで広く成功しているにもかかわらず、$Q$-learningアップデートでは過大評価バイアスが発生しやすい。 この問題を解決するために、double $Q$-learningでは、学習プロセス中にランダムに選択され更新される2つの独立した$Q$-estimatorが採用されている。 本稿では,Double $Q$-learning (SDQ)と呼ばれる修正ダブル$Q$-learningを提案し,その有限時間解析を行った。 SDQは2つの$Q$-estimator間のランダムな選択の必要性を排除し、この修正により、効率的な有限時間解析を容易にする新しい切り替えシステムフレームワークのレンズを通して、ダブル$Q$-learningを分析することができる。 実験的な研究によると、SDQは最大化バイアスを緩和する能力を維持しながら、倍の$Qの学習よりも早く収束する。 最後に,SDQの有限時間予測誤差を導出する。

$Q$-learning is one of the most fundamental reinforcement learning (RL) algorithms. Despite its widespread success in various applications, it is prone to overestimation bias in the $Q$-learning update. To address this issue, double $Q$-learning employs two independent $Q$-estimators which are randomly selected and updated during the learning process. This paper proposes a modified double $Q$-learning, called simultaneous double $Q$-learning (SDQ), with its finite-time analysis. SDQ eliminates the need for random selection between the two $Q$-estimators, and this modification allows us to analyze double $Q$-learning through the lens of a novel switching system framework facilitating efficient finite-time analysis. Empirical studies demonstrate that SDQ converges faster than double $Q$-learning while retaining the ability to mitigate the maximization bias. Finally, we derive a finite-time expected error bound for SDQ.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# BLEnD: 異文化と言語における日々の知識に関するLLMのベンチマーク

BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages ( http://arxiv.org/abs/2406.09948v1 )

ライセンス: Link先を確認
Junho Myung, Nayeon Lee, Yi Zhou, Jiho Jin, Rifki Afina Putri, Dimosthenis Antypas, Hsuvas Borkakoty, Eunsu Kim, Carla Perez-Almendros, Abinew Ali Ayele, Víctor Gutiérrez-Basulto, Yazmín Ibáñez-García, Hwaran Lee, Shamsuddeen Hassan Muhammad, Kiwoong Park, Anar Sabuhi Rzayev, Nina White, Seid Muhie Yimam, Mohammad Taher Pilehvar, Nedjma Ousidhoum, Jose Camacho-Collados, Alice Oh, (参考訳) 大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。 LLMの文化的感受性を評価するための既存のベンチマークは、ウィキペディアのようなオンラインソースから収集される単一の言語に限られており、様々な地域の日常生活を反映していない。 つまり、誕生日のお祝いや香辛料、楽器の若者の遊び、学校で練習するスポーツなどの情報は、一般的な文化知識であるが、特に表現不足の文化において、簡単に収集できるオンライン資料では珍しくない。 この問題に対処するために,多様な文化や言語にわたるLLMの日常的知識を評価するために,手作りのベンチマークであるBLEnDを紹介した。 BLEnDは、アムハラ語、アサメセ語、アゼルバイジャン語、ハウサ語、スンダ語など、13の言語で16か国から52.6kの質問応答対で構成されている。 提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。 LLMは, 最良性能モデルである GPT-4 の57.34% の差で, オンラインで高度に表現された文化に対して, より優れた性能を示すことを示す。 中級から高レベルの言語で表される文化では、LLMはローカル言語で、低レベルの言語で表される文化では、ローカル言語よりも英語で表される。 私たちはデータセットをhttps://github.com/nlee0212/BLEnDで公開しています。

Large language models (LLMs) often lack culture-specific knowledge of daily life, especially across diverse regions and non-English languages. Existing benchmarks for evaluating LLMs' cultural sensitivities are limited to a single language or collected from online sources such as Wikipedia, which do not reflect the mundane everyday lifestyles of diverse regions. That is, information about the food people eat for their birthday celebrations, spices they typically use, musical instruments youngsters play, or the sports they practice in school is common cultural knowledge but uncommon in easily collected online sources, especially for underrepresented cultures. To address this issue, we introduce BLEnD, a hand-crafted benchmark designed to evaluate LLMs' everyday knowledge across diverse cultures and languages. BLEnD comprises 52.6k question-answer pairs from 16 countries/regions, in 13 different languages, including low-resource ones such as Amharic, Assamese, Azerbaijani, Hausa, and Sundanese. We construct the benchmark to include two formats of questions: short-answer and multiple-choice. We show that LLMs perform better for cultures that are highly represented online, with a maximum 57.34% difference in GPT-4, the best-performing model, in the short-answer format. For cultures represented by mid-to-high-resource languages, LLMs perform better in their local languages, but for cultures represented by low-resource languages, LLMs perform better in English than the local languages. We make our dataset publicly available at: https://github.com/nlee0212/BLEnD.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# ニューラルコンセプトバインダー

Neural Concept Binder ( http://arxiv.org/abs/2406.09949v1 )

ライセンス: Link先を確認
Wolfgang Stammer, Antonia Wüst, David Steinmann, Kristian Kersting, (参考訳) オブジェクトベースの視覚的推論の課題は、記述的だが異なる概念表現を生成することである。 さらに、これを教師なしの方法で行うには、人間のユーザーはモデルの学習された概念を理解し、潜在的に誤った概念を修正する必要がある。 この課題に対処するために、我々は「概念スロット符号化(concept-slot encodings)」と呼ぶ概念表現を導出する新しいフレームワークであるNeural Concept Binderを紹介した。 これらのエンコーディングは、オブジェクト中心のブロックスロットエンコーディングによる"ソフトバインディング"と、検索ベースの推論による"ハードバインディング"の両方を活用する。 Neural Concept Binderは、人間の入力やGPT-4のような他のAIモデルからの洞察など、直接的な概念検査と外部知識の直接的な統合を容易にする。 さらに、我々はハードバインディング機構の導入が性能を損なうものではないことを実証し、新たに導入されたCLEVR-Sudokuデータセットの評価によって証明されたように、ニューラルネットワークモジュールとシンボルモジュールの両方にシームレスに統合できることを示した。

The challenge in object-based visual reasoning lies in generating descriptive yet distinct concept representations. Moreover, doing this in an unsupervised fashion requires human users to understand a model's learned concepts and potentially revise false concepts. In addressing this challenge, we introduce the Neural Concept Binder, a new framework for deriving discrete concept representations resulting in what we term "concept-slot encodings". These encodings leverage both "soft binding" via object-centric block-slot encodings and "hard binding" via retrieval-based inference. The Neural Concept Binder facilitates straightforward concept inspection and direct integration of external knowledge, such as human input or insights from other AI models like GPT-4. Additionally, we demonstrate that incorporating the hard binding mechanism does not compromise performance; instead, it enables seamless integration into both neural and symbolic modules for intricate reasoning tasks, as evidenced by evaluations on our newly introduced CLEVR-Sudoku dataset.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# 文脈化マンダリン音声認識のための効率的なテキスト強調手法

An efficient text augmentation approach for contextualized Mandarin speech recognition ( http://arxiv.org/abs/2406.09950v1 )

ライセンス: Link先を確認
Naijun Zheng, Xucheng Wan, Kai Liu, Ziqing Du, Zhou Huan, (参考訳) 文脈適応型自動音声認識(ASR)システムは、一般的でない単語の認識を改善するために一般的に用いられているが、その有効性は、音声テキストデータ可用性の固有の制限によって妨げられている。 この課題に対処するため,本研究では,計算コストを最小限に抑えつつ,テキストのみのデータセットを活用し,簡単なテキスト拡張(TA)技術を用いて事前学習されたASRモデルを文脈化することを提案する。 特に、事前学習したCIFベースのASRを文脈化するために、限られた音声テキストデータを用いてコードブックを構築する。 簡単なコードブックのルックアッププロセスを利用することで、利用可能なテキストのみのデータを遅延テキスト埋め込みに変換する。 これらの埋め込みは、コンテキスト化されたASRの入力を強化する。 多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。 トップパフォーマンスシステムでは、レアワードで最大30%、全単語で15%の相対的なCER改善がなされている。

Although contextualized automatic speech recognition (ASR) systems are commonly used to improve the recognition of uncommon words, their effectiveness is hindered by the inherent limitations of speech-text data availability. To address this challenge, our study proposes to leverage extensive text-only datasets and contextualize pre-trained ASR models using a straightforward text-augmentation (TA) technique, all while keeping computational costs minimal. In particular, to contextualize a pre-trained CIF-based ASR, we construct a codebook using limited speech-text data. By utilizing a simple codebook lookup process, we convert available text-only data into latent text embeddings. These embeddings then enhance the inputs for the contextualized ASR. Our experiments on diverse Mandarin test sets demonstrate that our TA approach significantly boosts recognition performance. The top-performing system shows relative CER improvements of up to 30% on rare words and 15% across all words in general.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# ジェノン、ダブルカバー、耐故障性クリフォードゲート

Genons, Double Covers and Fault-tolerant Clifford Gates ( http://arxiv.org/abs/2406.09951v1 )

ライセンス: Link先を確認
Simon Burton, Elijah Durso-Sabina, Natalie C. Brown, (参考訳) オーバーヘッドや接続性に制約がある量子コードの開発には、多くの作業が費やされている。 しかし、このような法典が豊富にあることを考えると、それを支える耐障害性論理ゲートは驚くほど不足している。 入力 $[[n,k,d]] のコードを与えると、自然に発生するフォールトトレラントな論理的クリフォードゲートを持つシンプレクティック二重符号が$[[2n,2k,\ge d]] となるような構成を定義する。 2次元の$D(\mathbb{Z}_2)$-トポロジー符号とジェノン(ツイスト)とドメインウォールに適用すると、シンプレクティックダブルはジェノンフリーであり、おそらくはより高い属である。 元の符号上のジェノンのブレイディングはシンプレクティックダブルのデーンツイストとなる。 このようなトポロジカルな操作は、全接続アーキテクチャに特に適しており、QuantinuumのH1-1トラップイオン量子コンピュータで実験的にこれを実証する。

A great deal of work has been done developing quantum codes with varying overhead and connectivity constraints. However, given the such an abundance of codes, there is a surprising shortage of fault-tolerant logical gates supported therein. We define a construction, such that given an input $[[n,k,d]]$ code, yields a $[[2n,2k,\ge d]]$ symplectic double code with naturally occurring fault-tolerant logical Clifford gates. As applied to 2-dimensional $D(\mathbb{Z}_2)$-topological codes with genons (twists) and domain walls, we find the symplectic double is genon free, and of possibly higher genus. Braiding of genons on the original code becomes Dehn twists on the symplectic double. Such topological operations are particularly suited for architectures with all-to-all connectivity, and we demonstrate this experimentally on Quantinuum's H1-1 trapped-ion quantum computer.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# BiVLC:テキスト・画像検索による視覚・言語構成性の評価

BiVLC: Extending Vision-Language Compositionality Evaluation with Text-to-Image Retrieval ( http://arxiv.org/abs/2406.09952v1 )

ライセンス: Link先を確認
Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune, (参考訳) SugarCrepeのような既存のVision-Language Compositionality (VLC)ベンチマークは画像からテキストへの検索問題として定式化されている。 本研究では,Bidirectional Vision-Language Compositionality (BiVLC)データセットを提案する。 BiVLCの新規性は、合成テキストから生成された合成硬質負の画像を加えることで、2つの画像対テキスト検索例(各画像に対して1つ)と、さらに2つのテキスト対画像検索例(各テキストに対して1つ)を実現することである。 人間のアノテーションは、ベンチマークの有効性を保証する不正な例をフィルタリングする。 BiVLCの実験により、現在のマルチモーダルモデルの弱点が明らかになった。 実際、両方の検索方向を考慮すると、以前の研究で得られた結論は大幅に変化する。 また,SgarCrepe と BiVLC の両検索方向において,合成画像とテキストを用いて訓練したコントラストモデルの有効性を示す。 BiVLCにおける人間のパフォーマンスのギャップは、視覚-言語構成性が依然として難しい問題であることを示している。 BiVLCとコードはhttps://imirandam.github.io/BiVLC_project_pageで公開されている。

Existing Vision-Language Compositionality (VLC) benchmarks like SugarCrepe are formulated as image-to-text retrieval problems, where, given an image, the models need to select between the correct textual description and a synthetic hard negative text. In this work we present the Bidirectional Vision-Language Compositionality (BiVLC) dataset. The novelty of BiVLC is to add a synthetic hard negative image generated from the synthetic text, resulting in two image-to-text retrieval examples (one for each image) and, more importantly, two text-to-image retrieval examples (one for each text). Human annotators filter out ill-formed examples ensuring the validity of the benchmark. The experiments on BiVLC uncover a weakness of current multimodal models, as they perform poorly in the text-to-image direction. In fact, when considering both retrieval directions, the conclusions obtained in previous works change significantly. In addition to the benchmark, we show that a contrastive model trained using synthetic images and texts improves the state of the art in SugarCrepe and in BiVLC for both retrieval directions. The gap to human performance in BiVLC confirms that Vision-Language Compositionality is still a challenging problem. BiVLC and code are available at https://imirandam.github.io/BiVLC_project_page.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# DAG-Plan:Dual-Arm協調計画のための直接非循環依存グラフの生成

DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning ( http://arxiv.org/abs/2406.09953v1 )

ライセンス: Link先を確認
Zeyu Gao, Yao Mu, Jinye Qu, Mengkang Hu, Lingyue Guo, Ping Luo, Yanfeng Lu, (参考訳) デュアルアームロボットは、複数のオブジェクトを同時に操作したり、両方のアームを使ってタスクを協調的に実行することで、シングルアームロボットよりも汎用性と効率性が向上する。 しかし、複雑な長距離作業のために両腕を効果的に調整することは重要な課題である。 既存のタスク計画手法は、主にシングルアームロボットに焦点をあてるか、あるいは事前に定義されたバイマニュアル操作に依存しており、デュアルアームシステムの能力を十分に活用できていない。 この制限に対処するために、デュアルアームロボットに適した構造化タスク計画フレームワークであるDAG-Planを導入する。 DAG-Planは、大規模言語モデル(LLM)を使用して、複雑なタスクを有向非巡回グラフ(DAG)内のノードとして表される実行可能なサブタスクに分解する。 批判的に言えば、DAG-Planはこれらのサブタスクをリアルタイム環境観測に基づく適切なアームに動的に割り当て、並列かつ適応的な実行を可能にする。 78のサブタスクと26のオブジェクトからなる9つの逐次タスクからなるDual-Arm Kitchen BenchmarkでDAG-Planを評価した。 DAG-Plan が LLM を直接使用して計画を生成するよりも優れており、シングルアームのタスク計画ベースラインに比べて50%近く効率が良く、デュアルアームのタスク計画ベースラインの成功率がほぼ2倍である。

Dual-arm robots offer enhanced versatility and efficiency over single-arm counterparts by enabling concurrent manipulation of multiple objects or cooperative execution of tasks using both arms. However, effectively coordinating the two arms for complex long-horizon tasks remains a significant challenge. Existing task planning methods predominantly focus on single-arm robots or rely on predefined bimanual operations, failing to fully leverage the capabilities of dual-arm systems. To address this limitation, we introduce DAG-Plan, a structured task planning framework tailored for dual-arm robots. DAG-Plan harnesses large language models (LLMs) to decompose intricate tasks into actionable sub-tasks represented as nodes within a directed acyclic graph (DAG). Critically, DAG-Plan dynamically assigns these sub-tasks to the appropriate arm based on real-time environmental observations, enabling parallel and adaptive execution. We evaluate DAG-Plan on the novel Dual-Arm Kitchen Benchmark, comprising 9 sequential tasks with 78 sub-tasks and 26 objects. Extensive experiments demonstrate the superiority of DAG-Plan over directly using LLM to generate plans, achieving nearly 50% higher efficiency compared to the single-arm task planning baseline and nearly double the success rate of the dual-arm task planning baseline.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# 動的(グラフ)ニューラルネットワークを用いたルールベース学習

Rule Based Learning with Dynamic (Graph) Neural Networks ( http://arxiv.org/abs/2406.09954v1 )

ライセンス: Link先を確認
Florian Seiffarth, (参考訳) 古典的ニューラルネットワークアーキテクチャの一般的な問題は、学習プロセスに追加の情報や専門家の知識を自然に統合できないことである。 この制限を克服するために,(1)知識からルール関数を生成すること,(2)ルールを用いてルールベースの層を定義すること,という2段階のアプローチを提案する。 この研究の焦点は第2段階、すなわち、入力サンプルに依存する重み行列とバイアスベクトルの学習可能なパラメータを動的に配置するように設計されたルールベースの層である。 実際、本手法は、適切なルールを選択することで、完全連結層や畳み込み層のような古典的なフィードフォワード層を一般化することを証明している。 具体的な応用として、通常のグラフニューラルネットワークのいくつかの制限を克服するルールベースグラフニューラルネットワーク(RuleGNN)を提案する。 実験の結果,ルールGNNの予測性能はWeisfeiler-Lemanラベルとパターンカウントに基づく単純なルールを用いて,最先端のグラフ分類器に匹敵することがわかった。 さらに,新しいベンチマークグラフデータセットを導入し,専門家の知識をルールGNNに組み込むことによって,通常のグラフニューラルネットワークよりもパワフルになることを示す。

A common problem of classical neural network architectures is that additional information or expert knowledge cannot be naturally integrated into the learning process. To overcome this limitation, we propose a two-step approach consisting of (1) generating rule functions from knowledge and (2) using these rules to define rule based layers -- a new type of dynamic neural network layer. The focus of this work is on the second step, i.e., rule based layers that are designed to dynamically arrange learnable parameters in the weight matrices and bias vectors depending on the input samples. Indeed, we prove that our approach generalizes classical feed-forward layers such as fully connected and convolutional layers by choosing appropriate rules. As a concrete application we present rule based graph neural networks (RuleGNNs) that overcome some limitations of ordinary graph neural networks. Our experiments show that the predictive performance of RuleGNNs is comparable to state-of-the-art graph classifiers using simple rules based on Weisfeiler-Leman labeling and pattern counting. Moreover, we introduce new synthetic benchmark graph datasets to show how to integrate expert knowledge into RuleGNNs making them more powerful than ordinary graph neural networks.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# マージナルの性質によるグラフ状態の解消

Distinguishing Graph States by the Properties of Their Marginals ( http://arxiv.org/abs/2406.09956v1 )

ライセンス: Link先を確認
Lina Vandré, Jarn de Jong, Frederik Hahn, Adam Burchardt, Otfried Gühne, Anna Pappa, (参考訳) グラフ状態は、多くのネットワークアプリケーションにおいてユビキタスであるマルチパーティの絡み合った量子状態のクラスである。 グラフ状態の局所ユニタリ(LU)同値性を決定する問題はNPにあり、効率的な一般法が可能であるかどうかは未解決のままである。 グラフ状態の同値性を排除できるグラフの辺構造に基づいて、計算が容易なLU不変量の族を導入する。 これらの不変量は、8キュービット以下のグラフ状態の全てのLU軌道と絡み合いクラスを一意に識別し、この方法がより多くのキュービットグラフ状態に対してどれだけ信頼できるかについて議論できることが示される。 また、より多くのノードを持つ絡み合いクラスの例についても論じる。 さらに、我々は、グラフをより小さなグラフに縮合させることによって機能するグラフ状態の局所的リフラード(LC)同値性をテストするツールを一般化する。 より小さいグラフの同値性に関するステートメント(計算が容易な)は、元のより大きなグラフの同値性に関するステートメントを推論するために使用できることを示す。

Graph states are a class of multi-partite entangled quantum states that are ubiquitous in many networking applications; the study of equivalence relations between graph states under local operations aims to provide methods to relate graph states in networked settings. The problem of determining local unitary (LU) equivalence of graph states is in NP, and it remains an open question if efficient general methods are possible. We introduce a family of easy-to-compute LU-invariants based on the marginal structure of the graphs that allow to rule out equivalence of graph states. We show that these invariants can uniquely identify all LU-orbits and entanglement classes of every graph state of 8 qubits or less and discuss how reliable the methods are for more qubit graph states. We also discuss examples of entanglement classes with more nodes, where their marginal structure does not allow us to tell them apart. Additionally, we generalise tools to test local clifford (LC) equivalence of graph states that work by condensing graphs into other graphs of smaller size. We show that statements on the equivalence of the smaller graphs (which are easier to compute) can be used to infer statements on the equivalence of the original, larger graphs.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# H-Fac:Factized Hamiltonian Descentによるメモリ効率の最適化

H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian Descent ( http://arxiv.org/abs/2406.09958v1 )

ライセンス: Link先を確認
Son Nguyen, Lizhang Chen, Bo Liu, Qiang Liu, (参考訳) 本研究では,モーメントとスケーリングパラメータに対する因子的アプローチを取り入れた適応最適化器H-Facを提案する。 本稿では,ResNetとVision Transformerの競合性能を示すとともに,モーメント推定器のランク1パラメータ化によるサブ線形メモリコストを実現する。 我々はハミルトン力学の原理に基づいてアルゴリズムを開発し、ロバストな理論的基盤を提供する。 これらの最適化アルゴリズムは、単純で適応性があり、多様な設定で容易に実装できるように設計されている。

In this study, we introduce a novel adaptive optimizer, H-Fac, which incorporates a factorized approach to momentum and scaling parameters. Our algorithm demonstrates competitive performances on both ResNets and Vision Transformers, while achieving sublinear memory costs through the use of rank-1 parameterizations for moment estimators. We develop our algorithms based on principles derived from Hamiltonian dynamics, providing robust theoretical underpinnings. These optimization algorithms are designed to be both straightforward and adaptable, facilitating easy implementation in diverse settings.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# 規制透明性のためのビジネスプロセス管理の拡張

Extending Business Process Management for Regulatory Transparency ( http://arxiv.org/abs/2406.09960v1 )

ライセンス: Link先を確認
Jannis Kiesel, Elias Grünewald, (参考訳) ますます複雑なビジネスプロセスは、疎結合のクラウドネイティブシステムによって実現されます。 このような急激な開発環境では、データコントローラは、開発チームとデータ保護スタッフ間のコミュニケーションのオーバーヘッドが大きいため、個人データ処理アクティビティをキャプチャし、更新するという課題に直面します。 現在、確立されたビジネスプロセス管理手法は、システムに関する貴重な洞察を生み出すが、規制の透明性義務をすべて考慮していない。 例えば、データコントローラは、データカテゴリ、法的目的仕様、サードパーティの転送などに関するすべての情報を記録する必要があります。 そこで我々は,ビジネスプロセスとアプリケーションシステムのギャップを埋めるために,プロセス指向の観点からの個人データの透明性のモデリング,発見,検証を支援する3つのコントリビューションを提供することを提案する。 我々は、規制の透明性情報を特徴とするBPMNへのプラグイン拡張を提供することで、関連するビジネス活動の透明性モデリングを可能にします。 さらに、イベントログを使用して、現実的なクラウドネイティブシステムにおける規制透明性情報を記録します。 そこで我々は,プロセスマイニング技術を活用してビジネスプロセス内の個人データフローの発見と分析を行う。 すべてのコントリビューションのためのプロトタイプを設計し、実装し、ビジネスプロセス指向の透明性を実現するために必要な適切な統合とモデリングの取り組みを強調します。 また、GDPRや他の法的枠組みが課している規制要件と、現在のビジネスプロセスエンジニアリング技術とを結びつける。

Ever-increasingly complex business processes are enabled by loosely coupled cloud-native systems. In such fast-paced development environments, data controllers face the challenge of capturing and updating all personal data processing activities due to considerable communication overhead between development teams and data protection staff. To date, established business process management methods generate valuable insights about systems, however, they do not account for all regulatory transparency obligations. For instance, data controllers need to record all information about data categories, legal purpose specifications, third-country transfers, etc. Therefore, we propose to bridge the gap between business processes and application systems by providing three contributions that assist in modeling, discovering, and checking personal data transparency through a process-oriented perspective. We enable transparency modeling for relevant business activities by providing a plug-in extension to BPMN featuring regulatory transparency information. Furthermore, we utilize event logs to record regulatory transparency information in realistic cloud-native systems. On this basis, we leverage process mining techniques to discover and analyze personal data flows in business processes, e.g., through transparency conformance checking. We design and implement prototypes for all contributions, emphasizing the appropriate integration and modeling effort required to create business-process-oriented transparency. Altogether, we connect current business process engineering techniques with regulatory needs as imposed by the GDPR and other legal frameworks.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# ChartMimic: Chart-to-Code生成によるLMMのクロスモーダル推論機能の評価

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation ( http://arxiv.org/abs/2406.09961v1 )

ライセンス: Link先を確認
Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang, (参考訳) 我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを紹介する。 ChartMimicは情報集約型ビジュアルチャートとテキストインストラクションを入力として使用し、グラフレンダリングの対応するコードを生成するためにLMMを必要とする。 ChartMimicには1,000の人間が計算した(図、命令、コード)三つ子が含まれており、これは様々な分野(例えば、物理学、コンピュータ科学、経済学など)の科学論文で見られる真正のチャートのユースケースを表している。 これらのチャートは18の正規型と4つの先進型にまたがっており、191のサブカテゴリに分かれている。 さらに,出力コードと描画チャートの自動評価を行うためのマルチレベル評価指標を提案する。 既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力の評価に重点を置いている。 3つのプロプライエタリモデルと11のオープンウェイトモデルの評価は、ChartMimicがもたらす重大な課題を強調している。 先進的な GPT-4V であっても、クロード-3-オプスは平均スコア73.2 と 53.7 しか得られず、改善の余地は大きい。 我々は、ChartMimicがLMMの開発を刺激し、人工知能の追求を進めることを期待する。

We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains(e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 191 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of 3 proprietary models and 11 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average score of 73.2 and 53.7, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# 対称性制限量子回路のスケーリング

Scaling of symmetry-restricted quantum circuits ( http://arxiv.org/abs/2406.09962v1 )

ライセンス: Link先を確認
Maximilian Balthasar Mansky, Miguel Armayor Martinez, Alejandro Bravo de la Serna, Santiago Londoño Castillo, Dimitra Nikoladou, Gautham Sathish, Zhihao Wang, Sebastian Wölckert, Claudia Linnhoff-Popien, (参考訳) 物理系の本質的な対称性は、系の自由度を減らし、計算を単純化するために使われてきた。 本研究では、特殊ユニタリリー群 $SU(2^N)$ の $\mathcal{M}\subseteq M_{2^N}(\mathbb{C})$ に作用する $\mathcal{M}SU(2^N)$-不変部分空間の特性について検討する。 我々は、$\mathcal{M}$ の特定の選択に対して、部分集合 $\mathcal{M}SU(2^N)$ が $SU(2^N)$ から多くの位相的および群プロパティを継承することを示した。 次に、そのような部分空間の次元を計算するための組合せ法として、$\mathcal{M}$ が qubits $(GSU(2^N))$, or a Hamiltonian $(H^{(N)}SU(2^N))$ に作用する置換群の表現であるときに述べる。 $\mathfrak{su}(2)$行列のクロネッカー積は、異なる置換不変群 $GSU(2^N)$ に関連するリー代数を構成するために用いられる。 次元数に関する数値的な結果は、発展理論を支持する。

The intrinsic symmetries of physical systems have been employed to reduce the number of degrees of freedom of systems, thereby simplifying computations. In this work, we investigate the properties of $\mathcal{M}SU(2^N)$, $\mathcal{M}$-invariant subspaces of the special unitary Lie group $SU(2^N)$ acting on $N$ qubits, for some $\mathcal{M}\subseteq M_{2^N}(\mathbb{C})$. We demonstrate that for certain choices of $\mathcal{M}$, the subset $\mathcal{M}SU(2^N)$ inherits many topological and group properties from $SU(2^N)$. We then present a combinatorial method for computing the dimension of such subspaces when $\mathcal{M}$ is a representation of a permutation group acting on qubits $(GSU(2^N))$, or a Hamiltonian $(H^{(N)}SU(2^N))$. The Kronecker product of $\mathfrak{su}(2)$ matrices is employed to construct the Lie algebras associated with different permutation-invariant groups $GSU(2^N)$. Numerical results on the number of dimensions support the the developed theory.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# QLAN内接続性:物理トポロジーを超えて

Intra-QLAN Connectivity: beyond the Physical Topology ( http://arxiv.org/abs/2406.09963v1 )

ライセンス: Link先を確認
Francesco Mazza, Marcello Caleffi, Angela Sara Cacciapuoti, (参考訳) 近い将来、Quantum Local Area Networks (QLAN)は、Quantum Internetの基本的なビルディングブロックであり、ノード間の密接な物理的接続を特徴とする物理的トポロジを示すものとは異なっている。 それとは対照的に、QLANは星のトポロジーのような単純な物理的トポロジーに基づいて考えることは現実的である。 この制約は、適切に対処しなければ、通信遅延やオーバーヘッドの観点から、QLANのパフォーマンスに大きく影響します。 幸いなことに、QLANノード間のオンデマンドリンクを物理的にデプロイすることなく、共有マルチパーティントの絡み合った状態を適切に操作することで作成することができる。 したがって、物理的に人工トポロジーと呼ばれるオーバーレイトポロジーを構築することができる。 本稿では,物理トポロジによって引き起こされる制約を回避するため,QLANの人工トポロジの工学的問題に対処する。 設計されたフレームワークはローカル操作のみを中継するが、QLANノード間の信号交換は行わないため、デコヒーレンスに非常に敏感なシナリオではさらなる遅延が発生する。 最後に、人工トポロジを利用することにより、古典的なLAN星トポロジの典型的な単一障害点を克服し、トラブルシューティングを単純化することが証明された。

In the near to mid future, Quantum Local Area Networks (QLANs) -- the fundamental building block of the Quantum Internet -- will unlike exhibit physical topologies characterized by densely physical connections among the nodes. On the contrary, it is pragmatic to consider QLANs based on simpler, scarcely-connected physical topologies, such as star topologies. This constraint -- if not properly tackled -- will significantly impact the QLAN performance in terms of communication delay and/or overhead. Thankfully, it is possible to create on-demand links between QLAN nodes, without physically deploying them, by properly manipulating a shared multipartite entangled state. Thus, it is possible to build an overlay topology, referred to as artificial topology, upon the physical one. In this paper, we address the fundamental issue of engineering the artificial topology of a QLAN to bypass the limitations induced by the physical topology. The designed framework relays only on local operations, without exchanging signaling among the QLAN nodes, which, in turn, would introduce further delays in a scenario very sensitive to the decoherence. Finally, by exploiting the artificial topology, it is proved that the troubleshooting is simplified, by overcoming the single point of failure, typical of classical LAN star topologies.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# AISデータとディープ・リカレント・アーキテクチャを用いた海洋環境の異常検知

Outlier detection in maritime environments using AIS data and deep recurrent architectures ( http://arxiv.org/abs/2406.09966v1 )

ライセンス: Link先を確認
Constantine Maganaris, Eftychios Protopapadakis, Nikolaos Doulamis, (参考訳) 本稿では,海上監視のための深部再帰モデルに基づく自動識別システム(AIS)データを用いた手法について述べる。 このセットアップはディープ・リカレント・ニューラルネットワーク(RNN)ベースのモデルを使用して、観測された船の動きパターンを符号化し、再構築する。 本手法は, 海上船舶の観測および再構成動作パターン間の誤差を計算し, しきい値決定機構に基づく。 具体的には、エンコーダ・デコーダアーキテクチャ(encoder-decoder architecture)と呼ばれるディープラーニングフレームワークを、観測された動作パターンを用いてトレーニングし、モデルが期待される軌道を学習し、予測し、効果的に比較できるようにする。 我々のモデル、特に繰り返し降下する双方向GRUは、海洋データの時間的ダイナミクスを捉える上で優れた性能を示し、深層学習による海洋監視能力の向上の可能性を示した。 我々の研究は、この領域における将来の研究の確固たる基盤を築き、革新的な技術の応用を通じて海洋安全を改善するための道のりを強調しています。

A methodology based on deep recurrent models for maritime surveillance, over publicly available Automatic Identification System (AIS) data, is presented in this paper. The setup employs a deep Recurrent Neural Network (RNN)-based model, for encoding and reconstructing the observed ships' motion patterns. Our approach is based on a thresholding mechanism, over the calculated errors between observed and reconstructed motion patterns of maritime vessels. Specifically, a deep-learning framework, i.e. an encoder-decoder architecture, is trained using the observed motion patterns, enabling the models to learn and predict the expected trajectory, which will be compared to the effective ones. Our models, particularly the bidirectional GRU with recurrent dropouts, showcased superior performance in capturing the temporal dynamics of maritime data, illustrating the potential of deep learning to enhance maritime surveillance capabilities. Our work lays a solid foundation for future research in this domain, highlighting a path toward improved maritime safety through the innovative application of technology.
翻訳日:2024-06-17 13:55:15 公開日:2024-06-14
# Bag of Lies: 継続的な事前トレーニングBERTにおけるロバスト性

Bag of Lies: Robustness in Continuous Pre-training BERT ( http://arxiv.org/abs/2406.09967v1 )

ライセンス: Link先を確認
Ine Gevers, Walter Daelemans, (参考訳) 本研究は、新型コロナウイルスのパンデミックをケーススタディとして、エンティティ知識に関するBERTの継続的な事前学習フェーズに関する洞察を得ることを目的としている。 BERTの事前トレーニングデータの最後の更新後にパンデミックが出現して以来、このモデルには新型コロナウイルスに関する実体的な知識はほとんどない。 継続的事前トレーニングを使用して、モデルで利用可能なエンティティ知識を制御します。 ベースラインBERTモデルと,ファクトチェックベンチマークであるCheck-COVIDの事前学習版を比較した。 連続事前学習のロバスト性をテストするために,誤報の訓練や単語順のシャッフルなど,入力データを操作するためのいくつかの逆法を実験した。 驚くべきことに、これらの手法は劣化せず、時には改善されないことが判明した。 これは、BERTの継続事前学習が誤情報に対して堅牢であることを示している。 さらに、LitCovidリポジトリ内の学術出版物と、AIが生成した偽のテキストからなる、新しいデータセットもリリースしています。

This study aims to acquire more insights into the continuous pre-training phase of BERT regarding entity knowledge, using the COVID-19 pandemic as a case study. Since the pandemic emerged after the last update of BERT's pre-training data, the model has little to no entity knowledge about COVID-19. Using continuous pre-training, we control what entity knowledge is available to the model. We compare the baseline BERT model with the further pre-trained variants on the fact-checking benchmark Check-COVID. To test the robustness of continuous pre-training, we experiment with several adversarial methods to manipulate the input data, such as training on misinformation and shuffling the word order until the input becomes nonsensical. Surprisingly, our findings reveal that these methods do not degrade, and sometimes even improve, the model's downstream performance. This suggests that continuous pre-training of BERT is robust against misinformation. Furthermore, we are releasing a new dataset, consisting of original texts from academic publications in the LitCovid repository and their AI-generated false counterparts.
翻訳日:2024-06-17 13:45:24 公開日:2024-06-14
# 病的音声の自動検出における音声モードの影響

Impact of Speech Mode in Automatic Pathological Speech Detection ( http://arxiv.org/abs/2406.09968v1 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Ina Kodrasi, (参考訳) 病的音声の自動検出手法は,様々な病態を同定する上で有望な結果をもたらす。 これらのアプローチは、話者が同一の音声内容の明瞭化を促される、音声制御された音声シナリオのために設計され、評価されるのが一般的である。 コントロールされた音声記録の収集には手間がかかるが、潜在的な患者が日常のルーチンをナビゲートするので、自然発話を便利に得ることができる。 さらに、自然発話は、病的音声の微妙で抽象的な手がかりを検出するのに有用である。 いずれにせよ,自然発声に対する病的音声の自動検出の有効性は未解明のままである。 本稿では,言語モードが病的音声検出アプローチに与える影響を解析し,古典的機械学習と深層学習の2つの異なるカテゴリーについて検討する。 以上の結果から,古典的アプローチは自然発話における病因判別に苦慮している可能性が示唆された。 対照的に、ディープラーニングアプローチは優れたパフォーマンスを示し、非自発音声では従来アクセス不能だった追加の手がかりを抽出する。

Automatic pathological speech detection approaches yield promising results in identifying various pathologies. These approaches are typically designed and evaluated for phonetically-controlled speech scenarios, where speakers are prompted to articulate identical phonetic content. While gathering controlled speech recordings can be laborious, spontaneous speech can be conveniently acquired as potential patients navigate their daily routines. Further, spontaneous speech can be valuable in detecting subtle and abstract cues of pathological speech. Nonetheless, the efficacy of automatic pathological speech detection for spontaneous speech remains unexplored. This paper analyzes the influence of speech mode on pathological speech detection approaches, examining two distinct categories of approaches, i.e., classical machine learning and deep learning. Results indicate that classical approaches may struggle to capture pathology-discriminant cues in spontaneous speech. In contrast, deep learning approaches demonstrate superior performance, managing to extract additional cues that were previously inaccessible in non-spontaneous speech
翻訳日:2024-06-17 13:45:24 公開日:2024-06-14
# テキスト生成のためのLCM評価器の改良:プロンプト出力シークエンシングと最適化の影響

A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization ( http://arxiv.org/abs/2406.09972v1 )

ライセンス: Link先を確認
KuanChao Chu, Yi-Pei Chen, Hideki Nakayama, (参考訳) 本研究では,大規模言語モデル (LLM) を用いたテキスト評価の迅速な設計について検討する。 LLMは様々な入力のスコアリングに利用されているが、テキスト生成評価におけるモデル感度と主観性のため、オープンエンドテキスト評価の効果的なプロンプトを作成することは依然として困難である。 本研究は、異なるプロンプト構造を用いて、出力命令の順序を変更し、説明的理由を含む実験を行った。 その結果,理由と得点の順序はLLMのスコアに大きく影響し,ルール理解のレベルが異なることが判明した。 追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。 この知見は,LLMに基づく評価の精度と一貫性の向上に不可欠である。

This research investigates prompt designs of evaluating generated texts using large language models (LLMs). While LLMs are increasingly used for scoring various inputs, creating effective prompts for open-ended text evaluation remains challenging due to model sensitivity and subjectivity in evaluation of text generation. Our study experimented with different prompt structures, altering the sequence of output instructions and including explanatory reasons. We found that the order of presenting reasons and scores significantly influences LLMs' scoring, with a different level of rule understanding in the prompt. An additional optimization may enhance scoring alignment if sufficient data is available. This insight is crucial for improving the accuracy and consistency of LLM-based evaluations.
翻訳日:2024-06-17 13:45:24 公開日:2024-06-14
# InstructRL4Pix:強化学習による画像編集のためのトレーニング拡散

InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning ( http://arxiv.org/abs/2406.09973v1 )

ライセンス: Link先を確認
Tiancheng Li, Jinxiu Liu, Huajun Chen, Qi Liu, (参考訳) インストラクションに基づく画像編集は、自然言語を使って画像の視覚的内容を操作するのに優れたプロセスとなった。 しかし、既存のモデルはデータセットの品質によって制限されており、複雑なオブジェクト関係を持つ画像の編集領域を正確にローカライズすることはできない。 本稿では,対象物体の注意図で示される画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。 提案手法は,報酬関数として注目マップ間の距離を計算し,近似ポリシ最適化(PPO)を用いて拡散モデルを微調整することにより,報酬モデルの出力を最大化する。 オブジェクト挿入、削除、置換、変換において、我々のモデルを評価する。 実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。

Instruction-based image editing has made a great process in using natural human language to manipulate the visual content of images. However, existing models are limited by the quality of the dataset and cannot accurately localize editing regions in images with complex object relationships. In this paper, we propose Reinforcement Learning Guided Image Editing Method(InstructRL4Pix) to train a diffusion model to generate images that are guided by the attention maps of the target object. Our method maximizes the output of the reward model by calculating the distance between attention maps as a reward function and fine-tuning the diffusion model using proximal policy optimization (PPO). We evaluate our model in object insertion, removal, replacement, and transformation. Experimental results show that InstructRL4Pix breaks through the limitations of traditional datasets and uses unsupervised learning to optimize editing goals and achieve accurate image editing based on natural human commands.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 逆補助モデルを用いたロバストモデルに基づく強化学習

Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model ( http://arxiv.org/abs/2406.09976v1 )

ライセンス: Link先を確認
Siemen Herremans, Ali Anwar, Siegfried Mercelis, (参考訳) 強化学習は、ロボティクス、ボードゲーム、古典的なアーケードゲームといった様々な課題において、印象的なパフォーマンスを示している。 しかし、その現実世界の応用は、学習したポリシーにおける堅牢性と安全性の欠如によって妨げられる可能性がある。 より具体的には、あるマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのに苦労することが多い。 この問題に対処するために、モデルベースの設定でロバストMDP(RMDP)のフレームワークを使用し、新しい学習遷移モデルを導入する。 提案手法は,Kulback-Leiblerの不確実性集合内の最悪のMPPを推定するために,逆向きに更新された補助悲観的モデルを含む。 いくつかの既存の研究と比較して、パラメトリックシミュレータの必要性など、トレーニング環境に追加の条件を課していない。 政策ロバスト性を高めるための悲観的モデルの有効性を検証するため,ロバストモデルベースポリシー最適化 (RMBPO) と呼ばれる実用的なRLアルゴリズムに統合した。 実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な向上が示唆された。 提案する補助世界モデルと名目モデルとの学習的偏差をさらに探求し,悲観主義の達成方法を検討する。 悲観的な世界モデルを学び、政策の堅牢性向上におけるその役割を示すことによって、我々の研究は(モデルに基づく)RLをより堅牢にすることに貢献します。

Reinforcement learning has demonstrated impressive performance in various challenging problems such as robotics, board games, and classical arcade games. However, its real-world applications can be hindered by the absence of robustness and safety in the learned policies. More specifically, an RL agent that trains in a certain Markov decision process (MDP) often struggles to perform well in nearly identical MDPs. To address this issue, we employ the framework of Robust MDPs (RMDPs) in a model-based setting and introduce a novel learned transition model. Our method specifically incorporates an auxiliary pessimistic model, updated adversarially, to estimate the worst-case MDP within a Kullback-Leibler uncertainty set. In comparison to several existing works, our work does not impose any additional conditions on the training environment, such as the need for a parametric simulator. To test the effectiveness of the proposed pessimistic model in enhancing policy robustness, we integrate it into a practical RL algorithm, called Robust Model-Based Policy Optimization (RMBPO). Our experimental results indicate a notable improvement in policy robustness on high-dimensional MuJoCo control tasks, with the auxiliary model enhancing the performance of the learned policy in distorted MDPs. We further explore the learned deviation between the proposed auxiliary world model and the nominal model, to examine how pessimism is achieved. By learning a pessimistic world model and demonstrating its role in improving policy robustness, our research contributes towards making (model-based) RL more robust.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# フェアネス向上のためのマルチタスク学習によるソーシャルバイアスからの方言の遠ざかる

Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness ( http://arxiv.org/abs/2406.09977v1 )

ライセンス: Link先を確認
Maximilian Spliethöver, Sai Nikhil Menon, Henning Wachsmuth, (参考訳) 方言は、地域や社会集団で起こる言語における統語的・語彙的なバリエーションを導入している。 ほとんどのNLP法はそのような変動に敏感ではない。 これは手法の不公平な振る舞いを招き、方言話者に否定的な偏見をもたらす可能性がある。 過去の研究はヘイトスピーチのような側面の方言関連フェアネスを研究してきたが、レウドネスのような偏見のある言語の他の側面は完全に解明されていないままである。 このギャップを埋めるために、偏りのある言語の5つの側面の検出とそれらの緩和方法における方言間の性能格差について検討する。 バイアスを軽減するために,構文と語彙のバリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。 アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。 さらに,マルチタスク学習が最先端性能を実現し,バイアス言語の性質をより確実に検出する上で有効であることが示唆された。

Dialects introduce syntactic and lexical variations in language that occur in regional or social groups. Most NLP methods are not sensitive to such variations. This may lead to unfair behavior of the methods, conveying negative bias towards dialect speakers. While previous work has studied dialect-related fairness for aspects like hate speech, other aspects of biased language, such as lewdness, remain fully unexplored. To fill this gap, we investigate performance disparities between dialects in the detection of five aspects of biased language and how to mitigate them. To alleviate bias, we present a multitask learning approach that models dialect language as an auxiliary task to incorporate syntactic and lexical variations. In our experiments with African-American English dialect, we provide empirical evidence that complementing common learning approaches with dialect modeling improves their fairness. Furthermore, the results suggest that multitask learning achieves state-of-the-art performance and helps to detect properties of biased language more reliably.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# HIRO:階層型情報検索最適化

HIRO: Hierarchical Information Retrieval Optimization ( http://arxiv.org/abs/2406.09979v1 )

ライセンス: Link先を確認
Krish Goel, Mahek Chandak, (参考訳) 大規模言語モデル(LLM)は自然言語処理に優れるが、静的トレーニングデータセットによる制限に直面し、時代遅れあるいは文脈的に浅い応答をもたらす。 Retrieval-Augmented Generation (RAG)は、特に知識集約タスクにおいて、リアルタイム外部知識を統合し、モデルの精度と信頼性を高めることでこの問題に対処する。 しかし、RAGに強化されたLLMは長い文脈で苦労し、情報過負荷で"チョーク"し、応答品質を損なう。 最近のRAGアプリケーションは、様々なレベルの要約と情報密度で組織された文書の保存に階層的なデータ構造を使用する。 本稿では、階層構造を用いて文書を格納するRAGアプリケーションのための新しいクエリ手法であるHIRO(Hierarchical Information Retrieval Optimization)を紹介する。 HIROはDFSに基づく再帰的類似度スコア計算と分岐プルーニングを採用し、情報損失を伴わずにLLMに返されるコンテキストを最小限に抑える。 HIROはNarrativeQAデータセットの既存のクエリメカニズムを10.85%の絶対的なパフォーマンス向上で上回っている。

Large Language Models (LLMs) excel in natural language tasks but face limitations due to static training datasets, resulting in outdated or contextually shallow responses. Retrieval-Augmented Generation (RAG) addresses this by integrating real-time external knowledge, enhancing model accuracy and credibility, especially for knowledge-intensive tasks. However, RAG-enhanced LLMs struggle with long contexts, causing them to "choke" on information overload, compromising response quality. Recent RAG applications use hierarchical data structures for storing documents, organized at various levels of summarization and information density. In this context, we introduce HIRO (Hierarchical Information Retrieval Optimization), a novel querying approach for RAG applications using hierarchical structures for storing documents. HIRO employs DFS-based recursive similarity score calculation and branch pruning to minimize the context returned to the LLM without informational loss. HIRO outperforms existing querying mechanisms on the NarrativeQA dataset by an absolute performance gain of 10.85%.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 慢性関節リウマチに対する手部X線画像の自動撮影のための深層学習モデル

Deep Learning Models to Automate the Scoring of Hand Radiographs for Rheumatoid Arthritis ( http://arxiv.org/abs/2406.09980v1 )

ライセンス: Link先を確認
Zhiyan Bo, Laura C. Coates, Bartlomiej W. Papiez, (参考訳) シャープ (SvdH) スコアのファン・デル・ハイジュ (van der Heijde) 修飾は、慢性関節リウマチ(RA)の臨床試験における損傷の定量化に広く用いられている放射線学的評価法である。 しかし、個々の関節を測るために必要な複雑さと専門知識は、臨床、特に疾患の進行測定においてその応用を制限する必要がある。 本研究では,まず関節の局所化を必要とせず,手指のX線写真からSvdHのスコアとRAの重症度を予測できる自動パイプラインを開発することで,この限界に対処する。 RAと疑わしいRA患者の手動X線写真を用いて,手・手首のSvdHスコアとそれに対応する重症度を推定するための最先端アーキテクチャの性能について検討した。 第二に、利用可能なデータセットを活用して、異なる微調整スキームとアンサンブルラーニングでトランスファーラーニングを行い、経験豊富な人間読者に匹敵するモデル性能を大幅に向上させた。 Pearson's correlation coefficient (PCC) of 0.925 and root mean squared error (RMSE) of 18.02, the best model for RA severity classification (RA) achieved a accuracy 0.358 and PCC of 0.859。 評価精度は経験者 (PCC=0.97, RMSE=18.75) とほぼ同等であった。 また,Grad-CAMを用いて,手首の解剖学的構造に焦点をあてることができた。

The van der Heijde modification of the Sharp (SvdH) score is a widely used radiographic scoring method to quantify damage in Rheumatoid Arthritis (RA) in clinical trials. However, its complexity with a necessity to score each individual joint, and the expertise required limit its application in clinical practice, especially in disease progression measurement. In this work, we addressed this limitation by developing a bespoke, automated pipeline that is capable of predicting the SvdH score and RA severity from hand radiographs without the need to localise the joints first. Using hand radiographs from RA and suspected RA patients, we first investigated the performance of the state-of-the-art architectures in predicting the total SvdH score for hands and wrists and its corresponding severity class. Secondly, we leveraged publicly available data sets to perform transfer learning with different finetuning schemes and ensemble learning, which resulted in substantial improvement in model performance being on par with an experienced human reader. The best model for RA scoring achieved a Pearson's correlation coefficient (PCC) of 0.925 and root mean squared error (RMSE) of 18.02, while the best model for RA severity classification achieved an accuracy of 0.358 and PCC of 0.859. Our score prediction model attained almost comparable accuracy with experienced radiologists (PCC = 0.97, RMSE = 18.75). Finally, using Grad-CAM, we showed that our models could focus on the anatomical structures in hands and wrists which clinicians deemed as relevant to RA progression in the majority of cases.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 生物学的変動を伴うデータの深層学習モデル構築における課題

Challenges in explaining deep learning models for data with biological variation ( http://arxiv.org/abs/2406.09981v1 )

ライセンス: Link先を確認
Lenka Tětková, Erik Schou Dreier, Robin Malm, Lars Kai Hansen, (参考訳) 多くの機械学習研究の進展は、モデルを開発し、それらをベンチマークデータセット(画像のImageNetなど)で評価することに基づいている。 しかし,このようなベンチマークを実世界のデータに適用しても,期待通りには動作しないことが多い。 これは、複数の時間と空間スケールでの変動を期待する生物学的データに特に当てはまる。 本研究は穀物データを用いて,疾患や損傷を検出することを目的としている。 ピンクフッ化物、皮を剥いた穀物、その他の病気や損傷は、穀物の価格を設定したり、食品生産から危険な穀物を除外する上で重要な要素である。 標準のおもちゃデータセットからのデータの違いから生じる課題とは別に、ディープラーニングモデルを説明する際に克服すべき課題も提示する。 例えば、説明可能性法は多くのハイパーパラメータを持ち、異なる結果を与えることができる。 それらの値の大きさがメソッドからメソッドに異なるため、説明とそれらの比較を視覚化する問題。 説明を評価するにはどうすればいいのか? なぜなら、"地上の真実"は通常欠落しているか、定義されていないためである。 また、人間のアノテータは、手元にあるタスクの説明であると考えるものを作成するかもしれませんが、機械学習モデルは、異なる、おそらくは直感に反する方法でそれを解決するかもしれません。 これらの課題のいくつかを議論し、穀物データに対する様々なポストホックな説明可能性手法を評価する。 我々は、専門家が作成した特定の「地上の真実」アノテーションと、堅牢性、説明の質、類似性に焦点を当てる。 目標は、全体的なパフォーマンスが良く、この困難なタスクで使用できるメソッドを見つけることです。 提案されたパイプラインが、特定のユースケースにおける説明可能性メソッドを評価するフレームワークとして使用されることを期待しています。

Much machine learning research progress is based on developing models and evaluating them on a benchmark dataset (e.g., ImageNet for images). However, applying such benchmark-successful methods to real-world data often does not work as expected. This is particularly the case for biological data where we expect variability at multiple time and spatial scales. In this work, we are using grain data and the goal is to detect diseases and damages. Pink fusarium, skinned grains, and other diseases and damages are key factors in setting the price of grains or excluding dangerous grains from food production. Apart from challenges stemming from differences of the data from the standard toy datasets, we also present challenges that need to be overcome when explaining deep learning models. For example, explainability methods have many hyperparameters that can give different results, and the ones published in the papers do not work on dissimilar images. Other challenges are more general: problems with visualization of the explanations and their comparison since the magnitudes of their values differ from method to method. An open fundamental question also is: How to evaluate explanations? It is a non-trivial task because the "ground truth" is usually missing or ill-defined. Also, human annotators may create what they think is an explanation of the task at hand, yet the machine learning model might solve it in a different and perhaps counter-intuitive way. We discuss several of these challenges and evaluate various post-hoc explainability methods on grain data. We focus on robustness, quality of explanations, and similarity to particular "ground truth" annotations made by experts. The goal is to find the methods that overall perform well and could be used in this challenging task. We hope the proposed pipeline will be used as a framework for evaluating explainability methods in specific use cases.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# ロバストバイオエアロゾルモニタリングのためのセルフ・スーパービジョンとFew-Shot Learning

Self-Supervised and Few-Shot Learning for Robust Bioaerosol Monitoring ( http://arxiv.org/abs/2406.09984v1 )

ライセンス: Link先を確認
Adrian Willi, Pascal Baumann, Sophie Erb, Fabian Gröger, Yanick Zeder, Simone Lionetti, (参考訳) リアルタイムバイオエアロゾルモニタリングはアレルギーの影響を受ける人々の生活の質を向上させるが、広く普及する上で課題となるディープラーニングモデルに依存していることが多い。 これらのモデルは典型的には教師付き方式で訓練され、大量の注釈付きデータを生成するためにかなりの努力を要する。 本研究では, バイオエアロゾル粒子のホログラフィー画像の分類に, 自己教師型学習と少数ショット学習を組み合わせることで, 多数の未ラベルデータと, 粒子タイプごとのサンプルのみを用いて, バイオエアロゾル粒子のホログラフィー画像の分類を行うことができることを示す。 まず, 環境空気計測による未同定粒子の画像の自己監督により, ラベル付きデータが豊富である場合でも, 識別が促進されることを実証した。 最も重要なことは、ラベル付き画像がほんの数枚しか手に入らない場合、写真分類を大幅に改善することです。 本研究は, リアルタイムバイオエアロゾルモニタリングワークフローを効果的に最適化し, 異なる状況にモデルを適応させるために必要な労力を大幅に削減できることを示唆する。

Real-time bioaerosol monitoring is improving the quality of life for people affected by allergies, but it often relies on deep-learning models which pose challenges for widespread adoption. These models are typically trained in a supervised fashion and require considerable effort to produce large amounts of annotated data, an effort that must be repeated for new particles, geographical regions, or measurement systems. In this work, we show that self-supervised learning and few-shot learning can be combined to classify holographic images of bioaerosol particles using a large collection of unlabelled data and only a few examples for each particle type. We first demonstrate that self-supervision on pictures of unidentified particles from ambient air measurements enhances identification even when labelled data is abundant. Most importantly, it greatly improves few-shot classification when only a handful of labelled images are available. Our findings suggest that real-time bioaerosol monitoring workflows can be substantially optimized, and the effort required to adapt models for different situations considerably reduced.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 微妙な違い:オブジェクト状態感性ニューロロボティックタスクプランニング

Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning ( http://arxiv.org/abs/2406.09988v1 )

ライセンス: Link先を確認
Xiaowen Sun, Xufeng Zhao, Jae Hee Lee, Wenhao Lu, Matthias Kerzel, Stefan Wermter, (参考訳) オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。 しかし,物体の状態を検出し,ロボットの状態に敏感な計画を生成することは困難である。 近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。 しかしながら、我々の知る限り、LLMやVLMもオブジェクトの状態に敏感な計画を生成することができるかどうかについては、ほとんど調査されていない。 そこで本研究では,事前学習ニューラルネットワークによるタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。 我々はOSSAの2つの方法を提案する。 (i)事前訓練された視覚処理モジュール(DCM)と自然言語処理モデル(LLM)からなるモジュールモデル (ii)VLMのみからなるモノリシックモデル。 2つの手法の性能を定量的に評価するために、タスクがテーブルをクリアするテーブルトップシナリオを使用する。 オブジェクトの状態を考慮したマルチモーダルベンチマークデータセットをコントリビュートする。 その結果、どちらの手法もオブジェクトの状態に敏感なタスクに使用できることがわかったが、モノリシックなアプローチはモジュラーアプローチよりも優れていた。 OSSAのコードは \url{https://github.com/Xiao-wen-Sun/OSSA} で公開されている。

The state of an object reflects its current status or condition and is important for a robot's task planning and manipulation. However, detecting an object's state and generating a state-sensitive plan for robots is challenging. Recently, pre-trained Large Language Models (LLMs) and Vision-Language Models (VLMs) have shown impressive capabilities in generating plans. However, to the best of our knowledge, there is hardly any investigation on whether LLMs or VLMs can also generate object state-sensitive plans. To study this, we introduce an Object State-Sensitive Agent (OSSA), a task-planning agent empowered by pre-trained neural networks. We propose two methods for OSSA: (i) a modular model consisting of a pre-trained vision processing module (dense captioning model, DCM) and a natural language processing model (LLM), and (ii) a monolithic model consisting only of a VLM. To quantitatively evaluate the performances of the two methods, we use tabletop scenarios where the task is to clear the table. We contribute a multimodal benchmark dataset that takes object states into consideration. Our results show that both methods can be used for object state-sensitive tasks, but the monolithic approach outperforms the modular approach. The code for OSSA is available at \url{https://github.com/Xiao-wen-Sun/OSSA}
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 精密エンパワー、過剰抽出:言語モデルにおける動的注入知識を用いた視覚的質問応答

Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models ( http://arxiv.org/abs/2406.09994v1 )

ライセンス: Link先を確認
Manas Jhalani, Annervaz K M, Pushpak Bhattacharyya, (参考訳) マルチモーダルタスクの領域において、視覚的質問回答(VQA)は、視覚的内容に根ざした自然言語質問に対処することで重要な役割を果たす。 KBVQA(Knowledge-Based Visual Question Answering)は、外部知識と画像を加えて質問に答えることで、この概念を前進させる。 KBVQAのアプローチを導入し、既存の視覚言語変換器エンコーダデコーダ(OFA)モデルを拡張した。 本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。 質問に答える要求を満たすように調整された、コンテキストとして知識グラフから柔軟な3倍数を提供します。 我々のモデルは知識に富んだものであり、3つのKBVQAデータセットの最先端技術よりも、Exact Match Scoreの4.75倍の平均的な改善を示している。 実験と分析により,各質問に対する変数トリプルの調合により,一定数のトリプルの供給とは対照的に,言語モデルの推論能力が向上することを示した。 これは近年の大規模言語モデルにも当てはまる。 さらに、簡単な微調整によって達成された小さなデータセット上でSOTAビート性能を示すことにより、モデルの一般化能力を強調した。

In the realm of multimodal tasks, Visual Question Answering (VQA) plays a crucial role by addressing natural language questions grounded in visual content. Knowledge-Based Visual Question Answering (KBVQA) advances this concept by adding external knowledge along with images to respond to questions. We introduce an approach for KBVQA, augmenting the existing vision-language transformer encoder-decoder (OFA) model. Our main contribution involves enhancing questions by incorporating relevant external knowledge extracted from knowledge graphs, using a dynamic triple extraction method. We supply a flexible number of triples from the knowledge graph as context, tailored to meet the requirements for answering the question. Our model, enriched with knowledge, demonstrates an average improvement of 4.75\% in Exact Match Score over the state-of-the-art on three different KBVQA datasets. Through experiments and analysis, we demonstrate that furnishing variable triples for each question improves the reasoning capabilities of the language model in contrast to supplying a fixed number of triples. This is illustrated even for recent large language models. Additionally, we highlight the model's generalization capability by showcasing its SOTA-beating performance on a small dataset, achieved through straightforward fine-tuning.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# スケーラブルでヴァーサタイルな空間学習を目指して

Towards Scalable and Versatile Weight Space Learning ( http://arxiv.org/abs/2406.09997v1 )

ライセンス: Link先を確認
Konstantin Schürholt, Michael W. Mahoney, Damian Borth, (参考訳) 十分に訓練されたニューラルネットワークモデルの学習表現は、それらのモデルの内部動作を理解することを約束する。 しかし、以前の作業では、より大きなネットワークを処理する場合や、識別的タスクや生成的タスクにタスク固有の場合の制限に直面していた。 本稿では,重み空間学習におけるSANEアプローチを紹介する。 SANEは、さまざまなアーキテクチャの大規模モデルにスケーラブルで、1つのタスクを超えて機能を示すニューラルネットワークのタスクに依存しない表現を学ぶことで、これまでの制限を克服している。 提案手法は,ニューラルネットワーク重みのサブセットの逐次処理に向けてのハイパー表現の概念を拡張し,学習された表現空間にトークンの集合としてより大きなニューラルネットワークを埋め込むことを可能にする。 SANEはレイヤワイドな埋め込みからグローバルモデル情報を公開し、従来のハイパー表現学習手法では不可能だった、目に見えないニューラルネットワークモデルを逐次生成することができる。 大規模な経験的評価は、SANEがいくつかの重み表現学習ベンチマークにおいて、特に新しいタスクの初期化やより大きなResNetアーキテクチャにおいて、最先端のパフォーマンスと一致または超えていることを示している。

Learning representations of well-trained neural network models holds the promise to provide an understanding of the inner workings of those models. However, previous work has either faced limitations when processing larger networks or was task-specific to either discriminative or generative tasks. This paper introduces the SANE approach to weight-space learning. SANE overcomes previous limitations by learning task-agnostic representations of neural networks that are scalable to larger models of varying architectures and that show capabilities beyond a single task. Our method extends the idea of hyper-representations towards sequential processing of subsets of neural network weights, thus allowing one to embed larger neural networks as a set of tokens into the learned representation space. SANE reveals global model information from layer-wise embeddings, and it can sequentially generate unseen neural network models, which was unattainable with previous hyper-representation learning methods. Extensive empirical evaluation demonstrates that SANE matches or exceeds state-of-the-art performance on several weight representation learning benchmarks, particularly in initialization for new tasks and larger ResNet architectures.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 都市センシング技術を用いた歩行者運動の理解 : 音声センサの約束

Understanding Pedestrian Movement Using Urban Sensing Technologies: The Promise of Audio-based Sensors ( http://arxiv.org/abs/2406.09998v1 )

ライセンス: Link先を確認
Chaeyeon Han, Pavan Seshadri, Yiwei Ding, Noah Posner, Bon Woo Koo, Animesh Agrawal, Alexander Lerch, Subhrajit Guhathakurta, (参考訳) 車両の流れを監視するために様々なセンサーが配備されているが、歩行者の動きを感知するセンサーはまだ初期段階にある。 しかし、歩くことは多くの都市、特にヨーロッパ、アフリカ、アジアにおける重要な移動手段である。 歩行者の容積と流れを理解することは、より安全で魅力的な歩行者のインフラを設計し、周期的な混雑を制御するために不可欠である。 本研究は,新しい音声ベース技術を用いて,都市感を拡大するための新しいアプローチについて論じる。 マイクベースのセンサーの利点と限界を、他の歩行者センサーと比較して評価する。 ASPEDと呼ばれる大規模なデータセットが提示され、高品質なオーディオ記録と、歩行者数データのラベル付けに使用されるビデオ記録が含まれている。 ベースライン分析では、歩行者追跡にオーディオセンサーを使用するという約束を強調している。 この研究は、歩行者の軌跡を予測するために、どのようにデータを活用できるかを実証する。 最後に、音声に基づく歩行者センシングが都市・交通計画の改善を支援するユースケースとシナリオについて論じる。

While various sensors have been deployed to monitor vehicular flows, sensing pedestrian movement is still nascent. Yet walking is a significant mode of travel in many cities, especially those in Europe, Africa, and Asia. Understanding pedestrian volumes and flows is essential for designing safer and more attractive pedestrian infrastructure and for controlling periodic overcrowding. This study discusses a new approach to scale up urban sensing of people with the help of novel audio-based technology. It assesses the benefits and limitations of microphone-based sensors as compared to other forms of pedestrian sensing. A large-scale dataset called ASPED is presented, which includes high-quality audio recordings along with video recordings used for labeling the pedestrian count data. The baseline analyses highlight the promise of using audio sensors for pedestrian tracking, although algorithmic and technological improvements to make the sensors practically usable continue. This study also demonstrates how the data can be leveraged to predict pedestrian trajectories. Finally, it discusses the use cases and scenarios where audio-based pedestrian sensing can support better urban and transportation planning.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# OrientDream: 明示的指向制御によるテキスト・ツー・3D生成

OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control ( http://arxiv.org/abs/2406.10000v1 )

ライセンス: Link先を確認
Yuzhong Huang, Zhong Li, Zhang Chen, Zhiyuan Ren, Guosheng Lin, Fred Morstatter, Yi Xu, (参考訳) テキストから3D技術へと進化する中で、Dreamfusionは、Score Distillation Sampling (SDS)を用いて、NeRFのような暗黙の表現を最適化することで、その習熟度を示した。 このプロセスは、事前訓練された大規模テキスト・画像拡散モデルの蒸留によって達成される。 しかし、Dreamfusionは、マルチヘッドのJanus問題に直面し、比較的遅い最適化プロセスを示す、忠実さと効率の制約に直面している。 これらの課題を回避するために、テキストプロンプトから効率よくマルチビューで一貫した3D生成が可能なカメラ配向条件付きフレームワークOrientDreamを紹介した。 本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。 この機能は、拡張された外部マルチビューデータセットであるMVImgNetのデータを効果的に利用して、機能を洗練し、強化する。 その後、ランダム初期化暗示表現(NeRF)の最適化の基礎として、事前条件付き2D画像を利用する。 このプロセスは分離されたバックプロパゲーション技術によって大幅に高速化され、最適化サイクル毎に暗黙のパラメータを複数更新することができる。 提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,比較指標によって定量化されるように,既存手法よりも最適化速度が大幅に向上することを示した。

In the evolving landscape of text-to-3D technology, Dreamfusion has showcased its proficiency by utilizing Score Distillation Sampling (SDS) to optimize implicit representations such as NeRF. This process is achieved through the distillation of pretrained large-scale text-to-image diffusion models. However, Dreamfusion encounters fidelity and efficiency constraints: it faces the multi-head Janus issue and exhibits a relatively slow optimization process. To circumvent these challenges, we introduce OrientDream, a camera orientation conditioned framework designed for efficient and multi-view consistent 3D generation from textual prompts. Our strategy emphasizes the implementation of an explicit camera orientation conditioned feature in the pre-training of a 2D text-to-image diffusion module. This feature effectively utilizes data from MVImgNet, an extensive external multi-view dataset, to refine and bolster its functionality. Subsequently, we utilize the pre-conditioned 2D images as a basis for optimizing a randomly initialized implicit representation (NeRF). This process is significantly expedited by a decoupled back-propagation technique, allowing for multiple updates of implicit parameters per optimization cycle. Our experiments reveal that our method not only produces high-quality NeRF models with consistent multi-view properties but also achieves an optimization speed significantly greater than existing methods, as quantified by comparative metrics.
翻訳日:2024-06-17 13:45:23 公開日:2024-06-14
# 普遍近似定理の初等証明

An elementary proof of a universal approximation theorem ( http://arxiv.org/abs/2406.10002v1 )

ライセンス: Link先を確認
Chris Monico, (参考訳) 本稿では、3つの隠蔽層を持つニューラルネットワークに対する普遍近似定理の基本的な証明と、連続的、有界な活性化関数の増大について述べる。 結果は最もよく知られた結果よりも弱いが、学部分析以外の機械は使われていないという意味では初等的な証明である。

In this short note, we give an elementary proof of a universal approximation theorem for neural networks with three hidden layers and increasing, continuous, bounded activation function. The result is weaker than the best known results, but the proof is elementary in the sense that no machinery beyond undergraduate analysis is used.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 単一RGBDカメラを用いたリアルタイム・高精度・オープンソース上肢骨格解析

Real-time, accurate, and open source upper-limb musculoskeletal analysis using a single RGBD camera ( http://arxiv.org/abs/2406.10007v1 )

ライセンス: Link先を確認
Amedeo Ceglia, Kael Facon, Mickaël Begon, Lama Seoud, (参考訳) バイオメカニカルバイオフィードバックは、リハビリテーションを強化し、より客観的なタスク評価を提供する。 これらのフィードバックは、しばしば高価なモーションキャプチャシステムに依存し、それが広く使われることを制限し、コンピュータビジョンベースの手法の開発につながった。 これらの手法は上肢を考慮し, 関節角度の誤差が大きく, 肩甲骨運動や鎖骨運動を除外する。 我々のオープンソースアプローチは、単一の低コストのRGBDカメラを使用し、半自動皮膚マーカーラベリングを含む高忠実な上肢キネマティクスのためのユーザフレンドリーなソリューションを提供する。 体操から筋力推定まで, 実時間バイオメカニカル分析を8名を対象に実施し, 上肢へのアプローチの有効性を実証した。 マーカーはRGBDカメラと、参照と見なされる光電子カメラシステムによって記録された。 筋活動と外負荷は,8本のEMGと計装手ペダルを用いて記録した。 ブランド・アルトマン分析では、2つのモーションキャプチャー法の間に3Dマーカーの位置が重要な一致を示し、誤差は平均3.3$\pm$3.9 mmであった。 生体力学解析では, 一致度は同一のマーカーセットが使用されたかどうかに敏感であった。 例えば、2.3$\pm$2.8{\deg} の場合、4.5$\pm$2.9{\deg} の場合と比較すると、結合角の差は平均2.3$\pm$2.8{\deg} となる。 RGBDカメラからのバイオフィードバックは63Hzで提供された。 本研究では,RGBDカメラを低コストなモーションキャプチャーソリューションとして用いる新しい手法を提案する。

Biomechanical biofeedback may enhance rehabilitation and provide clinicians with more objective task evaluation. These feedbacks often rely on expensive motion capture systems, which restricts their widespread use, leading to the development of computer vision-based methods. These methods are subject to large joint angle errors, considering the upper limb, and exclude the scapula and clavicle motion in the analysis. Our open-source approach offers a user-friendly solution for high-fidelity upper-limb kinematics using a single low-cost RGBD camera and includes semi-automatic skin marker labeling. Real-time biomechanical analysis, ranging from kinematics to muscle force estimation, was conducted on eight participants performing a hand-cycling motion to demonstrate the applicability of our approach on the upper limb. Markers were recorded by the RGBD camera and an optoelectronic camera system, considered as a reference. Muscle activity and external load were recorded using eight EMG and instrumented hand pedals, respectively. Bland-Altman analysis revealed significant agreements in the 3D markers' positions between the two motion capture methods, with errors averaging 3.3$\pm$3.9 mm. For the biomechanical analysis, the level of agreement was sensitive to whether the same marker set was used. For example, joint angle differences averaging 2.3$\pm$2.8{\deg} when using the same marker set, compared to 4.5$\pm$2.9{\deg} otherwise. Biofeedback from the RGBD camera was provided at 63 Hz. Our study introduces a novel method for using an RGBD camera as a low-cost motion capture solution, emphasizing its potential for accurate kinematic reconstruction and comprehensive upper-limb biomechanical studies.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 高忠実度モデル抽出におけるスローサインを超えて

Beyond Slow Signs in High-fidelity Model Extraction ( http://arxiv.org/abs/2406.10011v1 )

ライセンス: Link先を確認
Hanna Foerster, Robert Mullins, Ilia Shumailov, Jamie Hayes, (参考訳) 深層ニューラルネットワークは、知的財産価値の訓練に費用がかかり、その機密性を侵害するモデル抽出攻撃によってますます脅かされている。 従来の攻撃は、暗号解析技術を用いて少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、fat64の精度まで逆エンジニアリングモデルパラメーターを成功させた。 しかし、このプロセスは非常に時間がかかり、標準ベンチマークでトレーニングされた大規模でより深いモデルでは実現不可能であることが判明した。 本研究では、標準ベンチマークでトレーニングしたモデルに対して、Carliini et al [1] のパラメータ抽出手法が Canales-Mart\inez et al [2] によりさらに強化される可能性を評価する。 我々は,従来の手法を統合した統一コードベースを導入し,計算ツールが性能に大きな影響を及ぼすことを示した。 終末攻撃に対するさらなる最適化を開発し、ニューロンの抽出がより容易で難しいことから、従来の方法と比較して最大14.8倍の重量標識の抽出効率を向上させる。 従来の仮定とは対照的に、重みの抽出ではなく重みの抽出を重要なボトルネックとして特定する。 MNISTでトレーニングされた2つの隠れ層を持つ16,721のパラメータモデルを,少なくとも150分前と比較して98分以内で抽出した。 最後に,過去の研究で観察された方法論的欠陥に対処し,将来のモデル抽出攻撃に対するロバストなベンチマーク手法を提案する。

Deep neural networks, costly to train and rich in intellectual property value, are increasingly threatened by model extraction attacks that compromise their confidentiality. Previous attacks have succeeded in reverse-engineering model parameters up to a precision of float64 for models trained on random data with at most three hidden layers using cryptanalytical techniques. However, the process was identified to be very time consuming and not feasible for larger and deeper models trained on standard benchmarks. Our study evaluates the feasibility of parameter extraction methods of Carlini et al. [1] further enhanced by Canales-Mart\'inez et al. [2] for models trained on standard benchmarks. We introduce a unified codebase that integrates previous methods and reveal that computational tools can significantly influence performance. We develop further optimisations to the end-to-end attack and improve the efficiency of extracting weight signs by up to 14.8 times compared to former methods through the identification of easier and harder to extract neurons. Contrary to prior assumptions, we identify extraction of weights, not extraction of weight signs, as the critical bottleneck. With our improvements, a 16,721 parameter model with 2 hidden layers trained on MNIST is extracted within only 98 minutes compared to at least 150 minutes previously. Finally, addressing methodological deficiencies observed in previous studies, we propose new ways of robust benchmarking for future model extraction attacks.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# ニューラルネットワークのアウト・オブ・ディストリビューション一般化のキャラクタリゼーション:乱れたSu-Schrieffer-Heegerモデルへの応用

Characterizing out-of-distribution generalization of neural networks: application to the disordered Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2406.10012v1 )

ライセンス: Link先を確認
Kacper Cybiński, Marcin Płodzień, Michał Tomza, Maciej Lewenstein, Alexandre Dauphin, Anna Dawid, (参考訳) 機械学習(ML)は、物質の相を検出するための有望なツールである。 しかし、MLモデルはブラックボックス構造でも知られており、データから何を学んだかを理解するのを妨げ、新しいデータにリスクを負わせる。 さらに、MLの主な課題は、その優れた一般化能力、すなわちトレーニングセット外のデータに対する優れたパフォーマンスを保証することである。 ここでは、クラスアクティベーションマッピング(CAM)と呼ばれる解釈可能性手法のインフォームド利用と、主成分分析(PCA)によるデータの潜在表現の分析が、量子位相を分類するために訓練されたニューラルネットワーク(NN)の予測における信頼を高める方法を示す。 特に, 複雑な分類問題において, このようなNNを選択することで, 相の既知特性を学習することで, 分配外分布の一般化を確実にできることを示す。 本研究は,SSHモデルと障害のないトポロジカル・シュリーファー・ヘーガー(SSH)モデルを例に示す。 この研究は,解釈可能性手法の体系的利用が,科学的問題におけるNNの性能をいかに向上させるかを示す一例である。

Machine learning (ML) is a promising tool for the detection of phases of matter. However, ML models are also known for their black-box construction, which hinders understanding of what they learn from the data and makes their application to novel data risky. Moreover, the central challenge of ML is to ensure its good generalization abilities, i.e., good performance on data outside the training set. Here, we show how the informed use of an interpretability method called class activation mapping (CAM), and the analysis of the latent representation of the data with the principal component analysis (PCA) can increase trust in predictions of a neural network (NN) trained to classify quantum phases. In particular, we show that we can ensure better out-of-distribution generalization in the complex classification problem by choosing such an NN that, in the simplified version of the problem, learns a known characteristic of the phase. We show this on an example of the topological Su-Schrieffer-Heeger (SSH) model with and without disorder, which turned out to be surprisingly challenging for NNs trained in a supervised way. This work is an example of how the systematic use of interpretability methods can improve the performance of NNs in scientific problems.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 自己学習型生産システムのための状態ベースの可能性ゲームにおけるグラディエントベース学習

Gradient-based Learning in State-based Potential Games for Self-Learning Production Systems ( http://arxiv.org/abs/2406.10015v1 )

ライセンス: Link先を確認
Steve Yuwono, Marlon Löppenberg, Dorothea Schwung, Andreas Schwung, (参考訳) 本稿では,自己学習型分散生産システムにおける状態ベースポテンシャルゲーム(SbPG)の勾配に基づく新しい最適化手法を提案する。 SbPGは、分散マルチエージェントシステムの自己最適化と、グローバルな目的に対する協調的なプレイヤーの取り組みを促進する、確立された収束保証の実現に有効であると認識されている。 本研究は,SbPGにおける従来のアドホックなランダム探索に基づく学習を,より高速な収束とスムーズな探索ダイナミックスを目的とした,現代的な勾配に基づくアプローチに置き換えることを目的としている。 さらに、勾配学習の目的関数を推定するための3つの異なる変種を提案し、それぞれが検討中のシステムの固有特性に適合するように開発した。 提案手法を検証するため, スマートでフレキシブルな分散マルチエージェント生産システムであるバルク・グッド・ラボラトリー・プラント (Buck Good Laboratory Plant) の試験室に適用した。 SbPGsにおける勾配に基づく学習の導入は、トレーニング時間を短縮し、ベースラインよりも最適なポリシーを実現する。

In this paper, we introduce novel gradient-based optimization methods for state-based potential games (SbPGs) within self-learning distributed production systems. SbPGs are recognised for their efficacy in enabling self-optimizing distributed multi-agent systems and offer a proven convergence guarantee, which facilitates collaborative player efforts towards global objectives. Our study strives to replace conventional ad-hoc random exploration-based learning in SbPGs with contemporary gradient-based approaches, which aim for faster convergence and smoother exploration dynamics, thereby shortening training duration while upholding the efficacy of SbPGs. Moreover, we propose three distinct variants for estimating the objective function of gradient-based learning, each developed to suit the unique characteristics of the systems under consideration. To validate our methodology, we apply it to a laboratory testbed, namely Bulk Good Laboratory Plant, which represents a smart and flexible distributed multi-agent production system. The incorporation of gradient-based learning in SbPGs reduces training times and achieves more optimal policies than its baseline.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 半線形混合ブール-アリーメティック表現の難読化

Deobfuscation of Semi-Linear Mixed Boolean-Arithmetic Expressions ( http://arxiv.org/abs/2406.10016v1 )

ライセンス: Link先を確認
Colton Skees, (参考訳) 混合ブール-アリシメティック(MBA)難解化(Mixed Boolean-Arithmetic)は、単純な式を意味論的に等価だがより複雑なブール演算と算術演算の組合せに変換するために用いられる一般的な手法である。 DRMシステム、マルウェア、ソフトウェアプロテクターで広く使われていることは、十分に文書化されている。 2021年、Louらは1ビット変数とnビット変数の間の隠れた双方向変換を利用して線形MBAを単純化する画期的な方法を提案した。 2022年、Reichenwallnerらも同様だがより効果的に線形MBA、SiMBAを単純化する方法を提案した。 しかし、現在の線形MBA単純化器は1ビット空間で動作するため、ビット幅のオペランド内で定数を利用する式、e g (x&1), (x&1111) + (y&1111) は扱えない。 我々は、このより広範な表現のクラスを単純化できるSiMBAの拡張を提案する。 ピアツールを超越し、現在の単純化者が苦労するMBAのクラスを効率的に単純化する。

Mixed Boolean-Arithmetic (MBA) obfuscation is a common technique used to transform simple expressions into semantically equivalent but more complex combinations of boolean and arithmetic operators. Its widespread usage in DRM systems, malware, and software protectors is well documented. In 2021, Liu et al. proposed a groundbreaking method of simplifying linear MBAs, utilizing a hidden two-way transformation between 1-bit and n-bit variables. In 2022, Reichenwallner et al. proposed a similar but more effective method of simplifying linear MBAs, SiMBA, relying on a similar but more involved theorem. However, because current linear MBA simplifiers operate in 1-bit space, they cannot handle expressions which utilize constants inside of their bitwise operands, e.g. (x&1), (x&1111) + (y&1111). We propose an extension to SiMBA that enables simplification of this broader class of expressions. It surpasses peer tools, achieving efficient simplification of a class of MBAs that current simplifiers struggle with.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# ティルトと平均値 : 最終層の幾何学的調整

Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration ( http://arxiv.org/abs/2406.10017v1 )

ライセンス: Link先を確認
Gyusang Cho, Chan-Hyun Youn, (参考訳) ニューラルネットワークが過度に信頼された予測を生成する傾向があることが暴露された後、予測の信頼性を高めるために信頼性と精度を一致させることを目的としたキャリブレーションの問題が重要になった。 キャリブレーションマップに基づくいくつかの解が、追加のデータセットを用いて訓練された分類器を再分類する問題に対処するために提案されている。 本稿では,キャリブレーションマップに基づくアプローチとは異なる,分類器の最終層の重みを変換するアルゴリズムを提案する。 我々は、最終線形層の幾何学、特に角面の幾何学に集中し、対応する層の重みを調整する。 我々は、Tilt and Average(\textsc{Tna})法を命名し、キャリブレーション効果を経験的および理論的に検証する。 これにより,既存のキャリブレーションマップに基づく手法に加えて,キャリブレーション性能の向上が期待できることを示す。 コード:https://github.com/GYYYYUUUUUUU/TNA_Angular_Scaling.com

After the revelation that neural networks tend to produce overconfident predictions, the problem of calibration, which aims to align confidence with accuracy to enhance the reliability of predictions, has gained significant importance. Several solutions based on calibration maps have been proposed to address the problem of recalibrating a trained classifier using additional datasets. In this paper, we offer an algorithm that transforms the weights of the last layer of the classifier, distinct from the calibration-map-based approach. We concentrate on the geometry of the final linear layer, specifically its angular aspect, and adjust the weights of the corresponding layer. We name the method Tilt and Average(\textsc{Tna}), and validate the calibration effect empirically and theoretically. Through this, we demonstrate that our approach, in addition to the existing calibration-map-based techniques, can yield improved calibration performance. Code available : https://github.com/GYYYYYUUUUU/TNA_Angular_Scaling.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# STALL+:静的解析によるLCMベースのリポジトリレベルのコード補完

STALL+: Boosting LLM-based Repository-level Code Completion with Static Analysis ( http://arxiv.org/abs/2406.10018v1 )

ライセンス: Link先を確認
Junwei Liu, Yixuan Chen, Mingwei Liu, Xin Peng, Yiling Lou, (参考訳) リポジトリレベルのコード補完は、リポジトリ内の複数のファイルからの複雑なコンテキストを必要とするため、難しい。 これまで,LLMベースのリポジトリレベルのコード補完,すなわち検索拡張生成(RAG)と静的解析統合の2つの技術カテゴリが提案されてきた。 本研究は,LLMベースのリポジトリレベルのコード補完における静的解析統合に関する最初の研究を行い,コード補完の異なる段階における静的解析統合戦略の有効性と効率性について検討した。 まず,複数の静的解析戦略をLLMベースのリポジトリレベルのコード補完の完全なパイプラインに拡張可能かつカスタマイズ可能な統合をサポートするフレームワークSTALL+を実装し,STALL+をベースとして,最新のリポジトリレベルのコード補完ベンチマークであるCrossCodeEvalに異なるコードLLMを含めることで,広範な実験を行う。 その結果,ファイルレベルの依存関係をプロンプトフェーズに組み込むことが最善であるのに対して,後処理フェーズの統合はより悪くなっていることがわかった。 さらに、動的言語と静的言語間の静的解析、すなわち、動的言語を静的解析する制限があるため、最良の組み合わせはJavaのデコードフェーズ統合のプロンプトフェーズであり、最も良い組み合わせはPythonのプロセス後フェーズ統合のプロンプトフェーズである。 さらに、RAGと静的解析の統合の相補性や、組み合わせ後のコスト効果も見出す。

Repository-level code completion is challenging as it involves complicated contexts from multiple files in the repository. To date, researchers have proposed two technical categories to enhance LLM-based repository-level code completion, i.e., retrieval-augmented generation (RAG) and static analysis integration. This work performs the first study on the static analysis integration in LLM-based repository-level code completion by investigating both the effectiveness and efficiency of static analysis integration strategies across different phases of code completion. We first implement a framework STALL+, which supports an extendable and customizable integration of multiple static analysis strategies into the complete pipeline of LLM-based repository-level code completion; and based on STALL+, we perform extensive experiments by including different code LLMs on the latest repository-level code completion benchmark CrossCodeEval. Our findings show that integrating file-level dependencies in prompting phase performs the best while the integration in post-processing phase performs the worse. Additionally, we observe different improvements from static analysis between dynamic languages and static languages, i.e., the best combination is prompting-phase with decoding-phase integration for Java while the best combination is prompting-phase with post-processing-phase integration for Python given the limitations of statically analyzing dynamic languages. Additionally, we find the complementarity between RAG and static analysis integration as well as their cost-effectiveness after combination.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 群とシャッフル:効率的な構造直交パラメトリゼーション

Group and Shuffle: Efficient Structured Orthogonal Parametrization ( http://arxiv.org/abs/2406.10019v1 )

ライセンス: Link先を確認
Mikhail Gorbunov, Nikolay Yudin, Vera Soboleva, Aibek Alanov, Alexey Naumov, Maxim Rakhuba, (参考訳) ニューラルネットワークのサイズが大きくなると、効率的な微調整方法への需要が高まっている。 近年,事前学習モデルの重み付けに直交行列を用いる直交微調整パラダイムが導入された。 本稿では、構造化されたクラスを以前の作品から統一・一般化する、構造化行列の新しいクラスを紹介する。 このクラスの性質を調べ、その上に構造的直交パラメトリゼーションを構築する。 次に、このパラメトリゼーションを用いて直交微調整フレームワークを修正し、パラメータと計算効率を改善する。 我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。 さらに,直交畳み込みに適応し,1-Lipschitzニューラルネットワークを用いて実験を行う。

The increasing size of neural networks has led to a growing demand for methods of efficient fine-tuning. Recently, an orthogonal fine-tuning paradigm was introduced that uses orthogonal matrices for adapting the weights of a pretrained model. In this paper, we introduce a new class of structured matrices, which unifies and generalizes structured classes from previous works. We examine properties of this class and build a structured orthogonal parametrization upon it. We then use this parametrization to modify the orthogonal fine-tuning framework, improving parameter and computational efficiency. We empirically validate our method on different domains, including adapting of text-to-image diffusion models and downstream task fine-tuning in language modeling. Additionally, we adapt our construction for orthogonal convolutions and conduct experiments with 1-Lipschitz neural networks.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 大規模言語モデルにおける参照モデリングのためのディープベイズ能動的学習

Deep Bayesian Active Learning for Preference Modeling in Large Language Models ( http://arxiv.org/abs/2406.10023v1 )

ライセンス: Link先を確認
Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal, (参考訳) 近年,Large Language Models (LLMs) の行動管理における人間の嗜好の活用が顕著な成功を収めている。 それでも、データの選択とラベル付けは、特に大規模なシステムでは依然としてボトルネックとなっている。 したがって、人間のフィードバックを得るための最も有益なポイントを選択することは、好みのラベル付けのコストを大幅に削減し、LLMのさらなる発展を解き放つ可能性がある。 Bayesian Active Learningはこの課題に対処するための原則的なフレームワークを提供し、多様な設定で顕著な成功を収めた。 しかし、それを使うための以前の試みは、そのような期待を満たさなかった。 本研究は, 難治性てんかん不確実性推定が冗長サンプルの獲得につながることを同定する。 提案するBayesian Active Learner for Preference Modeling (BAL-PM) は,好ましくは高いてんかん不確実点を対象とする新たな確率的獲得政策である。 特に、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、従来の確率的ベイズ獲得ポリシーを超えている。

Leveraging human preferences for steering the behavior of Large Language Models (LLMs) has demonstrated notable success in recent years. Nonetheless, data selection and labeling are still a bottleneck for these systems, particularly at large scale. Hence, selecting the most informative points for acquiring human feedback may considerably reduce the cost of preference labeling and unleash the further development of LLMs. Bayesian Active Learning provides a principled framework for addressing this challenge and has demonstrated remarkable success in diverse settings. However, previous attempts to employ it for Preference Modeling did not meet such expectations. In this work, we identify that naive epistemic uncertainty estimation leads to the acquisition of redundant samples. We address this by proposing the Bayesian Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition policy that not only targets points of high epistemic uncertainty according to the preference model but also seeks to maximize the entropy of the acquired prompt distribution in the feature space spanned by the employed LLM. Notably, our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference labels in two popular human preference datasets and exceeds previous stochastic Bayesian acquisition policies.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# ProtoS-ViT:スパース自己説明可能な分類のための視覚基盤モデル

ProtoS-ViT: Visual foundation models for sparse self-explainable classifications ( http://arxiv.org/abs/2406.10025v1 )

ライセンス: Link先を確認
Hugues Turbé, Mina Bjelogrlic, Gianmarco Mengaldo, Christian Lovis, (参考訳) プロトタイプネットワークは、概念の線形和に基づいて本質的に説明可能なモデルを構築することを目的としている。 しかし、これらのモデルが提供する説明の透明性、コンパクト性、有意義性には重要な課題が残っている。 本研究は、凍結したViTバックボーンが、一般的なタスクとドメイン固有のタスクの両方のプロトタイプモデルに効果的に変換可能であることを示す。 ProtoS-ViTは、新しい原型ヘッドと組み合わされた強い空間的特徴を利用することで、精度、コンパクト性、説明可能性の点で、優れた性能を示す既存の原型モデルを上回っている。 モデル説明可能性の評価は、原型モデルの開発のための一般的なベンチマークとして機能する、量的および質的なメトリクスの広範なセットを通じて行われる。 コードはhttps://github.com/hturbe/protosvit.comから入手できる。

Prototypical networks aim to build intrinsically explainable models based on the linear summation of concepts. However, important challenges remain in the transparency, compactness, and meaningfulness of the explanations provided by these models. This work demonstrates how frozen pre-trained ViT backbones can be effectively turned into prototypical models for both general and domain-specific tasks, in our case biomedical image classifiers. By leveraging strong spatial features combined with a novel prototypical head, ProtoS-ViT surpasses existing prototypical models showing strong performance in terms of accuracy, compactness, and explainability. Model explainability is evaluated through an extensive set of quantitative and qualitative metrics which serve as a general benchmark for the development of prototypical models. Code is available at https://github.com/hturbe/protosvit.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 原子凝縮体における共鳴アナログ配置

Resonant analogue configurations in atomic condensates ( http://arxiv.org/abs/2406.10027v1 )

ライセンス: Link先を確認
Juan Ramón Muñoz de Nova, Pablo Fernández Palacios, Pedro Alcázar Guerrero, Ivar Zapata, Fernando Sols, (参考訳) メモリアル・ボリュームへの貢献として、原子凝縮体の実装とレビューの特徴と元の洞察と計算を組み合わせることに焦点を当て、アナログ重力における共鳴構成に関する包括的な議論を行う。 特に,ボゴリューボフ近似に基づく顕微鏡的記述を用いて,アンドレーフ効果とホーキング効果の類似を解析した。 我々は, 異常散乱過程の効率を非共振器のそれと比較する, いくつかの共振器のシナリオについて考察する。 コーシー=シュワルツの不等式や絡み合いなどのアナログ構成における量子シグネチャの存在を解析し、共鳴配置が特にアンドレーフ効果のために絡み合い信号を大幅に増加させることを観察する。 また、これらの結果が高エネルギー衝突器における急速に拡大する量子情報分野のインスピレーションとなったかについても論じる。 最後に、共鳴アナログ構造のさらなる例としてブラックホールレーザーの物理を研究し、その時間進化の3つの段階を区別する。 短時間、異なるモデルに対して線形スペクトルと非線形スペクトルを計算する。 中間時間において、BHL-BCLクロスオーバーの電流解析を一般化する。 長年にわたり,自発的なフロッケ状態の概念とその可能性について論じてきた。

As a contribution to a memorial volume, we provide a comprehensive discussion of resonant configurations in analogue gravity, focusing on its implementation in atomic condensates and combining review features with original insights and calculations. In particular, we analyze the analogues of the Andreev and Hawking effects using a microscopic description based on the Bogoliubov approximation. We contemplate several resonant scenarios whose efficiency to enhance anomalous scattering processes is compared to that of non-resonant setups. The presence of quantum signatures in analogue configurations, such as the violation of Cauchy-Schwarz inequalities or entanglement, is analyzed, observing that resonant configurations highly increase the entanglement signal, especially for the Andreev effect. We also discuss how these results have served as inspiration for the rapidly expanding field of quantum information in high-energy colliders. Finally, we study the physics of black-hole lasers as further examples of resonant analogue structures, distinguishing three stages in its time evolution. For short times, we compute the linear and non-linear spectrum for different models. For intermediate times, we generalize the current analysis of the BHL-BCL crossover. For long times, we discuss the emerging concept of spontaneous Floquet state and its potential implications.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# Haar分散ユニタリを用いた非エルミート展開器

Non-Hermitian expander obtained with Haar distributed unitaries ( http://arxiv.org/abs/2406.10029v1 )

ライセンス: Link先を確認
Sarah Timhadjelt, (参考訳) 我々は、$d$独立およびHaar分散な$N$次元ユニタリを選択することで得られるランダムな量子チャネルを考える。 我々はHastingsの議論に従い、固有値の項でスペクトルギャップを束縛し、特異値 \cite{hastings2007random,harrow2007quantum} の項でスペクトルギャップを正確に推定する。 これは特異値と固有値の両方の観点からランダムな量子展開器を構築したことを示している。 下界は、$d$正則グラフに対するアロン・ボッパナ境界の類似である。 上界はシュウィンガー・ダイソン方程式を用いて得られる。

We consider a random quantum channel obtained by taking a selection of $d$ independent and Haar distributed $N$ dimensional unitaries. We follow the argument of Hastings to bound the spectral gap in terms of eigenvalues and adapt it to give an exact estimate of the spectral gap in terms of singular values \cite{hastings2007random,harrow2007quantum}. This shows that we have constructed a random quantum expander in terms of both singular values and eigenvalues. The lower bound is an analog of the Alon-Boppana bound for $d$-regular graphs. The upper bound is obtained using Schwinger-Dyson equations.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 丸太フィードバックからのオフ・ポリティィ評価

Off-Policy Evaluation from Logged Human Feedback ( http://arxiv.org/abs/2406.10030v1 )

ライセンス: Link先を確認
Aniruddha Bhargava, Lalit Jain, Branislav Kveton, Ge Liu, Subhojyoti Mukherjee, (参考訳) 人間のフィードバックから学ぶことは、人工知能と機械学習の最近の進歩の中心である。 人間のフィードバックの収集はコストがかかるので、疑問に思うのは、新しいフィードバックを常に収集する必要があるかどうかだ。 それとも、人間のフィードバックで新しいモデルを別のモデルの反応で評価できるだろうか? これは、ログ化された人間のフィードバックから、政治以外の評価を研究する動機となる。 問題を定式化し、ポリシー値に対するモデルベースとモデルフリーの両方の推定器を提案し、それらを最適化する方法を示す。 我々は,推定者の不偏性を分析し,それを実証的に評価する。 我々の推定器は評価されたポリシーの絶対値を予測し、それらをランク付けし、最適化することができる。

Learning from human feedback has been central to recent advances in artificial intelligence and machine learning. Since the collection of human feedback is costly, a natural question to ask is if the new feedback always needs to collected. Or could we evaluate a new model with the human feedback on responses of another model? This motivates us to study off-policy evaluation from logged human feedback. We formalize the problem, propose both model-based and model-free estimators for policy values, and show how to optimize them. We analyze unbiasedness of our estimators and evaluate them empirically. Our estimators can predict the absolute values of evaluated policies, rank them, and be optimized.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# 蛍光分光法における領域適応を用いた解釈的深層学習

Intepretative Deep Learning using Domain Adaptation for Fluorescence Spectroscopy ( http://arxiv.org/abs/2406.10031v1 )

ライセンス: Link先を確認
Umberto Michelucci, Francesca Venturini, (参考訳) 蛍光分光法は生命科学や化学の基本的な道具であり、環境モニタリング、食品品質管理、生物医学診断などの応用に広く用いられている。 しかし、深層学習による分光データの解析、特に蛍光励起放出行列(EEMs)は、典型的には小さくスパースなデータセットが利用できるため、大きな課題を生んでいる。 さらに, スペクトル特性の重なりが強いため, 脳波の解析は困難である。 本研究では、これらの課題に対処する新しい解釈可能性アルゴリズムとともに、事前学習された視覚モデルによるドメイン適応を利用する新しいアプローチを提案する。 この研究で説明されているニューラルネットワークの機能エンジニアリングのおかげで、データの基礎となる物理化学的プロセスについて、より深く意味のある洞察を得られるようになりました。 提案手法は, ヴァージンオリーブ油 (EVOO) の酸化過程の解析を通じて, 品質指標の予測と関連するスペクトル帯域の同定に有効であることを示す。 この研究は、深層学習を分光に応用し、それをブラックボックスから複雑な生物学的および化学的プロセスを理解するためのツールに変換するという、非常に革新的な結果について記述している。

Fluorescence spectroscopy is a fundamental tool in life sciences and chemistry, widely used for applications such as environmental monitoring, food quality control, and biomedical diagnostics. However, analysis of spectroscopic data with deep learning, in particular of fluorescence excitation-emission matrices (EEMs), presents significant challenges due mainly to the typically small and sparse datasets available. Furthermore, the analysis of EEMs is difficult due to their high dimensionality and overlapping spectral features. This study proposes a new approach that exploits domain adaptation with pretrained vision models, alongside a novel interpretability algorithm to address these challenges. Thanks to specialised feature engineering of the neural networks described in this work, we are now able to provide deeper and meaningful insights into the physico-chemical processes underlying the data. The proposed approach is demonstrated through the analysis of the oxidation process in extra virgin olive oil (EVOO), showing its effectiveness in predicting quality indicators and identifying relevant spectral bands. This work describes significantly innovative results in the use of deep learning for spectroscopy, transforming it from a black box into a tool for understanding complex biological and chemical processes.
翻訳日:2024-06-17 13:35:39 公開日:2024-06-14
# ブロックベースアテンションマスクを用いた効率的かつ効率的な非自己回帰復号化に向けて

Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask ( http://arxiv.org/abs/2406.10034v1 )

ライセンス: Link先を確認
Tianzi Wang, Xurong Xie, Zhaoqing Li, Shoukang Hu, Zengrui Jing, Jiajun Deng, Mingyu Cui, Shujie Hu, Mengzhe Geng, Guinan Li, Helen Meng, Xunying Liu, (参考訳) 本稿では,非自己回帰(NAR)ブロックベースのアテンションマスクデコーダ(AMD)を提案する。 AMDは、アテンションマスクを用いて隠蔽される出力ラベルの連続ブロック内で並列なNAR推論を行い、ブロック間の左から右へのAR予測と履歴コンテキストのアマルガメーションを行う。 ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。 LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダは、ベースラインのCTC+ARデコードに対して最大1.73xのデコード速度比を発生させるが、テストセットに統計的に有意な単語誤り率(WER)が増加しないことを示唆している。 同じデコードリアルタイム因子で操作すると、CTC+ARベースライン上で統計学的に重要なWERの最大0.7%と0.3%の絶対値(5.3%と6.1%の相対値)が得られた。

This paper proposes a novel non-autoregressive (NAR) block-based Attention Mask Decoder (AMD) that flexibly balances performance-efficiency trade-offs for Conformer ASR systems. AMD performs parallel NAR inference within contiguous blocks of output labels that are concealed using attention masks, while conducting left-to-right AR prediction and history context amalgamation between blocks. A beam search algorithm is designed to leverage a dynamic fusion of CTC, AR Decoder, and AMD probabilities. Experiments on the LibriSpeech-100hr corpus suggest the tripartite Decoder incorporating the AMD module produces a maximum decoding speed-up ratio of 1.73x over the baseline CTC+AR decoding, while incurring no statistically significant word error rate (WER) increase on the test sets. When operating with the same decoding real time factors, statistically significant WER reductions of up to 0.7% and 0.3% absolute (5.3% and 6.1% relative) were obtained over the CTC+AR baseline.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# キラル環境におけるパーセル効果

Purcell effect in chiral environments ( http://arxiv.org/abs/2406.10038v1 )

ライセンス: Link先を確認
C. S. Rapp, J. C. Franz, S. Y. Buhmann, O. J. Franca, (参考訳) パーセル効果は、電磁媒体や体の存在下での自然崩壊率の変化を記述している。 本研究では, この効果のキラル材料への依存性と大きさについて光を当てた。 電磁気学とフェルミの黄金律の枠組みを用いて、局所場補正および非局所場補正によるキラルバルク媒体、理想化されたキラルミラーおよびキラル表面の研究を行った。 その結果、キラル効果は、大きな遷移周波数、大きな光回転強度を持つ分子、強いクロスサセプティビリティを持つ媒体に対して最大であることが示唆された。 半空間の場合、分子から界面への短い距離はさらに効果を増強する。

The Purcell effect describes the modification of the spontaneous decay rate in the presence of electromagnetic media and bodies. In this work, we shed light on the dependencies and magnitude of this effect for chiral materials. Using the framework of macroscopic quantum electrodynamics and Fermi's golden rule, we study a chiral bulk medium with and without local-field corrections, an idealised chiral mirror and a chiral surface. The results imply that the chiral effect is greatest for large transition frequencies, molecules with large optical rotatory strength and media with a strong cross-susceptibility. In the case of a half space, short distances from the molecule to the interface additionally enhance the effect.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# FZI-WIM at SemEval-2024 Task 2: Self-Consistent CoT for Complex NLI in Biomedical Domain

FZI-WIM at SemEval-2024 Task 2: Self-Consistent CoT for Complex NLI in Biomedical Domain ( http://arxiv.org/abs/2406.10040v1 )

ライセンス: Link先を確認
Jin Liu, Steffen Thoma, (参考訳) 本稿では,SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical TrialsにおけるFZI-WIMの推論システムについて述べる。 本システムは,この複雑な推論問題に対処する上で,思考の連鎖(CoT)パラダイムを活用し,自己整合性によるCoT性能の向上を図る。 欲求的なデコーディングの代わりに、同じプロンプトを持つ複数の推論チェーンをサンプリングし、多数決で最終的な検証を行う。 自己整合CoTシステムは、ベースラインF1スコアが0.80(第1位)、忠実スコアが0.90(第3位)、一貫性スコアが0.73(第12位)となる。 コードとデータを公開しています。https://github.com/jens5588/FZI-WIM-NLI4CT。

This paper describes the inference system of FZI-WIM at the SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials. Our system utilizes the chain of thought (CoT) paradigm to tackle this complex reasoning problem and further improves the CoT performance with self-consistency. Instead of greedy decoding, we sample multiple reasoning chains with the same prompt and make the final verification with majority voting. The self-consistent CoT system achieves a baseline F1 score of 0.80 (1st), faithfulness score of 0.90 (3rd), and consistency score of 0.73 (12th). We release the code and data publicly https://github.com/jens5588/FZI-WIM-NLI4CT.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# コミュニケーションギャップのブリッジ:模倣を通して手話を学ぶ人工エージェント

Bridging the Communication Gap: Artificial Agents Learning Sign Language through Imitation ( http://arxiv.org/abs/2406.10043v1 )

ライセンス: Link先を確認
Federico Tavella, Aphrodite Galata, Angelo Cangelosi, (参考訳) 人工エージェント、特にヒューマノイドロボットは、彼らの環境、物体、そしてカメラ、アクチュエータ、および物理的存在を使用する人々と相互作用する。 彼らのコミュニケーション方法は、しばしば事前にプログラムされ、行動と相互作用を制限する。 本研究は,手話理解・表現に応用可能な実演から学習することで,非言語コミュニケーションスキルの獲得について検討する。 特に,人工エージェントの模倣学習に着目し,擬似ヒューマノイドアメリカン手話を教えることで実演した。 我々はコンピュータビジョンと深層学習を用いてビデオから情報を取り出すとともに、エージェントが観察された動作を再現できるように強化学習を行う。 他の手法と比較して、我々の手法は情報を取得するための追加ハードウェアの必要性を排除している。 これらの異なるテクニックの組み合わせが手話を学ぶための実行可能な方法であることを示す。 我々の方法論は上半身(腕と手)を含む5つの異なる徴候をうまく教える。 本研究は, 人工エージェントにおける高度なコミュニケーションスキルの道を開くものである。

Artificial agents, particularly humanoid robots, interact with their environment, objects, and people using cameras, actuators, and physical presence. Their communication methods are often pre-programmed, limiting their actions and interactions. Our research explores acquiring non-verbal communication skills through learning from demonstrations, with potential applications in sign language comprehension and expression. In particular, we focus on imitation learning for artificial agents, exemplified by teaching a simulated humanoid American Sign Language. We use computer vision and deep learning to extract information from videos, and reinforcement learning to enable the agent to replicate observed actions. Compared to other methods, our approach eliminates the need for additional hardware to acquire information. We demonstrate how the combination of these different techniques offers a viable way to learn sign language. Our methodology successfully teaches 5 different signs involving the upper body (i.e., arms and hands). This research paves the way for advanced communication skills in artificial agents.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# 物理的弱さの非閉塞モニタリング : シミュレーションによるアプローチ

Unobtrusive Monitoring of Physical Weakness: A Simulated Approach ( http://arxiv.org/abs/2406.10045v1 )

ライセンス: Link先を確認
Chen Long-fei, Muhammad Ahmed Raza, Craig Innes, Subramanian Ramamoorthy, Robert B. Fisher, (参考訳) 高齢化や慢性的な状態が高齢者の日常生活に影響を与え、発達する健康問題の早期発見が重要となる。 多くの状況で一般的な弱さは、身体運動や日常の活動を微妙に変化させる。 しかし、その微妙で段階的な性質のため、このような変化を検出することは困難である。 これを解決するために、非侵入型カメラセンサを用いて、個人の毎日の座位とリラックス活動を監視し、弱さの兆候を検知する。 健康な被験者の身体運動を行い,運動前後の日常生活行動の変化を観察することにより,弱さをシミュレートする。 提案システムは,プライバシを優先しながら,身体の動き,不活性,環境状況に関する細かな特徴をリアルタイムに把握する。 ベイズネットワークは、特徴、活動、健康状態の関係をモデル化するために使用される。 このような変化を示す特定の特徴や活動を特定し、変化を観察するのに最適な時間尺度を決定することを目的としている。 その結果、日次レベルでのシミュレーション弱さを区別する精度は0.97である。 非支配的な上半身の運動速度やスケール、不活性分布、300秒の窓など、きめ細かい行動特性が最も効果的である。 しかしながら、個人固有のモデルは、最適な特徴の普遍的なセットがなく、すべての参加者で活動が特定されることが推奨されている。

Aging and chronic conditions affect older adults' daily lives, making early detection of developing health issues crucial. Weakness, common in many conditions, alters physical movements and daily activities subtly. However, detecting such changes can be challenging due to their subtle and gradual nature. To address this, we employ a non-intrusive camera sensor to monitor individuals' daily sitting and relaxing activities for signs of weakness. We simulate weakness in healthy subjects by having them perform physical exercise and observing the behavioral changes in their daily activities before and after workouts. The proposed system captures fine-grained features related to body motion, inactivity, and environmental context in real-time while prioritizing privacy. A Bayesian Network is used to model the relationships between features, activities, and health conditions. We aim to identify specific features and activities that indicate such changes and determine the most suitable time scale for observing the change. Results show 0.97 accuracy in distinguishing simulated weakness at the daily level. Fine-grained behavioral features, including non-dominant upper body motion speed and scale, and inactivity distribution, along with a 300-second window, are found most effective. However, individual-specific models are recommended as no universal set of optimal features and activities was identified across all participants.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# q$変形後弱測定におけるポインタ状態の非古典的特徴

Nonclassical features of the pointer states in the $q$-deformed post-selected weak measurement ( http://arxiv.org/abs/2406.10049v1 )

ライセンス: Link先を確認
Seyyede Elham Mousavigharalari, Azmi Ali Altintas, Fatih Ozaydin, (参考訳) 我々は、Arik-Coon高調波発振器の$q$変形コヒーレント状態を、選択後弱測定における量子資源として研究する。 まず, 弱い測定精度が$q$-deformationにより著しく向上したことを示す。 次に,光の非古典的性質に対する変形パラメータと相互作用強度の相互作用の役割に着目した。 特に,サブポアソニアン光子分布は,マンデルパラメータ,光子アンチバンチング効果,および二次スケージングで特徴づけられ,$q$-deformationにより大幅に向上していることを示す。 我々の結果は、$q$の変形量子力学の基礎を理解するだけでなく、量子技術に貢献する可能性も高めている。

We study $q$-deformed coherent states of the Arik-Coon harmonic oscillator as the quantum resource in the post-selected weak measurement. First, we show how the precision of weak measurement is improved significantly due to $q$-deformation. Next, we focus on the role of the interplay between the deformation parameter and the interaction strength on the nonclassical nature of light. In particular, we show that sub-Poissonian photon distribution as characterized by Mandel parameter, photon antibunching effect, and quadrature squeezing are greatly enhanced by $q$-deformation. Our results not only advance the understanding of the fundamentals of $q$-deformed quantum mechanics, but also raise the potential to contribute to quantum technologies.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# 医用画像分類における転写学習のための微調整戦略の比較

Comparison of fine-tuning strategies for transfer learning in medical image classification ( http://arxiv.org/abs/2406.10050v1 )

ライセンス: Link先を確認
Ana Davila, Jacinto Colan, Yasuhisa Hasegawa, (参考訳) 医療画像と機械学習の文脈において、最も強い課題の1つは、訓練済みのモデルを専門的な医学的文脈に効果的に適応させることである。 先進的な事前訓練モデルが利用可能であるにもかかわらず、非常に専門的で多様な医療画像への直接的な適用は、医学データ特有の特徴のため、しばしば不足する。 本研究は、X線、MRI、組織学、皮膚内視鏡、内視鏡手術を含む、様々な領域の医療画像領域において、事前訓練されたモデルに適用された様々な微調整法の性能に関する包括的分析を提供する。 我々は,すべての層を微調整する,あるいは分類器層のみを微調整するといった標準的な手法を含む8つの微調整戦略を,徐々に凍結する,正規化に基づく微調整,適応学習率などの手法とともに評価した。 ResNet-50、DenseNet-121、VGG-19の3つの確立されたCNNアーキテクチャを選択し、さまざまな学習シナリオと特徴抽出シナリオをカバーした。 提案手法の有効性は, 建築や医用画像の種類によって大きく異なるが, リニア・プローブとフル・ファイン・チューニングを組み合わせることで, 評価症例の50%以上において顕著な改善がみられ, 医用領域全体での総合的な効果が示された。 さらに,学習速度を動的に調整するAuto-RGNは,特定のモダリティに対して最大11%の性能向上を実現した。 さらに、DenseNetアーキテクチャは、従来のフルチューニングに比べて、代替のファインチューニングアプローチの利点が顕著であった。 この研究は、医学画像解析における事前学習モデルの最適化のための貴重な洞察を提供するだけでなく、より高度なアーキテクチャや微調整手法の研究の可能性も示唆している。

In the context of medical imaging and machine learning, one of the most pressing challenges is the effective adaptation of pre-trained models to specialized medical contexts. Despite the availability of advanced pre-trained models, their direct application to the highly specialized and diverse field of medical imaging often falls short due to the unique characteristics of medical data. This study provides a comprehensive analysis on the performance of various fine-tuning methods applied to pre-trained models across a spectrum of medical imaging domains, including X-ray, MRI, Histology, Dermoscopy, and Endoscopic surgery. We evaluated eight fine-tuning strategies, including standard techniques such as fine-tuning all layers or fine-tuning only the classifier layers, alongside methods such as gradually unfreezing layers, regularization based fine-tuning and adaptive learning rates. We selected three well-established CNN architectures (ResNet-50, DenseNet-121, and VGG-19) to cover a range of learning and feature extraction scenarios. Although our results indicate that the efficacy of these fine-tuning methods significantly varies depending on both the architecture and the medical imaging type, strategies such as combining Linear Probing with Full Fine-tuning resulted in notable improvements in over 50% of the evaluated cases, demonstrating general effectiveness across medical domains. Moreover, Auto-RGN, which dynamically adjusts learning rates, led to performance enhancements of up to 11% for specific modalities. Additionally, the DenseNet architecture showed more pronounced benefits from alternative fine-tuning approaches compared to traditional full fine-tuning. This work not only provides valuable insights for optimizing pre-trained models in medical image analysis but also suggests the potential for future research into more advanced architectures and fine-tuning methods.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# Simul-Whisper: トランケーション検出による注意誘導型ストリーミングウィスパー

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection ( http://arxiv.org/abs/2406.10052v1 )

ライセンス: Link先を確認
Haoyu Wang, Guoqiang Hu, Guodong Lin, Wei-Qiang Zhang, Jian Li, (参考訳) 頑健で大規模な多言語音声認識モデルとして、Whisperは多くの低リソースおよびアウト・オブ・ディストリビューションシナリオにおいて印象的な結果を示した。 しかし、エンコーダ・デコーダ構造は、ストリーミング音声認識への応用を妨げる。 本稿では、Whisperのクロスアテンションに埋め込まれた時間アライメントを用いて、自動回帰デコーディングを誘導し、事前訓練されたモデルの微調整なしにチャンクベースのストリーミングASRを実現するSimul-Whisperを紹介する。 さらに, チャンク境界における切り出し単語の負の効果がデコード結果に与える影響を観察し, この問題に対処するための統合・消火型切り出し検出モデルを提案する。 複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語エラー率の劣化を達成し、現在の最先端のベースラインを著しく上回ることを示した。

As a robust and large-scale multilingual speech recognition model, Whisper has demonstrated impressive results in many low-resource and out-of-distribution scenarios. However, its encoder-decoder structure hinders its application to streaming speech recognition. In this paper, we introduce Simul-Whisper, which uses the time alignment embedded in Whisper's cross-attention to guide auto-regressive decoding and achieve chunk-based streaming ASR without any fine-tuning of the pre-trained model. Furthermore, we observe the negative effect of the truncated words at the chunk boundaries on the decoding results and propose an integrate-and-fire-based truncation detection model to address this issue. Experiments on multiple languages and Whisper architectures show that Simul-Whisper achieves an average absolute word error rate degradation of only 1.46% at a chunk size of 1 second, which significantly outperforms the current state-of-the-art baseline.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# SmartOracle: ファイングラインド不変検出によるスマートコントラクトOracleの生成

SmartOracle: Generating Smart Contract Oracle via Fine-Grained Invariant Detection ( http://arxiv.org/abs/2406.10054v1 )

ライセンス: Link先を確認
Jianzhong Su, Jiachi Chen, Zhiyuan Fang, Xingwei Lin, Yutian Tang, Zibin Zheng, (参考訳) 分散アプリケーション(DApps)の普及に伴い、スマートコントラクトの複雑さと使用量の増加により、セキュリティインシデントや財務的損失に対する感受性が向上した。 これらの問題を緩和するために様々な脆弱性検出ツールが開発されているが、脆弱性検出に不適な単純で汎用的なオークルに依存するか、あるいは作成に労力を要するユーザ特定オークルを必要とするため、脆弱性検出のパフォーマンスが低下することが多い。 本稿では,脆弱性検出のためのアプリケーション固有のオラクルとして,きめ細かな不変量を自動生成する動的不変検出器SmartOracleを紹介する。 歴史的トランザクションから、SmartOracleはパターンベースの検出と高度な推論を使用して包括的なプロパティを構築し、複雑なコントラクト機能に対応するため、多層の可能性のある不変性をマイニングする。 その後、SmartOracleは、新しいトランザクションで違反した不変品を検索することで、スマートコントラクトの脆弱性を特定する。 不変検出の分野では、SmartOracleは既存の動的不変検出よりも50%多いERC20不変量を検知し、96%の精度を達成する。 さらに、現実のセキュリティインシデントからの脆弱なコントラクトを含むデータセットを構築します。 SmartOracleは、31の脆弱なコントラクトを含む許容精度96%で、466の異常トランザクションを正常に検出した。 実験結果から,スマートコントラクトの脆弱性,特に複雑なコントラクト機能に関連する脆弱性の検出の有効性が示された。

As decentralized applications (DApps) proliferate, the increased complexity and usage of smart contracts have heightened their susceptibility to security incidents and financial losses. Although various vulnerability detection tools have been developed to mitigate these issues, they often suffer poor performance in detecting vulnerabilities, as they either rely on simplistic and general-purpose oracles that may be inadequate for vulnerability detection, or require user-specified oracles, which are labor-intensive to create. In this paper, we introduce SmartOracle, a dynamic invariant detector that automatically generates fine-grained invariants as application-specific oracles for vulnerability detection. From historical transactions, SmartOracle uses pattern-based detection and advanced inference to construct comprehensive properties, and mines multi-layer likely invariants to accommodate the complicated contract functionalities. After that, SmartOracle identifies smart contract vulnerabilities by hunting the violated invariants in new transactions. In the field of invariant detection, SmartOracle detects 50% more ERC20 invariants than existing dynamic invariant detection and achieves 96% precision rate. Furthermore, we build a dataset that contains vulnerable contracts from real-world security incidents. SmartOracle successfully detects 466 abnormal transactions with an acceptable precision rate 96%, involving 31 vulnerable contracts. The experimental results demonstrate its effectiveness in detecting smart contract vulnerabilities, especially those related to complicated contract functionalities.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# マルチモーダル大言語モデルのためのフローチャート理解の最初の多次元的評価

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2406.10057v1 )

ライセンス: Link先を確認
Enming Zhang, Ruobing Yao, Huanyong Liu, Junhui Yu, Jiale Wang, (参考訳) マルチモーダル大規模言語モデル(MLLM)技術の開発により、その汎用能力はますます強力になっている。 MLLMの様々な能力を評価するために,多くの評価システムが登場した。 しかし、フローチャートに関連するタスクにおいてMLLMを評価するための包括的な方法がまだ存在しないため、日常生活や作業において非常に重要である。 本研究では,フローチャートに関連するタスクに対して,MLLMを様々な次元にわたって評価する最初の包括的手法であるFlowCEを提案する。 フローチャート上での推論, 局所認識, 情報抽出, 論理的検証, 要約におけるMLLMの能力を評価する。 しかし GPT4o モデルでさえ 56.63 のスコアしか得られないことがわかった。 オープンソースモデルの中で、Phi-3-Visionは49.97という最高スコアを獲得した。 フローチャートに基づくタスクのためのマルチモーダル大規模言語モデル(MLLM)の研究に,FlowCEが貢献できることを期待する。 このプロジェクトをオープンソース化する。 \url{https://github.com/360AILAB-NLP/FlowCE}

With the development of multimodal large language models (MLLMs) technology, its general capabilities are increasingly powerful. To evaluate the various abilities of MLLMs, numerous evaluation systems have emerged. But now there is still a lack of a comprehensive method to evaluate MLLMs in the tasks related to flowcharts, which are very important in daily life and work. We propose the first comprehensive method, FlowCE, to assess MLLMs across various dimensions for tasks related to flowcharts. It encompasses evaluating MLLMs' abilities in Reasoning, Localization Recognition, Information Extraction, Logical Verification, and Summarization on flowcharts. However, we find that even the GPT4o model achieves only a score of 56.63. Among open-source models, Phi-3-Vision obtained the highest score of 49.97. We hope that FlowCE can contribute to future research on multimodal large language models (MLLMs) for tasks based on flowcharts. We are open-sourcing this project: \url{https://github.com/360AILAB-NLP/FlowCE}
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# PRIMER: 知覚型ロバスト学習に基づくマルチエージェント軌道プランナ

PRIMER: Perception-Aware Robust Learning-based Multiagent Trajectory Planner ( http://arxiv.org/abs/2406.10060v1 )

ライセンス: Link先を確認
Kota Kondo, Claudius T. Tewari, Andrea Tagliabue, Jesus Tordesillas, Parker C. Lusk, Jonathan P. How, (参考訳) 分散マルチエージェント・トラジェクトリ・プランナーでは、エージェントは通信し、衝突のないトラジェクトリを生成するために位置を交換する必要がある。 しかし、ローカライズエラー/不確実性のため、トラジェクトリーがエージェント間で完全に共有されている場合でも、トラジェクトリ・デコンフリクションは失敗する可能性がある。 この問題に対処するために、まず、PARMとPARM*、認識を意識し、分散化し、非同期なマルチエージェント・トラジェクトリ・プランナーを提示し、エージェントのチームが不確実な環境をナビゲートし、トラジェクトリを分解し、知覚情報を用いて障害物を避ける。 PARM* と PARM* は、より保守的でないため、より近い最適解を見つけるために多くの計算を使用する。 これらの手法は最先端の性能を達成するが、大きな最適化問題を解く必要があるため、高い計算コストに悩まされるため、エージェントが高速で計画を立て直すことは困難である。 この課題を克服するために、我々は、PARM*を専門家実証者として用いた模倣学習(IL)を訓練した学習ベースのプランナーであるPRIMERを紹介した。 PRIMERは、ニューラルネットワークのデプロイにおける低計算要件を活用し、最適化ベースのアプローチよりも最大5500倍高速な計算速度を達成する。

In decentralized multiagent trajectory planners, agents need to communicate and exchange their positions to generate collision-free trajectories. However, due to localization errors/uncertainties, trajectory deconfliction can fail even if trajectories are perfectly shared between agents. To address this issue, we first present PARM and PARM*, perception-aware, decentralized, asynchronous multiagent trajectory planners that enable a team of agents to navigate uncertain environments while deconflicting trajectories and avoiding obstacles using perception information. PARM* differs from PARM as it is less conservative, using more computation to find closer-to-optimal solutions. While these methods achieve state-of-the-art performance, they suffer from high computational costs as they need to solve large optimization problems onboard, making it difficult for agents to replan at high rates. To overcome this challenge, we present our second key contribution, PRIMER, a learning-based planner trained with imitation learning (IL) using PARM* as the expert demonstrator. PRIMER leverages the low computational requirements at deployment of neural networks and achieves a computation speed up to 5500 times faster than optimization-based approaches.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# TACCO: EHRデータに基づく臨床概念と患者訪問のタスク誘導共同クラスタリング

TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR Data ( http://arxiv.org/abs/2406.10061v1 )

ライセンス: Link先を確認
Ziyang Zhang, Hejie Cui, Ran Xu, Yuzhang Xie, Joyce C. Ho, Carl Yang, (参考訳) 組織化されたElectronic Health Records(EHR)データの増加により、さまざまな機械学習モデルの開発が可能となり、疾病リスクの予測が可能になった。 しかし、既存のリスク予測手法は、複雑な疾患の不均一性を見落とし、患者訪問や臨床概念のサブグループに関する潜在的な疾患のサブタイプをモデル化することができない。 本研究では,ERHデータのハイパーグラフモデリングに基づいて臨床概念と患者訪問のクラスターを共同で発見する新しいフレームワークであるTACCOを紹介する。 具体的には、特定の疾患のリスク予測タスクによってガイドできる、新しい自己監督型協調クラスタリングフレームワークを開発する。 さらに,テキスト埋め込みによるERHデータのハイパーグラフモデルを強化し,臨床概念のクラスタと患者訪問のアライメントを対照的な目的を通じて実施する。 MIMIC-IIIデータセットとエモリー内部CRADLEデータセットを用いて、表現型分類と心血管リスク予測の下流臨床課題に関する総合的な実験を行ったところ、従来のMLベースラインと比較して平均31.25%の性能改善が見られ、コクラスタリング機構のないバニラハイパーグラフモデルでは5.26%の改善が見られた。 深層モデル解析,クラスタリング結果解析,臨床ケーススタディは,TACCOが提供した改良されたユーティリティと洞察に富んだ解釈をさらに検証する。 コードはhttps://github.com/PericlesHat/TACCOで入手できる。

The growing availability of well-organized Electronic Health Records (EHR) data has enabled the development of various machine learning models towards disease risk prediction. However, existing risk prediction methods overlook the heterogeneity of complex diseases, failing to model the potential disease subtypes regarding their corresponding patient visits and clinical concept subgroups. In this work, we introduce TACCO, a novel framework that jointly discovers clusters of clinical concepts and patient visits based on a hypergraph modeling of EHR data. Specifically, we develop a novel self-supervised co-clustering framework that can be guided by the risk prediction task of specific diseases. Furthermore, we enhance the hypergraph model of EHR data with textual embeddings and enforce the alignment between the clusters of clinical concepts and patient visits through a contrastive objective. Comprehensive experiments conducted on the public MIMIC-III dataset and Emory internal CRADLE dataset over the downstream clinical tasks of phenotype classification and cardiovascular risk prediction demonstrate an average 31.25% performance improvement compared to traditional ML baselines and a 5.26% improvement on top of the vanilla hypergraph model without our co-clustering mechanism. In-depth model analysis, clustering results analysis, and clinical case studies further validate the improved utilities and insightful interpretations delivered by TACCO. Code is available at https://github.com/PericlesHat/TACCO.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# 一次元相互作用するフェルミオンの普遍準フェルミ液体物理学

Universal quasi-Fermi liquid physics of one-dimensional interacting fermions ( http://arxiv.org/abs/2406.10063v1 )

ライセンス: Link先を確認
Joshua D. Baktay, Adrian E. Feiguin, Julian Rincon, (参考訳) 準フェルミ液体物理を表現する一次元一般スピンレスフェルミオン格子ハミルトニアンのクラスを提示する。 無限行列積状態法を用いて、静的および動的応答を計算することにより、その普遍構造を明らかにする。 主な特徴はフェルミ準位における運動量分布の有限不連続性である。 半充填のランダウ準粒子が出現する。 電荷力学は、それぞれ誘引的または反発的な相互作用のために、連続体内の高エネルギー境界状態またはスペクトル重みの集中を示す。 これらの普遍的な特徴は、複数のモデルとエネルギースケールで実現され、1次元フェルミオンのユニークなパラダイムとして準フェルミ液体を再定義する。

We present a class of one-dimensional generic spinless fermion lattice Hamiltonians that express quasi-Fermi liquid physics, manifesting both Luttinger and Fermi liquid features due to solely irrelevant interactions. Using infinite matrix product state techniques, we unveil its universal structure by calculating static and dynamic responses. Key features include a finite discontinuity in the momentum distribution at the Fermi level, despite power-law singularities in the spectral function protected by particle-hole symmetry. Away from half-filling Landau quasiparticles emerge. Charge dynamics show either high-energy bound states or concentration of spectral weight within the continuum for attractive or repulsive interactions, respectively. These universal features are realized across multiple models and energy scales thus reifying the quasi-Fermi liquid as a unique paradigm for one-dimensional fermions.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# DurLAR:多モード自律運転用パノラマ環境・反射率画像を用いた高忠実128チャンネルLiDARデータセット

DurLAR: A High-fidelity 128-channel LiDAR Dataset with Panoramic Ambient and Reflectivity Imagery for Multi-modal Autonomous Driving Applications ( http://arxiv.org/abs/2406.10068v1 )

ライセンス: Link先を確認
Li Li, Khalid N. Ismail, Hubert P. H. Shum, Toby P. Breckon, (参考訳) 我々は,パノラマ環境(近赤外)と反射率画像を備えた高忠実度18チャネル3次元LiDARデータセットであるDurLARと,自律運転用深度推定を用いたサンプルベンチマークタスクを提案する。 我々の駆動プラットフォームは、高解像度の128チャンネルのLiDAR、2MPixステレオカメラ、ラックスメーター、GNSS/INSシステムを備えている。 アンビエントおよびリフレクティビティ画像は、LiDAR点雲と共に利用可能であり、同時環境およびリフレクティビティシーン情報のマルチモーダル利用を容易にする。 DurLARを応用し, 先行ベンチマークを上回り, 単眼深度推定の課題を考察し, この高分解能の高可用性化を図るとともに, 地中真相の深度情報を用いて, 新たな共同監督型・自己監督型損失定式化を提案する。 我々は、新しいDurLARデータセット、確立されたKITTIベンチマーク、Cityscapesデータセットのパフォーマンスを比較した。 以上の結果から,DurLAR内における地上の真理分解と可利用性により,従来の一分子深度推定手法(RMSE=3.639, Sq Rel=0.936)の定量的・定性的性能が向上することを示す。

We present DurLAR, a high-fidelity 128-channel 3D LiDAR dataset with panoramic ambient (near infrared) and reflectivity imagery, as well as a sample benchmark task using depth estimation for autonomous driving applications. Our driving platform is equipped with a high resolution 128 channel LiDAR, a 2MPix stereo camera, a lux meter and a GNSS/INS system. Ambient and reflectivity images are made available along with the LiDAR point clouds to facilitate multi-modal use of concurrent ambient and reflectivity scene information. Leveraging DurLAR, with a resolution exceeding that of prior benchmarks, we consider the task of monocular depth estimation and use this increased availability of higher resolution, yet sparse ground truth scene depth information to propose a novel joint supervised/self-supervised loss formulation. We compare performance over both our new DurLAR dataset, the established KITTI benchmark and the Cityscapes dataset. Our evaluation shows our joint use supervised and self-supervised loss terms, enabled via the superior ground truth resolution and availability within DurLAR improves the quantitative and qualitative performance of leading contemporary monocular depth estimation approaches (RMSE=3.639, Sq Rel=0.936).
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# フレンチテレビとラジオコンテンツにおける音声対話のための音声-ターン境界の終端性検出

Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content ( http://arxiv.org/abs/2406.10073v1 )

ライセンス: Link先を確認
Rémi Uro, Marie Tahon, David Doukhan, Antoine Laurent, Albert Rilliard, (参考訳) トランジッション・レバレンス・プレース(Transition Relevance Places)は、現在話者、すなわちターンが終端となる場所を中断することなく、インターロケータが床を取ることができる発話の終端として定義される。 ターン終端性の分析は、自発的会話におけるターンテイクのダイナミクスを研究するのに有用である。 本稿では,複数話者設定における音声発話を端末または非端末として自動分類する。 音声, テキスト, 融合の両手法を, 話者ごとのターン終端情報を付加したTVとラジオのコーパスで比較した。 我々のモデルは、事前訓練された自己教師付き表現に基づいている。 異なる融合戦略と異なるコンテキストサイズに対する結果について報告する。 また, ランダム初期化による複数トレーニングの実行結果の違いを分析することで, 性能変動の問題を提起する。 測定精度は、ターンテイクの大規模解析にこれらのモデルを使用することを可能にした。

Transition Relevance Places are defined as the end of an utterance where the interlocutor may take the floor without interrupting the current speaker --i.e., a place where the turn is terminal. Analyzing turn terminality is useful to study the dynamic of turn-taking in spontaneous conversations. This paper presents an automatic classification of spoken utterances as Terminal or Non-Terminal in multi-speaker settings. We compared audio, text, and fusions of both approaches on a French corpus of TV and Radio extracts annotated with turn-terminality information at each speaker change. Our models are based on pre-trained self-supervised representations. We report results for different fusion strategies and varying context sizes. This study also questions the problem of performance variability by analyzing the differences in results for multiple training runs with random initialization. The measured accuracy would allow the use of these models for large-scale analysis of turn-taking.
翻訳日:2024-06-17 13:25:54 公開日:2024-06-14
# D-NPC:モノクルビデオからの非線形ビュー合成のための動的ニューラルポイント雲

D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video ( http://arxiv.org/abs/2406.10078v1 )

ライセンス: Link先を確認
Moritz Kappel, Florian Hahlbohm, Timon Scholz, Susana Castillo, Christian Theobalt, Martin Eisemann, Vladislav Golyanik, Marcus Magnor, (参考訳) 動的再構成と時空間的新規視点合成が近年注目されている。 既存の作業は、マルチビューまたはテレポーティングカメラのセットアップにおいて印象的な品質と性能を達成するが、ほとんどの手法は、カジュアルなモノクロキャプチャーから効率的に、忠実に動きと外観を回復することができない。 本稿では,カジュアルなスマートフォン撮影などのモノクロ映像から動的に新しいビュー合成手法を導入することにより,この分野に貢献する。 我々のアプローチは、静的および動的領域のためのハッシュエンコードされた別個のニューラルネットワークグリッドで局所的な幾何学と外観を符号化する暗黙の時間条件の点分布である$\textit{dynamic neural point cloud}$としてシーンを表現している。 モデルから離散点雲をサンプリングすることにより、高速な微分可能ラスタライザとニューラルレンダリングネットワークを用いて、高品質な新規ビューを効率よくレンダリングすることができる。 最近の研究と同様に、単分子深度推定や物体セグメンテーションといったデータ駆動の先行手法を取り入れて、単分子キャプチャーから生じる動きと深さの曖昧さを解消することで、ニューラルシーン解析の進歩を活用する。 最適化プロセスの導出に加えて、これらの先例を利用してシーン表現を明示的に初期化し、最適化速度と最終的な画質を大幅に向上させることができることを示す。 実験によって実証されたように、我々の動的ポイントクラウドモデルは、インタラクティブなアプリケーションに対して高速な最適化とリアルタイムフレームレートを実現するだけでなく、単分子ベンチマークシーケンス上での競合画像品質も達成する。 私たちのプロジェクトページはhttps://moritzkappel.github.io/projects/dnpc.orgで公開されています。

Dynamic reconstruction and spatiotemporal novel-view synthesis of non-rigidly deforming scenes recently gained increased attention. While existing work achieves impressive quality and performance on multi-view or teleporting camera setups, most methods fail to efficiently and faithfully recover motion and appearance from casual monocular captures. This paper contributes to the field by introducing a new method for dynamic novel view synthesis from monocular video, such as casual smartphone captures. Our approach represents the scene as a $\textit{dynamic neural point cloud}$, an implicit time-conditioned point distribution that encodes local geometry and appearance in separate hash-encoded neural feature grids for static and dynamic regions. By sampling a discrete point cloud from our model, we can efficiently render high-quality novel views using a fast differentiable rasterizer and neural rendering network. Similar to recent work, we leverage advances in neural scene analysis by incorporating data-driven priors like monocular depth estimation and object segmentation to resolve motion and depth ambiguities originating from the monocular captures. In addition to guiding the optimization process, we show that these priors can be exploited to explicitly initialize our scene representation to drastically improve optimization speed and final image quality. As evidenced by our experimental evaluation, our dynamic point cloud model not only enables fast optimization and real-time frame rates for interactive applications, but also achieves competitive image quality on monocular benchmark sequences. Our project page is available at https://moritzkappel.github.io/projects/dnpc.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# マルチモーダルクエリによるビデオ内のイベントのローカライズ

Localizing Events in Videos with Multimodal Queries ( http://arxiv.org/abs/2406.10079v1 )

ライセンス: Link先を確認
Gengyuan Zhang, Mang Ling Ada Fok, Yan Xia, Yansong Tang, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu, (参考訳) ビデオ理解はデジタル時代において重要な課題であるが、ビデオのダイナミックで多面的な性質は、労働集約的で、処理を計算的に要求する。 このように、セマンティッククエリが与えられた特定のイベントのローカライズは、ビデオ検索のようなユーザ指向アプリケーションと、ビデオ基盤モデルに関する学術研究の両方において重要である。 現在の研究における重要な制限は、セマンティッククエリが典型的には、対象イベントのセマンティックスを記述する自然言語にあることである。 この設定は、画像とテキストからなるマルチモーダルなセマンティッククエリの可能性を見落としている。 このギャップに対処するため、マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQと、新しい評価データセットICQ-Highlightを導入する。 我々の新しいベンチマークは、参照画像からなるマルチモーダルなセマンティッククエリと、画像のセマンティクスを調整するための洗練されたテキストを与えられたイベントを、モデルがいかにうまくローカライズできるかを評価することを目的としている。 モデル性能を体系的にベンチマークするために、参照画像の4つのスタイルと5つのタイプの改善テキストを含む。 我々は,既存のモデルを新しい設定に適合させる3つの適応法を提案し,特殊モデルから大規模基礎モデルまで10のSOTAモデルを評価した。 このベンチマークは、ビデオイベントのローカライゼーションにおいて、マルチモーダルクエリを調査するための最初のステップであると考えています。

Video understanding is a pivotal task in the digital era, yet the dynamic and multievent nature of videos makes them labor-intensive and computationally demanding to process. Thus, localizing a specific event given a semantic query has gained importance in both user-oriented applications like video search and academic research into video foundation models. A significant limitation in current research is that semantic queries are typically in natural language that depicts the semantics of the target event. This setting overlooks the potential for multimodal semantic queries composed of images and texts. To address this gap, we introduce a new benchmark, ICQ, for localizing events in videos with multimodal queries, along with a new evaluation dataset ICQ-Highlight. Our new benchmark aims to evaluate how well models can localize an event given a multimodal semantic query that consists of a reference image, which depicts the event, and a refinement text to adjust the images' semantics. To systematically benchmark model performance, we include 4 styles of reference images and 5 types of refinement texts, allowing us to explore model performance across different domains. We propose 3 adaptation methods that tailor existing models to our new setting and evaluate 10 SOTA models, ranging from specialized to large-scale foundation models. We believe this benchmark is an initial step toward investigating multimodal queries in video event localization.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# Whisper-Flamingo: 音声認識と翻訳のためのWhisperへの視覚的特徴の統合

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation ( http://arxiv.org/abs/2406.10082v1 )

ライセンス: Link先を確認
Andrew Rouditchenko, Yuan Gong, Samuel Thomas, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass, (参考訳) AVSR(Audio-Visual Speech Recognition)は、唇ベースのビデオを用いて、雑音の性能を改善する。 ビデオは音声よりも入手が難しいため、AVSRモデルのビデオトレーニングデータは一般的に数千時間に制限される。 対照的に、Whisperのような音声モデルは数十万時間のデータで訓練されており、より良い音声からテキストへのデコーダを学ぶことができる。 巨大なトレーニングデータの違いは、Whisperをビデオ入力に適応させる動機となります。 言語モデルに視覚的特徴を注入するFlamingoにヒントを得たWhisper-Flamingoを提案する。 音声視覚のWhisper-Flamingoは、雑音の多い6言語に対する英語音声認識とEn-X翻訳において、オーディオのみのWhisperよりも優れています。 さらに、Whisper-Flamingoは汎用モデルであり、1組のパラメータを使ってこれらのタスクを全て実行し、以前のメソッドはそれぞれの言語で個別に訓練される。

Audio-Visual Speech Recognition (AVSR) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of AVSR models is usually limited to a few thousand hours. In contrast, speech models such as Whisper are trained with hundreds of thousands of hours of data, and thus learn a better speech-to-text decoder. The huge training data difference motivates us to adapt Whisper to handle video inputs. Inspired by Flamingo which injects visual features into language models, we propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions. Moreover, Whisper-Flamingo is a versatile model and conducts all of these tasks using one set of parameters, while prior methods are trained separately on each language.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 音声言語理解のための音声基礎モデルの評価について

On the Evaluation of Speech Foundation Models for Spoken Language Understanding ( http://arxiv.org/abs/2406.10083v1 )

ライセンス: Link先を確認
Siddhant Arora, Ankita Pasad, Chung-Ming Chien, Jionghao Han, Roshan Sharma, Jee-weon Jung, Hira Dhamyal, William Chen, Suwon Shon, Hung-yi Lee, Karen Livescu, Shinji Watanabe, (参考訳) Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、自然言語による分類とシーケンス生成タスクを含む複雑な音声言語理解(SLU)タスクのベンチマークやオープンリソースの必要性に対処した。 このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。 しかし、コミュニティには、異なるSFMの比較ユーティリティに関する微妙な理解がまだ欠けている。 SFMがこれらの複雑なSLUタスクに最も恩恵をもたらすものは何で、これらのSFMを組み込む上で最も効果的なアプローチは何か? これに対応するために、複数の評価プロトコルを用いて、複数の教師付きおよび自己監督型SFMを広範囲に評価する。 (i)軽量予測ヘッド付き冷凍SFM (II)複雑な予測ヘッド付き凍結SFM (iii)軽量予測ヘッド付き微調整SFM。 教師付きSFMは、多くの音声認識データ(ラベル付き)で事前訓練されているが、必ずしも自己教師付きSFMよりも優れているわけではない。 SFMを普遍的に組み込む方法は存在しないが、複雑な予測ヘッドは推論時間を増加させるにも拘わらず、ほとんどのタスクに最適な性能を与える。 また、これらのタスクとモデリング戦略のためのオープンソースのツールキットとパフォーマンスリーダーボードSLUE-PERBを紹介します。

The Spoken Language Understanding Evaluation (SLUE) suite of benchmark tasks was recently introduced to address the need for open resources and benchmarking of complex spoken language understanding (SLU) tasks, including both classification and sequence generation tasks, on natural speech. The benchmark has demonstrated preliminary success in using pre-trained speech foundation models (SFM) for these SLU tasks. However, the community still lacks a fine-grained understanding of the comparative utility of different SFMs. Inspired by this, we ask: which SFMs offer the most benefits for these complex SLU tasks, and what is the most effective approach for incorporating these SFMs? To answer this, we perform an extensive evaluation of multiple supervised and self-supervised SFMs using several evaluation protocols: (i) frozen SFMs with a lightweight prediction head, (ii) frozen SFMs with a complex prediction head, and (iii) fine-tuned SFMs with a lightweight prediction head. Although the supervised SFMs are pre-trained on much more speech recognition data (with labels), they do not always outperform self-supervised SFMs; the latter tend to perform at least as well as, and sometimes better than, supervised SFMs, especially on the sequence generation tasks in SLUE. While there is no universally optimal way of incorporating SFMs, the complex prediction head gives the best performance for most tasks, although it increases the inference time. We also introduce an open-source toolkit and performance leaderboard, SLUE-PERB, for these tasks and modeling strategies.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 効果的な事前学習課題によるチャートに対する質問応答の促進

Enhancing Question Answering on Charts Through Effective Pre-training Tasks ( http://arxiv.org/abs/2406.10085v1 )

ライセンス: Link先を確認
Ashim Gupta, Vivek Gupta, Shuo Zhang, Yujie He, Ning Zhang, Shalin Shah, (参考訳) 文書を完全に理解するには、テキスト情報の使用だけでは不十分である。 レイアウトやチャートなどの視覚的手がかりも必要だ。 現在の文書理解のための最先端のアプローチ(OCRベースとOCRフリーの両方)はうまく機能するが、その機能と制限の徹底的な分析はまだ行われていない。 そこで本研究では、チャートやプロットに適用した場合の現在のVisualQAモデルの制限について述べる。 最先端モデルの欠点を明らかにするため,ChartQAをケーススタディとして包括的行動分析を行った。 以上の結果から,既存のモデルでは,図の構造的・視覚的文脈や数値的情報に関する疑問に答える上で,特に性能が低いことが示唆された。 これらの課題に対処するために,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。 抽出された質問データセットと抽象的な質問データセットの2つのグラフデータセット上で,事前学習したモデル(MatchCha-v2)を評価し,ベースラインモデルよりも平均1.7%向上したことを確認した。

To completely understand a document, the use of textual information is not enough. Understanding visual cues, such as layouts and charts, is also required. While the current state-of-the-art approaches for document understanding (both OCR-based and OCR-free) work well, a thorough analysis of their capabilities and limitations has not yet been performed. Therefore, in this work, we addresses the limitation of current VisualQA models when applied to charts and plots. To investigate shortcomings of the state-of-the-art models, we conduct a comprehensive behavioral analysis, using ChartQA as a case study. Our findings indicate that existing models particularly underperform in answering questions related to the chart's structural and visual context, as well as numerical information. To address these issues, we propose three simple pre-training tasks that enforce the existing model in terms of both structural-visual knowledge, as well as its understanding of numerical questions. We evaluate our pre-trained model (called MatCha-v2) on three chart datasets - both extractive and abstractive question datasets - and observe that it achieves an average improvement of 1.7% over the baseline model.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 畳み込みニューラルネットワークによる影響力のあるテキストの発見

Discovering influential text using convolutional neural networks ( http://arxiv.org/abs/2406.10086v1 )

ライセンス: Link先を確認
Megan Ayers, Luke Sanford, Margaret Roberts, Eddie Yang, (参考訳) 人的評価に対するテキストの影響を推定するための実験的手法が社会科学で広く用いられている。 しかしながら、実験的な設定の研究者は通常、少数の特定されたテキスト処理のテストに限られる。 結果に因果的に影響を及ぼす特徴に対する非構造化テキストのマイニングは近年行われているが、これらのモデルは主に、その効果のメカニズムであるとは限らないトピックや特定のテキストの単語に焦点を当てている。 我々は、これらの取り組みをNLP解釈可能性技術と結びつけ、畳み込みニューラルネットワークを用いたテキストに対する人間の反応を予測可能な類似文句のクラスタを柔軟に発見する方法を提案する。 実験環境で使用する場合、特定の仮定の下でテキスト処理とその効果を識別することができる。 この手法を2つのデータセットに適用する。 1つ目は、モデルが結果を引き起こすことが知られているフレーズを検知する能力の直接検証を可能にすることである。 2つ目は、様々なテキスト構造を持つテキスト処理を柔軟に発見する能力を示している。 どちらの場合も、このモデルはベンチマーク手法よりも多種多様なテキスト処理を学習し、これらのテキスト機能はベンチマーク手法が結果を予測する能力を定量的に満たしたり、超えたりすることができる。

Experimental methods for estimating the impacts of text on human evaluation have been widely used in the social sciences. However, researchers in experimental settings are usually limited to testing a small number of pre-specified text treatments. While efforts to mine unstructured texts for features that causally affect outcomes have been ongoing in recent years, these models have primarily focused on the topics or specific words of text, which may not always be the mechanism of the effect. We connect these efforts with NLP interpretability techniques and present a method for flexibly discovering clusters of similar text phrases that are predictive of human reactions to texts using convolutional neural networks. When used in an experimental setting, this method can identify text treatments and their effects under certain assumptions. We apply the method to two datasets. The first enables direct validation of the model's ability to detect phrases known to cause the outcome. The second demonstrates its ability to flexibly discover text treatments with varying textual structures. In both cases, the model learns a greater variety of text treatments compared to benchmark methods, and these text features quantitatively meet or exceed the ability of benchmark methods to predict the outcome.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 事前学習モデルを用いたバイオマーカーを用いた癌分類

Biomarker based Cancer Classification using an Ensemble with Pre-trained Models ( http://arxiv.org/abs/2406.10087v1 )

ライセンス: Link先を確認
Chongmin Lee, Jihie Kim, (参考訳) 膵癌は早期発見が困難であり、がんの同定にバイオマーカーとがんの因果関係を発見することが重要である。 非侵襲的な方法で特定のバイオマーカーの検出とモニタリングを行うことにより、液体生検は医療介入の精度と効果を高め、パーソナライズされた医療への移行を提唱する。 ランダムフォレストやSVMといった機械学習アルゴリズムは分類に利用されるが、ハイパーパラメータチューニングを行う必要があるため効率が悪い。 我々はメタトレーニングされたハイパーファストモデルを用いて癌を分類し、最高AUC0.9929を達成し、特にいくつかのバイナリ分類タスクにおける他のMLアルゴリズムと比較して、高度に不均衡なデータセットに対して頑健性を達成する(BRCA対非BRCA)。 また,500PCA機能のみを使用しながら精度の漸増(0.9464)を実現し,事前学習したハイパーファストモデル,XGBoost,LightGBMを組み合わせた新しいアンサンブルモデルを提案する。

Certain cancer types, namely pancreatic cancer is difficult to detect at an early stage; sparking the importance of discovering the causal relationship between biomarkers and cancer to identify cancer efficiently. By allowing for the detection and monitoring of specific biomarkers through a non-invasive method, liquid biopsies enhance the precision and efficacy of medical interventions, advocating the move towards personalized healthcare. Several machine learning algorithms such as Random Forest, SVM are utilized for classification, yet causing inefficiency due to the need for conducting hyperparameter tuning. We leverage a meta-trained Hyperfast model for classifying cancer, accomplishing the highest AUC of 0.9929 and simultaneously achieving robustness especially on highly imbalanced datasets compared to other ML algorithms in several binary classification tasks (e.g. breast invasive carcinoma; BRCA vs. non-BRCA). We also propose a novel ensemble model combining pre-trained Hyperfast model, XGBoost, and LightGBM for multi-class classification tasks, achieving an incremental increase in accuracy (0.9464) while merely using 500 PCA features; distinguishable from previous studies where they used more than 2,000 features for similar results.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# ミリ波SWIPTネットワークにおけるセキュリティ強化

Enhancing Security in Millimeter Wave SWIPT Networks ( http://arxiv.org/abs/2406.10089v1 )

ライセンス: Link先を確認
Rui Zhu, (参考訳) ミリ波(mmWave)通信は、超高消費電力の大きな問題に遭遇する。 この問題に対処するために、同時無線情報伝送(SWIPT)は有望な技術である可能性がある。 mmWave基地局(BS)は、大きなアンテナアレイを詰め込んで、大きなアレイゲインと高速短距離送信を実現することができるため、現在の低周波無線伝送と比較して、SWIPTの周波数はより適切である。 残念ながら、無線通信におけるSWIPTの実装は、高い送信電力とデータ流出による盗聴に対する防御力の拡大につながる可能性がある。 従来、狭ビームは盗聴に対して固有の情報理論的セキュリティを提供すると考えられており、これは、盗聴器と受信機の間の視線経路に依存する盗聴器だけが十分な信号を受け取ることができるためである。 しかし、いくつかのmmWave実験では、高指向性mmWaveを用いても、環境中の物体によって引き起こされる反射信号は、盗聴者にとって有益であることが示されている。 本稿では、一般的なmmWave SWIPTネットワークにおけるセキュリティ性能について検討し、異なる攻撃モデル下での盗聴を成功させる可能性について検討する。 環境にランダムな反射経路を組み込むことにより, 独立および共分散な軒水双方の軒水成功確率 (ESP) の解析式を導出した。 理論的解析とシミュレーションの結果から,SWIPTにおける時間切替戦略,mmWave BSの密度,キャリア周波数など,ESPに対する重要なパラメータの影響が明らかになった。 数値およびシミュレーション結果に基づいて、盗聴攻撃を防ぎ、実際に安全な通信を実現するために、mmWave SWIPTの設計提案を行う。

Millimeter wave (mmWave) communication encounters a major issue of extremely high power consumption. To address this problem, the simultaneous wireless information and power transfer (SWIPT) could be a promising technology. The mmWave frequencies are more appropriate for the SWIPT comparing to current low-frequency wireless transmissions, since mmWave base stations (BSs) can pack with large antenna arrays to achieve significant array gains and high-speed short-distance transmissions. Unfortunately, the implementation of SWIPT in the wireless communication may lead to an expanded defencelessness against the eavesdropping due to high transmission power and data spillage. It is conventionally believed that narrow beam offers inherent information-theoretic security against the eavesdropping, because only the eavesdroppers, which rely on the line-of-sight path between the legitimate transmitter and receiver, can receive strong enough signals. However, some mmWave experiments have shown that even by using highly directional mmWaves, the reflection signals caused by objects in the environment can be beneficial to the eavesdroppers. This paper studies the security performance in general mmWave SWIPT networks, and investigates the probability of successful eavesdropping under different attack models. Analytical expressions of eavesdropping success probability (ESP) of both independent and colluding eavesdroppers are derived by incorporating the random reflection paths in the environment. Theoretical analysis and simulation results reveal the effects of some key parameters on the ESP, such as the time switching strategy in SWIPT, densities of mmWave BSs, and carriers frequencies, etc. Based on the numerical and simulation results, some design suggestions of mmWave SWIPT are provided to defend against eavesdropping attacks and achieve secure communication in practice.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# ニューラルネットワークにおける過度パラメータ化と対向ロバスト性:概観と実証分析

Over-parameterization and Adversarial Robustness in Neural Networks: An Overview and Empirical Analysis ( http://arxiv.org/abs/2406.10090v1 )

ライセンス: Link先を確認
Zhang Chen, Luca Demetrio, Srishti Gupta, Xiaoyi Feng, Zhaoqiang Xia, Antonio Emanuele Cinà, Maura Pintor, Luca Oneto, Ambra Demontis, Battista Biggio, Fabio Roli, (参考訳) その広範な能力のおかげで、過パラメータ化されたニューラルネットワークは優れた予測能力と一般化を示す。 しかし、大きなパラメータ空間を持つことは、ニューラルネットワークの脆弱性の主な疑念の1つと考えられている。 関連文献は、過度にパラメータ化されたネットワークの堅牢性を支持し、それに反対する矛盾した発言を主張している。 これらの矛盾する発見は、ネットワークの堅牢性を評価するために使用された攻撃の失敗によるものかもしれない。 従来の研究は、考慮されたモデルによっては、敵の例を生成するアルゴリズムが適切に機能しないことを示しており、モデルの頑健さを過大評価している。 本研究では, オーバーパラメータネットワークのロバスト性を, 対向例に対して実証的に検討する。 しかし, 従来の研究と異なり, 結果の正確性を支持するため, 検討された攻撃の信頼性も評価する。 その結果,過度パラメータ化ネットワークは,過度パラメータ化ネットワークとは対照的に,敵の攻撃に対して堅牢であることがわかった。

Thanks to their extensive capacity, over-parameterized neural networks exhibit superior predictive capabilities and generalization. However, having a large parameter space is considered one of the main suspects of the neural networks' vulnerability to adversarial example -- input samples crafted ad-hoc to induce a desired misclassification. Relevant literature has claimed contradictory remarks in support of and against the robustness of over-parameterized networks. These contradictory findings might be due to the failure of the attack employed to evaluate the networks' robustness. Previous research has demonstrated that depending on the considered model, the algorithm employed to generate adversarial examples may not function properly, leading to overestimating the model's robustness. In this work, we empirically study the robustness of over-parameterized networks against adversarial examples. However, unlike the previous works, we also evaluate the considered attack's reliability to support the results' veracity. Our results show that over-parameterized networks are robust against adversarial attacks as opposed to their under-parameterized counterparts.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 同時音声翻訳における人間と機械の相関性の検討

Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation ( http://arxiv.org/abs/2406.10091v1 )

ライセンス: Link先を確認
Xiaoman Wang, Claudio Fantinuoli, (参考訳) 音声翻訳の微妙な性質、通訳が適用する戦略、ユーザの多様な期待を考慮し、解釈サービスの性能を評価することは複雑な作業である。 このタスクの複雑さは、自動評価手法を適用するとさらに顕著になる。 これは特に、インタプリタが使用する戦略のため、インタプリタテキストはソース言語とターゲット言語の線形性が低いためである。 本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。 我々は、解釈品質、すなわち翻訳精度または忠実さの特定の特徴に焦点を当てる。 ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。 我々は、参照翻訳に頼ることなく、ソースと翻訳テキスト間の意味的類似性を定量化する。 その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, 短いテキストセグメントの評価においても, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と強い相関性を示すことが示唆された。 さらに、この研究により、コンテキストウィンドウのサイズがこの相関に顕著な影響を及ぼすことが明らかとなった。

Assessing the performance of interpreting services is a complex task, given the nuanced nature of spoken language translation, the strategies that interpreters apply, and the diverse expectations of users. The complexity of this task become even more pronounced when automated evaluation methods are applied. This is particularly true because interpreted texts exhibit less linearity between the source and target languages due to the strategies employed by the interpreter. This study aims to assess the reliability of automatic metrics in evaluating simultaneous interpretations by analyzing their correlation with human evaluations. We focus on a particular feature of interpretation quality, namely translation accuracy or faithfulness. As a benchmark we use human assessments performed by language experts, and evaluate how well sentence embeddings and Large Language Models correlate with them. We quantify semantic similarity between the source and translated texts without relying on a reference translation. The results suggest GPT models, particularly GPT-3.5 with direct prompting, demonstrate the strongest correlation with human judgment in terms of semantic similarity between source and target texts, even when evaluating short textual segments. Additionally, the study reveals that the size of the context window has a notable impact on this correlation.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# BiKC:双方向ロボットマニピュレーションのためのキープレイスコンディション整合性ポリシー

BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation ( http://arxiv.org/abs/2406.10093v1 )

ライセンス: Link先を確認
Dongjie Yu, Hang Xu, Yizhou Chen, Yi Ren, Jia Pan, (参考訳) 双方向操作タスクは通常、2つのアーム間の効率的な相互作用を必要とする複数のステージを伴い、模倣学習システムにおいてステップワイドおよびステージワイドの課題を提起する。 具体的には、ひとつのステップの失敗と遅延が時間の経過とともにブロードキャストされ、各サブステージタスクの成功と効率が妨げられ、結果として全体のタスクパフォーマンスが損なわれる。 近年の研究では、特定の課題に対処する努力が続けられているが、推論速度の重要性を同時に強調しながら、双対タスクの多段階的な性質を明示的に考慮するアプローチはほとんどない。 本稿では,バイマニュアル操作に適したキーポーズ条件の整合性ポリシーを提案する。 階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。 予測キーは、軌道生成のためのガイダンスを提供するとともに、1つのサブステージタスクの完了を示す。 トラジェクトリジェネレータは、蒸留なしでスクラッチから訓練された一貫性モデルとして設計され、現在の観測と予測キーポジションを高速な推論速度で条件付けしたアクションシーケンスを生成する。 シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。

Bimanual manipulation tasks typically involve multiple stages which require efficient interactions between two arms, posing step-wise and stage-wise challenges for imitation learning systems. Specifically, failure and delay of one step will broadcast through time, hinder success and efficiency of each sub-stage task, and thereby overall task performance. Although recent works have made strides in addressing certain challenges, few approaches explicitly consider the multi-stage nature of bimanual tasks while simultaneously emphasizing the importance of inference speed. In this paper, we introduce a novel keypose-conditioned consistency policy tailored for bimanual manipulation. It is a hierarchical imitation learning framework that consists of a high-level keypose predictor and a low-level trajectory generator. The predicted keyposes provide guidance for trajectory generation and also mark the completion of one sub-stage task. The trajectory generator is designed as a consistency model trained from scratch without distillation, which generates action sequences conditioning on current observations and predicted keyposes with fast inference speed. Simulated and real-world experimental results demonstrate that the proposed approach surpasses baseline methods in terms of success rate and operational efficiency.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# ECGMamba: BiSSMによる効率的なECG分類を目指して

ECGMamba: Towards Efficient ECG Classification with BiSSM ( http://arxiv.org/abs/2406.10098v1 )

ライセンス: Link先を確認
Yupeng Qiang, Xunde Dong, Xiuling Liu, Yang Yang, Yihai Fang, Jianhong Dou, (参考訳) 心電図(ECG)信号解析は、心血管疾患の診断において重要な技術である。 トランスフォーマーベースのモデルはECG分類において大きな進歩を遂げているが、推論フェーズでは非効率である。 この問題は、Transformerの自己保持機構の二次計算複雑性に起因する。 特に長いシーケンスを処理する場合です そこで本研究では,双方向状態空間モデル(BiSSM)を用いて分類効率を向上させる新しいモデルECGMambaを提案する。 ECGMambaは、推論の効率を保ちながら性能を向上させる一連の時系列モデリング技術を取り入れた、革新的なMambaベースのブロックに基づいている。 2つの公開ECGデータセットの実験結果は、ECGMambaが効果的に分類の有効性と効率のバランスを保ち、競争性能を達成していることを示している。 本研究は,心電図分類の分野における知識の体系化に寄与するだけでなく,効率よく正確な心電図信号解析のための新たな研究経路を提供する。 これは、心臓血管疾患の診断モデルの開発において重要である。

Electrocardiogram (ECG) signal analysis represents a pivotal technique in the diagnosis of cardiovascular diseases. Although transformer-based models have made significant progress in ECG classification, they exhibit inefficiencies in the inference phase. The issue is primarily attributable to the secondary computational complexity of Transformer's self-attention mechanism. particularly when processing lengthy sequences. To address this issue, we propose a novel model, ECGMamba, which employs a bidirectional state-space model (BiSSM) to enhance classification efficiency. ECGMamba is based on the innovative Mamba-based block, which incorporates a range of time series modeling techniques to enhance performance while maintaining the efficiency of inference. The experimental results on two publicly available ECG datasets demonstrate that ECGMamba effectively balances the effectiveness and efficiency of classification, achieving competitive performance. This study not only contributes to the body of knowledge in the field of ECG classification but also provides a new research path for efficient and accurate ECG signal analysis. This is of guiding significance for the development of diagnostic models for cardiovascular diseases.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 未知の知識:LLMインストラクションチューニングの不確かさに敏感な方法

Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning ( http://arxiv.org/abs/2406.10099v1 )

ライセンス: Link先を確認
Jiaqi Li, Yixuan Tang, Yi Yang, (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがる顕著な能力を示しているが、幻覚のような課題に直面している。 幻覚の潜在的な理由は、関連する知識や文脈の欠如である。 したがって、この問題を緩和するための有望な解決策は、質問が知識領域や提供されたコンテキストの外にあるときに「私は知らない」と答えるようLLMに指示することである。 しかし,本研究では,LLMが知識の欠如を認めるのに苦労していることが明らかとなった。 大規模言語モデルの知識境界認識能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。 この方法は、不確実性認識とアクティベーションのアクティベーションのために設計された2段階の訓練を含む。 第一段階では LLM に未知の質問を拒否するよう指導する。 第2段階では、設計した因果命令を組み込むことで、QAタスクの性能低下を回復する。 この手法を利用することで、不確実領域を識別するモデルの能力を高めることを目指している。 実験の結果,提案手法はLlama2-chat-7Bモデルの性能を大幅に向上させることがわかった。 具体的には、元のモデルと比較して知識ギャップに関する問題に対処する上で、34.7%の大幅な改善を実現している。 さらに,本手法はGPT-4より優れ,全体のパフォーマンスが9.4%向上した。 モデルとコードをGitHubでオープンソースにしています。

Large language models (LLMs) have demonstrated remarkable capabilities across various tasks but still face challenges such as hallucinations. One potential reason for hallucinations is the lack of relevant knowledge or context. Thus, a promising solution to mitigate this issue involves instructing LLMs to respond with "I do not know" when a question falls outside their knowledge domain or the provided context. However, in this work, we observed that LLMs struggle to admit their lack of knowledge, primarily due to existing instruction datasets designed to encourage specific answers. To improve large language models' capability to recognize the boundaries of their knowledge, we propose a novel approach called uncertainty-sensitive tuning. This method involves two-stage training designed for uncertainty recognition and prompt-sensitive activation. In the first stage, we guide the LLM to reject unknown questions. In the second stage, we recover the decreased performance in QA tasks by incorporating designed causal instructions. By leveraging this method, we aim to enhance the model's ability to identify areas of uncertainty. The experimental results demonstrate that our proposed uncertainty-sensitive tuning method significantly improves the performance of the Llama2-chat-7B model. Specifically, it achieves a substantial 34.7% improvement in handling questions involving knowledge gaps compared to the original model. Moreover, our approach outperforms GPT-4, exhibiting a 9.4% increase in overall performance. We open-source the model and code on GitHub.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# SkySenseGPT: リモートセンシングビジョン言語理解のための微粒化インストラクションチューニングデータセットとモデル

SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding ( http://arxiv.org/abs/2406.10100v1 )

ライセンス: Link先を確認
Junwei Luo, Zhen Pang, Yongjun Zhang, Tingzhu Wang, Linlin Wang, Bo Dang, Jiangwei Lao, Jian Wang, Jingdong Chen, Yihua Tan, Yansheng Li, (参考訳) リモートセンシング大規模マルチモードモデル(RSLMM)は、リモートセンシング画像(RSI)の理解において、急速に発展し、重要な機能を示している。 しかし、既存のデータセットの制限により、複雑なリモートセンシングシーンにおけるオブジェクト間のリッチな意味関係を理解するのに、RSLMMは欠点がある。 RSLMMの複雑な理解能力を解き放つために,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。 FIT-RSは、共通解釈タスクをカバーし、関係推論から画像レベルのシーングラフ生成まで、難易度をエスカレートするいくつかの複雑な理解タスクを革新的に導入する。 FIT-RSに基づいてFIT-RSFGベンチマークを構築した。 さらに,FIT-RSRCと呼ばれるLMMの細粒度関係理解能力を評価するための新しいベンチマークを構築した。 提案するSkySenseGPTは,公開データセットとFIT-RSFGの両方で優れた性能を示し,既存のRSLMMを超えている。 我々は、FIT-RSデータセットがRSLMMの関係理解能力を向上し、リモートセンシングコミュニティのための大規模きめ細かなデータソースを提供することを期待している。 データセットはhttps://github.com/Luo-Z13/SkySenseGPTで利用可能になる

Remote Sensing Large Multi-Modal Models (RSLMMs) are developing rapidly and showcase significant capabilities in remote sensing imagery (RSI) comprehension. However, due to the limitations of existing datasets, RSLMMs have shortcomings in understanding the rich semantic relations among objects in complex remote sensing scenes. To unlock RSLMMs' complex comprehension ability, we propose a large-scale instruction tuning dataset FIT-RS, containing 1,800,851 instruction samples. FIT-RS covers common interpretation tasks and innovatively introduces several complex comprehension tasks of escalating difficulty, ranging from relation reasoning to image-level scene graph generation. Based on FIT-RS, we build the FIT-RSFG benchmark. Furthermore, we establish a new benchmark to evaluate the fine-grained relation comprehension capabilities of LMMs, named FIT-RSRC. Based on combined instruction data, we propose SkySenseGPT, which achieves outstanding performance on both public datasets and FIT-RSFG, surpassing existing RSLMMs. We hope the FIT-RS dataset can enhance the relation comprehension capability of RSLMMs and provide a large-scale fine-grained data source for the remote sensing community. The dataset will be available at https://github.com/Luo-Z13/SkySenseGPT
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 要件は必要なものすべて: LLMによる要件からコードへ

Requirements are All You Need: From Requirements to Code with LLMs ( http://arxiv.org/abs/2406.10101v1 )

ライセンス: Link先を確認
Bingyang Wei, (参考訳) ソフトウェア要件のドキュメンテーションにおけるテキスト形式の普及は、ソフトウェアエンジニアリングタスクに大規模言語モデル(LLM)を適用する大きな機会を提供する。 高品質なソフトウェア要件は、手動のソフトウェア開発プロセスを強化するだけでなく、新興のLLM技術の可能性を完全に活用するように組織を配置する。 本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。 このLLMは、ソフトウェア開発プロセス、要件分析、オブジェクト指向設計、テスト駆動開発に関連する知識、ヒューリスティックス、インストラクションで拡張され、経験豊富なソフトウェアエンジニアの専門知識を効果的にエミュレートします。 我々は,ソフトウェア技術者が段階的にこのLLMに関わり得る「プログレッシブ・プロンプティング」手法を導入する。 このアプローチを通じて、LLMは、提供された要件を解釈して機能要件を抽出し、これらを使用してオブジェクト指向モデルを作成し、その後、オブジェクト指向設計に基づいて単体テストとコードを生成することで、ソフトウェア開発タスクに段階的に取り組みます。 複雑なユーザ要件の理解とロバストな設計とコードソリューションの創出におけるLCMの熟練度を,Webプロジェクトの開発に焦点をあてたケーススタディを通じて実証する。 本研究は、LCMをソフトウェア開発ワークフローに統合し、効率と品質の両方を大幅に向上させる可能性を明らかにする。 LLMはhttps://chat.openai.com/g/g-bahoiKzkB-software-engineer-gptで利用可能である。

The pervasive use of textual formats in the documentation of software requirements presents a great opportunity for applying large language models (LLMs) to software engineering tasks. High-quality software requirements not only enhance the manual software development process but also position organizations to fully harness the potential of the emerging LLMs technology. This paper introduces a tailored LLM for automating the generation of code snippets from well-structured requirements documents. This LLM is augmented with knowledge, heuristics, and instructions that are pertinent to the software development process, requirements analysis, object-oriented design, and test-driven development, effectively emulating the expertise of a seasoned software engineer. We introduce a "Progressive Prompting" method that allows software engineers to engage with this LLM in a stepwise manner. Through this approach, the LLM incrementally tackles software development tasks by interpreting the provided requirements to extract functional requirements, using these to create object-oriented models, and subsequently generating unit tests and code based on the object-oriented designs. We demonstrate the LLM's proficiency in comprehending intricate user requirements and producing robust design and code solutions through a case study focused on the development of a web project. This study underscores the potential of integrating LLMs into the software development workflow to significantly enhance both efficiency and quality. The tailored LLM is available at https://chat.openai.com/g/g-bahoiKzkB-software-engineer-gpt.
翻訳日:2024-06-17 13:16:10 公開日:2024-06-14
# 深層学習駆動型リモートセンシング画像検索のための注釈コスト効率の良いアクティブラーニング

Annotation Cost-Efficient Active Learning for Deep Metric Learning Driven Remote Sensing Image Retrieval ( http://arxiv.org/abs/2406.10107v1 )

ライセンス: Link先を確認
Genc Hoxha, Gencer Sumbul, Julia Henkel, Lars Möllenbrok, Begüm Demir, (参考訳) 深度計測学習(DML)は,リモートセンシング(RS)において,コンテンツベース画像検索(CBIR)に非常に有効であることが示されている。 CBIRのDML手法の多くは、ディープニューラルネットワークのモデルパラメータを正確に学習するために、多くの注釈付き画像に依存している。 しかし、多くの画像アノテーションの収集には時間と費用がかかります。 そこで本研究では,DML を用いた CBIR を RS で実現するためのアノテーション・コスト効率・アクティブ・ラーニング (ANNEAL) 手法を提案する。 ANNEALは、深い距離空間を学習するために使用される、類似した、異種のイメージペアで構成された、小さくて情報的なトレーニングセットを作成することを目的としている。 画像対の情報性は、不確実性と多様性の基準を組み合わせて評価される。 画像対の不確実性を評価するために,2つのアルゴリズムを導入する。 1)計量誘導不確実性推定(MGUE)及び 2)バイナリ分類器は不確実性推定(BCGUE)を導いた。 MGUEは、距離空間の距離に基づいて、類似画像対と異画像対の「境界」として機能する閾値を自動的に推定する。 画像対と推定しきい値との類似性が近いほど、その不確実性が高くなる。 BCGUEは、正しい類似性ラベルを割り当てる際の分類器の信頼性に基づいて、画像対の不確かさを推定する。 多様性基準はクラスタリングベースの戦略を通じて評価される。 ANNEALは、MGUEまたはBCGUEとクラスタリングベースの戦略を組み合わせることで、最も情報性の高い画像ペアを選択する。 選択されたイメージペアは、専門家アノテータに送信され、類似または異種としてラベル付けされる。 このアノテート方式は、LULCラベルによる画像のアノテートコストと比較して、アノテーションコストを著しく削減する。 2つのRSベンチマークデータセットを用いて実験を行い,本手法の有効性を実証した。 提案手法のコードは,論文の受理時に公開される。

Deep metric learning (DML) has shown to be very effective for content-based image retrieval (CBIR) in remote sensing (RS). Most of DML methods for CBIR rely on many annotated images to accurately learn model parameters of deep neural networks. However, gathering many image annotations is time consuming and costly. To address this, we propose an annotation cost-efficient active learning (ANNEAL) method specifically designed for DML driven CBIR in RS. ANNEAL aims to create a small but informative training set made up of similar and dissimilar image pairs to be utilized for learning a deep metric space. The informativeness of the image pairs is assessed combining uncertainty and diversity criteria. To assess the uncertainty of image pairs, we introduce two algorithms: 1) metric-guided uncertainty estimation (MGUE); and 2) binary classifier guided uncertainty estimation (BCGUE). MGUE automatically estimates a threshold value that acts as a "boundary" between similar and dissimilar image pairs based on the distances in the metric space. The closer the similarity between image pairs to the estimated threshold value the higher their uncertainty. BCGUE estimates the uncertainty of the image pairs based on the confidence of the classifier in assigning the correct similarity label. The diversity criterion is assessed through a clustering-based strategy. ANNEAL selects the most informative image pairs by combining either MGUE or BCGUE with clustering-based strategy. The selected image pairs are sent to expert annotators to be labeled as similar or dissimilar. This way of annotating images significantly reduces the annotation cost compared to the cost of annotating images with LULC labels. Experimental results carried out on two RS benchmark datasets demonstrate the effectiveness of our method. The code of the proposed method will be publicly available upon the acceptance of the paper.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 物理インフォームド・ディスクリミネーター生成モデルによる降水ノウキャスティング

Precipitation Nowcasting Using Physics Informed Discriminator Generative Models ( http://arxiv.org/abs/2406.10108v1 )

ライセンス: Link先を確認
Junzhe Yin, Cristian Meo, Ankush Roy, Zeineh Bou Cher, Yanbo Wang, Ruben Imhoff, Remko Uijlenhoet, Justin Dauwels, (参考訳) Nowcastingは、短時間で天気を予測するために、リアルタイムの大気条件を活用している。 PySTEPSを含む最先端のモデルでは、予測不可能な分布パターンのため、極端な気象事象を正確に予測するのは難しい。 本研究では,オランダ王立気象研究所(KNMI)の降水量と気象データを用いて降水流しを行う物理情報ニューラルネットワークを設計した。 このモデルは、新しいPID-GAN(Pilsical-Informed Discriminator GAN)の定式化からインスピレーションを得て、逆学習フレームワークに物理に基づく監督を直接統合する。 提案モデルでは,ベクトル量子化生成逆数ネットワーク(VQ-GAN)とトランスフォーマー(Transformer)をジェネレータとして備えたGAN構造を採用した。 以上の結果から,PID-GANモデルは降水量で数値およびSOTA深部生成モデルよりも優れていた。

Nowcasting leverages real-time atmospheric conditions to forecast weather over short periods. State-of-the-art models, including PySTEPS, encounter difficulties in accurately forecasting extreme weather events because of their unpredictable distribution patterns. In this study, we design a physics-informed neural network to perform precipitation nowcasting using the precipitation and meteorological data from the Royal Netherlands Meteorological Institute (KNMI). This model draws inspiration from the novel Physics-Informed Discriminator GAN (PID-GAN) formulation, directly integrating physics-based supervision within the adversarial learning framework. The proposed model adopts a GAN structure, featuring a Vector Quantization Generative Adversarial Network (VQ-GAN) and a Transformer as the generator, with a temporal discriminator serving as the discriminator. Our findings demonstrate that the PID-GAN model outperforms numerical and SOTA deep generative models in terms of precipitation nowcasting downstream metrics.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# SoK:セキュア設計特性の確立によるソフトウェアサプライチェーンセキュリティの分析

SoK: Analysis of Software Supply Chain Security by Establishing Secure Design Properties ( http://arxiv.org/abs/2406.10109v1 )

ライセンス: Link先を確認
Chinenye Okafor, Taylor R. Schorlemmer, Santiago Torres-Arias, James C. Davis, (参考訳) 本稿では,セキュアなソフトウェアサプライチェーンパターンに関する知識を体系化する。 ソフトウェアサプライチェーン攻撃の4つのステージを特定し、セキュアなサプライチェーンに不可欠な3つのセキュリティ特性 – 透明性、妥当性、分離 – を提案する。 本稿は,現在のセキュリティアプローチを概説し,サプライチェーンの研究アイデアやケーススタディを含む,提案されたセキュリティ特性にマップする。 既知の攻撃に対する現在のアプローチの長所と短所について論じ、ソフトウェアサプライチェーンのセキュリティを確保するための様々なセキュリティフレームワークの詳細を説明している。 最後に、アクターとオペレーション中心のサプライチェーンセキュリティ技術における潜在的なギャップを強調します。

This paper systematizes knowledge about secure software supply chain patterns. It identifies four stages of a software supply chain attack and proposes three security properties crucial for a secured supply chain: transparency, validity, and separation. The paper describes current security approaches and maps them to the proposed security properties, including research ideas and case studies of supply chains in practice. It discusses the strengths and weaknesses of current approaches relative to known attacks and details the various security frameworks put out to ensure the security of the software supply chain. Finally, the paper highlights potential gaps in actor and operation-centered supply chain security techniques
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# GaussianSR: 2次元拡散先行した3次元ガウス超解法

GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors ( http://arxiv.org/abs/2406.10111v1 )

ライセンス: Link先を確認
Xiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen, (参考訳) 低解像度の入力ビューから高解像度の新規ビュー合成(HRNVS)を実現することは、高解像度データの欠如による課題である。 従来の手法では、低解像度の入力ビューから高分解能ニューラルラジアンス場(NeRF)を最適化するが、レンダリング速度は遅い。 本研究では,高速なレンダリング速度で高品質な画像を生成することができるため,本手法を3次元ガウススティング(3DGS)に基づく。 高分解能合成のためのデータの不足を軽減するため,SDS(Score Distillation Sampling)を用いて2次元の知識を3次元に蒸留することにより,市販の2次元拡散の先進的利用を提案する。 それでも、SDSをガウス系3D超解像に直接適用すると、生成前の乱れによって引き起こされるため、望ましくない冗長な3Dガウスプリミティブが生じる。 この問題を軽減するために,SDSが導入した確率的障害を軽減するための,単純かつ効果的な2つの手法を提案する。 具体的には 1) 焼鈍戦略によりSDSの拡散時間範囲を縮小する。 2) デンシフィケーション中に冗長なガウス原始体をランダムに廃棄する。 広汎な実験により,提案したGaussainSRは,合成データセットと実世界のデータセットの両方において,低解像度の入力のみを用いて,HRNVSの高品質な結果が得られることが示された。 プロジェクトページ:https://chnii.github.io/GaussianSR/

Achieving high-resolution novel view synthesis (HRNVS) from low-resolution input views is a challenging task due to the lack of high-resolution data. Previous methods optimize high-resolution Neural Radiance Field (NeRF) from low-resolution input views but suffer from slow rendering speed. In this work, we base our method on 3D Gaussian Splatting (3DGS) due to its capability of producing high-quality images at a faster rendering speed. To alleviate the shortage of data for higher-resolution synthesis, we propose to leverage off-the-shelf 2D diffusion priors by distilling the 2D knowledge into 3D with Score Distillation Sampling (SDS). Nevertheless, applying SDS directly to Gaussian-based 3D super-resolution leads to undesirable and redundant 3D Gaussian primitives, due to the randomness brought by generative priors. To mitigate this issue, we introduce two simple yet effective techniques to reduce stochastic disturbances introduced by SDS. Specifically, we 1) shrink the range of diffusion timestep in SDS with an annealing strategy; 2) randomly discard redundant Gaussian primitives during densification. Extensive experiments have demonstrated that our proposed GaussainSR can attain high-quality results for HRNVS with only low-resolution inputs on both synthetic and real-world datasets. Project page: https://chchnii.github.io/GaussianSR/
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 協調対象部分表現によるタスクアライメント部分認識パノプティクス分割

Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part Representations ( http://arxiv.org/abs/2406.10114v1 )

ライセンス: Link先を確認
Daan de Geus, Gijs Dubbelman, (参考訳) Part-Aware Panoptic segmentation (PPS) の必要性 (a)画像の各前景オブジェクトと背景領域を分類して分類すること b) フォアグラウンドオブジェクト内のすべての部分がセグメンテーションされ、分類され、親オブジェクトにリンクされていること。 既存の手法は、オブジェクトレベルと部分レベルのセグメンテーションを別々に実施することでPSSにアプローチする。 しかし、それらの部分レベルの予測は個々の親オブジェクトに関連付けられていない。 したがって、学習目的はPSタスク目標と一致せず、PSパフォーマンスを損なう。 この問題を解消し、より正確なPSS予測を行うため、タスクアライメントされたパートアライメント・パノプティクス・セグメンテーション(TAPPS)を提案する。 この方法は、共同で予測するために共有クエリのセットを使用する a)オブジェクトレベルのセグメント、 b) それらのオブジェクト内の部分レベルセグメント。 その結果、TAPPSは、個々の親オブジェクトに関連付けられた部分レベルのセグメントを予測し、学習目標とタスク目標を整合させ、TAPPSが共同オブジェクト部分表現を活用できるようにする。 実験により、TAPPSはオブジェクトとパーツを別々に予測する手法よりもかなり優れており、新しい最先端PSS結果が得られることを示した。

Part-aware panoptic segmentation (PPS) requires (a) that each foreground object and background region in an image is segmented and classified, and (b) that all parts within foreground objects are segmented, classified and linked to their parent object. Existing methods approach PPS by separately conducting object-level and part-level segmentation. However, their part-level predictions are not linked to individual parent objects. Therefore, their learning objective is not aligned with the PPS task objective, which harms the PPS performance. To solve this, and make more accurate PPS predictions, we propose Task-Aligned Part-aware Panoptic Segmentation (TAPPS). This method uses a set of shared queries to jointly predict (a) object-level segments, and (b) the part-level segments within those same objects. As a result, TAPPS learns to predict part-level segments that are linked to individual parent objects, aligning the learning objective with the task objective, and allowing TAPPS to leverage joint object-part representations. With experiments, we show that TAPPS considerably outperforms methods that predict objects and parts separately, and achieves new state-of-the-art PPS results.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# シェルフ・スーパービジョンによる3次元物体検出のためのマルチモーダル事前訓練

Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection ( http://arxiv.org/abs/2406.10115v1 )

ライセンス: Link先を確認
Mehar Khurana, Neehar Peri, Deva Ramanan, James Hays, (参考訳) 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。 しかし、3Dバウンディングボックスの注釈付けは、特にLiDARにとって、非常に高価で時間を要する。 代わりに、最近の研究はラベル付きデータによる自己教師付き事前トレーニングがラベル付きラベルによる検出精度を向上させることを実証している。 現代の手法は、画像領域から点雲(対照的な学習など)への自己教師型学習のベストプラクティスに適応する。 しかし、公開されている3Dデータセットは、画像ベースの自己教師付き学習で使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は制限されている。 しかし、このようなデータは自然にマルチモーダルな方法で収集され、しばしば画像と組み合わせられることに留意する。 インターネット規模の画像データに基づいてトレーニングされた画像ベース基盤モデルを用いて、自己管理対象のみを事前学習するよりも、ポイントクラウド表現をブートストラップする方がよい、と我々は主張する。 具体的には,2組のRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ管理手法を提案する。 このような擬似ラベルを持つ事前学習された3D検出器は、事前の自己教師付きプリテキストタスクよりも、半教師付き検出精度が大幅に向上する。 重要なことは、画像ベースシェルフスーパービジョンは、LiDARのみおよびマルチモーダル(RGB + LiDAR)検出器のトレーニングに有用であることを示す。 我々はnuScenesとWADに対するアプローチの有効性を実証し、制限されたデータ設定における以前の作業よりも大幅に改善した。

State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale image data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 信頼できる人工知能 : メトロロジーの立場から

Trustworthy Artificial Intelligence in the Context of Metrology ( http://arxiv.org/abs/2406.10117v1 )

ライセンス: Link先を確認
Tameem Adel, Sam Bilson, Mark Levene, Andrew Thompson, (参考訳) 我々は,信頼性のある人工知能(TAI)分野の国立物理学研究所(NPL)と,より具体的には信頼性の高い機械学習(TML)について,計量学の文脈で検討する。 技術的,社会技術的,社会的の3つのテーマについて述べる。これは,開発モデルが信頼性が高く,責任ある決定を下す上で重要な役割を担っている。 メトロジーの観点からは、不確実性定量化(UQ)と、AIシステムのアウトプットの透明性と信頼性を高めるためのTAIの枠組みにおけるその重要性を強調します。 次に、我々は、NPLで取り組んでいるTAI内の3つの研究領域について論じ、AIシステムの認証について、TAIの特徴の遵守の観点から検討する。

We review research at the National Physical Laboratory (NPL) in the area of trustworthy artificial intelligence (TAI), and more specifically trustworthy machine learning (TML), in the context of metrology, the science of measurement. We describe three broad themes of TAI: technical, socio-technical and social, which play key roles in ensuring that the developed models are trustworthy and can be relied upon to make responsible decisions. From a metrology perspective we emphasise uncertainty quantification (UQ), and its importance within the framework of TAI to enhance transparency and trust in the outputs of AI systems. We then discuss three research areas within TAI that we are working on at NPL, and examine the certification of AI systems in terms of adherence to the characteristics of TAI.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# SEACrowd: 東南アジア言語のための多言語マルチモーダルデータハブとベンチマークスイート

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages ( http://arxiv.org/abs/2406.10118v1 )

ライセンス: Link先を確認
Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya, (参考訳) 東南アジア (SEA) は言語多様性と文化的多様性に富んだ地域であり、1,300以上の先住民語があり、人口は671万人である。 しかし、一般的なAIモデルは、SEA言語のテキスト、画像、オーディオデータセットの表現が著しく欠けており、SEA言語のAIモデルの品質が損なわれている。 SEA言語のモデルを評価することは、英語のトレーニングデータの優位性によって複合された高品質なデータセットが不足しているために困難であり、潜在的な文化的誤表現に対する懸念を提起する。 これらの課題に対処するために,私たちは,3つのモードにわたる1,000近いSEA言語で標準化されたコーパスを提供することによって,リソースギャップを埋める包括的なリソースハブを統合する共同イニシアティブであるSEACrowdを紹介します。 SEACrowdベンチマークを通じて、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。 さらに、我々は、SEAにおけるAIの将来のための潜在的ユーティリティとリソースエクイティを最大化し、AIのさらなる進歩を促進するための戦略を提案する。

Southeast Asia (SEA) is a region rich in linguistic diversity and cultural variety, with over 1,300 indigenous languages and a population of 671 million people. However, prevailing AI models suffer from a significant lack of representation of texts, images, and audio datasets from SEA, compromising the quality of AI models for SEA languages. Evaluating models for SEA languages is challenging due to the scarcity of high-quality datasets, compounded by the dominance of English training data, raising concerns about potential cultural misrepresentation. To address these challenges, we introduce SEACrowd, a collaborative initiative that consolidates a comprehensive resource hub that fills the resource gap by providing standardized corpora in nearly 1,000 SEA languages across three modalities. Through our SEACrowd benchmarks, we assess the quality of AI models on 36 indigenous languages across 13 tasks, offering valuable insights into the current AI landscape in SEA. Furthermore, we propose strategies to facilitate greater AI advancements, maximizing potential utility and resource equity for the future of AI in SEA.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 変形型リスクフォーミュレーションによる膝関節症進行予測の改善

Modified Risk Formulation for Improving the Prediction of Knee Osteoarthritis Progression ( http://arxiv.org/abs/2406.10119v1 )

ライセンス: Link先を確認
Haresh Rengaraj Rajamohan, Richard Kijowski, Kyunghyun Cho, Cem M. Deniz, (参考訳) 変形性関節症 (OA) の発症予測法は, 予後予測モデルを改善するために, 疾患特異的な先行知識を取り入れていない。 我々は,OA重度制約を組み込んだ連続画像を用いたOA結果予測を効果的に活用する手法を開発した。 この制約により、膝に対するOAのリスクは、時間とともに増加するか、同じ状態のままでいなければならない。 DLモデルは、膝X線写真とMRIスキャンを用いて、複数の時間(1年、2年、4年)でTKRを予測するために訓練された。 リスク制約のないモデルは、受信者演算子曲線(AUROC)と高精度リコール曲線(AUPRC)分析(AUPRC)に基づいて評価した。 新たなリスクフォーマ2法は、二重モデルリスク制約アーキテクチャを利用して、1年間のTKR予測で0.87AUROCと0.47AUPRCを出力し、ベースラインアプローチでは0.79AUROCと0.34AUPRCを大きく改善した。 性能上の優位性は、長い追従期間にまで拡張され、リスクフォーマ2は4年以内に高いAUROCの0.86とAUPRCの0.75を維持した。 さらに、外部MOSTテストセットに一般化すると、リスクホルム2は1年間の予測でAUROCが0.77、AUPRCが0.25、ベースラインアプローチが0.71、AUPRCが0.19であった。 MRIテストセットでは、同様のパターンが出現し、R RiskFORM2はベースラインアプローチを一貫して上回る結果となった。 しかし、リスクフォーム1は、OAIセットの4年間の予測において、AUROCが0.86、AUPRCが0.72の最高値を示した。

Current methods for predicting osteoarthritis (OA) outcomes do not incorporate disease specific prior knowledge to improve the outcome prediction models. We developed a novel approach that effectively uses consecutive imaging studies to improve OA outcome predictions by incorporating an OA severity constraint. This constraint ensures that the risk of OA for a knee should either increase or remain the same over time. DL models were trained to predict TKR within multiple time periods (1 year, 2 years, and 4 years) using knee radiographs and MRI scans. Models with and without the risk constraint were evaluated using the area under the receiver operator curve (AUROC) and the area under the precision recall curve (AUPRC) analysis. The novel RiskFORM2 method, leveraging a dual model risk constraint architecture, demonstrated superior performance, yielding an AUROC of 0.87 and AUPRC of 0.47 for 1 year TKR prediction on the OAI radiograph test set, a marked improvement over the 0.79 AUROC and 0.34 AUPRC of the baseline approach. The performance advantage extended to longer followup periods, with RiskFORM2 maintaining a high AUROC of 0.86 and AUPRC of 0.75 in predicting TKR within 4 years. Additionally, when generalizing to the external MOST radiograph test set, RiskFORM2 generalized better with an AUROC of 0.77 and AUPRC of 0.25 for 1 year predictions, which was higher than the 0.71 AUROC and 0.19 AUPRC of the baseline approach. In the MRI test sets, similar patterns emerged, with RiskFORM2 outperforming the baseline approach consistently. However, RiskFORM1 exhibited the highest AUROC of 0.86 and AUPRC of 0.72 for 4 year predictions on the OAI set.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# アフリカの医療人工知能時代におけるデータ倫理 : Ubuntuの哲学的視点

Data Ethics in the Era of Healthcare Artificial Intelligence in Africa: An Ubuntu Philosophy Perspective ( http://arxiv.org/abs/2406.10121v1 )

ライセンス: Link先を確認
Abdoul Jalil Djiberou Mahamadou, Aloysius Ochasi, Russ B. Altman, (参考訳) データは医療人工知能(AI)システムの開発に不可欠である。 しかし、患者データ収集、アクセス、使用は、インフォームドコンセント、データバイアス、データ保護とプライバシ、データ所有、利益共有など、倫理的な懸念を提起する。 医療データとAIの倫理的利用を保証するための様々な倫理的枠組みが提案されているが、これらの枠組みは西洋の文化的価値観、社会的規範、個人の自立と幸福を強調する制度的文脈とよく一致している。 倫理的ガイドラインは、文化的多様性、傾向、植民地主義のような歴史的要因を説明するために、政治的・文化的設定を反映しなければならない。 そこで本研究では、Ubuntu哲学の観点から、アフリカにおけるAI時代の医療データ倫理について論じる。 データ倫理に対する個人主義的アプローチと共産主義的アプローチの対比に焦点を当てている。 提案されたフレームワークは、AI開発者、医療提供者、公衆、および政策立案者を含むステークホルダーに、アフリカのAIにおける医療データ倫理的利用について通知する可能性がある。

Data are essential in developing healthcare artificial intelligence (AI) systems. However, patient data collection, access, and use raise ethical concerns, including informed consent, data bias, data protection and privacy, data ownership, and benefit sharing. Various ethical frameworks have been proposed to ensure the ethical use of healthcare data and AI, however, these frameworks often align with Western cultural values, social norms, and institutional contexts emphasizing individual autonomy and well-being. Ethical guidelines must reflect political and cultural settings to account for cultural diversity, inclusivity, and historical factors such as colonialism. Thus, this paper discusses healthcare data ethics in the AI era in Africa from the Ubuntu philosophy perspective. It focuses on the contrast between individualistic and communitarian approaches to data ethics. The proposed framework could inform stakeholders, including AI developers, healthcare providers, the public, and policy-makers about healthcare data ethical usage in AI in Africa.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# MapVision:CVPR 2024 自律型グランドチャレンジマップレス運転技術レポート

MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report ( http://arxiv.org/abs/2406.10125v1 )

ライセンス: Link先を確認
Zhongyu Yang, Mai Liu, Jinluo Xie, Yueming Zhang, Chen Shen, Wei Shao, Jichao Jiao, Tengfei Xing, Runbo Hu, Pengfei Xu, (参考訳) ハイデフィニションマップ(HDマップ)のない自律走行には、より高度なアクティブなシーン理解が必要である。 このコンペティションにおいて、主催者はシーン推論能力の境界を探索するために、多視点カメラ画像と標準定義(SD)マップを提供した。 既存のアルゴリズムのほとんどは,これらの多視点画像からBird's Eye View (BEV) 機能を構築し,道路中心線,境界線,歩行者横断路,その他の領域にマルチタスクヘッドを用いた。 しかし、これらのアルゴリズムは、画像の主被写体が隠されているとき、道路の遠端で性能が悪く、苦労している。 そこで,本コンペでは,マルチパースペクティブイメージを入力として使用するだけでなく,この問題に対処するためにSDマップも組み込んだ。 ネットワークの幾何符号化能力を高めるためにマップエンコーダを事前訓練し、交通要素検出精度を向上させるためにYOLOXを使用した。 さらに,地域検出のために,LDTRと補助タスクを導入し,精度を向上した。 その結果,最終OLUSスコアは0.58となった。

Autonomous driving without high-definition (HD) maps demands a higher level of active scene understanding. In this competition, the organizers provided the multi-perspective camera images and standard-definition (SD) maps to explore the boundaries of scene reasoning capabilities. We found that most existing algorithms construct Bird's Eye View (BEV) features from these multi-perspective images and use multi-task heads to delineate road centerlines, boundary lines, pedestrian crossings, and other areas. However, these algorithms perform poorly at the far end of roads and struggle when the primary subject in the image is occluded. Therefore, in this competition, we not only used multi-perspective images as input but also incorporated SD maps to address this issue. We employed map encoder pre-training to enhance the network's geometric encoding capabilities and utilized YOLOX to improve traffic element detection precision. Additionally, for area detection, we innovatively introduced LDTR and auxiliary tasks to achieve higher precision. As a result, our final OLUS score is 0.58.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# ビデオ生成のための訓練不要カメラ制御

Training-free Camera Control for Video Generation ( http://arxiv.org/abs/2406.10126v1 )

ライセンス: Link先を確認
Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen, (参考訳) 本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。 従来の手法とは異なり、カメラに注釈を付けたデータセットの教師付き微調整や、データ拡張による自己教師型トレーニングは不要である。 代わりに、ほとんどの事前訓練されたビデオ拡散モデルでプラグインして再生し、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成する。 私たちの研究のインスピレーションは、中間ラテントが生成結果に向かって保持する以前のレイアウトから来ており、ノイズの多いピクセルを並べ替えることで、出力コンテンツも再配置されます。 カメラの動きは、視点の変化によって引き起こされるピクセルの並べ替えのようなものと見なされるので、ノイズのある潜伏剤が変化すれば、特定のカメラの動きに従ってビデオを再編成することができる。 そこで本研究では,ビデオ拡散モデルに対するロバストなカメラ制御を実現するCamTrolを提案する。 2段階のプロセスによって達成される。 まず,3次元点雲空間における露光カメラ移動による画像レイアウト再構成をモデル化する。 第2に、一連の並べ替え画像によって形成されるノイズの多いラテントの前に、レイアウトを用いて、カメラモーションで映像を生成する。 大規模な実験により、生成されたビデオのカメラモーションを制御する際に、我々の手法が持つロバストさが実証された。 さらに,本手法は動的コンテンツを用いた3次元回転ビデオ生成において,印象的な結果が得られることを示す。 Project page at https://lifedecoder.github.io/CamTrol/.com

We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 後継者国策による異種スキルの学習による探索

Exploration by Learning Diverse Skills through Successor State Measures ( http://arxiv.org/abs/2406.10127v1 )

ライセンス: Link先を確認
Paul-Antoine Le Tolguenec, Yann Besse, Florent Teichteil-Konigsbuch, Dennis G. Wilson, Emmanuel Rachelson, (参考訳) 異なるスキルを実行する能力は、エージェントに探索を促すことができる。 本研究では,状態空間を均一にカバーする多様なスキルのセットを構築することを目的とする。 本稿では,国家とスキルの相互情報に基づく事前定義に基づいて,多様なスキルを探索する手法の形式化を提案する。 我々は,各スキルに規定された政策によって到達した状態の分布を考察し,これらのスキル分布の違いを最大化するために,後継状態尺度を活用する。 我々はこのアプローチをLEADS: Learning Diverse Skills through Successor Statesと呼んでいる。 本手法は,報奨や探査ボーナスに頼ることなく,州空間を網羅的にカバーする多様なスキルセットを構築することができることを示す,迷路ナビゲーションとロボット制御タスクのセットに対するアプローチを実証する。 この新たな形式化は,相互情報の最大化と探索ボーナスを組み合わせることにより,より堅牢で効率的な探索を促進することを示す。

The ability to perform different skills can encourage agents to explore. In this work, we aim to construct a set of diverse skills which uniformly cover the state space. We propose a formalization of this search for diverse skills, building on a previous definition based on the mutual information between states and skills. We consider the distribution of states reached by a policy conditioned on each skill and leverage the successor state measure to maximize the difference between these skill distributions. We call this approach LEADS: Learning Diverse Skills through Successor States. We demonstrate our approach on a set of maze navigation and robotic control tasks which show that our method is capable of constructing a diverse set of skills which exhaustively cover the state space without relying on reward or exploration bonuses. Our findings demonstrate that this new formalization promotes more robust and efficient exploration by combining mutual information maximization and exploration bonuses.
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# SmartRSD:安全運転のためのリアルタイム路面検出のためのインテリジェントマルチモーダルアプローチ

SmartRSD: An Intelligent Multimodal Approach to Real-Time Road Surface Detection for Safe Driving ( http://arxiv.org/abs/2406.10128v1 )

ライセンス: Link先を確認
Adnan Md Tayeb, Mst Ayesha Khatun, Mohtasin Golam, Md Facklasur Rahaman, Ali Aouto, Oroceo Paul Angelo, Minseon Lee, Dong-Seong Kim, Jae-Min Lee, Jung-Hyeon Kim, (参考訳) 路面条件の正確かつ迅速な特定により、車両は速度の変更や特定のトラクション制御技術の使用といった行動を調整することができ、事故の可能性を低くし、運転者や歩行者に危険をもたらす可能性がある。 しかし、既存の道路面検出法のほとんどは、道路が破片で覆われている場合や、光の少ない場合、霧が存在する場合など、特定の状況において不十分な視覚データにのみ依存している。 そこで本稿では,音声と画像を統合することで路面条件の自動検出を行うマルチモーダル手法を提案する。 提案手法のロバスト性は,様々な環境条件および路面タイプで収集された多様なデータセット上で検証される。 広範に評価することで,実時間シナリオにおける路面条件を正確に識別するマルチモーダルアプローチの有効性と信頼性を実証する。 道路安全の向上と事故リスクの最小化を目的とした聴覚と視覚の融合の可能性について検討した。

Precise and prompt identification of road surface conditions enables vehicles to adjust their actions, like changing speed or using specific traction control techniques, to lower the chance of accidents and potential danger to drivers and pedestrians. However, most of the existing methods for detecting road surfaces solely rely on visual data, which may be insufficient in certain situations, such as when the roads are covered by debris, in low light conditions, or in the presence of fog. Therefore, we introduce a multimodal approach for the automated detection of road surface conditions by integrating audio and images. The robustness of the proposed method is tested on a diverse dataset collected under various environmental conditions and road surface types. Through extensive evaluation, we demonstrate the effectiveness and reliability of our multimodal approach in accurately identifying road surface conditions in real-time scenarios. Our findings highlight the potential of integrating auditory and visual cues for enhancing road safety and minimizing accident risks
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# 楕円流中における重イオン衝突における量子絡み合いの役割の検討

Investigating the Role of Quantum Entanglement in Heavy Ion Collisions through Elliptic Flow ( http://arxiv.org/abs/2406.10129v1 )

ライセンス: Link先を確認
Mira Varma, Oliver Baker, (参考訳) 本稿では, 重イオン衝突における初期空間異方性と最終状態運動量異方性の関係を, 逆運動量(p_T$)の関数としての楕円流(\nu_2$)の解析により検討する。 逆運動量分布を用いた重イオン衝突の熱化に関する以前の研究に基づいて、Pb-PbおよびXe-Xe衝突における$\nu_2$の$p_T$依存性まで解析を拡張した。 楕円流に対する熱および硬散乱の寄与を抽出する2成分モデルを用いて、クォークグルーオンプラズマ(QGP)の急激な熱化と集合挙動における量子絡み合いの役割について、さらなる知見を得ることを目指している。

This paper investigates the relationship between initial spatial anisotropy and final state momentum anisotropy in heavy ion collisions through the analysis of elliptic flow ($\nu_2$) as a function of transverse momentum ($p_T$). Building upon previous studies on thermalization in heavy ion collisions using transverse momentum distributions, we extend the analysis to the $p_T$ dependence of $\nu_2$ in Pb-Pb and Xe-Xe collisions. By employing a two-component model to extract the thermal and hard scattering contributions to the elliptic flow, we aim to gain further insights into the role of quantum entanglement in the rapid thermalization and collective behavior of the quark-gluon plasma (QGP).
翻訳日:2024-06-17 13:06:25 公開日:2024-06-14
# ニューロンの悪魔--事前学習型言語モデルにおける社会的バイアスの解釈と緩和-

The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models ( http://arxiv.org/abs/2406.10130v1 )

ライセンス: Link先を確認
Yan Liu, Yu Liu, Xiaokang Chen, Pin-Yu Chen, Daoguang Zan, Min-Yen Kan, Tsung-Yi Ho, (参考訳) 事前訓練された言語モデル(PLM)は、社会的バイアスのような有害な情報を含んでいると認識されており、これは社会に悪影響を及ぼしたり、壊滅的な結果をもたらすこともある。 これまでの研究は主に、モデル出力を観察して、PLMにおける社会的バイアスを検出し定量化するためのプローブのようなブラックボックス手法を使うことに重点を置いていた。 その結果、従来のデバイアス法は主に、低コストで新しく構築された反ステレオタイプデータセットのファインチューンやプレトレイン言語モデルであった。 本研究では, 言語モデルにおける社会的バイアスの謎を明らかにするために, {\sc Social Bias Neurons} の概念を導入する。 具体的には、社会的偏見などの望ましくない振る舞いに起因した言語モデルにおいて、正確に単位(ニューロン)をピンポイントする。 言語の分布特性として好ましくない振る舞いを形式化することにより、感傷的な単語(デモグラフィー)のクラスをそのような感情に関連付けるために感情提示プロンプトを採用する。 IG$^2$は、異なる人口層に対する不均一な分布を特定の社会バイアスニューロンに特化させ、相互運用を実現するためにPLMユニット内の望ましくない行動の軌跡を追跡する。 さらに, 社会的バイアスを軽減するために, 解釈可能な手法であるBNS(Bias Neuron Suppression)が提案されている。 BERT,RoBERTa,および偏りのないFairBERTaとの違いを調べたところ、IG$^2$は特定されたニューロンの発見と抑制を可能にし、さらに望ましくない行動の軽減を可能にした。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。

Pre-trained Language models (PLMs) have been acknowledged to contain harmful information, such as social biases, which may cause negative social impacts or even bring catastrophic results in application. Previous works on this problem mainly focused on using black-box methods such as probing to detect and quantify social biases in PLMs by observing model outputs. As a result, previous debiasing methods mainly finetune or even pre-train language models on newly constructed anti-stereotypical datasets, which are high-cost. In this work, we try to unveil the mystery of social bias inside language models by introducing the concept of {\sc Social Bias Neurons}. Specifically, we propose {\sc Integrated Gap Gradients (IG$^2$)} to accurately pinpoint units (i.e., neurons) in a language model that can be attributed to undesirable behavior, such as social bias. By formalizing undesirable behavior as a distributional property of language, we employ sentiment-bearing prompts to elicit classes of sensitive words (demographics) correlated with such sentiments. Our IG$^2$ thus attributes the uneven distribution for different demographics to specific Social Bias Neurons, which track the trail of unwanted behavior inside PLM units to achieve interoperability. Moreover, derived from our interpretable technique, {\sc Bias Neuron Suppression (BNS)} is further proposed to mitigate social biases. By studying BERT, RoBERTa, and their attributable differences from debiased FairBERTa, IG$^2$ allows us to locate and suppress identified neurons, and further mitigate undesired behaviors. As measured by prior metrics from StereoSet, our model achieves a higher degree of fairness while maintaining language modeling ability with low cost.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# ハイブリッドペイオフ付き線形コンテキスト帯域:再考

Linear Contextual Bandits with Hybrid Payoff: Revisited ( http://arxiv.org/abs/2406.10131v1 )

ライセンス: Link先を確認
Nirjhar Das, Gaurav Sinha, (参考訳) ハイブリッド報酬設定における線形文脈帯域問題について検討する。 この設定では、各アームの報酬モデルには、すべてのアームの報酬モデル間で共有されるパラメータに加えて、アーム固有のパラメータが含まれる。 この設定を2つの密接に関連する設定に減らすことができます (a)共有 - 腕固有のパラメータがなく、 b) Disjoint - アーム固有のパラメータのみを使用し、2つの一般的な最先端アルゴリズム($\texttt{LinUCB}$と$\texttt{DisLinUCB}$(Algorithm 1 in (Li et al 2010))を適用可能にする。 腕の特徴が確率的であり、一般的な多様性条件を満たす場合、両アルゴリズムに新たな後悔分析を提供し、これらのアルゴリズムの既知の後悔の保証を著しく改善する。 本稿では,ハイブリッド報酬構造と多様性条件を批判的に活用する。 さらに, ハイブリッド環境における疎度を考慮に入れた新たなアルゴリズムである $\texttt{HyLinUCB}$ を導入する。 同じ多様性の仮定の下では、$\texttt{HyLinUCB}$もまた$O(\sqrt{T})$ regret for $T$ roundsを発生させる。 我々は,合成および実世界のデータセットに対して,$\texttt{HyLinUCB}$の強い経験的性能を示す広範な実験を行った。 共有パラメータの数よりもはるかに大きいアーム特定パラメータの数に対して、$\texttt{DisLinUCB}$が最小の後悔を引き起こす。 この場合、$\texttt{HyLinUCB}$に対する後悔は、$\texttt{DisLinUCB}$に対する2番目の最良の競合である。 実世界のデータセットを含む他の状況では、$\texttt{HyLinUCB}$は、$\textt{LinUCB}$、$\texttt{DisLinUCB}$、その他のSOTAベースラインよりも大幅に低い。 また、例えば$\texttt{HyLinUCB}$の後悔は、ベースラインよりも腕の数が多いほど遅くなり、非常に大きなアクション空間にも適していることを実証的に観察する。

We study the Linear Contextual Bandit problem in the hybrid reward setting. In this setting every arm's reward model contains arm specific parameters in addition to parameters shared across the reward models of all the arms. We can reduce this setting to two closely related settings (a) Shared - no arm specific parameters, and (b) Disjoint - only arm specific parameters, enabling the application of two popular state of the art algorithms - $\texttt{LinUCB}$ and $\texttt{DisLinUCB}$ (Algorithm 1 in (Li et al. 2010)). When the arm features are stochastic and satisfy a popular diversity condition, we provide new regret analyses for both algorithms, significantly improving on the known regret guarantees of these algorithms. Our novel analysis critically exploits the hybrid reward structure and the diversity condition. Moreover, we introduce a new algorithm $\texttt{HyLinUCB}$ that crucially modifies $\texttt{LinUCB}$ (using a new exploration coefficient) to account for sparsity in the hybrid setting. Under the same diversity assumptions, we prove that $\texttt{HyLinUCB}$ also incurs only $O(\sqrt{T})$ regret for $T$ rounds. We perform extensive experiments on synthetic and real-world datasets demonstrating strong empirical performance of $\texttt{HyLinUCB}$.For number of arm specific parameters much larger than the number of shared parameters, we observe that $\texttt{DisLinUCB}$ incurs the lowest regret. In this case, regret of $\texttt{HyLinUCB}$ is the second best and extremely competitive to $\texttt{DisLinUCB}$. In all other situations, including our real-world dataset, $\texttt{HyLinUCB}$ has significantly lower regret than $\texttt{LinUCB}$, $\texttt{DisLinUCB}$ and other SOTA baselines we considered. We also empirically observe that the regret of $\texttt{HyLinUCB}$ grows much slower with the number of arms compared to baselines, making it suitable even for very large action spaces.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# 大規模言語モデルの評価:STEM教育とジェンダーステレオタイプ

Evaluation of Large Language Models: STEM education and Gender Stereotypes ( http://arxiv.org/abs/2406.10133v1 )

ライセンス: Link先を確認
Smilla Due, Sneha Das, Marianne Andersen, Berta Plandolit López, Sniff Andersen Nexø, Line Clemmensen, (参考訳) 大規模言語モデル(LLM)は、チャットボット、研究サポート、コーディングサポート、アイデア、執筆支援など、私たちの生活に影響を与えています。 これまでの研究では、男性と女性を表現するための職業または形容詞を記述するために使われる代名詞の言語バイアスが明らかになった。 これらの問題は、少なくとも既存のテストに合格するために、更新されたLLMバージョンである程度対処されなければならない。 しかし、まだモデルに偏見が残っており、ジェンダーのステレオタイプ言語の使用が根底にある仮定を補強する可能性があるため、さらなる検討が重要である。 本稿では, LLM における男女差を, オープンエンド, ユーザケース実験設計, 定量的分析により検討する。 本研究は,4つの異なる文化・言語・教育システム(英語/US/UK,デンマーク/DK,カタルーニャ/ES,ヒンディー語/IN)の10~16年間における文脈におけるバイアスを,各国の教育上の重要な転換点に対応して検討する。 その結果,STEM と非STEM の比率には,通常の少女と少年の名前を用いて提案事項のリストを作成する際に,チャットGPT が提案する教育パスに有意かつ大きな差があることが判明した。 一般的に、英語に比べて、デンマーク語、スペイン語、インドの文脈でのSTEM提案は少ない。 また、提案された職業の微妙な違いも見つかり、それを分類し報告します。

Large Language Models (LLMs) have an increasing impact on our lives with use cases such as chatbots, study support, coding support, ideation, writing assistance, and more. Previous studies have revealed linguistic biases in pronouns used to describe professions or adjectives used to describe men vs women. These issues have to some degree been addressed in updated LLM versions, at least to pass existing tests. However, biases may still be present in the models, and repeated use of gender stereotypical language may reinforce the underlying assumptions and are therefore important to examine further. This paper investigates gender biases in LLMs in relation to educational choices through an open-ended, true to user-case experimental design and a quantitative analysis. We investigate the biases in the context of four different cultures, languages, and educational systems (English/US/UK, Danish/DK, Catalan/ES, and Hindi/IN) for ages ranging from 10 to 16 years, corresponding to important educational transition points in the different countries. We find that there are significant and large differences in the ratio of STEM to non-STEM suggested education paths provided by chatGPT when using typical girl vs boy names to prompt lists of suggested things to become. There are generally fewer STEM suggestions in the Danish, Spanish, and Indian context compared to the English. We also find subtle differences in the suggested professions, which we categorise and report.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# Faber Polynomial 法による非線形量子多体ダイナミクス

Non-Unitary Quantum Many-Body Dynamics using the Faber Polynomial Method ( http://arxiv.org/abs/2406.10135v1 )

ライセンス: Link先を確認
Rafael D. Soares, Marco Schirò, (参考訳) 効率的な数値法は、非単体進化の下での量子多体系の非伝統的な力学を探索するにはまだ不足している。 本研究では、Faber多項式を用いて非エルミート系の力学とリンドブラッド力学の量子ジャンプの両方を数値的にシミュレートする。 本手法を,2つの異なる設定から進化する波多野・ネルソンモデルに対して適用する。 i) N'eel state, and ii) 領域の壁。 第1のケースでは、相互作用が皮膚効果に対する初期磁気秩序をいかに保存するかについて検討する。 第2の例では、非接触限界におけるドメインウォール融解問題に対する効果的な流体力学的記述の存在の数値的証拠を示す。 さらに、2つの量子スピン鎖における量子ジャンプの条件的および非条件的ダイナミクスについて検討し、これは非エルミティアスかリウヴィリアスキン効果を示す。 この数値法は本質的にチェビシェフ多項式に基づいて確立された手法を一般化し、非エルミート的シナリオに対応する。

Efficient numerical methods are still lacking to probe the unconventional dynamics of quantum many-body systems under non-unitary evolution. In this work, we use Faber polynomials to numerically simulate both the dynamics of non-Hermitian systems and the quantum jumps unravelling of the Lindblad dynamics. We apply the method to the non-interacting and interacting Hatano-Nelson models evolving from two different setups: i) a N\'eel state, and ii) a domain wall. In the first case, we study how interactions preserve the initial magnetic order against the skin effect. In the second example, we present numerical evidence of the existence of an effective hydrodynamic description for the domain-wall melting problem in the non-interacting limit. Additionally, we investigate both the conditional and unconditional dynamics of the quantum jump unravelling in two quantum spin chains, which exhibit either the non-Hermitian or the Liouvillian skin effect. This numerical method inherently generalises the well-established method based on Chebyshev polynomials to accommodate non-Hermitian scenarios.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# アンカーアライメントを用いた圧縮型センサキャッシングと協調スパースデータ復元

Compressed Sensor Caching and Collaborative Sparse Data Recovery with Anchor Alignment ( http://arxiv.org/abs/2406.10137v1 )

ライセンス: Link先を確認
Yi-Jen Yang, Ming-Hsun Yang, Jwo-Yuh Wu, Y. -W. Peter Hong, (参考訳) 本研究は、無線センサネットワークにおける圧縮センサキャッシュ問題を調べ、複数のキャッシュ間の協調を可能にする効率的な分散スパースデータリカバリアルゴリズムを考案する。 この問題では、キャッシュサイズとデータ取得オーバーヘッドの両方を削減するために、各キャッシュは、周辺にある少数のセンサーからの計測にのみアクセスすることができる。 本研究では, アンカーアライメント(CoSR-AA)アルゴリズムを用いて, 局所的に取得したデータをいくつかのアンカーノードにアライメントすることで, キャッシュ間の協調を可能にする分散スパースデータリカバリ手法を提案する。 提案アルゴリズムは、乗算器アルゴリズム(ADMM)のコンセンサス交互方向法に基づくが、提案したアンカーアライメント戦略を考慮すれば、メッセージ交換を低減できる。 次に,ADMMイテレーションの深部展開により,繰り返し回数を大幅に削減できるDeep CoSR-AAアルゴリズムを提案する。 組込みオートエンコーダによりメッセージ交換をより効率的に行うグラフニューラルネットワークアーキテクチャを得る。 提案手法の有効性を再現性の向上とアンカーアライメントによる通信オーバーヘッド低減の観点から検証した。

This work examines the compressed sensor caching problem in wireless sensor networks and devises efficient distributed sparse data recovery algorithms to enable collaboration among multiple caches. In this problem, each cache is only allowed to access measurements from a small subset of sensors within its vicinity to reduce both cache size and data acquisition overhead. To enable reliable data recovery with limited access to measurements, we propose a distributed sparse data recovery method, called the collaborative sparse recovery by anchor alignment (CoSR-AA) algorithm, where collaboration among caches is enabled by aligning their locally recovered data at a few anchor nodes. The proposed algorithm is based on the consensus alternating direction method of multipliers (ADMM) algorithm but with message exchange that is reduced by considering the proposed anchor alignment strategy. Then, by the deep unfolding of the ADMM iterations, we further propose the Deep CoSR-AA algorithm that can be used to significantly reduce the number of iterations. We obtain a graph neural network architecture where message exchange is done more efficiently by an embedded autoencoder. Simulations are provided to demonstrate the effectiveness of the proposed collaborative recovery algorithms in terms of the improved reconstruction quality and the reduced communication overhead due to anchor alignment.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# YOLOv1からYOLOv10: YOLO変異体の概要と農業分野への応用

YOLOv1 to YOLOv10: A comprehensive review of YOLO variants and their application in the agricultural domain ( http://arxiv.org/abs/2406.10139v1 )

ライセンス: Link先を確認
Mujadded Al Rabbani Alif, Muhammad Hussain, (参考訳) 本研究は、農業の進歩の文脈において、YOLOv1から最先端のYOLOv10までの様々なYOLO変異体の形質転換の可能性について検討した。 主な目的は、作物のモニタリングから家畜管理に至るまで、最先端の物体検出モデルがどのように農業の様々な側面を再エネルギー化し最適化するかを明らかにすることである。 農業における現代的課題の特定、YOLOの漸進的な進歩の詳細な評価、農業における特定の応用の探索など、重要な目的を達成することを目的としている。 これは、最新のYOLOv10を含む最初の調査の1つであり、人工知能と自動化の時代における、精密農業と持続可能な農業プラクティスの意義について、新たな視点を提供する。 さらに、この調査は、YOLOのパフォーマンスを批判的に分析し、既存の研究を合成し、今後のトレンドを予測している。 YOLO変種に含まれるユニークな機能とその実世界の応用を精査することにより、この調査は、YOLO変種と農業の進化的関係に関する貴重な洞察を提供する。 この発見は、精密農業と持続可能な農業実践の可能性の微妙な理解に寄与し、農業分野における高度な物体検出技術の統合における重要な一歩となった。

This survey investigates the transformative potential of various YOLO variants, from YOLOv1 to the state-of-the-art YOLOv10, in the context of agricultural advancements. The primary objective is to elucidate how these cutting-edge object detection models can re-energise and optimize diverse aspects of agriculture, ranging from crop monitoring to livestock management. It aims to achieve key objectives, including the identification of contemporary challenges in agriculture, a detailed assessment of YOLO's incremental advancements, and an exploration of its specific applications in agriculture. This is one of the first surveys to include the latest YOLOv10, offering a fresh perspective on its implications for precision farming and sustainable agricultural practices in the era of Artificial Intelligence and automation. Further, the survey undertakes a critical analysis of YOLO's performance, synthesizes existing research, and projects future trends. By scrutinizing the unique capabilities packed in YOLO variants and their real-world applications, this survey provides valuable insights into the evolving relationship between YOLO variants and agriculture. The findings contribute towards a nuanced understanding of the potential for precision farming and sustainable agricultural practices, marking a significant step forward in the integration of advanced object detection technologies within the agricultural sector.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# ソフトウェア工学の台頭と転落(?)

The Rise and Fall(?) of Software Engineering ( http://arxiv.org/abs/2406.10141v1 )

ライセンス: Link先を確認
Antonio Mastropaolo, Camilo Escobar-Velásquez, Mario Linares-Vásquez, (参考訳) 過去10年間、人工知能(AI)の世界は革命的なブレークスルーの爆発を経験してきた。 AIの幅広い影響は、人間の生活のほぼすべての側面に革命をもたらしており、ソフトウェア工学(SE)も例外ではない。 このような状況の変化を探求する中で、私たちは、SEの将来と、AIがこの分野における役割、義務、方法論をどう変えていくのか、という疑問に直面しています。 これらの画期的な技術の導入は、新たなパラダイムへの必然的なシフトを浮き彫りにしており、AIの能力がSEの境界を再定義する未来を示唆している。 本稿では,AIのSEへのスムーズな統合に欠かせない重要な要素を概説すると同時に,この分野の原動力である本質的な人間の創造性を維持することを目的とする。 まず、SEとAIの進化について簡単に説明します。 その後、AI駆動の自動化と人間のイノベーションの複雑な相互作用を掘り下げて、これらの2つのコンポーネントが協調してSEプラクティスを新しい方法や標準に進化させる方法について探求します。

Over the last ten years, the realm of Artificial Intelligence (AI) has experienced an explosion of revolutionary breakthroughs, transforming what seemed like a far-off dream into a reality that is now deeply embedded in our everyday lives. AI's widespread impact is revolutionizing virtually all aspects of human life, and software engineering (SE) is no exception. As we explore this changing landscape, we are faced with questions about what the future holds for SE and how AI will reshape the roles, duties, and methodologies within the field. The introduction of these groundbreaking technologies highlights the inevitable shift towards a new paradigm, suggesting a future where AI's capabilities may redefine the boundaries of SE, potentially even more than human input. In this paper, we aim at outlining the key elements that, based on our expertise, are vital for the smooth integration of AI into SE, all while preserving the intrinsic human creativity that has been the driving force behind the field. First, we provide a brief description of SE and AI evolution. Afterward, we delve into the intricate interplay between AI-driven automation and human innovation, exploring how these two components can work together to advance SE practices to new methods and standards.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# スピン1/2イジングXYZ鎖における局所量子フィッシャー情報と量子コヒーレンスに対するデコヒーレンス効果

Decoherence effects on local quantum Fisher information and quantum coherence in a spin-1/2 Ising-XYZ chain ( http://arxiv.org/abs/2406.10142v1 )

ライセンス: Link先を確認
Hector L. Carrion, Onofre Rojas, Cleverson Filgueiras, Moises Rojas, (参考訳) 本研究は, 独立貯水池を有するスピン-1/2イジング-XYZ鎖モデルにおける局所的な量子フィッシャー情報と量子コヒーレンスダイナミクスに対するデコヒーレンスの影響について検討する。 これらの効果とスピン-1/2ハイゼンベルクXYZモデルとの対比により、スピン系における量子コヒーレンス、絡み合い、環境デコヒーレンスの間の複雑な相互作用が明らかになる。 コヒーレンスダイナミクスの解析は、元のモデルとハイブリッドモデルの違いを強調し、環境再分配によるコヒーレンス低減とイジング相互作用による絡み合いの増加を示す。 局所的な量子フィッシャー情報は、特定のシナリオにおいてコヒーレンスよりも弾力性があることを証明し、デコヒーレンスが量子相関に様々な影響を与えることを強調する。 この研究は、量子コヒーレンスダイナミクスの複雑さと、量子相関の形成における環境要因の重要な役割を強調し、環境影響下での絡み合いとコヒーレンス挙動の洞察を与え、量子情報処理および相関力学における将来の研究を導く。

This research explores the effects of decoherence on local quantum Fisher information and quantum coherence dynamics in a spin-1/2 Ising-XYZ chain model with independent reservoirs at zero temperature. Contrasting these effects with those in the spin-1/2 Heisenberg XYZ model reveals intricate interactions among quantum coherence, entanglement, and environmental decoherence in spin systems. Analysis of coherence dynamics highlights differences between the original and hybrid models, showcasing increased entanglement due to Ising interactions alongside reduced coherence from environmental redistribution. The local quantum Fisher information proves more resilient than coherence in specific scenarios, emphasizing decoherence is varying impacts on quantum correlations. This research underscores the complexity of quantum coherence dynamics and the crucial role of environmental factors in shaping quantum correlations, providing insights into entanglement and coherence behavior under environmental influences and guiding future studies in quantum information processing and correlation dynamics.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# 埋め込み型リンク予測によるルールマイニングの改善

Improving rule mining via embedding-based link prediction ( http://arxiv.org/abs/2406.10144v1 )

ライセンス: Link先を確認
N'Dah Jean Kouagou, Arif Yilmaz, Michel Dumontier, Axel-Cyrille Ngonga Ngomo, (参考訳) 知識グラフのルールマイニングは、説明可能なリンク予測を可能にする。 対照的に、リンク予測のための埋め込みベースの手法は、一般化能力でよく知られているが、それらの予測は解釈できない。 この2つの家系を組み合わせたいくつかのアプローチが近年提案されている。 結果として得られるハイブリッドアプローチの大部分は、通常、統合学習フレームワーク内でトレーニングされる。 本研究では,2つのアプローチを結合する新しい手法を提案する。 具体的には、知識グラフにルールマイニングシステムを適用する前に、事前学習された実体と関係埋め込みを用いて、与えられた知識グラフを濃縮する。 提案手法を検証するため,7つのベンチマークデータセットについて広範な実験を行った。 提案手法により得られた結果から, グラフに付加された新しい有意義な規則が発見されたことが示唆された。 私たちは、アプローチのオープンソース実装と、事前訓練されたモデルとデータセットをhttps://github.com/Jean-KOUAGOU/EnhancedRuleLearningで提供しています。

Rule mining on knowledge graphs allows for explainable link prediction. Contrarily, embedding-based methods for link prediction are well known for their generalization capabilities, but their predictions are not interpretable. Several approaches combining the two families have been proposed in recent years. The majority of the resulting hybrid approaches are usually trained within a unified learning framework, which often leads to convergence issues due to the complexity of the learning task. In this work, we propose a new way to combine the two families of approaches. Specifically, we enrich a given knowledge graph by means of its pre-trained entity and relation embeddings before applying rule mining systems on the enriched knowledge graph. To validate our approach, we conduct extensive experiments on seven benchmark datasets. An analysis of the results generated by our approach suggests that we discover new valuable rules on the enriched graphs. We provide an open source implementation of our approach as well as pretrained models and datasets at https://github.com/Jean-KOUAGOU/EnhancedRuleLearning
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# BABILong: 長期的コンテキスト推論によるLLMの限界テスト

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack ( http://arxiv.org/abs/2406.10149v1 )

ライセンス: Link先を確認
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev, (参考訳) 近年,大規模言語モデル (LLM) の入力コンテキストサイズは劇的に増加している。 しかし、既存の評価手法はペースを保っておらず、長いコンテキストを扱う際のモデルの効率を包括的に評価することができなかった。 このギャップを埋めるために、非常に長いドキュメントに分散された事実を推論する言語モデルの能力をテストするために設計されたBABILongベンチマークを導入する。 BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。 これらのタスクはそれ自体が困難であり、必要な事実が長い自然のテキストに散らばっているとさらに要求される。 評価の結果,LLM は文脈の 10-20 % しか有効に利用せず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。 In-context reasoning の代替として、Retrieval-Augmented Generation 法は、文脈長に依存しない単品質問応答において、わずか 60 % の精度を達成する。 コンテクスト拡張手法のうち、最高性能はリカレントメモリトランスフォーマーによって実証され、最大1100万個のトークンを処理できる。 BABILongベンチマークは任意の長さに拡張可能で、新しい機能を増強した新しいモデルの評価をサポートし、最大100万トークン長の分割を提供する。

In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers, enabling the processing of lengths up to 11 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 1 million token lengths.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# ニューラルネットワークにおける正弦波非線形性に対する線形境界関数の自動設計

Automated Design of Linear Bounding Functions for Sigmoidal Nonlinearities in Neural Networks ( http://arxiv.org/abs/2406.10154v1 )

ライセンス: Link先を確認
Matthias König, Xiyue Zhang, Holger H. Hoos, Marta Kwiatkowska, Jan N. van Rijn, (参考訳) 様々なアプリケーションにおけるディープラーニングアルゴリズムの普及により、敵攻撃などの小さな入力摂動に対して堅牢性を確保する必要性が高まっている。 既存の完全検証技術は、すべての堅牢性クエリに対して証明可能な保証を提供するが、小さなニューラルネットワークを超えてスケールするのに苦労する。 この計算の難しさを克服するために、不完全検証法は、ニューラルネットワークの非線形性を過度に近似するために凸緩和に依存することが多い。 より厳密な近似の進歩は、断片線型関数に対して達成されている。 しかし、一般活性化関数(例えば、Sigmoid、Tanh)に対するニューラルネットワークの堅牢性検証は未探索のままであり、新しい課題を提起している。 通常、これらのネットワークは、非線形活性化関数の線形上界と下界の計算を含む凸緩和技術を用いて検証される。 本研究では,これらの線形近似の品質向上のためのパラメータ探索手法を提案する。 具体的には,複数の局所ロバストネス評価ベンチマークにおいて,最先端のアルゴリズム構成手法を用いて与えられた検証問題に慎重に適応する単純な探索手法を用いることで,最先端の局所ロバストネス評価ベンチマークよりも平均で25%のグローバルローバウンドを向上することを示す。

The ubiquity of deep learning algorithms in various applications has amplified the need for assuring their robustness against small input perturbations such as those occurring in adversarial attacks. Existing complete verification techniques offer provable guarantees for all robustness queries but struggle to scale beyond small neural networks. To overcome this computational intractability, incomplete verification methods often rely on convex relaxation to over-approximate the nonlinearities in neural networks. Progress in tighter approximations has been achieved for piecewise linear functions. However, robustness verification of neural networks for general activation functions (e.g., Sigmoid, Tanh) remains under-explored and poses new challenges. Typically, these networks are verified using convex relaxation techniques, which involve computing linear upper and lower bounds of the nonlinear activation functions. In this work, we propose a novel parameter search method to improve the quality of these linear approximations. Specifically, we show that using a simple search method, carefully adapted to the given verification problem through state-of-the-art algorithm configuration techniques, improves the average global lower bound by 25% on average over the current state of the art on several commonly used local robustness verification benchmarks.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# 変分量子アルゴリズムの高エンタングル化能力:ポアソン方程式の場合

High-Entanglement Capabilities for Variational Quantum Algorithms: The Poisson Equation Case ( http://arxiv.org/abs/2406.10156v1 )

ライセンス: Link先を確認
Fouad Ayoub, James D. Baeder, (参考訳) 離散ポアソン方程式行列(DPEM)は計算流体力学(CFD)の分野において不可欠であり、量子コンピュータでそれを解くアルゴリズムは指数空間と時間複雑性のスピードアップを与える可能性がある。 しかし、1DのDPEMは、パウリ基底の分解として表されるのが困難であることが示されている。 さらに、線形系(DPEMなど)をヒューリスティックに解くのに使用される変分量子アルゴリズム(VQA)の従来のアンサッツは、多くのパラメータを持ち、訓練を困難にしている。 本研究は、量子ビットの完全接続性を誇ったIonQ Aria量子コンピュータ機能を利用することで、これらの問題を解決することを試みる。 本稿では,2ビットあるいは3ビットのエンタングルメントゲートをベースとしたDPEMの分解を行い,システムサイズに対して$O(1)$の項を持ち,一方の項が$O(n^2)$の回路深さを持ち,残りの項が$O(1)$の回路深さを持つ(ただし、$n$はシステムサイズを定義するキュービットの数である)。 これらの新しい改善をテストするために、VQAがシステムサイズでどれだけうまく機能するかを数値シミュレーションし、新しいセットアップが収束に必要なイテレーションの数を$O(n)$でスケーリングし、古典的な計算よりも指数関数的なスピードアップを提供することを示した。 このプロジェクトは、計算流体力学の将来において、量子コンピュータが重要な時間と空間の複雑さのスピードアップを提供する可能性があることを示している。

The discretized Poisson equation matrix (DPEM) is vital to the field of computational fluid dynamics (CFD), and an algorithm that solves it on a quantum computer could potentially grant exponential space and time complexity speedups. However, the DPEM in 1D has been shown to have trouble being represented as a decomposition in the Pauli basis. Additionally, traditional ansatz for Variational Quantum Algorithms (VQAs) that are used to heuristically solve linear systems (such as the DPEM) have large numbers of parameters, making them harder to train. This research attempts to resolve these problems by utilizing the IonQ Aria quantum computer capabilities that boast all-to-all connectivity of qubits. We propose a decomposition of the DPEM that is based on 2- or 3-qubit entanglement gates and is shown to have $O(1)$ terms with respect to system size, with one term having an $O(n^2)$ circuit depth and the rest having only an $O(1)$ circuit depth (where $n$ is the number of qubits defining the system size). To test these new improvements, we ran numerical simulations to examine how well the VQAs performed with varying system sizes, showing that the new setup offers an $O(n)$ scaling of the number of iterations required for convergence, providing an exponential speedup over their classical computing counterparts. This project shows that the future of computational fluid dynamics may involve quantum computers to provide significant time and space complexity speedups.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング

RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model ( http://arxiv.org/abs/2406.10157v1 )

ライセンス: Link先を確認
Hantao Zhou, Tianying Ji, Jianwei Zhang, Fuchun Sun, Huazhe Xu, (参考訳) 無限のコートレイアウトと複雑なボールモーションを備えたゲームMinigolfは、エンボディドインテリジェンスの研究のための魅力的な現実世界のテストベッドを構成する。 空間的およびキノダイナミックな推論に挑戦するだけでなく、誤って設計されたコースに対処するためには反射的および補正能力も必要である。 ネストされたVLMを用いた閉ループ制御と反射平衡ループでデュアルカメラの視覚入力を知覚するフレームワークであるRoboGolfを紹介する。 大規模な実験は、RoboGolfのミニゴルフコートに対する効果を実証している。

Minigolf, a game with countless court layouts, and complex ball motion, constitutes a compelling real-world testbed for the study of embodied intelligence. As it not only challenges spatial and kinodynamic reasoning but also requires reflective and corrective capacities to address erroneously designed courses. We introduce RoboGolf, a framework that perceives dual-camera visual inputs with nested VLM-empowered closed-loop control and reflective equilibrium loop. Extensive experiments demonstrate the effectiveness of RoboGolf on challenging minigolf courts including those that are impossible to finish.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# ノイズのある中間スケール量子コンピュータにおける絡み合いのダイナミクスと位相遷移

Probing entanglement dynamics and topological transitions on noisy intermediate-scale quantum computers ( http://arxiv.org/abs/2406.10159v1 )

ライセンス: Link先を確認
Huai-Chun Chang, Hsiu-Chuan Hsu, Yu-Cheng Lin, (参考訳) 我々は、IBM量子コンピュータ上でのSu-Schrieffer-Heeger(SSH)連鎖のクエンチダイナミクスをシミュレートし、R'enyiエンタングルメントエントロピー、ツイストオーダーパラメータ、ベリー位相を計算した。 後者の2つの量はリーブ=シュルツ=マティスの定理で定義された遅いツイスト作用素から導出することができる。 R'enyiエントロピーは、最近開発されたランダム化測定スキームを用いて得られる。 ツイストオーダーパラメータとベリー位相は、追加のゲートやアンシラ量子ビットを必要とせずに測定される。 自明な初期状態が位相的SSHハミルトニアンの下で、完全に二量化された極限(フラットバンド極限)の下で動的に進化するクエンチプロトコルを考える。 これらのクエンチの間、エンタングルメントエントロピーとツイストオーダーパラメータの両方の時間進化において、持続的かつ周期的な振動がある。 グローバルデポラライズアンサッツとポストセレクションを用いた誤差軽減手法の実装により、IBMデバイス上でのシミュレーションにより、正確な解と密に一致した結果が得られる。

We simulate quench dynamics of the Su-Schrieffer-Heeger (SSH) chain on the IBM quantum computers, calculating the R\'enyi entanglement entropy, the twist order parameter and the Berry phase. The latter two quantities can be deduced from a slow-twist operator defined in the Lieb-Schultz-Mattis theorem. The R\'enyi entropy is obtained using a recently developed randomized measurement scheme. The twist order parameter and the Berry phase are measured without the need for additional gates or ancilla qubits. We consider quench protocols in which a trivial initial state evolves dynamically in time under the topological SSH Hamiltonian in the fully dimerized limit (the flat-band limit). During these quenches, there are persistent and periodic oscillations in the time evolution of both entanglement entropy and twist order parameter. Through the implementation of error mitigation techniques using a global depolarizing ansatz and postselection, our simulations on the IBM devices yield results that closely match exact solutions.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# オールインワンニューラルモデルを用いたワンパス多重コンバータと基礎音声システム圧縮と量子化

One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model ( http://arxiv.org/abs/2406.10160v1 )

ライセンス: Link先を確認
Zhaoqing Li, Haoning Xu, Tianzi Wang, Shoukang Hu, Zengrui Jin, Shujie Hu, Jiajun Deng, Mingyu Cui, Mengzhe Geng, Xunying Liu, (参考訳) 本稿では,オールインワンニューラルモデルを用いた新しい1パス多重ASRシステムの共同圧縮と量子化手法を提案する。 単一の圧縮サイクルにより、エンコーダの深さ、幅、量子化の精度の設定が異なる複数のネスト系が同時に構築でき、個々のターゲット系を個別に訓練・保存する必要がない。 実験では、単一のオールインワンモデルで圧縮された複数のASRシステムが、同じ複雑さを持つ個別に訓練されたシステムよりも、ワードエラー率(WER)が1.01\%以上(6.98\%)低いことを一貫して実証した。 システム全体の3.4倍の圧縮とトレーニングタイムの高速化が達成された。 ベースラインのSwitchboard-300hr Conformer と LibriSpeech-100hr の微調整wav2vec2.0 モデルにおいて、最大モデルサイズ圧縮比が 12.8x と 3.93x となり、統計学的に有意な WER の増加は得られなかった。

We propose a novel one-pass multiple ASR systems joint compression and quantization approach using an all-in-one neural model. A single compression cycle allows multiple nested systems with varying Encoder depths, widths, and quantization precision settings to be simultaneously constructed without the need to train and store individual target systems separately. Experiments consistently demonstrate the multiple ASR systems compressed in a single all-in-one model produced a word error rate (WER) comparable to, or lower by up to 1.01\% absolute (6.98\% relative) than individually trained systems of equal complexity. A 3.4x overall system compression and training time speed-up was achieved. Maximum model size compression ratios of 12.8x and 3.93x were obtained over the baseline Switchboard-300hr Conformer and LibriSpeech-100hr fine-tuned wav2vec2.0 models, respectively, incurring no statistically significant WER increase.
翻訳日:2024-06-17 12:56:41 公開日:2024-06-14
# ロバストPAC学習の計算可能性について

On the Computability of Robust PAC Learning ( http://arxiv.org/abs/2406.10161v1 )

ライセンス: Link先を確認
Pascale Gourdeau, Tosca Lechner, Ruth Urner, (参考訳) 逆向きに頑健な学習のための計算可能性要件の研究を開始する。 逆向きに堅牢なPAC型学習能力は、現在までに確立された研究分野である。 しかしながら、PACタイプのフレームワークにおける計算可能性要件の影響は、ちょうど現れ始めたばかりである。 本稿では,頑健な計算可能PAC(robust CPAC)学習の問題を紹介する。 CPAC と強靭にPAC を学習可能なクラスは、必ずしも堅固に CPAC を学習可能なクラスではない。 さらに,本フレームワークは,強靭なCPAC学習性に対して,強靭な損失が計算可能でなくてもよい,という驚くべき効果を示した。 特性のキャラクタリゼーションを理解するために,計算可能な頑健な破砕次元である新しい次元を導入する。 我々はその有限性は必要であるが、堅牢なCPAC学習には不十分であることを証明した。 このことは、堅牢なPAC学習可能性の文脈において、学習容易性に対する頑健な破砕次元の不足が予想されているような、対応する現象に対する新たな洞察をもたらすかもしれない。

We initiate the study of computability requirements for adversarially robust learning. Adversarially robust PAC-type learnability is by now an established field of research. However, the effects of computability requirements in PAC-type frameworks are only just starting to emerge. We introduce the problem of robust computable PAC (robust CPAC) learning and provide some simple sufficient conditions for this. We then show that learnability in this setup is not implied by the combination of its components: classes that are both CPAC and robustly PAC learnable are not necessarily robustly CPAC learnable. Furthermore, we show that the novel framework exhibits some surprising effects: for robust CPAC learnability it is not required that the robust loss is computably evaluable! Towards understanding characterizing properties, we introduce a novel dimension, the computable robust shattering dimension. We prove that its finiteness is necessary, but not sufficient for robust CPAC learnability. This might yield novel insights for the corresponding phenomenon in the context of robust PAC learnability, where insufficiency of the robust shattering dimension for learnability has been conjectured, but so far a resolution has remained elusive.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# サブターフュージへのシクロファンシー:大規模言語モデルにおけるリワードタンパの検討

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models ( http://arxiv.org/abs/2406.10162v1 )

ライセンス: Link先を確認
Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, Shauna Kravec, Samuel Marks, Nicholas Schiefer, Ryan Soklaski, Alex Tamkin, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Ethan Perez, Evan Hubinger, (参考訳) 強化学習では、AIシステムが不特定のトレーニング目標のために高い報酬を受ける、望ましくない振る舞いを学ぶとき、仕様ゲームが発生する。 仕様ゲームは、サイコファンシーのような単純な行動から、報酬のテーパーのような洗練された行動まで様々で、モデルが自身の報酬メカニズムを直接変更する。 しかし、これらの悪質な行動は、探索によって発見されるには複雑すぎるかもしれない。 本稿では,言語モデル(LLM)アシスタントにおいて,発見が容易な仕様ゲームが,報酬テーパーを含む,より希少な,よりブレントな形式を実現するために一般化されるかどうかを考察する。 より洗練されたゲーム環境のカリキュラムを構築し、早期のカリキュラム環境におけるトレーニングが、残りの環境におけるより多くの仕様ゲームに繋がることを示した。 興味深いことに、LLMアシスタントは、カリキュラム全体を訓練し、ゼロショットを一般化して、自身の報酬関数を直接書き換える。 初期のカリキュラム環境をゲームするためにLLMをトレーニングすることは、軽減するが、後続の環境では報酬のテーパーを排除しない。 さらに、ゲーム可能な環境に無害トレーニングを加えることで、報酬の改ざんを防ぐことはできない。 これらの結果は、LLMが一般的な仕様ゲームからより悪質な報酬テーパーへと一般化でき、そのような振る舞いを除去するのは簡単ではないことを示している。

In reinforcement learning, specification gaming occurs when AI systems learn undesired behaviors that are highly rewarded due to misspecified training goals. Specification gaming can range from simple behaviors like sycophancy to sophisticated and pernicious behaviors like reward-tampering, where a model directly modifies its own reward mechanism. However, these more pernicious behaviors may be too complex to be discovered via exploration. In this paper, we study whether Large Language Model (LLM) assistants which find easily discovered forms of specification gaming will generalize to perform rarer and more blatant forms, up to and including reward-tampering. We construct a curriculum of increasingly sophisticated gameable environments and find that training on early-curriculum environments leads to more specification gaming on remaining environments. Strikingly, a small but non-negligible proportion of the time, LLM assistants trained on the full curriculum generalize zero-shot to directly rewriting their own reward function. Retraining an LLM not to game early-curriculum environments mitigates, but does not eliminate, reward-tampering in later environments. Moreover, adding harmlessness training to our gameable environments does not prevent reward-tampering. These results demonstrate that LLMs can generalize from common forms of specification gaming to more pernicious reward tampering and that such behavior may be nontrivial to remove.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# MeshAnything: 自動回帰変換器を備えたアーティストによるメッシュ生成

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers ( http://arxiv.org/abs/2406.10163v1 )

ライセンス: Link先を確認
Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang, (参考訳) 近年, 再建・再生による3D資産は手作業による資産の質に匹敵し, 代替の可能性も浮き彫りになってきた。 しかし、これらの資産は、常に3D産業アプリケーションのためにメッシュに変換する必要があり、現在のメッシュ抽出手法によって生成されるメッシュは、Artist-Created Mesh(AM)よりも大幅に劣る。 特に、現在のメッシュ抽出法は、濃厚な顔に頼り、幾何学的特徴を無視し、非効率、複雑な後処理、表現品質を低下させる。 これらの問題に対処するために,メッシュ抽出を生成問題として扱うモデルであるMeshAnythingを導入する。 任意の3D表現における3DアセットをAMに変換することで、MeshAnythingは様々な3Dアセット生産方法に統合することができ、3D産業全体にわたってそのアプリケーションを強化することができる。 MeshAnythingのアーキテクチャは、VQ-VAEと形状条件付きデコーダのみのトランスを備える。 まず,VQ-VAEを用いてメッシュ語彙を学習し,形状条件付き自己回帰メッシュ生成のための形状条件付きデコーダのみ変換器をトレーニングする。 提案手法は, 顔の数百倍少ないAMを生成し, 記憶, レンダリング, シミュレーション効率を大幅に向上し, 従来手法に匹敵する精度を実現した。

Recently, 3D assets created via reconstruction and generation have matched the quality of manually crafted assets, highlighting their potential for replacement. However, this potential is largely unrealized because these assets always need to be converted to meshes for 3D industry applications, and the meshes produced by current mesh extraction methods are significantly inferior to Artist-Created Meshes (AMs), i.e., meshes created by human artists. Specifically, current mesh extraction methods rely on dense faces and ignore geometric features, leading to inefficiencies, complicated post-processing, and lower representation quality. To address these issues, we introduce MeshAnything, a model that treats mesh extraction as a generation problem, producing AMs aligned with specified shapes. By converting 3D assets in any 3D representation into AMs, MeshAnything can be integrated with various 3D asset production methods, thereby enhancing their application across the 3D industry. The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE, then train the shape-conditioned decoder-only transformer on this vocabulary for shape-conditioned autoregressive mesh generation. Our extensive experiments show that our method generates AMs with hundreds of times fewer faces, significantly improving storage, rendering, and simulation efficiencies, while achieving precision comparable to previous methods.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 放射光環境における励起量子電磁力学

Exact Quantum Electrodynamics in Radiative Photonic Environments ( http://arxiv.org/abs/2406.10164v1 )

ライセンス: Link先を確認
Ben Yuen, Angela Demetriadou, (参考訳) 放射光デバイスのための総合的な第2量子化方式を提案する。 我々は、電磁環境と相互作用する量子エミッタの \textit{complete} と \textit{exact} 記述を提供する個別の擬似モデムに変換することで、フォトニック固有モデムの連続性を量子化する。 この方法は全ての貯水池近似を回避し、量子相関の新しい洞察を与え、マルコフ以外のすべての力学を正確に捉える。 この方法は、非エルミート系を定量化する際の課題を克服し、多様なナノフォトニックジオメトリーに適用できる。

We present a comprehensive second quantization scheme for radiative photonic devices. We canonically quantize the continuum of photonic eigenmodes by transforming them into a discrete set of pseudomodes that provide a \textit{complete} and \textit{exact} description of quantum emitters interacting with electromagnetic environments. This method avoids all reservoir approximations, and offers new insights into quantum correlations, accurately capturing all non-Markovian dynamics. This method overcomes challenges in quantizing non-Hermitian systems and is applicable to diverse nanophotonic geometries.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# CarLLaVA:カメラ専用クローズドループ駆動のための視覚言語モデル

CarLLaVA: Vision language models for camera-only closed-loop driving ( http://arxiv.org/abs/2406.10165v1 )

ライセンス: Link先を確認
Katrin Renz, Long Chen, Ana-Maria Marcu, Jan Hünermann, Benoit Hanotte, Alice Karnsund, Jamie Shotton, Elahe Arani, Oleg Sinavski, (参考訳) 本稿では,自律運転のための視覚言語モデル(VLM)であるCarLLaVAについて紹介する。 CarLLaVAは、LLaVA VLMとLLaMAアーキテクチャのビジョンエンコーダをバックボーンとして使用し、カメラ入力のみで、複雑なラベルや高価なラベルを必要とせず、最先端のクローズドループ駆動性能を実現する。 さらに、駆動出力とともに、言語解説の予測に関する予備的な結果を示す。 CarLLaVAは経路予測と経路ポイントの両方の半遠方出力表現を使用し、経路の利点は横方向制御の改善と長手方向制御の改善である。 簡単なデータに計算を無駄にすることなく、大規模な運転データセットでトレーニングする効率的なトレーニングレシピを提案する。 カルラバはCARLA Autonomous Driving Challenge 2.0のセンサートラックで458%、コンカレントエントリー32.6%を上回った。

In this technical report, we present CarLLaVA, a Vision Language Model (VLM) for autonomous driving, developed for the CARLA Autonomous Driving Challenge 2.0. CarLLaVA uses the vision encoder of the LLaVA VLM and the LLaMA architecture as backbone, achieving state-of-the-art closed-loop driving performance with only camera input and without the need for complex or expensive labels. Additionally, we show preliminary results on predicting language commentary alongside the driving output. CarLLaVA uses a semi-disentangled output representation of both path predictions and waypoints, getting the advantages of the path for better lateral control and the waypoints for better longitudinal control. We propose an efficient training recipe to train on large driving datasets without wasting compute on easy, trivial data. CarLLaVA ranks 1st place in the sensor track of the CARLA Autonomous Driving Challenge 2.0 outperforming the previous state of the art by 458% and the best concurrent submission by 32.6%.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# Misam: Sparse-Sparse Matrix Multiplicationのデータフロー選択にMLを使用する

Misam: Using ML in Dataflow Selection of Sparse-Sparse Matrix Multiplication ( http://arxiv.org/abs/2406.10166v1 )

ライセンス: Link先を確認
Sanjali Yadav, Bahar Asgari, (参考訳) スパース行列行列行列乗法(SpGEMM)は、科学計算、グラフ解析、ディープラーニングを含む多くの分野において重要な演算である。 これらのアプリケーションは、ストレージと計算要求を減らすために行列の幅を利用する。 しかし、スパース行列の不規則な構造は、性能最適化に重大な課題をもたらす。 従来のハードウェアアクセラレータは、内部、外部、および行単位で固定されたデータフロースキームを持つ特定のスパーシティパターン用に調整されているが、実際のスパーシティがこれらの所定のパターンから逸脱したときには、過度に実行することが多い。 様々な領域にまたがってSpGEMMの利用が拡大するにつれて、様々な空間パターンを効率的に扱えるハードウェアアクセラレーターの需要が高まっている。 本稿では,SpGEMMタスクに最適なデータフロースキームを適応的に選択する機械学習手法を提案する。 決定木と深層強化学習を用いることで、最適なデータフロースキームを特定するためのヒューリスティックな手法を超える可能性を探る。 それらのモデルとヒューリスティックなモデルを比較し、それぞれのアプローチの長所と短所を強調して評価する。 ハードウェアアクセラレーターにおける動的データフロー選択に機械学習を用いることで、最大28倍のゲインが得られることが示唆された。

Sparse matrix-matrix multiplication (SpGEMM) is a critical operation in numerous fields, including scientific computing, graph analytics, and deep learning. These applications exploit the sparsity of matrices to reduce storage and computational demands. However, the irregular structure of sparse matrices poses significant challenges for performance optimization. Traditional hardware accelerators are tailored for specific sparsity patterns with fixed dataflow schemes - inner, outer, and row-wise but often perform suboptimally when the actual sparsity deviates from these predetermined patterns. As the use of SpGEMM expands across various domains, each with distinct sparsity characteristics, the demand for hardware accelerators that can efficiently handle a range of sparsity patterns is increasing. This paper presents a machine learning based approach for adaptively selecting the most appropriate dataflow scheme for SpGEMM tasks with diverse sparsity patterns. By employing decision trees and deep reinforcement learning, we explore the potential of these techniques to surpass heuristic-based methods in identifying optimal dataflow schemes. We evaluate our models by comparing their performance with that of a heuristic, highlighting the strengths and weaknesses of each approach. Our findings suggest that using machine learning for dynamic dataflow selection in hardware accelerators can provide upto 28 times gains.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 4DRecons:幾何学的およびトポロジカル規則化による1台のRGB-Dカメラからの4Dニューラルインプリシト変形物体の再構成

4DRecons: 4D Neural Implicit Deformable Objects Reconstruction from a single RGB-D Camera with Geometrical and Topological Regularizations ( http://arxiv.org/abs/2406.10167v1 )

ライセンス: Link先を確認
Xiaoyan Cong, Haitao Yang, Liyan Chen, Kaifeng Zhang, Li Yi, Chandrajit Bajaj, Qixing Huang, (参考訳) 本稿では,動的対象の1台のカメラRGB-Dシークエンスを入力とし,時間とともに完全にテクスチャ化された3Dモデルを出力する4DReconsを提案する。 4DReconsは出力を4Dニューラル暗黙曲面としてエンコードし、データ項と2つの正規化項を組み合わせた最適化手順を示す。 データ項は入力された部分的な観察に4Dの暗黙の面に適合する。 部分的な観察に完全に暗黙の面を合わせるという根本的な課題に対処する。 最初の正規化項は、隣接するフレーム間の変形は可能な限り硬い(ARAP)ことを強制する。 そこで本研究では,ARAP正規化項を定義するために,隣接したテクスチャ付き暗黙曲面間の対応を計算するための新しい手法を提案する。 第2の正規化項は、基礎となる対象の位相が時間とともに固定されることを強制する。 この正規化は、暗黙的な再構築に典型的な自己切断を避けるために重要である。 各種データセット上での4DReconsの性能評価を行った。 実験結果から, 4DReconsは大きな変形や複雑な部品間相互作用を処理でき, 最先端のアプローチよりもかなり優れていることがわかった。

This paper presents a novel approach 4DRecons that takes a single camera RGB-D sequence of a dynamic subject as input and outputs a complete textured deforming 3D model over time. 4DRecons encodes the output as a 4D neural implicit surface and presents an optimization procedure that combines a data term and two regularization terms. The data term fits the 4D implicit surface to the input partial observations. We address fundamental challenges in fitting a complete implicit surface to partial observations. The first regularization term enforces that the deformation among adjacent frames is as rigid as possible (ARAP). To this end, we introduce a novel approach to compute correspondences between adjacent textured implicit surfaces, which are used to define the ARAP regularization term. The second regularization term enforces that the topology of the underlying object remains fixed over time. This regularization is critical for avoiding self-intersections that are typical in implicit-based reconstructions. We have evaluated the performance of 4DRecons on a variety of datasets. Experimental results show that 4DRecons can handle large deformations and complex inter-part interactions and outperform state-of-the-art approaches considerably.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# relic gravitonsの量子性

The quantumness of relic gravitons ( http://arxiv.org/abs/2406.10169v1 )

ライセンス: Link先を確認
Massimo Giovannini, (参考訳) レリックグラビトンは反対の3-モメンタの絡み合った状態で生成されるので、それらの分布と平均的多重度は、生成したペアが指数的に抑制されるスペクトルの最大周波数を決定する必要がある。 この方法で導出される最大周波数上の絶対上界は THz 領域と一致し、宇宙論のシナリオの詳細に依存しない。 THz制限はまた、MHzとGHz帯域を包含する周波数領域の信号の直接精査を目的とした仮説検出器のあらゆるクラスによって効果的に到達すべき最小のチャープ振幅に対して10^{-33}$の順序の制約に変換される。 得られた高周波限界は、多粒子の最終的なサテライトがマクロ的であるが常に古典的でない生成グラビトンの量子性に深く根付いている。 ユニタリ進化はそのコヒーレンスを保存するので、重力子の量子性は、基礎となる量子場の完全な情報が失われることと関連する絡み合いエントロピーと関連付けられる。 異なる基底における密度行列の減少は、スペクトルの全てのモードにおける積分が最大周波数に支配される同じフォン・ノイマンエントロピーをもたらすことが判明した。 THz境界により、重力子の総合エントロピーは宇宙マイクロ波背景エントロピーに匹敵するが、大きくはならない。 そこで、よく知られた宇宙論的な意味の他に、MHz と THz の間の重力子の検出の可能性は、重力場に関連するマクロ量子状態の直接的な証拠である可能性が示唆される。

Since the relic gravitons are produced in entangled states of opposite (comoving) three-momenta, their distributions and their averaged multiplicities must determine the maximal frequency of the spectrum above which the created pairs are exponentially suppressed. The absolute upper bound on the maximal frequency derived in this manner coincides with the THz domain and does not rely on the details of the cosmological scenario. The THz limit also translates into a constraint of the order of $10^{-33}$ on the minimal chirp amplitudes that should be effectively reached by all classes of hypothetical detectors aiming at the direct scrutiny of a signal in the frequency domain that encompasses the MHz and the GHz bands. The obtained high-frequency limit is deeply rooted in the quantumness of the produced gravitons whose multiparticle final sates are macroscopic but always non-classical. Since the unitary evolution preserves their coherence, the quantumness of the gravitons can be associated with an entanglement entropy that is associated with the loss of the complete information on the underlying quantum field. It turns out that the reduction of the density matrix in different bases leads to the same Von Neumann entropy whose integral over all the modes of the spectrum is dominated by the maximal frequency. Thanks to the THz bound the total integrated entropy of the gravitons can be comparable with the cosmic microwave background entropy but not larger. Besides the well known cosmological implications, we then suggest that a potential detection of gravitons between the MHz and the THz may therefore represent a direct evidence of macroscopic quantum states associated with the gravitational field.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 多言語回答文選択のためのデータセット

Datasets for Multilingual Answer Sentence Selection ( http://arxiv.org/abs/2406.10172v1 )

ライセンス: Link先を確認
Matteo Gabburo, Stefano Campese, Federico Agostini, Alessandro Moschitti, (参考訳) 回答文選択(AS2)は,効果的な検索に基づく質問文検索(QA)システムを設計するための重要なタスクである。 AS2のほとんどの進歩は、他の言語向けの注釈付きデータセットが不足しているため、英語に焦点を当てている。 このリソースの不足は、異なる言語での効果的なAS2モデルのトレーニングを妨げ、英語と他のローカルでのQAシステムのパフォーマンスギャップを生じさせる。 本稿では、ASNQ、WikiQA、TREC-QAなどの既存の英語AS2データセットの教師付き自動機械翻訳(AMT)によって得られた5つのヨーロッパ言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)におけるAS2の新しい高品質データセットについて紹介する。 異なるTransformerアーキテクチャを用いて複数の実験を行い,提案手法と翻訳データセットの品質を評価した。 その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであり、英語と他の言語のパフォーマンスギャップを埋めるのに大きく貢献していることがわかった。

Answer Sentence Selection (AS2) is a critical task for designing effective retrieval-based Question Answering (QA) systems. Most advancements in AS2 focus on English due to the scarcity of annotated datasets for other languages. This lack of resources prevents the training of effective AS2 models in different languages, creating a performance gap between QA systems in English and other locales. In this paper, we introduce new high-quality datasets for AS2 in five European languages (French, German, Italian, Portuguese, and Spanish), obtained through supervised Automatic Machine Translation (AMT) of existing English AS2 datasets such as ASNQ, WikiQA, and TREC-QA using a Large Language Model (LLM). We evaluated our approach and the quality of the translated datasets through multiple experiments with different Transformer architectures. The results indicate that our datasets are pivotal in producing robust and powerful multilingual AS2 models, significantly contributing to closing the performance gap between English and other languages.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# IntentionQA:Eコマースにおける言語モデルの購入意図理解能力の評価ベンチマーク

IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce ( http://arxiv.org/abs/2406.10173v1 )

ライセンス: Link先を確認
Wenxuan Ding, Weiqi Wang, Sze Heng Douglas Kwok, Minghao Liu, Tianqing Fang, Jiaxin Bai, Junxian He, Yangqiu Song, (参考訳) Eコマースシナリオにおける購入意図を理解するための言語モデル(LM)能力の強化は、下流業務における効果的な支援に不可欠である。 しかし、LMから意図を抽出する以前のアプローチは、現実のEコマースの文脈に適用できる有意義で人間中心の意図を生成するのに失敗することが多い。 これにより、LMによる購入意図の真の理解と利用に関する懸念が高まる。 本稿では、電子商取引におけるLMの購入意図の理解を評価するために、ダブルタスクの複数選択質問応答ベンチマークであるIntentionQAを提案する。 具体的には、購入した商品に基づいて意図を推測し、追加購入を予測する。 IntentionQAは3つの難易度で慎重に計算された4,360の問題で構成されており、大規模なEコマースプラットフォーム上でのスケーラビリティを確保するために、自動パイプラインを使用して構築されている。 人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。 19の言語モデルにわたる大規模な実験は、製品や意図を正確に理解する、製品や意図を共同で推論する、といった特定のシナリオに依然として苦労していることを示している。 私たちのコードとデータはhttps://github.com/HKUST-KnowComp/IntentionQA.comで公開されています。

Enhancing Language Models' (LMs) ability to understand purchase intentions in E-commerce scenarios is crucial for their effective assistance in various downstream tasks. However, previous approaches that distill intentions from LMs often fail to generate meaningful and human-centric intentions applicable in real-world E-commerce contexts. This raises concerns about the true comprehension and utilization of purchase intentions by LMs. In this paper, we present IntentionQA, a double-task multiple-choice question answering benchmark to evaluate LMs' comprehension of purchase intentions in E-commerce. Specifically, LMs are tasked to infer intentions based on purchased products and utilize them to predict additional purchases. IntentionQA consists of 4,360 carefully curated problems across three difficulty levels, constructed using an automated pipeline to ensure scalability on large E-commerce platforms. Human evaluations demonstrate the high quality and low false-negative rate of our benchmark. Extensive experiments across 19 language models show that they still struggle with certain scenarios, such as understanding products and intentions accurately, jointly reasoning with products and intentions, and more, in which they fall far behind human performances. Our code and data are publicly available at https://github.com/HKUST-KnowComp/IntentionQA.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 歌をリズムに当てる: バイトベースのトランスフォーマーでビート・アライン・ポテトリー・ジェネレーション

Let the Poem Hit the Rhythm: Using a Byte-Based Transformer for Beat-Aligned Poetry Generation ( http://arxiv.org/abs/2406.10174v1 )

ライセンス: Link先を確認
Mohamad Elzohbi, Richard Zhao, (参考訳) 詩と音楽の交わりは、計算的創造性にとって興味深い事例であるが、まだ明らかにされていない。 本稿では、ビートパターンのレンズによる詩と音楽の統合について検討し、バイトベースの言語モデルが、特定のビートパターンに適合する単語を詩の文脈内で生成できるかどうかを検討する。 先行研究に基づいて,バイトベースのトランスフォーマーモデルであるByT5を学習し,詩をビートパターンで整列させる手法を開発した。 その結果, セマンティック・コヒーレンスを維持しつつ高レベルのビートアライメントを示すことができた。 今後の作業は、完全なビート整列詩を作成するモデルの能力を改善することを目的としている。

The intersection between poetry and music provides an interesting case for computational creativity, yet remains relatively unexplored. This paper explores the integration of poetry and music through the lens of beat patterns, investigating whether a byte-based language model can generate words that fit specific beat patterns within the context of poetry. Drawing on earlier studies, we developed a method to train a byte-based transformer model, ByT5, to align poems with beat patterns. The results demonstrate a high level of beat alignment while maintaining semantic coherence. Future work will aim to improve the model's ability to create complete beat-aligned poems.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# モード内非対称性とモード間依存性をともなう不完全多モード脳腫瘍切離の増強

Enhancing Incomplete Multi-modal Brain Tumor Segmentation with Intra-modal Asymmetry and Inter-modal Dependency ( http://arxiv.org/abs/2406.10175v1 )

ライセンス: Link先を確認
Weide Liu, Jingwen Hou, Xiaoyang Zhong, Huijing Zhan, Jun Cheng, Yuming Fang, Guanghui Yue, (参考訳) マルチモーダルMRI画像のための深層学習に基づく脳腫瘍セグメンテーション(BTS)モデルが近年大きな進歩を遂げている。 しかし、実際には、様々なスキャンプロトコルや患者条件により、いくつかのモダリティが利用できないことが一般的な問題であり、不完全なMRIモダリティからのセグメンテーションが難しい問題となっている。 従来の手法では、アクセス可能なマルチモーダルな特徴を融合させ、注意機構を活用し、生成モデルを用いて欠落したモダリティを合成することで、この問題に対処しようと試みてきた。 しかし、これらの手法は、特に腫瘍の場合の訓練サンプルの入手頻度の制限など、医用画像分割の本質的な問題を無視している。 さらに、これらの方法は、欠落したモダリティのサブセットごとに、特定のモデルをトレーニングし、デプロイする必要があります。 これらの問題に対処するために,BTSモデルを2つの視点から拡張する新しいアプローチを提案する。 まず,腫瘍形状と脳解剖学の幅広い組み合わせを網羅した,多様な事前学習データセットを生成する事前学習段階を導入する。 第2に,部分的モダリティのみを利用できる場合の予測結果に欠落したモダリティを再構成できるポストトレーニングステージを提案する。 事前訓練段階を達成するため,MRI画像は「解剖学」と「腫瘍」の2つの部分に分けられる。 我々は, 解剖学的および腫瘍部位から生成された合成データを用いて, 異なるトレーニングサンプル間でBTSモデルを事前訓練する。 はぁ...。 広汎な実験により,提案手法は,BRATS2020,BRATS2018,BRATS2015の3つの脳腫瘍セグメンテーションデータセットに対して,ベースライン上での性能を著しく向上し,新しい最先端の結果が得られることが示された。

Deep learning-based brain tumor segmentation (BTS) models for multi-modal MRI images have seen significant advancements in recent years. However, a common problem in practice is the unavailability of some modalities due to varying scanning protocols and patient conditions, making segmentation from incomplete MRI modalities a challenging issue. Previous methods have attempted to address this by fusing accessible multi-modal features, leveraging attention mechanisms, and synthesizing missing modalities using generative models. However, these methods ignore the intrinsic problems of medical image segmentation, such as the limited availability of training samples, particularly for cases with tumors. Furthermore, these methods require training and deploying a specific model for each subset of missing modalities. To address these issues, we propose a novel approach that enhances the BTS model from two perspectives. Firstly, we introduce a pre-training stage that generates a diverse pre-training dataset covering a wide range of different combinations of tumor shapes and brain anatomy. Secondly, we propose a post-training stage that enables the model to reconstruct missing modalities in the prediction results when only partial modalities are available. To achieve the pre-training stage, we conceptually decouple the MRI image into two parts: `anatomy' and `tumor'. We pre-train the BTS model using synthesized data generated from the anatomy and tumor parts across different training samples. ... Extensive experiments demonstrate that our proposed method significantly improves the performance over the baseline and achieves new state-of-the-art results on three brain tumor segmentation datasets: BRATS2020, BRATS2018, and BRATS2015.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 難読音声のための包括的ASR:ターゲットの微調整とデータ拡張による大規模自己教師付き学習

Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation ( http://arxiv.org/abs/2406.10177v1 )

ライセンス: Link先を確認
Dena Mujtaba, Nihar R. Mahapatra, Megan Arney, J. Scott Yaruss, Caryn Herring, Jia Bin, (参考訳) 自動音声認識(ASR)システムは、しばしば、不随意ブロックや単語の繰り返しなど、散らばった関連する不一致を処理しながら、不正確な書き起こしを生成する。 進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。 そこで本研究では,大規模自己教師型学習を標準音声に適用した包括的ASR設計手法を提案する。 我々のデータ拡張技術は、これらの音声パターンのASR処理を強化し、様々な相違のあるトレーニングデータセットを豊かにする。 結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。 我々のアプローチは、混乱する人々に対するASRの傾きを前進させるだけでなく、より広い言論のバリエーションに対応するためのASRの道を開く。

Automatic speech recognition (ASR) systems often falter while processing stuttering-related disfluencies -- such as involuntary blocks and word repetitions -- yielding inaccurate transcripts. A critical barrier to progress is the scarcity of large, annotated disfluent speech datasets. Therefore, we present an inclusive ASR design approach, leveraging large-scale self-supervised learning on standard speech followed by targeted fine-tuning and data augmentation on a smaller, curated dataset of disfluent speech. Our data augmentation technique enriches training datasets with various disfluencies, enhancing ASR processing of these speech patterns. Results show that fine-tuning wav2vec 2.0 with even a relatively small, labeled dataset, alongside data augmentation, can significantly reduce word error rates for disfluent speech. Our approach not only advances ASR inclusivity for people who stutter, but also paves the way for ASRs that can accommodate wider speech variations.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 量子臨界点の有限温度検出 : 比較研究

Finite temperature detection of quantum critical points: a comparative study ( http://arxiv.org/abs/2406.10178v1 )

ライセンス: Link先を確認
G. A. P. Ribeiro, Gustavo Rigolin, (参考訳) 有限温度データのみの量子臨界点(QCP)を検出するのに最も有用な3つの量子情報ツールを比較検討した。 量子不協和、量子テレポーテーションに基づくQCP検出器、および量子コヒーレンススペクトルがいくつかのスピン-1/2$の連鎖のQCPをピンポイントする方法を定量的に検討する。 熱力学の限界(無限のスピン数)と、温度$T$で熱貯水池と平衡なスピン鎖で作業する。 ここで研究したモデルは、外部の縦方向磁場を伴わない$XXZ$モデル、Ising transverseモデル、および外部の横方向磁場を対象とする$XY$モデルである。

We comparatively study three of the most useful quantum information tools to detect quantum critical points (QCPs) when only finite temperature data are available. We investigate quantitatively how the quantum discord, the quantum teleportation based QCP detectors, and the quantum coherence spectrum pinpoint the QCPs of several spin-$1/2$ chains. We work in the thermodynamic limit (infinite number of spins) and with the spin chains in equilibrium with a thermal reservoir at temperature $T$. The models here studied are the $XXZ$ model with and without an external longitudinal magnetic field, the Ising transverse model, and the $XY$ model subjected to an external transverse magnetic field.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# MeshPose:DensePoseと3Dボディメッシュの再構築

MeshPose: Unifying DensePose and 3D Body Mesh reconstruction ( http://arxiv.org/abs/2406.10180v1 )

ライセンス: Link先を確認
Eric-Tuan Lê, Antonis Kakolyris, Petros Koutras, Himmy Tam, Efstratios Skordos, George Papandreou, Rıza Alp Güler, Iasonas Kokkinos, (参考訳) DensePoseは3Dメッシュ座標と画像のピクセル精度の相関を提供するが、3Dメッシュは提供しない。 この作業では、DensePoseとHMRを共同で取り組むためのMeshPoseを紹介します。 これにより、弱いDensePose監視を使用して、メッシュ頂点のサブセット('VertexPose')を2Dで正確にローカライズすることが可能になります。 次に、これらの頂点を3Dに上げ、低孔体メッシュ("MeshPose")を生成します。 我々のシステムはエンドツーエンドで訓練されており、競争力のあるDensePoseの精度を実現するための最初のHMR手法であり、同時に効率的な推論が可能であり、リアルタイムARアプリケーションに適している。

DensePose provides a pixel-accurate association of images with 3D mesh coordinates, but does not provide a 3D mesh, while Human Mesh Reconstruction (HMR) systems have high 2D reprojection error, as measured by DensePose localization metrics. In this work we introduce MeshPose to jointly tackle DensePose and HMR. For this we first introduce new losses that allow us to use weak DensePose supervision to accurately localize in 2D a subset of the mesh vertices ('VertexPose'). We then lift these vertices to 3D, yielding a low-poly body mesh ('MeshPose'). Our system is trained in an end-to-end manner and is the first HMR method to attain competitive DensePose accuracy, while also being lightweight and amenable to efficient inference, making it suitable for real-time AR applications.
翻訳日:2024-06-17 12:46:51 公開日:2024-06-14
# 学習サブスペースプロジェクタによるコモディティGPU上の微調整LDMの実用的なオフロード

Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors ( http://arxiv.org/abs/2406.10181v1 )

ライセンス: Link先を確認
Siyuan Chen, Zelong Guan, Yudong Liu, Phillip B. Gibbons, (参考訳) 微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。 このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。 しかし、このアプローチは、CPUとGPU間の通信を制限するコモディティハードウェアの帯域幅の制限によって妨げられている。 本稿では,学習したサブスペースプロジェクタを通じて,コモディティハードウェア上でのLLM微調整を可能にする,オフロードフレームワーク LSP_Offload を提案する。 データ駆動型アプローチでは、最小精度の損失で通信を最小限に抑える効率的なスパース圧縮機を学習する。 さらに,通信と計算の並列性を最大化するために,新しいレイヤワイド通信スケジュールを導入する。 その結果、我々のフレームワークは、4GBのラップトップGPU上の13億のパラメータモデルと24GBのメモリを持つNVIDIA RTX 4090 GPU上の70億のパラメータモデルを微調整できる。 最先端のオフロードフレームワークと比較して、我々の手法は微調整のスループットを最大3.33倍に向上し、同じ精度に収束するとエンドツーエンドの微調整時間を33.1%〜62.5%削減する。

Fine-tuning large language models (LLMs) requires significant memory, often exceeding the capacity of a single GPU. A common solution to this memory challenge is offloading compute and data from the GPU to the CPU. However, this approach is hampered by the limited bandwidth of commodity hardware, which constrains communication between the CPU and GPU. In this paper, we present an offloading framework, LSP_Offload, that enables near-native speed LLM fine-tuning on commodity hardware through learned subspace projectors. Our data-driven approach involves learning an efficient sparse compressor that minimizes communication with minimal precision loss. Additionally, we introduce a novel layer-wise communication schedule to maximize parallelism between communication and computation. As a result, our framework can fine-tune a 1.3 billion parameter model on a 4GB laptop GPU and a 7 billion parameter model on an NVIDIA RTX 4090 GPU with 24GB memory, achieving only a 31% slowdown compared to fine-tuning with unlimited memory. Compared to state-of-the-art offloading frameworks, our approach increases fine-tuning throughput by up to 3.33 times and reduces end-to-end fine-tuning time by 33.1%~62.5% when converging to the same accuracy.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 大規模視覚言語モデルにおける医学的幻覚の検出と評価

Detecting and Evaluating Medical Hallucinations in Large Vision Language Models ( http://arxiv.org/abs/2406.10185v1 )

ライセンス: Link先を確認
Jiawei Chen, Dingkang Yang, Tong Wu, Yue Jiang, Xiaolu Hou, Mingcheng Li, Shunli Wang, Dongling Xiao, Ke Li, Lihua Zhang, (参考訳) LVLM(Large Vision Language Models)は、医学的視覚的質問応答や画像レポート生成など、医療応用においてますます不可欠なものになっている。 これらのモデルは基礎言語モデル(LLM)の堅牢な能力を継承するが、幻覚への感受性も継承する。 しかし、現在、医学分野での幻覚検出と評価のための専用の方法やベンチマークは存在しない。 このギャップを埋めるために、医療マルチモーダル領域における幻覚検出と評価に特化した最初のベンチマークであるMed-HallMarkを紹介する。 このベンチマークは、マルチタスク幻覚サポート、マルチフェイス幻覚データ、階層幻覚分類を提供する。 さらに,LVLMの幻覚評価のための医療評価尺度であるMedHall Scoreを提案する。 幻覚検出のための新しい医療用LVLMであるMedHallDetectorについても紹介する。 広範に実験を行った結果,このベンチマークを用いてLVLMのベースラインを確立することができた。 その結果,MedHall Scoreは,従来の測定値と比較して幻覚効果の微妙な理解を提供し,MedHallDetectorの性能向上を実証した。 この研究が医療応用におけるLVLMの信頼性を大幅に向上させることを期待している。 この作業のすべてのリソースはまもなくリリースされます。

Large Vision Language Models (LVLMs) are increasingly integral to healthcare applications, including medical visual question answering and imaging report generation. While these models inherit the robust capabilities of foundational Large Language Models (LLMs), they also inherit susceptibility to hallucinations-a significant concern in high-stakes medical contexts where the margin for error is minimal. However, currently, there are no dedicated methods or benchmarks for hallucination detection and evaluation in the medical field. To bridge this gap, we introduce Med-HallMark, the first benchmark specifically designed for hallucination detection and evaluation within the medical multimodal domain. This benchmark provides multi-tasking hallucination support, multifaceted hallucination data, and hierarchical hallucination categorization. Furthermore, we propose the MediHall Score, a new medical evaluative metric designed to assess LVLMs' hallucinations through a hierarchical scoring system that considers the severity and type of hallucination, thereby enabling a granular assessment of potential clinical impacts. We also present MediHallDetector, a novel Medical LVLM engineered for precise hallucination detection, which employs multitask training for hallucination detection. Through extensive experimental evaluations, we establish baselines for popular LVLMs using our benchmark. The findings indicate that MediHall Score provides a more nuanced understanding of hallucination impacts compared to traditional metrics and demonstrate the enhanced performance of MediHallDetector. We hope this work can significantly improve the reliability of LVLMs in medical applications. All resources of this work will be released soon.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 千論:長文物語におけるリッチキャラクタ表現

CHIRON: Rich Character Representations in Long-Form Narratives ( http://arxiv.org/abs/2406.10190v1 )

ライセンス: Link先を確認
Alexander Gurung, Mirella Lapata, (参考訳) キャラクタは長文物語に不可欠なものであるが、既存の物語分析・生成システムでは理解されていない。 従来の作業では,グラフベースの手法や簡単な文字記述による文字の簡略化が見られたが,プロのライターへのアドバイスからヒントを得て,複雑な文字を表現するという課題に対処することを目的としている。 文字に関するテキスト情報を整理・フィルタリングする「文字シート」に基づく表現であるCHIRONを提案する。 質問応答による文字情報にLLMを誘導するジェネレーションモジュールと,自動推論とドメイン固有包絡モデルを用いて文字に関する偽事実を除去するバリデーションモジュールの2つのステップで構築する。 実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。 また,CHIRONから派生した指標を用いて,物語のキャラクター中心性を自動的に推定し,これらの指標が人間の判断と一致することを示す。

Characters are integral to long-form narratives, but are poorly understood by existing story analysis and generation systems. While prior work has simplified characters via graph-based methods and brief character descriptions, we aim to better tackle the problem of representing complex characters by taking inspiration from advice given to professional writers. We propose CHIRON, a new `character sheet' based representation that organizes and filters textual information about characters. We construct CHIRON sheets in two steps: a Generation Module that prompts an LLM for character information via question-answering and a Validation Module that uses automated reasoning and a domain-specific entailment model to eliminate false facts about a character. We validate CHIRON via the downstream task of masked-character prediction, where our experiments show CHIRON is better and more flexible than comparable summary-based baselines. We also show that metrics derived from CHIRON can be used to automatically infer character-centricity in stories, and that these metrics align with human judgments.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 高速デコリレーションの純状態に対するエンタングルメントエントロピー境界

Entanglement entropy bounds for pure states of rapid decorrelation ( http://arxiv.org/abs/2406.10194v1 )

ライセンス: Link先を確認
Michael Aizenman, Simone Warzel, (参考訳) 多次元量子格子系の純粋状態は, 十分に高速なデコリレーションの振幅と位相構造を持つため, 比較的低複雑性の高忠実度近似を構築した。 これらは、州の絡み合いエントロピーに対する領域-法則境界の条件付き証明に使用される。 この条件はまた、状態の非結合領域間の相互情報の指数関数的崩壊を示し、したがって局所的な可観測物の指数関数的クラスタリングを示す。 一般結果の適用性は、逆場における量子イジングモデルで示される。 スピンスピン相関に関するモデル固有情報と組み合わせて、モデルの亜臨界基底状態の絡み合いに縛られた領域法則型を確立し、すべての次元で有効であり、モデルの量子相転移まで有効である。

For pure states of multi-dimensional quantum lattice systems, which in a convenient computational basis have amplitude and phase structure of sufficiently rapid decorrelation, we construct high fidelity approximations of relatively low complexity. These are used for a conditional proof of area-law bounds for the states' entanglement entropy. The condition is also shown to imply exponential decay of the state's mutual information between disjoint regions, and hence exponential clustering of local observables. The applicability of the general results is demonstrated on the quantum Ising model in transverse field. Combined with available model-specific information on spin-spin correlations, we establish an area-law type bound on the entanglement in the model's subcritical ground states, valid in all dimensions and up to the model's quantum phase transition.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 行列積ユニタリ:量子セルオートマトンを超える

Matrix-product unitaries: Beyond quantum cellular automata ( http://arxiv.org/abs/2406.10195v1 )

ライセンス: Link先を確認
Georgios Styliaris, Rahul Trivedi, David Pérez-García, J. Ignacio Cirac, (参考訳) 行列積ユニタリ(英: Matrix-product unitary、MPU)は、量子系の時間発展とユニタリ対称性を記述する1次元テンソルネットワークである。 1つの繰り返しテンソルによって形成されるMPUは、1D量子セルオートマトン(QCA)、すなわち正確な光円錐を持つユニタリと一致することが知られている。 しかし、この対応は開境界条件で MPU に対して分解される。 ここでは、一様バルクだが任意の境界を持つ MPU の理論に向けての第一歩を踏み出す。 特に,QCA特性の最大値に反する直和形式のサブクラスの構造について検討する。 また, サイト依存(非一様)テンソルによるMPUの一般事例を考察し, MPUと局所的最大エンタングルブル状態との対応を示す。

Matrix-product unitaries (MPU) are 1D tensor networks describing time evolution and unitary symmetries of quantum systems. MPU which are formed by a single repeated tensor are known to coincide with 1D quantum cellular automata (QCA), i.e., unitaries with an exact light cone. However, this correspondence breaks down for MPU with open boundary conditions, even if the resulting operator is translation-invariant. Here we make the first steps towards a theory of MPU with uniform bulk but arbitrary boundary. In particular, we study the structure of a subclass with a direct-sum form which maximally violates the QCA property. We also consider the general case of MPU formed by site-dependent (nonuniform) tensors and show a correspondence between MPU and locally maximally entanglable states.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# TRIP-PAL:大規模言語モデルと自動プランナーを組み合わせた保証付き旅行計画

TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners ( http://arxiv.org/abs/2406.10196v1 )

ライセンス: Link先を確認
Tomas de la Rosa, Sriram Gopalakrishnan, Alberto Pozanco, Zhen Zeng, Daniel Borrajo, (参考訳) 旅行計画は、制約を受けた訪問場所に関連する一連のアクションを生成し、ユーザ満足度基準を最大化する複雑なタスクである。 従来のアプローチは、与えられた形式言語における問題定式化に依存し、Webソースから関連する旅行情報を抽出し、適切な問題解決器を使用して有効なソリューションを生成する。 代替として、最近のLarge Language Model (LLM)ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。 LLMは広い旅行領域の知識を持ち、関心点や潜在的ルートのような高レベルな情報を提供するが、現在の最先端モデルは、コヒーレンスに欠ける計画を作成し、制約を完全に満たせず、高品質なソリューションの生成を保証しない。 LLMと自動プランナーの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。 一 LLMは、旅行情報及び利用者情報を取得して、プランナーに供給できるデータ構造に翻訳し、 二 自動プランナーは、制約満足度を保証し、利用者の利便性を最適化する旅行計画を作成する。 様々な旅行シナリオを対象とした実験により, TRIP-PAL は旅行計画の生成において LLM よりも優れることが示された。

Travel planning is a complex task that involves generating a sequence of actions related to visiting places subject to constraints and maximizing some user satisfaction criteria. Traditional approaches rely on problem formulation in a given formal language, extracting relevant travel information from web sources, and use an adequate problem solver to generate a valid solution. As an alternative, recent Large Language Model (LLM) based approaches directly output plans from user requests using language. Although LLMs possess extensive travel domain knowledge and provide high-level information like points of interest and potential routes, current state-of-the-art models often generate plans that lack coherence, fail to satisfy constraints fully, and do not guarantee the generation of high-quality solutions. We propose TRIP-PAL, a hybrid method that combines the strengths of LLMs and automated planners, where (i) LLMs get and translate travel information and user information into data structures that can be fed into planners; and (ii) automated planners generate travel plans that guarantee constraint satisfaction and optimize for users' utility. Our experiments across various travel scenarios show that TRIP-PAL outperforms an LLM when generating travel plans.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 表現的オブジェクト構成のための製作部品

Crafting Parts for Expressive Object Composition ( http://arxiv.org/abs/2406.10197v1 )

ライセンス: Link先を確認
Harsh Rangwani, Aishwarya Agarwal, Kuldeep Kulkarni, R. Venkatesh Babu, Srikrishna Karanam, (参考訳) 安定拡散, DALLE-2などの大規模生成モデルからのテキスト・ツー・イメージ生成は, 優れた品質と豊富な知識基盤のため, 様々なタスクの共通基盤となっている。 画像合成と生成は創造的なプロセスであるので、アーティストは生成される画像の様々な部分を制御する必要がある。 ベーステキストのプロンプトに部分の詳細を追加するだけで、全く異なるイメージ(例えば、欠落/誤認識)になるか、余分な部分の詳細が単に無視されるかが分かる。 これらの問題を緩和するために、ベーステキストプロンプト内のオブジェクトに指定された細かな部分レベルの詳細に基づいて画像を生成するPartCraftを導入する。 これにより、アーティストのコントロールが強化され、独特なオブジェクト部品を組み合わせることで、新しいオブジェクト合成が可能になる。 PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。 これにより、各部分トークンを適切なオブジェクト領域にローカライズすることができる。 部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行し,それらを組み合わせて最終画像を生成する。 PartCraftのすべてのステージは、トレーニング済みの拡散モデルの再利用に基づいており、トレーニングなしでさまざまなドメインをまたいで一般化することができる。 本研究では,PartCraftが提供する部分レベル制御の有効性を,視覚的な例を通して質的に,現代ベースラインと比較して定量的に示す。

Text-to-image generation from large generative models like Stable Diffusion, DALLE-2, etc., have become a common base for various tasks due to their superior quality and extensive knowledge bases. As image composition and generation are creative processes the artists need control over various parts of the images being generated. We find that just adding details about parts in the base text prompt either leads to an entirely different image (e.g., missing/incorrect identity) or the extra part details simply being ignored. To mitigate these issues, we introduce PartCraft, which enables image generation based on fine-grained part-level details specified for objects in the base text prompt. This allows more control for artists and enables novel object compositions by combining distinctive object parts. PartCraft first localizes object parts by denoising the object region from a specific diffusion process. This enables each part token to be localized to the right object region. After obtaining part masks, we run a localized diffusion process in each of the part regions based on fine-grained part descriptions and combine them to produce the final image. All the stages of PartCraft are based on repurposing a pre-trained diffusion model, which enables it to generalize across various domains without training. We demonstrate the effectiveness of part-level control provided by PartCraft qualitatively through visual examples and quantitatively in comparison to the contemporary baselines.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# エントロピー蓄積による準備・測定・解離状態QKDの有限サイズ解析

Finite-size analysis of prepare-and-measure and decoy-state QKD via entropy accumulation ( http://arxiv.org/abs/2406.10198v1 )

ライセンス: Link先を確認
Lars Kamin, Amir Arqand, Ian George, Norbert Lütkenhaus, Ernest Y. -Z. Tan, (参考訳) 量子鍵分布(QKD)における重要なゴールは、集団攻撃の仮定なしに有限サイズのセキュリティ証明を提供することである。 このような証明を得るための準備と測定のQKDは、一般化エントロピー累積定理 (GEAT) である。 本研究では,デコイ状態プロトコルに着目した一般的な準備・測定プロトコルの有限サイズ解析にGEATを適用する手法を提案する。 特に,デコイ状態プロトコルのエントロピー境界を計算するための改良されたアプローチを提案する。これは,従来のアプローチよりも厳密なバウンダリを提供するという2つの利点があり,GEATのミニトランデフ関数の計算方法と互換性がある。 さらに,GEATの有限サイズの項にいくつかの改良を加える手法を開発し,min-tradeoff関数を自動的に最適化する手法を実装した。 提案手法は,従来の研究では解決されていなかった準備・測定プロトコルに特有な数値安定性の問題にも対処する。

An important goal in quantum key distribution (QKD) is the task of providing a finite-size security proof without the assumption of collective attacks. For prepare-and-measure QKD, one approach for obtaining such proofs is the generalized entropy accumulation theorem (GEAT), but thus far it has only been applied to study a small selection of protocols. In this work, we present techniques for applying the GEAT in finite-size analysis of generic prepare-and-measure protocols, with a focus on decoy-state protocols. In particular, we present an improved approach for computing entropy bounds for decoy-state protocols, which has the dual benefits of providing tighter bounds than previous approaches (even asymptotically) and being compatible with methods for computing min-tradeoff functions in the GEAT. Furthermore, we develop methods to incorporate some improvements to the finite-size terms in the GEAT, and implement techniques to automatically optimize the min-tradeoff function. Our approach also addresses some numerical stability challenges specific to prepare-and-measure protocols, which were not addressed in previous works.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# SSTFB:リアルタイムビデオポリプセグメンテーションのための特徴分枝による自己教師型プレテキスト学習と時間的自己意識の活用

SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation ( http://arxiv.org/abs/2406.10200v1 )

ライセンス: Link先を確認
Ziang Xu, Jens Rittscher, Sharib Ali, (参考訳) ポリープは早期がんの指標であり、ポリープの発生と除去を評価することが重要である。 これらは、ビデオフレームのストリームを生成する大腸内視鏡検査によって観察される。 天然ビデオスクリーニングにおけるポリプの分離には、画像アーティファクトの共存、動きのぼかし、浮遊する破片など、いくつかの課題がある。 既存のポリプセグメンテーションアルゴリズムの多くは、実世界の大腸内視鏡を表現しないキュレートされた静止画像データセット上で開発されている。 彼らのパフォーマンスは、しばしばビデオデータで劣化する。 本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。 エンド・ツー・エンドの構成と損失の同時最適化により、ネットワークはより差別的な文脈的特徴をビデオで学べる。 実験により, 現状技術(SOTA)法の改良が示された。 また,本研究は,最近提案した PNS+ と Polyp-PVT と比較して,Dice の類似度係数と交叉対数において,ネットワークの精度が 3% 以上,10% 近く向上することが確認された。 その結果,提案手法が一般化されることが示唆された。

Polyps are early cancer indicators, so assessing occurrences of polyps and their removal is critical. They are observed through a colonoscopy screening procedure that generates a stream of video frames. Segmenting polyps in their natural video screening procedure has several challenges, such as the co-existence of imaging artefacts, motion blur, and floating debris. Most existing polyp segmentation algorithms are developed on curated still image datasets that do not represent real-world colonoscopy. Their performance often degrades on video data. We propose a video polyp segmentation method that performs self-supervised learning as an auxiliary task and a spatial-temporal self-attention mechanism for improved representation learning. Our end-to-end configuration and joint optimisation of losses enable the network to learn more discriminative contextual features in videos. Our experimental results demonstrate an improvement with respect to several state-of-the-art (SOTA) methods. Our ablation study also confirms that the choice of the proposed joint end-to-end training improves network accuracy by over 3% and nearly 10% on both the Dice similarity coefficient and intersection-over-union compared to the recently proposed method PNS+ and Polyp-PVT, respectively. Results on previously unseen video data indicate that the proposed method generalises.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 言語モデルにおける基本的トレードオフと適応子サンプリングとの関係

A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors ( http://arxiv.org/abs/2406.10203v1 )

ライセンス: Link先を確認
Naaman Tan, Josef Valvoda, Anej Svete, Tianyu Liu, Yanxia Qin, Kan Min-Yen, Ryan Cotterell, (参考訳) 文字列の品質と確率$p(\boldsymbol{y})$との関係は、優れたテキスト生成システムを構築する技術の開発に影響を与えている。 例えば、いくつかの復号アルゴリズムは、より高品質なテキストを生成するために$p(\boldsymbol{y})$を操作する動機付けがなされている。 本研究では,RLHF(Reinforcement Learning through Human Feedback)を通して,言語モデルにおける確率-品質の関係について検討する。 汎用言語モデルとそのコーパスモデルからサンプル化したコーパスについて,汎用言語モデルに基づく文字列の平均報酬と平均ログ類似度との間にはトレードオフがあることが判明した。 この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。

The relationship between the quality of a string and its probability $p(\boldsymbol{y})$ under a language model has been influential in the development of techniques to build good text generation systems. For example, several decoding algorithms have been motivated to manipulate $p(\boldsymbol{y})$ to produce higher-quality text. In this work, we examine the probability--quality relationship in language models explicitly aligned to human preferences, e.g., through Reinforcement Learning through Human Feedback (RLHF). We find that, given a general language model and its aligned version, for corpora sampled from an aligned language model, there exists a trade-off between the average reward and average log-likelihood of the strings under the general language model. We provide a formal treatment of this issue and demonstrate how a choice of sampling adaptor allows for a selection of how much likelihood we exchange for the reward.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 2成分回路における量子ダイナミクスの演算子空間エンタングルパワーと局所演算子エンタングルメント成長

Operator Space Entangling Power of Quantum Dynamics and Local Operator Entanglement Growth in Dual-Unitary Circuits ( http://arxiv.org/abs/2406.10206v1 )

ライセンス: Link先を確認
Faidon Andreadakis, Emanuel Dallas, Paolo Zanardi, (参考訳) 演算子絡み合い(Operator entanglement)は、系の二分法にまたがる演算子複雑性のよく確立された尺度である。 本研究では,状態空間エンタングリングパワーの演算子レベル一般化を表す演算子エンタングメントを生成するためのユニタリチャネルの能力を示す尺度を提案する。 この作用素空間エンタングリングパワーは、最近導入された量子作用素代数の相互平均非可換性の概念を通じてユニタリチャネルのスクランブル特性にリンクすることが示されている。 演算子空間エンタングリングパワーの上界は、典型的なユニタリーのものと似たスクランブル特性を持つユニタリーチャネルに対応する。 さらに、ハミルトニアン力学では、作用素空間の絡み合うパワーの短期的な成長速度は、二分項のアウト・オブ・タイム・オーダー・コレレータのガウス的スクランブルレートと一致し、情報スクランブルと演算子絡み合い生成の直接的なリンクを確立する。 最後に、スピン鎖の対称二分割における局所作用素の絡み合いの平均的成長について検討する。 二重単位回路の場合、解析的および数値的な研究の組み合わせにより、局所作用素の絡み合いの平均的な成長は、ビル・ブロックゲートの作用素空間の絡み合い力に関連して2つの異なる状態を示すことを示した。

Operator entanglement is a well-established measure of operator complexity across a system bipartition. In this work, we introduce a measure for the ability of a unitary channel to generate operator entanglement, representing an operator-level generalization of the state-space entangling power. This operator space entangling power is demonstrated to be linked to the scrambling properties of the unitary channel via the recently introduced concept of mutual averaged non-commutativity of quantum operator algebras. An upper bound for the operator space entangling power is identified, corresponding to unitary channels with scrambling properties akin to those of typical unitaries. Additionally, for Hamiltonian dynamics, we find that the short-time growth rate of the operator space entangling power matches the Gaussian scrambling rate of the bipartite out-of-time-order-correlator, establishing a direct link between information scrambling and operator entanglement generation for short time scales. Finally, we examine the average growth of local operator entanglement across a symmetric bipartition of a spin-chain. For dual-unitary circuits, a combination of analytical and numerical investigations demonstrates that the average growth of local operator entanglement exhibits two distinct regimes in relation to the operator space entangling power of the building-block gate.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# Glyph-ByT5-v2: 高精度多言語ビジュアルテキストレンダリングのための強力な美的ベースライン

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering ( http://arxiv.org/abs/2406.10208v1 )

ライセンス: Link先を確認
Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan, (参考訳) 近年,Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。 しかし、それでも英語のみに焦点が当てられており、視覚的魅力の面では比較的貧弱である。 本稿では,Glyph-ByT5-v2 と Glyph-SDXL-v2 という2つの基本的制約に対処する。 これを達成するために、私たちは以下の貢献をしている。 (i)100万以上のグリフテキストペアと9つの他の言語をカバーする1000万のグラフィックデザインイメージテキストペアからなる高品質な多言語グリフテキストおよびグラフィックデザインデータセットを作成する。 二 言語ごとの100のプロンプトからなる多言語視覚段落ベンチマークを作成して、多言語視覚スペルの精度を評価すること。 3) 視覚美学の質を高めるために, 最新のステップアウェア優先学習アプローチを活用すること。 これらの技術を組み合わせることで、強力なカスタマイズされた多言語テキストエンコーダGlyph-ByT5-v2と、10言語で正確な綴りをサポートする強力な美的グラフィック生成モデルGlyph-SDXL-v2を提供する。 私たちは、最新のDALL-E3とIdeogram 1.0が、多言語のビジュアルテキストレンダリングタスクに苦戦していることを考慮し、我々の仕事を大きな進歩と見なしています。

Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# 金魚のように、記憶するな!

Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs ( http://arxiv.org/abs/2406.10209v1 )

ライセンス: Link先を確認
Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein, (参考訳) 大きな言語モデルはトレーニングデータを記憶し、繰り返すことができ、プライバシーと著作権のリスクを引き起こす。 覚醒を緩和するため,金魚喪失と呼ぶ次の訓練目標に微妙な修正を加えている。 トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。 これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。 我々は,10億台のLlama-2モデルをスクラッチから事前訓練およびトレーニングし,下流ベンチマークにほとんど影響を与えず,抽出可能な記憶の大幅な削減を実証する広範囲な実験を行った。

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# Make it count: 正確なオブジェクト数を持つテキスト・ツー・イメージ生成

Make It Count: Text-to-Image Generation with an Accurate Number of Objects ( http://arxiv.org/abs/2406.10210v1 )

ライセンス: Link先を確認
Lital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik, (参考訳) テキストと画像の拡散モデルが前例のない成功を収めたにもかかわらず、テキストを使って描写されたオブジェクトの数を制御するのは驚くほど難しい。 これは、技術文書から児童書、調理レシピのイラストまで、様々な用途において重要である。 生成モデルは、複数のオブジェクトが同一に見えるか重複しているように見える場合でも、オブジェクトのインスタンスごとに個別のアイデンティティの感覚を保持し、生成中に暗黙的にグローバルな計算を実行する必要があるため、オブジェクトの正しいカウントの生成は基本的に困難である。 そのような表現が存在するかどうかは不明。 カウント・コレクト・ジェネレーションに対処するため,まずオブジェクトの識別情報を伝達可能な拡散モデル内の特徴を同定する。 次に、それらをデノナイジングプロセス中にオブジェクトのインスタンスを分離してカウントし、過剰世代と低世代を検出するために使用します。 我々は、既存のオブジェクトのレイアウトに基づいて、行方不明オブジェクトの形状と位置の両方を予測するモデルをトレーニングすることで、後者を修正する。 私たちのアプローチであるCountGenは、オブジェクトのレイアウトを決定するために外部ソースに依存しません。 2つのベンチマークデータセットから評価したところ、CountGenは既存のベースラインのカウント精度を強く上回っていることがわかった。

Despite the unprecedented success of text-to-image diffusion models, controlling the number of depicted objects using text is surprisingly hard. This is important for various applications from technical documents, to children's books to illustrating cooking recipes. Generating object-correct counts is fundamentally challenging because the generative model needs to keep a sense of separate identity for every instance of the object, even if several objects look identical or overlap, and then carry out a global computation implicitly during generation. It is still unknown if such representations exist. To address count-correct generation, we first identify features within the diffusion model that can carry the object identity information. We then use them to separate and count instances of objects during the denoising process and detect over-generation and under-generation. We fix the latter by training a model that predicts both the shape and location of a missing object, based on the layout of existing ones, and show how it can be used to guide denoising with correct object count. Our approach, CountGen, does not depend on external source to determine object layout, but rather uses the prior from the diffusion model itself, creating prompt-dependent and seed-dependent layouts. Evaluated on two benchmark datasets, we find that CountGen strongly outperforms the count-accuracy of existing baselines.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# DiffusionBlend:3次元CT画像再構成のための位置認識拡散スコアブレンドによる3次元画像の学習

DiffusionBlend: Learning 3D Image Prior through Position-aware Diffusion Score Blending for 3D Computed Tomography Reconstruction ( http://arxiv.org/abs/2406.10211v1 )

ライセンス: Link先を確認
Bowen Song, Jason Hu, Zhaoxu Luo, Jeffrey A. Fessler, Liyue Shen, (参考訳) 拡散モデルでは,CT(3D Computed Tomography)などの大規模医用画像再構成を実際に行う場合,大きな課題に直面している。 要求されるメモリ,時間,データ要求のため,高次元データの体積全体に直接拡散モデルを訓練して,より効率的な3次元拡散を求めることは困難である。 既存の2次元画像スライスと手作りのクロススライス正規化による拡散先行処理は、z軸の一貫性を犠牲にし、z軸に沿って深刻なアーティファクトをもたらす。 本研究では,3次元医用画像の大規模再構築のための3次元拡散スコアのブレンディングを通じて,3次元画像の事前学習を可能にする新しいフレームワークを提案する。 我々の知る限り、3次元医用画像再構成に先立って3次元パッチ拡散を利用するのは初めてである。 スパースビューとリミテッドアングルCT再構成の広範な実験により,DiffusionBlend法は従来の手法より有意に優れ,高次元画像を用いた実世界のCT再構成問題(256 \times 256 \times 500$)における最先端性能を実現していることがわかった。 我々のアルゴリズムは、従来の最先端手法よりも優れた、あるいは同等の計算効率を持つ。

Diffusion models face significant challenges when employed for large-scale medical image reconstruction in real practice such as 3D Computed Tomography (CT). Due to the demanding memory, time, and data requirements, it is difficult to train a diffusion model directly on the entire volume of high-dimensional data to obtain an efficient 3D diffusion prior. Existing works utilizing diffusion priors on single 2D image slice with hand-crafted cross-slice regularization would sacrifice the z-axis consistency, which results in severe artifacts along the z-axis. In this work, we propose a novel framework that enables learning the 3D image prior through position-aware 3D-patch diffusion score blending for reconstructing large-scale 3D medical images. To the best of our knowledge, we are the first to utilize a 3D-patch diffusion prior for 3D medical image reconstruction. Extensive experiments on sparse view and limited angle CT reconstruction show that our DiffusionBlend method significantly outperforms previous methods and achieves state-of-the-art performance on real-world CT reconstruction problems with high-dimensional 3D image (i.e., $256 \times 256 \times 500$). Our algorithm also comes with better or comparable computational efficiency than previous state-of-the-art methods.
翻訳日:2024-06-17 12:37:07 公開日:2024-06-14
# NeST:3次元光弾性を利用したニューラルストレステンソルトモグラフィ

NeST: Neural Stress Tensor Tomography by leveraging 3D Photoelasticity ( http://arxiv.org/abs/2406.10212v1 )

ライセンス: Link先を確認
Akshat Dave, Tianyi Zhang, Aaron Young, Ramesh Raskar, Wolfgang Heidrich, Ashok Veeraraghavan, (参考訳) 光弾性は、応力誘起複屈折による透明物体のフルフィールド応力解析を可能にする。 既存の技術は2Dスライスに限られており、オブジェクトを破壊的にスライスする必要がある。 物体の内部3次元応力分布の復元は、テンソルトモグラフィー問題の解決と位相ラップのあいまいさを扱うため困難である。 我々は,3次元応力テンソル場を偏光測定からニューラル暗黙表現として再構成するための解析バイシンセシス手法であるNeSTを紹介する。 我々の重要な洞察は、ジョーンズ計算に基づく微分可能フォワードモデルを用いて位相アンラッピングとテンソルトモグラフィを共同で扱うことである。 我々の非線形モデルは、以前の線形近似とは異なり、実捕獲と忠実に一致している。 我々は3次元光弾性を捉えるための多軸偏光顕微鏡を試作し、NeSTが形状や力条件の異なる物体の内部応力分布を再構成することを実験的に実証した。 さらに、物体を仮想的にスライスし、目に見えない視点から光弾性縁を見ることによって、光弾性縁を可視化するなど、応力解析における新しい応用を紹介した。 NeSTはスケーラブルで非破壊的な3次元光弾性解析の道を開く。

Photoelasticity enables full-field stress analysis in transparent objects through stress-induced birefringence. Existing techniques are limited to 2D slices and require destructively slicing the object. Recovering the internal 3D stress distribution of the entire object is challenging as it involves solving a tensor tomography problem and handling phase wrapping ambiguities. We introduce NeST, an analysis-by-synthesis approach for reconstructing 3D stress tensor fields as neural implicit representations from polarization measurements. Our key insight is to jointly handle phase unwrapping and tensor tomography using a differentiable forward model based on Jones calculus. Our non-linear model faithfully matches real captures, unlike prior linear approximations. We develop an experimental multi-axis polariscope setup to capture 3D photoelasticity and experimentally demonstrate that NeST reconstructs the internal stress distribution for objects with varying shape and force conditions. Additionally, we showcase novel applications in stress analysis, such as visualizing photoelastic fringes by virtually slicing the object and viewing photoelastic fringes from unseen viewpoints. NeST paves the way for scalable non-destructive 3D photoelastic analysis.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 医療機械学習モデルにおける解釈可能性の選択手法

Selecting Interpretability Techniques for Healthcare Machine Learning models ( http://arxiv.org/abs/2406.10213v1 )

ライセンス: Link先を確認
Daniel Sierra-Botero, Ana Molina-Taborda, Mario S. Valdés-Tresanco, Alejandro Hernández-Arango, Leonardo Espinosa-Leal, Alexander Karpenko, Olga Lopez-Acevedo, (参考訳) 医療では、いくつかの意思決定シナリオにおいて、医療専門家を支援するために解釈可能なアルゴリズムを採用することが追求されている。 Predictive, Descriptive and Relevant (PDR) フレームワークに従って、解釈可能な機械学習の定義は、データに含まれる関係や、その機能に関連のあるモデルによって学習された関係を明示的に決定する機械学習モデルとして定義され、ポストホック、トレーニング後の解釈可能性、あるいはモデルベースが本質的にアルゴリズム設計に埋め込まれている。 本稿では, ポストホックとモデルベースという8つのアルゴリズムを概説する。

In healthcare there is a pursuit for employing interpretable algorithms to assist healthcare professionals in several decision scenarios. Following the Predictive, Descriptive and Relevant (PDR) framework, the definition of interpretable machine learning as a machine-learning model that explicitly and in a simple frame determines relationships either contained in data or learned by the model that are relevant for its functioning and the categorization of models by post-hoc, acquiring interpretability after training, or model-based, being intrinsically embedded in the algorithm design. We overview a selection of eight algorithms, both post-hoc and model-based, that can be used for such purposes.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 生成時系列モデリングのためのユニバーサルランダム化シグネチャ

Universal randomised signatures for generative time series modelling ( http://arxiv.org/abs/2406.10214v1 )

ライセンス: Link先を確認
Francesca Biagini, Lukas Gonon, Niklas Walter, (参考訳) ランダム化されたシグネチャは、十分に確立されたパスシグネチャに代わる、柔軟で容易に実装可能な代替品として提案されている。 本稿では,貯水池計算の精神において,財務時系列データの生成モデルを導入するためにランダム化シグネチャを用いる。 具体的には、離散時間ランダム化シグネチャに基づく新しいワッサーシュタイン型距離を提案する。 確率測度の空間上のこの計量は、(条件付き)分布の間の距離を捉える。 基本経路を入力とする連続函数の空間上のランダム化シグネチャに対する、我々の新しい普遍近似結果によって、その使用が正当化される。 そこで我々は,貯水池ニューラル確率微分方程式に基づく時系列データを合成するための非逆生成モデルにおける損失関数として,我々の測定値を用いる。 モデルの結果と既存の文献のベンチマークを比較した。

Randomised signature has been proposed as a flexible and easily implementable alternative to the well-established path signature. In this article, we employ randomised signature to introduce a generative model for financial time series data in the spirit of reservoir computing. Specifically, we propose a novel Wasserstein-type distance based on discrete-time randomised signatures. This metric on the space of probability measures captures the distance between (conditional) distributions. Its use is justified by our novel universal approximation results for randomised signatures on the space of continuous functions taking the underlying path as an input. We then use our metric as the loss function in a non-adversarial generator model for synthetic time series data based on a reservoir neural stochastic differential equation. We compare the results of our model to benchmarks from the existing literature.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# DevBench: 言語学習のためのマルチモーダル開発ベンチマーク

DevBench: A multimodal developmental benchmark for language learning ( http://arxiv.org/abs/2406.10215v1 )

ライセンス: Link先を確認
Alvin Wei Ming Tan, Sunny Yu, Bria Long, Wanjing Anya Ma, Tonya Murray, Rebecca D. Silverman, Jason D. Yeatman, Michael C. Frank, (参考訳) 視覚言語モデルと子どもの学習軌跡はどのように類似しているか? 近年のモデリング研究は、より少ないデータ、特にマルチモーダル・ナチュラルなデータで訓練されたモデルを構築することで、モデルの効率と人間のデータ効率のギャップを解明しようと試みている。 しかし、このようなモデルはしばしば成人レベルのベンチマークで評価され、言語能力の限界はテストされ、行動データと直接比較されることはない。 我々は,語彙,構文,意味的能力の領域にまたがる7つの言語評価タスクからなるマルチモーダル・ベンチマークであるDevBenchを紹介した。 これらの課題に対して視覚言語モデルのセットを評価し、モデルと人間を精度だけでなく、その応答パターンに基づいて比較する。 タスク全体にわたって、モデルは人間の反応パターンに近づき、タスクにおいてより良く機能するモデルは人間の行動反応によく似ている。 また,OpenCLIPの学習における発達軌跡についても検討し,学習結果が成人の反応パターンに密接な関係があることを見出した。 DevBenchは、モデルと人間の言語開発を比較するためのベンチマークを提供する。 これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調し、言語モデルを改善するためのエントリポイントに関する洞察を提供する。

How (dis)similar are the learning trajectories of vision-language models and children? Recent modeling work has attempted to understand the gap between models' and humans' data efficiency by constructing models trained on less data, especially multimodal naturalistic data. However, such models are often evaluated on adult-level benchmarks, with limited breadth in language abilities tested, and without direct comparison to behavioral data. We introduce DevBench, a multimodal benchmark comprising seven language evaluation tasks spanning the domains of lexical, syntactic, and semantic ability, with behavioral data from both children and adults. We evaluate a set of vision-language models on these tasks, comparing models and humans not only on accuracy but on their response patterns. Across tasks, models exhibit variation in their closeness to human response patterns, and models that perform better on a task also more closely resemble human behavioral responses. We also examine the developmental trajectory of OpenCLIP over training, finding that greater training results in closer approximations to adult response patterns. DevBench thus provides a benchmark for comparing models to human language development. These comparisons highlight ways in which model and human language learning processes diverge, providing insight into entry points for improving language models.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 正規化隠れ状態はLLMの一般化リワードモデル学習を可能にする

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs ( http://arxiv.org/abs/2406.10216v1 )

ライセンス: Link先を確認
Rui Yang, Ruomeng Ding, Yong Lin, Huan Zhang, Tong Zhang, (参考訳) 人間の嗜好データに基づいてトレーニングされたリワードモデルは、人間のフィードバック(RLHF)フレームワークからの強化学習において、大規模言語モデル(LLM)と人間の意図とを整合させるのに有効であることが証明されている。 しかし、現在の報酬モデルの無意味なプロンプトや応答に対する一般化能力は限られている。 この制限は、報酬過度最適化と呼ばれる予期せぬ現象を引き起こし、報酬の過度な最適化によって実際のパフォーマンスが低下する。 従来,政策最適化の制約を提唱してきたが,本研究では,隠蔽状態の正規化による分布シフトに対する報酬モデルの一般化能力を向上するための新しいアプローチを提案する。 具体的には、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成能力を保ちながら、同じ隠れた状態の背後にある報酬ヘッドを同時に学習する。 実験の結果,導入した正規化手法は,様々なアウト・オブ・ディストリビューション(OOD)タスクにおける学習報酬モデルの精度を著しく向上し,RLHFにおける過度な最適化問題を効果的に緩和し,より信頼性が高く堅牢な選好学習パラダイムを提供することを示した。

Reward models trained on human preference data have been proven to be effective for aligning Large Language Models (LLMs) with human intent within the reinforcement learning from human feedback (RLHF) framework. However, the generalization capabilities of current reward models to unseen prompts and responses are limited. This limitation can lead to an unexpected phenomenon known as reward over-optimization, where excessive optimization of rewards results in a decline in actual performance. While previous research has advocated for constraining policy optimization, our study proposes a novel approach to enhance the reward model's generalization ability against distribution shifts by regularizing the hidden states. Specifically, we retain the base model's language model head and incorporate a suite of text-generation losses to preserve the hidden states' text generation capabilities, while concurrently learning a reward head behind the same hidden states. Our experimental results demonstrate that the introduced regularization technique markedly improves the accuracy of learned reward models across a variety of out-of-distribution (OOD) tasks and effectively alleviate the over-optimization issue in RLHF, offering a more reliable and robust preference learning paradigm.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 大規模言語モデルに対する意味的メンバーシップ推論攻撃

Semantic Membership Inference Attack against Large Language Models ( http://arxiv.org/abs/2406.10218v1 )

ライセンス: Link先を確認
Hamid Mozaffari, Virendra J. Marathe, (参考訳) メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングセットに含まれるかどうかを決定する。 本稿では,入力のセマンティックな内容と摂動を利用してMIA性能を向上させる新しいアプローチであるセマンティック・メンバーシップ・推論・アタック(SMIA)を紹介する。 SMIAはニューラルネットワークをトレーニングし、摂動入力におけるターゲットモデルの振る舞いを分析し、メンバーと非メンバー間の出力確率分布の変動を効果的に捉える。 ウィキペディアデータセットを用いて,PythiaおよびGPT-Neoモデルファミリーの総合評価を行う。 その結果、SMIAは既存のMIAよりも有意に優れており、例えば、SMIAはPythia-12Bで67.39%のAUC-ROCを達成している。

Membership Inference Attacks (MIAs) determine whether a specific data point was included in the training set of a target model. In this paper, we introduce the Semantic Membership Inference Attack (SMIA), a novel approach that enhances MIA performance by leveraging the semantic content of inputs and their perturbations. SMIA trains a neural network to analyze the target model's behavior on perturbed inputs, effectively capturing variations in output probability distributions between members and non-members. We conduct comprehensive evaluations on the Pythia and GPT-Neo model families using the Wikipedia dataset. Our results show that SMIA significantly outperforms existing MIAs; for instance, SMIA achieves an AUC-ROC of 67.39% on Pythia-12B, compared to 58.90% by the second-best attack.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# PUP 3D-GS: 3次元ガウス平滑化のための原理的不確かさ解析

PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting ( http://arxiv.org/abs/2406.10219v1 )

ライセンス: Link先を確認
Alex Hanson, Allen Tu, Vasu Singla, Mayuka Jayawardhana, Matthias Zwicker, Tom Goldstein, (参考訳) 近年のビュー合成の進歩により、リアルタイムレンダリング速度と高い再構成精度が実現されている。 基本的なポイントベースパラメトリックな3Dシーン表現である3Dガウススティング(3D-GS)は、シーンを3Dガウスの大規模なセットとしてモデル化する。 複雑なシーンは数百万のガウスアンで構成され、限られたリソースを持つデバイス上での3D-GSの有効性を制限した大きなストレージとメモリ要件に相当する。 ガウスを刈り取ることでこれらの事前訓練されたモデルを圧縮する現在の手法は、どれを除去するかを決定するためにヒューリスティックを組み合わせることに依存している。 本稿では,これらの手法より優れた空間感性プルーニングスコアを提案する。 各ガウスの空間パラメータに関して、トレーニングビューにおける再構成誤差の2次近似として計算される。 さらに,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。 ガウシアンの88.44%を刈り取った後、我々のPUP 3D-GSパイプラインは、3D-GSの平均レンダリング速度を2.65$\times$で増加させ、より精巧なフォアグラウンド情報を保持し、Mip-NeRF 360、Tants & Temples、Deep Blendingデータセットのシーンでの以前のプルーニング技術よりも高い画質のメトリクスを実現した。

Recent advancements in novel view synthesis have enabled real-time rendering speeds and high reconstruction accuracy. 3D Gaussian Splatting (3D-GS), a foundational point-based parametric 3D scene representation, models scenes as large sets of 3D Gaussians. Complex scenes can comprise of millions of Gaussians, amounting to large storage and memory requirements that limit the viability of 3D-GS on devices with limited resources. Current techniques for compressing these pretrained models by pruning Gaussians rely on combining heuristics to determine which ones to remove. In this paper, we propose a principled spatial sensitivity pruning score that outperforms these approaches. It is computed as a second-order approximation of the reconstruction error on the training views with respect to the spatial parameters of each Gaussian. Additionally, we propose a multi-round prune-refine pipeline that can be applied to any pretrained 3D-GS model without changing the training pipeline. After pruning 88.44% of the Gaussians, we observe that our PUP 3D-GS pipeline increases the average rendering speed of 3D-GS by 2.65$\times$ while retaining more salient foreground information and achieving higher image quality metrics than previous pruning techniques on scenes from the Mip-NeRF 360, Tanks & Temples, and Deep Blending datasets.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# Short Film Dataset (SFD):ストーリーレベルのビデオ理解のためのベンチマーク

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding ( http://arxiv.org/abs/2406.10221v1 )

ライセンス: Link先を確認
Ridouane Ghermi, Xi Wang, Vicky Kalogeiton, Ivan Laptev, (参考訳) 近年の視覚言語モデルの進歩は映像理解を著しく促進している。 しかし、既存のデータセットとタスクには、注目すべき制限がある。 ほとんどのデータセットは、限られたイベントと狭い物語を持つ短いビデオに限られている。 例えば、インストラクションとエゴセントリックなビデオを持つデータセットは、1つのシーンで1人のアクティビティを文書化することが多い。 一部の映画データセットは、よりリッチなコンテンツを提供するが、しばしば短期的なタスクに制限され、公開ビデオが欠如し、映画フォーラムやその他のLLMトレーニングのリソースを使用すると、しばしばデータ漏洩に遭遇する。 上記の制限に対処するため,1078本のアマチュア映画が公開されているショートフィルムデータセット (SFD) を提案する。 SFDは、複数選択とオープンな質問応答という形で、長期的なストーリー指向のビデオタスクを提供する。 本研究では,SFD課題を解決するための長期的推論の必要性を強調した。 特に,映画本文中の強い信号は,人やLLMのオンパーパフォーマンスに繋がる。 また、視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。

Recent advances in vision-language models have significantly propelled video understanding. Existing datasets and tasks, however, have notable limitations. Most datasets are confined to short videos with limited events and narrow narratives. For example, datasets with instructional and egocentric videos often document the activities of one person in a single scene. Although some movie datasets offer richer content, they are often limited to short-term tasks, lack publicly available videos and frequently encounter data leakage given the use of movie forums and other resources in LLM training. To address the above limitations, we propose the Short Film Dataset (SFD) with 1,078 publicly available amateur movies, a wide variety of genres and minimal data leakage issues. SFD offers long-term story-oriented video tasks in the form of multiple-choice and open-ended question answering. Our extensive experiments emphasize the need for long-term reasoning to solve SFD tasks. Notably, we find strong signals in movie transcripts leading to the on-par performance of people and LLMs. We also show significantly lower performance of current models compared to people when using vision data alone.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 効率の良い多言語音声の音声翻訳のための拡散合成器

Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation ( http://arxiv.org/abs/2406.10223v1 )

ライセンス: Link先を確認
Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana, Joseph Liu, Eloi DuBois, Dao Le, Nicolas Thiebaut, Colin Sinclair, Kyle Spence, Charles Shang, Zoe Abrams, Morgan McGuire, (参考訳) DiffuseSTは、複数のソース言語から英語に翻訳しながら、入力話者の声のゼロショットを保存できる低レイテンシ直接音声合成システムである。 アーキテクチャのシンセサイザーコンポーネントを実験し、タコトロンベースのシンセサイザーと新しい拡散ベースシンセサイザーを比較した。 MOS と PESQ の音響品質指標をそれぞれ 23 % 改善し、話者類似度を 5 % 改善し、BLEU のスコアを同等に維持する拡散型合成器を提案する。 パラメータカウントが2倍以上であるにもかかわらず、拡散シンセサイザーはレイテンシが低く、モデル全体がリアルタイムよりも5$\times$以上速く実行できる。

We introduce DiffuseST, a low-latency, direct speech-to-speech translation system capable of preserving the input speaker's voice zero-shot while translating from multiple source languages into English. We experiment with the synthesizer component of the architecture, comparing a Tacotron-based synthesizer to a novel diffusion-based synthesizer. We find the diffusion-based synthesizer to improve MOS and PESQ audio quality metrics by 23\% each and speaker similarity by 5\% while maintaining comparable BLEU scores. Despite having more than double the parameter count, the diffusion synthesizer has lower latency, allowing the entire model to run more than 5$\times$ faster than real-time.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# EFM3D:3Dエゴセントリックファンデーションモデルに向けた進捗測定ベンチマーク

EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models ( http://arxiv.org/abs/2406.10224v1 )

ライセンス: Link先を確認
Julian Straub, Daniel DeTone, Tianwei Shen, Nan Yang, Chris Sweeney, Richard Newcombe, (参考訳) ウェアラブルコンピュータの出現は、エゴセントリックなセンサーデータに埋め込まれたAIの新しいコンテキストソースを可能にする。 この新しいエゴセントリックなデータは、きめ細かい3D位置情報を備えており、3D空間に根ざした新しい空間基盤モデルの機会を提供する。 Egocentric Foundation Models (EFMs) と呼ばれる2つのコア3Dの認識タスクを備えたベンチマークであるEMM3Dを確立する。 EFM3Dは、Project Ariaの高品質なアノテートされたエゴセントリックなデータに対する3Dオブジェクトの検出と表面回帰のための最初のベンチマークである。 本稿では,3次元EMFのベースラインであるEgocentric Voxel Lifting (EVL)を提案する。 EVLは利用可能なすべてのエゴセントリックなモダリティを活用し、2Dファンデーションモデルから基礎的能力を継承する。 大規模なシミュレーションデータセットに基づいてトレーニングされたこのモデルは、EMM3Dベンチマークで既存のメソッドよりも優れています。

The advent of wearable computers enables a new source of context for AI that is embedded in egocentric sensor data. This new egocentric data comes equipped with fine-grained 3D location information and thus presents the opportunity for a novel class of spatial foundation models that are rooted in 3D space. To measure progress on what we term Egocentric Foundation Models (EFMs) we establish EFM3D, a benchmark with two core 3D egocentric perception tasks. EFM3D is the first benchmark for 3D object detection and surface regression on high quality annotated egocentric data of Project Aria. We propose Egocentric Voxel Lifting (EVL), a baseline for 3D EFMs. EVL leverages all available egocentric modalities and inherits foundational capabilities from 2D foundation models. This model, trained on a large simulated dataset, outperforms existing methods on the EFM3D benchmark.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# SatDiffMoE:遅延拡散モデルを用いた衛星画像超解像の混合推定法

SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models ( http://arxiv.org/abs/2406.10225v1 )

ライセンス: Link先を確認
Zhaoxu Luo, Bowen Song, Liyue Shen, (参考訳) 衛星画像の取得の際には、一般的に、衛星画像システムの搭載センサーによる空間分解能と時間分解能(取得周波数)の間にトレードオフがある。 高解像度の衛星画像は、土地の作物モニタリング、都市計画、山火事管理、様々な用途において非常に重要である。 衛星画像における高空間時間分解能を達成することは、非常に難しい課題である。 拡散モデルの出現により、高解像度で現実的な衛星画像を生成するための強力な生成先行を学習できるようになり、超高解像度タスクの促進にも活用できる。 本研究では,入力と同一位置にある連続した低解像度衛星画像の任意の個数を抽出し,異なる時間点から補完情報を利用・融合することにより,より詳細な高解像度再構成画像に分解することができる,新しい拡散型融合アルゴリズムである「textbf{SatDiffMoE}」を提案する。 アルゴリズムは非常に柔軟で、任意の数の低解像度画像のトレーニングと推測が可能である。 実験結果から,SatDiffMoE法は,各種データセットにおける衛星画像の超解像タスクの性能向上だけでなく,モデルパラメータの削減による計算効率の向上も期待できることがわかった。

During the acquisition of satellite images, there is generally a trade-off between spatial resolution and temporal resolution (acquisition frequency) due to the onboard sensors of satellite imaging systems. High-resolution satellite images are very important for land crop monitoring, urban planning, wildfire management and a variety of applications. It is a significant yet challenging task to achieve high spatial-temporal resolution in satellite imaging. With the advent of diffusion models, we can now learn strong generative priors to generate realistic satellite images with high resolution, which can be utilized to promote the super-resolution task as well. In this work, we propose a novel diffusion-based fusion algorithm called \textbf{SatDiffMoE} that can take an arbitrary number of sequential low-resolution satellite images at the same location as inputs, and fuse them into one high-resolution reconstructed image with more fine details, by leveraging and fusing the complementary information from different time points. Our algorithm is highly flexible and allows training and inference on arbitrary number of low-resolution images. Experimental results show that our proposed SatDiffMoE method not only achieves superior performance for the satellite image super-resolution tasks on a variety of datasets, but also gets an improved computational efficiency with reduced model parameters, compared with previous methods.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# Kerr系におけるノイズと非線形性の合同推定

Joint estimation of noise and nonlinearity in Kerr systems ( http://arxiv.org/abs/2406.10226v1 )

ライセンス: Link先を確認
Michele N. Notarnicola, Stefano Olivares, Matteo G. A. Paris, (参考訳) 我々は、コヒーレントプローブを用いたセルフケラー相互作用の存在下での損失チャネルと劣化チャネルのキャラクタリゼーションに対処する。 特に,損失・非線形性の合同推定における精度の究極的限界と,劣化・非線形性について検討する。 この目的のために、量子フィッシャー情報行列(QFIM)を評価し、対称量子Cram\'er-Rao境界(QCR)と、実現可能な量子測定のフィッシャー情報行列(FIM)、すなわちホモダインおよびダブルホモジン検出のバウンドと比較する。 損失Kerrチャネルの場合, 損失特性はKerr非線形性の存在, 特に小さな損失と低い入力エネルギーの関連限界において向上する一方, 損失の有無によって非線形性自体が必然的に劣化することを示す。 低エネルギー状態において、適切に最適化された二次構造のホモダイン検出は、ほぼ最適な測定値である。 ウルマン曲率(英語版)は消滅しないので、損失と非線形性は内在的な量子ノイズを加えることで、共同で推定できる。 カーチャネルを劣化させるためには、2つのパラメータのQFIは非線形性とは独立であり、拡張は観測されない。 ホモダインおよびダブルホモダイン検出は、デファス化の推定に最適であり、非線形性にはほぼ最適である。 また、この場合、ウルマン曲率はゼロではないので、パラメータが最大精度で共同で推定できないことが証明される。

We address characterization of lossy and dephasing channels in the presence of self-Kerr interaction using coherent probes. In particular, we investigate the ultimate bounds to precision in the joint estimation of loss and nonlinearity and of dephasing and nonlinearity. To this aim, we evaluate the quantum Fisher information matrix (QFIM), and compare the symmetric quantum Cram\'er-Rao bound (QCR) to the bound obtained with Fisher information matrix (FIM) of feasible quantum measurements, i.e., homodyne and double-homodyne detection. For lossy Kerr channels, our results show the loss characterization is enhanced in the presence of Kerr nonlinearity, especially in the relevant limit of small losses and low input energy, whereas the estimation of nonlinearity itself is unavoidably degraded by the presence of loss. In the low energy regime, homodyne detection of a suitably optimized quadrature represents a nearly optimal measurement. The Uhlmann curvature does not vanish, therefore loss and nonlinearity can be jointly estimated only with the addition of intrinsic quantum noise. For dephasing Kerr channels, the QFIs of the two parameters are independent of the nonlinearity, and therefore no enhancement is observed. Homodyne and double-homodyne detection are suboptimal for the estimation of dephasing and nearly optimal for nonlinearity. Also in this case, the Uhlmann curvature is nonzero, proving that the parameters cannot be jointly estimated with maximum precision.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# VideoGUI: インストラクショナルビデオからのGUI自動化のためのベンチマーク

VideoGUI: A Benchmark for GUI Automation from Instructional Videos ( http://arxiv.org/abs/2406.10227v1 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou, (参考訳) グラフィカルユーザインタフェース(GUI)の自動化は、コンピュータタスクを支援することで人間の生産性を高めるための重要な約束である。 既存のタスクの定式化は、"Insert a new slide"のような単一の言語のみの命令で指定できる単純なタスクに重点を置いている。 本稿では,視覚中心のGUIタスク上でGUIアシスタントを評価するために設計された,新しいマルチモーダルベンチマークであるVideoGUIを紹介する。 高品質なWebインストラクショナルビデオから得られたベンチマークでは、プロや新しいソフトウェア(Adobe PhotoshopやStable Diffusion WebUIなど)や複雑なアクティビティ(ビデオ編集など)に関わるタスクに焦点を当てています。 VideoGUIは階層的なプロセスを通じてGUIアシスタントを評価し、失敗する可能性のある特定のレベルを識別する。 (i)高レベルの計画:言語記述のない視覚的条件から手続き的なサブタスクを再構築すること (ii)中間レベルの計画:視覚状態(スクリーンショット)と目標に基づいて、正確な行動ナレーションのシーケンスを生成する。 (iii)アトミックアクション実行:指定された要素を正確にクリックするような特定のアクションを実行する。 各レベルに対して、各次元にわたる評価指標を設計し、クリック、ドラッグ、タイピング、スクロールによるアトミックアクションの実行における個々のパフォーマンスなどの明確な信号を提供する。 ビデオGUIの評価では,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,特に高レベルプランニングにおいて,視覚中心のGUIタスクでは不十分であることが明らかとなった。

Graphical User Interface (GUI) automation holds significant promise for enhancing human productivity by assisting with computer tasks. Existing task formulations primarily focus on simple tasks that can be specified by a single, language-only instruction, such as "Insert a new slide." In this work, we introduce VideoGUI, a novel multi-modal benchmark designed to evaluate GUI assistants on visual-centric GUI tasks. Sourced from high-quality web instructional videos, our benchmark focuses on tasks involving professional and novel software (e.g., Adobe Photoshop or Stable Diffusion WebUI) and complex activities (e.g., video editing). VideoGUI evaluates GUI assistants through a hierarchical process, allowing for identification of the specific levels at which they may fail: (i) high-level planning: reconstruct procedural subtasks from visual conditions without language descriptions; (ii) middle-level planning: generate sequences of precise action narrations based on visual state (i.e., screenshot) and goals; (iii) atomic action execution: perform specific actions such as accurately clicking designated elements. For each level, we design evaluation metrics across individual dimensions to provide clear signals, such as individual performance in clicking, dragging, typing, and scrolling for atomic action execution. Our evaluation on VideoGUI reveals that even the SoTA large multimodal model GPT4o performs poorly on visual-centric GUI tasks, especially for high-level planning.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# VEGA:視覚言語大モデルにおけるインターリーブ画像テキスト理解

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models ( http://arxiv.org/abs/2406.10228v1 )

ライセンス: Link先を確認
Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen, Xiawu Zheng, Xing Sun, Rongrong Ji, (参考訳) MLLM(Multi-modal Large Models)の急速な進歩は、視覚と言語をブレンドするタスクに取り組むという、印象的な能力を示した。 しかし、現在のモデルやベンチマークのほとんどは、視覚的およびテキスト的コンテキストの範囲が狭いシナリオに対応している。 これらのモデルは複雑な理解タスクに直面した場合、しばしば不足する。 このギャップを埋めるために,Interleaved Image-Text Comprehension (IITC) と呼ばれる,より要求の高いタスクを導入する。 このタスクは、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答え、関連する画像をピンポイントする複雑な指示に従うようモデルに挑戦する。 このタスクを支援するために,科学コンテンツに関するIITCタスクに適したVEGAデータセットを新たに構築し,画像テキスト相関技術を洗練するためのサブタスクである画像テキストアソシエーション(ITA)を考案した。 VEGAを用いた4つの主要なクローズドソースモデルおよび様々なオープンソースモデルの評価は、IITCの厳密な性質を裏付けるものである。 Gemini-1.5-proやGPT4Vのような最も先進的なモデルでさえ、わずかしか成功しなかった。 マルチタスクでマルチスケールのポストトレーニング戦略を用いて,IITCタスク上でのMLLMの堅牢なベースラインを設定し,画像アソシエーションの精度が85.8\%,ルージュスコアが0.508ドルに達した。 これらの結果から,画像テキスト理解のためのMLLMの性能向上におけるデータセットの有効性が検証された。

The swift progress of Multi-modal Large Models (MLLMs) has showcased their impressive ability to tackle tasks blending vision and language. Yet, most current models and benchmarks cater to scenarios with a narrow scope of visual and textual contexts. These models often fall short when faced with complex comprehension tasks, which involve navigating through a plethora of irrelevant and potentially misleading information in both text and image forms. To bridge this gap, we introduce a new, more demanding task known as Interleaved Image-Text Comprehension (IITC). This task challenges models to discern and disregard superfluous elements in both images and text to accurately answer questions and to follow intricate instructions to pinpoint the relevant image. In support of this task, we further craft a new VEGA dataset, tailored for the IITC task on scientific content, and devised a subtask, Image-Text Association (ITA), to refine image-text correlation skills. Our evaluation of four leading closed-source models, as well as various open-source models using VEGA, underscores the rigorous nature of IITC. Even the most advanced models, such as Gemini-1.5-pro and GPT4V, only achieved modest success. By employing a multi-task, multi-scale post-training strategy, we have set a robust baseline for MLLMs on the IITC task, attaining an $85.8\%$ accuracy rate in image association and a $0.508$ Rouge score. These results validate the effectiveness of our dataset in improving MLLMs capabilities for nuanced image-text comprehension.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# 評価ベンチマークにおける変数の定量化

Quantifying Variance in Evaluation Benchmarks ( http://arxiv.org/abs/2406.10229v1 )

ライセンス: Link先を確認
Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes, (参考訳) 評価ベンチマークは、大きな言語モデル(LLM)の能力測定の基盤であり、その能力の進歩を促進する。 もともとは、完全に事前訓練されたモデルにおける能力(またはその欠如)に関する主張をするために設計されたが、評価ベンチマークは様々なトレーニング選択を決定するために広く使われている。 このような広く使われているにもかかわらず、評価ベンチマークのばらつきを定量化することは滅多になく、パフォーマンスの違いが意味のあるものであるかどうかを判断する。 ここでは、初期化における種子の分散、トレーニング中の単調性など、評価ベンチマークのばらつきを測定するための指標を定義、測定する。 多数のモデル(オープンで利用可能で、スクラッチから事前訓練されたモデル)を研究することで、さまざまな分散メトリクスに対して、実践者に対する考慮とレコメンデーションとともに、経験的な見積もりを提供します。 また、連続的なパフォーマンス対策と離散的なパフォーマンス対策の有用性とトレードオフを評価し、この分散をよりよく理解し、削減するための選択肢を探る。 MMLUのような)選択タスクを完了タスクとしてフレーミングするような単純な変更は、小さなスケール($7B)モデルの分散を減少させることがあるのに対して、より複雑な手法(アイテム分析やアイテム応答理論など)は、分散を有意義に減少させるのに苦労している。 全体として、我々の研究は、評価ベンチマークのばらつきに関する洞察を提供し、分散を減らすためのLM固有のテクニックを提案し、より一般的には、モデルを比較する際のばらつきを慎重に要因付けすることを実践者に促します。

Evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, evaluation benchmarks are now also extensively used to decide between various training choices. Despite this widespread usage, we rarely quantify the variance in our evaluation benchmarks, which dictates whether differences in performance are meaningful. Here, we define and measure a range of metrics geared towards measuring variance in evaluation benchmarks, including seed variance across initialisations, and monotonicity during training. By studying a large number of models -- both openly available and pretrained from scratch -- we provide empirical estimates for a variety of variance metrics, with considerations and recommendations for practitioners. We also evaluate the utility and tradeoffs of continuous versus discrete performance measures and explore options for better understanding and reducing this variance. We find that simple changes, such as framing choice tasks (like MMLU) as completion tasks, can often reduce variance for smaller scale ($\sim$7B) models, while more involved methods inspired from human testing literature (such as item analysis and item response theory) struggle to meaningfully reduce variance. Overall, our work provides insights into variance in evaluation benchmarks, suggests LM-specific techniques to reduce variance, and more generally encourages practitioners to carefully factor in variance when comparing models.
翻訳日:2024-06-17 12:27:23 公開日:2024-06-14
# LGB:言語モデルとグラフニューラルネットワーク駆動型ソーシャルボット検出

LGB: Language Model and Graph Neural Network-Driven Social Bot Detection ( http://arxiv.org/abs/2406.08762v2 )

ライセンス: Link先を確認
Ming Zhou, Dan Zhang, Yuandong Wang, Yangli-ao Geng, Yuxiao Dong, Jie Tang, (参考訳) 悪意のあるソーシャルボットは、誤った情報を広め、社会的世論を喚起し、社会の安全を脅かすことによって悪意ある目的を達成する。 近年,グラフに基づくボット検出手法がSOTA(State-of-the-art)の性能を達成している。 しかし、図1に示すように、ソーシャルネットワークではグラフベースの手法では効果的に検出できない孤立ノードや疎結合ノードが多数存在する。 そこで本研究では,ノードのセマンティクスとネットワーク構造を効果的に活用して,疎結合ノードを共同検出することに焦点を当てた。 自然言語理解(NLU)における言語モデル(LM)の優れた性能を考慮し、言語モデル(LM)とグラフニューラルネットワーク(GNN)の2つの主要コンポーネントからなる新しいソーシャルボット検出フレームワークLGBを提案する。 具体的には、ソーシャルアカウント情報は、まず統合されたユーザテキストシーケンスに抽出され、その後、ソーシャルアカウントセマンティクスを理解する能力を向上させるために、言語モデルの教師付き微調整(SFT)を実行するために使用される。 次に、セマンティックに強化されたノード表現を事前訓練されたGNNに入力し、隣人からの情報を集約することでノード表現をさらに強化する。 最後に、LGBは両モードからの情報を融合し、疎結合ノードの検出性能を向上させる。 2つの実世界のデータセットに対する大規模な実験により、LGBは最先端のベースラインモデルよりも最大10.95%向上していることが示された。 LGBはすでにオンライン化されている: https://botdetection.aminer.cn/robotmain。

Malicious social bots achieve their malicious purposes by spreading misinformation and inciting social public opinion, seriously endangering social security, making their detection a critical concern. Recently, graph-based bot detection methods have achieved state-of-the-art (SOTA) performance. However, our research finds many isolated and poorly linked nodes in social networks, as shown in Fig.1, which graph-based methods cannot effectively detect. To address this problem, our research focuses on effectively utilizing node semantics and network structure to jointly detect sparsely linked nodes. Given the excellent performance of language models (LMs) in natural language understanding (NLU), we propose a novel social bot detection framework LGB, which consists of two main components: language model (LM) and graph neural network (GNN). Specifically, the social account information is first extracted into unified user textual sequences, which is then used to perform supervised fine-tuning (SFT) of the language model to improve its ability to understand social account semantics. Next, the semantically enriched node representation is fed into the pre-trained GNN to further enhance the node representation by aggregating information from neighbors. Finally, LGB fuses the information from both modalities to improve the detection performance of sparsely linked nodes. Extensive experiments on two real-world datasets demonstrate that LGB consistently outperforms state-of-the-art baseline models by up to 10.95%. LGB is already online: https://botdetection.aminer.cn/robotmain.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 単一励起を持つ一次元鎖における原子のアンサンブルの協調崩壊

Cooperative decay of an ensemble of atoms in a one-dimensional chain with a single excitation ( http://arxiv.org/abs/2406.08856v2 )

ライセンス: Link先を確認
Nicola Piovella, (参考訳) 単励起状態におけるN二層原子の一次元鎖の協調崩壊速度の近似式を提案する。 そこから、原子-原子相互作用グリーン関数の固有値問題を解く必要なしに、超放射とサブ放射の干渉の性質が自然に生じる。 協調崩壊速度は、一励起多様体におけるN原子の一般化されたディック状態に対して評価された、系の有効非エルミートハミルトニアンの期待値の想像上の部分と解釈できる。 無限鎖のラジアント崩壊速度はゼロであるが、有限鎖の1/Nとして減少する。 格子定数 d と原子番号 N の関数として単純な近似式が得られ、結果はまずスカラーモデルに対して得られ、次にベクトル光モデルに拡張され、全ての双極子が整列すると仮定される。

We propose a new approximated expression of the cooperative decay rate of a one-dimensional chain of N two-level atoms in the single-excitation configuration. From it, the interference nature of superradiance and subradiance arises naturally, without the need of solving the eigenvalue problem of the atom-atom interaction Green function. The cooperative decay rate can be interpreted as the imaginary part of the expectation value of the effective non-Hermitian Hamiltonian of the system, evaluated over a generalized Dicke state of N atoms in the single-excitation manifold. Whereas the subradiant decay rate is zero for an infinite chain, it decreases as 1/N for a finite chain. A simple approximated expression for the cooperative decay rate is obtained as a function of the lattice constant d and the atomic number N. The results are obtained first for the scalar model and then extended to the vectorial light model, assuming all the dipoles aligned.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# AV-GS:新しい視点音響合成に先立つ学習教材と幾何学

AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis ( http://arxiv.org/abs/2406.08920v2 )

ライセンス: Link先を確認
Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu, (参考訳) 新しいビュー音響合成(NVAS)は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でバイノーラルオーディオを描画することを目的としている。 既存の手法では、バイノーラルオーディオを合成するための条件として視覚的手がかりを利用するために、NeRFベースの暗黙モデルが提案されている。 しかし, ヘビーNeRFレンダリングによる低効率化に加えて, 室内形状, 材料特性, リスナーと音源の空間的関係など, シーン環境全体を特徴付ける能力に制限がある。 これらの問題に対処するために,我々は新しいオーディオ・ビジュアル・ガウス・スプラッティング(AV-GS)モデルを提案する。 音声合成のための材料認識および幾何認識条件を得るため,局所初期化ガウス点の音響誘導パラメータを用いて,聞き手と音源の空間関係を考慮した明示的なポイントベースシーン表現を学習する。 視覚的シーンモデルに適応させるため,ガウス点を最適に分配する点密度化およびプルーニング戦略を提案し,音の伝搬に寄与する点数(例えば,壁面のテクスチャに必要となる点数)について検討した。 大規模な実験により、実世界のRWASおよびシミュレーションベースのSoundSpacesデータセット上の既存の代替品よりもAV-GSの方が優れていることが検証された。

Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# Fredformer: 時系列予測のための周波数デバイアス変換器

Fredformer: Frequency Debiased Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.09009v2 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Taichi Murayama, Yasuko Matsubara, Yasushi Sakurai, (参考訳) Transformerモデルは時系列予測において主要なパフォーマンスを示している。 それでも複雑なシナリオでは、データ内の低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向にある。 このバイアスは、モデルが重要な高周波データ特徴を正確にキャプチャすることを防ぐ。 本稿では,このバイアスを理解するための実験的な分析を行い,高エネルギーの周波数特性に着目したモデルによる周波数バイアスが不均等に発生することを発見した。 我々は,このバイアスを定式化し,周波数帯域の異なる特徴を均等に学習することで周波数バイアスを緩和するトランスフォーマーベースのフレームワークであるFredformerを提案する。 このアプローチは、モデルが正確な予測に重要な低振幅の特徴を見落としないようにする。 大規模な実験により,提案手法の有効性が示され,実世界の時系列データセットにおいて,他のベースラインよりも優れていることがわかった。 さらに,注目行列近似を用いたFredformerの軽量版を導入し,より少ないパラメータと少ない計算コストで同等の性能を実現する。 コードは、https://github.com/chenzRG/Fredformer.comで入手できる。

The Transformer model has shown leading performance in time series forecasting. Nevertheless, in some complex scenarios, it tends to learn low-frequency features in the data and overlook high-frequency features, showing a frequency bias. This bias prevents the model from accurately capturing important high-frequency data features. In this paper, we undertook empirical analyses to understand this bias and discovered that frequency bias results from the model disproportionately focusing on frequency features with higher energy. Based on our analysis, we formulate this bias and propose Fredformer, a Transformer-based framework designed to mitigate frequency bias by learning features equally across different frequency bands. This approach prevents the model from overlooking lower amplitude features important for accurate forecasting. Extensive experiments show the effectiveness of our proposed approach, which can outperform other baselines in different real-world time-series datasets. Furthermore, we introduce a lightweight variant of the Fredformer with an attention matrix approximation, which achieves comparable performance but with much fewer parameters and lower computation costs. The code is available at: https://github.com/chenzRG/Fredformer
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 深層学習によるセンサー融合による幼児運動分類の改善

Deep learning empowered sensor fusion to improve infant movement classification ( http://arxiv.org/abs/2406.09014v2 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Luise Poustka, Sven Bölte, Lennart Jahn, Sarah Flügge, Marc Kraft, Markus Zweckstetter, Karin Nielsen-Saines, Florentin Wörgötter, Peter B Marschik, (参考訳) 確立した臨床ツールの診断手順を容易にし、強化するためのAIソリューションの開発が最近ブームになっている。 発達期神経系の完全性を評価するため,幼児期における神経障害の診断における臨床的意義として,プレヒト運動評価(GMA)が認められている。 GMAは、その応用を拡大し、人間のアセスメントのトレーニングにおけるコストを回避し、自発的な運動パターンの分類を標準化しようとする機械学習アプローチを通じて、ますます強化されている。 利用可能なディープラーニングツールは、いずれも単一センサーのモダリティに基づいているが、しかしながら、十分に訓練された人間の評価ツールよりもかなり劣っている。 これらのアプローチは、すべてのモデルがプロプライエタリ/サイロデータセットで設計、訓練、評価されるのとほぼ同等である。 本研究は,3つの異なるセンサモード(圧力,慣性,視覚センサ)を比較し,FM(Fidgety Movement)を評価するためのセンサ融合手法を提案する。 乳幼児運動分類のための様々な組み合わせと2つのセンサフュージョンアプローチ(後期および初期融合)を試験し、マルチセンサーシステムが単一モダリティ評価を上回っているかどうかを検証した。 乳児の運動パターンを自動分類する手段としては, センサフュージョンアプローチが有望な方法であることを示唆し, 3センサフュージョンの性能(分類精度94.5\%)はどの単一モードよりも有意に高かった。 堅牢なセンサー融合システムの開発は、AIによる神経機能の初期認識を著しく向上させ、最終的には神経発達状態の自動早期検出を容易にする。

There is a recent boom in the development of AI solutions to facilitate and enhance diagnostic procedures for established clinical tools. To assess the integrity of the developing nervous system, the Prechtl general movement assessment (GMA) is recognized for its clinical value in diagnosing neurological impairments in early infancy. GMA has been increasingly augmented through machine learning approaches intending to scale-up its application, circumvent costs in the training of human assessors and further standardize classification of spontaneous motor patterns. Available deep learning tools, all of which are based on single sensor modalities, are however still considerably inferior to that of well-trained human assessors. These approaches are hardly comparable as all models are designed, trained and evaluated on proprietary/silo-data sets. With this study we propose a sensor fusion approach for assessing fidgety movements (FMs) comparing three different sensor modalities (pressure, inertial, and visual sensors). Various combinations and two sensor fusion approaches (late and early fusion) for infant movement classification were tested to evaluate whether a multi-sensor system outperforms single modality assessments. The performance of the three-sensor fusion (classification accuracy of 94.5\%) was significantly higher than that of any single modality evaluated, suggesting the sensor fusion approach is a promising avenue for automated classification of infant motor patterns. The development of a robust sensor fusion system may significantly enhance AI-based early recognition of neurofunctions, ultimately facilitating automated early detection of neurodevelopmental conditions.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 不完全な識別子: ソースコードの理解とリファクタリングの強化

Impermanent Identifiers: Enhanced Source Code Comprehension and Refactoring ( http://arxiv.org/abs/2406.09066v2 )

ライセンス: Link先を確認
Eduardo Martins Guerra, Andre A. S. Ivo, Fernando O. Pereira, Romain Robbes, Andrea Janes, Fabio Fagundes Silveira, (参考訳) この記事では、現代のソフトウェア開発における一般的な課題に対応するために、命令型識別子を中心としたコード拡張に対する革新的なアプローチを紹介します。 第一の目的は、コンテキストの変化に適応する動的な識別子を導入し、開発者とソースコードの間のより効率的なインタラクションを促進し、最終的にソフトウェア開発における理解、保守、コラボレーションを促進することで、ソフトウェア開発エクスペリエンスを強化することです。 さらに,本研究では,ソフトウェア開発現場における不整合識別子の採用と受容について,厳密に評価する。 包括的実証試験を通じて、開発者がこのアプローチを日々のプログラミングプラクティスに認識し、統合し、認識されるメリット、潜在的な障壁、導入に影響を与える要因を探索する方法について調査する。 要約すると、この記事では、コード拡張のための新しいコースをグラフ化し、Imbermanent Identifiersをその基盤として提案し、開発者間の実現可能性と受け入れを評価します。 この学際的な研究は、ソフトウェア開発プラクティスの継続的な改善とコード拡張技術の進歩に貢献しようとしている。

In response to the prevailing challenges in contemporary software development, this article introduces an innovative approach to code augmentation centered around Impermanent Identifiers. The primary goal is to enhance the software development experience by introducing dynamic identifiers that adapt to changing contexts, facilitating more efficient interactions between developers and source code, ultimately advancing comprehension, maintenance, and collaboration in software development. Additionally, this study rigorously evaluates the adoption and acceptance of Impermanent Identifiers within the software development landscape. Through a comprehensive empirical examination, we investigate how developers perceive and integrate this approach into their daily programming practices, exploring perceived benefits, potential barriers, and factors influencing its adoption. In summary, this article charts a new course for code augmentation, proposing Impermanent Identifiers as its cornerstone while assessing their feasibility and acceptance among developers. This interdisciplinary research seeks to contribute to the continuous improvement of software development practices and the progress of code augmentation technology.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# ビジョンランゲージモデルを用いたAIベースのプロンプト進化工学設計最適化

Generative AI-based Prompt Evolution Engineering Design Optimization With Vision-Language Model ( http://arxiv.org/abs/2406.09143v2 )

ライセンス: Link先を確認
Melvin Wong, Thiago Rios, Stefan Menzel, Yew Soon Ong, (参考訳) 工学設計の最適化には、3次元形状表現、最適化アルゴリズム、設計性能評価手法の効率的な組み合わせが必要である。 本稿では, 車両設計シナリオにおいて, 生成モデルにより合成された非現実車設計のペナルティ化に視覚言語モデルを利用する, 即時進化設計最適化(PEDO)フレームワークを提案する。 我々のフレームワークのバックボーンは、物理に基づく解法と、生成車の設計における実用的あるいは機能的なガイダンスのための視覚言語モデルからなる最適化目的関数と組み合わせた進化的戦略である。 迅速な進化的探索において、最適化者は複数のテキストプロンプトを反復的に生成し、3Dカーの設計の空力性能と視覚的嗜好にユーザ仕様を埋め込む。 そして、計算流体力学シミュレーションに加えて、事前学習された視覚言語モデルを用いて、非現実的な設計をペナルティ化し、より実用的な設計を求める進化的アルゴリズムを育成する。 カーデザイン最適化問題に関する調査では,初期個体群における設計の多様性が良好であることや,視覚言語モデルを用いないベースラインフレームワークと比較して,実用設計の確率が20倍以上増加する可能性が示唆された。 性能評価結果に対する設計の視覚的検査は、設計仕様や嗜好を自然言語インターフェースで定義する上で、優れた最適化性能を持つ新規設計を見つけるための、非常に有望なパラダイムとして、迅速な進化を示す。

Engineering design optimization requires an efficient combination of a 3D shape representation, an optimization algorithm, and a design performance evaluation method, which is often computationally expensive. We present a prompt evolution design optimization (PEDO) framework contextualized in a vehicle design scenario that leverages a vision-language model for penalizing impractical car designs synthesized by a generative model. The backbone of our framework is an evolutionary strategy coupled with an optimization objective function that comprises a physics-based solver and a vision-language model for practical or functional guidance in the generated car designs. In the prompt evolutionary search, the optimizer iteratively generates a population of text prompts, which embed user specifications on the aerodynamic performance and visual preferences of the 3D car designs. Then, in addition to the computational fluid dynamics simulations, the pre-trained vision-language model is used to penalize impractical designs and, thus, foster the evolutionary algorithm to seek more viable designs. Our investigations on a car design optimization problem show a wide spread of potential car designs generated at the early phase of the search, which indicates a good diversity of designs in the initial populations, and an increase of over 20\% in the probability of generating practical designs compared to a baseline framework without using a vision-language model. Visual inspection of the designs against the performance results demonstrates prompt evolution as a very promising paradigm for finding novel designs with good optimization performance while providing ease of use in specifying design specifications and preferences via a natural language interface.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 顔偽造検出のための大規模ユニバーサル評価ベンチマーク

A Large-scale Universal Evaluation Benchmark For Face Forgery Detection ( http://arxiv.org/abs/2406.09181v2 )

ライセンス: Link先を確認
Yijun Bei, Hengrui Lou, Jinsong Geng, Erteng Liu, Lechao Cheng, Jie Song, Mingli Song, Zunlei Feng, (参考訳) AIGC技術の急速な発展に伴い、人間の視覚的知覚を欺く現実的な偽の顔画像やビデオの制作が可能になった。 その結果、このような偽の顔内容を特定するために、様々な顔偽造検出技術が提案されている。 しかし,これらの検出手法の有効性と一般化性は依然として大きな課題である。 そこで我々は,顔偽造検出の有効性を定量的に評価し,偽造検出技術の反復的開発を容易にするために,DeepFaceGenという大規模評価ベンチマークを構築した。 DeepFaceGenは776,990の実顔画像/ビデオサンプルと773,812の顔偽画像/ビデオサンプルで構成され、34の主流顔生成技術を用いて生成される。 建設過程では、DeepFaceGenの汎用性と利便性を確保するため、コンテンツ多様性、民族間の公正性、包括的ラベルの提供など重要な要素を慎重に検討する。 次に,DeepFaceGenを用いて,13の顔偽造検出技術の性能を様々な観点から評価・解析する。 広範な実験分析を通じて,重要な知見を導き,今後の研究の方向性を示唆する。 DeepFaceGenのコードとデータセットはhttps://github.com/HengruiLou/DeepFaceGenで入手できる。

With the rapid development of AI-generated content (AIGC) technology, the production of realistic fake facial images and videos that deceive human visual perception has become possible. Consequently, various face forgery detection techniques have been proposed to identify such fake facial content. However, evaluating the effectiveness and generalizability of these detection techniques remains a significant challenge. To address this, we have constructed a large-scale evaluation benchmark called DeepFaceGen, aimed at quantitatively assessing the effectiveness of face forgery detection and facilitating the iterative development of forgery detection technology. DeepFaceGen consists of 776,990 real face image/video samples and 773,812 face forgery image/video samples, generated using 34 mainstream face generation techniques. During the construction process, we carefully consider important factors such as content diversity, fairness across ethnicities, and availability of comprehensive labels, in order to ensure the versatility and convenience of DeepFaceGen. Subsequently, DeepFaceGen is employed in this study to evaluate and analyze the performance of 13 mainstream face forgery detection techniques from various perspectives. Through extensive experimental analysis, we derive significant findings and propose potential directions for future research. The code and dataset for DeepFaceGen are available at https://github.com/HengruiLou/DeepFaceGen.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 勧告に対するソフトマックス直接選好最適化について

On Softmax Direct Preference Optimization for Recommendation ( http://arxiv.org/abs/2406.09215v2 )

ライセンス: Link先を確認
Yuxin Chen, Junfei Tan, An Zhang, Zhengyi Yang, Leheng Sheng, Enzhi Zhang, Xiang Wang, Tat-Seng Chua, (参考訳) リコメンダシステムは、ユーザの好みデータに基づいて、パーソナライズされたランキングを予測することを目的としている。 言語モデル(LM)の台頭に伴い、LMベースの推薦者は、その豊富な世界知識と強力な推論能力のために広く研究されてきた。 LMベースのレコメンデータのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲットの応答として肯定的な項目とペアリングし、言語モデリングの損失を微調整する。 しかし、現在の目標は、好みデータを完全に活用できず、パーソナライズされたランキングタスクに最適化されていないため、LMベースのレコメンデータのパフォーマンスを損なう。 人選好アライメントにおける直接選好最適化(DPO)の現在の発展と、リコメンデーションにおけるソフトマックスロスの成功にインスパイアされた私たちは、ALMをベースとした推奨者が好む項目と負の項目を区別するのを助けるために、LMにランキング情報を注入するソフトマックスDPO(S-DPO)を提案する。 具体的には、ユーザ嗜好データに複数の負を組み込んで、軟質マックスサンプリング戦略に関連するLMベースのレコメンデータに適したDPO損失の代替版を考案する。 理論的には、S-DPOを負のサンプリングよりもソフトマックス損失で橋渡しし、ハードネガティブをマイニングする副作用があることを発見し、レコメンデーションタスクにおいてその例外的な能力を保証する。 実世界の3つのデータセットで実施された広範な実験は、S-DPOの優位性を示し、ユーザの好みを効果的にモデル化し、DPOのデータ可能性低下問題を緩和しつつ、推奨性能をさらに向上させる。 私たちのコードはhttps://github.com/chenyuxin 1999/S-DPO.comで公開されています。

Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (S-DPO) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has a side effect of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while mitigating the data likelihood decline issue of DPO. Our codes are available at https://github.com/chenyuxin1999/S-DPO.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 変圧器を用いた拡散モデルによる結晶構造の逆解析

Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers ( http://arxiv.org/abs/2406.09263v2 )

ライセンス: Link先を確認
Izumi Takahara, Kiyou Shibata, Teruyasu Mizoguchi, (参考訳) 近年のディープラーニングの進歩により、テキスト、画像、オーディオの大規模なデータセット上で生成モデルをトレーニングすることで、現実的なデータ生成が可能になった。 これらのモデルは、斬新で可塑性なデータを生成する上で、例外的な性能を示してきたが、データ生成を通じて科学的発見を効果的に加速し、様々な科学分野に多大な進歩をもたらすことができるかどうかについては、未解決のままである。 特に、有望な性質を持つ新しい無機材料の発見は、科学的にも工業的にも重要な課題である。 しかし、テキストデータや画像データとは異なり、材料またはより具体的には結晶構造は、格子ベクトル、原子の位置、原子種を含む複数の種類の変数から構成される。 このようなデータの複雑さは、そのようなデータを表現し、生成するための様々なアプローチを生み出します。 したがって、結晶構造の生成モデルの設計選択は未解決の問題である。 そこで本研究では,トランスフォーマーアーキテクチャに基づくバックボーンを用いた,結晶構造の生成的逆設計のための新しいタイプの拡散モデルについて検討する。 我々のモデルは、所望の特性を持つ結晶構造を生成するための汎用性において、従来の方法よりも優れていることを実証する。 さらに,実験結果から,最適条件付け手法はデータセットによって異なることが示唆された。

Recent advances in deep learning have enabled the generation of realistic data by training generative models on large datasets of text, images, and audio. While these models have demonstrated exceptional performance in generating novel and plausible data, it remains an open question whether they can effectively accelerate scientific discovery through the data generation and drive significant advancements across various scientific fields. In particular, the discovery of new inorganic materials with promising properties poses a critical challenge, both scientifically and for industrial applications. However, unlike textual or image data, materials, or more specifically crystal structures, consist of multiple types of variables - including lattice vectors, atom positions, and atomic species. This complexity in data give rise to a variety of approaches for representing and generating such data. Consequently, the design choices of generative models for crystal structures remain an open question. In this study, we explore a new type of diffusion model for the generative inverse design of crystal structures, with a backbone based on a Transformer architecture. We demonstrate our models are superior to previous methods in their versatility for generating crystal structures with desired properties. Furthermore, our empirical results suggest that the optimal conditioning methods vary depending on the dataset.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# AlignMMBench: 大規模視覚言語モデルにおける中国のマルチモーダルアライメントの評価

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models ( http://arxiv.org/abs/2406.09295v2 )

ライセンス: Link先を確認
Yuhang Wu, Wenmeng Yu, Yean Cheng, Yan Wang, Xiaohan Zhang, Jiazheng Xu, Ming Ding, Yuxiao Dong, (参考訳) 視覚言語モデル(VLM)のアライメント能力を評価することは,その有効性を決定する上で重要である。 しかし、既存のベンチマークは主に、Yes-noやMulti-choiceのような非言語的手法を用いた基本的な能力に焦点を当てている。 本稿では,中国の新興VLM向けに設計された総合的なアライメントベンチマークであるAlignMMBenchを導入することで,このギャップに対処する。 このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。 即時書き直し戦略を取り入れたAlignMMBenchは1,054のイメージと4,978の質問応答ペアを含んでいる。 評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。 最後に,AlignMMBench上でのVLMの代表的な性能について報告する。 すべての評価コードとデータはhttps://alignmmbench.github.ioで公開されている。

Evaluating the alignment capabilities of large Vision-Language Models (VLMs) is essential for determining their effectiveness as helpful assistants. However, existing benchmarks primarily focus on basic abilities using nonverbal methods, such as yes-no and multiple-choice questions. In this paper, we address this gap by introducing AlignMMBench, a comprehensive alignment benchmark specifically designed for emerging Chinese VLMs. This benchmark is meticulously curated from real-world scenarios and Chinese Internet sources, encompassing thirteen specific tasks across three categories, and includes both single-turn and multi-turn dialogue scenarios. Incorporating a prompt rewrite strategy, AlignMMBench encompasses 1,054 images and 4,978 question-answer pairs. To facilitate the evaluation pipeline, we propose CritiqueVLM, a rule-calibrated evaluator that exceeds GPT-4's evaluation ability. Finally, we report the performance of representative VLMs on AlignMMBench, offering insights into the capabilities and limitations of different VLM architectures. All evaluation codes and data are available on https://alignmmbench.github.io.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 基本モデルに対するパラメータ効率の良いアクティブラーニング

Parameter-Efficient Active Learning for Foundational models ( http://arxiv.org/abs/2406.09296v2 )

ライセンス: Link先を確認
Athmanarayanan Lakshmi Narayanan, Ranganath Krishnan, Amrutha Machireddy, Mahesh Subedar, (参考訳) 基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。 本研究は,高度に予算が制約された分類タスクにおけるサンプリング選択プロセスを進めるために,アクティブラーニング(AL)フレームワークにおけるパラメータ効率のよい微調整手法の適用に関する新たな研究である。 アウト・オブ・ディストリビューション特性で知られている画像データセットに注目することは、我々の研究に複雑さと関連性をもたらす。 より詳細な評価を通じて、これらの挑戦的なデータセット上でのAL性能の改善について説明し、パラメータを効率的に微調整する手法と基礎モデルを組み合わせるという戦略上の利点を強調した。 このことは、AL戦略の最適化に関する幅広い議論に寄与し、特定のドメインにおける効率的かつ効果的なデータアノテーションに基礎モデルを活用するための将来的な道のりを示す。

Foundational vision transformer models have shown impressive few shot performance on many vision tasks. This research presents a novel investigation into the application of parameter efficient fine-tuning methods within an active learning (AL) framework, to advance the sampling selection process in extremely budget constrained classification tasks. The focus on image datasets, known for their out-of-distribution characteristics, adds a layer of complexity and relevance to our study. Through a detailed evaluation, we illustrate the improved AL performance on these challenging datasets, highlighting the strategic advantage of merging parameter efficient fine tuning methods with foundation models. This contributes to the broader discourse on optimizing AL strategies, presenting a promising avenue for future exploration in leveraging foundation models for efficient and effective data annotation in specialized domains.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# ProxyLM:プロキシモデルによる多言語タスクにおける言語モデルのパフォーマンス予測

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models ( http://arxiv.org/abs/2406.09334v2 )

ライセンス: Link先を確認
David Anugraha, Genta Indra Winata, Chenyue Li, Patrick Amadeus Irawan, En-Shiun Annie Lee, (参考訳) 性能予測は、様々な自然言語処理(NLP)タスクにおける言語モデル(LM)の性能を推定し、モデルキャパシティと微調整のためのデータに関連する計算コストを軽減する手法である。 本稿では,多言語タスクにおけるプロキシモデルを用いて,LM性能を予測するスケーラブルなフレームワークであるProxyLMを紹介する。 これらのプロキシモデルは、関心のあるLMのパフォーマンスを近似する代理として機能する。 ProxyLMは、プロキシモデルを活用することにより、タスク評価の計算オーバーヘッドを大幅に削減し、最小のプロキシモデルであっても、従来の手法と比較して37.08倍の高速化を実現します。 さらに,本手法は,事前学習したLMにおける未確認言語への適応性を示し,ルート平均二乗誤差(RMSE)によって測定された最先端性能を1.89倍に向上させる。 このフレームワークはモデル選択を合理化し、広範囲の計算資源を使わずに効率的なデプロイメントと反復的なLM拡張を可能にする。

Performance prediction is a method to estimate the performance of Language Models (LMs) on various Natural Language Processing (NLP) tasks, mitigating computational costs associated with model capacity and data for fine-tuning. Our paper introduces ProxyLM, a scalable framework for predicting LM performance using proxy models in multilingual tasks. These proxy models act as surrogates, approximating the performance of the LM of interest. By leveraging proxy models, ProxyLM significantly reduces computational overhead on task evaluations, achieving up to a 37.08x speedup compared to traditional methods, even with our smallest proxy models. Additionally, our methodology showcases adaptability to previously unseen languages in pre-trained LMs, outperforming the state-of-the-art performance by 1.89x as measured by root-mean-square error (RMSE). This framework streamlines model selection, enabling efficient deployment and iterative LM enhancements without extensive computational resources.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# ワンダーワールド:1枚の画像からインタラクティブな3Dシーン生成

WonderWorld: Interactive 3D Scene Generation from a Single Image ( http://arxiv.org/abs/2406.09394v2 )

ライセンス: Link先を確認
Hong-Xing Yu, Haoyi Duan, Charles Herrmann, William T. Freeman, Jiajun Wu, (参考訳) We present WonderWorld, a novel framework for interactive 3D scene extrapolation which users to explore and shape virtual environment based on a single input image and user-specified text。 シーン生成の視覚的品質は大幅に改善されているが、既存のメソッドはオフラインで実行され、シーンを生成するのに何分から数時間かかる。 高速ガウスサーフェルスと誘導拡散に基づく深さ推定法を利用して、WonderWorldは幾何的に一貫した外挿を生成し、計算時間を著しく短縮する。 このフレームワークは,1つのA6000 GPU上で,接続された多種多様な3Dシーンを10秒未満で生成し,リアルタイムなユーザインタラクションと探索を可能にする。 我々は、仮想現実、ゲーム、クリエイティブデザインにおけるアプリケーションに対するWonderWorldの可能性を示し、ユーザーは単一の画像から没入的で潜在的に無限の仮想世界を素早く生成し、ナビゲートすることができる。 我々のアプローチはインタラクティブな3Dシーン生成において大きな進歩を示し、仮想環境におけるユーザ主導のコンテンツ作成と探索の新たな可能性を開く。 再現性のための完全なコードとソフトウェアをリリースします。 プロジェクトWebサイト: https://WonderWorld-2024.github.io/

We present WonderWorld, a novel framework for interactive 3D scene extrapolation that enables users to explore and shape virtual environments based on a single input image and user-specified text. While significant improvements have been made to the visual quality of scene generation, existing methods are run offline, taking tens of minutes to hours to generate a scene. By leveraging Fast Gaussian Surfels and a guided diffusion-based depth estimation method, WonderWorld generates geometrically consistent extrapolation while significantly reducing computational time. Our framework generates connected and diverse 3D scenes in less than 10 seconds on a single A6000 GPU, enabling real-time user interaction and exploration. We demonstrate the potential of WonderWorld for applications in virtual reality, gaming, and creative design, where users can quickly generate and navigate immersive, potentially infinite virtual worlds from a single image. Our approach represents a significant advancement in interactive 3D scene generation, opening up new possibilities for user-driven content creation and exploration in virtual environments. We will release full code and software for reproducibility. Project website: https://WonderWorld-2024.github.io/
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14
# 4M-21: タスクとモダリティの対話型ビジョンモデル

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities ( http://arxiv.org/abs/2406.09406v2 )

ライセンス: Link先を確認
Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir, (参考訳) 4MやUnifiedIOのような現在のマルチモーダルおよびマルチタスク基盤モデルは、有望な結果を示しているが、実際には、様々な入力を受け入れ、多様なタスクを実行する能力は、訓練対象のモダリティやタスクの数によって制限される。 本稿では,数十種類の多種多様なモダリティを単一モデルで学習し,大規模マルチモーダルデータセットとテキストコーパスで協調学習を行うことにより,それらの能力を拡張する。 この中には、DINOv2やImageBindのような最近の最先端モデルのフィーチャーマップ、SAMや4DHumansのようなスペシャリストモデルの擬似ラベル、モデルと対話し、画像メタデータやカラーパレットなどの生成を制御できる新しいモダリティなど、いくつかの意味的および幾何学的モダリティのトレーニングが含まれている。 このプロセスの重要なステップは、画像のような、ニューラルネットワークの特徴マップ、ベクトル、インスタンスのセグメンテーションや人間のポーズのような構造化されたデータ、あるいはテキストとして表現できるデータなど、さまざまなモダリティに対して離散的なトークン化を実行することだ。 これにより、マルチモーダルモデルのアウト・オブ・ボックス機能を拡張し、特に1つのモデルで既存のモデルよりも3倍以上のタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを行う可能性を示す。 これにより、よりきめ細かな制御可能なマルチモーダル生成が可能となり、多様なデータと目的に基づいて訓練されたモデルの蒸留を統一されたモデルに研究することができる。 数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。 得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.
翻訳日:2024-06-17 12:17:38 公開日:2024-06-14